Data Science

NDBI048 - ZS 2025

Obecné informace:

  • Anotace (zdroj: SIS)
  • Čas a místo přednášky: středa 9:00 S4
  • Čas a místo cvičení: středa 10:40 S4 (Noste si, prosím, vlastní počítač!)
  • Přednáší: Irena Holubová a zástupci firmy Profinit (viz níže)
  • Podrobnosti:
    • Předpokládá se základní znalost programování v Pythonu a základní znalosti (ale ne nutně úspěšné absolvování zkoušky) z následujících předmětů:
      • Databázové systémy (NDBI025)
      • Pravděpodobnost a statistika I (NMAI059)
    • Výuka bude probíhat v češtině, slajdy budou k dispozici v angličtině.
    • Konzultace budou probíhat na základě individuální dohody.
    • V rámci cvičení budeme využívat následující nástroje (nainstalujte si hned pro první cvičení) - ještě bude upřesněno:

  • Zápočet:
    • Na cvičeních bude aktuálně probírané téma z přednášky prakticky předvedeno na “školní” datové sadě.
    • Každý student si na začátku semestru zvolí vlastní datovou sadu, buď z nabídky uvedené v Datasets Overview/Datasets Instructions (které budou představeny na první přednášce) nebo vlastní, kterou si nechá schválit. Na tuto sadu bude postupně aplikovat úkoly specifikované na cvičeních, které budou odpovídat probíraným tématům, a průběžně bude vypracovávat report popisující výsledky. V polovině semestru každý student na cvičeních předvede vyučujícímu a zkonzultuje aktuální stav a na konci semestru odevzdá výsledný report.
    • Reporty budou hodnoceny takto:
      • Za výsledný report je možné od cvičícího získat až 50 bodů.
      • V polovině semestru každý student (ve vlastním zájmu) s vyučujícími osobně zkonzultuje aktuální stav reportu a další plánované kroky. (Za nesplnění tohoto kroku bude strženo 10 bodů.)
      • Výsledný report bude odevzdán v daném termínu - viz níže. (Za každý den zpoždění bude stržen 1 bod.)
      • Každý student dostane následně přiřazeny 2 (anonymizované) reporty svých kolegů, které ohodnotí (bodově i slovně). Každému může přidělit 0-5 bodů. (Za neodevzdání jednoho hodnocení mu bude strženo 10 bodů. Chybějící hodnocení dodá vyučující.)
      • Po obdržení hodnocení projektu má student možnost odevzdat opravu, kterou už provede pouze vyučující (tj. body od kolegů zůstávají). Výsledný počet získaných bodů pak bude odpovídat průměru bodového ohodnocení obou verzí.
    • Očekávanou strukturu reportu popisuje dokument: Structure of Report
    • Ukázkový příklad reportu z předchozích let
    • Minimum pro získání zápočtu: 40 bodů (z 60ti možných)
    • Evidence bodů

  • Zkouška:
    • Proběhne formou písemného testu (cca 10 teoretických i praktických otázek, průřez celým semestrem), z něhož je možné získat až 100 bodů.
    • K získaným bodům z testu budou přičteny nadlimitní body ze cvičení.
    • Převod bodů na známku: > 50 bodů = známka 3, > 65 bodů = známka 2, > 85 bodů = známka 1

Průběh přednášek a cvičení:

  • 1.10. 2025 - Organizace předmětu, požadavky na zápočet/zkoušku. Co je to data science. Fáze data science projektu, metodika CRISP-DM. Business Understanding.
    • Přednáší: Irena Holubová, Jan Hučín
  • 8.10. 2025 - Data understanding – explorace a získávání poznatků z dat. Jaké otázky si klademe a jaké jsou obvyklé problémy v datech. Data profiling.
    • Přednáší: Jan Hučín, Anna Michálková
  • 15.10. 2025 - Metody explorace a vizualizace dat.
    • Přednáší: Irena Holubová, Jan Hučín
  • 22.10. 2025 - Tvorba srozumitelného reportu.
    • Přednáší: Dominik Matula

  • 22.10. 2025 - volba vlastního datasetu (Pošlete e-mailem Vaši volbu, popř. alternativu. Aktuální stav viz Evidence bodů.)

  • 29.10. 2025 - Statistické pasti a paradoxy, limity statistických metod.
    • Přednáší: Jan Hučín, Petr Hála
  • 5.11. 2025 - Data preparation – příprava a čištění dat. Nápočet příznaků z dat (feature extraction, feature engineering) a s tím spojené problémy.
    • Přednáší: Jan Hučín, Eva Blažková
  • 12.11. 2025 - výuka odpadá (Děkanský sportovní den)
  • 19.11. 2025 - Modelování I – základní principy. Supervised modelování, výběr a vyhodnocení modelu.
    • Přednáší: Jan Hučín
  • 26.11. 2025 - Modelování II – clustering, empirické a semisupervised modelování.
    • Přednáší: Anna Michálková, Michal Sekerka

  • 5. - 26.11. 2025 - individuální předvedení aktuálního stavu zpracování reportu v rámci cvičení (bude otevřeno přihlašování do konkrétních slotů)

  • 3.12. 2025 - Bayesovský přístup – princip, klasifikátor, empirický Bayes. Praktické důsledky.
    • Přednáší: Jan Hučín
  • 10.12. 2025 - Pokročilé technologie pro Data Science: MLops, pipelines, implementace
    • Přednáší: Dominik Matula
  • 17.12. 2025 - Data Science a umělá inteligence.
    • Přednáší: zástupce firmy Profinit (bude upřesněno)
  • 7.1. 2026 - Moderní DB systémy v Data Science. Cloudové platformy (Azure, Databricks).
    • Přednáší: Irena Holubová, zástupce firmy Profinit (bude upřesněno)

  • 11.1. 2026 - odevzdání reportu (emailem)
  • 13.1. 2026 - přiřazení 2 reportů kolegů k ohodnocení
  • 20.1. 2026 - odevzdání hodnocení reportů kolegů
  • 27.1. 2026 - ohodnocení reportů od vyučujících
  • 2.2. 2026 - (nepovinná) možnost odevzdání opravené verze reportu