Data Science

NDBI048 - ZS 2025

Obecné informace:

  • Anotace (zdroj: SIS)
  • Čas a místo přednášky: středa 9:00 S4
  • Čas a místo cvičení: středa 10:40 S4 (Noste si, prosím, vlastní počítač!)
  • Přednáší: Irena Holubová (kontakt) a zástupci firmy Profinit (kontakt)
  • Podrobnosti:
    • Předpokládá se základní znalost programování v Pythonu a základní znalosti (ale ne nutně úspěšné absolvování zkoušky) z následujících předmětů:
      • Databázové systémy (NDBI025)
      • Pravděpodobnost a statistika I (NMAI059)
    • Výuka bude probíhat v češtině.
    • Konzultace budou probíhat na základě individuální dohody, popř. v rámci cvičení.
    • V rámci výuky budeme využívat nástroje specifikované v README v GitLab repository předmětu. (Pro ty, co ještě nemají přístup do GitLabu, zde.)

  • Zápočet:
    • Na cvičeních bude aktuálně probírané téma z přednášky prakticky předvedeno na “školní” datové sadě.
    • Každý student si na začátku semestru zvolí vlastní datovou sadu, buď z nabídky uvedené v Datasets Overview/Datasets Instructions (které budou představeny na první přednášce) nebo vlastní, kterou si nechá schválit. Na tuto sadu bude postupně aplikovat úkoly specifikované na cvičeních, které budou odpovídat probíraným tématům, a průběžně bude vypracovávat report popisující výsledky. V polovině semestru každý student na cvičeních předvede vyučujícímu a zkonzultuje aktuální stav a na konci semestru odevzdá výsledný report.
    • Reporty budou hodnoceny takto:
      • Za výsledný report je možné od cvičícího získat až 50 bodů.
      • V polovině semestru každý student (ve vlastním zájmu) s vyučujícími osobně zkonzultuje aktuální stav reportu a další plánované kroky. (Za nesplnění tohoto kroku bude strženo 10 bodů.)
      • Výsledný report bude odevzdán v daném termínu - viz níže. (Za každý den zpoždění bude stržen 1 bod.)
      • Každý student dostane následně přiřazeny 2 (anonymizované) reporty svých kolegů, které ohodnotí (bodově i slovně). Každému může přidělit 0-5 bodů. (Za neodevzdání jednoho hodnocení mu bude strženo 10 bodů. Chybějící hodnocení dodá vyučující.)
      • Po obdržení hodnocení projektu má student možnost odevzdat opravu, kterou už provede pouze vyučující (tj. body od kolegů zůstávají). Výsledný počet získaných bodů pak bude odpovídat průměru bodového ohodnocení obou verzí.
    • Očekávanou strukturu reportu popisuje dokument: Structure of Report
    • Ukázkový příklad reportu z předchozích let
    • Minimum pro získání zápočtu: 40 bodů (z 60ti možných)
    • Evidence bodů

  • Zkouška:
    • Proběhne formou písemného testu (cca 10 teoretických i praktických otázek, průřez celým semestrem), z něhož je možné získat až 100 bodů.
    • K získaným bodům z testu budou přičteny nadlimitní body ze cvičení.
    • Převod bodů na známku: > 50 bodů = známka 3, > 65 bodů = známka 2, > 85 bodů = známka 1

Průběh přednášek a cvičení:

  • 1.10. 2025 - Organizace předmětu, požadavky na zápočet/zkoušku. Co je to data science. Fáze data science projektu, metodika CRISP-DM. Business Understanding.

  • 8.10. 2025 - Data understanding – explorace a získávání poznatků z dat. Jaké otázky si klademe a jaké jsou obvyklé problémy v datech. Data profiling.
    • Přednáší: Jan Hučín, Anna Michálková
    • Podklady: Data Understanding
    • Cvičení: Poznáváme svět z dat
      • Cvičí: Jan Hučín, Anna Michálková
      • Podklady: Data Understanding (Pro ty, co ještě nemají přístup do GitLabu, zde.)

  • 15.10. 2025 - Metody explorace a vizualizace dat.

  • 22.10. 2025 - Tvorba srozumitelného reportu.
    • Přednáší: Dominik Matula
    • Podklady: Storytelling or Effective DS Reporting
    • Cvičení: Vyprávíme pohádku o datech - ukázky dobrých a špatných reportů, vytvoření vlastního mikroreportu
      • Cvičí: Dominik Matula
      • Podklady: Reporting

  • 22.10. 2025 - volba vlastního datasetu (Vyplňte do tohoto formuláře Vaši volbu, popř. alternativu. Aktuální stav viz Evidence bodů.)

  • 29.10. 2025 - Statistické pasti a paradoxy, limity statistických metod.

  • 5.11. 2025 - Data preparation – příprava a čištění dat. Nápočet příznaků z dat (feature extraction, feature engineering) a s tím spojené problémy.

  • 12.11. 2025 - výuka odpadá (Děkanský sportovní den)

  • 19.11. 2025 - Modelování I – základní principy. Supervised modelování, výběr a vyhodnocení modelu.
    • Přednáší: Jan Hučín
    • Podklady: Modeling overview
    • Cvičení: Aplikace přednesených metod na školní dataset, optimalizace modelu

  • 26.11. 2025 - Modelování II – clustering, empirické a semisupervised modelování.

  • 5.11. - 3.12. 2025 - individuální předvedení aktuálního stavu zpracování reportu v rámci cvičení (bude otevřeno přihlašování do konkrétních slotů)

  • 3.12. 2025 - Bayesovský přístup – princip, klasifikátor, empirický Bayes. Praktické důsledky.

  • 10.12. 2025 - Pokročilé technologie pro Data Science: MLOps, pipelines, implementace
    • Přednáší: Dominik Matula
    • Podklady: MLOps
    • Cvičení: Použití MLOps technologií při modelování

  • 17.12. 2025 - Data Science a umělá inteligence.
    • Přednáší: Jan Kozák
    • Podklady: Zavádění GenAI do praxe
    • Cvičení: Použití MLOps technologií při modelování
      • Podklady: viz slajdy z přednášky

  • 7.1. 2026 - PŘEDTERMÍN ZKOUŠKY

  • 11.1. 2026 - odevzdání reportu
  • 13.1. 2026 - přiřazení 2 reportů kolegů k ohodnocení
  • 20.1. 2026 - odevzdání hodnocení reportů kolegů
  • 27.1. 2026 - ohodnocení reportů od vyučujících
  • 2.2. 2026 - (nepovinná) možnost odevzdání opravené verze reportu