Data Science

NDBI048 - ZS 2024

Obecné informace:

  • Anotace (zdroj: SIS)
  • Čas a místo přednášky: středa 9:00 S4
  • Čas a místo cvičení: středa 10:40 S4 (Noste si, prosím, vlastní počítač!)
  • Přednáší: Irena Holubová a zástupci firmy Profinit (viz níže)
  • Podrobnosti:
    • Předpokládají se základní znalosti (ale ne nutně úspěšné absolvování zkoušky) z následujících předmětů:
      • Databázové systémy (NDBI025)
      • Pravděpodobnost a statistika I (NMAI059)
      a základní znalost programování v Pythonu.
    • Výuka bude probíhat v češtině, slajdy budou k dispozici v angličtině.
    • Konzultace budou probíhat na základě individuální dohody.
    • V rámci cvičení budeme využívat následující nástroje (nainstalujte si hned pro první cvičení):
    • Zápočet:
      • Na cvičeních bude aktuálně probírané téma z přednášky prakticky předvedeno na “školní” datové sadě.
      • Každý student si na začátku semestru zvolí vlastní datovou sadu, buď z nabídky uvedené v Datasets Overview/Datasets Instructions (které budou představeny na první přednášce) nebo vlastní, kterou si nechá schválit. Na tuto sadu bude postupně aplikovat úkoly specifikované na cvičeních, které budou odpovídat probíraným tématům, a průběžně bude vypracovávat report popisující výsledky. V polovině semestru každý student na cvičeních předvede vyučujícímu a zkonzultuje aktuální stav a na konci semestru odevzdá výsledný report.
      • Reporty budou hodnoceny takto:
        • Za výsledný report je možné od cvičícího získat až 50 bodů.
        • V polovině semestru každý student (ve vlastním zájmu) s vyučujícími osobně zkonzultuje aktuální stav reportu a další plánované kroky. (Za nesplnění tohoto kroku bude strženo 10 bodů.)
        • Výsledný report bude odevzdán v daném termínu - viz níže. (Za každý den zpoždění bude stržen 1 bod.)
        • Každý student dostane následně přiřazeny 2 (anonymizované) reporty svých kolegů, které ohodnotí (bodově i slovně). Každému může přidělit 0-5 bodů. (Za neodevzdání jednoho hodnocení mu bude strženo 10 bodů. Chybějící hodnocení dodá vyučující.)
        • Po obdržení hodnocení projektu má student možnost odevzdat opravu, kterou už provede pouze vyučující (tj. body od kolegů zůstávají). Výsledný počet získaných bodů pak bude odpovídat průměru bodového ohodnocení obou verzí.
      • Očekávanou strukturu reportu popisuje dokument: Struture of Report
      • Ukázkový příklad reportu z předchozích let
      • Minimum pro získání zápočtu: 40 bodů (z 60ti možných)
      • Evidence bodů
    • Zkouška:
      • Proběhne formou písemného testu (cca 10 teoretických i praktických otázek, průřez celým semestrem), z něhož je možné získat až 100 bodů.
      • K získaným bodům z testu budou přičteny nadlimitní body ze cvičení.
      • Převod bodů na známku: > 50 bodů = známka 3, > 65 bodů = známka 2, > 85 bodů = známka 1

Průběh přednášek a cvičení:

  • 2.10. 2024 - Organizace předmětu, požadavky na zápočet/zkoušku. Co je to data science, typické případy použití, přehled souvisejících metod a technologií, mapa navazujících přednášek. Fáze data science projektu, metodika CRISP-DM.
  • 9.10. 2024 - Technologie pro data science I: Práce s datasety v Pythonu
  • 16.10. 2024 - Business understanding, data understanding.
  • 16.10. 2024 - volba vlastního datasetu (Pošlete e-mailem Vaši volbu, popř. alternativu. Aktuální stav viz Evidence bodů.)

  • 23.10. 2024 - Metody explorace a vizualizace dat.
  • 30.10. 2024 - Tvorba srozumitelného reportu
    • Přednáší: Dominik Matula
    • Podklady: Effective DS Reporting
    • Cvičení: Vyprávíme pohádku o datech - ukázky dobrých a špatných reportů, vytvoření vlastního mikroreportu
      • Cvičí: Dominik Matula, Jan Hučín
      • Podklady: viz přednáška
  • 30.10. - 27.11. 2024 - možnost předvést a zkonzultovat aktuální stav reportu na cvičeních

  • 6.11. 2024 - Příprava dat (čištění, transformace, extrakce příznaků, ...)
  • 13.11. 2024 - Modelování I: Základy modelování a vyhodnocování výkonnosti
  • 20.11. 2024 - Modelování II: Clustering, redukce dimenze
  • 27.11. 2024 - Bayesovské uvažování a racionalistické konsekvence
    • Přednáší: Petr Paščenko
    • Podklady: Modeling IV
    • Cvičení: Klasifikace textu bayesovským modelem - ukázka a vlastní rozšíření
  • 4.12. 2024 - Technologie pro data science II: MLOps, automatizace, verzování, dokumentace
    • Přednáší: Dominik Matula
    • Podklady: MLOps
    • Cvičení: Použití MLOps technologií při modelování, mlflow
      • Cvičí: Dominik Matula
      • Podklady: viz přednáška
  • 11.12. 2024 - přednáška i cvičení odpadají, místo nich je možné konzultovat aktuální stav projektu
    • Přednáší: Jan Hučín
  • 18.12. 2024 Big Data science science
  • 8.1. 2025 - Limity statistických metod, zkreslení. Manažerský pohled na data science projekt. Data Science a ChatGPT.
  • 12.1. 2025 - odevzdání reportu (emailem)

  • 13.1. 2025 - přiřazení 2 reportů kolegů k ohodnocení

  • 19.1. 2025 - odevzdání hodnocení reportů kolegů

  • 26.1. 2025 - ohodnocení reportů od vyučujících

  • 2.2. 2025 - (nepovinná) možnost odevzdání opravené verze reportu