Data Science

NDBI048 - ZS 2023

Obecné informace:

  • Anotace (zdroj: SIS)
  • Čas a místo přednášky: středa 9:00 S4
  • Čas a místo cvičení: středa 10:40 S4 (Noste si, prosím, vlastní počítač!)
  • Přednáší: Irena Holubová a zástupci firmy Profinit (viz níže)
  • Podrobnosti:
    • Předpokládají se základní znalosti (ale ne nutně úspěšné absolvování zkoušky) z následujících předmětů:
      • Databázové systémy (NDBI025)
      • Pravděpodobnost a statistika I (NMAI059)
      a základní znalost programování v Pythonu.
    • Výuka bude probíhat v češtině, slajdy budou k dispozici v angličtině.
    • Konzultace budou probíhat na základě individuální dohody.
    • V rámci cvičení budeme využívat následující nástroje:
    • Zápočet:
      • Na cvičeních bude aktuálně probírané téma z přednášky prakticky předvedeno na “školní” datové sadě.
      • Každý student si na začátku semestru zvolí vlastní datovou sadu (z nabídky uvedené v Datasets Overview/Datasets Instructions nebo vlastní, kterou si nechá schválit). Na tuto sadu bude postupně aplikovat úkoly specifikované na cvičeních, které budou odpovídat probíraným tématům.
      • V polovině a na konci semestru každý student odevzdá report popisující výsledky.
        • První report (co víme o datech) - průběžné hodnocené kvality: 0 až 25 bodů (za každý den zpoždění -1 bod)
        • Druhý report (co jsme z dat zjistili) - finální hodnocení kvality: 0 až 25 (za každý den zpoždění -1 bod)
      • Struktura reportu
      • Minimum pro získání zápočtu: 35 bodů
      • Evidence bodů
    • Zkouška:
      • Proběhne formou písemného testu (cca 10 teoretických i praktických otázek, průřez celým semestrem), z něhož je možné získat až 50 bodů.
      • K získaným bodům z testu budou přičteny nadlimitní body ze cvičení.
      • Převod bodů na známku: > 25 bodů = známka 3, > 30 bodů = známka 2, > 40 bodů = známka 1

Průběh přednášek a cvičení:

  • 4.10. 2022 - Organizace předmětu, požadavky na zápočet/zkoušku. Co je to data science, typické případy použití, přehled souvisejících metod a technologií, mapa navazujících přednášek. Fáze data science projektu, metodika CRISP-DM.
  • 11.10. 2023 - Technologie pro data science I: Přehled a srovnání technologií.
  • 18.10. 2023 - Tvorba srozumitelného reportu
    • Přednáší: Dominik Matula
    • Podklady: Reporting
    • Cvičení: Ukázky dobrých a špatných reportů, samostatná práce na vlastním reportu, otázky
      • Cvičí: Dominik Matula
      • Podklady: Reports
  • 18.10. 2023 - volba vlastního datasetu (Pošlete e-mailem Vaši volbu, popř. alternativu. Aktuální stav viz Evidence bodů.)

  • 25.10. 2023 - Business understanding, data understanding.
  • 1.11. 2023 - Metody explorace a vizualizace dat.
  • 8.11. 2023 - Příprava dat (čištění, transformace, extrakce příznaků, ...)
  • 15.11. 2023 - Modelování I: Základní statistické modely a vyhodnocování výkonnosti
  • 15.11. 2023 - odevzdání prvního reportu (emailem)

  • 22.11. 2023 - Modelování II
  • 29.11. 2023 - Racionalistické konsekvence
    • Přednáší: Petr Paščenko
    • Podklady: Modeling III
    • Cvičení: Klasifikace textu bayesovským modelem - ukázka a vlastní rozšíření
  • 6.12. 2023 - Technologie pro data science II: MLOps verzování, dokumentace
    • Přednáší: Tomáš Duda
    • Podklady: MLOps
    • Cvičení: MLFlow verzování
      • Cvičí: Tomáš Duda
      • Podklady: MLOps
  • 13.12. 2023 - Big Data science, MapReduce/Apache Spark a data science
    • Přednáší: Irena Holubová
    • Podklady: Big Data Science
    • Cvičení: Využití MapReduce nad vlastní datovou sadou
      • Cvičí: Irena Holubová
      • Podklady MapReduce: MapReduce
      • Podklady Spark: Spark
  • 20.12. 2023 - Úvod do moderních databázových systémů
    • Přednáší: Irena Holubová
    • Podklady: Modern Database Systems
    • Cvičení: Připojení dat v jiném formátu k vlastní datové sadě, rozšíření o nové informace s využitím moderních databázových systémů
  • 3.1. 2024 - Limity statistických metod, zkreslení.
  • 10.1. 2024 - Manažerský pohled na data science projekt. Projektový seminář.
    • Přednáší: Petr Paščenko
    • Podklady: Ukázky reportů
    • Cvičení: není (možná dokončení přednášky)
  • 10.1. 2024 - odevzdání druhého reportu (emailem)

  • 25.1. 2024 - ohodnocení reportů

  • 1.2. 2024 - (nepovinná) možnost odevzdání opravené verze reportu