Data Science
NDBI048 - ZS 2023
Obecné informace:
-
Anotace (zdroj: SIS)
- Čas a místo přednášky: středa 9:00 S4
- Čas a místo cvičení: středa 10:40 S4 (Noste si, prosím, vlastní
počítač!)
- Přednáší: Irena Holubová a zástupci firmy
Profinit (viz níže)
- Podrobnosti:
- Předpokládají se základní znalosti (ale ne nutně úspěšné absolvování zkoušky) z
následujících předmětů:
a základní znalost programování v Pythonu.
- Výuka bude probíhat v češtině, slajdy budou k dispozici v angličtině.
- Konzultace budou probíhat na základě individuální dohody.
- V rámci cvičení budeme využívat následující nástroje:
- Zápočet:
- Na cvičeních bude aktuálně probírané téma z přednášky prakticky předvedeno
na “školní” datové sadě.
- Každý student si na začátku semestru zvolí vlastní datovou sadu (z nabídky
uvedené v Datasets
Overview/Datasets Instructions nebo vlastní, kterou si nechá schválit). Na
tuto sadu bude postupně aplikovat úkoly specifikované na cvičeních, které budou
odpovídat probíraným tématům.
- V polovině a na konci semestru každý student odevzdá report popisující
výsledky.
- První report (co víme o datech) - průběžné hodnocené kvality: 0 až 25
bodů (za každý den zpoždění -1 bod)
- Druhý report (co jsme z dat zjistili) - finální hodnocení kvality: 0 až
25 (za každý den zpoždění -1 bod)
-
Struktura
reportu
- Minimum pro získání zápočtu: 35 bodů
-
Evidence bodů
- Zkouška:
- Proběhne formou písemného testu (cca 10 teoretických i praktických otázek,
průřez celým semestrem), z něhož je možné získat až 50 bodů.
- K získaným bodům z testu budou přičteny nadlimitní body ze cvičení.
- Převod bodů na známku: > 25 bodů = známka 3, > 30 bodů = známka 2,
> 40 bodů = známka 1
Průběh přednášek a cvičení:
-
4.10. 2022 - Organizace předmětu, požadavky na zápočet/zkoušku. Co
je to data science, typické případy použití, přehled souvisejících metod a
technologií, mapa navazujících přednášek. Fáze data science projektu, metodika
CRISP-DM.
-
11.10. 2023 - Technologie pro data science I: Přehled a srovnání
technologií.
- Přednáší: Dominik Matula
- Podklady: Technologies
I.
- Cvičení: Technologický stack (ukázky na školní datové sadě)
-
18.10. 2023 - Tvorba srozumitelného reportu
- Přednáší: Dominik Matula
- Podklady: Reporting
- Cvičení: Ukázky dobrých a špatných reportů, samostatná práce na vlastním
reportu, otázky
- Cvičí: Dominik Matula
- Podklady: Reports
-
18.10. 2023 - volba vlastního datasetu
(Pošlete e-mailem Vaši
volbu, popř. alternativu. Aktuální stav viz Evidence bodů.)
-
-
25.10. 2023 - Business understanding, data understanding.
-
1.11. 2023 - Metody explorace a vizualizace dat.
- Přednáší: Irena Holubová
- Podklady:
Visualization Techniques
- Cvičení: Seznámení s daty, data understanding, explorace dat
-
8.11. 2023 - Příprava dat (čištění, transformace, extrakce příznaků,
...)
- Přednáší: Irena Holubová
- Podklady: Data
Preparation
- Cvičení: Transformace, extrakce příznaků
-
15.11. 2023 - Modelování I: Základní statistické modely a
vyhodnocování výkonnosti
- Přednáší: Jan Hučín
- Podklady: Modeling I
- Cvičení: Aplikace přednesených metod na školní dataset, optimalizace modelu
-
15.11. 2023 - odevzdání prvního reportu
(emailem)
-
-
22.11. 2023 - Modelování II
- Přednáší: Jan Hučín
- Podklady: Modeling II
- Cvičení: Aplikace přednesených metod na školní dataset
-
29.11. 2023 - Racionalistické konsekvence
- Přednáší: Petr Paščenko
- Podklady: Modeling III
- Cvičení: Klasifikace textu bayesovským modelem - ukázka a vlastní rozšíření
-
6.12. 2023 - Technologie pro data science II: MLOps verzování,
dokumentace
- Přednáší: Tomáš Duda
- Podklady: MLOps
- Cvičení: MLFlow verzování
- Cvičí: Tomáš Duda
- Podklady: MLOps
-
13.12. 2023 - Big Data science, MapReduce/Apache Spark a data
science
- Přednáší: Irena Holubová
- Podklady: Big Data
Science
- Cvičení: Využití MapReduce nad vlastní datovou sadou
- Cvičí: Irena Holubová
- Podklady MapReduce: MapReduce
- Podklady Spark: Spark
-
20.12. 2023 - Úvod do moderních databázových systémů
- Přednáší: Irena Holubová
- Podklady: Modern Database Systems
- Cvičení: Připojení dat v jiném formátu k vlastní datové sadě, rozšíření o nové
informace s využitím moderních databázových systémů
-
3.1. 2024 - Limity statistických metod, zkreslení.
-
10.1. 2024 - Manažerský pohled na data science projekt. Projektový
seminář.
- Přednáší: Petr Paščenko
- Podklady: Ukázky
reportů
- Cvičení: není (možná dokončení přednášky)
-
10.1. 2024 - odevzdání druhého reportu
(emailem)
-
-
25.1. 2024 - ohodnocení reportů
-
-
1.2. 2024 - (nepovinná) možnost odevzdání
opravené verze reportu