Data Science
NDBI048 - ZS 2024
Obecné informace:
-
Anotace (zdroj: SIS)
- Čas a místo přednášky: středa 9:00 S4
- Čas a místo cvičení: středa 10:40 S4 (Noste si, prosím, vlastní
počítač!)
- Přednáší: Irena Holubová a zástupci firmy
Profinit (viz níže)
- Podrobnosti:
- Předpokládají se základní znalosti (ale ne nutně úspěšné absolvování zkoušky) z
následujících předmětů:
a základní znalost programování v Pythonu.
- Výuka bude probíhat v češtině, slajdy budou k dispozici v angličtině.
- Konzultace budou probíhat na základě individuální dohody.
- V rámci cvičení budeme využívat následující nástroje (nainstalujte si
hned pro první cvičení):
- Zápočet:
- Na cvičeních bude aktuálně probírané téma z přednášky prakticky předvedeno
na “školní” datové sadě.
- Každý student si na začátku semestru zvolí vlastní datovou sadu, buď z
nabídky uvedené v
Datasets Overview/Datasets Instructions (které budou představeny na první
přednášce) nebo vlastní, kterou si nechá schválit. Na tuto sadu bude postupně
aplikovat úkoly specifikované na cvičeních, které budou odpovídat probíraným
tématům, a průběžně bude vypracovávat report popisující výsledky. V polovině
semestru každý student na cvičeních předvede vyučujícímu a zkonzultuje
aktuální stav a na konci semestru odevzdá výsledný report.
- Reporty budou hodnoceny takto:
- Za výsledný report je možné od cvičícího získat až 50 bodů.
- V polovině semestru každý student (ve vlastním zájmu) s vyučujícími
osobně zkonzultuje aktuální stav reportu a další plánované kroky. (Za
nesplnění tohoto kroku bude strženo 10 bodů.)
- Výsledný report bude odevzdán v daném termínu - viz níže. (Za každý den
zpoždění bude stržen 1 bod.)
- Každý student dostane následně přiřazeny 2 (anonymizované) reporty
svých kolegů, které ohodnotí (bodově i slovně). Každému může přidělit 0-5
bodů. (Za neodevzdání jednoho hodnocení mu bude strženo 10 bodů. Chybějící
hodnocení dodá vyučující.)
- Po obdržení hodnocení projektu má student možnost odevzdat opravu,
kterou už provede pouze vyučující (tj. body od kolegů zůstávají). Výsledný
počet získaných bodů pak bude odpovídat průměru bodového ohodnocení obou
verzí.
- Očekávanou strukturu reportu popisuje dokument: Struture of
Report
- Ukázkový příklad reportu z předchozích let
- Minimum pro získání zápočtu: 40 bodů (z 60ti možných)
-
Evidence bodů
- Zkouška:
- Proběhne formou písemného testu (cca 10 teoretických i praktických otázek,
průřez celým semestrem), z něhož je možné získat až 100 bodů.
- K získaným bodům z testu budou přičteny nadlimitní body ze cvičení.
- Převod bodů na známku: > 50 bodů = známka 3, > 65 bodů = známka 2,
> 85 bodů = známka 1
Průběh přednášek a cvičení:
-
2.10. 2024 - Organizace předmětu, požadavky na zápočet/zkoušku. Co
je to data science, typické případy použití, přehled souvisejících metod a
technologií, mapa navazujících přednášek. Fáze data science projektu, metodika
CRISP-DM.
- Přednáší: Irena Holubová
- Podklady: Introduction, CRISP-DM Methodology
- Cvičení: Představení nabídky datových sad, technické požadavky, instalace a
rozběhání Jupyteru
-
9.10. 2024 - Technologie pro data science I: Práce s datasety v
Pythonu
- Přednáší: Dominik Matula
- Podklady: Technologies
I.
- Cvičení: Rozběhání Pythonu a procvičení pandas
-
16.10. 2024 - Business understanding, data understanding.
-
16.10. 2024 - volba vlastního datasetu
(Pošlete e-mailem Vaši
volbu, popř. alternativu. Aktuální stav viz Evidence bodů.)
-
-
23.10. 2024 - Metody explorace a vizualizace dat.
-
30.10. 2024 - Tvorba srozumitelného reportu
- Přednáší: Dominik Matula
- Podklady: Effective DS Reporting
- Cvičení: Vyprávíme pohádku o datech - ukázky dobrých a špatných reportů,
vytvoření vlastního mikroreportu
- Cvičí: Dominik Matula, Jan
Hučín
- Podklady: viz přednáška
-
30.10. - 27.11. 2024 - možnost předvést a
zkonzultovat aktuální stav reportu na cvičeních
-
-
6.11. 2024 - Příprava dat (čištění, transformace, extrakce příznaků,
...)
- Přednáší: Irena Holubová
- Podklady: Data
Preparation
- Cvičení: Co si napočítat z dat
-
13.11. 2024 - Modelování I: Základy modelování a vyhodnocování
výkonnosti
-
20.11. 2024 - Modelování II: Clustering, redukce dimenze
- Přednáší: Jan Hučín
- Podklady: Modeling III
- Cvičení: Hledání podezřelých pomocí empirických metrik
-
27.11. 2024 - Bayesovské uvažování a racionalistické konsekvence
- Přednáší: Petr Paščenko
- Podklady: Modeling IV
- Cvičení: Klasifikace textu bayesovským modelem - ukázka a vlastní rozšíření
-
4.12. 2024 - Technologie pro data science II: MLOps, automatizace,
verzování, dokumentace
- Přednáší: Dominik Matula
- Podklady: MLOps
- Cvičení: Použití MLOps technologií při modelování, mlflow
- Cvičí: Dominik Matula
- Podklady: viz přednáška
-
11.12. 2024 - přednáška i cvičení odpadají, místo nich je možné
konzultovat aktuální stav projektu
-
18.12. 2024 Big Data science science
- Přednáší: Irena Holubová
- Podklady: Big Data
Science
- Cvičení: Zpracováváme velká data
-
8.1. 2025 - Limity statistických metod, zkreslení. Manažerský pohled
na data science projekt. Data Science a ChatGPT.
-
12.1. 2025 - odevzdání reportu (emailem)
-
-
13.1. 2025 - přiřazení 2 reportů kolegů k
ohodnocení
-
-
19.1. 2025 - odevzdání hodnocení reportů
kolegů
-
-
26.1. 2025 - ohodnocení reportů od
vyučujících
-
-
2.2. 2025 - (nepovinná) možnost odevzdání
opravené verze reportu