Data Science
NDBI048 - ZS 2025
Obecné informace:
-
Anotace (zdroj: SIS)
- Čas a místo přednášky: středa 9:00 S4
- Čas a místo cvičení: středa 10:40 S4 (Noste si, prosím, vlastní
počítač!)
- Přednáší: Irena Holubová a zástupci firmy
Profinit (viz níže)
- Podrobnosti:
- Předpokládá se základní znalost programování v Pythonu a základní znalosti (ale
ne nutně úspěšné absolvování zkoušky) z následujících předmětů:
- Výuka bude probíhat v češtině, slajdy budou k dispozici v angličtině.
- Konzultace budou probíhat na základě individuální dohody.
- V rámci cvičení budeme využívat následující nástroje (nainstalujte si
hned pro první cvičení) - ještě bude upřesněno:
-
- Zápočet:
- Na cvičeních bude aktuálně probírané téma z přednášky prakticky předvedeno na
“školní” datové sadě.
- Každý student si na začátku semestru zvolí vlastní datovou sadu, buď z nabídky
uvedené v Datasets
Overview/Datasets Instructions (které budou představeny na první přednášce)
nebo vlastní, kterou si nechá schválit. Na tuto sadu bude postupně aplikovat úkoly
specifikované na cvičeních, které budou odpovídat probíraným tématům, a průběžně
bude vypracovávat report popisující výsledky. V polovině semestru každý student na
cvičeních předvede vyučujícímu a zkonzultuje aktuální stav a na konci semestru
odevzdá výsledný report.
- Reporty budou hodnoceny takto:
- Za výsledný report je možné od cvičícího získat až 50 bodů.
- V polovině semestru každý student (ve vlastním zájmu) s vyučujícími osobně
zkonzultuje aktuální stav reportu a další plánované kroky. (Za nesplnění tohoto
kroku bude strženo 10 bodů.)
- Výsledný report bude odevzdán v daném termínu - viz níže. (Za každý den
zpoždění bude stržen 1 bod.)
- Každý student dostane následně přiřazeny 2 (anonymizované) reporty svých
kolegů, které ohodnotí (bodově i slovně). Každému může přidělit 0-5 bodů. (Za
neodevzdání jednoho hodnocení mu bude strženo 10 bodů. Chybějící hodnocení dodá
vyučující.)
- Po obdržení hodnocení projektu má student možnost odevzdat opravu, kterou
už provede pouze vyučující (tj. body od kolegů zůstávají). Výsledný počet
získaných bodů pak bude odpovídat průměru bodového ohodnocení obou verzí.
- Očekávanou strukturu reportu popisuje dokument: Structure of Report
-
Ukázkový příklad reportu z
předchozích let
- Minimum pro získání zápočtu: 40 bodů (z 60ti možných)
-
Evidence bodů
-
- Zkouška:
- Proběhne formou písemného testu (cca 10 teoretických i praktických otázek,
průřez celým semestrem), z něhož je možné získat až 100 bodů.
- K získaným bodům z testu budou přičteny nadlimitní body ze cvičení.
- Převod bodů na známku: > 50 bodů = známka 3, > 65 bodů = známka 2, >
85 bodů = známka 1
Průběh přednášek a cvičení:
-
1.10. 2025 - Organizace předmětu, požadavky na zápočet/zkoušku. Co
je to data science. Fáze data science projektu, metodika CRISP-DM. Business
Understanding.
- Přednáší: Irena Holubová, Jan
Hučín
-
8.10. 2025 - Data understanding – explorace a získávání poznatků z
dat. Jaké otázky si klademe a jaké jsou obvyklé problémy v datech. Data profiling.
- Přednáší: Jan Hučín, Anna
Michálková
-
15.10. 2025 - Metody explorace a vizualizace dat.
- Přednáší: Irena Holubová, Jan
Hučín
-
22.10. 2025 - Tvorba srozumitelného reportu.
-
-
22.10. 2025 - volba vlastního datasetu
(Pošlete e-mailem Vaši
volbu, popř. alternativu. Aktuální stav viz Evidence
bodů.)
-
-
29.10. 2025 - Statistické pasti a paradoxy, limity statistických
metod.
- Přednáší: Jan Hučín, Petr Hála
-
5.11. 2025 - Data preparation – příprava a čištění dat. Nápočet
příznaků z dat (feature extraction, feature engineering) a s tím spojené problémy.
- Přednáší: Jan Hučín, Eva
Blažková
-
12.11. 2025 - výuka odpadá (Děkanský sportovní den)
-
19.11. 2025 - Modelování I – základní principy. Supervised
modelování, výběr a vyhodnocení modelu.
-
26.11. 2025 - Modelování II – clustering, empirické a semisupervised
modelování.
- Přednáší: Anna Michálková, Michal
Sekerka
-
-
5. - 26.11. 2025 - individuální předvedení
aktuálního stavu zpracování reportu v rámci cvičení (bude otevřeno přihlašování do
konkrétních slotů)
-
-
3.12. 2025 - Bayesovský přístup – princip, klasifikátor, empirický
Bayes. Praktické důsledky.
-
10.12. 2025 - Pokročilé technologie pro Data Science: MLops,
pipelines, implementace
-
17.12. 2025 - Data Science a umělá inteligence.
- Přednáší: zástupce firmy Profinit (bude upřesněno)
-
7.1. 2026 - Moderní DB systémy v Data Science. Cloudové platformy
(Azure, Databricks).
- Přednáší: Irena Holubová, zástupce
firmy Profinit (bude upřesněno)
-
-
11.1. 2026 - odevzdání reportu (emailem)
-
13.1. 2026 - přiřazení 2 reportů kolegů k
ohodnocení
-
20.1. 2026 - odevzdání hodnocení reportů
kolegů
-
27.1. 2026 - ohodnocení reportů od
vyučujících
-
2.2. 2026 - (nepovinná) možnost odevzdání
opravené verze reportu