Moderní databázové systémy
NDBI040 - ZS 2024 [English version]
Obecné informace:
- Anotace (zdroj: SIS)
- Čas a místo přednášky: čtvrtek 09:00 S4
- Čas a místo cvičení: čtvrtek 10:40 SU2, čtvrtek 14:00 SW2
- Přednáší a cvičí: Irena Holubová, Stefanie Scherzinger (University of Passau, e-mail)
- Podrobnosti:
- U studentů se předpokládají znalosti v rozsahu přednášky NDBI025 - Databázové systémy.
- Výuka bude probíhat částečně v češtině (Irena Holubová) a částečně v angličtině (Stefanie Scherzinger), slajdy a další zdroje budou k dispozici v angličtině. Přednášky prof. Scherzinger budou probíhat v "překlopeném" režimu, tj. nejpozději na předchozí přednášce dostanete podklady k nastudování (typicky video nebo text) a na dané přednášce proběhne rekapitulace a procvičování.
- Pro práci na projektu Stefanie Scherzinger je třeba vyplnit, podepsat a odevzdat Declaration of Authenticity (lze poslat e-mailem).
- Konzultace budou probíhat na základě individuální dohody.
- Uživatelské jméno pro přístup k video záznamům z předchozích let (pouze části Ireny Holubové) je 'student', heslo bylo zasláno hromadným e-mailem. Pokud jste ho nedostali, napište mi.
- Pro přístup na nosql server (pro některá cvičení - viz instrukce níže) použijte
následující parametry:
- SSH: nosql.ms.mff.cuni.cz:42222
- Uživatelské jméno: mds_surname (např. Jan Novák má mds_novak)
- Heslo: Stejné jako k video záznamům (změňte si pomocí passwd)
- Možnosti získání bodů:
- Nepovinné DU ze cvičení: 0 - 2 body za každý DU (Celkem: 0 - 20 bodů)
- miniHive projekt: 0 - 30 bodů
- Na zápočet je třeba získat alespoň 25 bodů.
- Evidence výsledků
- Zkouška:
- Proběhne formou písemného testu, z něhož je možné získat až 100 bodů.
- K získaným bodům z testu budou přičteny body ze cvičení nad nutný limit pro zápočet.
- Převod bodů na známku: > 60 bodů = známka 3, > 75 bodů = známka 2, > 90 bodů = známka 1
- Související témata na bakalářky/diplomky/projekty kromě SISu najdete zde:
- Projekty - KSI (témata pod vedením I. Holubová / J. Bártík / P. Koupil)
- Jáchym Bártík
- Pavel Koupil
Průběh přednášek:
-
3.10.2024 - Relační model dat, relační databáze. Historický přehled
alternativních datových modelů a databázových systémů. Úvod do problematiky Big Data
(historie, vlastnosti, datové modely).
- Přednáší: Irena Holubová
- Podklady: lecture_DBhistory.pdf, lecture_introBigData.pdf
- Záznam přednášky: NDBI040-01-DBhistory.mp4 (155 MB), NDBI040-02-introBigData.mp4 (248 MB)
-
10.10.2024 - Distribuované souborové systémy. MapReduce – princip,
vlastnosti, kritika, alternativní přístupy.
- Přednáší: Irena Holubová, Stefanie Scherzinger
- Podklady: lecture_HDFS.pdf, lecture_mapreduce.pdf
- Záznam přednášky: NDBI040-03-HDFS.mp4 (28 MB), NDBI040-04-mapreduce.mp4 (43 MB)
-
17.10.2024 - Relační algebra a kanonický překlad SQL do relační
algebry.
- Přednáší: Stefanie Scherzinger
- Podklady: MDS_Prep1.pdf, MDS_FlippedClassroom1.pdf
-
24.10.2024 - Logická optimalizace v relační algebře.
- Přednáší: Stefanie Scherzinger
- Podklady: MDS_Prep2.pdf, MDS_FlippedClassroom2.pdf
-
31.10.2024 - Apache Spark. Základní principy Big Data managementu.
- Přednáší: Irena Holubová
- Podklady: lecture_spark.pdf, lecture_principles.pdf
- Záznam přednášky: NDBI040-05-spark.mp4 (96 MB), NDBI040-06-principles.mp4 (65 MB)
-
7.11.2024 - Překlad SQL do MapReduce. Komunikační náklady v
MapReduce.
- Přednáší: Stefanie Scherzinger
- Podklady: MDS_Prep3.pdf, MDS_FlippedClassroom3.pdf
-
14.11.2024 - Optimalizace MapReduce workflows.
- Přednáší: Stefanie Scherzinger
- Podklady: MDS_Prep4.pdf, MDS_FlippedClassroom4.pdf
-
21.11. 2024 - Přehled a klasifikace databázových systémů a
technologií pro efektivní správu a zpracování Big Data. NoSQL databáze klíč/hodnota.
- Přednáší: Irena Holubová
- Podklady: lecture_technologiesBigData.pdf, lecture_keyvalue.pdf
- Záznam přednášky: NDBI040-07-technologiesBigData.mp4 (66 MB), NDBI040-08-keyvalue.mp4 (141 MB)
-
28.11. 2024 - NoSQL databáze sloupcové
- Přednáší: Irena Holubová
- Podklady: lecture_column.pdf
- Záznam přednášky: NDBI040-09-column.mp4 (120 MB)
-
5.12. 2024 - NoSQL dokumentové databáze
- Přednáší: Irena Holubová
- Podklady: lecture_document.pdf
- Záznam přednášky: NDBI040-10-document.mp4 (108 MB)
-
12.12. 2024 - Grafová data a grafové databáze
- Přednáší: Irena Holubová
- Podklady: lecture_graph.pdf
- Záznam přednášky: NDBI040-11-graph.mp4 (81 MB) databáze
-
19.12. 2024 - Data s více modely. Multi-model databáze. Polystores.
- Přednáší: Irena Holubová
- Podklady: lecture_multimodel.pdf, lecture_polystores.pdf
- Záznam přednášky: NDBI040-12-multimodel.mp4 (87 MB), NDBI040-14-polystores.mp4 (51 MB)
-
9.1. 2025 - Další typy moderních databází. Jazyk SQL v prostředí Big
Data. NewSQL databáze. Databáze polí. Vyhledávací nástroje. Pokročilé principy Big
Data managementu.
- Přednáší: Irena Holubová
- Podklady: lecture_others.pdf, lecture_advanced.pdf
- Záznam přednášky: NDBI040-13-others.mp4 (124 MB), NDBI040-15-advanced.mp4 (147 MB)
Průběh cvičení:
-
3.10. 2024 - odpadá (nemáme co cvičit)
- Úkol do příště: Pokud neumíte Python, absolvujte první lekce bezplatného kurzu na Udacity Úvod do Programování v Pythonu (až do a bez kapitoly "Funkce"). Musíte se registrovat na Udacity, ale kurz je zdarma.
-
10.10. 2024 - MapReduce
- Přednáší: Stefanie Scherzinger
- Zdroje: MDS_Prague_Labs1.pdf
-
17.10. 2024 - Kick off I. milníku (deadline: 28.10. 2024)
- Přednáší: Stefanie Scherzinger
- Zdroje: MDS_Prague_Labs2.pdf, miniHiveMilestone1.pdf
-
24.10. 2024 - Kick off II. milníku (deadline: 11.11. 2024)
- Přednáší: Stefanie Scherzinger
- Zdroje: Manual_Praktomat.pdf, miniHiveMilestone2.pdf
-
31.10. 2024 - Apache Spark: 02_practicals_spark.pdf, 02_practicals_commands.txt
- Přednáší: Irena Holubová
- Záznam cvičení: NDBI040cv-02-spark.mp4 (128 MB)
- Další zdroj: cvičení Pavla Koupila
-
7.11. 2024 - Kick off III. milníku (deadline: 2.12. 2024)
- Přednáší: Stefanie Scherzinger
- Zdroje: miniHiveMilestone3.pdf
-
14.11. 2024 - Kick off IV. milníku (deadline: 16.12. 2024)
- Přednáší: Stefanie Scherzinger
- Zdroje: miniHiveMilestone4.pdf
-
21.11. 2024 - Riak: 04_practicals_riak.pdf, 04_practicals_commands.txt
Redis: 03_practicals_redis.pdf, 03_practicals_commands.txt- Přednáší: Irena Holubová
- Záznam cvičení: NDBI040cv-04-riak.mp4 (45 MB), NDBI040cv-03-redis.mp4 (35 MB)
- Další zdroj: cvičení Pavla Koupila (Riak), cvičení Pavla Koupila (Redis)
-
28.11. 2024 - Apache Cassandra: 05_practicals_column.pdf,
05_practicals_commands.txt
- Přednáší: Irena Holubová
- Záznam cvičení: NDBI040cv-05-cassandra.mp4 (16 MB)
- Další zdroj: cvičení Pavla Koupila
-
5.12. 2024 - MongoDB: 06_practicals_document.pdf, 06_practicals_commands.txt
- Záznam cvičení: NDBI040cv-06-mongodb.mp4 (18 MB)
- Další zdroj: cvičení Pavla Koupila
-
12.12. 2024 - Neo4j: 07_practicals_graph.pdf, 07_practicals_commands.txt
- Záznam cvičení: NDBI040cv-07-neo4j.mp4 (25 MB)
- Další zdroj: cvičení Pavla Koupila
-
19.12. 2024 - PostgreSQL: 08_practicals_multimodel.pdf, 08_practicals_commands.txt
- Záznam cvičení: NDBI040cv-08-postgresql.mp4 (17 MB)
- Další zdroj: cvičení Pavla Koupila
-
9.1. 2025 - SciDB: 09_practicals_array.pdf, 09_practicals_commands.txt
Elasticsearch: 10_practicals_elastic.pdf, 10_practicals_commands.txt- Záznam cvičení: NDBI040cv-09-scidb.mp4 (59 MB), NDBI040cv-10-elastic.mp4 (30 MB)
- Další zdroj: cvičení Pavla Koupila (SciDB), cvičení Pavla Koupila (Elasticsearch)
Literatura:
Odkazy na zdroje viz jednotlivé prezentace. Většinu informací je možné nalézt v knize Big Data a NoSQL databáze.