Týmové projekty

Informatika - Softwarové a datové inženýrství

Důležité dokumenty

Nabízené projekty

Výzkumné projekty

Název:Webový nástroj pro komparativní analýzu sekundárních struktur RNA
Nadřazený projekt:Traveler
Popis:Cílem projektu je vytvořit webový plugin, který umožní porovnání různych 2D struktur RNA, které jsou kresleny na základě stejného "půdorysu" nástrojem Traveler, který byl dříve vyvinut na KSI MFF UK a je ustředním nástrojem pro vizualizaci struktur v RNAcentral, centrálním repozitáři RNA dat. Nástroj by měl být schopen detekovat společné struktury ve skupině struktur, vizualizaovat jednotlivé podmnožiny struktur a přehledně zvýrazňovat odlišnosti.
Kontakt:David Hoksza
 
Název:Web server pro analýzu APO a HOLO form 3D struktury proteinů
Nadřazený projekt:Databáze APO a HOLO párů
Popis:Cílem projektu je vývoj webového rozhraní, umožňující vizualizovat rozdíly mezi proteiny v APO (bez navázané molekuly) a HOLO (s navázanou molekulou) v 3D. Výsledný web server umožní vyhledávat dvojice struktur podle různych kritérií, zobrazovat statistiky podkladové databázat a vizualizovat n-tice struktur se zvýrazněním relevantních údajů o vizualizovaných proteinech z různých API. Projekt navazuje na právě vznikající databázi APO a HOLO párů.
Kontakt:David Hoksza
 
Název:Webový interface pro analýzu aktivních míst 3D struktury proteinů
Nadřazený projekt:P2Rank
Popis:Cílem projektu je přetvoření rozhraní projektu P2Rank tak, aby umožňovalo efektivné vizualizaci identifikovaných aktivních míst. Výsledné GUI by mělo umožnit přehlednou vizualizaci aktivních míst a jejich srovnání s dalšími anotacemi proteinové struktury získanými z různých veřejně přístupných API.
Kontakt:David Hoksza
 
Název:LP-ETL: Paralelizace zpracování
Nadřazený projekt:Nástroj pro transformace webových dat LinkedPipes ETL
Popis:Student se zapojí do vývoje nástroje na získávání, transformaci a ukládání dat s důrazem na propojená (webová) data LinkedPipes ETL, který ve výzkumné skupině dlouhodobě vyvíjíme, a který definuje datové transformace jako procesy složené z propojených, znovuvyužitelných komponent. Nástroj má již řadu produkčních instancí jak v ČR, tak ve světě. Jednotlivé transformace se aktuálně provádí sekvenčně. Tématem projektu by bylo navrhnout, implementovat a otestovat přístup k paralelizaci spouštění nezávislých částí transformace.
Kontakt:Petr Škoda
 
Název:LP-ETL: Proudové zpracování
Nadřazený projekt:Nástroj pro transformace webových dat LinkedPipes ETL
Popis:Student se zapojí do vývoje nástroje na získávání, transformaci a ukládání dat s důrazem na propojená (webová) data LinkedPipes ETL, který ve výzkumné skupině dlouhodobě vyvíjíme, a který definuje datové transformace jako procesy složené z propojených, znovuvyužitelných komponent. Nástroj má již řadu produkčních instancí jak v ČR, tak ve světě. Každý krok transformace aktuálně čeká, až zcela doběhne předchozí krok. Tématem projektu by bylo navrhnout, implementovat a otestovat úpravu provádění tak, že jednotlivé komponenty nebudou muset čekat na úplné dokončení předchozího kroku a budou moci pracovat i s částečnými výsledky, což by mělo zefektivnit využití dostupných výpočetních zdrojů.
Kontakt:Petr Škoda
 
Název:LP-ETL: Ukládání konfigurace do Solid podů
Nadřazený projekt:Nástroj pro transformace webových dat LinkedPipes ETL
Popis:Student se zapojí do vývoje nástroje na získávání, transformaci a ukládání dat s důrazem na propojená (webová) data LinkedPipes ETL, který ve výzkumné skupině dlouhodobě vyvíjíme, a který definuje datové transformace jako procesy složené z propojených, znovuvyužitelných komponent. Nástroj má již řadu produkčních instancí jak v ČR, tak ve světě. Konfigurace transformačních procesů se aktuálně ukládají do souborového systému na serveru, kde je nástroj nasazen. Tématem projektu by bylo umožnit konfigurace ukládat a sdílet v Solid podech - osobních webových datových úložištích využívajících principů propojených dat a decentralizace Webu.
Kontakt:Jakub Klímek
 
Název:LP-ETL: Podpora více druhů knihoven pro reprezentaci RDF dat
Nadřazený projekt:Nástroj pro transformace webových dat LinkedPipes ETL
Popis:Student se zapojí do vývoje nástroje na získávání, transformaci a ukládání dat s důrazem na propojená (webová) data LinkedPipes ETL, který ve výzkumné skupině dlouhodobě vyvíjíme, a který definuje datové transformace jako procesy složené z propojených, znovuvyužitelných komponent. Nástroj má již řadu produkčních instancí jak v ČR, tak ve světě. Jednotlivé kroky transformačních procesů si předávají RDF data skrz úložiště, které je implementováno pomocí Eclipse rdf4j. Pro některé druhy zpracování dat by ale bylo vhodnější data reprezentovat pomocí jiné implementace, jako je např. Apache Jena. Tématem projektu by bylo navrhnout, implementovat a otestovat způsob, jak různé tyto jiné knihovny nejlépe začlenit do existujícího nástroje.
Kontakt:Jakub Klímek
 
Název:LP-ETL: Distribuované zpracování
Nadřazený projekt:Nástroj pro transformace webových dat LinkedPipes ETL
Popis:Student se zapojí do vývoje nástroje na získávání, transformaci a ukládání dat s důrazem na propojená (webová) data LinkedPipes ETL, který ve výzkumné skupině dlouhodobě vyvíjíme, a který definuje datové transformace jako procesy složené z propojených, znovuvyužitelných komponent. V současné době je možné spustit datovou transformaci pouze na jednom výpočetním stroji, v jednom procesu. Tématem projektu by bylo navrhnout, implementovat a otestovat způsob jak automaticky datovou transformaci rozdělit a umožnit její efektivní vykonání na více strojích současně.
Kontakt:Petr Škoda
 
Název:Generování dokumentace a schémat datových formátů na základě ontologického modelu
Nadřazený projekt:Datové modelování a generování schémat
Popis:Data a datová interoperabilita jsou stále důležitější složkou softwarového vývoje. Softwarový systém často stojí na datech, zpracovává je a vyměňuje si je s jinými systémy. K tomu je nutné vyvinout řadu prvků - datová schémata popisující strukturu dat (např. JSON schémata, CSV schémata, XML schémata nebo RDF slovníky), kód obsluhující takto strukturovaná data, transformační kód konvertující data z jedné podoby do druhé (např. mezi dvěma různými JSON formáty) nebo REST API pro výměnu dat mezi různými systémy. V neposlední řadě je pak nutno vše dokumentovat. To je spousta programátorské, testovací a dokumentační práce. Přitom je často zbytečná, protože je rutinní a triviální. V rámci výzkumného projektu se snažíme najít způsoby, jak ji automatizovat. Student se zapojí do výzkumného projektu, v rámci kterého vyvíjíme postupy a software pro generování datové dokumentace a schémat pro různé datové formáty na základě ontologického modelu dané domény (např. turistických cílů).
Kontakt:Jakub Klímek
 
Název:GraphQL API pro SPARQL endpoint
Nadřazený projekt:Datové modelování a generování schémat
Popis:GraphQL je populární způsob zpřístupnění dat na straně serveru, který cílí na větší efektivitu oproti přístupu podle principů REST. Mezi hlavní koncepty patří integrace více datových zdrojů a možnost klienta definovat jaká přesně data od serveru chce, tedy vyhnout se tzv. underfetchingu a overfetchingu. Integrace datových zdrojů probíhá jejich spojením do společného schématu, jenž je pak použito pro GraphQL endpoint. Toto schéma tak definuje graf, který propojuje různé entity. SPARQL je dotazovacím jazykem nad RDF modelem. Jedním z hlavních problémů použití jazyka SPARQL je jeho zdánlivá složitost a nutnost znát schéma dat v RDF, na která se uživatel dotazuje. V současné době existují přístupy, jenž umožňují použít GraphQL nad SPARQL endpointem. Tyto přístupy však vyžadují ruční definici schématu dat v daném endpointu a to buď formou GraphQL dotazu, nebo rozšířeného GraphQL schématu. Tyto přístupy tak stále vyžadují znalost schématu, jenž je jednou z hlavních překážek při dotazování nad RDF daty. Tématem projektu je navrhnout, implementovat a otestovat způsob jak automaticky zpřístupnit RDF data v SPARQL endpointu skrze automaticky generované GraphQL rozhraní.
Kontakt:Petr Škoda
 
Název:Knowledge graph browser - vizualizace objektů na časových osách a v časových souvislostech
Nadřazený projekt:Vizualizace znalostních grafů
Popis:Student se zapojí do projektu vizualizace a explorace znalostních grafů. Znalostní grafy jsou databázové struktury v podobě matematického grafu, ve kterých jsou reprezentovány znalosti o entitách reálného světa. Příkladem znalostního grafu je např. Wikidata nebo DBPedia. Např. Google je využívá pro zvyšování relevance výsledků vyhledávání. Důležitou oblastí je prezentace znalostních grafů pro běžné uživatele tak, aby mohli s obsaženými znalostmi pracovat. Zde se dostáváme k problematice jejich vizualizace a explorace. Student rozšíří vizualizační možnosti Knowledge graph browseru o vizualizaci entit znalostních grafů, ke kterým je připojena časová informace (např. období vlády panovníků ve znalostním grafu panovníků českých zemí). Rozšíření umožní přepnout vizualizaci grafu nebo jeho vybrané části do zobrazení v časové ose, přičemž grafové vazby zůstanou stále vizuálně zachovány. Bude umožněno filtrování zobrazené části grafu dle časových hodnot. Řešení také umožní zobrazení na více časových osách, kde různé časové osy odpovídají různým časovým vlastnostem nebo různým typům uzlů grafu (např. období vlády panovníků na jedné ose a období trvání různých říší a států na druhé ose a vizualizace souvislostí mezi oběma osami).
Kontakt:Martin Nečaský
 
Název:Knowledge graph visual browser - optimalizace zobrazování větších grafů
Nadřazený projekt:Vizualizace znalostních grafů
Popis:Student se zapojí do projektu vizualizace a explorace znalostních grafů. Znalostní grafy jsou databázové struktury v podobě matematického grafu, ve kterých jsou reprezentovány znalosti o entitách reálného světa. Příkladem znalostního grafu je např. Wikidata nebo DBPedia. Např. Google je využívá pro zvyšování relevance výsledků vyhledávání. Důležitou oblastí je prezentace znalostních grafů pro běžné uživatele tak, aby mohli s obsaženými znalostmi pracovat. Zde se dostáváme k problematice jejich vizualizace a explorace. Student se zaměří na zobrazování větších grafů (řádově tisíce uzlů a více, např. znalostní graf všech olympioniků, jejich sportů, týmů, soutěží a medailí v celé historii Olympijských her). To současné řešení nepodporuje, protože zobrazuje plný detail grafu. To je částečně výkonnostní problém, jedná se však především o problém přehlednosti pro uživatele. Student implementuje techniky, které velký graf zjednoduší tak, aby bylo možné jej vizualizovat v prohlížeči a pro uživatele přehledně (např. kondenzace uzlů a hran či jejich seskupování do skupin). Řešení také umožní vybranou část grafu zobrazit v plném detailu.
Kontakt:Martin Nečaský
 
Název:Knowledge graph visual browser - filtrování zobrazených uzlů
Nadřazený projekt:Vizualizace znalostních grafů
Popis:Student se zapojí do projektu vizualizace a explorace znalostních grafů. Znalostní grafy jsou databázové struktury v podobě matematického grafu, ve kterých jsou reprezentovány znalosti o entitách reálného světa. Příkladem znalostního grafu je např. Wikidata nebo DBPedia. Např. Google je využívá pro zvyšování relevance výsledků vyhledávání. Důležitou oblastí je prezentace znalostních grafů pro běžné uživatele tak, aby mohli s obsaženými znalostmi pracovat. Zde se dostáváme k problematice jejich vizualizace a explorace. V současné době má knowledge graph browser implementovány pouze omezené možnosti filtrování zobrazených uzlů. Je možné filtrovat podle typu uzlu a podle jeho stupně v grafu (počet hran uzlu). Možných způsobů filtrování je ale daleko více. Student se zaměří na obdobu klasického facetového filtrování, ve kterém systém zobrazuje facety pro jednotlivé vlastnosti prvků v daném seznamu a umožňuje uživateli filtrovat pomocí hodnot vlastností. Vyvine komponentu, která bude vytvářet facety podle grafových vlastností uzlů, kde vlastností není pouze název a stupeň, ale i další vlastnosti uzlů a také cesty, které z uzlů vedou (např. pro uzly typu politik, z nichž vedou cesty do uzlu politická strana nabídne komponenta facet umožňující filtrování uzlů typu politik dle jejich napojení na politickou stranu).
Kontakt:Martin Nečaský
 
Název:Validátor CSV on the Web
Nadřazený projekt:Podpora moderních specifikací pro webová data tvorbou nástrojů
Popis:CSV on the Web je sada doporučení konsorcia W3C - webový standard pro popis tabulkových CSV souborů na Webu. Při správném popisu pak umožňuje na takový CSV soubor pohlížet i jako na propojená data v RDF. Tématem projektu je implementovat validátor CSV on the Web souborů a jejich deskriptorů, nebo dle dohody rozšířit již existující základní verzi tak, aby implementace procházela testy dle specifikace.
Kontakt:Jakub Klímek
 
Název:RDF distiller CSV on the Web
Nadřazený projekt:Podpora moderních specifikací pro webová data tvorbou nástrojů
Popis:CSV on the Web je sada doporučení konsorcia W3C - webový standard pro popis tabulkových CSV souborů na Webu. Při správném popisu pak umožňuje na takový CSV soubor pohlížet i jako na propojená data v RDF. Tématem projektu je implementovat tzv. RDF distiller, který pro vstupní CSV soubor a jeho deskriptor vygeneruje příslušná RDF data.
Kontakt:Jakub Klímek
 
Název:Bezeztrátové generování CSV on the Web souborů z RDF
Nadřazený projekt:Podpora moderních specifikací pro webová data tvorbou nástrojů
Popis:CSV on the Web je sada doporučení konsorcia W3C - webový standard pro popis tabulkových CSV souborů na Webu. Při správném popisu pak umožňuje na takový CSV soubor pohlížet i jako na propojená data v RDF. Pro řadu uživatelů dat je příjemnější pracovat s CSV soubory než s daty v RDF. Tématem projektu je navrhnout, implementovat a otestovat způsob, jak z RDF dat vygenerovat sadu CSV souborů popsaných CSV on the Web tak, aby došlo k co nejmenší ztrátě informace.
Kontakt:Jakub Klímek
 

Běžící projekty

Název:Thea
Popis:Mobilní a webová aplikace pro kavárny a vinárny
Supervizor:Jan Kofroň, KDSS
Zahájení:2.11.2020
 
Název:CUDA framework
Popis:Návrh a implementace frameworku pro vývoj vysoce optimalizovaných GPU algoritmů pro datovou analýzu a jejich následné použití v obecně dostupných knihovnách.
Konzultant:Miroslav Kratochvíl
Supervizor:Martin Kruliš
Zahájení:22.11.2020
 
Název:MantaPy
Popis:Data lineage of Python scripts
Konzultant:Lukáš Hermann, Manta Tools
Supervizor:Pavel Parízek, KDSS
Zahájení:1.1.2021
 

Team projects

in computer science master programs

Important documents