Týmové projekty

Informatika - Softwarové a datové inženýrství

Důležité dokumenty

Nabízené projekty

Softwarové projekty


Výzkumné projekty

Name:Graphical editor of the conceptual model part of machine-readable data specifications
Parent project:Dataspecer - Datové modelování a generování schémat
Description:
Data interoperability is becoming a more and more important part of software engineering. Software systems are often built around data and processing and exchanging data with other systems. For this exchange to work, a governing data specification is needed. Such a data specification typically consists of, e.g., data schemas, human-readable documentation, examples, etc. However, at the moment, these specifications often have the form of a set of individual, disconnected artifacts. Within this project, we work on a machine-readable representation of a data specification and its contents, including relations to other specifications.The main contribution of this project is the development of a graphical editor for the conceptual model part of the specification otherwise managed in Dataspecer.
Contact:Jakub Klímek
 
Název:Expanding the Dataspecer Tool for Streamlined API Creation and Management
Nadřazený projekt:Dataspecer - Datové modelování a generování schémat
Popis:
You've probably heard of APIs and how they enable different software systems to communicate with each other. In today's world, having a well-defined and documented API is crucial for software and data development. However, creating APIs is not a walk in the park. You need to define the operations and input and output data structures, which can be challenging when dealing with complex software systems. Moreover, maintaining a set of consistent and semantically correct APIs across different versions is no easy feat.
That's where the Dataspecer tool comes in. It currently supports automated creation of data schemas, but the goal of this project is to extend its capabilities to define entire APIs in industry-standard formats such as OpenAPI and AsyncAPI. By using a defined conceptual data model, we aim to generate not just input and output data structures, but also API operations and understandable documentation. We aim at simplifying the task of defining and maintaining APIs for complex software systems.
By participating in this project, you'll gain valuable experience in cutting-edge software development practices and work with industry-standard API specifications like OpenAPI and AsyncAPI. You'll contribute to enhancing the Dataspecer tool, revolutionizing API creation and maintenance across various systems. Don't miss out on this chance to be part of an innovative project that could redefine the future of API development.
Kontakt:Martin Nečaský
 
Název:Harnessing the Power of Large Language Models for Conceptual Modeling in Dataspecer
Nadřazený projekt:Dataspecer - Datové modelování a generování schémat
Popis:
Conceptual modeling plays a crucial role in data and software engineering, serving as the foundation for designing complex systems and offering a clear representation of the domain. However, creating precise and comprehensive conceptual models remains a challenge for many engineers. In this project, we aim to explore how large language models can be harnessed to develop an intelligent assistant that guides human modelers in creating structured conceptual models from an abundance of existing resources, including unstructured verbose textual sources, emails, and stakeholder interview notes, as well as structured resources, including existing database structures or excel spreadsheets where users collect their proprietary data. The goal is to support and streamline the modeling process, enhancing the overall quality of data and software engineering projects.
In this project, students will have the opportunity to delve into cutting-edge artificial intelligence and data engineering technologies by working with large language models and applying them to real-world problems. The project's success could open new doors for AI-driven conceptual modeling assistance tools and revolutionize how we design and develop intricate systems. By joining this project, you'll contribute to the future of data and software engineering, honing your skills and making a tangible impact on the field. Don't miss this chance to be part of an innovative research endeavor that could transform the way we approach conceptual modeling in data and software engineering with the help of intelligent assistants.
Kontakt:Martin Nečaský
 
Název:Revolutionizing Data Querying with AI-Powered Chatbots
Nadřazený projekt:Dataspecer - Datové modelování a generování schémat
Popis:
Imagine you're working at your university's data center, where there are countless databases containing tons of valuable information. These databases aren't just used for the school's own systems, but they're also used to generate reports, analyze data, and manage information in general. Basically, the entire school depends on being able to find answers to questions hidden in the data as quickly as possible. But there's a problem - there are only a few employees who really understand both the organization and the databases, and they're the only ones who can translate management's questions into database queries. This creates a bottleneck, where the people who have questions far outnumber the employees who can help them.
The goal of this project is to create a chatbot that anyone in the organization can use to ask questions. The chatbot will refine the query through conversation and eventually translate it into an evaluatable database query. This means that instead of relying on a few knowledgeable employees, anyone can get the information they need quickly and easily. To make this possible, we'll use Large Language Models (LLMs). But we won't stop there - we'll refine the chatbot's knowledge with a conceptual data model of the organization and technical data artifacts generated from it in Dataspecer.
By joining this research project, you'll play an important role in transforming how your university's data center operates, making valuable information more accessible to everyone. You'll have the opportunity to work with cutting-edge Large Language Models and contribute to the development of a chatbot that streamlines database querying. This experience will not only enhance your technical skills but also enable you to make a tangible impact on the way data-driven insights are obtained within the organization. Don't miss this chance to be part of an important project that combines advanced technology and practical problem-solving.
Kontakt:Martin Nečaský
 
Název:Integrace nástrojů pro správu multi-modelových dat
Nadřazený projekt:MM-evocat
Popis:Cílem projektu je integrace nástrojů MM-evocat (tvorba schématu multi-modelových dat, realizace změn ve schématu a jejich propagace do dat), MM-infer (odvození schématu z již existujících dat) a MM-quecat (dotazování se nad multi-modelovými daty) a implementace vybrané chybějící funkcionality. Výsledkem bude uživatelsky přívětivý a modulární nástroj, který umožňuje modelování nebo odvození struktury multi-modelových dat, dotazování se nad multi-modelovými daty a realizovat změny ve struktuře dat spolu s propagací těchto změn do dat a úložné strategie.
Kontakt:Pavel Koupil
 
Název:Webový nástroj pro komparativní analýzu sekundárních struktur RNA
Nadřazený projekt:Traveler
Popis:Cílem projektu je vytvořit webový plugin, který umožní porovnání různych 2D struktur RNA, které jsou kresleny na základě stejného "půdorysu" nástrojem Traveler, který byl dříve vyvinut na KSI MFF UK a je ustředním nástrojem pro vizualizaci struktur v RNAcentral, centrálním repozitáři RNA dat. Nástroj by měl být schopen detekovat společné struktury ve skupině struktur, vizualizaovat jednotlivé podmnožiny struktur a přehledně zvýrazňovat odlišnosti.
Kontakt:David Hoksza
 
Název:Web server pro analýzu APO a HOLO form 3D struktury proteinů
Nadřazený projekt:Databáze APO a HOLO párů
Popis:Cílem projektu je vývoj webového rozhraní, umožňující vizualizovat rozdíly mezi proteiny v APO (bez navázané molekuly) a HOLO (s navázanou molekulou) v 3D. Výsledný web server umožní vyhledávat dvojice struktur podle různych kritérií, zobrazovat statistiky podkladové databázat a vizualizovat n-tice struktur se zvýrazněním relevantních údajů o vizualizovaných proteinech z různých API. Projekt navazuje na právě vznikající databázi APO a HOLO párů.
Kontakt:David Hoksza
 
Název:Webový interface pro analýzu aktivních míst 3D struktury proteinů
Nadřazený projekt:P2Rank
Popis:Cílem projektu je přetvoření rozhraní projektu P2Rank tak, aby umožňovalo efektivné vizualizaci identifikovaných aktivních míst. Výsledné GUI by mělo umožnit přehlednou vizualizaci aktivních míst a jejich srovnání s dalšími anotacemi proteinové struktury získanými z různých veřejně přístupných API.
Kontakt:David Hoksza
 
Název:Analýza AlphaFold2 predikcí
Nadřazený projekt:P2Rank
Popis: Nedávno publikoval tým DeepMind (Google) deep learning metodu pro predikci proteinových struktur s názvem AlphaFold2 (AF2), která dalece překonala stávající metody. Cílem tohoto datově orientovaného projektu je analýza AF2 predikcí. Důraz bude kladen na zjištění, jak moc AF2 reálně přispívá k rozšíření strukturního prostoru proteinů při přihlédnutí k AF2 "confidence score", které uvádí, jak důvěryhodná je predikce v konkrétním místě.
Kontakt:David Hoksza
 
Název:LP-ETL: Paralelizace zpracování
Nadřazený projekt:Nástroj pro transformace webových dat LinkedPipes ETL
Popis:Student se zapojí do vývoje nástroje na získávání, transformaci a ukládání dat s důrazem na propojená (webová) data LinkedPipes ETL, který ve výzkumné skupině dlouhodobě vyvíjíme, a který definuje datové transformace jako procesy složené z propojených, znovuvyužitelných komponent. Nástroj má již řadu produkčních instancí jak v ČR, tak ve světě. Jednotlivé transformace se aktuálně provádí sekvenčně. Tématem projektu by bylo navrhnout, implementovat a otestovat přístup k paralelizaci spouštění nezávislých částí transformace.
Kontakt:Petr Škoda
 
Název:LP-ETL: Proudové zpracování
Nadřazený projekt:Nástroj pro transformace webových dat LinkedPipes ETL
Popis:Student se zapojí do vývoje nástroje na získávání, transformaci a ukládání dat s důrazem na propojená (webová) data LinkedPipes ETL, který ve výzkumné skupině dlouhodobě vyvíjíme, a který definuje datové transformace jako procesy složené z propojených, znovuvyužitelných komponent. Nástroj má již řadu produkčních instancí jak v ČR, tak ve světě. Každý krok transformace aktuálně čeká, až zcela doběhne předchozí krok. Tématem projektu by bylo navrhnout, implementovat a otestovat úpravu provádění tak, že jednotlivé komponenty nebudou muset čekat na úplné dokončení předchozího kroku a budou moci pracovat i s částečnými výsledky, což by mělo zefektivnit využití dostupných výpočetních zdrojů.
Kontakt:Petr Škoda
 
Název:LP-ETL: Ukládání konfigurace do Solid podů
Nadřazený projekt:Nástroj pro transformace webových dat LinkedPipes ETL
Popis:Student se zapojí do vývoje nástroje na získávání, transformaci a ukládání dat s důrazem na propojená (webová) data LinkedPipes ETL, který ve výzkumné skupině dlouhodobě vyvíjíme, a který definuje datové transformace jako procesy složené z propojených, znovuvyužitelných komponent. Nástroj má již řadu produkčních instancí jak v ČR, tak ve světě. Konfigurace transformačních procesů se aktuálně ukládají do souborového systému na serveru, kde je nástroj nasazen. Tématem projektu by bylo umožnit konfigurace ukládat a sdílet v Solid podech - osobních webových datových úložištích využívajících principů propojených dat a decentralizace Webu.
Kontakt:Jakub Klímek
 
Název:LP-ETL: Podpora více druhů knihoven pro reprezentaci RDF dat
Nadřazený projekt:Nástroj pro transformace webových dat LinkedPipes ETL
Popis:Student se zapojí do vývoje nástroje na získávání, transformaci a ukládání dat s důrazem na propojená (webová) data LinkedPipes ETL, který ve výzkumné skupině dlouhodobě vyvíjíme, a který definuje datové transformace jako procesy složené z propojených, znovuvyužitelných komponent. Nástroj má již řadu produkčních instancí jak v ČR, tak ve světě. Jednotlivé kroky transformačních procesů si předávají RDF data skrz úložiště, které je implementováno pomocí Eclipse rdf4j. Pro některé druhy zpracování dat by ale bylo vhodnější data reprezentovat pomocí jiné implementace, jako je např. Apache Jena. Tématem projektu by bylo navrhnout, implementovat a otestovat způsob, jak různé tyto jiné knihovny nejlépe začlenit do existujícího nástroje.
Kontakt:Jakub Klímek
 
Název:LP-ETL: Distribuované zpracování
Nadřazený projekt:Nástroj pro transformace webových dat LinkedPipes ETL
Popis:Student se zapojí do vývoje nástroje na získávání, transformaci a ukládání dat s důrazem na propojená (webová) data LinkedPipes ETL, který ve výzkumné skupině dlouhodobě vyvíjíme, a který definuje datové transformace jako procesy složené z propojených, znovuvyužitelných komponent. V současné době je možné spustit datovou transformaci pouze na jednom výpočetním stroji, v jednom procesu. Tématem projektu by bylo navrhnout, implementovat a otestovat způsob jak automaticky datovou transformaci rozdělit a umožnit její efektivní vykonání na více strojích současně.
Kontakt:Petr Škoda
 
Název:Generování dokumentace a schémat datových formátů na základě ontologického modelu
Nadřazený projekt:Dataspecer - Datové modelování a generování schémat
Popis:Data a datová interoperabilita jsou stále důležitější složkou softwarového vývoje. Softwarový systém často stojí na datech, zpracovává je a vyměňuje si je s jinými systémy. K tomu je nutné vyvinout řadu prvků - datová schémata popisující strukturu dat (např. JSON schémata, CSV schémata, XML schémata nebo RDF slovníky), kód obsluhující takto strukturovaná data, transformační kód konvertující data z jedné podoby do druhé (např. mezi dvěma různými JSON formáty) nebo REST API pro výměnu dat mezi různými systémy. V neposlední řadě je pak nutno vše dokumentovat. To je spousta programátorské, testovací a dokumentační práce. Přitom je často zbytečná, protože je rutinní a triviální. V rámci výzkumného projektu se snažíme najít způsoby, jak ji automatizovat. Student se zapojí do výzkumného projektu, v rámci kterého vyvíjíme postupy a software pro generování datové dokumentace a schémat pro různé datové formáty na základě ontologického modelu dané domény (např. turistických cílů).
Kontakt:Jakub Klímek
 
Název:Validátor CSV on the Web
Nadřazený projekt:Podpora moderních specifikací pro webová data tvorbou nástrojů
Popis:CSV on the Web je sada doporučení konsorcia W3C - webový standard pro popis tabulkových CSV souborů na Webu. Při správném popisu pak umožňuje na takový CSV soubor pohlížet i jako na propojená data v RDF. Tématem projektu je implementovat validátor CSV on the Web souborů a jejich deskriptorů, nebo dle dohody rozšířit již existující základní verzi tak, aby implementace procházela testy dle specifikace.
Kontakt:Jakub Klímek
 
Název:RDF distiller CSV on the Web
Nadřazený projekt:Podpora moderních specifikací pro webová data tvorbou nástrojů
Popis:CSV on the Web je sada doporučení konsorcia W3C - webový standard pro popis tabulkových CSV souborů na Webu. Při správném popisu pak umožňuje na takový CSV soubor pohlížet i jako na propojená data v RDF. Tématem projektu je implementovat tzv. RDF distiller, který pro vstupní CSV soubor a jeho deskriptor vygeneruje příslušná RDF data.
Kontakt:Jakub Klímek
 
Název:Bezeztrátové generování CSV on the Web souborů z RDF
Nadřazený projekt:Podpora moderních specifikací pro webová data tvorbou nástrojů
Popis:CSV on the Web je sada doporučení konsorcia W3C - webový standard pro popis tabulkových CSV souborů na Webu. Při správném popisu pak umožňuje na takový CSV soubor pohlížet i jako na propojená data v RDF. Pro řadu uživatelů dat je příjemnější pracovat s CSV soubory než s daty v RDF. Tématem projektu je navrhnout, implementovat a otestovat způsob, jak z RDF dat vygenerovat sadu CSV souborů popsaných CSV on the Web tak, aby došlo k co nejmenší ztrátě informace.
Kontakt:Jakub Klímek
 
Název:Prohlížeč datasetů (pomocí vizualizací)
Nadřazený projekt:Deep Visual Representations of Unstructured Data
Popis:Student se zapojí do týmového vývoje projektu GAČR 22-21696S - Deep Visual Representations of Unstructured Data. Jeho úkolem bude navrhnout a implementovat nástroj pro exploraci a vizualizaci datasetů, např. z platformy Kaggle. Dále bude jeho úkolem navrhnout, implementovat a experimentálně vyhodnotit vizualizaci relačních datatasetů jako celku.
Kontakt:David Bernhauer
 

Běžící projekty

Název:GAP (Genetika a příjmení)
Supervizor:David Hoksza
Zahájení:19.5.2022
 
Název:Ecoseller
Supervizor:Petr Škoda
Zahájení:24.10.2022
 
Název:Recommender system pro card-linked marketingovou platformu
Supervizor:Ladislav Peška
Zahájení:20.01.2023
 
Název:Central Monitoring Platform
Supervizor:Filip Zavoral
Zahájení:30.03.2023
 

Obhájené projekty

Název:Thea
Popis:Mobilní a webová aplikace pro kavárny a vinárny
Supervizor:Jan Kofroň, KDSS
Zahájení:2.11.2020
Obhajoba:21.6.2021
 
Název:CUDA framework
Popis:Návrh a implementace frameworku pro vývoj vysoce optimalizovaných GPU algoritmů pro datovou analýzu a jejich následné použití v obecně dostupných knihovnách.
Konzultant:Miroslav Kratochvíl
Supervizor:Martin Kruliš
Zahájení:22.11.2020
Obhajoba:14.9.2021
 
Název:Implementation of a documentation system for a UI library
Konzultant:Juraj Kapsiar, Microsoft
Zahájení:26.7.2021
Obhajoba:29.4.2022
 
Název:MantaPy
Popis:Data lineage of Python scripts
Konzultant:Lukáš Hermann, Manta Tools
Supervizor:Pavel Parízek, KDSS
Zahájení:21.9.2021
 
Název:SOMHunter extensions
Popis:Rozšíření state-of-the-art vyhledávacího systému SOMHunter
Konzultant:Ladislav Peška
Supervizor:Jakub Lokoč
Zahájení:4.5.2021
 
Název:Uživatelský front-end pro modelem řízený návrh datových struktur
Konzultant:Petr Škoda
Supervizor:Martin Nečaský
Zahájení:19.7.2021
Obhajoba:10.5.2022
 
Název:Manually Activated Reserves Initiative - Settlement module
Konzultant:Lukáš Kutík, Unicorn
Supervizor:Filip Zavoral
Zahájení:1.2.2022
Obhajoba:6.6.2022
 
Název:GraphQL API pro SPARQL endpoint
Supervizor:Petr Škoda
Zahájení:1.10.2021
Obhajoba:19.7.2022
Příloha: GitHub Prezentace Dokumentace
 
Název:Nástroj pro modelování multi-model dat
Konzultant:Pavel Koupil
Supervizor:Irena Holubová
Zahájení:1.10.2021
Obhajoba:19.7.2022
Příloha: GitLab Prezentace
 
Název:Generování XML Schémat a XSLT transformací na základě konceptuálního datového modelu
Supervizor:Jakub Klímek
Zahájení:1.10.2021
Obhajoba:19.7.2022
 
Název:Modul pro trajektorie do systému Videolytics
Supervizor:Tomáš Skopal
Zahájení:16.11.2021
Obhajoba:15.9.2022
 
Název:APCAM - Acquisition Platform and Case Management System
Supervizor:Pavel Parízek
Zahájení:21.2.2022
Obhajoba:23.9.2022
 
Název:Knowledge graph visual browser
Supervizor:Martin Nečaský
Zahájení:26.10.2021
Obhajoba:1.11.2022
 
Název:Optimalizace zobrazování větších grafů
Supervizor:Martin Nečaský
Zahájení:1.2.2022
Obhajoba:24.2.2023
 
Název:Generování a klasifikace multidoménových heatmap
Supervizor:Tomáš Skopal
Zahájení:18.3.2021
Obhajoba:28.3.2023
 
Název:Generování CSV schémat a CSVW mapování na základě konceptuálního datového modelu
Supervizor:Jakub Klímek
Zahájení:13.6.2022
Obhajoba:11.4.2023
 


Team projects

in computer science master programs

Important documents