Softwarový projekt:

Učíme stroje česky: morfologie češtiny (MORČE)

Vedoucí: Jan Hajič, ÚFAL MFF UK

Cílem projektu je vytvořit nejlepší morfologický (tvaroslovný)
analyzátor češtiny. Předpokládá se použití známých a relativně
jednoduchých statistických metod, metod strojového učení a již
existujících dat a pomocných nástrojů. Jedná se o
implementačně-výzkumný projekt, ve kterém se bude v závěru práce na
projektu pomocí vytvořeného SW systému provádět řada experimentů a
vyhodnocování úspěšnosti (podle dohody možno i soutěžní formou mezi
účastníky projektu) s cílem překonat dosud nejlepší existující
systémy.

Implementace: v C (gcc), Linux, IA-64, tcsh, částečné paralelní
zpracování (na úrovni shellu, vlastní vývoj). Všechny vytvořené
programy/nástroje budou pracovat v dávkovém režimu (tj. nebude se
budovat žádné GUI), pouze pro vizuální kontroly a prohlížení výsledků
bude součástí projektu webové rozhraní. Data a pomocné nástroje a
slovníky dodá ÚFAL a vedoucí projektu (formáty: SGML, XML).

Hodnocení: aplikují se standardní kritéria na SW projekt. Rozhoduje
kvalita software, dokumentace atd. Překonání úspěšnosti současných
analyzátorů není podmínkou získání plného počtu bodů, ale může být
zohledněno při případném rozdílení bodů navíc; stejně tak ale
nenahrazuje kvalitu implementace.

Účastníci a předpoklady: 4-6 lidí, ne více; předpokladem je velmi
dobrá znalost C (gcc), znalost XML (SGML) je pak mírnou výhodou,
znalost statistiky ani lingvistiky netřeba (bude vysvětleno).

17.12.2002