Softwarový projekt: Učíme stroje česky: morfologie češtiny (MORČE) Vedoucí: Jan Hajič, ÚFAL MFF UK Cílem projektu je vytvořit nejlepší morfologický (tvaroslovný) analyzátor češtiny. Předpokládá se použití známých a relativně jednoduchých statistických metod, metod strojového učení a již existujících dat a pomocných nástrojů. Jedná se o implementačně-výzkumný projekt, ve kterém se bude v závěru práce na projektu pomocí vytvořeného SW systému provádět řada experimentů a vyhodnocování úspěšnosti (podle dohody možno i soutěžní formou mezi účastníky projektu) s cílem překonat dosud nejlepší existující systémy. Implementace: v C (gcc), Linux, IA-64, tcsh, částečné paralelní zpracování (na úrovni shellu, vlastní vývoj). Všechny vytvořené programy/nástroje budou pracovat v dávkovém režimu (tj. nebude se budovat žádné GUI), pouze pro vizuální kontroly a prohlížení výsledků bude součástí projektu webové rozhraní. Data a pomocné nástroje a slovníky dodá ÚFAL a vedoucí projektu (formáty: SGML, XML). Hodnocení: aplikují se standardní kritéria na SW projekt. Rozhoduje kvalita software, dokumentace atd. Překonání úspěšnosti současných analyzátorů není podmínkou získání plného počtu bodů, ale může být zohledněno při případném rozdílení bodů navíc; stejně tak ale nenahrazuje kvalitu implementace. Účastníci a předpoklady: 4-6 lidí, ne více; předpokladem je velmi dobrá znalost C (gcc), znalost XML (SGML) je pak mírnou výhodou, znalost statistiky ani lingvistiky netřeba (bude vysvětleno). 17.12.2002