zadaniprojektuwebarchivpromffcuni

Webarchiv - zpřístupnění archivu českého webu
Zadání projektu

Úvod:
Posláním Národní knihovny ČR je mimo jiné zajistit, aby u nás vydávané publikace byly v celé jejich šíři zachovány pro budoucí generace. S rostoucím objemem na webu publikovaných informací zahájila NK ČR v pilotním projektu Webarchiv (webarchiv.nkp.cz) archivaci části českého webu. Tato archivace se prozatím zaměřuje především na statické stránky z domény .cz.
Archivace je prováděna pomocí programu NEDLIB harvester, který je pro tento účel používán i v jiných evropských národních knihovnách. Předpokládá se, že přesto, že se projekt nesnaží o úplnost, bude každý rok tímto způsobem opakovaně stažena co největší část českého webu, přičemž objem takto stažených dat z jednoho průchodu může dosahovat 300 - 500 GB. Stažené soubory jsou ukládány společně se soubory obsahujícími metadata, popisující okolnosti stažení (čas, URL, MIME typ apod.) do archivů typu tar+gzip. Jako identifikátoru souboru se v archivu používá především kontrolní součet MD5. Program NEDLIB harvester však nijak neřeší další zpřístupnění takto archivovaných souborů.

Cíl projektu:
Vytvořit modulární nástroj, který uživatelům Národní knihovny ČR umožní přístup k takto archivovaným informačním zdrojům. Prohledávání archivu musí být umožněno z hlediska identifikace dokumentu (URL, URN, čas stažení dokumentu, typ souboru), tak z hlediska obsahu dokumentu [fulltext, obsažená metadata (především Dublin Core) a další v závislosti na typu souboru]. Při prohlížení archivovaného souboru musí být jednoduchým způsobem umožněna navigace uvnitř archivu (odkazy na jiné dokumenty se stávají z časového hlediska nejednoznačnými). Mělo by tedy být možné specifikovat dotazy jako: "všechny dokumenty z domény cuni.cz z let 2001-2002, jejichž autorem je Novák a které obsahují slovo metadata".

Součástí tohoto nástroje musí být přinejmenším moduly pro analýzu a indexaci textových a html dokumentů a musí být popsáno, jak do systému začlenit moduly pro analýzu dalších typů dokumentů.

Komunikace s uživatelem bude probíhat přes webové rozhraní (česky a anglicky), dalším komunikačním rozhraním bude v případě dostatečného počtu zájemců protokol Z39.50, který umožní snadné propojení s informačními systémy NK a dalších knihoven v ČR (je možné využít existující volně šiřitelný Z39.50 server).

Při zpřístupňování archivovaných dokumentů musí být zohledněna autorská práva tak, aby bylo možné omezit přístup k určitých skupin uživatelů k určitým skupinám dokumentů.

Platforma:
Unix (PC/Linux, přenositelnost především na Sun/Solaris a nejlépe i na Compaq ALPHA/Tru64 Unix, případně další platformy).

Programovací jazyk:
především C/C++

Další poznámky:
Při vývoji aplikace je možné uvažovat i o rozdělení zátěže na více strojů.
Vzhledem k charakteru aplikace je nutné zachovat co nejvyšší míru její otevřenosti, modularity a přenositelnosti, protože je možné že bude v provozu možná i desítky let. Ze stejného důvodu je nutná kvalitní dokumentace, nejlépe v angličtině.
Lze předpokládat budoucí existenci sítě vzájemně komunikujících národních webových archivů.

Kontakt:
Ing. Petr Žabička,
Moravská zemská knihovna Brno
e-mail: zabak@mzk.cz