Úvod:
Posláním Národní knihovny ČR je mimo jiné zajistit, aby u nás vydávané
publikace byly v celé jejich šíři zachovány pro budoucí generace. S rostoucím
objemem na webu publikovaných informací zahájila NK ČR v pilotním projektu
Webarchiv (webarchiv.nkp.cz)
archivaci části českého webu. Tato archivace se prozatím zaměřuje především
na statické stránky z domény .cz.
Archivace je prováděna pomocí programu NEDLIB harvester, který je pro
tento účel používán i v jiných evropských národních knihovnách. Předpokládá
se, že přesto, že se projekt nesnaží o úplnost, bude každý rok tímto způsobem
opakovaně stažena co největší část českého webu, přičemž objem takto stažených
dat z jednoho průchodu může dosahovat 300 - 500 GB. Stažené soubory jsou
ukládány společně se soubory obsahujícími metadata, popisující okolnosti
stažení (čas, URL, MIME typ apod.) do archivů typu tar+gzip. Jako identifikátoru
souboru se v archivu používá především kontrolní součet MD5. Program NEDLIB
harvester však nijak neřeší další zpřístupnění takto archivovaných souborů.
Cíl projektu:
Vytvořit modulární nástroj, který uživatelům Národní knihovny ČR umožní
přístup k takto archivovaným informačním zdrojům. Prohledávání archivu
musí být umožněno z hlediska identifikace dokumentu (URL, URN, čas stažení
dokumentu, typ souboru), tak z hlediska obsahu dokumentu [fulltext, obsažená
metadata (především Dublin Core) a další v závislosti na typu souboru].
Při prohlížení archivovaného souboru musí být jednoduchým způsobem umožněna
navigace uvnitř archivu (odkazy na jiné dokumenty se stávají z časového
hlediska nejednoznačnými). Mělo by tedy být možné specifikovat dotazy jako:
"všechny dokumenty z domény
cuni.cz z let 2001-2002, jejichž
autorem je Novák a které obsahují slovo metadata".
Součástí tohoto nástroje musí být přinejmenším moduly pro analýzu a indexaci textových a html dokumentů a musí být popsáno, jak do systému začlenit moduly pro analýzu dalších typů dokumentů.
Komunikace s uživatelem bude probíhat přes webové rozhraní (česky a anglicky), dalším komunikačním rozhraním bude v případě dostatečného počtu zájemců protokol Z39.50, který umožní snadné propojení s informačními systémy NK a dalších knihoven v ČR (je možné využít existující volně šiřitelný Z39.50 server).
Při zpřístupňování archivovaných dokumentů musí být zohledněna autorská práva tak, aby bylo možné omezit přístup k určitých skupin uživatelů k určitým skupinám dokumentů.
Platforma:
Unix (PC/Linux, přenositelnost především na Sun/Solaris a nejlépe i
na Compaq ALPHA/Tru64 Unix, případně další platformy).
Programovací jazyk:
především C/C++
Další poznámky:
Při vývoji aplikace je možné uvažovat i o rozdělení zátěže na více
strojů.
Vzhledem k charakteru aplikace je nutné zachovat co nejvyšší míru její
otevřenosti, modularity a přenositelnosti, protože je možné že bude v provozu
možná i desítky let. Ze stejného důvodu je nutná kvalitní dokumentace,
nejlépe v angličtině.
Lze předpokládat budoucí existenci sítě vzájemně komunikujících národních
webových archivů.
Kontakt:
Ing. Petr Žabička,
Moravská zemská knihovna Brno
e-mail: zabak@mzk.cz