Archivace webových zdrojů AV ČR

 

Vzhledem k tomu, že řada dokumentů dnes vzniká a je dostupná již pouze v elektronické formě, zaměřila KNAV svou pozornost v rámci svého poslání na otázku, jak dlouhodobě uchovávat spravované zdroje. Na webových stránkách ústavů AV ČR se nachází velké množství informací, které je vhodné archivovat. Za tímto účelem vznikl v roce 2009 záměr na vybudování archivu webových zdrojů (webarchivu), který by tyto dokumenty z webových stránek jednotlivých pracovišť archivoval a zpřístupňoval veřejnosti.

Službu „webarchiv“ lze rozdělit na několik částí: získávání dokumentů z webu, jejich indexace a následné zpřístupnění.

Procházení, stahování a ukládání webových stránek podle zadaných parametrů (tzv. sklizeň) a s nimi souvisejících souborů (např. obrázky nebo CSS) je realizováno pomocí sklízecího robota Heritrix, který funguje na podobném principu jako roboti internetových vyhledávačů. Získaná data a popisná metadata se ukládají do kontejnerového formátu WARC. Důvodem pro speciální formát pro ukládání je následná snadnější práce s řádově menším počtem kontejnerů oproti počtu původních jednotlivých souborů.

Pro efektivní zpřístupnění archivovaných stránek je pak zapotřebí vytvořit nad uloženými kontejnery index. Fulltextovou indexaci, vyhledávání a přístup k archivním datům zajišťují systémy NutchWAX a Wayback.

Všechny používané nástroje jsou psané v jazyce Java a dostupné jako open source. Vyvíjeny jsou v rámci konsorcia IIPC (International Internet Preservation Consortium), které celosvětově sdružuje instituce zabývající se archivací webu.

Obr. 1: Hlavní stránka webarchivu s ukázkou vyhledávání (pro zvětšení obrázku na něj klikněte)

Poslední a pro běžného uživatele jediná viditelná část sestává z vyhledávání a následného zobrazení požadovaného obsahu. Na hlavní stránce webarchivu jsou dostupné dva způsoby vyhledávání, pomocí URL a klíčových slov (viz obr. 1).

Při vyhledávání pomocí URL je nutné znát konkrétní URL adresu požadované stránky. Výsledky hledání, pokud se daná adresa v archivu nachází, jsou systémem Wayback zobrazeny jako seznam jednotlivých archivovaných verzí stránek.

Dále je možné ve webarchivu vyhledávat pomocí klíčových slov. Po zadání dotazu se zobrazí seznam stránek obsahujících zadaná slova, spolu s krátkým úryvkem textu a odkazem do archivu. Dotazy lze specifikovat např. na konkrétní ústav, časové rozmezí zveřejnění nebo typ hledaného dokumentu.

Oba způsoby ve výsledku vedou k zobrazení požadované archivované verze webové stránky.

Na té, kromě archivovaného obsahu, je zobrazena časová osa (viz obr. 2), která informuje o datu sklizení aktuálně zobrazené stránky a umožňuje se pohybovat po historii ostatních dostupných časových verzích. Navigace pomocí standardních odkazů ve stránce pak zobrazuje další dokumenty ze stejného, případně nejbližšího dostupného archivovaného období.

Pro usnadnění procházení archivu lze také využít abecední seznam spolupracujících ústavů, který se nachází v horním menu na hlavní stránce webarchivu. Jednotlivé položky vedou na hlavní stranu každého ústavu.

Obr. 2: Zobrazení časové osy (pro zvětšení obrázku na něj klikněte)

Webové stránky spolupracujících ústavů jsou tímto způsobem sklízeny a archivovány od března 2009, v měsíčním intervalu. Protože autorský zákon neumožňuje volné zpřístupnění takto získaných dat veřejnosti, bylo třeba sepsat s jednotlivými ústavy smlouvy o poskytování elektronických online zdrojů, které by KNAV tuto možnost poskytly. Tyto smlouvy byly připravovány a podepisovány v průběhu druhé poloviny roku 2009 a počátkem roku 2010. Zájem o spolupráci projevilo 38 ústavů, jejichž webové archivy jsou pro veřejnost plně dostupné a prohledávatelné.

Webové rozhraní systému je dostupné na adrese http://webarchiv.lib.cas.cz/.

 

Pavelka, Miroslav. Archivace webových zdrojů AV ČR. Informace [online]. , č. [cit. 2024-03-29]. ISSN 1805-2800. Dostupné z: https://www.lib.cas.cz/casopis_informace/archivace-webovych-zdroju-av-cr/

Tisknout stránku