Kurz webové archivace

WebarchivKurz webové archivace, AIS142

Webová archivace

Web archiving is the process of collecting portions of the World Wide Web to ensure the information is preserved in an archive for future researchers, historians, and the public.

Proč archivovat web?

Web scale archiving

• webové archivy se snaží archivovat tak velkou část internetu, že není možné kontrolovat akvizici, ochranu, zpřístupnění ani kontrolu kvality jednotlivých webových stránek pouze lidskými silami.

Limity webové archivace

• legislativa + budget

• deep web (?)

• web 2.0 (streaming, passwords, databases)

• dlouhodobá ochrana

Technické překážky

• Flash, Ajax, JavaScript …

• technických překážek je mnoho, řešení?

• univerzální řešení neexistuje

Kdo jsou webové archivy

• Internet Archive

• Národní knihovny

• Univerzity, neziskové organizace

Memento

• agregátor webových archivů

• https://www.youtube.com/watch?v=WtZHKeFwjzk

https://www.youtube.com/watch?v=WtZHKeFwjzk

Dark archives

• veřejně nepřístupné archivy

• většinou pouze v místě samé, někdy ani to ne

• autorský zákon, knihovní licence

WebarchivČeský webový archiv, více

Historie Webarchivu

• 2000 - začátek (jako projekt NK ČR, MZK a MU ČR)

• 2001 - první archivované webové stránky

• 2005 - pravidelné sklízení obsahu

• 2007 - vstup do IIPC

Profil archivu

• stáří archivu: 3. 9. 2001

• ~ 200 TB

• frekvence sklízení: 1x - 1x|2x|6x|12x/year

• hloubka sklízení: 5000 - 15 000 objects

• přístupnost: in house/online access

Rozložení domén

Tempo růstu

• robot.txt nerespektujeme

• velké dilema pro webové archivy

• rozhodnutí má zásadní dopady na archiv

• “V současnosti standardně soubory robots.txt nezohledňujeme, jelikož věříme, že historie webu by se měla uchovat v takové podobě, v jaké ho vidí lidé a ne vyhledávače.”

Designated community

• koncový uživatelé, kteří by měli být schopni porozumět konkrétní množině informací (OAIS)

• definice uživatelů určuje obsah i jeho formu

1. individuální uživatelé2. institucionální uživatelé3. výzkumníci a vědci

Zpřístupnění

• Wayback Machine (zobrazování)

• Vyhledávání:

• primárně WWW

• katalog Aleph

• Wayback Machine

Role kurátora

• komunikace s vydavateli

• “plnění” konspektu

• správa webových zdrojů vč. hodnocení

• katalogizace

• quality assurance

Kurátorství ve světě

• Technicky vyřešeno

• Důraz na kolekce

• IIPC collaborative collections

• Sociální sítě

Jak to děláme my?

• Tematické sklizně

• Plníme konspekt

• Chystáme kolekce a zapojení dalších institucí

w w w

w w w

Děkuji za pozornost!

Jaroslav [email protected]

http://www.webarchiv.cz/cs






mailto:[email protected]

Technology

Kurz webové archivace