24
Webarchiv Kurz webové archivace, AIS142

Kurz webové archivace

Embed Size (px)

Citation preview

Page 1: Kurz webové archivace

WebarchivKurz webové archivace, AIS142

Page 2: Kurz webové archivace

Webová archivace

Web archiving is the process of collecting portions of the World Wide Web to ensure the information is preserved in an archive for future researchers, historians, and the public.

Page 3: Kurz webové archivace

Proč archivovat web?

Page 4: Kurz webové archivace

Web scale archiving

• webové archivy se snaží archivovat tak velkou část internetu, že není možné kontrolovat akvizici, ochranu, zpřístupnění ani kontrolu kvality jednotlivých webových stránek pouze lidskými silami.

Page 5: Kurz webové archivace

Limity webové archivace

• legislativa + budget

• deep web (?)

• web 2.0 (streaming, passwords, databases)

• dlouhodobá ochrana

Page 6: Kurz webové archivace

Technické překážky

• Flash, Ajax, JavaScript …

• technických překážek je mnoho, řešení?

• univerzální řešení neexistuje

Page 7: Kurz webové archivace

Kdo jsou webové archivy

• Internet Archive

• Národní knihovny

• Univerzity, neziskové organizace

Page 8: Kurz webové archivace

Memento

• agregátor webových archivů

• https://www.youtube.com/watch?v=WtZHKeFwjzk

Page 9: Kurz webové archivace

Dark archives

• veřejně nepřístupné archivy

• většinou pouze v místě samé, někdy ani to ne

• autorský zákon, knihovní licence

Page 10: Kurz webové archivace

WebarchivČeský webový archiv, více

Page 11: Kurz webové archivace

Historie Webarchivu

• 2000 - začátek (jako projekt NK ČR, MZK a MU ČR)

• 2001 - první archivované webové stránky

• 2005 - pravidelné sklízení obsahu

• 2007 - vstup do IIPC

Page 12: Kurz webové archivace

Profil archivu

• stáří archivu: 3. 9. 2001

• ~ 200 TB

• frekvence sklízení: 1x - 1x|2x|6x|12x/year

• hloubka sklízení: 5000 - 15 000 objects

• přístupnost: in house/online access

Page 13: Kurz webové archivace

Rozložení domén

Page 14: Kurz webové archivace

Tempo růstu

Page 15: Kurz webové archivace
Page 16: Kurz webové archivace

• robot.txt nerespektujeme

• velké dilema pro webové archivy

• rozhodnutí má zásadní dopady na archiv

• “V současnosti standardně soubory robots.txt nezohledňujeme, jelikož věříme, že historie webu by se měla uchovat v takové podobě, v jaké ho vidí lidé a ne vyhledávače.”

Page 17: Kurz webové archivace

Designated community

• koncový uživatelé, kteří by měli být schopni porozumět konkrétní množině informací (OAIS)

• definice uživatelů určuje obsah i jeho formu

1. individuální uživatelé2. institucionální uživatelé3. výzkumníci a vědci

Page 18: Kurz webové archivace

Zpřístupnění

• Wayback Machine (zobrazování)

• Vyhledávání:

• primárně WWW

• katalog Aleph

• Wayback Machine

Page 19: Kurz webové archivace

Role kurátora

• komunikace s vydavateli

• “plnění” konspektu

• správa webových zdrojů vč. hodnocení

• katalogizace

• quality assurance

Page 20: Kurz webové archivace

Kurátorství ve světě

• Technicky vyřešeno

• Důraz na kolekce

• IIPC collaborative collections

• Sociální sítě

Page 21: Kurz webové archivace
Page 22: Kurz webové archivace
Page 23: Kurz webové archivace

Jak to děláme my?

• Tematické sklizně

• Plníme konspekt

• Chystáme kolekce a zapojení dalších institucí