38
Webarchiv památník českého internetu, více

Webarchiv jako digitální knihovna

Embed Size (px)

Citation preview

Page 1: Webarchiv jako digitální knihovna

Webarchivpamátník českého internetu, více

Page 2: Webarchiv jako digitální knihovna

Jsme Webarchiv

digitální knihovna, která uchovává webové zdrojepro budoucí generace. wwwPokud je nebudeme průběžně archivovat, zmizí významná součást národního kulturního dědictví.

Page 3: Webarchiv jako digitální knihovna

Jak archivujeme?

Provádíme kompletní archivaci“celého” českého webu.

WWWWWWWW

Souběžně probíhá výběrováa tematická archivace.

Page 4: Webarchiv jako digitální knihovna

Bohužel!

Ne všechna data jsou dostupná online. w

Může za to současná podoba autorského zákona, která byla vytvořena pro knihy. Pro přístup k celému archivu musíte prozatím až k nám.

Page 5: Webarchiv jako digitální knihovna

Bude možné studovat 90. léta a dál bez webových archivů?

Page 6: Webarchiv jako digitální knihovna

Webový archiv Živý web

Page 7: Webarchiv jako digitální knihovna
Page 8: Webarchiv jako digitální knihovna
Page 9: Webarchiv jako digitální knihovna
Page 10: Webarchiv jako digitální knihovna
Page 11: Webarchiv jako digitální knihovna
Page 12: Webarchiv jako digitální knihovna
Page 13: Webarchiv jako digitální knihovna

není to málo?

Page 14: Webarchiv jako digitální knihovna

data

• ~ 228 TB

• ~ 6 miliard digitálních objektů / URL

• ~ 1,2 miliónu domén druhého řádu / doména.cz

Page 15: Webarchiv jako digitální knihovna

méně jak 1 % je volně přístupné

Page 16: Webarchiv jako digitální knihovna

metadata

• formát souboru

• odkazy

• typ dokumentu

• entity v textu

• klíčová slova

• etc.

Page 17: Webarchiv jako digitální knihovna

miluj výzkumníka svého

Page 18: Webarchiv jako digitální knihovna
Page 19: Webarchiv jako digitální knihovna
Page 20: Webarchiv jako digitální knihovna
Page 21: Webarchiv jako digitální knihovna

API pro metadata

• URL digitálního objektu

• Čas archivace URL

• Velikost souboru

• SHA-1 kontrolní součet souboru

• MIME type souboru dle tvrzení HTTP serveru

• Titul dokumentu nebo celého webu

• Autor dokumentu

Page 22: Webarchiv jako digitální knihovna

228 TB

• při čtení 80 MB/s

• ~ 32 dní jen pro přečtení všech dat z disků

Page 23: Webarchiv jako digitální knihovna
Page 24: Webarchiv jako digitální knihovna

Zpracování archivu

• Formátové

• Textové

• Obrazové

• Zvukové

Page 25: Webarchiv jako digitální knihovna

API pro všechny metadata

Page 26: Webarchiv jako digitální knihovna

Fulltextové vyhledávání

• PageRank nepočítá s časovým aspektem webu

• Kvalitní vyhledávání potřebuje analytické informace

Page 27: Webarchiv jako digitální knihovna
Page 28: Webarchiv jako digitální knihovna
Page 29: Webarchiv jako digitální knihovna

Co nám v archivu chybí

Page 30: Webarchiv jako digitální knihovna
Page 31: Webarchiv jako digitální knihovna
Page 32: Webarchiv jako digitální knihovna
Page 33: Webarchiv jako digitální knihovna
Page 34: Webarchiv jako digitální knihovna
Page 35: Webarchiv jako digitální knihovna

Co webové archivy již nezvládnou

Page 36: Webarchiv jako digitální knihovna
Page 37: Webarchiv jako digitální knihovna
Page 38: Webarchiv jako digitální knihovna

w w w

w w w

Děkujeme za pozornost!

Jaroslav KvasnicaRudolf Kreibich

webarchiv.czfacebook.com/webarchivcrslideshare.net/webarchivCZ