29
Webarchiv Památník českého internetu, více

Webarchiv AKM 2015

  • Upload
    vutram

  • View
    227

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Webarchiv AKM 2015

WebarchivPamátník českého internetu, více

Page 2: Webarchiv AKM 2015

Proč archivujeme web? Jak ho archivujeme? Co v archivu máme?

Co nás trápí?Co plánujeme?

[email protected]á realizace archivace webu

Page 3: Webarchiv AKM 2015

Proč archivujeme web?

Page 4: Webarchiv AKM 2015
Page 5: Webarchiv AKM 2015

“… více jak 70% URL v Harvard Law Review a 50% URL v nálezích nejvyššího

soudu Spojených států amerických, neodkazuje k původnímu webovému zdroji. “

Perma: Scoping and Addressing the Problem of Link and Reference Rot in Legal Citations. Jonathan Zittrain, Kendra Albert a Lawrence Lessig. Legal Information Management / Volume 14 / Issue 02 / June 2014, pp 88-99, DOI: http://dx.doi.org/10.1017/S1472669614000255, Published online: 12 June 2014

Page 6: Webarchiv AKM 2015
Page 7: Webarchiv AKM 2015

404 Not Found The 404 (Not Found) status code indicates that the origin server did

not find a current representation for the target resource or is not willing to disclose that one exists. A 404 status code does not

indicate whether this lack of representation is temporary or permanent; the 410 (Gone) status code is preferred over 404 if the

origin server knows, presumably through some configurable means, that the condition is likely to be permanent.

A 404 response is cacheable by default; i.e., unless otherwise indicated by the method definition or explicit cache controls (see

Section 4.2.2 of [RFC7234]).

Page 8: Webarchiv AKM 2015

✝url urn

Page 9: Webarchiv AKM 2015

Bude možné studovat naše století bez webových archivů?

Page 10: Webarchiv AKM 2015

miluj výzkumníka svého

Page 11: Webarchiv AKM 2015
Page 12: Webarchiv AKM 2015

Jak archivujeme web?

Page 13: Webarchiv AKM 2015

Heritrix / OpenWaybacksklízení / zpřístupnění

Otevřený softwareMezinárodní komunita

Page 14: Webarchiv AKM 2015

Měsíční výběrové sklizně

Občasné tématické sklizně

Roční sklizně domény cz

Page 15: Webarchiv AKM 2015
Page 16: Webarchiv AKM 2015

Co máme v archivu?

Page 17: Webarchiv AKM 2015

~ 228 TB

~ 6 miliard digitálních objektů / URL

~1,2 milónu domén druhého řádu

Page 18: Webarchiv AKM 2015
Page 19: Webarchiv AKM 2015

Co nás trápí?

Page 20: Webarchiv AKM 2015

méně než 1 % je volně přístupné=

~ 4000 webů z 1,2 miliónu webů

Page 21: Webarchiv AKM 2015

JavaScript

Page 22: Webarchiv AKM 2015
Page 23: Webarchiv AKM 2015

228 TB při čtení 80 MB/s = 32 dní

Page 24: Webarchiv AKM 2015

Co plánujeme?

Page 25: Webarchiv AKM 2015

metadata

Page 26: Webarchiv AKM 2015
Page 27: Webarchiv AKM 2015
Page 28: Webarchiv AKM 2015
Page 29: Webarchiv AKM 2015

Oddělení archivace webu | ODIF | Národní knihovna ČRVedoucí: Jaroslav KvasnicaZástupce: Barbora RudišínováTechnické zajíštění: [email protected]átoři: Markéta Hrdličková, Pavla Kupcová

webarchiv.czfacebook.com/webarchivcrslideshare.net/webarchivCZ github.com/webarchivcz