View
27
Download
5
Category
Preview:
DESCRIPTION
Možnosti využití programového vybavení WebArchivu dalšími subjekty. Ing. Petr Žabička, MZK. Registrované domény v .cz. Počet dokumentů sklizených za den. Po čet souborů a objem dat. Fakta. Počet sklizených souborů ke dni 14.2.2007 je 134,5 miliónů Objem sklizených dat je 5 465 GB - PowerPoint PPT Presentation
Citation preview
http://www.webarchiv.cz SDRUK-IT 14.2.2007
Možnosti využití programového vybavení Možnosti využití programového vybavení WebArchivu dalšími subjektyWebArchivu dalšími subjekty
Ing. Petr Žabička, MZKIng. Petr Žabička, MZK
http://www.webarchiv.cz SDRUK-IT 14.2.2007
Registrované domény v .cz
0
50000
100000
150000
200000
250000
300000
IX.99
XII.99
III.00
VI.00
IX.00
XII.00
III.01
VI.01
IX.01
XII.01
III.02
VI.02
IX.02
XII.02
III.03
VI.03
IX.03
XII.03
III.04
VI.04
IX.04
XII.04
III.05
VI.05
IX.05
XII.05
III.06
VI.06
IX.06
http://www.webarchiv.cz SDRUK-IT 14.2.2007
document count per day
0
500000
1000000
1500000
2000000
2500000
3000000
1.9.
2001
1.11
.200
1
1.1.
2002
1.3.
2002
1.5.
2002
1.7.
2002
1.9.
2002
1.11
.200
2
1.1.
2003
1.3.
2003
1.5.
2003
1.7.
2003
1.9.
2003
1.11
.200
3
1.1.
2004
1.3.
2004
1.5.
2004
1.7.
2004
1.9.
2004
1.11
.200
4
1.1.
2005
1.3.
2005
1.5.
2005
1.7.
2005
1.9.
2005
1.11
.200
5
1.1.
2006
1.3.
2006
1.5.
2006
1.7.
2006
1.9.
2006
1.11
.200
6
cz2006
cz2004
cz2002cz2001
cz2005
agreements
agreements
Počet dokumentů sklizených za denPočet dokumentů sklizených za den
http://www.webarchiv.cz SDRUK-IT 14.2.2007
Počet souborů a objem dat
0.00%
10.00%
20.00%
30.00%
40.00%
50.00%
60.00%
70.00%
80.00%
90.00%
100.00%
4 B 8 B 16 B
32 B
64 B
128 B
256 B
512 B 1 k
B2 k
B4 k
B8 k
B16
kB32
kB64
kB
128 k
B
256 k
B
512 k
B1 M
B2 M
B4 M
B8 M
B16
MB32
MB64
MB
128 M
B
256 M
B
2001 count2001 size2002 count2002 size2004 count2004 size2006 count2006 sizeall countall size
http://www.webarchiv.cz SDRUK-IT 14.2.2007
FaktaFakta
Počet sklizených souborů ke dni 14.2.2007 je 134,5 miliónů
Objem sklizených dat je 5 465 GBPrvní dokument byl archivován
3.9.2001
http://www.webarchiv.cz SDRUK-IT 14.2.2007
Webarchiv – jak to funguje
A1 nová sklizeň A2 konec sklízení -> indexovat A3 aktualizovat fulltext A4 aktualizovat seznam souborů
http://www.webarchiv.cz SDRUK-IT 14.2.2007
Akvizice - Heritrix Akvizice - Heritrix modulární, rozšiřitelný, probíhá neustálý vývoj (nyní
verze 1.10.2) zkvalitňování systému zvýšení bezpečnosti
platformě nezávislý (java aplikace) kvalitní a rychlá podpora vývojářů z Internet Archive open source kódy a modularita umožňují spolupráci
třetích stran na jeho vývoji v nejnovější verzi vylepšena ochrana před pádem do pastí nelze dlouhodobě sklízet web bez odborných zásahů v
průběhu sklizně HDFS Writer Processor – zápis do Hadoop filesystému
http://www.webarchiv.cz SDRUK-IT 14.2.2007
Akvizice - Akvizice - DeDuplicatorDeDuplicator Modul pro Heritrix Snaží se detekovat duplikáty ještě před jejich stažením Využívá toho, že některé typy dokumentů (např. HTML) se
mění častěji (jsou dynamicky generovány) než jiné (např. obrázky, video).
formát ARC neumožňuje plně využít možností DeDuplicatoru (např. možnost odkazovat na dokument stažený z jiného URL) => WARC
http://www.webarchiv.cz SDRUK-IT 14.2.2007
Akvizice – WEB CURATOR TOOLAkvizice – WEB CURATOR TOOL nástroj pro správu sklízení první verze uvolněna v září 2006 vyvinut v rámci IIPC díky spolupráci Britské knihovny a
Národní knihovny Nového Zélandu. umožňuje správu sklízení méně kvalifikovaným uživatelům
prostřednictvím graficky přívětivého a propracovaného webového rozhraní
výborná podpora uživatelských oprávnění nepodporuje inkrementální sklízení multiplatformní, ale stávající verze optimalizována pro
platformu Windows (problém s malými a velkými písmeny při komunikaci s databází).
nekonzistentní konfigurace, částečně odlišný workflow
http://www.webarchiv.cz SDRUK-IT 14.2.2007
http://www.webarchiv.cz SDRUK-IT 14.2.2007
Akvizice – deep web - DeepArc
http://www.webarchiv.cz SDRUK-IT 14.2.2007
Indexace – Nutch, NutchWAX Indexace – Nutch, NutchWAX Nutch volně dostupný modulární vyhledávací engine, vyhledávací engine,
podpora A9 searchpodpora A9 search umí stáhnout a zpracovat miliony stránek měsíčně;
spravovat jejich index, vyhledávat v něm 1000x za vteřinu
NutchWAX nástavba vyhledávacího rozhraní Nutch
vytvořená pro potřeby indexování dokumentů archivovaných Heritrixem (ARC formát), přidává do indexu potřebná metadata, především časové razítko
Od loňské verze 0.6 (nyní 0.10) pracuje nad MapReduce Nutch (podpora zpracování velkých objemů dat, distribuovaný filesystem Hadoop)
http://www.webarchiv.cz SDRUK-IT 14.2.2007
WERA - WERA - WEb aRchive AccessWEb aRchive Access spolupráce konsorcia IIPC, Internet Archive a NWA využívá hlavní části NWA Toolset velmi snadná navigace a propracované uživatelské
rozhraní (časová osa zobrazuje časové verze dokumentu) výsledky vyhledávání v podobě URL zobrazeny velmi
přehledně a u každého odkazu jsou linky na získání dalších časových verzí téhož URL
zobrazovat archivované stránky lze i pomocí zadání přesné URL adresy
archivované dokumenty a WERA propojeny skrz index NutchWAXe
Problémy s javascriptem v některých stránkách Vývoj ukončen, přechod na Wayback
http://www.webarchiv.cz SDRUK-IT 14.2.2007
WAYBACKWAYBACK Aplikace, která v budoucnu nahradí stávající Wayback
Machine Internet Archivu
Dokumenty jsou indexovány a zpřístupňovány pomocí URL a času, podporuje hvězdičkovou konvenci
Režimy zpřístupnění: Archival URL = úprava odkazů na stránce (link zpět do
archivu) Proxy = chová se jako proxy server, ale je pak složité
měnit časové verze (WAX Toolbar – plugin pro Firefox) Timeline = časová osa, zatím experimentální
Připravuje se podpora fulltextového vyhledávání a lokalizace
http://www.webarchiv.cz SDRUK-IT 14.2.2007
WAXToolbar Plugin pro firefox (do verze 1.9) Spolupracuje s Wayback v proxy
režimu
http://www.webarchiv.cz SDRUK-IT 14.2.2007
XInq XML INQuiry Search and browse tool for
accessing an XML database
http://www.webarchiv.cz SDRUK-IT 14.2.2007
Děkuji za pozornost!
webarchiv@nkp.cz
Recommended