18
Uchování a trvalé Uchování a trvalé zpřístupnění webových zpřístupnění webových dokumentů - zkušenosti z dokumentů - zkušenosti z WebArchivu WebArchivu Martin Bella, [email protected] Martin Bella, [email protected]

Uchování a trvalé zpřístupnění webových dokumentů - zkušenosti z WebArchivu

  • Upload
    john

  • View
    41

  • Download
    0

Embed Size (px)

DESCRIPTION

Uchování a trvalé zpřístupnění webových dokumentů - zkušenosti z WebArchivu. Martin Bella, [email protected]. Osnova. zber dát sprístupnenie archívu nová generácia nástrojov. Zber dát. semienka „klikanie“ na odkazy na stránkach pravidlá pasce. Heritrix. robustnosť modulárnosť - PowerPoint PPT Presentation

Citation preview

Page 1: Uchování a trvalé zpřístupnění webových dokumentů - zkušenosti z WebArchivu

Uchování a trvalé zpřístupnění Uchování a trvalé zpřístupnění webových dokumentů - webových dokumentů -

zkušenosti z WebArchivuzkušenosti z WebArchivu

Martin Bella, [email protected] Bella, [email protected]

Page 2: Uchování a trvalé zpřístupnění webových dokumentů - zkušenosti z WebArchivu

www.webarchiv.cz

Osnova

zber dát sprístupnenie archívu nová generácia nástrojov

Page 3: Uchování a trvalé zpřístupnění webových dokumentů - zkušenosti z WebArchivu

www.webarchiv.cz

Zber dát

semienka „klikanie“ na odkazy na stránkach pravidlá pasce

Page 4: Uchování a trvalé zpřístupnění webových dokumentů - zkušenosti z WebArchivu

www.webarchiv.cz

Heritrix

robustnosť modulárnosť rozšíriteľnosť

pluginy Deduplicator Hadoop DFS

Writer

Page 5: Uchování a trvalé zpřístupnění webových dokumentů - zkušenosti z WebArchivu

www.webarchiv.cz

Web Curator Tool

tvorcovia National Library of New Zealand a British Library

nadstavba Heritrixu prívetivé užívateľské rozhranie nepodporuje inkrementálny zber nám nevyhovujúci Workflow

Page 6: Uchování a trvalé zpřístupnění webových dokumentů - zkušenosti z WebArchivu

www.webarchiv.cz

Web Curator Tool

Page 7: Uchování a trvalé zpřístupnění webových dokumentů - zkušenosti z WebArchivu

www.webarchiv.cz

Netarchive Suite

nadstavba Heritrixu prívetivé užívateľské rozhranie nástroj na plánovanie a spúšťanie

zberov, archiváciu dát a kontrolu kvality

možnosť distribuovanej konfigurácie systému

Page 8: Uchování a trvalé zpřístupnění webových dokumentů - zkušenosti z WebArchivu

www.webarchiv.cz

Nástroje na sprístupnenie

nutnosť rešpektovať autorský zákon metadáta uložené v SQL databáze

Wayback, štatistiky, pripravuje sa OAI-PMH

Page 9: Uchování a trvalé zpřístupnění webových dokumentů - zkušenosti z WebArchivu

www.webarchiv.cz

Wayback

aplikácia na sprístupnenie archívu podľa URL a času

režimy sprístupnenia: archival URL, proxy, timeline

vynikajúce možnosti konfigurácie v budúcnosti podpora fulltextového

vyhľadávania

Page 10: Uchování a trvalé zpřístupnění webových dokumentů - zkušenosti z WebArchivu

www.webarchiv.cz

Wayback

Page 11: Uchování a trvalé zpřístupnění webových dokumentů - zkušenosti z WebArchivu

www.webarchiv.cz

NutchWAX

Nutch crawler vyhľadávací engine

NutchWAX nadstavba vytvorená pre potreby

webových archívov nutná aplikácia na rekonštrukciu

stránok z archívu

Page 12: Uchování a trvalé zpřístupnění webových dokumentů - zkušenosti z WebArchivu

www.webarchiv.cz

NutchWAX

Page 13: Uchování a trvalé zpřístupnění webových dokumentů - zkušenosti z WebArchivu

www.webarchiv.cz

WERA

sprístupnenie a rekonštrukcia stránok využíva index NutchWAXu fulltextové vyhľadávanie a

vyhľadávanie podľa URL časová os ukončený vývoj – prechod na

Wayback

Page 14: Uchování a trvalé zpřístupnění webových dokumentů - zkušenosti z WebArchivu

www.webarchiv.cz

Budúcnosť

inšpirácia od Googlu počítačové gridy distribuované filesystémy Hadoop a NutchWAX verzia >= 0.6 Map-Reduce

Page 15: Uchování a trvalé zpřístupnění webových dokumentů - zkušenosti z WebArchivu

www.webarchiv.cz

Map–Reduce

nástroj, pomocou ktorého je možné distribuovať výpočet

dva základné kroky map(kľúč, hodnota) reduce(kľúč, zoznam hodnôt)

Page 16: Uchování a trvalé zpřístupnění webových dokumentů - zkušenosti z WebArchivu

www.webarchiv.cz

Map-Reduce – počet výskytov každého slova funkcia map

map (in kľúč, in hodnota) {pre každé slovo z hodnota:

vytvorPár(slovo, 1)

} funkcia reduce

reduce (in kľúč, in zoznam_hodnôt) {výsledok = sum(zoznam_hodnôt)

}

Page 17: Uchování a trvalé zpřístupnění webových dokumentů - zkušenosti z WebArchivu

www.webarchiv.cz

Hadoop

open-source implementácia GFS podpora Map-Reduce replikácie, webové rozhranie architektúra

namenode datanode tasktracker

Page 18: Uchování a trvalé zpřístupnění webových dokumentů - zkušenosti z WebArchivu

www.webarchiv.cz

Nutch(WAX)

NutchWAX 0.10 + Hadoop 0.9.2 vyhľadávanie :-(