31
Magyar Internet Archívum pilot és elemzés Gulyás László ELTE 2014. április 14.

Magyar Internet Archívum pilot és elemzés

Embed Size (px)

DESCRIPTION

Magyar Internet Archívum pilot és elemzés. Gulyás László ELTE 2014. április 14. Munkacsapat. Bálint Balázs, MSc, Pálmai Attila, BSc Jurányi Zsolt, BSc, PetaByte Nonprofit Kft. Keszthelyi Gabriella, ELTE PhD hallg. Kampis György, ELTE egy.tan. Gulyás László, ELTE adj. MIA – Mi ez?. - PowerPoint PPT Presentation

Citation preview

Page 1: Magyar Internet Archívum pilot és elemzés

Magyar Internet Archívum pilot és elemzés

Gulyás LászlóELTE

2014. április 14.

Page 2: Magyar Internet Archívum pilot és elemzés
Page 3: Magyar Internet Archívum pilot és elemzés

Munkacsapat

•Bálint Balázs, MSc, Pálmai Attila, BSc•Jurányi Zsolt, BSc, PetaByte Nonprofit Kft.•Keszthelyi Gabriella, ELTE PhD hallg.•Kampis György, ELTE egy.tan.•Gulyás László, ELTE adj.

Page 4: Magyar Internet Archívum pilot és elemzés

MIA – Mi ez?•Az Internet Archívum (Internet Archive) egy internetkönyvtár, célja, hogy hozzáférést adjon a kutatóknak egy digitális formában létező történelmi gyűjteményhez.•Magyar Internet Archívum (MIA):magyar akadémiai site-ok archiválása

– a NIIF tagintézmények (http://www.niif.hu/tagok/...),

– az MTA intézetei (http://mta.hu/mta_kutatointezetei),

– valamint a magyarországi egyetemek és főiskolák (Hungarian Science intézmények)

•Jelenleg mintegy 400 kulcsonfontosságú website van folyamatosan letöltve, archiválva.

Page 5: Magyar Internet Archívum pilot és elemzés

Pilot•Feladat: az Internet Archívum az egész internetet bejárva egy indexelt és archivált másolatot hivatott létrehozni. A Magyar Internet Archivum a .hu domain tartalmaira összpontosít•Nehézségek: tartalomkezelő rendszerek mögötti adatok, belső linkek inkonzisztens kezelése sokhelyütt, illetve egyéb, közvetlen odafigyelést és adattisztítást igénylő tényezők.•Megoldás: ezek kezelésére különböző nemzeti archívumok jöttek létre, a magyar változat (egyik?) pilotja a mi műhelyünkben készül, számos innovatív (illetve kényszer szülte) saját hozzájárulással.

Page 6: Magyar Internet Archívum pilot és elemzés

Eszközök és módszerek•Más nemzeti archívumok által használt módszerek átvétele/módosítása (köztük a British Library internet archiváló programja és segédprogramjai).•Szoftver: Heritrix crawler (módosított, speciálisan céljainkra továbbfejlesztett).•Hardver: Dell T710 server (2x4 core Xeon E5520, 48GB RAM, 2TB HDD)•Longitudinális archiválás mirror-formátumban, két hetes letöltési periódussal.

Page 7: Magyar Internet Archívum pilot és elemzés

Adatok

•Az MTA kutatóintézetei anyagának teljes másolata 33GB, ebből a különböző szöveges formátumok (html, doc, docx, rtf, pdf, ps) 6,5GB. Az egyetemek és főiskolák anyaga 53GB, ebből szöveg: 36GB.•Átlagos méret: 974 MB per oldal (medián: 137 MB)•Átlagos szövegméret: 474 MB per oldal (medián: 47 MB)•Az adatok eloszlása „nagyjából” a hatványtörvényt követi (de legalábbis erősen ferde eloszlású)

Page 8: Magyar Internet Archívum pilot és elemzés

Összes adat rang-eloszlása

Page 9: Magyar Internet Archívum pilot és elemzés

Szöveges adatok rang-eloszlása

Page 10: Magyar Internet Archívum pilot és elemzés

Példányszámok alakulása

Page 11: Magyar Internet Archívum pilot és elemzés

Példányszámok alakulása

Page 12: Magyar Internet Archívum pilot és elemzés

Tárigény alakulása

Page 13: Magyar Internet Archívum pilot és elemzés

Tárigény alakulása

Page 14: Magyar Internet Archívum pilot és elemzés

Tartalmi elemzések

• A rendelkezésünkre álló adatokból automatikus elemzéseket is végzünk– A „közbeszéd” megragadása– Mit kommunikálnak magukról az egyetemek és a

kutató intézetek?

Page 15: Magyar Internet Archívum pilot és elemzés

Tartalmi elemzések: Szófelhők

Page 16: Magyar Internet Archívum pilot és elemzés

Tartalmi elemzések: Trendek

Page 17: Magyar Internet Archívum pilot és elemzés

Tartalmi elemzések: Trendek

Page 18: Magyar Internet Archívum pilot és elemzés

Tartalmi elemzések: Trendek

Page 19: Magyar Internet Archívum pilot és elemzés

Tartalmi elemzések: Trendek

Page 20: Magyar Internet Archívum pilot és elemzés

Tartalmi elemzések: Trendek

Page 21: Magyar Internet Archívum pilot és elemzés

Tartalmi elemzések: Site-ok

Page 22: Magyar Internet Archívum pilot és elemzés

Köszönöm a figyelmet!

Page 23: Magyar Internet Archívum pilot és elemzés

Példányszámok és tárigények részletesebben

Page 24: Magyar Internet Archívum pilot és elemzés

Példányszámok alakulása

Page 25: Magyar Internet Archívum pilot és elemzés

Példányszámok alakulása

Page 26: Magyar Internet Archívum pilot és elemzés

Példányszámok alakulása

Page 27: Magyar Internet Archívum pilot és elemzés

Példányszámok alakulása

Page 28: Magyar Internet Archívum pilot és elemzés

Tárigény alakulása

Page 29: Magyar Internet Archívum pilot és elemzés

Tárigény alakulása

Page 30: Magyar Internet Archívum pilot és elemzés

Tárigény alakulása

Page 31: Magyar Internet Archívum pilot és elemzés

Tárigény alakulása