Velká data v knihovnách · Moravská zemská knihovna v Brně Souborný katalog ČR ⁄ Roční...

Velká data v knihovnách

Petr Žabička

Moravská zemská knihovna v Brně

www.mzk.cz

Open source tools and their use in Czech libraries

1. Úvod

2. Souborný katalog

3. Obálky knih

4. Digitalizace

5. Digital born dokumenty

6. WebArchiv

7. Centrální portál knihoven

8. Závěr

Informace a knihovny

⁄ Knihovny mají tisícilenou tradici

uchovávání, zpracování, vyhledávání a

zpřístupňování informací na analogových

nosičích...

⁄ ... a relativně krátkou dobu i informací v

podobě digitální.

Bibliografický záznam

⁄ Bibliogafický standard MARC vznikl v 60.

letech...

– Z39.2 -> ISO 2709: Documentation – Format for

bibliographic information interchange on magnetic

⁄ ...a stále se nemá k odchodu do důchodu

– http://MARC-must-die.info/

Bibliografický záznam

⁄ Bibliogafický standard MARC vznikl v 60.

letech...

– Z39.2 -> ISO 2709: Documentation – Format for

bibliographic information interchange on magnetic tape

⁄ ...a stále se nemá k odchodu do důchodu

– http://MARC-must-die.info/

⁄ Problém: setrvačnost

– Cca 1 milion knihoven

– Miliardy bibliografických záznamů (převážně v MARCu)

Bibliografikcý záznam

⁄ ČR: téměř 10 tis. knihoven

⁄ Souborný katalog ČR:

– 384 knihoven

– 12,8 mil. svazků = 5,8 mil. titulů

⁄ Největší knihovny mají do databázové podoby

převedeno jen cca 50% svých lístkových

katalogů

⁄ Kvalita záznamů odpovídá kvalitě

katalogizačních záznamů...

Souborný katalog ČR

⁄ Roční přírůstek: zasláno cca 1,3 mil. záznamů

– 200 tis. nepřijato kvůli chybám

– 745 tis. úspěšně automaticky deduplikováno (SK nedrží

jednotlivé dodané záznamy, jen

• 640 tis. připsáno

• 85 tis. přepsáno

– 400 tis. přidáno jako nové

– ruční práce:

• 25 tis. deduplikováno,

• 50 tis. Smazáno

⁄ Problém: jak identifikovat záznamy stejných

knih vzniklé v různých knihovnách?

– Absence identifikátorů (ISBN v ČR až od 1989)

– Rozdíly ve způsobu zápisu (+překlepy)

– Rozdíly v přístupu ke katalogizaci (vícesvazková díla,

přívazky apod.)

– Chyby v identifikátorech uvedených v záznamu

– Stávající deduplikační procedury nelze vyladit lépe

• chybovost vs. úspěšnost propojení

• významný podíl ruční práce

ObalkyKnih.cz

⁄ Zdroj pro obohacování záznamů v katalozích

⁄ Poskytují náhledy obálek a obsahy knih

knihovnám v celé ČR

⁄ Nově i sdílené komentáře a hodnocení

⁄ 917 719 obálek a 115 143 obsahů (25.11.)

českých a zahraničních publikací.

⁄ Zdroje: nakladatelé, knihkupci, knihovny

⁄ cca 1 TB dat

⁄ Provozuje Jihočeská vědecká knihovna

ObalkyKnih.cz

⁄ Převažuje kooperativní skenování (skenovací

klient vyvinutý MZK, komunikace přes API)

– 200-300 nahraných titulů / den

– 4 GB dat obálek / den

– OCR obsahů zajišťuje server

⁄ Využíváno více než 180 knihovnami

– Datový tok 20 Mbit/s

– 1,5 mil. požadavků za den (17 za sekundu)

⁄ Open source systém, otevřený vývoj

ObalkyKnih.cz

⁄ Problém: jak propojit naskenované či stažené

obálky se záznamy v knihovním katalogu

⁄ Role identifikátorů:

– ISBN, ISSN, EAN

– OCLC number

– číslo České národní bibliografie (čČNB) – přiděluje

Národní knihovna ČR – nutná zpětná synchronizace

katalogů přes souborný katalog ČR

Digitalizace

⁄ V ČR knihovnami naskenováno přes 34 mil. stran

dokumentů

– přes 120 tis. svazků

– cca 10% celkové produkce vydané u nás

– koordinace prostřednictvím Registru digitalizace

⁄ digitální knihovna Kramerius (free, open source) • Jpeg 2000 + IIPImage; OCR: ALTO XML (ABBYY)

• Solr (Lucene) index, Fedora Repository

– digitální produkce (dobrovolně poskytovaná) – převažuje

pdf, jinak problém s DRM

– MZK vyvíjí open source klient pro Android

Digitalizace

⁄ Národní digitální knihovna (NK + MZK)

– Od konce 2012 skenováno cca 50 tis. stran denně

– Ukládání v lossless jpeg2000 (LTO5 robot)

– Zpřístupnění v lossy jpeg2000 (1:8 – 1:20)

• 25 mil. stran v Krameriu = 220 GB Solr fulltext index

• 25 mil. stran v Krameriu = 1,8 TB Fedora (OCR+metadata)

• 25 mil. stran v Krameriu = 725 GB Postgres (triplet vazby)

– V současnosti: 94000 monografií, 1025 periodik

– Stále roste

– Konce projektu: 2014 + 5 let udržitelnost (financování?)

Digitalizace

⁄ Problémy:

– jak dokumenty organizovat, zpřístupňovat

– jak provádět aktualizace (např. nové verze OCR z

lossless obrazových dat)

– jak dokumenty třídit z věcného hlediska (nedostatečná

metadata)

– jak dokumenty dlouhodobě uchovávat (digital

preservation)

– jak nacházet/opravovat chyby v OCR

– automatická konverze do epub apod.

– autorský zákon

Digital born

⁄ Problémy:

– Digitální dokumenty na fyzických nosičích ve fondu

knihoven (min. desítky tisíc nosičů, převážně CD, DVD)

– Jak je spolehlivě přenést do digital preservation systému

(včetně např. CD audio, DVD apod.)

– Velká roztříštěnost formátů

– Jak uchovávat software?

– Co ebooky s DRM?

– Elektronický „povinný výtisk“ ...?

WebArchiv

⁄ Archiv českého webu od roku 2001

(Internet Archive od 1996)

⁄ Open source nástroje pro sklízení, indexaci,

zpřístupnění

⁄ Archivní formát arc, od 2012 warc (ISO 28500)

– arc cca 100 MB, warc cca 1 GB

⁄ Smlouvy o zpřístupnění (4200 webů)

⁄ Primárně doména .cz (přes 1 mil. domén)

WebArchiv

⁄ Sklízení českého webu

– Heritrix 3, distribuovaně, deduplikace v rámci 1 roku

– 87 TB v archivu, 626000 arc + 39000 warc souborů

– Celkem 1,2 mld. URL

– Uloženo na GPFS, úvahy + menší testy Hadoop

– Není fulltextová indexace

– 10-15 domén na 1 celoplošnou sklizeň domény .cz

– Cca 5000 dotazů na doménu

– 9 crawlerů vytvoří 10 TB archiv během 5,5 dne

WebArchiv

⁄ Problémy:

– Sklizně umírají na nedostatek místa nebo málo RAM

– Sklízení mimo doménu .cz

• nutnost dokončení vývoje WebAnalyzeru

– Tvorba fulltextu při ukládání do stávajícího LTP systému

= desítky let pro uložení stávajícího archivu

– Pro zpřístupňování archivu nutné diskové úložiště

– Jak archiv otevřít pro výzkum

– Hledání pilotních záměrů pro jeho využití

Centrální portál knihoven

⁄ Plánovaný portál pro zpřístupnění zdrojů knihoven

⁄ Integrace metadat a ideálně i plných textů

⁄ Předpokládané zahájení vývoje 2015 v MZK

– Na bázi open source systému VuFind (jádro Solr index)

– Obdoba finna.fi

– Integrace zdrojů zejména velkých knihoven

– Praktické testy:

• VuFind.mzk.cz

• CistBrno.cz

• NarodniFonoteka.cz

• HistorickeFondy.cz

Centrální portál knihoven

⁄ Očekávané výzvy:

– Správa sklízení značného množství zdrojů dat a metadat

– Integrace různorodých zdrojů a jejich specifik

• časová osa (vydání, platnost, o době)

• plné texty vs. Metadata

• geografické hledání (mapy, místa vydání, o místě)

• smysluplné fasety (filtry)

• obohacení záznamů o relevantní služby (přístup k dokumentu,

digitalizace na vyžádání apod.)

– Deduplikace (i na úrovni díla (?))

– Jak legálně vytvářet a prohledávat fulltextový index zdroje,

jehož plný text není možné získat (např. normy)?

www.mzk.cz

…atd. atd.

Děkuji za pozornost!

Petr Žabička

petr.zabicka@mzk.cz

Velká data v knihovnách · Moravská zemská knihovna v Brně Souborný katalog ČR ⁄ Roční...

Documents

Souborný katalog ČR a Centrální adresář knihoven

Knihovna - definice Pam ěť ové instituce 2info.sks.cz/users/bl/data/download/PAI22.pdf · SKC - souborný katalog ČR 32 Národní knihovna ... - online p řístup ke kompletní

Nadpis 1€¦ · Web viewTabulka 12: Počet přijatých žádostí o OP a CP rok OP CP 2000* 382 9 2001 1 274 43 2002** 704 34 *od 1.7.2000 **k 30.6.2002 Tabulka 13: Přirozený přírůstek,

souborný článek · insomnii u seniorů. Klinicky by měla být nespavost zá-važná, měla by ovlivňovat schopnost sociálního apra- covního fungování jedince trpícího

Budoucnost česk ého zdravotnictv í…...K 31. 7. 2009 je v ČR evidov áno 439 762 cizinc ů Převa žuj í osoby v mlad ém v ěku (20 -29let) Přírůstek obyvatel ČR zahrani

Projektování sportovní akce – bubble fotbal Josef Babak.pdf · akce a vyvarovat se tak dalším zbyteþným chybám a uvědomit si, co by se dalo udělat jinak a lépe (Němec,

297/ ACTA CHIRURGIAE ORTHOPAEDICAE ET … · 299/ ACTA CHIRURGIAE ORTHOPAEDICAE ET TRAUMATOLOGIAE ČECHOSL., 79, 2012 CURRENT CONCEPTS REVIEW SOUBORNÝ REFERÁT Osteosynthetic reconstruction

Ovládání automatizovaného knihovního systému · Souborný katalog R, portál Knihovny.cz nebo server s přidaným obsahem Obálkyknih.cz). Aktivní úast v alespoň některých

INFLACE A - Bankovní Kód.cz · CENY NEMOVITOSTÍ Tisková konference, 27. července 2017, Praha ... Přírůstek cen od roku 2000 do roku 2016 (HICP, v %) Zdroj: ČSÚ, Eurostat

Očekáváte přírůstek do rodiny nebo těhotenství teprve ... · Slovníček pro těhotné 7 Předmluva Hlavní motivací a důvodem pro vznik této netradiční publikace byl

ipodpora.odbory.info · Web viewVe všech ostatních sekcích CZ-NACE počty zaměstnanců rostly. Absolutně nejvýznamnější byl přírůstek ve zpracovatelském průmyslu, který

Národní knihovna v Praze · Souborný katalog ČR (CASLIN) Vyhledávání Obsahuje záznamy o více než 6 mil. dokumentech ve fondech českých knihoven. esta k seznamu databází

Strategické ízení podnikové informatiky - is.muni.cz · formatiky, vazbám na podnikové strategie a chybám, které jsou v sou ... sah modelu ITIL, který v té dob ě vznikal,

Zabraňování chybám na pracovištích - technici · Tento projekt je spolufinancován Evropským sociálním fondem a státním rozpočtem České republiky 3/22 1. Právní předpisy

KORUPCE V ČR - clanky.rvp.cz · 4 K etodick íru˝k 1 Úvod Metodický materiál, který držíte v ruce, přináší souborný podklad určený pro pedagogy střed - ních škol

KONCEPCE PREVENCE KRIMINALITY · Zdroj: ČSÚ 2016 Pohyb obyvatel za období 2015 celkem muži ženy Živě narození 145 71 74 Zemřelí 140 79 61 Přirozený přírůstek 5 -8 13

10 tipů Jak se vyhnout chybám při nákupu tepelného čerpadla

k veřejné zakázce - Národní archiv · dokumentů o celkové velikosti 134 TB. Průměrný roční přírůstek digitálních archiválií do Archivního úložiště je odhadován

FOTOGRAMMETRIE - 15122.fa.cvut.cz15122.fa.cvut.cz/?download=_/fotogrammetrie/pflugova_anna_portfolio.pdf · 1 Farní kostel v San Sebastianu Moneův přírůstek ve Španělském

Průjmové onemocnění telatPokusná Kontrolní Přírůstek hmotnosti za 50 dnů v kg 30,66 28,86 Spotřeba starteru za 50 dnů v kg 26,79 29,48 Spotřeba starteru na 1 kg přírůstku