31
Digitalizace knihovních dokumentů Jiří Polišenský

Digitalizace knihovních dokument ů · OCR • Optical Character Recognition – Antikva – Fraktura n ěmecká – Fraktura česká • Formáty – TXT, PDF, PDF HT, METS ALTO,

  • Upload
    others

  • View
    5

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Digitalizace knihovních dokument ů · OCR • Optical Character Recognition – Antikva – Fraktura n ěmecká – Fraktura česká • Formáty – TXT, PDF, PDF HT, METS ALTO,

Digitalizace knihovních dokumentů

Jiří Polišenský

Page 2: Digitalizace knihovních dokument ů · OCR • Optical Character Recognition – Antikva – Fraktura n ěmecká – Fraktura česká • Formáty – TXT, PDF, PDF HT, METS ALTO,

Obsah prezentace

• Základní prvky digitalizace• Formáty a standardy• Skenery• Digitalizační work flow• Systémy pro prezentaci a evidenci

digitalizovaných dokumentů• Projekt Národní digitální knihovna

Page 3: Digitalizace knihovních dokument ů · OCR • Optical Character Recognition – Antikva – Fraktura n ěmecká – Fraktura česká • Formáty – TXT, PDF, PDF HT, METS ALTO,

Základní prvky digitalizace

Digitální objekty + metadataDigitální objekty• Obrazové soubory• Zvuk• Video• atd.

Page 4: Digitalizace knihovních dokument ů · OCR • Optical Character Recognition – Antikva – Fraktura n ěmecká – Fraktura česká • Formáty – TXT, PDF, PDF HT, METS ALTO,

Funkce digitálních objektů

• Archival master – archivní soubor• Modified master – modifikovaný soubor• User copy – uživatelská kopie

Page 5: Digitalizace knihovních dokument ů · OCR • Optical Character Recognition – Antikva – Fraktura n ěmecká – Fraktura česká • Formáty – TXT, PDF, PDF HT, METS ALTO,

Obrazové soubory

• Základní bitmapa získaná skenováním• Různé způsoby komprese podle použitých

obrazových formátů• Ztrátová a bezztrátová komprese• Vlastnosti obrazových souborů

– Obrazový formát– Rozlišovací schopnost v dpi– Černobílé zobrazení, šedá škála, barva– Velikost v bytech

Page 6: Digitalizace knihovních dokument ů · OCR • Optical Character Recognition – Antikva – Fraktura n ěmecká – Fraktura česká • Formáty – TXT, PDF, PDF HT, METS ALTO,

Formáty obrazových souborů

• TIFF neztrátový• JPEG ztrátový• JP2 neztrátový• PNG neztrátový• DjVu ztrátový

• PDF

Page 7: Digitalizace knihovních dokument ů · OCR • Optical Character Recognition – Antikva – Fraktura n ěmecká – Fraktura česká • Formáty – TXT, PDF, PDF HT, METS ALTO,

Metadata

• Popisná metadata• Strukturální metadata• Administrativní a technická metadata

Page 8: Digitalizace knihovních dokument ů · OCR • Optical Character Recognition – Antikva – Fraktura n ěmecká – Fraktura česká • Formáty – TXT, PDF, PDF HT, METS ALTO,

Standardy

• Popisná metadata– V současné době NK používá národní

standard založený na UNIMARCu a DTD pro periodika a monografie, XML

– Další používané standardy:• Dublin Core• MARC XML• MODS

• Administrativní a technická metadata– PREMIS, MIX

Page 9: Digitalizace knihovních dokument ů · OCR • Optical Character Recognition – Antikva – Fraktura n ěmecká – Fraktura česká • Formáty – TXT, PDF, PDF HT, METS ALTO,

Příprava dokumentů pro digitalizaci

• Selekce dokumentů – stanovit selekčníkriteria

• Kontrola stavu zpracování v elektronickém katalogu

• Čárový kód• Fyzický stav• Přílohy – volné, rozkládací apod.• Jazyk a písmo (OCR)

Page 10: Digitalizace knihovních dokument ů · OCR • Optical Character Recognition – Antikva – Fraktura n ěmecká – Fraktura česká • Formáty – TXT, PDF, PDF HT, METS ALTO,

Skenery

Skenery pro různé typy dokumentů:• Knižní skenery

– Manuální– Robotické– Kombinované– Hybridní kamery

• Skenery pro jiné typy dokumentů– Průběžné– Bubnové– Mikrofilmové– Atd.

Page 11: Digitalizace knihovních dokument ů · OCR • Optical Character Recognition – Antikva – Fraktura n ěmecká – Fraktura česká • Formáty – TXT, PDF, PDF HT, METS ALTO,
Page 12: Digitalizace knihovních dokument ů · OCR • Optical Character Recognition – Antikva – Fraktura n ěmecká – Fraktura česká • Formáty – TXT, PDF, PDF HT, METS ALTO,
Page 13: Digitalizace knihovních dokument ů · OCR • Optical Character Recognition – Antikva – Fraktura n ěmecká – Fraktura česká • Formáty – TXT, PDF, PDF HT, METS ALTO,
Page 14: Digitalizace knihovních dokument ů · OCR • Optical Character Recognition – Antikva – Fraktura n ěmecká – Fraktura česká • Formáty – TXT, PDF, PDF HT, METS ALTO,
Page 15: Digitalizace knihovních dokument ů · OCR • Optical Character Recognition – Antikva – Fraktura n ěmecká – Fraktura česká • Formáty – TXT, PDF, PDF HT, METS ALTO,
Page 16: Digitalizace knihovních dokument ů · OCR • Optical Character Recognition – Antikva – Fraktura n ěmecká – Fraktura česká • Formáty – TXT, PDF, PDF HT, METS ALTO,

Vlastnosti skenovacíchzařízení

• Maximální velikost předlohy• Způsob uložení knihy (bookcradle)• Maximální dpi v celé ploše• Rychlost skenování• Přenos souborů

Page 17: Digitalizace knihovních dokument ů · OCR • Optical Character Recognition – Antikva – Fraktura n ěmecká – Fraktura česká • Formáty – TXT, PDF, PDF HT, METS ALTO,

Zpracování obrazových souborů

• Separace jednotlivých stránek dokumentu• Narovnání

– Manuální– Poloautomatické

• Ořez– Uvnitř stránky dokumentu– Vně stránky dokumentu

• Zlepšení kvality– Potlačení pozadí (průtisků)– Odstranění šumu

Page 18: Digitalizace knihovních dokument ů · OCR • Optical Character Recognition – Antikva – Fraktura n ěmecká – Fraktura česká • Formáty – TXT, PDF, PDF HT, METS ALTO,

OCR

• Optical Character Recognition– Antikva– Fraktura německá– Fraktura česká

• Formáty– TXT, PDF, PDF HT, METS ALTO, ALTO XML, PAGE XML

• Příčiny nízké úspěšnosti rozpoznávání– Nízká kvalita předlohy– Chyby v nastavení skenovacích parametrů (např. nízké dpi)– Zastaralý typ písma– Starší podoba jazyka

Page 19: Digitalizace knihovních dokument ů · OCR • Optical Character Recognition – Antikva – Fraktura n ěmecká – Fraktura česká • Formáty – TXT, PDF, PDF HT, METS ALTO,

Struktura dokumentu

• Jednostránkové soubory / dvoustránkové / vícestránkové

• Jendosvazkové /vícesvazkové dokumenty• Seriály a nepravá periodika• Pravá periodika• Noviny

Page 20: Digitalizace knihovních dokument ů · OCR • Optical Character Recognition – Antikva – Fraktura n ěmecká – Fraktura česká • Formáty – TXT, PDF, PDF HT, METS ALTO,

Struktura dokumentu

• Složité struktury, např. noviny– Titul

– Ročník metadata– Výtisk

– Strana– Reprezentace strany digitální objekt

Page 21: Digitalizace knihovních dokument ů · OCR • Optical Character Recognition – Antikva – Fraktura n ěmecká – Fraktura česká • Formáty – TXT, PDF, PDF HT, METS ALTO,

Struktura dokumentu

• Struktura pro zpřístupnění archivaci: PSP, SIP– Popisná metadata – xml

– Složka JP2 – Modified master (neztrátovákomprese)

– Složka JP2 – User copy (ztrátová komprese)

– Složka METS ALTO

Page 22: Digitalizace knihovních dokument ů · OCR • Optical Character Recognition – Antikva – Fraktura n ěmecká – Fraktura česká • Formáty – TXT, PDF, PDF HT, METS ALTO,

Kontrola kvality

• Kontrola kvality obrazových souborů– DPI, stupně šedé barvy, věrnost barevného

podání podle obrazce, atd.

• Kontrola úspěšnosti OCR– Na písmena (vícenásobné selhání u stejného

písmene)– Na slova

• Validace XML• Konsistence struktury dokumentu

Page 23: Digitalizace knihovních dokument ů · OCR • Optical Character Recognition – Antikva – Fraktura n ěmecká – Fraktura česká • Formáty – TXT, PDF, PDF HT, METS ALTO,

Nástroje pro digitalizaci

• Skenery• Programové nástroje pro zpracování

obrazu• OCR• Nástroje pro vytvoření struktury

dokumentu• Nástroje pro tvorbu metadat (XML editor)• Kompletní work flow (DocWorks, Sirius,

Goobi, atd.)

Page 24: Digitalizace knihovních dokument ů · OCR • Optical Character Recognition – Antikva – Fraktura n ěmecká – Fraktura česká • Formáty – TXT, PDF, PDF HT, METS ALTO,

Automatizace procesu digitalizace

• Tvorba popisných metadat konverzízáznamu z elektronického katalogu

• Generování administrativních a technických metadat v průběhu digitalizace nebo archivace

• Automatizované operace s daty umožňuje využívání identifikátorů (čárový kód, číslo ČNB, ISSN, ISBN, atd.)

Page 25: Digitalizace knihovních dokument ů · OCR • Optical Character Recognition – Antikva – Fraktura n ěmecká – Fraktura česká • Formáty – TXT, PDF, PDF HT, METS ALTO,

Prezentace digitalizovaných dokumentů

• Aplikace pro digitální knihovnu - Kramerius 3, Kramerius 4(open source): http://kramerius.nkp.cz/

• Vyhledávání dokumentů podle metadat a fulltextu

• Jednotná informační brána• Federované katalogy• Europeana, TEL

Page 26: Digitalizace knihovních dokument ů · OCR • Optical Character Recognition – Antikva – Fraktura n ěmecká – Fraktura česká • Formáty – TXT, PDF, PDF HT, METS ALTO,

Evidence digitalizovaných dokumentů

• Evidence digitalizovaných dokumentů, nebo vybraných pro digitalizaci, je důležitápro:– Eliminaci duplicitních neekonomických činností

– Zjišťování informací o digitalizovaných dokumentech

– http://sluzby.incad.cz/esp/rdcz/

Page 27: Digitalizace knihovních dokument ů · OCR • Optical Character Recognition – Antikva – Fraktura n ěmecká – Fraktura česká • Formáty – TXT, PDF, PDF HT, METS ALTO,

Národní program Kramerius

• VISK 7 program zaměřený na mikrofilmování a digitalizaci dokumentůohroženýchz degradací kyselého papíru

• Podporuje MK ČR – hradí 70% nákladů• Otevřený všem veřejným knihovnám

registrovaným MK ČR• Výzva k podávání projektů listopad 2010,

uzávěrka leden 2011• Informace na webu NK ČR

Page 28: Digitalizace knihovních dokument ů · OCR • Optical Character Recognition – Antikva – Fraktura n ěmecká – Fraktura česká • Formáty – TXT, PDF, PDF HT, METS ALTO,

Projekt Národní digitálníknihovna

• Integrovaný operační program, Smartadministration

• Trvání 2010 – 2014• Udržitelnost 2015 – 2019• Celkem digitalizace 26 mil. stran • V rámci projektu budou vybudována dvě

pracoviště digitalizace NK ČR a MZK• Využití robotických skenerů• Nové standardy a formáty (konverze a migrace

dat)

Page 29: Digitalizace knihovních dokument ů · OCR • Optical Character Recognition – Antikva – Fraktura n ěmecká – Fraktura česká • Formáty – TXT, PDF, PDF HT, METS ALTO,
Page 30: Digitalizace knihovních dokument ů · OCR • Optical Character Recognition – Antikva – Fraktura n ěmecká – Fraktura česká • Formáty – TXT, PDF, PDF HT, METS ALTO,
Page 31: Digitalizace knihovních dokument ů · OCR • Optical Character Recognition – Antikva – Fraktura n ěmecká – Fraktura česká • Formáty – TXT, PDF, PDF HT, METS ALTO,

Děkuji za pozornost

[email protected]