Upload
others
View
5
Download
0
Embed Size (px)
Citation preview
Digitalizace knihovních dokumentů
Jiří Polišenský
Obsah prezentace
• Základní prvky digitalizace• Formáty a standardy• Skenery• Digitalizační work flow• Systémy pro prezentaci a evidenci
digitalizovaných dokumentů• Projekt Národní digitální knihovna
Základní prvky digitalizace
Digitální objekty + metadataDigitální objekty• Obrazové soubory• Zvuk• Video• atd.
Funkce digitálních objektů
• Archival master – archivní soubor• Modified master – modifikovaný soubor• User copy – uživatelská kopie
Obrazové soubory
• Základní bitmapa získaná skenováním• Různé způsoby komprese podle použitých
obrazových formátů• Ztrátová a bezztrátová komprese• Vlastnosti obrazových souborů
– Obrazový formát– Rozlišovací schopnost v dpi– Černobílé zobrazení, šedá škála, barva– Velikost v bytech
Formáty obrazových souborů
• TIFF neztrátový• JPEG ztrátový• JP2 neztrátový• PNG neztrátový• DjVu ztrátový
Metadata
• Popisná metadata• Strukturální metadata• Administrativní a technická metadata
Standardy
• Popisná metadata– V současné době NK používá národní
standard založený na UNIMARCu a DTD pro periodika a monografie, XML
– Další používané standardy:• Dublin Core• MARC XML• MODS
• Administrativní a technická metadata– PREMIS, MIX
Příprava dokumentů pro digitalizaci
• Selekce dokumentů – stanovit selekčníkriteria
• Kontrola stavu zpracování v elektronickém katalogu
• Čárový kód• Fyzický stav• Přílohy – volné, rozkládací apod.• Jazyk a písmo (OCR)
Skenery
Skenery pro různé typy dokumentů:• Knižní skenery
– Manuální– Robotické– Kombinované– Hybridní kamery
• Skenery pro jiné typy dokumentů– Průběžné– Bubnové– Mikrofilmové– Atd.
Vlastnosti skenovacíchzařízení
• Maximální velikost předlohy• Způsob uložení knihy (bookcradle)• Maximální dpi v celé ploše• Rychlost skenování• Přenos souborů
Zpracování obrazových souborů
• Separace jednotlivých stránek dokumentu• Narovnání
– Manuální– Poloautomatické
• Ořez– Uvnitř stránky dokumentu– Vně stránky dokumentu
• Zlepšení kvality– Potlačení pozadí (průtisků)– Odstranění šumu
OCR
• Optical Character Recognition– Antikva– Fraktura německá– Fraktura česká
• Formáty– TXT, PDF, PDF HT, METS ALTO, ALTO XML, PAGE XML
• Příčiny nízké úspěšnosti rozpoznávání– Nízká kvalita předlohy– Chyby v nastavení skenovacích parametrů (např. nízké dpi)– Zastaralý typ písma– Starší podoba jazyka
Struktura dokumentu
• Jednostránkové soubory / dvoustránkové / vícestránkové
• Jendosvazkové /vícesvazkové dokumenty• Seriály a nepravá periodika• Pravá periodika• Noviny
Struktura dokumentu
• Složité struktury, např. noviny– Titul
– Ročník metadata– Výtisk
– Strana– Reprezentace strany digitální objekt
Struktura dokumentu
• Struktura pro zpřístupnění archivaci: PSP, SIP– Popisná metadata – xml
– Složka JP2 – Modified master (neztrátovákomprese)
– Složka JP2 – User copy (ztrátová komprese)
– Složka METS ALTO
Kontrola kvality
• Kontrola kvality obrazových souborů– DPI, stupně šedé barvy, věrnost barevného
podání podle obrazce, atd.
• Kontrola úspěšnosti OCR– Na písmena (vícenásobné selhání u stejného
písmene)– Na slova
• Validace XML• Konsistence struktury dokumentu
Nástroje pro digitalizaci
• Skenery• Programové nástroje pro zpracování
obrazu• OCR• Nástroje pro vytvoření struktury
dokumentu• Nástroje pro tvorbu metadat (XML editor)• Kompletní work flow (DocWorks, Sirius,
Goobi, atd.)
Automatizace procesu digitalizace
• Tvorba popisných metadat konverzízáznamu z elektronického katalogu
• Generování administrativních a technických metadat v průběhu digitalizace nebo archivace
• Automatizované operace s daty umožňuje využívání identifikátorů (čárový kód, číslo ČNB, ISSN, ISBN, atd.)
Prezentace digitalizovaných dokumentů
• Aplikace pro digitální knihovnu - Kramerius 3, Kramerius 4(open source): http://kramerius.nkp.cz/
• Vyhledávání dokumentů podle metadat a fulltextu
• Jednotná informační brána• Federované katalogy• Europeana, TEL
Evidence digitalizovaných dokumentů
• Evidence digitalizovaných dokumentů, nebo vybraných pro digitalizaci, je důležitápro:– Eliminaci duplicitních neekonomických činností
– Zjišťování informací o digitalizovaných dokumentech
– http://sluzby.incad.cz/esp/rdcz/
Národní program Kramerius
• VISK 7 program zaměřený na mikrofilmování a digitalizaci dokumentůohroženýchz degradací kyselého papíru
• Podporuje MK ČR – hradí 70% nákladů• Otevřený všem veřejným knihovnám
registrovaným MK ČR• Výzva k podávání projektů listopad 2010,
uzávěrka leden 2011• Informace na webu NK ČR
Projekt Národní digitálníknihovna
• Integrovaný operační program, Smartadministration
• Trvání 2010 – 2014• Udržitelnost 2015 – 2019• Celkem digitalizace 26 mil. stran • V rámci projektu budou vybudována dvě
pracoviště digitalizace NK ČR a MZK• Využití robotických skenerů• Nové standardy a formáty (konverze a migrace
dat)
Děkuji za pozornost