Upload
uisk-ff-uk
View
50
Download
2
Embed Size (px)
Citation preview
Digitální zpřístupnění Digitální zpřístupnění knihovních sbírekknihovních sbírek
Adolf KnollAdolf KnollNárodní knihovna České Národní knihovna České
[email protected]@nkp.cz
Digitalizační aktivityDigitalizační aktivity► 1992/1993 – První pilotní projekt programu 1992/1993 – První pilotní projekt programu
UNESCO Paměť světaUNESCO Paměť světa► 1995 – další pilotní projekty1995 – další pilotní projekty► 1996 – počátek rutinní digitalizace1996 – počátek rutinní digitalizace► 2000 – národní programy2000 – národní programy► 2003/2004 – spuštění digitálních knihoven2003/2004 – spuštění digitálních knihoven► ->-> 2010 – vytvoření virtuálního 2010 – vytvoření virtuálního
badatelského prostředí pro historické badatelského prostředí pro historické dokumenty a sbírkydokumenty a sbírky
StandardizaceStandardizace► Složený digitální Složený digitální
dokument:dokument: Datová částDatová část Metadatová částMetadatová část
► Jak strukturovat?Jak strukturovat?
► Komplexní Komplexní dokumentový formátdokumentový formát
Značkovací jazykyZnačkovací jazyky►Platforma SGML je pro takový formát Platforma SGML je pro takový formát
ideálníideální►Naše programy:Naše programy:
Vlastní SGML implementace (DOBM) – 1996 Vlastní SGML implementace (DOBM) – 1996 – v r. 1999 jako doporučení UNESCO– v r. 1999 jako doporučení UNESCO
XML platforma od r. 2003/2004XML platforma od r. 2003/2004►Namapování standardů pro popis Namapování standardů pro popis
obsahu, doporučených postupů a dalších obsahu, doporučených postupů a dalších řešenířešení
Metadata
Metadata – co popsatMetadata – co popsat► IdentifikaceIdentifikace►ObsahObsah►StrukturaStruktura►Technické parametryTechnické parametry►KomunikaceKomunikace
► Jak: naše konkrétní řešení jsou Jak: naše konkrétní řešení jsou promítnuta do těchto strukturálních promítnuta do těchto strukturálních součástísoučástí
ZPŘÍSTUPNĚNÍ PROSTŘEDNICTVÍM DEFINOVANÉ KOMPATIBILITY
Identifikační metadataIdentifikační metadata► Katalogizační a další identifikační pravidlaKatalogizační a další identifikační pravidla► MARC, Dublin Core, MASTER, …, v knihovnáchMARC, Dublin Core, MASTER, …, v knihovnách► EAD v archivechEAD v archivech► AMICO, CIDOC, REACH Element Set, …, v AMICO, CIDOC, REACH Element Set, …, v
muzeíchmuzeích► … … in …in …
► ROLE: identifikovat virtuální reprezentaci ROLE: identifikovat virtuální reprezentaci originálu (ve vztahu k originálu)originálu (ve vztahu k originálu)
Metadata pro popis obsahuMetadata pro popis obsahu► Žádná pevná pravidla nejsou k dispozici – nebo Žádná pevná pravidla nejsou k dispozici – nebo
jen částečně – většinou ověřené praktické jen částečně – většinou ověřené praktické postupypostupy
►Musíme je vzít a formálně zabudovat do Musíme je vzít a formálně zabudovat do struktury dokumentustruktury dokumentu
► Většinou základní povinná úroveň je velmi Většinou základní povinná úroveň je velmi jednoduchá, ale musí vyhovět nejčastějším jednoduchá, ale musí vyhovět nejčastějším uživatelským potřebámuživatelským potřebám
Strukturální metadataStrukturální metadata►Musí být namapována struktura celého Musí být namapována struktura celého
dokumentu (se všemi nejčastějšími dokumentu (se všemi nejčastějšími zvláštnostmi):zvláštnostmi): Fyzické částiFyzické části Logické části, které chceme specifickým Logické části, které chceme specifickým
způsobem pojednat (články, kapitoly, způsobem pojednat (články, kapitoly, vztažené objekty, …)vztažené objekty, …)
►Zde je často nesnadné stanovit Zde je často nesnadné stanovit povinné elementypovinné elementy
Technická metadataTechnická metadataExistence vysoce profesionálních standardůExistence vysoce profesionálních standardů
vs.vs.Naše pragmatické a skutečné potřebyNaše pragmatické a skutečné potřeby
► Rigorózní standardy je třeba aplikovat tam, Rigorózní standardy je třeba aplikovat tam, kde mohou dobře sloužit cílům projektu, ale kde mohou dobře sloužit cílům projektu, ale tam, kde by byly jen cílem pro sebe sama, tam, kde by byly jen cílem pro sebe sama, bychom měli mít odvahu se rozhodnout jinakbychom měli mít odvahu se rozhodnout jinak
► ROLE: vyřešit současné a budoucí zobrazení, ROLE: vyřešit současné a budoucí zobrazení, přehrání nebo tisk správně a na nezbytné přehrání nebo tisk správně a na nezbytné kvalitativní úrovnikvalitativní úrovni
Komunikační metadataKomunikační metadata►Zajišťují integraci do širšího virtuálního Zajišťují integraci do širšího virtuálního
prostředíprostředí►Komunikace mezi aplikacemi digitální Komunikace mezi aplikacemi digitální
knihovny a vyhledávacími portályknihovny a vyhledávacími portály►Standardizované protokoly: Z39.50, Standardizované protokoly: Z39.50,
OAI-PMHOAI-PMH, …, …► Je třeba si odsouhlasit profily, tj. Je třeba si odsouhlasit profily, tj.
minimální identifikační záznamyminimální identifikační záznamy
Digital Library Applications
Manuscriptorium Kramerius
KATALOGY(Souborný katalog ČR bude mít funkci
souborného katalogu digitálního obsahu)
PORTÁLY
TEL (http://theeuropeanlibrary.org)JIB (http://www.jib.cz)
CERL-MSS (https://diva.ub.uu.se/test/cerl/index.xml)
Metadata: jak popsatMetadata: jak popsat► Cílem je strukturovaný formát definovaný Cílem je strukturovaný formát definovaný
formálně jako DTD nebo W3C Schémaformálně jako DTD nebo W3C Schéma
►Mnoho z výše uvedených skutečností závisí Mnoho z výše uvedených skutečností závisí na našem výběru/rozhodnutína našem výběru/rozhodnutí
►Naše formáty pro digitalizované dokumenty: Naše formáty pro digitalizované dokumenty: rukopisy, periodika, monografie, zvukové rukopisy, periodika, monografie, zvukové dokumenty, sbírkové předměty, dokumenty, sbírkové předměty, komunikační profily, historický fultextkomunikační profily, historický fultext
Budoucí vývojBudoucí vývoj► XML platforma se zdá zatím dostatečně XML platforma se zdá zatím dostatečně
robustnírobustní►Nové přístupy a dílčí platformy se budou Nové přístupy a dílčí platformy se budou
objevovat – například METS (strukturovaná objevovat – například METS (strukturovaná kontejnerizace)kontejnerizace)
► Jestliže jsou naše analýzy správné, budou starší Jestliže jsou naše analýzy správné, budou starší a novější základně mezi sebou kompatibilnía novější základně mezi sebou kompatibilní
► Změny stojí peníze: nástroje na výrobu Změny stojí peníze: nástroje na výrobu digitálních dokumentů, na jejich zpřístupnění, digitálních dokumentů, na jejich zpřístupnění, na…na…
Data
Data: co ukázatData: co ukázat►Datové soubory jsou cílem Datové soubory jsou cílem
uživatelského zájmu (obrazy, fulltext, uživatelského zájmu (obrazy, fulltext, audio nebo video soubory)audio nebo video soubory)
►Originál je jimi přímo reprezentovánOriginál je jimi přímo reprezentován►Kvalita dat:Kvalita dat:
Archivní souboryArchivní soubory Uživatelské souboryUživatelské soubory
►Obě úrovně jsou primárně definovány Obě úrovně jsou primárně definovány cíli našich projektůcíli našich projektů
Archivní souboryArchivní soubory► Funkce ochrany a záchrany originálůFunkce ochrany a záchrany originálů► Většinou ISO nebo velmi rozšířené standardy:Většinou ISO nebo velmi rozšířené standardy:
TIFF, JPEGTIFF, JPEG WAVWAV MPEGMPEG
NekomprimovanéNekomprimované KomprimovanéKomprimované
►bezeztrátověbezeztrátově► ztrátověztrátově
Uživatelské souboryUživatelské soubory►Redukce objemu dat:Redukce objemu dat:
Snížení rozlišení nebo toku dat (bit rate)Snížení rozlišení nebo toku dat (bit rate) Komprese Komprese
Pouze obrazy (+ je třeba zvážit i snížení Pouze obrazy (+ je třeba zvážit i snížení počtu barev):počtu barev):►Mixed Raster ContentMixed Raster Content►Multiresolutional imageMultiresolutional image►Obrazové serveryObrazové servery
Snížení rozlišení/toku datSnížení rozlišení/toku dat► Použití pouze známých formátůPoužití pouze známých formátů►Definovat cíle a smysl dodávání datDefinovat cíle a smysl dodávání dat►Dodávat jen takové rozlišení, které je Dodávat jen takové rozlišení, které je
mírně vyšší než požadovaný limit (náhled, mírně vyšší než požadovaný limit (náhled, základní kvality, normální kvalita, …)základní kvality, normální kvalita, …)
► Většinou oblast JPEG nebo TIFF/GIF Většinou oblast JPEG nebo TIFF/GIF (černobílý obraz); MP3 nebo WMA; WMV (černobílý obraz); MP3 nebo WMA; WMV nebo MPEG4 na Internetunebo MPEG4 na Internetu
Ztrátová kompreseZtrátová komprese►Tradiční schémata: Tradiční schémata:
DCT JPEGDCT JPEG MPEG1, MPEG2MPEG1, MPEG2
►Nová schémata:Nová schémata: JBIG pro černobílý obraz (zatím nerozšířeno)JBIG pro černobílý obraz (zatím nerozšířeno) Wavelet schémata (JPEG 2000 a další Wavelet schémata (JPEG 2000 a další
formáty)formáty) MPEG4MPEG4
Mixed Raster ContentMixed Raster Content
Multiresolutional imageMultiresolutional image
ALL in ONE FILE
Obrazové serveryObrazové serveryDynamické generování požadovaných Dynamické generování požadovaných
částí obrazu resp. kvalitových hladinčástí obrazu resp. kvalitových hladin
ManuscriptoriumManuscriptoriumSkutečnostSkutečnost
ManuscriptoriumManuscriptorium►souborný katalog vč. některých souborný katalog vč. některých
zahraničních institucízahraničních institucí►ca. 1700 dokumentů, tj. cca 800 000 ca. 1700 dokumentů, tj. cca 800 000
stran vč. několika zahraničníchstran vč. několika zahraničních►obrazový Express Server na mapyobrazový Express Server na mapy►Komunikace Z39.50 (MARC21), OAI-Komunikace Z39.50 (MARC21), OAI-
PMH (DC, MARC21, OpenM, MODS)PMH (DC, MARC21, OpenM, MODS)
ManuscriptoriumManuscriptoriumZáměryZáměry
► TEI strukturované texty (pilot nyní)TEI strukturované texty (pilot nyní)► CERL-MSS CERL-MSS
https://diva.ub.uu.se/test/cerl/index.xmlhttps://diva.ub.uu.se/test/cerl/index.xml► TELTEL► Audio dataAudio data►Mezinárodní rozšíření – nástroje pro jeho Mezinárodní rozšíření – nástroje pro jeho
podporu, výzva dalším institucím, podporu, výzva dalším institucím, mezinárodní workshop před Inforemmezinárodní workshop před Inforem
► Účast v mezinárodních projektechÚčast v mezinárodních projektech
KrameriusKrameriusSoučasnostSoučasnost
►1,5 milionu stran (dalších 0,5 milionu 1,5 milionu stran (dalších 0,5 milionu připraveno)připraveno)
►2 velké aplikace (NK, Akademie věd)2 velké aplikace (NK, Akademie věd)►Zabudováno v komerčních nástrojích Zabudováno v komerčních nástrojích
firmy Elsys Engineeringfirmy Elsys Engineering►Wavelet a Mixed Raster Content Wavelet a Mixed Raster Content
technologietechnologie
KrameriusKrameriusSoučasnostSoučasnost
►Zlepšení komunikace OAI-PMH (DC Zlepšení komunikace OAI-PMH (DC qualified)qualified)
►Dokončení provázanosti na Souborný Dokončení provázanosti na Souborný katalog ČR (vzájemná propojenost)katalog ČR (vzájemná propojenost)
►Další dokumenty: t.č. implementace Další dokumenty: t.č. implementace DTD pro sbírkové předměty, návrh pro DTD pro sbírkové předměty, návrh pro zvukové dokumentyzvukové dokumenty
Digitální knihovny a zdrojeDigitální knihovny a zdroje►http://www.manuscriptorium.comhttp://www.manuscriptorium.com►http://kramerius.nkp.czhttp://kramerius.nkp.cz
►Zdroje:Zdroje: http://digit.nkp.czhttp://digit.nkp.cz (naše DTD) (naše DTD)