Upload
truongtuong
View
215
Download
0
Embed Size (px)
Citation preview
ssttaavv iinnffoorrmmaanncchh ssttuuddii aa kknniihhoovvnniiccttvv FFFF UUKK VV PPRRAAZZEE
MMeettaaddaattaa
aa jjeejjiicchh hhllaavvnn sscchhmmaattaa
UUeebbnn mmaatteerriill pprroo ppoosslluucchhaaee IISSKK
ZZpprraaccoovvaallaa EEvvaa BBRRAATTKKOOVV
VVeerrzzee 11..00
PPrraahhaa
22001122
2
OBSAH
1 Terminologie oblasti ........................................................................................................... 3
1.1 Zdroje k tmatu metadata v souasnm internetu .......................................................... 3
1.2 Kdy vznikl termn metadata? ............................................................................................ 4
1.3 Knihovnick katalogizace versus metadata ......................................................................... 9
1.4 Metadata v ivotnm cyklu informanch objekt............................................................. 13
1.5 Definice termnu metadata a jejich typologie ................................................................ 15
1.6 Termn metadatov schma ............................................................................................. 16
2 Vznamn metadatov schmata (vbr) ......................................................................... 17
2.1 Metadatov schma Dublin Core (DC) ............................................................................... 17 2.1.1 Vznik schmatu Dublin Core......................................................................................................... 17 2.1.2 Dal rozvjen DC ......................................................................................................................... 19 2.1.3 Aktuln stav schmatu DC ........................................................................................................... 26
2.2 Metadatov schma nezvislch hlaviek TEI ................................................................... 31
2.3 Metadatov schma MARCXML ........................................................................................ 34
2.4 Metadatov schma MODS ................................................................................................. 38
2.5 Metadatov schma MADS .................................................................................................. 41
3 Rmce pro komunikaci metadat (vbr) .......................................................................... 44
3.1 Struktura RDF (Rmec pro popis zdroj) ......................................................................... 44
3.2 Struktura METS (Rmec pro komunikaci a archivaci metadat a zdroj) ..................... 49
Bibliografick reference .................................................................................................................. 55
Eva Bratkov, 2011-
Vechna prva vyhrazena podle zkona o prvu autorskm . 121/2000 Sb. a novely AZ . 216/2006 Sb. Text je
uren pouze pro individuln studijn potebu poslucha v rmci portlu uebnch text, nen mon ho
jakoukoliv formou dle rozmnoovat, zveejovat i dle roziovat bez souhlasu autora a vydavatele.
3
1 Terminologie oblasti
1.1 Zdroje k tmatu metadata v souasnm internetu
Termn metadata je velmi frekventovanm termnem v souasn odborn literatue vce
vdnch obor, jak bude doloeno malou statistikou dle v textu (sti 2.2). S termnem se
v prosted internetu setkv dnes bn tak laick veejnost. Mal statistika z poslednch
pti let dokld kadoron velk narst webovch dokument vnovanch tomuto tmatu.
Obr. . 1: vodn st obrazovky se zobrazenm nalezench obrzk k termnu metadata v systmu
Google v lednu 2012
V ervenci 2008 registroval systm Google piblin 14 700 000 webovch dokument, kter
zahrnovaly termn metadata1. Okdlenou anglickou frzi Metadata is data about data
2
obsahovalo ve stejn dob piblin 18 600 webovch dokument. V dubnu 2010 systm
registroval ji 25 800 000 dokument s termnem metadata (skoro dvojnsobek oproti roku
2008) a 55 400 dokument s ve uvedenou anglickou frz (skoro trojnsobek oproti roku
2008). V prosinci stejnho roku vzrostl poet dokument s termnem metadata na
28 500 000 (nrst za 8 msc inil asi 3 miliony dokument) a poet dokument s anglickou
frz na 70 800 webovch dokument (nrst za 8 msc inil asi 15 400 dokument).
1 Pi zjiovn statistickch hodnot v systmu Google byl vzat v potaz pouze termn metadata, kter uv
vce jazyk (anglitina, etina aj.), nikoliv ekvivalenty v jinch jazycch (nap. fr. termn mtadonnes aj.)
2 V eskm pekladu doslovn: Metadata jsou data o datech.
4
V lednu 2012 systm Google ji registroval piblin 127 000 000 dokument s termnem
metadata (poet se tedy po jednom celm roce tm zdvojnsobil). Anglickou frzi
obsahovalo piblin 146 000 webovch dokument (tak dvojnsobn nrst). Obrzk
k termnu metadata zaregistroval systm Google ve stejn dob 10 400 000 (viz obr. . 1).
Do poped vslednch obrzk se (typicky) dostala schmata znzorujc subjekty
komunikujc metadata (napklad v rmci protokolu OAI-PMH), vcensobn schmata tok
metadat v rznorodch potaovch systmech, schmata znzorujc podstatu termnu
metadata, pehledov tabulky s daji o vyuvn metadat aj.
1.2 Kdy vznikl termn metadata?
Nkte autoi s oblibou tvrd, e metadata existuj od chvle, kdy lid zaali organizovat
informace (tedy nkdy od starovku), a e minimln poslednch 500 let byla tvorba a sprva
metadat primrn zajiovna informanmi profesionly v rmci informanch proces, jako
jsou katalogizace, klasifikace a indexace informanch objekt [GILLILAND, 2008]. S tmto
sdlenm by bylo mon souhlasit, pokud by termn metadata ml v souasn chvli roli
naprosto obecnho (stenho) termnu, pod kter by spadal popis, lokalizace a zpstupovn
jakhokoliv objektu svta (hmotnho nebo nehmotnho, ivho nebo neivho, fyzickho
nebo elektronickho). K tomu vak lze vznst urit nmitky. Je diskutabiln oznait daje
(data) o ijc fyzick osob v registran potaov databzi za metadata v kontextu jejich
zkladn, ve uveden, definice (metadata jsou data o datech). Fyzickou osobu lze st
chpat jako data3, popisn data o n se v minulosti i v souasnosti oznauj bn termnem
faktografick data. Podobn lze pochybovat, jestli maj zznamy vlastnnch vozidel
v jejich centrlnm potaovm registru povahu metadatovch zznam (lze oznait
automobil s uritm vrobnm slem, vlastnn uritou osobou apod. za data?).
Popisy informanch objekt, kter maj jasnou povahu dat, lze bez diskus, oznait jako
metadatov (v tomto ppad jde o data o datech). Me jt o klasick dokumenty/zdroje
(knihy, asopisy, lnky, mapy, obrazy, zvukov zznamy aj.), nebo dokumenty/zdroje
elektronick. Me jt dokonce i dl bibliografick entity dan modelem FRBR, tj. dla4,
vyjden dl, publikace nebo exemple publikac [Functional Requirements, 1998]. Pro
prosted online dostupnch zdroj (digitlnch i digitalizovanch) a systm, kter je
komplexn komunikuj, je pak termn metadata stoprocentn relevantn.
Ve uveden sdlen A. J. Gillilandov nen zcela korektn v tom, e samotn termn
metadata neexistuje na svt dlouho, zrodil se a ve druh polovin 20. stolet v kontextu
potaov komunikace informac. Do t doby bylo, a stle jet je, popisovn a lokalizovn
informanch objekt nazvno jinmi termny, jako popis informac, bibliografick
popis, katalogizace, faktografick popis aj.
3 I podle Arlene G. Taylorov definice, e metadata jsou data o datech pedpokld, e balek informac
(webov strnka, zvukov zznam ve formtu MP3, kniha aj.) jsou data a e popis atribut a obsahu tohoto
balku znamen, e jde o data o datech [TAYLOR, 2004, s. 139].
4 Ji publikovan mezinrodn standardy pro identifikaci dl ve svch plohch bn oznauj daje k popisu
abstraktnch dl termnem metadata (jde o standardy ISWC pro hudebn dla, ISAN pro audiovizuln dla
a ISTC pro textov dla). Zvltnost je, e v ppad dl jako abstrakc primrn data vlastn tak neexistuj.
5
Vznik termnu metadata lze objektivnm zpsobem doloit i na rovni sekundrnch
bibliografickch databz5, jako je napklad databze citanch rejstk spolenosti
Thomson Reuters zpstupovan v systmu WOS (Web Of Science), nebo bibliografick
databze vybranch obor (viz dle v textu).
Obr. . 2: statistika a graf potu zznam zdrojovch lnk (zahrnujcch termn metadata)
v databzi systmu Web Of Science (WOS) publikovanch v jednotlivch letech 1982-2011 [zskno
v modulu bibliometrick systmu WOS Analza vsledk, v lednu 2012]
V rmci polytematick databze systmu WOS (vech jejch st s retrospektivou 1900-
2011) bylo 20. ledna 2012 nalezeno 8 282 zznam zdrojovch lnk z vdeckch
asopis6, kter zahrnovaly (jednou nebo vcekrt) termn metadata s vt i men mrou
obsahov relevance k tmatu metadata. Termn metadata se poprv objevil v roce 1982, jak
dokumentuje pslun zznam lnku z asopisu7. Nzev lnku prozrazuje, e termn
5 Optimln by byl svtov digitln plnotextov informan fond, takov vak zatm nen pro poteby analzy
k dispozici.
6 Vyhledvn probhlo pomoc (umlho) seleknho pole TS (TOPIC), kter zahrnuje termny z pole nzev
lnku, pop., existuj-li, z pol autorsk abstrakt, autorsk klov slova nebo klov slova plus. Je jist, e do
vsledku reere se nedostaly vechny zznamy dokument, kter se tmatu metadat njak dotkaj (napklad
urit nebyl zahrnut zznam, kter v databzi WOS uloen sice je [WIEDERKEHR, Robert R. V. Methodology
for representing data element tracings and transformations in a numeric datasystems. Drexel Library quarterly.
Summer Fall 1982, vol. 18, issue 3-4, s. 161-176. ISSN 0012-6160], postrd vak abstrakt, kter slovo
metadata zahrnuje, a tak ho systm nevyhledal (abstrakt je uveden v databzi LISA).
7 lnek ze zdrojovho aspisu: LISTON, David M. a James L. DOLBY. Metadata systems for integrated access
to numeric data files. Drexel Library quarterly. Summer Fall 1982, vol. 18, issue 3-4, s. 147-160. ISSN 0012-
6160. Dan asopis je v systmu WOS zaazen do kategorie Information Science & Library Science.
6
metadata byl uit pravdpodobn autory z oboru potaov vdy, kte eili otzku popisu
potaovho datovho souboru s sly pro poteby jejich vyhledvn.
Vsledek reere z ledna 2012 byl nsledn bibliometricky zpracovn v modulu Analza
vsledk systmu WOS (Analyze Results). Zskan statistika prozrazuje poty zznam
zdrojovch lnk, kter zahrnuj termn metadata, publikovanch v jednotlivch letech
1982-2011 viz obr. . 2.
Z danho statistickho pehledu (obr. . 2) vyplv, e problematika metadat byla v 80. letech
20. stolet eena v relativn mal me, a to pedevm z pohledu potaov vdy, vpoetn
techniky a softwarovho zabezpeen informanch systm a jejich databz (zznamy maj
vtinou piazen kategorie Computer Science, Hardware & Architecture a Computer
Science, Software Engineering, Computer Science, Artificial Intelligence, Computer
Science, Information Systems v rmci kategorizace vdeckch asopis systmu WOS).
Obr. . 3: statistika a graf potu zznam zdrojovch lnk (zahrnujcch termn metadata)
v databzi systmu Web Of Science (WOS) publikovanch v rmci rznch vdnch obor (letech
1982-2011) [zskno v bibliometrickm modulu systmu WOS Analza vsledk, v lednu 2012]
90. lta 20. stolet znamenaj, jak dokld statistika na obr. 2, postupn nrst dokument
vnovanch problematice metadat. Prvn vlna vtho rstu dokument s touto
problematikou nastala v celosvtovm mtku po roce 1995, zejmna v kontextu rozvoje
metadatovho standardu Dublin Core, ale i dalch. Otzky metadat byly ji tak eeny
odbornky z jinch obor ne potaov vdy, ve vtm potu se zapojuj i profesionlov
z oblasti informan vdy a knihovnictv. Druh vlna rstu dokument nastv po roce 2000,
zejmna v souvislosti s rozvojem a implementac novch informanch technologi (napklad
protokolu OAI-PMH) a s budovnm velkho potu digitlnch knihoven a digitlnch archiv
7
po celm svt a tak s intenzivnm eenm otzky dlouhodob archivace digitlnch
dokument, kter je s metadaty spojena podstatn. Nejvt mnostv dokument bylo
publikovno k danm otzkm v letech 2007-2009, od roku 2010 je zaznamenvn (prozatm)
pokles publikovanch lnk k tmatu metadat.
Jinm vstupem ve uveden bibliometrick analzy je statistika potu zznam lnk
s tematikou metadat zpracovanch odbornky z rznch obor8. Z pehledu na obr. . 3
vyplv, e otzky metadat jsou v rmci nalezench zznam lnk dan retrospektivy
eeny dominantn v oboru potaov vdy (a 68,2 %). Nsleduj inenrsk obory
(Engineering) (19,2 %), tet pozici ale zaujm obor informan vdy a knihovn vdy
(Information science, Library science) (14,1 %). Nsleduje obor telekomunikac (8,2 %), vda
o obrazech a technologich fotografovn (4,1 %), optika (3,4 %), vchova a pedagogick
vzkum (3,1 %) a dal.
Vsledn poty zznam lnk (z let 1980-2011) k tmatu metadat zskan ze systmu WOS
byly promtnuty tak do tab. . 1 (v prvnm sloupci). V dalch sloupcch je pedstavena pro
srovnn statistika potu zznam dokument (pedevm lnk z periodik) v hlavnch
mezinrodnch bibliografickch databzch oboru informan vda a knihovnictv. Jde
o databzi LISA (Library and Information Science Abstracts) spolenosti ProQuest, pvodn
databzi ISTA (Information Science and Technology Abstracts) a jej pokraovatelku (po roce
2005) databzi LISTA (Library, Information Science and Technology Abstracts) spolenosti
EBSCO a databzi LLIS (Library Literature and Information Science) spolenosti
H. W. Wilson. Hodnoty potu zznam u databze ISTA jsu vedeny do roku 2007 (ukonen
provozu), stejn tak u databze LLIS (ukonen licence pro zpstupovn). Zkladn sla
reprezentuj absolutn poet zznam, kter obsahuj termn metadata (jednou i vcekrt)
kdekoliv (vetn abstraktu, existuje-li). V kulat zvorce jsou uvedeny poty zznam, kter
obsahuj tento termn v poli deskriptor tezauru (DE) anebo v poli zenho pedmtovho
termnu (SU) jde o zznamy dokument, u kterch lze pedpokldat vy i vysokou mru
obsahov relevance z hlediska sledovn tmatu metadat.
Ze statistickho pehledu vyplvaj nsledujc zvry:
poty zznam jsou, jak lze pedpokldat, u databz oboru informan vdy
a knihovnictv oproti polytematick databzi systmu WOS, zpravidla vdy ni, nkdy
vrazn ni (napklad v letech 2006-2009, kdy byla k tmatu metadat publikovna
velik masa dokument zejmna v oblasti potaov vdy)
v oborovch databzch jsou poty zznam s vy mrou obsahov relevance (k tmatu
metadat, v kulat zvorce), jak lze tak pedpokldat, vdy ni ne je celkov poet
zznam s termnem metadata kdekoliv, a to zpravidla o 50 %, nkdy i vce (do
poloviny 90. let 20. stolet vt mru obsahov relevance nevykazoval, a na mal
vjimky, dn dokument)
oborov databze postupn zahrnuly po roce 1995 do tezaur nebo pedmtovch hesl
termn metadata
8 Vstup je pipraven na zklad pedmtov kategorizace vdeckch asopis pouvan systmem WOS.
8
vlny rstu dokument k tmatu metadat (po roce 1995 a po roce 2000) jsou jasn patrn,
stejn jako u databzi systmu WOS, tak u zahrnutch oborovch databz
po roce 2009 (lta 2010-2011) dochz (prozatm) k tlumu publikovn dokument
k tmatu metadat, co dokladuje nejenom databze systmu WOS, ale tak zahrnut
oborov databze
WOS LISA (DE) ISTA (SU) LISTA (SUDE) LLIS (SU)
1980 0 0 (0) 1 (0) 1 (00) 0 (0)
1981 0 0 (0) 0 (0) 0 (00) 0 (0)
1982 1 2 (0) 4 (0) 4 (00) 0 (0)
1983 0 0 (0) 2 (0) 2 (00) 0 (0)
1984 0 0 (0) 0 (0) 0 (00) 0 (0)
1985 0 0 (0) 0 (0) 0 (00) 0 (0)
1986 1 0 (0) 1 (0) 1 (00) 0 (0)
1987 0 0 (0) 0 (0) 0 (00) 0 (0)
1988 2 0 (0) 1 (0) 1 (00) 0 (0)
1989 0 0 (0) 0 (0) 0 (00) 2 (2)
1990 2 1 (0) 0 (0) 0 (00) 0 (0)
1991 5 0 (0) 1 (0) 1 (00) 1 (1)
1992 8 2 (0) 0 (0) 0 (00) 1 (1)
1993 14 3 (0) 3 (0) 3 (00) 1 (1)
1994 14 10 (2) 4 (0) 4 (00) 5 (5)
1995 21 16 (5) 10 (0) 10 (00) 9 (8)
1996 44 30 (14) 18 (1) 21 (33) 8 (6)
1997 104 80 (42) 66 (7) 70 (1111) 24 (16)
1998 128 104 (49) 82 (13) 82 (1616) 38 (31)
1999 175 198 (83) 116 (21) 128 (3636) 74 (53)
2000 257 217 (85) 142 (17) 165 (3339) 59 (37)
2001 257 242 (106) 188 (57) 220 (8383) 97 (78)
2002 322 209 (99) 213 (108) 243 (127129) 105 (81)
2003 548 216 (116) 136 (73) 213 (119127) 107 (75)
2004 684 245 (119) 189 (97) 342 (184196) 134 (95)
2005 756 275 (112) 158 (99) 363 (233238) 105 (66)
2006 831 277 (117) 172 (119) 427 (281290) 159 (103)
2007 923 214 (86) 128 (87) 415 (269268) 132 (93)
2008 1101 233 (83) 450 (298295)
2009 1061 257 (95) 421 (308269)
2010 729 243 (92) 389 (269242)
2011 394 131 (64) 349 (236-229)
Tab. . 1: statistika potu zznam dokument (zahrnujcch termn metadata, za lta 1980-2011
v hlavnch bibliografickch databzch oboru informan vda a knihovnictv ve srovnn s poty
zznam dokument v databzi systmu WOS
9
databze ISTA/LISTA zahrnuj jeden zznam dokumentu (technick zprvy) k tmatu
metadat ji z roku 19809 (databze systmu WOS zznam tohoto dokumentu nem), kter
je vnovn komplexnmu popisu Nrodnho energetickho informanho systmu (USA)
NEIS (National Energy Information System) a v jeho rmci tak popisu dat a metadat
(adrese, dokumentace)
nejvt poty zznam z oborovch databz vykazuje databze LISTA, a to zejmna za
lta 2006-2009, co lze vysvtlit tak tm, e jej producent zvtil od roku 2006 poet
excerpovanch periodik o vybran periodika z oblasti potaov vdy a tak z oblasti
knihovnictv (kter do t doby byla zastoupena minimln)
1.3 Knihovnick katalogizace versus metadata
asto diskutovanm tmatem nejenom potaovch odbornk, ale i informanch
pracovnk a knihovnk byla a zstv problematika katalogizanho versus metadatovho
popisu a tak nslednho uchovn a zpstupovn digitlnch zdroj, zejmna sov
dostupnch. Jde o tma, kter se pvodn objevilo ji v polovin 80. let 20. stolet
v souvislosti s budovnm kolekc i archiv digitalizovanch text. V nslednch 90. letech
na n pak navzalo budovn komplexnjch digitlnch knihoven, kter vak ji obshly tak
jin typy digitlnch zdroj. Problematika metadat se vak stala atraktivn, a to pro podstatn
vt okruh odbornk i uivatel informac, a v moment, kdy zaaly bt digitln zdroje
dostupn pes s Internet. Metadata hluboce souvisej se vznikem a rozvojem tto st a jejch
slueb, zejmna sluby WWW. Prv v sovm prosted vznam metadat nabral zcela
novch rozmr.
Knihovnick pracovnky, zejmna pak katalogiztory, problematika metadat zajmala proto,
e sov dostupn elektronick dokumenty byly a jsou tak pedmtem jejich zpracovatelsk
innosti. Lze dodat, e v klasickm zpracovatelskm procesu se zznamy o dokumentech, je
jsou oddlen od nich samch, nahromadily v dnes ji rozshlch bzch katalog10
a slou
koncovm uivatelm pro vyhledvn tchto dokument. Pslun sti katalogizanch
pedpis vetn formt pro strojov zpracovn zahrnuj kapitoly, kter takov informace
a instrukce bn obsahuj. Zkladnm odbornm termnem, kter doposud pro oznaen
zpracovn dokument uvali a stle uvaj, je katalogizan popis i zznam, resp.
bibliografick popis i zznam. Lze podotknout, e jde o vrazy uvan v modern
katalogizaci nejmn 150 let [CHAPMAN, 1998, Introduction]. Proto mnoh pekvapilo, e
se zaalo v 90. letech i v odbornch knihovnickch kruzch hovoit a pst o metadatech,
jakoto nstrojch i prostedcch popisu elektronickch dokument, pedevm pak sov
dostupnch. Tmi, kdo se takovmi problmy prioritn zabvali, vak nebyli knihovnci,
nbr potaov odbornci, kte rozvjeli dal technologie i celkovou novou architekturu
komunikace informac na WWW pro 21. stolet. Intenzivn se buduje smantick web
(Semantic Web) [BERNERS-LEE, 1998a]. Do oblasti knihovnictv vnesli uveden vraz
prv potaov odbornci v tto oblasti psobc.
9 Jde o zznam technick zprvy: National energy information system basic concepts. By Department of Energy,
Washington, DC, Energy Information Administration. July 1980.
10 Nejvt katalogizan databz je dnes mezinrodn souborn katalog WorldCat st OCLC, kter zahrnuje
vce ne 260 000 000 zznam bibliografickch jednotek a tm 2 miliardy lokalizac exempl
10
Zhruba v polovin 90. let se zaaly mezi knihovnky objevovat prvn definice a vklady
metadat, kter byly velmi jednoduch a nepostihovaly zcela podstatu, funkce a vznam
metadat zejmna v sovm prosted. V citacch se asto opakoval vklad, e metadata jsou
data o datech (viz tak ve v textu), z eho bylo usuzovno, e katalogizan zznamy jsou
vlastn tak metadata. V ad studi, pipravench v rmci vznamnch vzkumnch projekt
v zmo i v Evrop, se dokonce v pehledech, analzch a hodnocench metadat objevilo
zaazen tradinch bibliografickch formt typu MARC (USMARC, UKMARC,
UNIMARC, PICA aj.) jako jednoho z typ metadat [DEMPSEY, 1997, Content]. Nkte
odbornci navrhli i zkladn kategorie (skupiny) metadat, napklad z hlediska typ organizac,
kter metadata pouvaj. V jedn ze studi bvalho evropskho projektu BIBLINK,
vnovanho problematice propojovn sfry vydavatel a nrodnch knihoven v prosted
potaovch st, jsou zmnn formty zaazeny ve skupin 4.2.2 [HEERY, 1996, kap. 4.2].
Mnoh knihovnick odbornky zvry vzkum pekvapily, nkte je nechpali a ptali se,
pro e maj knihovnci sv bibliografick formty nazvat metadaty i metadatovmi
schmaty a vsledek sv katalogizan innosti metadatovmi zznamy [HOPKINSON, 1999,
st 1]. Nkte se vak v diskusch k problmu zamysleli hloubji nad zvry vzkum
a jejich prezentac a po vyhodnocen informac pichzejcch tak z oblasti informanch
slueb provozovanch na Internetu ho pochopili tak jako vzvu k zamylen se nad
pradvnou a palivou otzkou vztahu mezi popisnmi a seleknmi (soupisnmi) daji
v popisu dokument [GRADMANN, 1999]. Objevily se otzky, jestli maj informace
o webovch zdrojch, kter jsou dnes peneny na webu souasn se zdroji, stejn charakter a
podstatu jako zznamy o dokumentech ukldanch do katalog i bibliografickch databz.
Pro lep pochopen problematiky souasnch metadat je nutn vyjt za hranice poznatk
a zkuenost zskanch ve vlastn dl specializaci oboru tradinho knihovnictv i
bibliografie a snait se analyzovat a vyhodnocovat nov cesty a procesy komunikace
informac, o kter se staraj dnes tak jin odbornci. Komunikace informac ji dvno nen
domnou jenom knihovnk. Svt webu je svtem informac a nov paradigma komunikace
informac (vetn informac o informacch) je realitou. Pokud bychom zstali v zajet
tradinho modelu zpracovn dokument, by elektronickch, budou nm pojmy metadata
a katalogizan/bibliografick zznam pipadat stejn. Jejich vznamy vak stejn nejsou.
Autor ve citovan prce Stefan Gradmann se pokusil porovnat a odhalit podstatn rozdly
mezi obma pojmy. Poukazuje na fakt [GRADMANN, 1999], e tvrci dnes jedn
z nejznmjch specifikac (smantiky) metadat Dublin Core (DC, viz dle v textu) pi jeho
navrhovn jednodue nepevzali a neupravili existujc formt MARC, ale navrhli zcela nov
soubor daj k popisu digitlnch zdroj. Pravdou bylo, e pro souasnou ale zejmna
budouc architekturu komunikace informac na webu se formt typu MARC ukzal jako
nevhodn co do struktury (syntaxe) i co do obsahu (smantiky). Autor zdraznil, e pi
porovnvn obou termn (metadata a katalogizan/bibliografick zznam) nejde v dnm
ppad jen o rozdl v potu daj obsaench v zznamech [GRADMANN, 1999,
Introduction]. Podstatn rozdly jsou funkn i strukturn povahy, vz v celm kontextu
produkce a uit metadat v rmci sov digitln komunikace informac [GRADMANN,
1999, Who does it, and How is it done?]. Konkrtnji autor poukzal na:
11
otzku pedmtu zpracovn a popisu (v rmci komunikace na webu me bt popisovn
jakkoliv digitln objekt; kad digitln objekt, kter je penen st, mus bt opaten
jistm minimem informac o sob)
otzku elu tvorby daj o zdrojch (u metadat se podtrhuje el zjiovn
a vyhledvn zdroj v sovm prosted, u bibliografickch i katalogizanch zznam
hraje podstatnou roli strnka popis (deskripce); popisn katalogizace doke vylouit
i dleit daj pro vyhledvn jenom proto, e nen obsaen na tituln strnce, pestoe
dokument takov znak m)
otzku tvrc zznam (u metadat na webu se pedpokld primrn tvorba ze strany
autor, editor i vydavatel, katalogizan zznamy zajiuj profesionlov)
otzku nezvislosti i samostatnosti jednotlivch metadat a jejich elnho
shromaovn, peskupovn, propojovn a zejmna zpracovn a nov uit pro
nejrznj formy vstup a slueb vetn slueb v oblasti znalostnch systm
otzku uit metadat, kter je klov: v rmci webu jsou primrnmi uivateli metadat
speciln inteligentn programy zvan agenti; bibliografick/katalogizan zznamy jsou
ureny koncovm uivatelm
Pi odhalovn rozdl se S. Gradman odvolv na vroky autority v tto oblasti nanejve
povolan Tima Berners-Leea, zakladatele webu (svho asu editele Konsorcia World Wide
Web, dle jen W3C) a jednoho z tvrc souasn architektury WWW. T. Berners-Lee ve sv
prci Architektura metadat [BERNERS-LEE, 2009] podal nkolik zkladnch pregnantn
vyjdench axim (pedpoklad) a definic s komenti, kter se tkaj metadat jakoto
podstatn, imanentn sousti celho prostoru WWW. Zkladn charakteristikou webu je fakt,
e [informan] zdroje (v pojet autora je vraz zdroj zkladnm formlnm pojmem, pod
nj spad termn dokument jakoto zdroj textov povahy), poppad obecnji objekty,
o kter pi webov komunikaci v reimu klient-server dme a kter dostvme, jsou vdy
v rmci komplexu protokol TCP/IP doprovzeny uritm mnostvm informac o nich
samotnch, ani je uivatel vnm i vid (datum posledn manipulace se souborem, majitel
zdroje, typ formtu aj.). Svou povahou vak jde o informace o informacch, kter potaov
odbornci bn nazvaj metadata [BERNERS-LEE, 2009, Documents, Metadata ]. Na
obrazovkch nejsou na prvn pohled vidt, protoe jsou soust tzv. hlaviek (headers)
penench dokument (informac) nebo je doprovzej pi penosu po sti. Ji citovan
T. Berners-Lee ve svm vkladu rovn nein podstatnj rozliovn obou pojm
[BERNERS-LEE, 2009]. Voln lze dle parafrzovat: metadata se v procesu uit stvaj
metainformacemi. Protoe vraz uit je vztahovn v prvn instanci na inteligentn
programy-agenty, bude vhodn v rmci zcela automatizovanch sloitch cest a proces
zpracovn a vyuvn daj o zdrojch, kter v prostoru webovch technologi ji existuj
a dle se rozvjej, preferovat pojem metadata.
Tim Berners-Lee uvd ve ve citovan prci zkladn definici pro metadata: jde o stroji
srozumiteln informace o webovch zdrojch nebo dalch vcech [BERNERS-LEE,
2009, Documents, Metadata , Definition]. Lze zdraznit, e v definici se skuten
nevyskytuje frze strojem iteln informace, na kter jsme byli zvykl u bibliografickch
formt typu MARC, nbr frze stroji srozumiteln informace (angl. machine
understandable information). Jde o zsadn rozdl obou frz. Definice vypad na prvn
12
pohled velmi jednodue, ale skrv v sob adu podstatnch moment, kter byly ji zmnny
ve v textu v rmci charakteristiky metadat S. Gradmana. Zdraznna je klov
charakteristika metadat, toti, e jde o stroji srozumiteln informace. Pedpokld se jejich
zpracovn v/pro nejrznj aplikace pomoc inteligentnch program oznaovanch
termnem agenti. Znamen to, e informan jazyk uloench metadat mus bt naprosto
formln logicky sprvn a jednoznan. A se poda zdokonalit informan jazyky metadat
i programy, kter je budou zpracovvat a vyuvat, vytvo se zkladna pro web strojm
srozumitelnch informac o emkoliv: o lidech, vcech, pojmech, faktech, mylenkch atd.
Pedpokladem ovem je v danm okamiku vybudovn systmu pro informace
o informacch (informanch objektech, zdrojch i entitch) [BERNERS-LEE, 2009,
Documents, Metadata , Definition].
Pro metadata plat podle T. Berners-Leea nkolik pedpoklad, o kterch nen nutn
diskutovat. Pedn plat, e metadata jsou data. Obecn jde o informace o informacch,
a proto musej bt metadata povaovna za informace ve vech jejich aspektech [BERNERS-
LEE, 2009, Documents, Metadata , Definition]. Metadata mohou bt uloena jako kad
jin data v njakm zdroji, to znamen, e njak zdroj me obsahovat informaci o sob
samm nebo o jinch zdrojch. V souasn praxi webu tedy existuj ti zpsoby existence
a cest komunikace metadat:
1) daje o webovm zdroji jsou obsaen v nm samotnm v hlavice v tagu ; jde
o zpsob zkladn existence a pedpokldalo se, e bude uplatnn v ad aplikac metadat
(v tto chvli se vyuv omezench monost jazyka HTML nebo XHTML); pkladem
mohou bt v souasn dob aplikace metadat Dublin Core v dokumentech HTML i
XHTML, v budoucm provozu se pot s jazykem XML (metadata ve struktue XML
jsou lokalizovna mimo vlastn zdroj)
2) daje o webovm zdroji, kter doprovzej komunikaci typu klient-server; po penosu
zdroje je mon daje pomoc pslun funkce prohlee zskat; tento zpsob je
pedmtem znanho zjmu potaovch odbornk
3) daje o njakm webovm dokumentu je mon zskat z jinho webovho dokumentu
(jsou jeho soust); tato cesta je perspektivn pro budouc efektivn komunikaci na webu
(konkrtn pjde ji ale zejmna o dokumenty ve struktue XML)
Metadata jako takov mohou bt sama pedmtem popisu jako svbytn digitln objekty. Pak
by se dalo hovoit o meta-metadatech. Z praktickch dvod se vak tento termn pouv
mlo11
a o takovch datech se tak hovo jako o metadatech.
Pokud jde o formu metadat, je tvoena mnoinou nezvislch vrok, kter reprezentuj
daje o zdroji. V potaovm systmu nabvaj vroky formu jmna i typu vroku
a souboru dalch parametr. Napklad:
Jmno vroku Autor zdroje
Parametr 1 Jmno autora zdroje
11 Termn Meta-Metadata zahrnula jako jeden z typ metadat do sv monografie napklad i Arlene G.
Taylorov [TAYLOR, 2004, s. 150]
13
Parametr 2 Afiliace autora zdroje
Parametr 3 E-mail autora zdroje
O dvou vrocch tkajcch se stejnho zdroje plat, e jsou nezvisl a mohou existovat
samostatn. Jde o vznamnou a pro komunikaci na webu dleitou vlastnost metadat. Pokud
se vyskytuj dohromady na jednom mst, oznaujeme je jako kombinovan vrok.
Mnoiny vrok jsou povaovny za neuspodan seznamy.
Vroky o zdrojch koresponduj s jejich pslunmi vlastnostmi (atributy i znaky). To
znamen, e typ vroku je vrokem o tom, e zdroj m pojmenovanou vlastnost (nap. autor,
nzev, datum apod.). Parametrem se rozum bu dl typ vlastnosti (nap. autor-fyzick
osoba, autor-korporace apod.) nebo dl vlastnost (nap. jmno autora, afiliace autora, e-mail
autora apod.). Napklad:
Autor zdroje
Jmno autora zdroje Tim Berners-Lee
Afiliace autora zdroje World Wide Web Consortium
E-mail autora zdroje [email protected]
Ke kad vlastnosti nle konkrtn hodnota, obecn pak hovome o modelu dvojice
(pru) vlastnost/hodnota.
Na obecn rovni je vrok o zdroji celkov tvoen nsledujcmi komponentami:
URI (Uniform Resource Identifier) zdroje
Identifiktorem typu vroku
Dalmi parametry k typu vroku
Implicitn nebo explicitn mus bt dle soust vroku:
Strana, kter ho uinila
Datum a as uinnho vroku
Aby byla tvorba metadat na webu dvryhodn a spolehliv, budou v celkov budouc
architektue hrt vznamnou roli jmenn prostory (zdroje s pslunm URI), kter budou
obsahovat slovnky se jmny i typy vlastnost, je jsou definovny podle stanoven
metodiky v rmci pslunch specifikac metadat. Pedpokld se jejich hypertextov
propojen s tvoenmi zznamy metadat jednotlivch webovch zdroj. V tomto ppad
pjde o specifick vroky typu vztahu mezi dvma zdroji, kter budou realizovny pes
hypertextov odkazy. Cel takov vrok bude tvoen typem vroku a dvma identifiktory
URI.
1.4 Metadata v ivotnm cyklu informanch objekt
Termn metadata je spojovn zejmna s procesy popisovn informanch objekt
(informanch zdroj, informanch entit). Popisn funkce nebo role metadat vak dnes nen
14
jedin. Zejmna v prosted zdokonalujcch se systm digitlnch informac jsou i jin typy
metadat postupn vytveny, doplovny a rznorod komunikovny v rmci nsledujcch
zkladnch etap ivotnho cyklu digitlnch nebo digitalizovanch informanch objekt12
:
Tvorba, vcensobn verze a nov uit informanch objekt. Objekty, kter vstupuj
do digitlnho informanho systmu jako pmo digitln nebo digitalizovan, by mli
jejich tvrci nebo sprvci opatovat alespo zkladnmi popisnmi a t administrativnmi
metadaty, a to zejmna v ppadech, kdy se pepokld jejich nov uit (me jt
napklad o pmou tvorbu metadat autory objekt v archivech vdy a vzkumu v rmci
auto-archivanch proces aj.) Metadata mohou bt vytvena tak v prbhu tvorby
vcensobnch verz stejnho informanho objektu (verze pro bn zpstupovn
koncovm uivatelm, verze pro dlouhodobou archivaci aj.) metadata mohou bt
vytvena cestou automatickho generovn pi digitalizaci paprovho dokumentu
(napklad technick metadata).
Popis a organizovn informanch objekt. Objekty, kter maj bt uloeny
v digitlnch repozitch, musej bt opateny potebnm mnostvm popisnch metadat
vetn metadat vcnho charakteru a tak metadat o uloen ve struktue digitlnho
informanho systmu. Tato metadata mohou bt vytvena bu automaticky (napklad
pomoc extrakce popisnch daj ze strukturovan hlaviky plnho textu) nebo run
cestou profesionly v rmci registranch, katalogizanch a indexanch proces.
Pdavn metadata mohou bt v souasnosti po zveejnn dokument tak vytvena
koncovmi uivateli v rmci specifickch webovch rozhran (folksonomie).
Validace informanch objekt. Uivatel peliv zkoumaj metadata i jin aspekty
nalezench informanch zdroj, aby zjistili jejich autenticitu a dvryhodnost.
Vyhledvn informanch objekt. Sprvn vytvoen popisn metadata jsou podstatn
k tomu, aby byli uivatel schopni tato metadata a pslun informan objekty snadno a
efektivn vyhledat. Informan systmy zrove automaticky vytvej a udruj specifick
metadata (logy), kter sleduj kroky i postupy uivatel pi vyhledvn, a tak
efektivnost vyhledvacho procesu.
Vyuvn, ochrana a dlouhodob archivace informanch objekt. V digitlnm
prosted mohou bt informan objekty vyuvny nejrznjm zpsobem, mohou bt
reprodukovny, upravovny aj. V rmci tchto proces mohou bt vytvena
a komunikovna metadata vztahujc se k uivatelskm anotacm, ke sledovn prv, ke
kontrole verz apod. Digitln objekty, zejmna ty vytvoen pmo jako digitln, je nutn
dlouhodob archivovat (aktualizovat, migrovat aj.), aby byla zajitna jejich neustl
dostupnost dnes i v budoucnosti. Archivan proces pedpokld vytvoen specifickch
archivanch metadat (napklad v souladu se standardem OAIS [ISO 14721:2003]).
Dispozice informanch objekt. Metadata hraj vznamnou roli v dokumentovn
zpstupovn informanch objekt z digitlnch repozit
12 Pipraveno voln podle publikace Anne J. Gillilandov [GILLILAND, 2008, Primary Functions of Metadata]
15
1.5 Definice termnu metadata a jejich typologie
Zcela obecnou definici metadat, kter byla uvedena v vodu tto sti textu (metadata jsou
data o datech), lze, t v kontextu jejich ve uvedench rol i funkc v ivotnm cyklu
informanch objekt, zpesnit a rozit. Vtina odbornk ze zainteresovanch obor i
oblast definuje metadata jako strukturovan informace, kter popisuj, osvtluj,
lokalizuj a rznmi zpsoby usnaduj vyhledvn a vyuvn informanho zdroje
[WISSER, 2007].
Odbornci se v zsad shoduj tak ve vymezovn zkladnch typ metadat v souasn
praxi digitlnch informanch systm a jejich slueb. Liit se mohou v jejich uspodanosti
[GILLILAND, 2008, Categorizing Metadata; TAYLOR, 2004, s. 147-152]. Jde o nsledujc
zkladn typy, resp. podtypy metadat:
Popisn metadata (angl. Descriptive metadata)
Popisn metadata reprezentuj vnitn vlastnosti (atributy i charakteristiky) informanch
objekt (zdroj). Jde napklad o daje o tvrci zdroje, jeho nzvu, vydavateli, roku vydn,
o daje tkajc se obsahu zdroje aj. Popisn metadata pomhaj tyto objekty identifikovat,
odliovat jejich jednotliv verze, vyhledvat a vybrat. Vznikaj zejmna pi profesionln
tvorb bibliografickch databz, katalog, archivnch invent a digitlnch fond. Tak
je ale mohou dnes vytvet sami tvrci informanch objekt v digitlnch archivech anebo
i uivatel pi jejich vyhledvn (folksonomie). K vznamnm metadatovm schmatm
popisnch metadat pat napklad schmata Dublin Core, MARCXML, MODS, hlaviky
TEI, EAD aj.
Administrativn metadata (angl. Administrative metadata)
Administrativn metadata jsou vyuvna k zen a sprv digitlnch objekt v rmci
jejich digitlnch fond (digitlnch loi, digitlnch repozit). Slou spe
profesionlm, nikoliv koncovm uivatelm. Nkte odbornci zaazuj
k administrativnm metadatm tak metadata archivan/ochrann, technick a prvn
(viz dal ti typy, resp. podtypy metadat v rmci tohoto bloku). Administrativn metadata
pomhaj urit lokalizovat informan objekty, poskytuj informace o dob vzniku
a posledn modifikaci digitlnho objektu, o okolnostech digitalizace, o vstupu objektu do
repozite, o elektronickm podpisu, o prvnch aspektech pstupu k objektu aj.
Archivan/Ochrann metadata (angl. Preservation metadata)
Archivan/Ochrann metadata podporuj procesy souvisejc s dlouhodobou archivac
a ochranou digitlnch informanch zdroj. Archivan metadata by mla zajistit
trvalou integritu a kontext dokumentu jako podmnku pro jeho zpstupnn
v budoucnosti. K typickm archivanm metadatm pat pvod a historie objektu,
vztah k dalm informanm objektm, daje o hardwaru a softwaru pro zobrazovn
informanho objektu aj. Pedpokld se, e jsou vytvena (generovna) automatickou
cestou. Archivan/Ochrann metadata jsou poadovna tak mezinrodn normou ISO
Referennm modelem OAIS [ISO 14721:2003]. Reprezentantem
archivanch/ochrannch metadat je napklad znm standard PREMIS.
16
Technick metadata (angl. Technical metadata)
Technick metadata reprezentuj technick charakteristiky digitlnch (potaovch)
soubor, napklad daj o datovm formtu zdroje, velikosti potaovho souboru,
komunikanm protokolu, kompresi, kontrolnm soutu aj.). Mohou bt vytvena
potaovm programem a jsou zpravidla urena pro dal zpracovn uritm
potaovm systmem i automatickou slubou. Dleit jsou pro zajitn
dlouhodob archivace a ochranu digitlnch objekt. Ke znmm schmatm
technickch metadat pat napklad metadatov schma MIX pro statick digitln
obrazy, hlaviky TEI pro textov zdroje aj.
Prvn metadata a metadata o pstupu (angl. Rights metadata and Access metadata)
Prvn metadata a metadata o pstupu poskytuj informace o prvech tvrc na
duevn vlastnictv (napklad autorsk prvo, patentov prvo aj.) a prvnch
dohodch (licencch), kter umouj uivatelm pstup k informanm objektm
(nap. oprvnn koprovat, reprodukovat nebo it informan objekt).
Strukturln metadata (angl. Structural metadata)
Strukturln metadata poskytuj informace o vnitn organizaci i struktue digitlnho
objektu. Mohou reprezentovat strukturu a vztahy dlch digitlnch objekt, kter tvo
komplexn digitln informan objekt (napklad jednotliv digitalizovan strnky sel
asopis celho ronku, kapitoly jedn knihy a pipojen obrzky, svazky vcesvazkovho
souboru aj.). Jsou nezbytn pro zpstupnn objektu koncovm uivatelm, pro jeho
sprvn zobrazen a navigaci digitlnho objektu. Vznamn jsou i pro dlouhodobou
archivaci. Pro strukturln metadata je vhodn vyut dl st ()
metadatovho standardu METS.
1.6 Termn metadatov schma
Dalm frekventovanm termnem v oblasti metadat je termn metadatov schma (angl.
metadata scheme). Termn byl definovn v ad dokument, rozum se jm soubor
metadatovch prvk (angl. elements) a pravidel k jejich pouvn, kter byl definovn
pro njak specifick cl [WISSER, 2007].
K souasn dob bylo na svt vytvoeno velk mnostv metadatovch schmat. Kad
metadatov schma definuje uritou, vt nebo men, mnoinu prvk, kter se budou
pouvat pro tvorbu metadat (metadatovch zznam), dle jejich obsah (smantiku) vetn
ppadnch pravidel pro plnn hodnot jednotlivch prvk a strukturu (syntax) pro potebu
komunikace metadat, zejmna v elektronickm a sovm prosted. Nkter metadatov
schmata mohou mt specifikovnu jenom smantiku (napklad Dublin Core) s tm, e pro
poteby komunikace (vmny) metadat mezi systmy se dodaten me stanovit vce struktur
(napklad XHTML, RDF, XML aj.).
Hodnoty prvk se mohou vytvet voln jednoduchm zpsobem (me bt uren napklad
autorm, kte metadata musej sami tvoit), anebo zen (uren zejmna kolenm
profesionlm). V rmci zenho zpsobu se vyuv rznch pravidel popisu (nap.
katalogizan pravidla, jako je AACR2 aj.) a tak zench slovnk (selnk) menho nebo
vtho rozsahu (typ datovch formt, typ informanch zdroj, kdy jazyk, kdy zem
17
aj.), klasifikanch soustav, soubor autoritnch dat (jmennch, pedmtovch). Specifickm
prvkem metadat jsou v souasnosti tak (optimln) trval identifiktory, kter jednoznan
identifikuj dan informan zdroj. K vznamnm identifiktorm pro digitln zdroje dnes
pat identifiktory DOI, HDL, ARK, URN, PURL aj.
Trendem souasnosti je vyuvn znmch metadatovch schmat majcch povahu
mezinrodnho standardu (napklad Dublin Core, MODS, MADS, METS, hlaviky TEI aj.).
Jejich vhodou je bezproblmov vmna metadat mezi systmy v celosvtovm zbru.
2 Vznamn metadatov schmata (vbr)
Tato st textu zahrnuje (v tto verzi) pehled vybranch metadatovch schmat, kter maj
povahu mezinrodnch standard a kter jsou nejvce vyuvan v praxi souasnch
digitlnch knihoven a digitlnch archiv pro komunikaci metadat. Vybran pklady
nejznmjch metadatovch schmat zahrnuj jejich strunou charakteristiku s ppadnm
vvojem, specifika jejich smantik a pklady metadatovch zznam.
2.1 Metadatov schma Dublin Core (DC)
Metadatov schma Dublin Core je jednou z nejznmjch specifikac metadat. Byla
pvodn navrena pro popis webovch informanch zdroj, dnes je vyuvna ve velkm
potu systm digitlnch knihoven, digitlnch archiv a nadstavbovch slueb metadatovch
databz. Jde ve sv podstat o specifikaci (smantiku), kter je ji vce ne 16 let stle
stedem pozornosti v celosvtovm mtku. Specifikace m univerzln zbr a je jednou ze
zkladnch specifikac, kter pisply k vytven syntaktick struktury metadat v projektu
Rmce pro popis zdroj (RDF).
2.1.1 Vznik schmatu Dublin Core
Iniciativa Dublin Core (jej pesn jmno je Dublin Core Metadata Initiative, dle tak
jako DCMI, http://dublincore.org/) [Dublin Core Metadata Initiative, 2012] se zkonit
zrodila v technologicky pznivch podmnkch rozvoje internetu a jeho informanch slueb.
Postupn nrst sov dostupnch zdroj (v letech 1991-1995) na jedn stran, ale jejich jen
velmi obtn zjiovn i vyhledvn na stran druh, zejmna pokud jde o obsah
poskytovanch informac, pimlo adu odbornk z oblasti potaov vdy, informan vdy,
knihovnictv a dalch pbuznch oblast k intenzivnm vahm a krokm k een tohoto
vnho problmu. Na poad dne se, vedle jinch, dostala v historickm kontextu asto
opakovan otzka inn kontroly, ale i novch zpsob komunikace informanch zdroj
tentokrt sov dostupnch pomoc informace oznaovan termnem metadata.
Za oficiln iniciativy Dublin Core je pokldno jednn pracovnho semine, kter se
uskutenilo v beznu 1995 v americkm Dublinu (Ohio). Nen nhodou, e
lo prv o toto msto. Jak znmo, je sdlem centra nejvt americk
i svtov st knihoven OCLC a hlavn akti semine i cel iniciativy byli
v t dob zamstnanci jejho vzkumnho oddlen (zejmna Stuart
L. Weibel a Eric Miller). Sponzorsky se na semini podlelo i Nrodn
centrum pro potaov aplikace NCSA (National Centre for
Supercomputing Applications). Clem semine bylo spolen posouzen
http://dublincore.org/
18
poteb, pednost, nedostatk a stvajcch een danho problmu ze strany majitel i
provozovatel informanch fond na WWW a zejmna dosaen shody pi vytven
zkladnho souboru metadatovch prvk k popisu zdroj. Kritriem vbru jednotlivch
prvk byly podstatn vlastnosti (znaky) sovch digitlnch zdroj z hlediska jejich
vyhledvn, vyloueny byly v dan chvli vechny dal vlastnosti (znaky), kter smovaly
k plnn jinch funkc prce s tmito zdroji (technick, technologick. archivan, obchodn
aj.). Za elem rychlho dosaen pozitivnch vsledk byly v vahu v prvnm okamiku
vzaty pouze digitln zdroje textov povahy.
Pi navrhovn zkladn mnoiny metadatovch prvk k popisu zdroj se zajist nabzela
i cesta odvodit ji nap. ze znmch stvajcch model knihovnickch katalogizac (formt
typu MARC s pslunmi pravidly). K derivan cest vak nemohlo dojt. Profesionln
a sloit tvorba zznam informanch zdroj aplikovan v oblasti knihoven byla vylouena
z nkolika dvod. Formty typu MARC jsou jenom strojem iteln , nikoliv vak stroji
srozumiteln (formt MARCXML v t dob jet neexistoval), tj. jejich struktura i smantika
nevyhovovaly poadavkm na budouc architekturu komunikace informac vetn informac o
informacch (metadat) na WWW. Podstatnm dvodem byl i ohled na budouc tvrce
zznam, jimi mohli i mli bt i samotn autoi (tvrci) nebo vydavatel
(zpstupovatel) zdroj. Zmrem bylo, jak deklaruj materily ze semine [WEIBEL,
1995, st 1.3], vytvoen zcela jednoduchho strukturovanho zznamu (popisu) novho
typu, kter by byl doplkem jednak k popism knihovnickch katalogizac typu MARC
apod., resp. popism typu metadat sloitjho obsahu (nap. formt TEI), jednak k zatm
nevyhovujcm i nedostatenm popism realizovanm v rmci zcela automatizovan
indexace plnch text webovch dokument pes internetov systmy typu search engine.
Pi vytypovvn jednotlivch daj nicmn profesionln katalogizan popis sehrl jistou
pozitivn lohu tak, a to pedevm proto, e pedmtem byly textov digitln dokumenty,
jejich vlastnosti (znaky) se v ad ppad shoduj s tradinmi. Nebylo tedy nutn pi
zjiovn a poznvn podstatnch vlastnost zanat od stavu nula, ale mohly se uplatnit
ji dvj znalosti a zkuenosti. Na semini byl deklarovn tak poadavek na tzv.
promtn (mapping) metadat do profesionlnch struktur typu MARC, kter vak narazilo
na nkter problmy, v jejich pozad jsou formy katalogizanch daj, ale tak nov
specifick vlastnosti dynamickch digitlnch zdroj. Pozitivnm momentem tvorby novho
typu popisu informanch zdroj bylo z jistho aspektu tak zintenzivnn jejich poznvn
s clem pispt k rozvoji teorie spoleensk informan komunikace.
Navren mnoina daj pro popis digitlnch dokument, oznaen termnen Soubor
prvk metadat Dublin Core (Dublin Core Metadata Element Set, ve zkratce DC),
zahrnovala v dob svho vzniku celkem 13 prvk. Je poteba uvst, e nelo o definici
komplexnho formtu, jak jsme zvykl vdat u formt typu MARC, zdrazovna byla
v prvn fzi pouze strnka smantiky (obsahu). Syntax (struktura) potebn zejmna ke
komunikaci metadat v relnch stch, stejn jako jejich bli specifikace ve form rznch
prvodc, byly ponechny stranou. Z pozdjho vtu zkladnch 15 daj (viz dle v textu)
chybl daj pro anotan popis (Description), kter byl zaveden a pozdji zejmna pro
poteby zpracovn obrazovch zdroj, a dle speciln daj pro ochranu autorskch prv
(Rights), jeho poteba se ukzala pozdji rovn jako dleit.
19
Jako hlavn a v podstat jedin daj vcn povahy, pokud se nebere v potaz daj o nzvu
digitlnho dokumentu i objektu a specifick daj o geografickm a asovm pokryt
(Coverage) dokumentu/objektu, byl v souboru uveden daj o pedmtu/tmatu (Subject),
a to v poad jako prvn z dvodu jeho nejdleitjho postaven z hlediska vyhledvn.
Nsledovaly daje dobe znm z oblasti tradinho popisu dokument: nzev (Title), dle
trojice tzv. initel, resp. agent (z angl. Agents) procesu informan, resp. dokumentov
komunikace, tedy autor (Author), nakladatel/vydavatel (Publisher), u nho se ovem
v krtk definici zdrazovala novodob funkce instituce, kter dokument v sti zpstupuje,
a sekundrn dal initel (Other Agents) z hlediska knihovnick katalogizace by se dalo
uvst, e lo o tzv. dal pvodce. V kontextu komunikace digitlnch zdroj jim vak mohly
bt pisuzovny dal role, resp. jejich role se i mnla. K dalm vytypovanm dajm patily
datum (Date), jeho uplatovn v popisu dynamickch digitlnch zdroj je dodnes znan
komplikovan a stle diskutovan, typ objektu (Object Type), kter pat co do dlch
hodnot k jednm z nejsloitjch [BRATKOV, 2005], forma (Form), pedstavujc
reprezentaci (uspodn) dat na potaovm mdiu, specifick identifiktor (Identifier),
kterm je pro webov zdroje pedevm jejich adresa uloen (URI, URN, URL), daje
o vztahu/vazb k jinm zdrojm (Relation), daj o pvodnm zdroji (Source)
digitalizovanho dokumentu a konen jazyk (Language) zdroje.
Specifickou a stle diskutovanou otzkou bylo deklarovan zamen specifikace DC na
autory a vydavatele dokument. lo tehdy o velmi zajmav moment v rmci spoleensk
dlby prce v informan komunikaci. Pedpokladem vak bylo, a ji prvn semin tuto vizi
nastnil [WEIBEL, 1995, st 3.0], vytven innch interaktivnch pracovnch formul
a dalch nstroj dostupnch na WWW a v jejich rmci zejmna automatick vyuvn
profesionlnch soubor metadat typu selnk, zench hesl, tezaur, identifiktor
apod., kter u existuj.
Akti prvnho semine se rovn shodli na zsadch dalho rozvjen formtu. Zdraznno
bylo zejmna:
zahrnut pouze podstatnch daj v popisu, a to s ohledem na vyhledvn dat na webu
roziitelnost formtu v konkrtnch loklnch aplikacch i systmech v mezch stanoven
vzjemn budouc souinnosti (interoperability)
volitelnost a opakovatelnost vech daj
modifikovatelnost vybranch daj zejmna pro poteby specilnch systm pes tehdej
tzv. kvalifiktory (schmata/modely hodnot daj a typy daj)
2.1.2 Dal rozvjen DC
Vsledky prvnho semine iniciativy Dublin Core uvtala ada instituc v USA ale
i v zahrani, kter se rozhodly pipravit prvn projekty zpracovn webovch dokument ve
svch automatizovanch provozech. Patily k nim napklad kdysi vznamn Seversk projekt
metadat (The Nordic Metadata Project) zajiovan a zen informan st NORDINFO
[The Nordic Metadata, 2000], v jeho rmci byl pipraven na WWW dostupn genertor
unifikovanch jmen zdroj URN (Uniform Resource Names) pro astnky ze Skandinvie,
dle pohodln interaktivn formul k tvorb metadat podle Dublin Core (v souasnosti ji
20
nen dostupn) a tak experimentln konvertor pro pevod metadat do formt typu MARC
(nen ji rovn k dispozici). Provovn monost pevodu (mapovn) metadat Dublin
Core do tehdejho knihovnickho formtu USMARC v rmci vzkumnch aktivit zahjila
tak Kongresov knihovna ve Washingtonu. Ji ve v textu zmiovan problmy, kter z
toho vzely, byly pedevm povahy smantick. V zjmu realizace konverze bylo dokonce v
roce 1996 do formtu USMARC doplnno nov pole 720 pro nekontrolovan jmno pro
potebu pevodu daje o autorech/tvrcch digitlnch zdroj DC, kter nejsou zeny pes
soubory autorit [DEMPSEY, 1996, st 2.3].
V prbhu pprav na realizaci prvnch projekt vyuvajcch specifikace daj DC vyvstala
ped zpracovateli ada problm. Po zhruba ron elektronick diskusi byly jednotliv sporn
a oteven otzky pedloeny astnkm 2. pracovnho semine DC, kter se konal ji za
poetn asti odbornk z dalch zem ve Velk Britnii na Warwicksk univerzit v dubnu
1996 [DEMPSEY, 1996]. Semin m v historii iniciativy DC mimodn vznam, protoe na
nm byl pedloen k posouzen vznamn nvrh modelu komunikace metadat v sti Internet,
kter dostal jmno Warwick Framework (Warwicksk Rmec). Jednn konkrtn
projednalo nsledujc okruhy problm:
Specifikace syntaxe metadat pro poteby jejich penosu v prostoru WWW. Ukzalo se
toti, e pi realizacch projekt zpracovn a vyuvn informac o digitlnch zdrojch
tvrci zaali navrhovat a uplatovat rznou navzjem nesluitelnou syntax a strukturn
vazby k penosu metadat v prostoru WWW. Chybl definovan spolen model takovho
penosu. Pslun pracovn skupina proto pipravila nvrhy k vytvoen jednoduchho
nstroje na vnoen metadat pmo do dokument. V rmci jazyka SGML byla pro
metadata navrena speciln tabulka pro definici dokumentu DTD, kter byla promtnuta
do formtu HTML (v roce 1996 ve verzi 2.0), a to v rmci jeho hlaviky, tj. tagu
. Zrove byl pipraven nvrh na propojen metadat na extern zdroj, kter
obsahuje jejich specifikaci (definici). Shodou okolnost byl v kvtnu 1996 konn i semin
Pracovn skupiny pro distribuovanou indexaci a vyhledvn konsorcia W3C za asti
pedstavitel vech vznamnch vyhledvacch systm a slueb na WWW, na kterm byl
pijat konsensus, v jeho rmci byly jako doasn een nvrhy iniciativy DC (v rmci
WF - viz dle v textu) pijaty.
Pprava pracovnch manul a interaktivnch formul k tvorb metadat. Tvorba
takovch pomcek se stala v rmci realizovanch projekt velmi nalhavou, protoe je
mli vytvet autoi dokument nebo vydavatel. Pklad dobe fungujcch
interaktivnch formul k tvorb metadat vetn doplkovch elektronickch prvodc
bylo mono najt na WWW mnoho (ve byl v textu zmnn formul Severskho
projektu metadat, kter byl v eskm pekladu implementovn tak v R (na serveru NK
R) a kter v nov verzi sou stle na webu Webarchivu.
Zpsoby rozen zkladn skupiny metadat Dublin Core pedstavovaly velmi paliv
problm. ada systm apelovala na doplnn rznch dalch daj, kter by zajiovaly
dal potebn funkce pi vyuvn zdroj. Velk tlak byl vyvjen ze strany pedstavitel
uvajcch formty typu MARC. Zkladn mylenkou tvrc DC ovem bylo, e daje
potebn pro zajiovn loklnch a specializovanch funkc pro prci s digitlnmi zdroji
jsou v kompetenci jejich systm. Specifikace DC pedstavuje skuten jenom zkladn
spolen jdro pro popis zdroj v rmci WWW mla plnit zkladn funkci poznvac
21
(nstroj popisu/zobrazen zdroje) a komunikativn (nstroj uloen, penosu a vyuit
obsahu popisovanho zdroje).
Specifikace rmce (architektury) pro vzjemnou komunikaci metadat v prostoru WWW.
Tm americkch odbornk navrhl a na jednn semine pedloil k posouzen nvrh
modelu pro komunikaci metadat pochzejcch z rznch systm, kter dostal jmno
Warwick Framework (dle t jako WF). Pro jeho ppravu byly do vahy krom Dublin
Core vzaty jet formt RFC 1807 a formty (formule) IAFA. Warwicksk rmec se stal
vedle jinch pedchdcem tzv. Rmce pro popis zdroj (RDF, Resource Description
Framework), kter byl do roku 2004 rozvjen konsorciem W3C.
Warwicksk rmec byl nvrhem architektury, kter ml vyhovovat jednotlivm modelm
metadat v prostoru WWW a navzjem je spojovat. lo o architekturu pro vzjemnou vmnu
jednotlivch soubor (balk) metadat nejrznj povahy: zznamy zdroj (DC, IAFA
apod.), soubory definic, struktur a smantik jednotlivch metadat, rzn selnky, tezaury
apod. I proto dleit msto ve WF hrla navren typologie jednotlivch objekt metadat.
Byly navreny ti zkladn typy: jednoduch soubor metadat (nap. zznam jednoho zdroje),
nepm soubor metadat (tj. odkaz na extern jin zdroj, kter je obsahuje) a kolekce vce
objekt metadat najednou (tzv. kontejner) [LAGOZE, 1996, The Warwick Framework
architecture]. V relnm provozu se pak pedpokldal zcela automatizovan sbr a smna
metadat v konzistentn form, seskupovn jednotlivch typ metadat nebo jejich vyuvn
pro specifick skupiny uivatel (agenti/klienti).
Extenz nvrhu WF byla i jeho konkrtn, by limitovan, implementace pro HTML, verzi 2.0
s podmnkou, e bude transparentn pro existujc prohlee WWW, indexan a vyhledvac
sluby a dal HTML nstroje. Implementace byla dleit pro realizaci ady projekt.
Konkrtn byla pro HTML realizovna nsledujc syntax:
META tag pro uloen vnoench metadat v rmci hlaviky HTML dokumentu.
V kadm META tagu byla specifikovna dvojice jmno/hodnota, kter byla kdovna
pomoc atributu NAME a atributu CONTENT. V hlavice mohly bt obsaeny
vcensobn daje. Jednoduch pklad jednoho daje:
Pro hodnotu atributu NAME byla navrena zvltn tekovac notace, pomoc n se
udvalo jmno souboru metadat a (po tece) jmno daje. Pozdji se teky uplatnily i pro
vyjden typologie jmen daj. Dnes je tento systm oznaovn termnem pseudo-
hierarchick tekovac notace [Dublin Core Metadata Initiative, 1999b, st 3.1] (dnes ji
nen vyuvn). Metadata Dublin Core obdrela jmno DC. Konkrtn pklad dvou daj:
LINK tag byl navren pro poteby uveden odkazu na webov zdroj, v nm se nachz
specifikace (definice) danho pouitho souboru metadat. Syntax obsahovala typ schmatu
souboru metadat (atribut REL) a URL zdroje na WWW (atribut HREF). Napklad definice
daje nzev ve specifikaci DC byla odkazovna nsledujcm zpsobem:
22
Vt zsah do souboru (mnoiny) Dublin Core byl proveden po konn v poad 3. semine
Dublinsk iniciativy (opt v Dublinu) v z 1996 [WEIBEL, 1997a]. Jeho stednm tmatem
byly obrazov informan zdroje zpstupovan v prosted Internetu a WWW. Diskuse
byla zamena na adu aspekt tchto zdroj ve vztahu k jejich popisu v rmci specifikace
DC. Metadata pro tento typ webovch zdroj, kter mla jin typ formtu ne HTML,
vyadovala jin prostor, ne je samotn obrazov zdroj. Zznamy se ukldaly zpravidla do
interaktivnch databzovch soubor budovanch jako soust digitlnch knihoven, kter
mohou bt pes pslun rozhran na WWW propojeny.
Jeden ze zvr semine byl podstatn: 13 dosavadnch prvk nepostaovalo k popisu
obrazovch zdroj. Podstatn daj, kter po diskusi pibyl do sestavy, byl daj popis
(Description), kter je nutn k vyjden jeho obsahu pro poteby vyhledvn. Posledn daj
dnes znm patnctky Dublin Core, kter pibyl takt v souvislosti s obrazovmi zdroji,
byl daj prva (Rights), tkajc se informac o autorskch prvech a rznch omezench
vyuvn zdroje.
Cel zkladn mnoina metadat Dublin Core byla po doplnn dvou novch daj i nov
uspodna. Nesla oznaen DC, verze 1.0 a byla publikovna na WWW v prosinci 1996.
Bhem dalho roku byly provedeny dl zmny (soubor byl aktualizovn). V z 1998 byla
tato verze pijata jako internetov standard RFC 2413, je je nyn u jako neplatn verze stle
k dispozici na WWW [RFC 2413, 1998].
tvrt pracovn semin iniciativy DC se konal v Austrlii (Canberra) v beznu 1997. Zcela
naplno se na tomto semini projevily dv tendence formovn DC. Zastnci prvn tendence,
oznaovan jako minimalist, prosazovali zachovn stvajc mnoiny definovanch
prvk. Jejich poadavkem bylo zachovn maximln jednoduchosti formtu, tj. minimln
poet prvk bez dalch dlch specifikac (kvalifiktor), protoe jen tak lze vyhovt
principm tvorby a uit metadat v prostoru WWW. Zastnci druh tendence, oznaovan jako
strukturalist, naopak, s vdomm komplikac, kter mohou nastat pi tvorb a uit
metadat v provozu na WWW vetn velkch nklad, poadovali rozen definovan
mnoiny DC jednak co do potu prvk, jednak co do kvalifiktor. een dan situace
nebylo a nen jednoduch a bude dno a v budoucnu po zskn dalch zkuenost z provozu
prvnch systm [WEIBEL, 1997b].
Nicmn, canberrsk semin projednal nvrh na podrobnj specifikaci DC pomoc tzv.
kvalifiktor (parametr ble urujcch definovan prvky). lo konkrtn o kvalifiktory:
Jazyk (Language), ve kterm byla hodnota daje zapsna a uloena. lo o vznamn
parametr vzhledem k mezinrodnmu charakteru budovn webovch systm a slueb.
Schma (Scheme), kter udval model i zpsob zpisu nebo i tvorby daje. Uvn
tohoto parametru bylo zpravidla vzno na rzn normy (nap. ISO 8601 pro formu dat
jako asovch daj, ISO 639 pro kdovn jazyk, internetovou normu MIME pro
formty soubor penench v rmci Internetu aj.) nebo znm zen pedmtov
hesle, tezaury i klasifikan schmata). V rmci komunikace metadat se pedpokldalo
odkazovn takovch externch zdroj metadat, pokud byly dostupn na WWW, pomoc
pslun syntaxe formtu.
23
Typ (Type), kter udval bu dal parametr daje (e-mail autora apod.) nebo dl typ
daje (autor-fyzick soba, autor-korporace aj.). Pro poteby systm uvajcch
specifikaci DC byla navrena provizorn pseudo-hierarchick tekovac notace, pomoc
n byly oddlovny dl daje (v dokumentaci DC jsou oznaovny tak anglickm
vrazem subelement). Napklad:
Jak je vidt z pedchozho textu a ukzek pklad, zabval se australsk semin podrobnji
i syntax zpisu kvalifiktor. K ve uvedenmu komenti lze pipojit jet malou ukzku
jednoho daje zahrnujcho najednou vechny 3 typy kvalifiktor:
Problematika ze semine v Austrlii byla dle rozvedena na 5. semini konanm ve stejnm
roce (v jnu 1997) v Helsinkch. astnci hodnotili ji poetn vsledky z provozu aplikac
DC v prostoru WWW (nap. viz ve komentovan spn Seversk projekt metadat).
Diskutovny byly opt otzky kvalifiktor a zvltn msto zaujaly dl specifikace daj
datum, pokryt a vztah [WEIBEL, 1998]. Problematika dat jako asovch daj (nap. jejich
typologie, forma zpisu apod.) byla s ohledem na dynamick charakter webovch zdroj
velmi obtn. Speciln daj o prostorovm a asovm pokryt zdroje tak doznal mnoho
zmn, v souasn chvli jsou navrhovny dal dl specifikace. V rmci daje o vazbch se
eila komplikovan otzka vztahu digitlnch zdroj mezi sebou navzjem. Jak znmo,
identifikace vztah je nesmrn nron i pro profesionla, nato pro bnho uivatele, kter
m potebu teba jen citovat urit dokument nebo jenom dl strnku. Jinak lo samozejm
tak o otzku popisn jednotky. V terminologii DC se objevil tento problm pod vrazem
princip 1:1. Konkrtn se problm tkal zejmna popisu kolekc webovch strnek
sdruench v rmci webovch sdel, verz dynamickch digitlnch dokument,
multimedilnch zdroj apod. V rmci semine v Helsinkch byly navreny zkladn typy
dlch vztah (relac).
Vsledkem helsinskho semine a nsledn diskuse pslun pracovn skupiny bylo
publikovn materilu ke kvalifiktorm jednotlivch prvk DC (materil ji nen k dispozici
na WWW). Nov byla navrena dokonce formalizovan definice kvalifiktor DC pro
poteby tvorby metadat DC v rmci schmatu RDF [Dublin Core Metadata Initiative, 1997b,
Appendix 2].
Jednou z dleitch otzek diskutovanch na 6. semini DC, kter se konal v listopadu 1998
ve Washingtonu, byla formalizace proces, organizace a zen Dublinsk iniciativy (DCMI).
DCMI se stala vznamnm mezinrodnm virtulnm spoleenstvm, jejm poslnm se stal
rozvoj, standardizace a podpora souboru prvk DC. Od potku roku 1999 bylo proto
zahjeno postupn formovn organizan struktury, kter mlo bt potvrzeno na 7. semini
v jnu 1999 ve Frankfurtu nad Mohanem. Podle nvrhu je DCMI celkov zeno editelstvm
DCMI (DCMI Directorate), kter sdlilo v rmci pvodn hostitelsk organizace OCLC (nyn
je v roli hostitelsk organizace Korejsk nrodn knihovna). Krom jinho zajiuje tak
webovou prezentaci (http://dublincore.org). zen a koordinaci normalizanch prac
zajiuje Vkonn skupina DC (DC Executive Group, DC-EG). Poradn vbor editelstv
DCMI (DC Advisory Committee, DC-AC), kter je tvoen z reprezentant rznch systm
a slueb z celho svta, d prci tematickch pracovnch skupin DC, schvaluje jejich nvrhy
http://dublincore.org/
24
a spolupracuje s jinmi mezinrodnmi aktivitami a organizacemi (W3C, IETF aj.). Dleit
innost se odehrv v rmci ady pracovnch skupin (DC Working Groups, DC-WG), kter
projednvaj dl problmy rozvoje DC v rmci elektronickch diskusnch skupin i na
seminch. Zkladnm produktem skupin jsou pracovn nvrhy (Working Draft), je
mohou po dalm projednvn v celkov diskusn skupin (DC General mail) a schvlen v
Poradnm vboru nabt povahy nvrhu doporuen (Proposed Recommendation)
a konenho doporuen (Recommendation).
V ervenci roku 1999 pedloila DCMI odborn veejnosti jako nvrh doporuen
revidovanou verzi zkladnho souboru prvk Dublin Core, kter nesla oznaen verze 1.1
(Version 1.1) [Dublin Core Metadata Initiative, 1999a]. Nelo o verzi vyho du, ale pouze
o podstatnou formln pravu, v rmci n dolo ke zlepen a zpesnn definic jednotlivch
prvk (daj). Pedloen verze byla odna do novho kabtu - cel soubor je definovn
podle spolen mezinrodn normy ISO/IEC 11179 Specifikace a standardizace datovch
prvk. Formalizace tohoto typu byla velice dleit pro budouc vyuvn metadat DC
v relnm automatizovanm provozu na WWW. Nvrh definic zkladnch prvk byl v t
chvli k dispozici na WWW v rmci nvrhu zkladnho modelu DC-RDF [Dublin Core
Metadata Initiative, Guidance, 1999b, Appendix 1]. Definice prvk musely podle zmnn
normy obsahovat celkem 10 poloek:
1. Jmno daje
2. Identifiktor daje jako jeho jedinen kd pro automatizovan zpracovvn
3. Verze definice daje
4. ad pro registraci daje
5. Jazyk, v nm je daj vyjden
6. Vlastn definice daje
7. Povinnost uvdn daje
8. Typ daje
9. Maximln poet vskyt daje
10. Koment k vyuit daje
Akoliv od konn 6. semine Dublin Core v prosinci 1998 byla vedena ada diskus
k monostem rozen nebo peuspodn dosavadn sestavy daj Dublin Core, odpovdn
pracovnci v prbhu jara ujistili, e se dn zmny v tomto smru konat nebudou [WEIBEL,
1999]. Co do potu definovanch daj byl soubor toton s verz 1.0. Zmny nastaly v
definicch. O kter podstatnj zmny lo? V nsledujcm pehledu jsou uvedeny v rmci
koment k jednotlivm dajm (prvkm). Jako prvn je uveden vdy esk peklad jmna
daje, v kulat zvorce je jmno v anglickm originlu (podle verze 1.1 z ervence 1999);
frze uveden v uvozovkch v kulatch zvorkch jsou plnmi nebo dlmi citty ze
zveejnnho dokumentu [Dublin Core Metadata Initiative, 1999a]:
1. Nzev (Title)
Tato nov definice je oproti pvodn zkrcen (jmno dan zdroji); stanoven initele
(pvodn autor a vydavatel) procesu pidlovn jmna, tj. nzvu zdroje, bylo zrueno,
nevyskytuje se ani v komenti.
25
2. Tvrce (Creator)
V rmci tohoto daje dolo pedevm ke zmn jmna daje (pvodn Autor nebo
tvrce); po diskusch byl vraz autor vylouen t s ohledem na adu novch aspekt,
kter autorsk role u digitlnch informanch zdroj nabr (plat zejmna pro nov
vznikl typy); nov - a velmi progresivn je i nov definice daje (entita primrn
odpovdn za proveden obsahu zdroje); z pvodn definice bylo vyloueno slovo
intelektuln, kter bylo pevzato z katalogizanch instrukc, kter vak dnes ji ne
zcela koresponduje s novou situac; v komenti pibv ve vtu tvrc, vedle fyzick
osoby a organizace, zcela nov poloka sluba (sluby, systmy apod.); kdo zn tehdej
web, jist ocenil zaazen tto potebn poloky; v komenti se objevuje nov obecnj
charakteristika tvrc jakoto entit, ovlivnn t souasnmi novmi nhledy na
autorstv v materilech IFLA [Functional, 1999].
3. Pedmt (Subject)
Pvodn definice byla peformulovna a podstatn zpesnna (tma obsahu zdroje), tj.
pibylo velmi potebn slovo obsahu, kter tam pvodn nebylo.
4. Popis (Description)
Nov definice byla vce zobecnna (vet obsahu zdroje) a koment podv vce
pklad k uit tohoto daje.
5. Vydavatel (Publisher)
Nov definice je oproti pvodn zkrcena (entita odpovdn za zpstupnn zdroje);
koment opt, jako v ppad daje tvrce, nov upesuje, e vydavatelem me bt
vedle fyzick osoby a organizace tak sluba (sluby, systmy apod.).
6. Pispvatel (Contributor)
Stejn jako v ppad daje tvrce, dolo i u tohoto daje ke zmn jmna, i kdy jenom
formln - byl vyputn zbyten vraz dal; definice daje je vak pepracovna
podstatn (entita odpovdn za proveden pspvku k obsahu zdroje); vraz
o vznamnm intelektulnm pspvku pispvatele byl zruen; koment k definici
rovn dopluje ve vtu pklad slubu (sluby, systm), kter tak me bt v tto roli.
7. Datum (Date)
Pvodn definice je zcela pepracovna, a to na zklad rozshl diskuse v pracovnch
skupinch (datum spojen s njakou udlost v ivotnm cyklu zdroje); v definici se
odr charakteristick rys digitlnch zdroj, kter jsou u ady typ velmi dynamick
(vetn psemnch dokument); doporuen pro uvn normy ISO 8601 zstalo
nezmnno.
8. Typ (Type)
Definice v nov verzi doshla sice jistho pokroku - je vce zobecnn (povaha nebo nr
obsahu zdroje), je vak stle diskutabiln; urit by mohla bt dle zpesovna; jak
napovd elektronick diskuse v pslun pracovn skupin, dolo bhem poslednho roku
k dalm zmnm ve vtu jednotlivch typ (stav z roku 1998 byl komentovn v asopise
Nrodn knihovna [BRATKOV, 2005, st 4].
26
9. Formt (Format)
Rovn v ppad formtu digitlnch zdroj dolo k upesnn definice (fyzick nebo
digitln manifestace zdroje); formulace definice je, krom jinho, ovlivnna souasnmi
nhledy a zvry IFLA k problematice informanch zdroj a dokument, kter byly asto
v diskusch brny v potaz; koment k definici dopluje nkter dal daje, jako jsou
nap. rozmry, potebn pro popis nkterch typ informanch zdroj (obrazov,
trojrozmrn apod.).
10. Identifiktor (Identifier)
V definici tohoto daje, kter hraje v rmci architektury souasn i budouc webov
komunikace velkou lohu, dolo ke zpesnn definice (jednoznan odkaz na zdroj
v rmci danho kontextu); koment dopluje pklady o identifiktor DOI (Digital
Object Indentifier).
11. Zdroj (Source)
Akoliv se kolem tohoto daje v posledn dob rozproudila velk diskuse (zdlo se, e
daj bude slouen s dajem vztah), nakonec k tomu nedolo a zstv i nadle v cel
sestav. Jeho definice byla mrn upravena (odkaz na zdroj, ze kterho byl popisovan
zdroj odvozen).
12. Jazyk (Language)
Definice daje je nezmnna, koment ovem upesuje odkazy na normy, kter jsou
doporueny k vyuvn; zpesnny jsou dl instrukce.
13. Vztah (Relation)
Definice tohoto daje je upesnna (odkaz na pbuzn zdroje), tj. pvodn termn
souvislost s dalmi zdroji byl nahrazen pesnjm termnem odkaz na zdroje.
14. Pokryt (Coverage)
Definice tohoto specilnho daje byla zobecnna (rozsah nebo zbr zdroje), rovn tak
koment obsahuje pesnj specifikaci a pklady.
15. Prva (Rights)
Zkladn definice tohoto poslednho daje byla tak upesnna (informace o prvech
udrovan ve zdroji nebo mimo nj).
Pracovn nvrh nov verze specifikace Dublin Core (verze 1.1) byl po diskusi 9. z 1999
ustanoven jako definitivn doporuen. Pln znn tohoto textu je k dispozici na adrese:
.
2.1.3 Aktuln stav schmatu DC
Nejnovj verze Dublin Core (stle ale verze 1.1) pochz z 14. ervna 2012 jako doporuen
DCMI (DCMI Recommendation). Je k dispozici jednak jako samostatn metadatov
specifikace (zkrcen DCES, http://dublincore.org/documents/2012/06/14/dces/ nebo
http://dublincore.org/documents/dces/), jednak jako soust irho slovnku termn
(zkrcen DCTERMS, http://dublincore.org/dc/terms/)
http://purl.org/dc/documents/rec-dces-19990702.htmhttp://dublincore.org/documents/2012/06/14/dces/http://dublincore.org/documents/dces/http://dublincore.org/dc/terms/
27
Specifikace Dublin Core je kodifikovna v aktuln verzie RFC 5013, kter pochz z roku
2007 [RFC 5013, 2007]. Metadata DC jsou v souasn dob tak
kodifikovna jako technick americk norma ANSI/NISO Z39.85
[ANSI/NISO Z39.85:2007]. Na mezinrodn rovni byla specifikace
Dublin Core publikovna jako noma ISO 15836: v prvnm vydn v roce 2003
[ISO 15836:2003] a ve druhm vydn v roce 2009 [ISO 15836:2009] vetn dodaten
opravy 1 [ISO 15836/Cor 1:2009].
Aktuln verze pin opraven definice, vykazuj zestrunn.
Pehled identifiktor URI jednotlivch prvk specifikace DC:
URI: http://purl.org/dc/elements/1.1/title
URI: http://purl.org/dc/elements/1.1/creator
URI: http://purl.org/dc/elements/1.1/subject
URI: http://purl.org/dc/elements/1.1/description
URI: http://purl.org/dc/elements/1.1/publisher
URI: http://purl.org/dc/elements/1.1/contributor
URI: http://purl.org/dc/elements/1.1/date
URI: http://purl.org/dc/elements/1.1/type
URI: http://purl.org/dc/elements/1.1/format
URI: http://purl.org/dc/elements/1.1/identifier
URI: http://purl.org/dc/elements/1.1/source
URI: http://purl.org/dc/elements/1.1/language
URI: http://purl.org/dc/elements/1.1/relation
URI: http://purl.org/dc/elements/1.1/coverage
URI: http://purl.org/dc/elements/1.1/rights
Aktuln platn definice jednotlivch prvk
dc:title (nzev), URI: http://purl.org/dc/elements/1.1/title
Aktuln definice: jmno dan zdroji (v komenti: me jt napklad o jmno, pod
kterm je zdroj formln znm).
dc:creator (tvrce), URI: http://purl.org/dc/elements/1.1/creator
Aktuln definice:entita primrn odpovdn za proveden zdroje (v komenti: njak
fyzick osoba, organizace nebo sluba (sluba, systm apod.)).
dc:subject (pedmt), URI: http://purl.org/dc/elements/1.1/subject
Aktuln definice: tma zdroje (v komenti: tma me bt reprezentovno pomoc
klovch slov, klovch frz, klasifikanch kd aj.; doporueno je uvn zench
slovnk).
http://purl.org/dc/elements/1.1/titlehttp://purl.org/dc/elements/1.1/creatorhttp://purl.org/dc/elements/1.1/subject
28
dc:description (popis), URI: http://purl.org/dc/elements/1.1/description
Aktuln definice: osvtlen zdroje (v komenti: popis me zahrnovat abstrakt, obsah,
grafickou reprezentaci, anebo osvtlen zdroje pomoc volnho textu).
dc:publisher(vydavatel), URI: http://purl.org/dc/elements/1.1/publisher
Aktuln definice: entita odpovdn za zpstupnn zdroje (v komenti: njak fyzick
osoba, organizace nebo sluba (sluba, systm apod.)).
dc:contributor (pispvatel), URI: http://purl.org/dc/elements/1.1/contributor
Aktuln definice: entita odpovdn za proveden pspvku do zdroje (v komenti
njak fyzick osoba, organizace nebo sluba (sluba, systm apod.)).
dc:date (datum), URI: http://purl.org/dc/elements/1.1/date
Aktuln definice: urit doba nebo asov obdob spojen s njakou udlost v ivotnm
cyklu zdroje (v komenti: datum me bt uit k vyjden asov informace na
jakkoliv rovni granularity, doporuen pro uvn normy ISO 8601, tj. profilu
W3CDTF, [W3CDTF] http://www.w3.org/TR/NOTE-datetime).
dc:type (typ), URI: http://purl.org/dc/elements/1.1/type
Aktuln definice: povaha nebo nr zdroje (v komenti: doporueno je vyuvn
zenho slovnku DCMI (Type Vocabulary, DCMITYPE),
http://dublincore.org/documents/dcmi-type-vocabulary/.
dc:format (formt), URI: http://purl.org/dc/elements/1.1/format
Aktuln definice: formt souboru, fyzick mdium nebo rozmr zdroje (v komeni:
pkladem rozmru zdroje me bt velikost souboru, doba trvn nahrvky apod.;
doporueno je uvn zench slovnk, zejmna typologie MIME,
http://www.iana.org/assignments/media-types/index.html).
dc:identifier (identifiktor), URI: http://purl.org/dc/elements/1.1/identifier
Aktuln definice: jednoznan odkaz na zdroj v rmci danho kontextu (v komenti
doporueno uvn nkterho z identifikanch systm).
dc:source (pvodn zdroj), URI: http://purl.org/dc/elements/1.1/source
Aktuln definice: njak souvisejc zdroj, ze kterho byl popisovan zdroj odvozen
(v komenti: doporueno uvn nkterho z identifikanch systm).
dc:language (jazyk), URI: http://purl.org/dc/elements/1.1/language
Aktuln definice: jazyk zdroje (v komenti: doporueno je vyuvn zenho
slovnku [RFC4646] http://www.ietf.org/rfc/rfc4646.txt)
dc:relation (vztah), URI: http://purl.org/dc/elements/1.1/relation
Aktuln definice: pbuzn zdroj (v komenti: doporueno uvn nkterho
z identifikanch systm).
dc:coverage (pokryt), URI: http://purl.org/dc/elements/1.1/coverage
http://purl.org/dc/elements/1.1/descriptionhttp://purl.org/dc/elements/1.1/publisherhttp://purl.org/dc/elements/1.1/contributorhttp://purl.org/dc/elements/1.1/datehttp://www.w3.org/TR/NOTE-datetimehttp://purl.org/dc/elements/1.1/typehttp://dublincore.org/documents/dcmi-type-vocabulary/http://purl.org/dc/elements/1.1/formathttp://www.iana.org/assignments/media-types/index.htmlhttp://purl.org/dc/elements/1.1/identifierhttp://purl.org/dc/elements/1.1/sourcehttp://purl.org/dc/elements/1.1/languagehttp://www.ietf.org/rfc/rfc4646.txthttp://purl.org/dc/elements/1.1/relationhttp://purl.org/dc/elements/1.1/coverage
29
Aktuln definice: prostorov nebo asov tma zdroje, prostorov aplikovatelnost zdroje
nebo jurisdikce, ke kter zdroj nle (v komenti: prostorov tma a prostorov
aplikovatelnost mohou bt njakm pojmenovanm mstem nebo lokalitou, kter je
specifikovna svmi souadnicemi; asov tma me bt pojmenovanou dobou, datem
nebo intervalem dat. Jurisdikce me bt pojmenovanou administrativn entitou nebo
zempisnm mstem, ke ktermu se zdroj ve; doporuenm zpsobem je vyuit
zench slovnk, jako je napklad Tezaurus geografickch jmen (Thesaurus of
Geographic Names [TGN],
http://www.getty.edu/research/tools/vocabulary/tgn/index.html). Tam kde je to vhodn,
mohou bt pojmenovan msta a asov obdob uita prioritn ped selnmi
identifiktory, jak napklad soubory souadnic nebo adou dat.
dc:rights (prva), URI: http://purl.org/dc/elements/1.1/rights
Aktuln definice: informace o prvech udrovan ve zdroji nebo mimo nj
(v komenti: rznorod systmy prv spojen se zdrojem).
Na Obr. . 4 je zznam disertan prce ve specifikaci nekvalifikovan Dublin Core. Byl
zskn z institucionlnho archivu Massachusettskho technologickho institutu (MIT) pomoc
protokolu OAI-PMH (formt: oai_dc; pkaz Get record):
http://dspace.mit.edu/oai/request?verb=GetRecord&metadataPrefix=oai_dc&identifier=oai%3Adspac
e.mit.edu%3A1721.1%2F43074
-
2012-07-13T09:48:20Z
http://dspace.mit.edu/oai/request -
-
-
oai:dspace.mit.edu:1721.1/43074
2012-06-15T15:36:54Z
hdl_1721.1_7663
hdl_1721.1_7817
-
-
A context-sensitive meta-classifier for color-naming
Kubat, Rony Daniel
Electrical Engineering and Computer Science.
Humans are sensitive to situational and semantic context when
applying labels to colors. This is especially challenging for algorithms which
http://www.getty.edu/research/tools/vocabulary/tgn/index.htmlhttp://purl.org/dc/elements/1.1/rightshttp://dspace.mit.edu/oai/request?verb=GetRecord&metadataPrefix=oai_dc&identifier=oai%3Adspace.mit.edu%3A1721.1%2F43074http://dspace.mit.edu/oai/request?verb=GetRecord&metadataPrefix=oai_dc&identifier=oai%3Adspace.mit.edu%3A1721.1%2F43074http://dspace.mit.edu/oai/request?verb=GetRecord&metadataPrefix=oai_dc&identifier=oai%3Adspace.mit.edu%3A1721.1%2F43074##http://dspace.mit.edu/oai/request?verb=GetRecord&metadataPrefix=oai_dc&identifier=oai%3Adspace.mit.edu%3A1721.1%2F43074##http://dspace.mit.edu/oai/request?verb=GetRecord&metadataPrefix=oai_dc&identifier=oai%3Adspace.mit.edu%3A1721.1%2F43074##http://dspace.mit.edu/oai/request?verb=GetRecord&metadataPrefix=oai_dc&identifier=oai%3Adspace.mit.edu%3A1721.1%2F43074##http://dspace.mit.edu/oai/request?verb=GetRecord&metadataPrefix=oai_dc&identifier=oai%3Adspace.mit.edu%3A1721.1%2F43074##http://dspace.mit.edu/oai/request?verb=GetRecord&metadataPrefix=oai_dc&identifier=oai%3Adspace.mit.edu%3A1721.1%2F43074##
30
attempt to replicate human categorization for communicative tasks. Additionally, mismatched color models between dialog partners can lead to a back-and-forth negotiation of terms to find common ground. This thesis presents a color-classification algorithm that takes advantage of a dialog-like interaction model to provide fast-adaptation for a specific exchange. The model learned in each exchange is then integrated into the system as a whole. This algorithm is an incremental meta-learner, leveraging a generic online-learner and adding context-sensitivity. A human study is presented, assessing the extent of semantic contextual effects on color naming. An evaluation of the algorithm based on the corpus gathered in this experiment is then tendered.
by Rony Daniel Kubat.
Thesis (S.M.)--Massachusetts Institute of Technology, Dept. of
Electrical Engineering and Computer Science, 2008. Includes bibliographical references (p. 93-97).
Massachusetts Institute of Technology
Massachusetts Institute of Technology. Dept. of Electrical
Engineering and Computer Science. Deb K. Roy.
2008-11-07T18:59:12Z
2008-11-07T18:59:12Z
2008
2008
Thesis
97 p.
http://hdl.handle.net/1721.1/43074
244251133
eng
M.I.T. theses are protected by copyright. They may be viewed from this
source for any purpose, but reproduction or distribution in any format is prohibited without written permission. See provided URL for inquiries about permission.
http://dspace.mit.edu/handle/1721.1/7582
Obr. . 4: metadatov zznam disertace z institucionlnho archivu DSpace at MIT ve formtu oai_dc
(DCES, version 1.1) [zskno pomoc protokolu OAI-PMH, pkazem GetRecord, 2012]
Slovnk metadatovch termn DCMI (DCMI Metadata Terms, DCTERMS,
http://purl.org/dc/terms/, http://dublincore.org/schemas/xmls/qdc/dcterms.xsd) zahrnuje, vedle
zkladnch 15 prvk (jsou oznaeny lutm fixem) sady Dublin Core, dalch 40 jemnjch
prvk:
abstract , accessRights , accrualMethod , accrualPeriodicity , accrualPolicy , alternative ,
audience , available , bibliographicCitation , conformsTo , contributor , coverage , created ,
http://purl.org/dc/terms/http://dublincore.org/schemas/xmls/qdc/dcterms.xsdhttp://dublincore.org/documents/dcmi-terms/#terms-abstract#terms-abstracthttp://dublincore.org/documents/dcmi-terms/#terms-accessRights#terms-accessRightshttp://dublincore.org/documents/dcmi-terms/#terms-accrualMethod#terms-accrualMethodhttp://dublincore.org/documents/dcmi-terms/#terms-accrualPeriodicity#terms-accrualPeriodicityhttp://dublincore.org/documents/dcmi-terms/#terms-accrualPolicy#terms-accrualPolicyhttp://dublincore.org/documents/dcmi-terms/#terms-alternative#terms-alternativehttp://dublincore.org/documents/dcmi-terms/#terms-audience#terms-audiencehttp://dublincore.org/documents/dcmi-terms/#terms-available#terms-availablehttp://dublincore.org/documents/dcmi-terms/#terms-bibliographicCitation#terms-bibliographicCitationhttp://dublincore.org/documents/dcmi-terms/#terms-conformsTo#terms-conformsTohttp://dublincore.org/documents/dcmi-terms/#terms-contributor#terms-contributorhttp://dublincore.org/documents/dcmi-terms/#terms-coverage#terms-coveragehttp://dublincore.org/documents/dcmi-terms/#terms-created#terms-created
31
creator , date , dateAccepted , dateCopyrighted , dateSubmitted , description , educationLevel
, extent , format , hasFormat , hasPart , hasVersion , identifier , instructionalMethod ,
isFormatOf , isPartOf , isReferencedBy , isReplacedBy , isRequiredBy , issued , isVersionOf ,
language , license , mediator , medium , modified , provenance , publisher , references ,
relation , replaces , requires , rights , rightsHolder , source , spatial , subject , tableOfContents
, temporal , title , type , valid
2.2 Metadatov schma nezvislch hlaviek TEI
Tvrcem vznamn specifikace pro kdovn plnch elektronickch text vech typ se
zamenm na detailn textov rozbor TEI (Text Encoding Initiative) vetn metadatovho
schmatu tzv. nezvislch hlaviek TEI (TEI Independent Headers, ) je
v souasn dob Konsorcium TEI (TEI Consortium, http://www.tei-c.org/index.xml) se
sdlem v Charlottesville v americk Virginii [TEI Consortium, 2012a]. Jde o neziskovou
organizaci, jejmi leny jsou vznamn akademick instituce, ale tak jednotlivci. lenov se
podlej na chodu Konsorcia finann a maj prvo volit sv zstupce do sprvn rady
Konsorcia. Rada m vznamnou pravomoc pi schvalovn novch ad a verz znm
specifikace TEI Guidelines, kter je souborem obecnch zsad kter specifikuj metody
kdovn elektronickho textu zejmna v oblasti humanitnch a spoleenskch vd vetn
lingvistiky.
Specifikace TEI vznikla v rmci vzkumnho projektu v letech 1987-1994 ve Virginii (USA).
Dokumentace k cel specifikaci t v jej posledn verzi ze 17. ervna 2012 TEI P5:
Guidelines for Electronic Text Encoding and Interchange vce ne 1550 stran textu [TEI
Consortium, 2012b]. Povinnou soust cel specifikace jsou vak hlaviky TEI (TEI
Headers), kter jsou v souasnosti metadatovm schmatem ve struktue XML, urenm
k popisu digitalizovanch text. Specifikace pedpokld, e hlaviky TEI s metadaty mohou
bt bu soust textu samotnho (proto ho me tvoit i autor nebo vydavatel), mohou vak
bt vytveny a ukldny oddlen do databz zznam v rmci budovanch digitlnch
archiv nebo knihoven digitalizovanch text, jako je napklad britsk archiv OTA (OTA
Archive, http://www.ota.ox.ac.uk/), ze kterho pochz i voln dostupn metadatov zznam
hlaviky TEI zobrazen na obr. . 6 (http://www.ota.ox.ac.uk/text/3010.xml). Hlaviky TEI
lze vyut i pro popis sov dostupnch zdroj.
Zkladn specifikace metadat hlaviek TEI popisu textovch zdroj je co do mnostv daj
velmi bohat (vchoz zkladnou jsou americk katalogizan pravidla AACR2), je vak
ppustn definovat i mnoinu men (podle poteb dan aplikace).
Zkladn specifikace metadat hlaviek TEI popisu textovch zdroj je co do mnostv daj
velmi bohat (vchoz zkladnou jsou americk katalogizan pravidla AACR2), je vak
ppustn definovat i mnoinu men (podle poteb dan aplikace).
http://dublincore.org/documents/dcmi-terms/#terms-creator#terms-creatorhttp://dublincore.org/documents/dcmi-terms/#terms-date#terms-datehttp://dublincore.org/documents/dcmi-terms/#terms-dateAccepted#terms-dateAcceptedhttp://dublincore.org/documents/dcmi-terms/#terms-dateCopyrighted#terms-dateCopyrightedhttp://dublincore.org/documents/dcmi-terms/#terms-dateSubmitted#terms-dateSubmittedhttp://dublincore.org/documents/dcmi-terms/#terms-description#terms-descriptionhttp://dublincore.org/documents/dcmi-terms/#terms-educationLevel#terms-educationLevelhttp://dublincore.org/documents/dcmi-terms/#terms-extent#terms-extenthttp://dublincore.org/documents/dcmi-terms/#terms-format#terms-formathttp://dublincore.org/documents/dcmi-terms/#terms-hasFormat#terms-hasFormathttp://dublincore.org/documents/dcmi-terms/#terms-hasPart#terms-hasParthttp://dublincore.org/documents/dcmi-terms/#terms-hasVersion#terms-hasVersionhttp://dublincore.org/documents/dcmi-terms/#terms-identifier#terms-identifierhttp://dublincore.org/documents/dcmi-terms/#terms-instructionalMethod#terms-instructionalMethodhttp://dublincore.org/documents/dcmi-terms/#terms-isFormatOf#terms-isFormatOfhttp://dublincore.org/documents/dcmi-terms/#terms-isPartOf#terms-isPartOfhttp://dublincore.org/documents/dcmi-terms/#terms-isReferencedBy#terms-isReferencedByhttp://dublincore.org/documents/dcmi-terms/#terms-isReplacedBy#terms-isReplacedByhttp://dublincore.org/documents/dcmi-terms/#terms-isRequiredBy#terms-isRequiredByhttp://dublincore.org/documents/dcmi-terms/#terms-issued#terms-issuedhttp://