Upload
accessoinformazione
View
1.119
Download
0
Embed Size (px)
DESCRIPTION
AIB Toscana Formazione. Accesso all'informazione e collaborazione virtuale. Corso di aggiornamento finanziato dalla Regione Toscana per le biblioteche pubbliche (9 gennaio - 16 febbraio 2012). Giovanni Bergamin
Citation preview
Accesso all'informazione e collaborazione virtuale
Giovanni Bergamin16 gennaio 2012
Che cosa sono i metadati
• Non tanto “dati relativi a (che informano su) altri dati”• Ma (prendendo spunto da Karen Coyle) dati:
o costruiti con l’obiettivo di facilitare una determinata attivitào azionabili e riusabili
• Una definizione funzionale: “più grande è una biblioteca, più è necessario distinguere tra di loro i libri …” (Panizzi 1850)
Alcuni esempi
• 3 diapositive da Karen Coyle• 1 gita - mia - per sentieri toscani
La nostra madre Terra
Latitudine e longitudine
metadati
Organizzare l’informazione
• “Librarians and Google share a similar mission: to organize the world's information and make it universally accessible and useful. ”
• http://www.google.com/librariancenter/index.html• “Universal Bibliographic Control (UBC) as a long-
term programme for the development of a world-wide system for the control and exchange of bibliographic information” [IFLA]
Google è una Biblioteca Digitale?
• Tesi 4 Manifesto: “Le biblioteche digitali sono biblioteche”
• Che cosa è una biblioteca?o a) un servizio di mediazione: organizzare la conoscenza
per renderla accessibileo b) un servizio di “custodia”: si assicura che le risorse
sianoaccessibili per il servizio a) che intende offrire
o c) un mandato da parte della comunità di riferimento per i servizi a) e b)
Di che cosa parleremo assieme
• I metadati:
• permettono il “controllo” di un progetto (di un servizio) a tutti i livelli
• sono “parte costitutiva” di una risorsa digitale
Metadati (definizioni e tipologie)
• Non esistono solo i metadati descrittivi• Definizione funzionale
o metadati finalizzati al recupero della risorsa (metadati descrittivi);
o metadati necessari alla gestione della risorsa (metadati gestionali).
Chi li crea?
• Automatica (generata dal software: il relevance ranking dei motori di ricerca; la marcatura delle foto digitali con le coordinate spazio temporali)
• Alla fonte (p. es. l’autore)• Un intermediario (p. es. il bibliotecario)• L’utente (es connotea,ma anche - indirettamente -
nell’influenzare il risultato dei motori di ricerca ecc)
Si parla di metadati
• Con il diffondersi delle risorse digitali su web• … i tag “meta” delle pagine web• Una contrapposizione ormai superata:
o M. Gorman, catalogazione e “metadata boys” • È necessario partire dalla “risorsa digitale”
ISOC-- Resource
• ISOC – RFC 2396 (URL, URI)• Tutto che quello che ha una identità può essere visto come “risorsa” come ad esempio un documento digitale, una immagine o un servizio (es. il bollettino meteorologico di oggi per Los Angeles), oppure una raccolta di altre risorse.
• Non tutte le risorse sono ricuperabili in rete (=si possono avere con un “clic”): ad es. gli esseri umani, i libri in una biblioteca possono essere considerati risorse (ma non si possono avere con un “clic”)
OAIS – Content information
• Content information come insieme di:o Content data objecto Representation information
• Distingue tra (metadati esterni):o Descriptive informationo Packaging informationo Preservation description information
PREMIS – Digital object
• Digital object come unità distinta di informazione in forma digitale suddiviso in tre tipologieo File (bit più formato)o Bitstream (parte di un File)o Representation (uno o più File in grado di veicolare una
Intellectual entity)
PREMIS – Digital object -2
• definisce la Intellectual entity come “insieme coerente di contenuti identificato, descritto e trattato come unità”
• definisce nel dettaglio i Preservation metadata: ovvero quelle specifiche informazioni che un “archivio” ha bisogno di conoscere per supportare il processo di conservazione
ISO 27001 - Asset
• Tutto quello che ha valore per una organizzazione e per il quale occorre assicurare disponibilità, confidenzialità, integrità
ISO21000/MPEG21 – digital item / resource
• digital item (elemento) = oggetto digitale strutturato e normalizzato a livello di rappresentazione, identificazione e metadati
• Resource = qualsiasi bene (asset) che sia identificabile (una immagine, un brano audio, un testo – il livello di granularità non è predeterminato)
Dati e Metadati
• a. dati – le sequenze di bit• b. metadati interni (formati)• c. metadati esterni (possono essere distinti per
tipologie funzionali, es. metadati descrittivi, metadati per i diritti d’uso della risorsa, ecc.)
Risorse: Dati e metadati - 2
• di solito per risorsa si intende a.+b.• per metadati si fa riferimento a c.• Le risorse possono essere viste/trattate a differenti
livelli di granularità di ordine logico e fisico
Le risorse digitali sono “oggetti sociali”
• a differenza degli oggetti naturali, stanno nello spazio e nel tempo solo per il fatto che soggetti li rappresentano.
• In particolare l'oggetto sociale:o “è il risultato di atti sociali” (sono coinvolti almeno due
soggetti);o è caratterizzato dal fatto di essere “iscritto su carta, su un
file di computer, o anche semplicemente nella testa delle persone” [M. Ferraris].
Le risorse digitali sono “oggetti sociali” - 2
• Rispetto alla “iscrizione” su carta – tipica della risorsa tradizionale (ad esempio, il libro) – quella su file presenta almeno due sostanziali novità:o l'indipendenza della risorsa dalla fisicità del supporto (un file come
sequenza di bit può essere facilmente riprodotto e viene meno la distinzione tra originale, copia, clone e duplicato);
o la dipendenza della risorsa dalle tecnologie informatiche con tutti i ben noti rischi (ad esempio l'obsolescenza di una tecnologia pregiudica la fruibilità di un file - magari perfettamente conservato a livello di bit). L'espressione metadati interni o formato rende evidente questo particolare tipo di “iscrizione” che consiste nel mettere i bit in un determinato ordine.
Come bibliotecari siamo consapevoli da tempo che i metadati durano più a lungo delle applicazioni
Siamo anche consapevoli che il MARC non basta più …
Il problema
• “Sebbene i sistemi possano oggi esporre i metadati per la raccolta automatica e standardizzata (harvesting es OAI) le risorse digitali rimangono ancora rinchiuse in contenitori di tipo proprietario”
• Dobbiamo rompere questi contenitori ed esporre la semantica delle risorse depositate: la struttura di una risorsa dovrebbe essere esplorabile da una macchina senza l'intervento dell'essere umano che clicca e segue un link” [M Witt - 2010]
La ricetta di TBL: il web semantico
• Usa URI per identificare dati e metadati• Usa HTTP URI così che possono essere
cliccate("dereferenced") sia dalle persone che da user agents.
• Quando l’URI viene cliccata dalle macchine rispondi con informazioni in formati standard come RDF/XML.
• Includi tra le informazioni collegamenti a altre URI nel web .
La ricetta di VDS: OAI - ORE
• “Open Archives Initiative Object Reuse and Exchange (OAI-ORE) definisce standard per la descrizione e lo scambio di aggregazioni di risorse presenti in rete”
• “L'obiettivo di questi standard è di esporre la ricchezza di queste aggregazioni alle applicazioni che supportano la creazione, il deposito, lo scambio, la visualizzazione, il riuso e la conservazione”
OAI - ORE in breve
• Fornisce convenzioni per aggregare dati primari (o dati tout court) e secondari (o metadati) in un contenitore che rispetta una delle seguenti sintassi: RDF/XML, Atom XML oppure RDFa
• E' un contenitore per aggregazioni omogenee (nel linguaggio PREMIS per archiviare una Representation di una Intellectual entity)
• I dati e metadati possono essere inseriti all'interno del contenitore XML o semplicemente referenziati (in questo caso dentro il file XML troviamo solo indirizzo di tipo URL)
• E' una proposta consapevole del Web semantico (in generale e dei Linked data (in particolare)
Scenari - 1
Scenari - 2
• http://openlibrary.org/authors/OL22022A/Barbara_Cartland
• http://openlibrary.org/authors/OL22022A.rdf
• http://viaf.org/viaf/64003092/#Cartland,_Barbara,_1902-2000
• http://viaf.org/viaf/64003092/rdf.xmlo [dal blog di Karen Koyle, 2011-04-24]
Un identificatore di tipo URI = 1 risorsa identificata e descritta (da tutti riusabile)?
• http://richard.cyganiak.de/2007/10/lod/imagemap.html
• http://www.w3.org/2005/Incubator/lld/wiki/Cluster_BibData
• Ci vuole un Indice (anzi un Sindice)?
Intanto … uso diffuso dei formati di aggregazione
• WARC• MAG• METS• BAGIT
WARC ISO 28500
• Il formato WARC (Web ARChive) mette a disposizione convenzioni per concatenare in un file - anche di grandi dimensioni - risorse digitali anche eterogeneo le risorse digitali sono viste come Bitstream (PREMIS),o ogni Bistream è composto da una intestazione testuale e da un blocco di
dati di lunghezza non predefinita• E' usato nei progetti di archiviazione del web• Deriva dal formato ARC (Internet Archive) e viene usato per
la raccolta (harvesting) dei siti web.
WARC ISO 28500 - 2
WARC pro e contro
• [p] facilita l'archiviazione di massa in un file system convenzionale (come i contenitori ci aiutano a mettere ordine in un ripostiglio che contiene una rilevante quantità di oggetti di differenti dimensioni)
• [p] ha dato prova di essere scalabile: archiviazione e accesso a grandi quantità di dati per Internet Archive
• [p] si possono trovare in rete tutti gli strumenti per la gestione di questo tipo di file
• [p] E' uno standard ISO • [c] E' pensato per l'archiviazione dei siti web
MPEG21 DIDL
• MPEG-21 (ISO 21000) è uno standard ISO che “definisce un insieme di regole per la fornitura e l'uso (comsumption) delle risorse digitali ”
• DIDL = Digital Item Declaration Language per la rappresentazione di oggetti digitali complessi ;o is the part 2 (out of 10) of MPEG-21
MPEG 21 DIDL - 2
• Offre convenzioni per mettere insieme in un file XML dati primari (o dati) e secondari (o metadati)
• E' un contenitore per aggregazioni omogenee (nel linguaggio PREMIS per archiviare una Representation di una Intellectual entity)
• I dati e metadati possono essere inseriti all'interno del contenitore XML o semplicemente referenziati (in questo caso dentro il file XML troviamo solo indirizzo di tipo URL)
• I dati di tipo binario - se inseriti all'interno del contenitore XML - sono codificati in BASE64 come gli allegati delle nostre mail
MPEG21 DIDL pro e contro
• [p] sintassi XML basata su uno Schema XML • [p] è uno standard per tutte le risorse digitali (non è limitato
alle sole biblioteche) • [p] è uno standard ISO • [p] usato dai sw per IR (Eprints, Dspace ecc)• [c] non ci sono molti strumenti open source per la gestione
dei file DIDL
METS
• METS = Metadata Encoding and Transmission Standard
• Uno Schema XML per “codificare metadati descrittivi, amministrativi e strutturali relativi a risorse digitali di una biblioteca digitale"
• Mantenuto dalla Library of Congress e sviluppato come una iniziativa della Digital Library Federation.
METS 2
• Offre convenzioni per mettere insieme in un file XML dati primari (o dati) e secondari (o metadati)
• E' un contenitore per aggregazioni omogenee (nel linguaggio PREMIS per archiviare una Representation di una Intellectual entity)
• I metadati possono essere inseriti all'interno del contenitore XML o semplicemente referenziati (in questo caso dentro il file XML troviamo solo un indirizzo di tipo URL)
• I dati non possono essere inseriti all'interno del contenitore XML ma devono essere referenziati (dei dati dentro il file XML troviamo sempre e solo un indirizzo di tipo URL)
METS pro e contro
• [p] sintassi XML basata su uno Schema XML• [p] oggi molto usato (anche da GBS…)• [p] Ci sono molti strumenti open source disponibili
• [c] limitato ai progetti di digitalizzazione
MAG
• Uno Schema XML per codificare metadati descrittivi e gestionali
• un progetto tutto italiano
• Esistono XSLT per la trasformazione da MAG in METS
MAG - 2
• Offre convenzioni per mettere insieme in un file XML dati primari (o dati) e secondari (o metadati)
• E' un contenitore per aggregazioni omogenee (nel linguaggio PREMIS per archiviare una Representation di una Intellectual entity)
• I metadati possono essere inseriti all'interno del contenitore XML o semplicemente referenziati (in questo caso dentro il file XML troviamo solo un indirizzo di tipo URL)
• I dati non possono essere inseriti all'interno del contenitore XML ma devono essere referenziati (dei dati dentro il file XML troviamo sempre e solo un indirizzo di tipo URL)
MAG pro e contro
• [p] Una risposta a problemi reali (nasce più di 10 anni fa quando METS era ancora agli albori): … semplice ma applicabile subito
• [c] usato solo in Italia
Bagit
• Specifiche per aggregare risorse digitali al fine di facilitare il trasferimento tra archivi
• Creato dalla Library of Congress – con la California Digital Library e la Stanford University
• Le risorse sono aggregate per formare un bag comprendente - oltre alle risorse - anche una etichetta di tipo testuale (il tag) che ha lo scopo di facilitare il ricevimento, l'archiviazione e il recupero delle risorse
• E' di solito usato per inviare risorse digitali a un deposito che si fa carico della conservazione
Bagit pro e contro
• [p] Buona diffusione (a partire dalla Library of Congress).• [p] facile da capire e da implementare (in pratica uno zip ...)• [p] molti strumenti disponibili per l'utente • [c] limitata standardizzazione dei metadati
Per una discussione - 1
• I formati per l'uso delle risorse digitali oggi più diffusi non fanno uso di RDF (e a volte nemmeno di XML)
• Esiste da tempo una buona sperimentazione con soluzioni che spesso si sovrappongono
• Qualche segnale da considerare:o L'acquisizione da parte di Google di Freebaseo 46 milioni di DOI disponibili come Linked data (aprile
2011)o la comparsa di OAI-ORE nei sw per i repository
istituzionali (Eprints, Dspace ecc)
Per una discussione - 2
• l'enorme produzione di open data (anche se non linked)
• la discussione su un tld .data
• l'emergere di strumenti utili "a prescindere" p. es Google Refine, Google Fusion Tables, SILK, MINT, D3