56
Accesso all'informazione e collaborazione virtuale Giovanni Bergamin 16 gennaio 2012

Accesso remoto, interfaccia ed architettura dell'informazione

Embed Size (px)

DESCRIPTION

AIB Toscana Formazione. Accesso all'informazione e collaborazione virtuale. Corso di aggiornamento finanziato dalla Regione Toscana per le biblioteche pubbliche (9 gennaio - 16 febbraio 2012). Giovanni Bergamin

Citation preview

Page 1: Accesso remoto, interfaccia ed architettura dell'informazione

Accesso all'informazione e collaborazione virtuale

Giovanni Bergamin16 gennaio 2012

Page 2: Accesso remoto, interfaccia ed architettura dell'informazione

Che cosa sono i metadati

• Non tanto “dati relativi a (che informano su) altri dati”• Ma (prendendo spunto da Karen Coyle) dati:

o costruiti con l’obiettivo di facilitare una determinata attivitào azionabili e riusabili

• Una definizione funzionale: “più grande è una biblioteca, più è necessario distinguere tra di loro i libri …” (Panizzi 1850)

Page 3: Accesso remoto, interfaccia ed architettura dell'informazione

Alcuni esempi

• 3 diapositive da Karen Coyle• 1 gita - mia - per sentieri toscani

Page 4: Accesso remoto, interfaccia ed architettura dell'informazione
Page 5: Accesso remoto, interfaccia ed architettura dell'informazione
Page 6: Accesso remoto, interfaccia ed architettura dell'informazione

La nostra madre Terra

Latitudine e longitudine

metadati

Page 7: Accesso remoto, interfaccia ed architettura dell'informazione
Page 8: Accesso remoto, interfaccia ed architettura dell'informazione
Page 9: Accesso remoto, interfaccia ed architettura dell'informazione
Page 10: Accesso remoto, interfaccia ed architettura dell'informazione

Organizzare l’informazione

• “Librarians and Google share a similar mission: to organize the world's information and make it universally accessible and useful. ”

• http://www.google.com/librariancenter/index.html• “Universal Bibliographic Control (UBC) as a long-

term programme for the development of a world-wide system for the control and exchange of bibliographic information” [IFLA]

Page 11: Accesso remoto, interfaccia ed architettura dell'informazione

Google è una Biblioteca Digitale?

• Tesi 4 Manifesto: “Le biblioteche digitali sono biblioteche”

• Che cosa è una biblioteca?o a) un servizio di mediazione: organizzare la conoscenza

per renderla accessibileo b) un servizio di “custodia”: si assicura che le risorse

sianoaccessibili per il servizio a) che intende offrire

o c) un mandato da parte della comunità di riferimento  per i servizi a) e b)

Page 12: Accesso remoto, interfaccia ed architettura dell'informazione

Di che cosa parleremo assieme

• I metadati:

• permettono il “controllo” di un progetto (di un servizio) a tutti i livelli

• sono “parte costitutiva” di una risorsa digitale

Page 13: Accesso remoto, interfaccia ed architettura dell'informazione

Metadati (definizioni e tipologie)

• Non esistono solo i metadati descrittivi• Definizione funzionale

o metadati finalizzati al recupero della risorsa (metadati descrittivi);

o metadati necessari alla gestione della risorsa (metadati gestionali).

Page 14: Accesso remoto, interfaccia ed architettura dell'informazione

Chi li crea?

• Automatica (generata dal software: il relevance ranking dei motori di ricerca; la marcatura delle foto digitali con le coordinate spazio temporali)

• Alla fonte (p. es. l’autore)• Un intermediario (p. es. il bibliotecario)• L’utente (es connotea,ma anche - indirettamente -

nell’influenzare il risultato dei motori di ricerca ecc)

Page 15: Accesso remoto, interfaccia ed architettura dell'informazione

Si parla di metadati

• Con il diffondersi delle risorse digitali su web• … i tag “meta” delle pagine web• Una contrapposizione ormai superata:

o M. Gorman, catalogazione e “metadata boys” • È necessario partire dalla “risorsa digitale”

Page 16: Accesso remoto, interfaccia ed architettura dell'informazione

ISOC-- Resource

• ISOC – RFC 2396 (URL, URI)• Tutto che quello che ha una identità può essere visto come “risorsa” come ad esempio un documento digitale, una immagine o un servizio (es. il bollettino meteorologico di oggi per Los Angeles), oppure una raccolta di altre risorse.

• Non tutte le risorse sono ricuperabili in rete (=si possono avere con un “clic”): ad es. gli esseri umani, i libri in una biblioteca possono essere considerati risorse (ma non si possono avere con un “clic”)

Page 17: Accesso remoto, interfaccia ed architettura dell'informazione

OAIS – Content information

• Content information come insieme di:o Content data objecto Representation information

• Distingue tra (metadati esterni):o Descriptive informationo Packaging informationo Preservation description information

Page 18: Accesso remoto, interfaccia ed architettura dell'informazione

PREMIS – Digital object

• Digital object come unità distinta di informazione in forma digitale suddiviso in tre tipologieo File (bit più formato)o Bitstream (parte di un File)o Representation (uno o più File in grado di veicolare una

Intellectual entity)

Page 19: Accesso remoto, interfaccia ed architettura dell'informazione

PREMIS – Digital object -2

• definisce la Intellectual entity come “insieme coerente di contenuti  identificato, descritto e trattato come unità”

• definisce nel dettaglio i Preservation metadata: ovvero quelle specifiche informazioni che un “archivio” ha bisogno di conoscere per supportare il processo di conservazione

Page 20: Accesso remoto, interfaccia ed architettura dell'informazione

ISO 27001 - Asset

• Tutto quello che ha valore per una organizzazione e per il quale occorre assicurare disponibilità, confidenzialità, integrità

Page 21: Accesso remoto, interfaccia ed architettura dell'informazione

ISO21000/MPEG21 – digital item / resource

• digital item (elemento) = oggetto digitale strutturato e normalizzato a livello di rappresentazione, identificazione e metadati

• Resource = qualsiasi bene (asset) che sia identificabile (una immagine, un brano audio, un testo – il livello di granularità non è predeterminato)

Page 22: Accesso remoto, interfaccia ed architettura dell'informazione

Dati e Metadati

• a. dati – le sequenze di bit• b. metadati interni (formati)• c. metadati esterni (possono essere distinti per

tipologie funzionali, es. metadati descrittivi, metadati per i diritti d’uso della risorsa, ecc.)

Page 23: Accesso remoto, interfaccia ed architettura dell'informazione

Risorse: Dati e metadati - 2

• di solito per risorsa si intende a.+b.• per metadati si fa riferimento a c.• Le risorse possono essere viste/trattate a differenti

livelli di granularità di ordine logico e fisico

Page 24: Accesso remoto, interfaccia ed architettura dell'informazione

Le risorse digitali sono “oggetti sociali”

• a differenza degli oggetti naturali,   stanno nello spazio e nel tempo solo per il fatto che soggetti li rappresentano.

• In particolare l'oggetto sociale:o “è il risultato di atti sociali” (sono coinvolti almeno due

soggetti);o è caratterizzato dal fatto di essere “iscritto su carta, su un

file di computer, o anche semplicemente nella testa delle persone” [M. Ferraris].

Page 25: Accesso remoto, interfaccia ed architettura dell'informazione

Le risorse digitali sono “oggetti sociali” - 2

• Rispetto alla “iscrizione” su carta – tipica della risorsa tradizionale (ad esempio, il libro) – quella su file presenta almeno due sostanziali novità:o l'indipendenza della risorsa dalla fisicità del supporto (un file come

sequenza di bit può essere facilmente riprodotto e viene meno la distinzione tra originale, copia, clone e duplicato);

o la dipendenza della risorsa dalle tecnologie informatiche con tutti i ben noti rischi (ad esempio l'obsolescenza di una tecnologia pregiudica la fruibilità di un file - magari perfettamente  conservato a livello di bit). L'espressione metadati interni o formato rende evidente questo particolare tipo di “iscrizione” che consiste nel mettere i bit in un determinato ordine.

Page 26: Accesso remoto, interfaccia ed architettura dell'informazione

Come bibliotecari siamo consapevoli da tempo che i metadati durano più a lungo delle applicazioni

Page 27: Accesso remoto, interfaccia ed architettura dell'informazione

Siamo anche consapevoli che il MARC non basta più …

Page 28: Accesso remoto, interfaccia ed architettura dell'informazione

Il problema

• “Sebbene i sistemi possano oggi esporre i metadati per la raccolta automatica e standardizzata (harvesting es OAI) le risorse digitali rimangono ancora rinchiuse in contenitori di tipo proprietario”

• Dobbiamo rompere questi contenitori ed esporre la semantica delle risorse depositate: la struttura di una risorsa  dovrebbe essere esplorabile da una macchina senza l'intervento dell'essere umano che clicca e segue un link” [M Witt - 2010]

Page 29: Accesso remoto, interfaccia ed architettura dell'informazione

La ricetta di TBL: il web semantico

• Usa URI per identificare dati e metadati• Usa HTTP URI così che possono essere

cliccate("dereferenced") sia dalle persone che da user agents.

• Quando l’URI viene cliccata dalle macchine rispondi con informazioni in formati standard come RDF/XML.

• Includi tra le informazioni collegamenti a altre URI nel web .

Page 30: Accesso remoto, interfaccia ed architettura dell'informazione

La ricetta di VDS: OAI - ORE

• “Open Archives Initiative Object Reuse and Exchange (OAI-ORE) definisce standard per la descrizione e lo scambio di aggregazioni di risorse presenti in rete”

• “L'obiettivo di questi standard è di esporre la ricchezza di queste aggregazioni alle applicazioni che supportano la creazione, il deposito, lo scambio, la visualizzazione, il riuso e la conservazione”

Page 31: Accesso remoto, interfaccia ed architettura dell'informazione

OAI - ORE in breve

• Fornisce convenzioni per aggregare dati primari (o dati tout court) e secondari (o metadati)  in un contenitore  che rispetta una delle seguenti sintassi: RDF/XML, Atom XML oppure RDFa

• E' un contenitore per aggregazioni omogenee (nel linguaggio PREMIS per archiviare una Representation di una Intellectual entity)

• I dati e metadati possono essere inseriti all'interno del contenitore XML o semplicemente referenziati (in questo caso dentro il file XML troviamo solo indirizzo di tipo URL)

• E' una proposta consapevole del Web semantico (in generale e dei Linked data (in particolare)

Page 32: Accesso remoto, interfaccia ed architettura dell'informazione
Page 33: Accesso remoto, interfaccia ed architettura dell'informazione

Scenari - 1

Page 34: Accesso remoto, interfaccia ed architettura dell'informazione

Scenari - 2

• http://openlibrary.org/authors/OL22022A/Barbara_Cartland

• http://openlibrary.org/authors/OL22022A.rdf

• http://viaf.org/viaf/64003092/#Cartland,_Barbara,_1902-2000

• http://viaf.org/viaf/64003092/rdf.xmlo [dal blog di Karen Koyle, 2011-04-24]

Page 35: Accesso remoto, interfaccia ed architettura dell'informazione

Un identificatore di tipo URI = 1 risorsa identificata e descritta (da tutti riusabile)?

• http://richard.cyganiak.de/2007/10/lod/imagemap.html

• http://www.w3.org/2005/Incubator/lld/wiki/Cluster_BibData

• Ci vuole un Indice (anzi un Sindice)?

Page 36: Accesso remoto, interfaccia ed architettura dell'informazione

Intanto … uso diffuso dei formati di aggregazione

• WARC• MAG• METS• BAGIT

Page 37: Accesso remoto, interfaccia ed architettura dell'informazione

WARC ISO 28500

• Il formato WARC (Web ARChive) mette a disposizione convenzioni per concatenare in un file - anche di grandi dimensioni - risorse digitali anche eterogeneo le risorse digitali sono viste come Bitstream (PREMIS),o ogni Bistream è composto da una intestazione testuale e da un blocco di

dati di lunghezza non predefinita• E' usato nei progetti di archiviazione del web• Deriva dal formato ARC  (Internet Archive) e viene usato per

la raccolta (harvesting) dei siti web.

Page 38: Accesso remoto, interfaccia ed architettura dell'informazione

WARC ISO 28500 - 2

Page 39: Accesso remoto, interfaccia ed architettura dell'informazione

WARC pro e contro

• [p] facilita l'archiviazione di massa in un file system convenzionale (come i contenitori ci aiutano a mettere ordine in un ripostiglio che contiene una rilevante quantità di oggetti di differenti dimensioni)

• [p] ha dato prova di essere scalabile: archiviazione e accesso a grandi quantità di dati per Internet Archive

• [p]  si possono trovare in rete tutti gli strumenti per la gestione di questo tipo di file

• [p] E' uno standard ISO • [c] E' pensato per l'archiviazione dei siti web

Page 40: Accesso remoto, interfaccia ed architettura dell'informazione

MPEG21 DIDL

• MPEG-21 (ISO 21000) è uno standard ISO  che “definisce un insieme di regole per la fornitura e l'uso (comsumption) delle risorse digitali ”

• DIDL = Digital Item Declaration Language per la rappresentazione di oggetti digitali complessi ;o is the part 2 (out of 10) of MPEG-21

Page 41: Accesso remoto, interfaccia ed architettura dell'informazione

MPEG 21 DIDL - 2

• Offre convenzioni per mettere insieme in un file XML dati primari (o dati) e secondari (o metadati)  

• E' un contenitore per aggregazioni omogenee (nel linguaggio PREMIS per archiviare una Representation di una Intellectual entity)

• I dati e metadati possono essere inseriti all'interno del contenitore XML o semplicemente referenziati (in questo caso dentro il file XML troviamo solo indirizzo di tipo URL)

• I dati di tipo binario - se inseriti all'interno del contenitore XML - sono codificati in BASE64 come gli allegati delle nostre mail

Page 42: Accesso remoto, interfaccia ed architettura dell'informazione
Page 43: Accesso remoto, interfaccia ed architettura dell'informazione

MPEG21 DIDL pro e contro

• [p] sintassi XML basata su uno Schema XML • [p] è uno standard per tutte le risorse digitali (non è limitato

alle sole biblioteche) • [p] è uno standard ISO • [p] usato dai sw per IR (Eprints, Dspace ecc)• [c] non ci sono molti strumenti open source per la gestione

dei file DIDL

Page 44: Accesso remoto, interfaccia ed architettura dell'informazione

METS

• METS = Metadata Encoding and Transmission Standard

• Uno Schema  XML per  “codificare metadati  descrittivi, amministrativi e strutturali  relativi a risorse digitali di una biblioteca digitale"

• Mantenuto dalla Library of Congress e sviluppato come una  iniziativa della Digital Library Federation.

Page 45: Accesso remoto, interfaccia ed architettura dell'informazione

METS 2

• Offre convenzioni per mettere insieme in un file XML dati primari (o dati) e secondari (o metadati)  

• E' un contenitore per aggregazioni omogenee (nel linguaggio PREMIS per archiviare una Representation di una Intellectual entity)

• I metadati possono essere inseriti all'interno del contenitore XML o semplicemente referenziati (in questo caso dentro il file XML troviamo solo un indirizzo di tipo URL)

• I dati non possono essere inseriti all'interno del contenitore XML ma devono essere  referenziati (dei dati dentro il file XML troviamo sempre e solo un indirizzo di tipo URL)

Page 46: Accesso remoto, interfaccia ed architettura dell'informazione
Page 47: Accesso remoto, interfaccia ed architettura dell'informazione

METS pro e contro

• [p] sintassi XML basata su uno Schema XML• [p] oggi molto usato (anche da GBS…)• [p] Ci sono molti strumenti open source disponibili

• [c] limitato ai progetti di digitalizzazione

Page 48: Accesso remoto, interfaccia ed architettura dell'informazione

MAG

• Uno Schema  XML per  codificare metadati  descrittivi e gestionali

• un progetto tutto italiano

• Esistono XSLT per la trasformazione da MAG in METS

Page 49: Accesso remoto, interfaccia ed architettura dell'informazione

MAG - 2

• Offre convenzioni per mettere insieme in un file XML dati primari (o dati) e secondari (o metadati)

• E' un contenitore per aggregazioni omogenee (nel linguaggio PREMIS per archiviare una Representation di una Intellectual entity)

• I metadati possono essere inseriti all'interno del contenitore XML o semplicemente referenziati (in questo caso dentro il file XML troviamo solo un indirizzo di tipo URL)

• I dati non possono essere inseriti all'interno del contenitore XML ma devono essere  referenziati (dei dati dentro il file XML troviamo sempre e solo un indirizzo di tipo URL)

Page 50: Accesso remoto, interfaccia ed architettura dell'informazione
Page 51: Accesso remoto, interfaccia ed architettura dell'informazione

MAG pro e contro

• [p] Una risposta a problemi reali (nasce più di 10 anni fa quando METS era ancora agli albori):  … semplice ma applicabile subito

• [c] usato solo in Italia

Page 52: Accesso remoto, interfaccia ed architettura dell'informazione

Bagit

• Specifiche per aggregare risorse digitali al fine di facilitare il trasferimento tra archivi

• Creato dalla Library of Congress –  con la California Digital Library e la Stanford University

• Le risorse sono aggregate per formare un bag comprendente - oltre alle risorse  - anche una etichetta di tipo testuale  (il  tag) che ha lo scopo di facilitare il ricevimento, l'archiviazione e il recupero delle risorse

• E' di solito usato per inviare risorse digitali a un deposito che si fa carico della conservazione

Page 53: Accesso remoto, interfaccia ed architettura dell'informazione
Page 54: Accesso remoto, interfaccia ed architettura dell'informazione

Bagit pro e contro

• [p] Buona diffusione (a partire dalla Library of Congress).• [p] facile da capire e da implementare (in pratica uno zip ...)• [p] molti strumenti disponibili per l'utente • [c] limitata standardizzazione dei metadati 

Page 55: Accesso remoto, interfaccia ed architettura dell'informazione

Per una discussione - 1

• I formati per l'uso delle risorse digitali oggi più diffusi non fanno uso di RDF (e a volte nemmeno di XML)

• Esiste da tempo una buona sperimentazione con soluzioni che spesso si sovrappongono

• Qualche segnale da considerare:o L'acquisizione da parte di Google di Freebaseo 46 milioni di DOI disponibili come Linked data (aprile

2011)o la comparsa di OAI-ORE nei sw per i repository

istituzionali (Eprints, Dspace ecc)

Page 56: Accesso remoto, interfaccia ed architettura dell'informazione

Per una discussione - 2

• l'enorme produzione di open data (anche se non linked)

• la discussione su un  tld .data

• l'emergere di strumenti utili "a prescindere" p. es Google Refine, Google Fusion Tables, SILK, MINT, D3