View
217
Download
0
Category
Preview:
Citation preview
Les catalogues au défi du Web :
sensibilisation à FRBR, RDA , Web
sémantique et Web de données
Bibliest
12 février 2013 : Dijon
13 février : Besançon Thierry Clavel
Version adaptée des supports développés
par le groupe technique AFNOR « RDA en France »
Programme
1. Les enjeux
Evolution des pratiques des utilisateurs
Enjeux liés au Web
2. Participer au Web de données
Architecture du Web
Web sémantique
3. Modèles FRBR et FRAD
Notion de modèle conceptuel
FRBR : entités, attributs et relations
FRAD : notions sur le modèle
4. Présentation de RDA
Objectifs et Organisation générale
Cataloguer avec RDA
Scénarios d'implémentation
Limites de RDA
Autour de RDA
RDA en France
I. - Les enjeux
ou
Pourquoi vouloir tout changer
quand tout allait si bien ?...
Les catalogues de bibliothèques, monde
merveilleux ?
On a déjà des normes de catalogage (ISBD, AFNOR…)
des formats MARC pour saisir et récupérer des
notices…
Des SIGB qui fonctionnent…
Des OPAC et des catalogues
collectifs accessibles sur le Web…
Alors, pourquoi vouloir changer ?
Mais d’abord, est ce que nos
catalogues conviennent aux
usagers?
1 – changer pour l’usager
Source : Sylvain Machefert
Source : Sylvain Machefert
1 - changer pour L’usager
L’usager est avant tout un internaute :
Il veut tout et tout de suite
Il veut des contenus précis (un article, une chanson, etc.)
Il recherche en priorité sur le Web (et pas spécialement dans des
catalogues)
Il consulte les catalogues en recherche simple à la « google »
Il faut donc :
Faire évoluer nos catalogues pour les adapter à l’usager
Ils ramènent trop de réponses (bruit) sans les classer
Il faut structurer les résultats de recherche pour afficher des
réponses pertinentes
Aller vers l’usager
Pousser les contenus et les données des bibliothèques vers les
usagers/internautes donc sur le Web
Exemple extrait de Data.bnf
Autre exemple
catalogue collectif ciné-ressources
http://www.cineressources.net/recherche_t.php
« Super » Notice
d'autorité
« nom de personne »
C'est pas merveilleux,
Cette page de résultats ?!
Pourquoi Les catalogues de bibliothèques ne sont
ils pas visibles sur le Web ?
Le Web ne parle pas MARC
Le Web a ses propres normes
Et surtout …
2 – changer pour être sur le
Web
http://www.flickr.com/photos/markhillary/377
4707075/
http://www.flickr.com/photos/7590540
4@N00/5088208539/
Les catalogues sont dans
le Web profond
Les catalogues de bibliothèques sont
dans des bases de données (silos) qui ne
sont pas indexées par les moteurs de
recherche
2 - Changer pour être sur le Web
Pourquoi adopter les standards du Web sémantique ?
pour sortir du Web profond et de notre « niche » technologique
des formats MARC
pour évoluer avec le Web
pour que la maintenance
de nos catalogues coûte moins cher
3 - Changer pour rationaliser et enrichir le travail
de catalogage
Récupérer des données produites ailleurs
Par exemple les biographies de Wikipedia
pour les auteurs
Ne pas avoir à répéter les mêmes informations
Réutiliser les données du catalogue
Par exemple : l’indexation matière
Indexation matière
dans le SUDOC :
Une indexation-matière
recréée pour chaque notice
4- Changer pour que nos données soient
réutilisées
créer des « Données liées ouvertes »
Eclater nos notices en données réutilisables
pour que n’importe qui puisse réutiliser
n’importe lesquelles de nos données
de n’importe quelle manière
Quels outils pour le changement ?
Un code de catalogage
Des modèles conceptuels pour
Structurer l’information
bibliographique
Des Technologies et
normes garantissant
l’Interopérabilité du Web
de données
Un espace global d’information, ouvert, qui
permet de lier, exploiter, mettre à disposition,
réutiliser les données sur le Web
Web de données
II. Participer
au Web de données
… en utilisant les technologies du Web
sémantique
Architecture du Web
World Wide Web : toile d’araignée de serveurs d’informations reliés les uns aux autres par des liens physiques (le réseau matériel) et des liens logiques (les liens hypertextes)
Architecture du Web : infrastructure technologique définie par des standards
Standardisation de l’architecture du Web assurée par un organisme, le W3C (World Wide Web Consortium)
Accessibilité aux contenus et aux machines
Comment fonctionne le Web ?
Un espace global
d’information :
réseau de
machines reliées
entre elles
Un protocole qui
permet le dialogue
entre machines :
Un langage
universel
http
Le principe de
l’hypertexte
pour relier les
ressources
Des identifiants Web, les URI
(Uniform resource identifier)
Les URL sont des URI qui
identifient les ressources et les
localisent sur Internet
URI
Évolutions du web
Web 1.0 web de documents
Navigation d’un document à un autre en utilisant des
liens hypertexte
une page HTML = la représentation d’un document
Le navigateur n’interprète pas le contenu du
document
Web 2.0 web collaboratif
Le Web de documents
Base de
données
Données Documents
Base de
données
Hyperlien
Yann Nicolas, Le Web de données, enssib, 11 octobre 2012
Limites du Web de documents
Les données structurées des BDD sont
soit cachées (« web profond »)
Soit présentes mais non interprétables par
des machines
Seules les pages HTML sont liées entre elles
Les données de différentes BDD ne sont pas
liées entre elles
« Il faut sortir les données des Bases de
données pour les mettre dans l’espace
global du Web » Tim Berners-Lee
Métadonnées et données structurées
Méta-données : Données « sur » d’autres données
Par exemple une notice en Unimarc : un ensemble de
métadonnées
Les métadonnées sont des données structurées
(interprétables par des machines)
Par exemple une notice en Unimarc est un ensemble
de données structurées
Métadonnées Définition : informations structurées qui
décrivent, expliquent, localisent, facilitent la gestion
d’une ressource d’information
Le Web de données ?
Un Web constitué de données accessibles, structurées,
dans un format non-propriétaire, identifiées et liées entre
elles sémantiquement
(Définition de Tim Berners-Lee dès 1999)
Web sémantique
Ensemble de standards et de technologies visant à faire entrer les
données structurées dans l’environnement du Web en adoptant les
principes, l’architecture et les techniques qui ont permis la
construction de cet espace d’interopérabilité globale qu’est la toile
aujourd’hui (E Bermès et G Poupeau, 2012)
Web de données
extension du Web, construite selon les technologies du Web
sémantique, permettant de relier non pas des documents (pages
HTML) mais les données elles-mêmes et de les rendre interprétables
par les machines
Le Web de données liées
Base de
données
Données Documents
Base de
données
Hyperlien
Yann Nicolas, Le Web de données, enssib, 11 octobre 2012
Liens entre les
bases de
données
BNF
SUDOC
Ce qu’on veut
Technologies du Web sémantique
des
identifiants
URI
Une grammaire
RDF
Des Vocabulaires
(ontologies)
Exprimés en
RDFS ou OWL
Un langage de
requête dédié
pour
communiquer
SPARQL Des
systèmes
d’écriture
RDF/XML
N3, Turtle, N-
triples
RDFa
RDF
Resource Description Framework
Objectif : assurer
l’interopérabilité des
données sur le Web
Objectif : permettre
aux machines
d’interpréter la nature
des relations entre
deux ressources du
Web
Triplet RDF
En RDF, toute information
doit être exprimée sous la
forme d’une phrase simple
:
sujet – prédicat – objet
Qu’on appelle triplet
prédicat sujet objet
Ressource
(entité)
URI
Ressource
Nature de la
relation
URI
Littéral :
Chiffre, date,
mot …
Ressource
(entité)
URI
Charles Darwin A écrit On the origins of
species
RDF
Resource Description Framework
prédicat sujet objet
Appartient
à une
classe
Est un type de
relation appelé
propriété
Classes et propriétés sont
déclarées dans des vocabulaires
(ontologies) et sont identifiées par
des URI
Charles Darwin A écrit On the origins of species
Charles Darwin est une instance de la classe
« personne »
L’objet « On the origins of species » peut être un
littéral ou une entité, instance de la classe
« œuvres » identifiée par son URI
prédicat
sujet objet
Charles Darwin Est né à
Une même ressource peut être
sujet, prédicat ou objet dans
plusieurs triplets. L’ensemble de
ces triplets reliés les uns aux
autres par les URI qu’ils ont en
commun constitue un graphe
Le graphe RDF
Shrewsbury
Fait partie de
Angleterre
Le grand voyage de C.
Darwin (film)
Hannes Schuler
A pour sujet
A
réalisé
Le Web de données aujourd’hui (linking open
data cloud)
Espace global et ouvert d’information, sans cesse grossissant, dans
lequel les bases et données sont liées entre elles en RDF
Principe:
Utilisation d’URI
accessibles via HTTP
Donner accès aux
données utiles via RDF et
Sparql
Construction du Web de données
Partage d’un référentiel
commun
Modèle « hub and spoke »
SUDO
C BnF
LC
Modèles d’interopérabilité du Web de données
Modèle « follow your nose”
Interopérabilité basée sur les
liens
Quand les géants du Web utilisent les
technologies du Web de données …
Open graph protocol
knowledge graph
Google : knowledge graph
Facebook : Open graph protocol
Open graph protocol
Que peut apporter le Web de données
aux bibliothèques?
Interopérabilité :
Le Web devient
une gigantesque
base de données
liées et ouvertes
Ouverture à
d’autres
communautés
d’utilisateurs
Réutiliser les
données des autres :
enrichir les
catalogues, pousser
des contenus
Visibilité par les
moteurs de
recherche
Mettre nos données
à disposition des
autres
Comment y arriver ?
Des données structurées Des vocabulaires normalisés
Des identifiants pérennes : URI
pour désigner les ressources
pour exprimer les relations
entre les données
Une syntaxe normalisée :
RDF
Des données structurées
000 cam 22 3 450
001FRBNF42226398000000X
003http://catalogue.bnf.fr/ark:/12148/cb42226398b
010 $a978-2-603-01444-8$brel.
100 $a20100624d2005 m y0frey50 ba
1011 $afre
102 $aFR
105 $a||||z 00|||
106 $ar
2001 $aGuide des chenilles d'Europe$bTexte imprimé$eles chenilles de plus de
500 espèces de papillons sur 165 plantes hôtes$fD.J. Carter$g[ill.] B. Hargreaves
210 $aParis$cDelachaux et Niestlé$dDL 2005
215 $a1 vol. (311 p.)$cill.$d20 cm
2252 $aˆLes ‰guides du naturaliste
300 $aBibliogr. p. 301-303
410 0$034235813$tˆLes ‰Guides du naturaliste$x1022-2707$d2005
454 1$tField guide to caterpillars of butterflies and moths in Britain and Europe
606 $312000511$aChenilles$311931301$yEurope$311975688$xGuides pratiques
et mémentos$2rameau
676 $a595.781 39$v22
700 1$312013664$aCarter$bDavid$f1943-....$4070
702 1$312367696$aHargreaves$bBrian$4440
801 0$aFR$bFR-751131015$c20100624$gAFNOR$2intermrc http://catalogue.bnf.fr/ark:/12148/cb12367696d
http://catalogue.bnf.fr/ark:/12148/cb34235813n
http://catalogue.bnf.fr/ark:/12148/cb120136648
Des URI pour désigner les ressources
http://catalogue.bnf.fr/ark:/12148/cb42226398b
Guide des chenilles d'Europe / D.J. Carter ; [ill.] B. Hargreaves
. - Paris : Delachaux et Niestlé, DL 2005
Carter, David (1943-....)
http://catalogue.bnf.fr/ark:/12148/cb120136648
http://catalogue.bnf.fr/ark:/12148/cb34235813n
Les Guides du naturaliste
Hargreaves, Brian
http://catalogue.bnf.fr/ark:/12148/cb12367696d
Des vocabulaires normalisés
Pour exprimer les relations entre les données
2001 $aGuide des chenilles d'Europe
700 1$312013664$aCarter$bDavid$f1943-.... $4070
200 $a Titre propre
700 $4070 Auteur du texte DC : Creator RDA : Creator
DC : Title ISBD : Title proper RDA : Title proper
RDA : Author
Des URI pour exprimer les relations (1)
Des URI pour exprimer les relations (2)
ISBD : has title proper
DC : Creator
DC : Title
RDA : Author http://rdvocab.info/roles/author
http://purl.org/dc/elements/1.1/title
http://purl.org/dc/elements/1.1/creator
http://iflastandards.info/ns/isbd/elements/P1004
RDA : Title proper http://rdvocab.info/Elements/titleProper
Une syntaxe normalisée
Cette ressource
"Guide des chenilles d'Europe"
a pour titre propre
sujet
verbe
complément d’objet
http://catalogue.bnf.fr/ark:/12148/cb42226398b
"Guide des chenilles d’Europe"
http://iflastandards.info/ns/isbd/elements/P1004
prédicat
objet
sujet
Le sujet est
toujours une URI
Le prédicat est
toujours une URI
L’objet peut être
un texte (« littéral »)
ou une URI
200 $aGuide des chenilles d'Europe
Sujet
Prédicat
objet
Un réseau
de relations entre des données
http://catalogue.bnf.fr/ark:/12148/cb42226398b
"Guide des chenilles d’Europe"
http://catalogue.bnf.fr/ark:/12148/cb34235813n
http://catalogue.bnf.fr/ark:/12148/cb120136648
"Carter"
"David"
1943
"Les Guides du naturaliste"
http://data.bnf.fr/what-happened/date-1943
http://xmlns.com/foaf/0.1/givenName
A pour prénom
Des exemples
Isidore : http://www.rechercheisidore.fr
Plateforme de recherche permettant l’accès
aux données numériques en sciences
humaines et sociales
Données en accès libre (open access)
Moissonnage ciblé des métadonnées
Conversion et enrichissement des
métadonnées en RDF
Des exemples
Data.bnf.fr : http://data.bnf.fr
Application en RDF
200 000 Pages auteurs et oeuvres
« mash up » de différents contenus BnF et
extérieurs
Recommended