1
Comprendre et s'approprier les évolutions du catalogage en
bibliothèque Journée d’information
Média Centre-Ouest13 novembre et 6 décembre 2012
Emilie Liard / Véronique LacanSupport élaboré à partir des travaux du groupe national
de formateurs RDA
2
III. Participer au Web de données
… en utilisant les technologies du Web
sémantique
3
Le Web de données ?
• Un Web constitué de données accessibles, structurées, dans un format non-propriétaire, identifiées et liées entre elles sémantiquement(Définition de Tim Berners-Lee dès 1999)
• Objectif : Mettre à disposition des données en utilisant des techniques standardisées qui garantissent l’interopérabilité – Disposer de données utilisables dans des contextes et avec
des systèmes différents sans restriction de conditions d’accès ou de mise en œuvre
4
Architecture du Web (1)
• World Wide Web : toile d’araignée de serveurs d’informations reliés les uns aux autres par des liens physiques (le réseau matériel) et des liens logiques (les liens hypertextes)
• Architecture du Web : infrastructure technologique définie par des standards
• Standardisation de l’architecture du Web assurée par un organisme, le W3C– W3C = World Wide Web Consortium
5
Architecture du Web (2)
• Repose sur 3 technologies :• Un protocole : HTTP (Hypertext Transfer Protocol)• Un langage : HTML (Hypertext Markup Language)
– Standard défini par le W3C pour la diffusion de documents sur le Web pour pouvoir afficher de l'information à l'aide de balises dont le nombre est limité. Il est interprété par le navigateur
• Des identifiants : URI (Uniform Resource Identifier)– Chaîne de caractères normalisée permettant
d'identifier de manière permanente une ressource abstraite ou physique, accessible ou non sur Internet (personne, organisme, lieu, évènement, concept, …)
6
Évolutions du web
• Web 1.0 web de documents– permet aux usagers de naviguer facilement sur
Internet en utilisant des liens hypertexte• une page = un document
– format : HTML (HyperText Markup Language)• ne permet que la mise en forme
• Web 2.0 web collaboratif• Web 3.0 web de données / web sémantique
– permet aux machines de trouver et d’exploiter les données contenues dans les documents
– format : RDF (Resource Description Framework)
7
Limites du Web de documents
• Les données sont cachées sous les pages HTML (Web profond)
• Seules les pages HTML sont liées entre elles• Les pages HTML sont faites pour les humains• Ce que veulent les machines, ce sont des données
• des données liées– car elles se complètent les unes les autres– car les liens permettent de naviguer et de
découvrir• avec des liens qualifiés, signifiants
– au-delà du « voir aussi » des hyperliens
8
Le Web de données
• Extension du Web permettant de relier non pas des documents (pages HTML) mais les données elles-mêmes, et de les rendre exploitables par des machines
• Repose sur les mêmes technologies de base– HTTP : transfert des données – URI : nommage des ressources
• Utilisation d’un autre langage – il ne s’agit plus d’échanger des documents destinés
à être immédiatement visualisés, mais des données structurées
– RDF = langage du Web de données liées
9
RDF
• RDF = Resource Description Framework• Nouveau modèle généraliste et standardisé pour
encoder, échanger et réutiliser des métadonnées structurées
• Proposé en 1999 par le W3C• Permet de décrire simplement des ressources :
document, personne, objet, évènement• Objectif : partager les métadonnées pour des
ressources identiques par l’utilisation d’une syntaxe commune
10
RDF : un modèle conceptuel
Principe de base
– toute chose peut être décrite avec des phrases minimales composées d’un verbe, d’un sujet et d’un complément
déclaration RDF composée de 3 éléments = triplet, représenté sous forme de graphe
Exemple :Honoré de Balzac a écrit "La Comédie humaine"Sujet : Honoré de Balzac RessourceVerbe : a écrit PrédicatComplément : La Comédie humaine Objet
11
RDF : Graphe
La déclaration est représentée visuellement par un graphe (système de nœuds reliés par des flèches) qui permet de parcourir l'information de lien en lien
SUJET OBJET
PREDICAT
Sujet :Honoré de Balzac
Prédicat :A écrit
Objet :La Comédie humaine
12
RDF : modèle de graphe
• L’objet d’un triplet est – Soit une chaîne de caractères (« littéral »)– Soit une ressource qui peut être le sujet ou l’objet
d’autres déclarations• On construit ainsi un modèle de graphe
Sujet :Honoré de Balzac
Prédicat :A écrit
Objet :La Comédie humaine
Sujet : La Comédie humaine
Prédicat :Comprend
Objet :Scènes de la vie privée
13
Formalisme RDF
• Modèle permettant de représenter un nombre considérable de ressources désignées chacune par une URI
• Éclatement de l’information– Des données et pas des « documents »– Plus de souplesse pour manipuler,
sélectionner…
14
RDF : souplesse
• Cadre conceptuel de description des ressources applicable à n’importe quel domaine
• Permet de mélanger les vocabulaires
• Peut être exprimé en utilisant diverses syntaxes
15
RDF : extensibilité
• RDF rend les données extensibles– Plus besoin de tout dire sur une ressource,
une personne, etc.– Possibilité d’établir des liens vers d’autres
sources (en RDF) pour compléter l’information• Recensions, commentaires, etc.• Données commerciales, etc.• Dictionnaires biographiques, etc.
16
Un Web de données …
• Modèle de données : RDF• Langage d’interrogation : SPARQL
Langage de requête sur les graphes RDF permettant de spécifier le type de données recherchées
SPARQL permet d’interroger les données telles qu’on les a modélisées
17
Un Web de données …
• Modèle de données : RDF• Langage d’interrogation : SPARQL
Langage de requête sur les graphes RDF permettant de spécifier le type de données recherchées
SPARQL permet d’interroger les données telles qu’on les a modélisées
18
… et un Web sémantique
• Schéma (ou ontologie) Document formel expliquant les catégories,
leurs relations, avec leur sens, la structure et les contraintes associées
Exemples :• Foaf pour la description d’un profil utilisateur• Dublin Core pour la description (simple) d’une ressource• ISBD pour la description bibliographique
• RDF permet de raisonner sur les données, pour les enrichir ou contrôler leur cohérence
19
Web de données et Web sémantique
• Web de données : possibilité de relier et d’échanger des données au moyen d’URI
• Web sémantique : possibilité d’échanger les schémas des données et la sémantique associée Objectif : permettre aux machines de
comprendre la sémantique, la signification de l’information sur le Web
20
Le Web de données aujourd’hui
21
Et les bibliothèques?
• Que peut nous apporter le Web de données ? Relier les catalogues des bibliothèques avec d’autres
données existantes Ouverture à d’autres communautés (libraires, éditeurs,
…) Navigation par les utilisateurs sans avoir à connaître les
formats des bases de données et les langages de requête spécifiques
Plus de visibilité par les moteurs de recherche Tirer parti des données structurées des catalogues et des
référentiels Interopérabilité Souplesse pour la réutilisation des
données
22
Comment y arriver ?
• Des données structurées• Des vocabulaires normalisés
éléments de métadonnées listes de valeurs
• Des identifiants pérennes (URI) pour désigner les ressources pour exprimer les relations entre les
données• Une syntaxe normalisée : RDF ● RDF = Resource Description Framework
23
Structurer l’information
24
000 cam 22 3 450 001FRBNF42226398000000X003http://catalogue.bnf.fr/ark:/12148/cb42226398b010 $a978-2-603-01444-8$brel.100 $a20100624d2005 m y0frey50 ba1011 $afre102 $aFR105 $a||||z 00|||106 $ar2001 $aGuide des chenilles d'Europe$bTexte imprimé$eles chenilles de plus de 500 espèces de papillons sur 165 plantes hôtes$fD.J. Carter$g[ill.] B. Hargreaves
210 $aParis$cDelachaux et Niestlé$dDL 2005215 $a1 vol. (311 p.)$cill.$d20 cm225 $aLes @guides du naturaliste300 $aBibliogr. p. 301-303410 0$034235813$tLes @Guides du naturaliste$x1022-2707$d2005454 1$tField guide to caterpillars of butterflies and moths in Britain and Europe606 $312000511$aChenilles$311931301$yEurope$311975688$xGuides pratiques et mémentos$2rameau676 $a595.781 39$v22700 1$312013664$aCarter$bDavid$f1943-....$4070702 1$312367696$aHargreaves$bBrian$4440801 0$aFR$bFR-751131015$c20100624$gAFNOR$2intermrc
http://catalogue.bnf.fr/ark:/12148/cb12367696d
http://catalogue.bnf.fr/ark:/12148/cb34235813n
http://catalogue.bnf.fr/ark:/12148/cb120136648
25
http://metadataregistry.org/about.html
Des URI pour exprimer des relations
26
Des URI pour exprimer les relations
ISBD : has title proper
DC : Creator
DC : Title
RDA : Authorhttp://rdvocab.info/roles/author
http://purl.org/dc/elements/1.1/title
http://purl.org/dc/elements/1.1/creator
http://iflastandards.info/ns/isbd/elements/P1004 RDA : Title proper
http://rdvocab.info/Elements/titleProper
2727
Les bibliothèques dans le web de données aujourd'hui
28
http://richard.cyganiak.de/2007/10/lod/lod-datasets_2011-09-19_colored.html
10/11/2012
FondsCalames
Auteur IdRef
LivreSudoc
Thèsetheses.fr
AuteurVIAF
AuteurBnF
AuteurWikipedia
AuteurISNI
Aujourd’hui
owl:sameAs
owl:sameAs
Yann Nicolas, Le Web de données, enssib, 11 octobre 2012
Exemple Charles Darwin : http://www.idref.fr/026812304 http://data.bnf.fr/11898689/charles_darwin/http://viaf.org/viaf/27063124
10/11/2012
FondsCalames
Auteur IdRef
LivreSudoc
Thèsetheses.fr
AuteurVIAF
AuteurBnF
AuteurWikipedia
AuteurISNI
Demain
owl:sameAs
Yann Nicolas, Le Web de données, enssib, 11 octobre 2012
10/11/2012
FondsCalames
Auteur IdRef
LivreSudoc
Thèsetheses.fr
AuteurVIAF
AuteurBnF
AuteurWikipedia
AuteurISNI
Après-demain peut-être ?
owl:sameAs
owl:sameAs
AuteurHAL CCSD
ArticleHAL CCSD
LivreWorldcat
cite
a pourdérivé
owl:sameAs
Donnéesbrutes
+ brevets, projets ANR, etc.
+ CrossRef, revues, indicateurs d’usage, etc.
+ articles, éditions scientifiques, numérisation, etc.
Yann Nicolas, Le Web de données, enssib, 11 octobre 2012
32
Y aller … avec pertinence
• Pour utiliser la boîte à outils du Web sémantique, il faut Identifier les données Construire un réseau de relations entre ces
données
• Le modèle FRBR va permettre d’analyser les relations entre les données au sein des catalogues de bibliothèques