32
Participer au Web de données … en utilisant les technologies du Web sémantique

Participer au Web de données

  • Upload
    forbes

  • View
    44

  • Download
    0

Embed Size (px)

DESCRIPTION

Participer au Web de données. … en utilisant les technologies du Web sémantique. Architecture du Web. World Wide Web : toile d’araignée de serveurs d’informations reliés les uns aux autres par des liens physiques (le réseau matériel) et des liens logiques (les liens hypertextes) - PowerPoint PPT Presentation

Citation preview

Participer au Web de données

… en utilisant les technologies du Web sémantique

Architecture du Web

• World Wide Web : toile d’araignée de serveurs d’informations reliés les uns aux autres par des liens physiques (le réseau matériel) et des liens logiques (les liens hypertextes)

• Architecture du Web : infrastructure technologique définie par des standards

• Standardisation de l’architecture du Web assurée par un organisme, le W3C (World Wide Web Consortium)

– Accessibilité aux contenus et aux machines

Comment fonctionne le Web ?Un espace global d’information :réseau de machines reliées entre elles

Un espace global d’information :réseau de machines reliées entre elles

Un protocole qui permet le dialogue entre machines :

Un protocole qui permet le dialogue entre machines :

Un langageuniversel

Un langageuniversel

httphttp

Le principe de l’hypertexte pour relier les ressources

Le principe de l’hypertexte pour relier les ressources

Des identifiants Web, les URI (Uniform resource identifier)

Les URL sont des URI qui identifient les ressources et les localisent sur Internet

Des identifiants Web, les URI (Uniform resource identifier)

Les URL sont des URI qui identifient les ressources et les localisent sur Internet

URIURI

Évolutions du web

• Web 1.0 web de documents– Navigation d’un document à un autre en

utilisant des liens hypertexte• une page HTML = la représentation d’un document• Le navigateur n’interprète pas le contenu du

document

• Web 2.0 web collaboratif

Le Web de documents

Base de données

Données Documents

Base de données

Hyperlien

Yann Nicolas, Le Web de données, enssib, 11 octobre 2012

Limites du Web de documents

• Les données structurées des BDD sont • soit cachées (« web profond »)• Soit présentes mais non interprétables par

des machines

• Seules les pages HTML sont liées entre elles

• Les données de différentes BDD ne sont pas liées entre elles

« Il faut sortir les données des Bases de données pour les mettre dans l’espace global du Web » Tim Berners-Lee

« Il faut sortir les données des Bases de données pour les mettre dans l’espace global du Web » Tim Berners-Lee

Métadonnées et données structurées

• Méta-données : Données « sur » d’autres données– Par exemple une notice en Unimarc : un ensemble de

métadonnées

• Les métadonnées sont des données structurées (interprétables par des machines)– Par exemple une notice en Unimarc est un ensemble

de données structurées• Métadonnées Définition : informations structurées qui

décrivent, expliquent, localisent, facilitent la gestion d’une ressource d’information

Le Web de données ?• Un Web constitué de données accessibles, structurées, dans un format

non-propriétaire, identifiées et liées entre elles sémantiquement

(Définition de Tim Berners-Lee dès 1999)• Web sémantique

– Ensemble de standards et de technologies visant à faire entrer les données structurées dans l’environnement du Web en adoptant les principes, l’architecture et les techniques qui ont permis la construction de cet espace d’interopérabilité globale qu’est la toile aujourd’hui (E Bermès et G Poupeau, 2012)

• Web de données– extension du Web, construite selon les technologies du Web

sémantique, permettant de relier non pas des documents (pages HTML) mais les données elles-mêmes et de les rendre interprétables par les machines

Le Web de données liées

Base de données

Données Documents

Base de données

Hyperlien

Yann Nicolas, Le Web de données, enssib, 11 octobre 2012

Liens entre les bases de données

BNF

SUDOC

Ce qu’on veutCe qu’on veut

Technologies du Web sémantiquedes identifiants

des identifiants

URIURI

Une grammaireUne grammaire

RDFRDF

Des Vocabulaires(ontologies)

Des Vocabulaires(ontologies)

Exprimés en RDFS ou OWL

Exprimés en RDFS ou OWL

Un langage de requête dédié pour communiquer

Un langage de requête dédié pour communiquer

SPARQLSPARQLDes systèmes d’écriture

Des systèmes d’écriture

RDF/XMLN3, Turtle, N-triplesRDFa

RDF/XMLN3, Turtle, N-triplesRDFa

RDFResource Description FrameworkResource Description Framework

Objectif : assurer l’interopérabilité des données sur le Web

Objectif : assurer l’interopérabilité des données sur le Web

Objectif : permettre aux machines d’interpréter la nature des relations entre deux ressources du Web

Objectif : permettre aux machines d’interpréter la nature des relations entre deux ressources du Web

Triplet RDF

En RDF, toute information doit être exprimée sous la forme d’une phrase simple :

sujet – prédicat – objet

Qu’on appelle triplet

Triplet RDF

En RDF, toute information doit être exprimée sous la forme d’une phrase simple :

sujet – prédicat – objet

Qu’on appelle triplet

prédicatprédicatsujetsujet objetobjet

Ressource

(entité)

URI

Ressource

(entité)

URI

Ressource Nature de la

relation

URI

Ressource Nature de la

relation

URI

Littéral :

Chiffre, date, mot …

Littéral :

Chiffre, date, mot …

Ressource

(entité)

URI

Ressource

(entité)

URI

Charles Darwin A écrit  On the origins of species

Charles Darwin A écrit  On the origins of species

RDFResource Description FrameworkResource Description Framework

prédicatprédicatsujetsujet objetobjet

Appartient à une classe

Appartient à une classe

Est un type de relation appelé

propriété

Est un type de relation appelé

propriété

Classes et propriétés sont déclarées dans des vocabulaires (ontologies) et sont identifiées par des URI

Classes et propriétés sont déclarées dans des vocabulaires (ontologies) et sont identifiées par des URI

Charles Darwin A écrit On the origins of speciesCharles Darwin A écrit On the origins of species

Charles Darwin est une instance de la classe « personne »

L’objet « On the origins of species » peut être un littéral ou une entité, instance de la classe « œuvres » identifiée par son URI

Charles Darwin est une instance de la classe « personne »

L’objet « On the origins of species » peut être un littéral ou une entité, instance de la classe « œuvres » identifiée par son URI

prédicatprédicatsujetsujet objetobjet

Charles DarwinCharles Darwin Est né àEst né à

Une même ressource peut être sujet, prédicat ou objet dans plusieurs triplets. L’ensemble de ces triplets reliés les uns aux autres par les URI qu’ils ont en commun constitue un graphe

Une même ressource peut être sujet, prédicat ou objet dans plusieurs triplets. L’ensemble de ces triplets reliés les uns aux autres par les URI qu’ils ont en commun constitue un graphe

Le graphe RDFLe graphe RDF

Shrewsbury Shrewsbury

Fait partie deFait partie de

AngleterreAngleterre

Le grand voyage de C. Darwin (film)

Le grand voyage de C. Darwin (film)

Hannes Schuler Hannes Schuler

A pour sujetA pour sujet

A réalisé

A réalisé

Le Web de données aujourd’hui (linking open data cloud)

• Espace global et ouvert d’information, sans cesse grossissant, dans lequel les bases et données sont liées entre elles en RDF

Principe:

Utilisation d’URI accessibles via HTTP

Donner accès aux données utiles via RDF et Sparql

Principe:

Utilisation d’URI accessibles via HTTP

Donner accès aux données utiles via RDF et Sparql

Construction du Web de données

Partage d’un référentiel communModèle « hub and spoke »

SUDOC

BnF

LC

2 modèles

d’interopérabilité2 modèles

d’interopérabilité

Modèles d’interopérabilité du Web de données

Modèle « follow your nose”Interopérabilité basée sur les liens

Quand les géants du Web utilisent les technologies du Web de

données …

Open graph protocol

knowledge graph

Google : knowledge graph

Facebook : Open graph protocol

Open graph protocol

Que peut apporter le Web de données aux bibliothèques?

Interopérabilité :Le Web devient une gigantesque base de données liées et ouvertes

Interopérabilité :Le Web devient une gigantesque base de données liées et ouvertes

Ouverture à d’autres communautés d’utilisateurs

Ouverture à d’autres communautés d’utilisateurs

Réutiliser les données des autres : enrichir les catalogues, pousser des contenus

Réutiliser les données des autres : enrichir les catalogues, pousser des contenus

Visibilité par les moteurs de recherche

Visibilité par les moteurs de recherche

Mettre nos données à disposition des autres

Mettre nos données à disposition des autres

Comment y arriver ?Des données structuréesDes données structurées Des vocabulaires normalisésDes vocabulaires normalisés

Des identifiants pérennes : URIpour désigner les ressourcespour exprimer les relations entre les données

Des identifiants pérennes : URIpour désigner les ressourcespour exprimer les relations entre les données

Une syntaxe normalisée : RDF

Une syntaxe normalisée : RDF

Des données structurées

000 cam 22 3 450 001FRBNF42226398000000X003http://catalogue.bnf.fr/ark:/12148/cb42226398b010 $a978-2-603-01444-8$brel.100 $a20100624d2005 m y0frey50 ba1011 $afre102 $aFR105 $a||||z 00|||106 $ar2001 $aGuide des chenilles d'Europe$bTexte imprimé$eles chenilles de plus de 500 espèces de papillons sur 165 plantes hôtes$fD.J. Carter$g[ill.] B. Hargreaves 210 $aParis$cDelachaux et Niestlé$dDL 2005215 $a1 vol. (311 p.)$cill.$d20 cm2252 $aˆLes ‰guides du naturaliste300 $aBibliogr. p. 301-303410 0$034235813$tˆLes ‰Guides du naturaliste$x1022-2707$d2005454 1$tField guide to caterpillars of butterflies and moths in Britain and Europe606 $312000511$aChenilles$311931301$yEurope$311975688$xGuides pratiques et mémentos$2rameau676 $a595.781 39$v22700 1$312013664$aCarter$bDavid$f1943-....$4070702 1$312367696$aHargreaves$bBrian$4440801 0$aFR$bFR-751131015$c20100624$gAFNOR$2intermrc

http://catalogue.bnf.fr/ark:/12148/cb12367696d

http://catalogue.bnf.fr/ark:/12148/cb34235813n

http://catalogue.bnf.fr/ark:/12148/cb120136648

Des URI pour désigner les ressources

http://catalogue.bnf.fr/ark:/12148/cb42226398b

Guide des chenilles d'Europe / D.J. Carter ; [ill.] B. Hargreaves. - Paris : Delachaux et Niestlé, DL 2005

Carter, David (1943-....)

http://catalogue.bnf.fr/ark:/12148/cb120136648

http://catalogue.bnf.fr/ark:/12148/cb34235813n

Les Guides du naturaliste

Hargreaves, Brian

http://catalogue.bnf.fr/ark:/12148/cb12367696d

Des vocabulaires normalisés

Pour exprimer les relations entre les données

2001 $aGuide des chenilles d'Europe

700 1$312013664$aCarter$bDavid$f1943-.... $4070

200 $a Titre propre

700 $4070 Auteur du texteDC : Creator RDA : Creator

DC : Title ISBD : Title properRDA : Title proper

RDA : Author

Des URI pour exprimer les relations (1)

Des URI pour exprimer les relations (2)

ISBD : has title proper

DC : Creator

DC : Title

RDA : Authorhttp://rdvocab.info/roles/author  

http://purl.org/dc/elements/1.1/title

http://purl.org/dc/elements/1.1/creator

http://iflastandards.info/ns/isbd/elements/P1004

RDA : Title proper http://rdvocab.info/Elements/titleProper

Une syntaxe normalisée

Cette ressource

"Guide des chenilles d'Europe"a pour titre propre

sujet

verbecomplément d’objet

http://catalogue.bnf.fr/ark:/12148/cb42226398b

"Guide des chenilles d’Europe"

http://iflastandards.info/ns/isbd/elements/P1004

prédicat

objet

sujet

Le sujet est toujours une URI

Le prédicat est toujours une URI

L’objet peut êtreun texte (« littéral »)ou une URI

200 $aGuide des chenilles d'Europe

Sujet

Prédicat

objet

Sujet

Prédicat

objet

Un réseau de relations entre des données

http://catalogue.bnf.fr/ark:/12148/cb42226398b

"Guide des chenilles d’Europe"

http://catalogue.bnf.fr/ark:/12148/cb34235813n

http://catalogue.bnf.fr/ark:/12148/cb120136648

"Carter"

"David"

1943

"Les Guides du naturaliste"

http://data.bnf.fr/what-happened/date-1943

http://iflastandards.info/ns/isbd/elements/P1004

A pour titre propre

http://rdvocab.info/RDARelationshipsWEMI/containedInManifestation

Appartient à

http://iflastandards.info/ns/isbd/elements/P1033 A pour titre clé

http://xmlns.com/foaf/0.1/familyName A pour patronyme

http://xmlns.com/foaf/0.1/givenName A pour prénom

http://rdvocab.info/ElementsGr2/dateOfBirth

A pour date de naissance

http://rdvocab.info/roles/author  

A pour auteur

Des exemples

• Isidore : http://www.rechercheisidore.fr– Plateforme de recherche permettant

l’accès aux données numériques en sciences humaines et sociales

– Données en accès libre (open access)– Moissonnage ciblé des métadonnées – Conversion et enrichissement des

métadonnées en RDF