Une introduction au web de données

Preview:

DESCRIPTION

 

Citation preview

Une  introduc,on    au  web  de  données  

Vers  une  infrastructure  pour    la  valorisa,on  des  archives  ?      

Pierre-­‐Antoine  Champin  Yannick  Prié  

LIRIS  –  UMR  5205  CNRS    Université  Claude  Bernard  Lyon  1  

Plan  

•  Principes  • Mise  en  œuvre  

•  Applica,ons  

Plan  

•  Principes  • Mise  en  œuvre  

•  Applica,ons  

La  vision  du  web  séman,que  

•  Passer  d’un  web…  – Lisible  par  les  humains  

– Affichable  par  les  machines  

– «  Devinable  »  par  les  machines  

hUp://www.w3.org/2004/Talks/0120-­‐semweb-­‐umich/  

La  vision  du  web  séman,que  

•  …  à  d’un  web  – Lisible  par  les  humains  

– Affichable  par  les  machines  

– Manipulable  par  les  machines  

hUp://www.w3.org/2004/Talks/0120-­‐semweb-­‐umich/  

Manipulable  par  les  machines  ?  

•  Calculs,  requêtes  – Schémas,  vocabulaires  

→  Web  de  données  

•  Inférences,  raisonnement  – Ontologies,  règles…  →  Web  Séman-que  

Vers  le  Web  de  données    

Vers  le  Web  de  données    

Vers  le  Web  de  données    

Vers  le  Web  de  données    

Vers  le  Web  de  données    

Vers  le  Web  de  données    

Plan  

•  Principes  • Mise  en  œuvre  

•  Applica,ons  

Principes  du  Web  de  données  liées  

•  Iden,fica,on  uniforme  des  objets  d’intérêt  – URL  /  URI  

•  Récupéra,on  uniforme  de  données  – HTTP  – RDF  

•  Hyperliens  entre  objets  d’intérêt  

No,on  d’URL/URI  

•  Un  URL/URI  iden-fie  une  ressource  – mon  CV,  la  ville  de  Lyon,  Albert  Jacquard…  

•  Le  Web  de  documents  donne  accès  à  des  représenta,ons  de  ces  ressources  – Mon  CV  au  format  PDF  

– La  page  web  de  la  ville  de  Lyon  – L’ar,cle  Wikipedia  sur  Albert  Jacquard  

No,on  de  triplet  

•  Expression  d’une  rela,on  entre  deux  ressources  –  Lyon  est  le  lieu  de  naissance  d’Albert  Jacquard  

•  Représentable  graphiquement  :  

AlbertJacquard  Lyon  

LieuDeNaissanceDe  

•  Les deux ressources et la relation (tous les objets d’intérêt) sont identifiés par un URI

•  On exprime donc cette information par un triplet d’URIs •  http://dbpedia.org/resource/Lyon •  http://dbpedia.org/ontology/birthPlace •  http://dbpedia.org/resource/AlbertJacquard

Graphe  de  triplets  

•  On  fusionne  les  nœuds  portant  le  même  URI  puisqu’ils  iden,fient  le  même  objet  

dbpedia:Albert_Jacquard  dbpedia:Lyon  

dbpedia-­‐owl:birthPlaceOf    

«  Lyon  »  dbpedia:Lyon  

rdfs:label  

category:French_gene,cists  dbpedia:Albert_Jacquard  

skos:subject  

Graphe  de  triplets  

•  On  fusionne  les  nœuds  portant  le  même  URI  puisqu’ils  iden,fient  le  même  objet  

dbpedia:Albert_Jacquard  dbpedia:Lyon  

dbpedia-­‐owl:birthPlaceOf    

«  Lyon  »  

rdfs:label  

category:French_gene,cists  skos:subject  

Graphe  de  triplets  

hUp://relfinder.dbpedia.org/relfinder.html  

SPARQL  

•  Langage  de  requête  pour  trouver  des  informa,ons  dans  un  graphe  

•  Exemple  :  «  Trouver  les  personnes  nées  à  Lyon  pendant  les  années  20  ?  ,  avec  le  cas  échéant  leur  date  de  décès.  »  

?  p   1920  <=  ?bd  <  1930  

dbpedia-­‐owl:birthPlace    

?  dd  

Lyon  

dbpedia-­‐owl:birthDate  

dbpedia-­‐owl:deathDate    

hUp://,nyurl.com/2dcsokd  

Source  d’informa,on,    provenance,  confiance  

•  Agréger  des  données  provenant  de  plusieurs  sources  nécessite  de  pouvoir  –  tracer  la  provenance  des  informa,ons  

– exclure  /  favoriser  certaines  sources  – qualifier  la  qualité  du  résultat  final  

•  Exemple  d’applica,on  u,lisant  la  no,on  de  provenance  :  – hUp://sig.ma/  

Schémas  et  ontologies  

•  RDF  définit  une  syntaxe  permeUant  de  décrire  des  graphes  de  données  

•  Il  faut  également  pouvoir  définir  le(s)  lexique(s)  qui  vont  servir  à  peupler  ces  graphes  de  données  

•  Plusieurs  standards  complémentaires  – SKOS  (thesaurii)  – RDF-­‐Schema  (schémas,  ontologies  simples)  

– OWL  (ontologies  riches)  

SKOS  

•  Simple  Knowledge  Organiza,on  System  

•  hUp://www.w3.org/2004/02/skos/  •  Descrip,on  de  thesaurii  – Concepts,  rela,ons  séman,ques  et  associa,ves  

– Documenta,on  (libellé,  notes)  –  Interopérabilité  (alignement  de  thesaurii)  

•  Pas  de  séman,que  formelle  associée  aux  concepts  eux  mêmes  

RDF-­‐Schema  

•  hUp://www.w3.org/TR/rdf-­‐schema/  

•  Hiérarchie  de  classes  et  de  rela,ons  – tout  CV  est  un  Document,  toute  Personne  est  un  Agent  

– tout  auteur  est  un  contributeur  •  Domaine  et  portée  des  rela,ons  – «  contributeur  »  relie  un  Document  à  un  Agent  

•  Permet  quelques  inférences  – l’auteur  d’un  CV  est  forcément  un  Agent  

Exemple  RDF  Schema  

Niveau  des    schémas  

Niveau    métadonnées  

Niveau  des    ressources  web  

contraignent  

décrivent  

Document   Agent  contributeur  

CV  

hUp://…/cv.html  

hUp://  ….  /  pageperso.html  

range  domain  

subclass  

type  type  

auteur  

auteur  

subproperty  

OWL  

•  Web  Ontology  Language  

•  hUp://www.w3.org/2004/OWL/  •  Séman,que  plus  riche  pour  permeUre  plus  d’inférence  –  tout  Document  ayant  plusieurs  auteurs  est  un  DocumentCollec,f  

– deux  Personnes  auteurs  d’un  même  Document  sont  en  rela,on  «  co-­‐auteur  »  

•  Héritage  IA,  logique  formelle  

Quelques  schémas  et  ontologies  

•  DC  (Dublin  core)    – méta-­‐données  de  documents  – hUp://dublincore.org/  

•  FOAF  (Friend  of  a  friend)    – personnes  et  réseaux  sociaux  – hUp://www.foaf-­‐project.org/  

•  SIOC  (Seman,cally  Interlinked  Online  Communi,es)    – sites  web  collabora,fs  – hUp://sioc-­‐project.org/  

•  Plus  de  vocabulaires  :  – hUp://www.schemaweb.info/  

Plan  

•  Principes  • Mise  en  œuvre  

•  Applica,ons  

Le  Web  de  données  en  mars  2009  

hUp://linkeddata.org/  

Europeana  

•  Exemple  avec  naviga,on  dans  le  thésaurus  SKOS  de  europeana.  – hUp://eculture.cs.vu.nl/europeana/session/search  

Le  Web  de  données  en  2010  

•  Es,ma,on  de  Chris  Bizer  à  LDOW  2010  :  – 13  milliards  de  triplets  (informa,on  élémentaire)  – 150  million  de  liens  

•  Facebook  lance  OpenGraph  – hUp://opengraphprotocol.org/  – Annota,on  séman,que  de  n’importe  quelle  page,  pour  offrir  les  mêmes  fonc,onalités  qu’une  “page  Facebook”  

– U,lisant  les  standards  du  Web  de  données  (RDFa)  

Conclusion  (1)  

•  Le  web  de  données  est  en  croissance  (très)  forte  depuis  quelques  mois    

Conclusion  (2)  

•  Que  doit  faire  une  ins,tu,on  pour  aller  sur  le  web  de  données  ?  – Exposer  ses  données  en  RDF  • Annota,on  des  documents  

• Adapta,on  des  données  brutes  – U,liser  les  données  des  autres    • Lier  • Croiser  les  informa,ons  

• Construire  des  mashups  

Ques,ons  ?  

Pointeurs  

•  Standards  :  – hUp://www.w3.org/standards/seman,cweb/  

•  Sources  de  données  :  – hUp://dbpedia.org/  

•  Ou,ls  de  visualisa,on,  requêtage  :    – hUp://sindice.com/  

– hUp://sameas.org/  

Exemple  de  requête  SPARQL  

SELECT  ?p,  ?dd  WHERE  {      ?p              dbpedia-­‐owl:birthPlace    :Lyon  ;              dbpedia-­‐owl:birthDate  ?bd  .  

   OPTIONAL  {  ?p  dbpedia-­‐owl:deathDate  ?dd    }  

   FILTER  (?bd  >=  "1920"^^xsd:date                &&  ?bd  <    "1930"^^xsd:date)  }  

hUp://,nyurl.com/2dcsokd  

Recommended