27
Matinée Open Data, Montpellier, 28 Nov 2013 1 Publication et intégration de données ouvertes François Scharffe LIRMM, UM2 Gazouillez #lechatpito #datalift

Publication et intégration de données ouvertes

Embed Size (px)

DESCRIPTION

 

Citation preview

Page 1: Publication et intégration de données ouvertes

Matinée Open Data, Montpellier, 28 Nov 2013 1

Publication et intégration de données ouvertes

François ScharffeLIRMM, UM2

Gazouillez #lechatpito #datalift

Page 2: Publication et intégration de données ouvertes

Matinée Open Data, Montpellier, 28 Nov 2013 2

Qu’est-ce qu’une donnée ouverte ?

• Une donnée accessible sur le web sous une licence ouverte.

• Notre contexte est plus large:

– Données accessibles sous condition

– Licences de différents types

Page 3: Publication et intégration de données ouvertes

Matinée Open Data, Montpellier, 28 Nov 2013 3

Données Ouvertes

• Un sujet très à la mode …● Motion du G8 pour l’ouverture et la transparence des données

● Directives de l’UE (Open Data, Inspire)

● Etalab et data.gouv.fr

● Open Data France

• … qui amène de nouvelles problématiques● Sous quel(s) format(s) publier les données ?

● De quelle façon y accéder ?

● Différents niveaux d’ouverture ?

● respect de la vie privée, etc

Page 4: Publication et intégration de données ouvertes

Matinée Open Data, Montpellier, 28 Nov 2013 4

Partons en voyage...

Page 5: Publication et intégration de données ouvertes

Matinée Open Data, Montpellier, 28 Nov 2013 5

Problème de planning

Page 6: Publication et intégration de données ouvertes

Matinée Open Data, Montpellier, 28 Nov 2013 6

Problème de planning

Page 7: Publication et intégration de données ouvertes

Matinée Open Data, Montpellier, 28 Nov 2013 7

Une situation insuffisamment satisfaisante pour la valorisation de vos données

Oblige les développeurs à :

Ø Analyser à chaque fois la sémantique de vos données : qu'est-ce que veut dire ce champ “nom” ? signifie-t-il la même chose que dans cet autre jeu de données ?

Ø Découvrir par eux-mêmes les relations entre vos données et d'autres données

Ø Gérer des formats hétérogènes pour croiser des données : CSV pour tel jeu de données, XLS pour tel autre, SHP pour ce dernier

Ø Gérer des méthodes d'accès hétérogènes pour accéder aux données : APIs propriétaires différentes

De votre côté :

Ø Temps passé à développer des APIs

Ø Difficulté à faire adapter des applications existantes à vos données

Page 8: Publication et intégration de données ouvertes

Matinée Open Data, Montpellier, 28 Nov 2013 8

Ø Un système d'identifiants global : les URIs

● chaque donnée ou métadonnée est identifiée de manière non ambigue : http://dbpedia.org/resource/Paris est la ville de Paris en France ; pas de risque de confusion avec Paris au Texas ou avec les paris sportifs

Ø Un format unique, RDF : un modèle de données simple pour décrire vos données, extensif à l'infini

Ø La standardisation de la sémantique de vos données, à travers des propriétés et des “vocabulaires” réutilisables : par ex. vous n'avez pas à réinventer pas la propriété “auteur” qui est déjà définie ailleurs

Ø Un protocole d'acccès uniforme : HTTP, SPARQL

● SPARQL est l'API unique, normalisée, du web sémantique (ressemble à SQL)

Le Web sémantique comme solution

Page 9: Publication et intégration de données ouvertes

Matinée Open Data, Montpellier, 28 Nov 2013 9

Datalif

De données brutes ouvertesà des données sémantiques

interconnectées

Page 10: Publication et intégration de données ouvertes

Matinée Open Data, Montpellier, 28 Nov 2013 10

Datalift

Plateforme logicielle pour assister la publication de données

Publication de jeux de données

R&D pour automatiser le processus de publication

Formations, tutoriels, camps de publication de données

Page 11: Publication et intégration de données ouvertes

Matinée Open Data, Montpellier, 28 Nov 2013 11

Le processus d'élévation

Page 12: Publication et intégration de données ouvertes

Matinée Open Data, Montpellier, 28 Nov 2013 12

Le processus de publicationDBPedia IGN

Ontologie du service public

Accès HTTP Interrogation en SPARQL

INSEE

Conversion XML → RDF

Conversion RDF → RDFOntologie

géographique

Page 13: Publication et intégration de données ouvertes

Matinée Open Data, Montpellier, 28 Nov 2013 13

Ø Qu’est-ce qu’un (bon) vocabulaire pour des données liées?

§ Critères d’utilisabilité

§ Simplicité, visibilité, pérennité, intégration, cohérence …

Ø Différents types de vocabulaires

§ De métadonnées, de référence, de domaine, généraliste …

§ Les piliers du Linked Data : Dublin Core, FOAF, SKOS

Ø Bonnes et moins bonnes pratiques

§ Ex : Programmes BBC vs legislation.gov.uk

§ Vocabulary of a Friend : les vocabulaires en réseau

Ø Problèmes linguistiques

§ Les vocabulaires existants sont en anglais à 99%

§ Approche terminologique : quels vocabulaires pour « Evénement » « Organisation »

sélection

Page 14: Publication et intégration de données ouvertes

Matinée Open Data, Montpellier, 28 Nov 2013 14

conversionØGuide des bonnes pratiques pour les données liées:

§ La ressource: http://id.insee.fr/geo/commune/75056

– Le document: http://www.insee.fr/geo/commune/75056

– Les données: http://rdf.insee.fr/geo/commune/75056

Page 15: Publication et intégration de données ouvertes

Matinée Open Data, Montpellier, 28 Nov 2013 15

conversionØGuide des bonnes pratiques pour les données liées:

§ La ressource: http://id.insee.fr/geo/commune/75056

– Le document: http://www.insee.fr/geo/commune/75056

– Les données: http://rdf.insee.fr/geo/commune/75056

Page 16: Publication et intégration de données ouvertes

Matinée Open Data, Montpellier, 28 Nov 2013 16

Managing licenses and access rights on published data

Page 17: Publication et intégration de données ouvertes

SemWebPro 18/01/2011 17Tim Berners Lee,

http://www.w3.org/DesignIssues/LinkedData.html

publication§ Utiliser le format RDF§ Utiliser des URI pour nommer les choses§ Utiliser des URI HTTP (URL) pour pouvoir leur demander des informations§ Donner des informations (HTML, RDF) quand les liens sont dé-référencés§ Inclure dans ces infos les URIs pointant vers d'autres données pour

permettre la découverte

Page 18: Publication et intégration de données ouvertes

SemWebPro 18/01/2011 18

Interconnexion

§ Comment identifier les jeux de données à lier ?

§ Comment trouver les resourceséquivalentes ?

Dépasser l'hétérogénéité des données

Page 19: Publication et intégration de données ouvertes

Matinée Open Data, Montpellier, 28 Nov 2013 19

Et plus ...

● Gestion des droits d'accès aux données à échelle variable

● Gestion des licences, licences composites● Une API web de données pour Androïd● Des patrons configuration pour visualiser les

données● ...

Page 20: Publication et intégration de données ouvertes

Matinée Open Data, Montpellier, 28 Nov 2013 20

La plateforme Datalift

● Architecture modulaire● Supporte le processus de publication● Documentée : installation, utilisation,

développement● Sécurisée● Open-source● Exécutables pour Windows, OSX, Linux

Page 21: Publication et intégration de données ouvertes

Matinée Open Data, Montpellier, 28 Nov 2013 21

La plateforme Datalift

Page 22: Publication et intégration de données ouvertes

Matinée Open Data, Montpellier, 28 Nov 2013 22

Quelques jeux de données

Page 23: Publication et intégration de données ouvertes

Matinée Open Data, Montpellier, 28 Nov 2013 23

Datalift Platform

Page 24: Publication et intégration de données ouvertes

Matinée Open Data, Montpellier, 28 Nov 2013 24

Page 25: Publication et intégration de données ouvertes

Matinée Open Data, Montpellier, 28 Nov 2013 25

Page 26: Publication et intégration de données ouvertes

Matinée Open Data, Montpellier, 28 Nov 2013 26

Page 27: Publication et intégration de données ouvertes

Matinée Open Data, Montpellier, 28 Nov 2013 27

DAT

ALIF

T

En route vers le web de données