Upload
francois-scharffe
View
531
Download
0
Embed Size (px)
DESCRIPTION
Citation preview
Matinée Open Data, Montpellier, 28 Nov 2013 1
Publication et intégration de données ouvertes
François ScharffeLIRMM, UM2
Gazouillez #lechatpito #datalift
Matinée Open Data, Montpellier, 28 Nov 2013 2
Qu’est-ce qu’une donnée ouverte ?
• Une donnée accessible sur le web sous une licence ouverte.
• Notre contexte est plus large:
– Données accessibles sous condition
– Licences de différents types
Matinée Open Data, Montpellier, 28 Nov 2013 3
Données Ouvertes
• Un sujet très à la mode …● Motion du G8 pour l’ouverture et la transparence des données
● Directives de l’UE (Open Data, Inspire)
● Etalab et data.gouv.fr
● Open Data France
• … qui amène de nouvelles problématiques● Sous quel(s) format(s) publier les données ?
● De quelle façon y accéder ?
● Différents niveaux d’ouverture ?
● respect de la vie privée, etc
Matinée Open Data, Montpellier, 28 Nov 2013 4
Partons en voyage...
Matinée Open Data, Montpellier, 28 Nov 2013 5
Problème de planning
Matinée Open Data, Montpellier, 28 Nov 2013 6
Problème de planning
Matinée Open Data, Montpellier, 28 Nov 2013 7
Une situation insuffisamment satisfaisante pour la valorisation de vos données
Oblige les développeurs à :
Ø Analyser à chaque fois la sémantique de vos données : qu'est-ce que veut dire ce champ “nom” ? signifie-t-il la même chose que dans cet autre jeu de données ?
Ø Découvrir par eux-mêmes les relations entre vos données et d'autres données
Ø Gérer des formats hétérogènes pour croiser des données : CSV pour tel jeu de données, XLS pour tel autre, SHP pour ce dernier
Ø Gérer des méthodes d'accès hétérogènes pour accéder aux données : APIs propriétaires différentes
De votre côté :
Ø Temps passé à développer des APIs
Ø Difficulté à faire adapter des applications existantes à vos données
Matinée Open Data, Montpellier, 28 Nov 2013 8
Ø Un système d'identifiants global : les URIs
● chaque donnée ou métadonnée est identifiée de manière non ambigue : http://dbpedia.org/resource/Paris est la ville de Paris en France ; pas de risque de confusion avec Paris au Texas ou avec les paris sportifs
Ø Un format unique, RDF : un modèle de données simple pour décrire vos données, extensif à l'infini
Ø La standardisation de la sémantique de vos données, à travers des propriétés et des “vocabulaires” réutilisables : par ex. vous n'avez pas à réinventer pas la propriété “auteur” qui est déjà définie ailleurs
Ø Un protocole d'acccès uniforme : HTTP, SPARQL
● SPARQL est l'API unique, normalisée, du web sémantique (ressemble à SQL)
Le Web sémantique comme solution
Matinée Open Data, Montpellier, 28 Nov 2013 9
Datalif
De données brutes ouvertesà des données sémantiques
interconnectées
Matinée Open Data, Montpellier, 28 Nov 2013 10
Datalift
Plateforme logicielle pour assister la publication de données
Publication de jeux de données
R&D pour automatiser le processus de publication
Formations, tutoriels, camps de publication de données
Matinée Open Data, Montpellier, 28 Nov 2013 11
Le processus d'élévation
Matinée Open Data, Montpellier, 28 Nov 2013 12
Le processus de publicationDBPedia IGN
Ontologie du service public
Accès HTTP Interrogation en SPARQL
INSEE
Conversion XML → RDF
Conversion RDF → RDFOntologie
géographique
Matinée Open Data, Montpellier, 28 Nov 2013 13
Ø Qu’est-ce qu’un (bon) vocabulaire pour des données liées?
§ Critères d’utilisabilité
§ Simplicité, visibilité, pérennité, intégration, cohérence …
Ø Différents types de vocabulaires
§ De métadonnées, de référence, de domaine, généraliste …
§ Les piliers du Linked Data : Dublin Core, FOAF, SKOS
Ø Bonnes et moins bonnes pratiques
§ Ex : Programmes BBC vs legislation.gov.uk
§ Vocabulary of a Friend : les vocabulaires en réseau
Ø Problèmes linguistiques
§ Les vocabulaires existants sont en anglais à 99%
§ Approche terminologique : quels vocabulaires pour « Evénement » « Organisation »
sélection
Matinée Open Data, Montpellier, 28 Nov 2013 14
conversionØGuide des bonnes pratiques pour les données liées:
§ La ressource: http://id.insee.fr/geo/commune/75056
– Le document: http://www.insee.fr/geo/commune/75056
– Les données: http://rdf.insee.fr/geo/commune/75056
Matinée Open Data, Montpellier, 28 Nov 2013 15
conversionØGuide des bonnes pratiques pour les données liées:
§ La ressource: http://id.insee.fr/geo/commune/75056
– Le document: http://www.insee.fr/geo/commune/75056
– Les données: http://rdf.insee.fr/geo/commune/75056
Matinée Open Data, Montpellier, 28 Nov 2013 16
Managing licenses and access rights on published data
SemWebPro 18/01/2011 17Tim Berners Lee,
http://www.w3.org/DesignIssues/LinkedData.html
publication§ Utiliser le format RDF§ Utiliser des URI pour nommer les choses§ Utiliser des URI HTTP (URL) pour pouvoir leur demander des informations§ Donner des informations (HTML, RDF) quand les liens sont dé-référencés§ Inclure dans ces infos les URIs pointant vers d'autres données pour
permettre la découverte
SemWebPro 18/01/2011 18
Interconnexion
§ Comment identifier les jeux de données à lier ?
§ Comment trouver les resourceséquivalentes ?
Dépasser l'hétérogénéité des données
Matinée Open Data, Montpellier, 28 Nov 2013 19
Et plus ...
● Gestion des droits d'accès aux données à échelle variable
● Gestion des licences, licences composites● Une API web de données pour Androïd● Des patrons configuration pour visualiser les
données● ...
Matinée Open Data, Montpellier, 28 Nov 2013 20
La plateforme Datalift
● Architecture modulaire● Supporte le processus de publication● Documentée : installation, utilisation,
développement● Sécurisée● Open-source● Exécutables pour Windows, OSX, Linux
Matinée Open Data, Montpellier, 28 Nov 2013 21
La plateforme Datalift
Matinée Open Data, Montpellier, 28 Nov 2013 22
Quelques jeux de données
Matinée Open Data, Montpellier, 28 Nov 2013 23
Datalift Platform
Matinée Open Data, Montpellier, 28 Nov 2013 24
Matinée Open Data, Montpellier, 28 Nov 2013 25
Matinée Open Data, Montpellier, 28 Nov 2013 26
Matinée Open Data, Montpellier, 28 Nov 2013 27
DAT
ALIF
T
En route vers le web de données