Upload
catherine-roussey
View
163
Download
0
Embed Size (px)
DESCRIPTION
Présentation faite lors d'une réunion du projet animitex à montpellier en aôut 2014. Cette présentation introduit certains formats du web sémantique en particulier ceux accessible sur le web de données . Ensuite les travaux de Fabien Amarger sur la transformation de SKOS en ontologies OWL sont survollés.
Citation preview
www.irstea.fr
Pour mieux affirmer ses missions, le Cemagref devient Irstea
Catherine ROUSSEY
Projet Animitex
28 aout 2014, Montpellier
Ontologies, Web de Données et SKOS Transformation
Merci à
Fabien Amarger
Fabien Gandon
2
Plan
• Définitions de base: de l’Ontologie aux ontologies• Données Information Connaissances
• Interopérabilité et ontologies• Format et standard du web sémantique• Ontologie linguistique système de recherche d’information
• Exemple SKOS
• Ontologie de données web de données • Exemple RDFS, OWL
• Ontologie Logique…
3
Définitions:DONNÉES, INFORMATIONS, CONNAISSANCES
Donnée: un élément d’information,
percevable,
manipulable
Information: donnée +
sens + contexte
type
Connaissance: information +
stabilité + croyance
abstraction + traitement
généralisation d’un ensemble d’information = modèle
toujours propre à une personne
partagée avec d’autres personnes
4
Schéma généralDONNÉES, INFORMATIONS, CONNAISSANCES
Données
Information
Connaissances
Perception
Sens dans un contexte
Résultat d’un processus d’apprentissage: une généralisation d’un ensemble d’information que l’on va mémoriser
Données
Données typées
Classes en POODescription sous forme d’attribut (description quantitative & qualitative ) + méthodes (traitements)
Connaissances en IADes traitement particuliers sur les données qualitatives
Différent niveau de granularité : information structurée non structurées
BD Relationnelle Données fortement structurées optimisées pour le stockage
5
DéfinitionONTOLOGIE
Ontologie avec un O majuscule (philosophie):
Une science: une branche de la métaphysique qui a pour objectif l’étude de l’être, c'est-à-dire l'étude des propriétés générales de tout ce qui est…
Ontologies au pluriel avec un o minuscule (informatique):
Outils informatiques
résultat d’une modélisation d’un domaine d’étude
défini pour un objectif donné
acceptée par une communauté d’utilisateurs
…
6
Ontologies …
Gruber 1993 : « une ontologie est une spécification explicite d’une conceptualisation »
• Conceptualisation: modèle abstrait du domaine: quelles entités?• Spécification explicite: les types et leurs contraintes d’usage sont définis
dans un langage…
Exemples:• Un thésaurus : vocabulaire normalisé• Un schéma de BD : un modèle structuré d'un domaine• Un système expert : un modèle du domaine formalisé pour les
inférences, des conditions exprimées à l'aide de formules logiques
Ontologie linguistique, ressource termino-ontologique, ontologie de domaine, ontologie de haut niveau, vocabulaire de métadonnées…
Thomas R. Gruber. “A translation approach to portable ontology specifications”, Knowledge Acquisition, Volume 5, Issue 2, June 1993, Pages 199–220
7
Différent niveau d’Intéropérabilité
7 Increasing Interoperability Capability
Incr
easi
ng
Kn
ow
led
ge
Lexical Interoperability
DataInteroperability
ObjectInteroperability
ListThesaurus
Taxonomy
Conceptual Model
Logical Theory
Controlled VocabularyGlossary
UML
DB SchemaXML Schema
ER Model
OWL
Description Logic
Lexical DatabaseRDF
SKOS
DataOntology
LogicalOntology
TerminologicalOntology
8
Web sémantique, ontologies, web de données
World Wide Web Consortium (W3C)
Credit Benjamin Nowak
9
Syntaxe de base du web sémantiqueRDF: RESOURCE DESCRIPTION FRAMEWORK
is a triple model i.e. every piece of knowledge is broken down into
( subject , predicate , object )
RDF
Credit Fabien GANDON
10 http://inria.fr/~fabien#me
http://inria.fr/schema#author http://inria.fr/rr/doc.html
http://inria.fr/schema#theme
"Music"
1
0
Credit Fabien GANDON
11<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"xmlns:inria="http://inria.fr/schema#" >
<rdf:Description rdf:about="http://inria.fr/rr/doc.html"> <inria:author rdf:resource= "http://inria.fr/~fabien#me" />
<inria:theme>Music</inria:theme> </rdf:Description>
</rdf:RDF>
1
1
Credit Fabien GANDON
12
Les composants des ontologies
Concept / Class
Term
Object/Instance
Relation
hasLabel
Property
Semantic Relation
Object Relation
Linguistic Relation
Textual DefinitionLogical Definition
isInstanceOf
hasArgument
hasName hasArgument
hasArgument
hasN
ame
hasName
*
*
*
1
** 11
* *
**
1
*
13
Ontologie linguistique/terminologique
Concept/ Class
Term
Object/Instance
Relation
hasLabel
Property
Semantic Relation
Object Relation
Linguistic Relation
Textual DefinitionLogical Definition
isInstanceOf
hasArgument
hasName hasArgument
hasArgument
hasN
ame
hasName
*
*
*
1
** 11
* *
**
1
*
14
Problème de l’interopérabilité lexicale
Le même terme est utilisé pour représenter différents objets
Le même objet est référencé par des termes différents
Credit Fabien GANDON
15
A relatively large natural stream of
water
1
5
rivière
fleuve
river
rio
A relatively large natural stream of
water
Water course
Una corriente relativamente larga
corriente de agua natural
Cours d’eau naturel de moyenne ou de faible importance, qui en
principe n’aboutit pas directement à la mer
Cours d’eau naturel généralement important
(plus spécialement lorsque ce cours d’eau se jette
dans la mer)
16
A relatively large natural stream of
water
1
6
rivière
fleuve
river
rio
A relatively large natural stream of
water
Water course
Una corriente relativamente larga
corriente de agua natural
Cours d’eau naturel de moyenne ou de faible importance, qui en
principe n’aboutit pas directement à la mer
Cours d’eau naturel généralement important
(plus spécialement lorsque ce cours d’eau se jette
dans la mer)
17
1
7
18
Système de Recherche d’Information
Matching
Document
index and user query
1
2
3
Multilingual Corpora
QueryOrdered list of documents
Terminological Ontology
Information Retrieval System
indexing
19
Système de Recherche sur le web
mapping
annotation
annotation
Query
Results
annotation
annotation
20
Format des ontologies terminologiquesSKOS: SIMPLE KNOWLEDGE ORGANIZATION SYSTEM
Credit http://www.w3.org/2004/02/skos/intro
21
Ontologie de données
*
Concept / Class
Term
Object/Instance
Relation
hasLabel
Property
Semantic Relation
Object Relation
Linguistic Relation
Textual DefinitionLogical Definition
isInstanceOf
hasArgument
hasName hasArgument
hasArgument
hasN
ame
hasName
*
*
1
** 11
* *
**
1
*
*
22
Exemple d’ontologie de donnéesLE DICTIONNAIRE AGRICOLE GIEEA
23
Intéropérabilité de donnéesLES FORMATS D’ÉCHANGE DE DONNÉES (SCHÉMA XML)
Blue data
Blue system
Green data
Green system
Reddata
Red system
24
Intéropérabilité de donnéesLE WEB DE DONNÉES OU LINKED DATA
An extension of the current Web…
… where data are given well-defined and explicitly represented meaning, …
… so that it can be shared and used by humans and machines, ...
... better enabling them to work in cooperation
And clear principles on how to publish data
25
Les ontologies dans le web de données
Une ontologie contient un vocabulaire et un schéma de données:• consensuels, • publiés sur le web et documentés• formalisés avec des standards du web (RDF, OWL, SPARQL)• Avec des contraintes en DL (conditions nécessaires et/ou suffisantes)
= un schéma de données pour le web de données
26
The Linking Open Data cloud
26
Credit Bill ROBERTS
Credit Linking Open Data cloud diagram, by Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net/
27
Format des ontologies de donnéesRDF SCHEMA
define classes and relations of resources and organize their hierarchy
define signatures of relations (domain, range)
document them with labels and comments
define associated inference rules
Credit Fabien Gandon #12
#21
#47 #48
"document"
"book"
"livre"
"novel"
"roman"
"short story"
"nouvelle"
28
29
Format des ontologies de donnéesOWL WEB ONTOLOGY LANGUAGE
OWL is based on Description Logics
The logical theory (model) can be define using different knowledge representation Languages:
Description Logics, Frames, Conceptual Graphs
OWL Profiles
EL: large numbers of properties and/or classes and polynomial time.
QL: large volumes of instance data, and conjunctive query answering using conventional relational database in LOGSPACE
RL: scalable reasoning without sacrificing too much expressive power using rule-based reasoning in polynomial time
Credit Fabien Gandon
30
Ou trouver des ontologies ?
SWOOGLE
http://swoogle.umbc.edu/
Watson http://watson.kmi.open.ac.uk/WatsonWUI/
LOV Linked Open Vocabularyhttp://lov.okfn.org/dataset/lov/
W3C groups http://www.w3.org/Consortium/activities
Credit Fabien Gandon
www.irstea.fr
Pour mieux affirmer ses missions, le Cemagref devient Irstea
C. Roussey J.P. Chanet (Irstea)
N. Hernandez O. Haemmerlé (IRIT)
Thèse de Fabien Amargerconstruction d’ontologies agricoles …
32
Plan
Motivation
Cas d’étude : projet sur les BSV
Interrogation avec SWIP
Thème de la thèse
Comment construire des ontologies à partir de sources non ontologiques
Etat de l’art:
Méthodologie Néon
Transformation SKOS
Notre proposition
Ontology Design Pattern
Multiplier les Sources
Calculer la confiance des éléments + filtrage
33
Motivations
• Volonté d’aider les agriculteurs à diminuer l’usage des produits phytosanitaires
• Augmentation du nombre de données dans le domaine de l’agriculture• Bulletins de Santé du Végétal• thésaurus AGROVOC• base de données publique e-phy• etc.
• Volonté de contribuer au Linked Open Data (LOD)• Interrogation de l’ontologie par requête en langage naturel (projet
SWIP)
• Méthodologie de construction d’ontologies à partir de divers sources• Interrogation intelligente des informations collectées
34
Credit Fabien Amarger
35
Cas d'étude: Bulletin de Sante du Végétal (BSV)
Bulletin d’alerte français contient des observations sur le développement des cultures et les risques d’attaques de leurs agresseurs
BSV distribués sur le web au format pdf
BSV hétérogènes: Différents auteurs, Différents style de présentation, Différents contenus (texte structuré, tableau, image)
Aider la recherche d'information dans ces BSV + reconstruire des données d'observation des cultures documentées par les BSV
Comment faciliter la recherche des BSV ?
Trouver les BSV qui correspondent à un besoin
Identifier la partie des BSV intéressante
Un système de Recherche d’Information ?
36
Processus d'Interrogation SWIP de l'IRITSEMANTIC WEB INTERFACE USING PATTERN
Interprétation de la requête en langage
naturel
Ontologie + triplets
RDF
Requête exprimée en langage naturel
Requête exprimée en langage pivot
Liste de requêtes formelles classées
Patrons
Formalisation de la requête en langage pivot
phrases explicatives
Interrogation en français d’une base de triplets RDF
Credit Camille Pradel
37
Le Système d'Interrogation
SWIP
pdf Internet Archive
url
Annotation Triple store RDF
Stockage
Interrogation
ModélisationOntologies
annotations
38
Cas d'étude: Annotations des BSVPROCESSUS ITÉRATIFS D'ANNOTATION
Ontologies agricoles
1) Reformater les BSV
2) Tenir compte de la structure des textes pour déduire des données utiles
Annotation complexes=•Attaque d'un type de culture•Par un bio-agresseur•Quand•Où•A quel niveau de risque
outil d'extraction d'information
BD d'annotations = ontologie peuplée d'observations des culturesAnnotations
RDF
39
Etat de l’art: méthodologie Néon
40
Etat de l’Art
• Processus incrémentale: Utilisation que d’une seule source• Possibilité d’extraction :• Classes• Relations non nommées• Intuition de relation de subsomption (rdfs:subClassOf)
• Techniques de désambiguïsation• Contraignantes ou pas suffisantes
• Validation peu existante• Validation de la conceptualisation manuelle• Validation structurelle automatique
Méthodologie de construction d’ontologie exploitant lamultiplication des sources d’informations disponibles et dirigée par des patrons de conceptions (Ontology Design Pattern)
41
Transformation automatique d’un SKOS EXAMPLE AGROVOC
42
Transformation automatique d’un SKOS RÉSULTAT SUR AGROVOC
43
Proposition
Hypothèses générales
• Chaque source est modelisée en fonction de son usage • Besoin de remodeliser• Toutes les sources n’ont pas la même qualité• La présence de la même information dans plusieurs sources implique
une augmentation de la confiance attribuée à cette information
Motivations• Construire des ontologies modulaires, Ontologie de domaine de haut
niveau centrée sur une fonctionnalité• Premier cas d’étude module sur la taxonomie agricole• Enrichissement de module AgronomicTaxon
44
PropositionADAPTATION DE DEUX SCÉNARII DE NÉON
45
Irstea Agronomic TaxonDESIGN PATTERN ONTOLOGIQUES (ODP)
Il existe déjà des ODP en lien avec l'agriculture
• FAO (projet Neon): isPestOf, LinneanTaxonomy
• Données observations des espèces disponibles sur le Web de données :Geospecies ontology, TaxonConcept, …
Fusion, intégration et enrichissement de ces ODP
Pour répondre à nos besoins.• Méthode de développement d’
ontologies à partir d’ODP
46
Irstea Agronomic TaxonDESIGN PATTERN ONTOLOGIQUES (ODP)
47
Proposition
Schéma générale de la méthode
48
PropositionTRANSFORMATION AUTOMATIQUE DIRIGÉE PAR LE MODULE
49
Transformation du thésaurus Agrovoc
SKOS original
50
Example Agrovoc
51
PropositionKB MERGING
52
Expérimentation
3 sources de bonne qualité:
Thésaurus Agrovoc
Classification TaxRef
Classification NCBI
Construction d’un gold standard à partir de la validation de 3 agronomes INRA et Irstea.
Extraction des instances F measure > 0.74 très bonne précision
Extraction des relations à améliorer F measure < 0,45
53
Conclusion et Perspectives
Extraction de classes, de labels, de relation d'instanciation
Besoin de définir un modèle d’annotations spatio-temporelles des observations
Construction d’une ontologie modulaire : 1 module créé / 5
Des spécifications du workflow d’annotation en devenir
more on googlesite agriontology
54
Réutilisation de sources agricoles
Sources agricoles: Thésaurus (Agrovoc) ou classification TaxRef, NCBI Extraire des données de chaque source et les agréger en suivant les ODPConstruction d'ontologies modulaires