54
www.irstea .fr Pour mieux affirmer ses missions, le Cemagref devient Irstea Catherine ROUSSEY Projet Animitex 28 aout 2014, Montpellier Ontologies, Web de Données et SKOS Transformation Merci à Fabien Amarger Fabien Gandon

Skos transformation

Embed Size (px)

DESCRIPTION

Présentation faite lors d'une réunion du projet animitex à montpellier en aôut 2014. Cette présentation introduit certains formats du web sémantique en particulier ceux accessible sur le web de données . Ensuite les travaux de Fabien Amarger sur la transformation de SKOS en ontologies OWL sont survollés.

Citation preview

Page 1: Skos transformation

www.irstea.fr

Pour mieux affirmer ses missions, le Cemagref devient Irstea

Catherine ROUSSEY

Projet Animitex

28 aout 2014, Montpellier

Ontologies, Web de Données et SKOS Transformation

Merci à

Fabien Amarger

Fabien Gandon

Page 2: Skos transformation

2

Plan

• Définitions de base: de l’Ontologie aux ontologies• Données Information Connaissances

• Interopérabilité et ontologies• Format et standard du web sémantique• Ontologie linguistique système de recherche d’information

• Exemple SKOS

• Ontologie de données web de données • Exemple RDFS, OWL

• Ontologie Logique…

Page 3: Skos transformation

3

Définitions:DONNÉES, INFORMATIONS, CONNAISSANCES

Donnée: un élément d’information,

percevable,

manipulable

Information: donnée +

sens + contexte

type

Connaissance: information +

stabilité + croyance

abstraction + traitement

généralisation d’un ensemble d’information = modèle

toujours propre à une personne

partagée avec d’autres personnes

Page 4: Skos transformation

4

Schéma généralDONNÉES, INFORMATIONS, CONNAISSANCES

Données

Information

Connaissances

Perception

Sens dans un contexte

Résultat d’un processus d’apprentissage: une généralisation d’un ensemble d’information que l’on va mémoriser

Données

Données typées

Classes en POODescription sous forme d’attribut (description quantitative & qualitative ) + méthodes (traitements)

Connaissances en IADes traitement particuliers sur les données qualitatives

Différent niveau de granularité : information structurée non structurées

BD Relationnelle Données fortement structurées optimisées pour le stockage

Page 5: Skos transformation

5

DéfinitionONTOLOGIE

Ontologie avec un O majuscule (philosophie):

Une science: une branche de la métaphysique qui a pour objectif l’étude de l’être, c'est-à-dire l'étude des propriétés générales de tout ce qui est…

Ontologies au pluriel avec un o minuscule (informatique):

Outils informatiques

résultat d’une modélisation d’un domaine d’étude

défini pour un objectif donné

acceptée par une communauté d’utilisateurs

Page 6: Skos transformation

6

Ontologies …

Gruber 1993 : « une ontologie est une spécification explicite d’une conceptualisation »

• Conceptualisation: modèle abstrait du domaine: quelles entités?• Spécification explicite: les types et leurs contraintes d’usage sont définis

dans un langage…

Exemples:• Un thésaurus : vocabulaire normalisé• Un schéma de BD : un modèle structuré d'un domaine• Un système expert : un modèle du domaine formalisé pour les

inférences, des conditions exprimées à l'aide de formules logiques

Ontologie linguistique, ressource termino-ontologique, ontologie de domaine, ontologie de haut niveau, vocabulaire de métadonnées…

Thomas R. Gruber. “A translation approach to portable ontology specifications”, Knowledge Acquisition, Volume 5, Issue 2, June 1993, Pages 199–220

Page 7: Skos transformation

7

Différent niveau d’Intéropérabilité

7 Increasing Interoperability Capability

Incr

easi

ng

Kn

ow

led

ge

Lexical Interoperability

DataInteroperability

ObjectInteroperability

ListThesaurus

Taxonomy

Conceptual Model

Logical Theory

Controlled VocabularyGlossary

UML

DB SchemaXML Schema

ER Model

OWL

Description Logic

Lexical DatabaseRDF

SKOS

DataOntology

LogicalOntology

TerminologicalOntology

Page 8: Skos transformation

8

Web sémantique, ontologies, web de données

World Wide Web Consortium (W3C)

Credit Benjamin Nowak

Page 9: Skos transformation

9

Syntaxe de base du web sémantiqueRDF: RESOURCE DESCRIPTION FRAMEWORK

is a triple model i.e. every piece of knowledge is broken down into

( subject , predicate , object )

RDF

Credit Fabien GANDON

Page 10: Skos transformation

10 http://inria.fr/~fabien#me

http://inria.fr/schema#author http://inria.fr/rr/doc.html

http://inria.fr/schema#theme

"Music"

1

0

Credit Fabien GANDON

Page 11: Skos transformation

11<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"xmlns:inria="http://inria.fr/schema#" >

<rdf:Description rdf:about="http://inria.fr/rr/doc.html"> <inria:author rdf:resource= "http://inria.fr/~fabien#me" />

<inria:theme>Music</inria:theme> </rdf:Description>

</rdf:RDF>

1

1

Credit Fabien GANDON

Page 12: Skos transformation

12

Les composants des ontologies

Concept / Class

Term

Object/Instance

Relation

hasLabel

Property

Semantic Relation

Object Relation

Linguistic Relation

Textual DefinitionLogical Definition

isInstanceOf

hasArgument

hasName hasArgument

hasArgument

hasN

ame

hasName

*

*

*

1

** 11

* *

**

1

*

Page 13: Skos transformation

13

Ontologie linguistique/terminologique

Concept/ Class

Term

Object/Instance

Relation

hasLabel

Property

Semantic Relation

Object Relation

Linguistic Relation

Textual DefinitionLogical Definition

isInstanceOf

hasArgument

hasName hasArgument

hasArgument

hasN

ame

hasName

*

*

*

1

** 11

* *

**

1

*

Page 14: Skos transformation

14

Problème de l’interopérabilité lexicale

Le même terme est utilisé pour représenter différents objets

Le même objet est référencé par des termes différents

Credit Fabien GANDON

Page 15: Skos transformation

15

A relatively large natural stream of

water

1

5

rivière

fleuve

river

rio

A relatively large natural stream of

water

Water course

Una corriente relativamente larga

corriente de agua natural

Cours d’eau naturel de moyenne ou de faible importance, qui en

principe n’aboutit pas directement à la mer

Cours d’eau naturel généralement important

(plus spécialement lorsque ce cours d’eau se jette

dans la mer)

Page 16: Skos transformation

16

A relatively large natural stream of

water

1

6

rivière

fleuve

river

rio

A relatively large natural stream of

water

Water course

Una corriente relativamente larga

corriente de agua natural

Cours d’eau naturel de moyenne ou de faible importance, qui en

principe n’aboutit pas directement à la mer

Cours d’eau naturel généralement important

(plus spécialement lorsque ce cours d’eau se jette

dans la mer)

Page 17: Skos transformation

17

1

7

Page 18: Skos transformation

18

Système de Recherche d’Information

Matching

Document

index and user query

1

2

3

Multilingual Corpora

QueryOrdered list of documents

Terminological Ontology

Information Retrieval System

indexing

Page 19: Skos transformation

19

Système de Recherche sur le web

mapping

annotation

annotation

Query

Results

annotation

annotation

Page 20: Skos transformation

20

Format des ontologies terminologiquesSKOS: SIMPLE KNOWLEDGE ORGANIZATION SYSTEM

Credit http://www.w3.org/2004/02/skos/intro

Page 21: Skos transformation

21

Ontologie de données

*

Concept / Class

Term

Object/Instance

Relation

hasLabel

Property

Semantic Relation

Object Relation

Linguistic Relation

Textual DefinitionLogical Definition

isInstanceOf

hasArgument

hasName hasArgument

hasArgument

hasN

ame

hasName

*

*

1

** 11

* *

**

1

*

*

Page 22: Skos transformation

22

Exemple d’ontologie de donnéesLE DICTIONNAIRE AGRICOLE GIEEA

Page 23: Skos transformation

23

Intéropérabilité de donnéesLES FORMATS D’ÉCHANGE DE DONNÉES (SCHÉMA XML)

Blue data

Blue system

Green data

Green system

Reddata

Red system

Page 24: Skos transformation

24

Intéropérabilité de donnéesLE WEB DE DONNÉES OU LINKED DATA

An extension of the current Web…

… where data are given well-defined and explicitly represented meaning, …

… so that it can be shared and used by humans and machines, ...

... better enabling them to work in cooperation

And clear principles on how to publish data

Page 25: Skos transformation

25

Les ontologies dans le web de données

Une ontologie contient un vocabulaire et un schéma de données:• consensuels, • publiés sur le web et documentés• formalisés avec des standards du web (RDF, OWL, SPARQL)• Avec des contraintes en DL (conditions nécessaires et/ou suffisantes)

= un schéma de données pour le web de données

Page 26: Skos transformation

26

The Linking Open Data cloud

26

Credit Bill ROBERTS

Credit Linking Open Data cloud diagram, by Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net/

Page 27: Skos transformation

27

Format des ontologies de donnéesRDF SCHEMA

define classes and relations of resources and organize their hierarchy

define signatures of relations (domain, range)

document them with labels and comments

define associated inference rules

Credit Fabien Gandon #12

#21

#47 #48

"document"

"book"

"livre"

"novel"

"roman"

"short story"

"nouvelle"

Page 28: Skos transformation

28

Page 29: Skos transformation

29

Format des ontologies de donnéesOWL WEB ONTOLOGY LANGUAGE

OWL is based on Description Logics

The logical theory (model) can be define using different knowledge representation Languages:

Description Logics, Frames, Conceptual Graphs

OWL Profiles

EL: large numbers of properties and/or classes and polynomial time.

QL: large volumes of instance data, and conjunctive query answering using conventional relational database in LOGSPACE

RL: scalable reasoning without sacrificing too much expressive power using rule-based reasoning in polynomial time

Credit Fabien Gandon

Page 30: Skos transformation

30

Ou trouver des ontologies ?

SWOOGLE

http://swoogle.umbc.edu/

Watson http://watson.kmi.open.ac.uk/WatsonWUI/

LOV Linked Open Vocabularyhttp://lov.okfn.org/dataset/lov/

W3C groups http://www.w3.org/Consortium/activities

Credit Fabien Gandon

Page 31: Skos transformation

www.irstea.fr

Pour mieux affirmer ses missions, le Cemagref devient Irstea

C. Roussey J.P. Chanet (Irstea)

N. Hernandez O. Haemmerlé (IRIT)

Thèse de Fabien Amargerconstruction d’ontologies agricoles …

Page 32: Skos transformation

32

Plan

Motivation

Cas d’étude : projet sur les BSV

Interrogation avec SWIP

Thème de la thèse

Comment construire des ontologies à partir de sources non ontologiques

Etat de l’art:

Méthodologie Néon

Transformation SKOS

Notre proposition

Ontology Design Pattern

Multiplier les Sources

Calculer la confiance des éléments + filtrage

Page 33: Skos transformation

33

Motivations

• Volonté d’aider les agriculteurs à diminuer l’usage des produits phytosanitaires

• Augmentation du nombre de données dans le domaine de l’agriculture• Bulletins de Santé du Végétal• thésaurus AGROVOC• base de données publique e-phy• etc.

• Volonté de contribuer au Linked Open Data (LOD)• Interrogation de l’ontologie par requête en langage naturel (projet

SWIP)

• Méthodologie de construction d’ontologies à partir de divers sources• Interrogation intelligente des informations collectées

Page 34: Skos transformation

34

Credit Fabien Amarger

Page 35: Skos transformation

35

Cas d'étude: Bulletin de Sante du Végétal (BSV)

Bulletin d’alerte français contient des observations sur le développement des cultures et les risques d’attaques de leurs agresseurs

BSV distribués sur le web au format pdf

BSV hétérogènes: Différents auteurs, Différents style de présentation, Différents contenus (texte structuré, tableau, image)

Aider la recherche d'information dans ces BSV + reconstruire des données d'observation des cultures documentées par les BSV

Comment faciliter la recherche des BSV ?

Trouver les BSV qui correspondent à un besoin

Identifier la partie des BSV intéressante

Un système de Recherche d’Information ?

Page 36: Skos transformation

36

Processus d'Interrogation SWIP de l'IRITSEMANTIC WEB INTERFACE USING PATTERN

Interprétation de la requête en langage

naturel

Ontologie + triplets

RDF

Requête exprimée en langage naturel

Requête exprimée en langage pivot

Liste de requêtes formelles classées

Patrons

Formalisation de la requête en langage pivot

phrases explicatives

Interrogation en français d’une base de triplets RDF

Credit Camille Pradel

Page 37: Skos transformation

37

Le Système d'Interrogation

SWIP

pdf Internet Archive

url

Annotation Triple store RDF

pdf

Stockage

Interrogation

ModélisationOntologies

annotations

Page 38: Skos transformation

38

Cas d'étude: Annotations des BSVPROCESSUS ITÉRATIFS D'ANNOTATION

Ontologies agricoles

1) Reformater les BSV

2) Tenir compte de la structure des textes pour déduire des données utiles

Annotation complexes=•Attaque d'un type de culture•Par un bio-agresseur•Quand•Où•A quel niveau de risque

outil d'extraction d'information

BD d'annotations = ontologie peuplée d'observations des culturesAnnotations

RDF

Page 39: Skos transformation

39

Etat de l’art: méthodologie Néon

Page 40: Skos transformation

40

Etat de l’Art

• Processus incrémentale: Utilisation que d’une seule source• Possibilité d’extraction :• Classes• Relations non nommées• Intuition de relation de subsomption (rdfs:subClassOf)

• Techniques de désambiguïsation• Contraignantes ou pas suffisantes

• Validation peu existante• Validation de la conceptualisation manuelle• Validation structurelle automatique

Méthodologie de construction d’ontologie exploitant lamultiplication des sources d’informations disponibles et dirigée par des patrons de conceptions (Ontology Design Pattern)

Page 41: Skos transformation

41

Transformation automatique d’un SKOS EXAMPLE AGROVOC

Page 42: Skos transformation

42

Transformation automatique d’un SKOS RÉSULTAT SUR AGROVOC

Page 43: Skos transformation

43

Proposition

Hypothèses générales

• Chaque source est modelisée en fonction de son usage • Besoin de remodeliser• Toutes les sources n’ont pas la même qualité• La présence de la même information dans plusieurs sources implique

une augmentation de la confiance attribuée à cette information

Motivations• Construire des ontologies modulaires, Ontologie de domaine de haut

niveau centrée sur une fonctionnalité• Premier cas d’étude module sur la taxonomie agricole• Enrichissement de module AgronomicTaxon

Page 44: Skos transformation

44

PropositionADAPTATION DE DEUX SCÉNARII DE NÉON

Page 45: Skos transformation

45

Irstea Agronomic TaxonDESIGN PATTERN ONTOLOGIQUES (ODP)

Il existe déjà des ODP en lien avec l'agriculture

• FAO (projet Neon): isPestOf, LinneanTaxonomy

• Données observations des espèces disponibles sur le Web de données :Geospecies ontology, TaxonConcept, …

Fusion, intégration et enrichissement de ces ODP

Pour répondre à nos besoins.• Méthode de développement d’

ontologies à partir d’ODP

Page 46: Skos transformation

46

Irstea Agronomic TaxonDESIGN PATTERN ONTOLOGIQUES (ODP)

Page 47: Skos transformation

47

Proposition

Schéma générale de la méthode

Page 48: Skos transformation

48

PropositionTRANSFORMATION AUTOMATIQUE DIRIGÉE PAR LE MODULE

Page 49: Skos transformation

49

Transformation du thésaurus Agrovoc

SKOS original

Page 50: Skos transformation

50

Example Agrovoc

Page 51: Skos transformation

51

PropositionKB MERGING

Page 52: Skos transformation

52

Expérimentation

3 sources de bonne qualité:

Thésaurus Agrovoc

Classification TaxRef

Classification NCBI

Construction d’un gold standard à partir de la validation de 3 agronomes INRA et Irstea.

Extraction des instances F measure > 0.74 très bonne précision

Extraction des relations à améliorer F measure < 0,45

Page 53: Skos transformation

53

Conclusion et Perspectives

Extraction de classes, de labels, de relation d'instanciation

Besoin de définir un modèle d’annotations spatio-temporelles des observations

Construction d’une ontologie modulaire : 1 module créé / 5

Des spécifications du workflow d’annotation en devenir

more on googlesite agriontology

Page 54: Skos transformation

54

Réutilisation de sources agricoles

Sources agricoles: Thésaurus (Agrovoc) ou classification TaxRef, NCBI Extraire des données de chaque source et les agréger en suivant les ODPConstruction d'ontologies modulaires