54
www.irstea.fr Pour mieux affirmer ses missions, le Cemagref devient Irstea Catherine ROUSSEY Projet Animitex 28 aout 2014, Montpellier Ontologies, Web de Données et SKOS Transformation Merci à Fabien Amarger Fabien Gandon

Ontologies, web de données et SKOS transformation

Embed Size (px)

DESCRIPTION

Présentation faite lors d'une réunion du projet animitex à Montpellier en aôut 2014. Cette présentation brosse un apercu des standards du web sémantique disponible sur le web de données. Puis nous introduisons brièvement les travaux de Fabien Amarger sur la transformation de SKOS en ontologie.

Citation preview

Page 1: Ontologies, web de données et SKOS transformation

www.irstea.fr

Pour mieux

affirmer

ses missions,

le Cemagref

devient Irstea

Catherine ROUSSEY

Projet Animitex

28 aout 2014, Montpellier

Ontologies, Web de Données et SKOS Transformation

Merci à

Fabien Amarger

Fabien Gandon

Page 2: Ontologies, web de données et SKOS transformation

2

Plan

• Définitions de base: de l’Ontologie aux ontologies

• Données Information Connaissances

• Interopérabilité et ontologies

• Format et standard du web sémantique

• Ontologie linguistique système de recherche d’information

• Exemple SKOS

• Ontologie de données web de données

• Exemple RDFS, OWL

• Ontologie Logique…

Page 3: Ontologies, web de données et SKOS transformation

3

Définitions: DONNÉES, INFORMATIONS, CONNAISSANCES

Donnée: un élément d’information,

percevable,

manipulable

Information: donnée +

sens + contexte

type

Connaissance: information +

stabilité + croyance

abstraction + traitement

généralisation d’un ensemble d’information = modèle

toujours propre à une personne

partagée avec d’autres personnes

Page 4: Ontologies, web de données et SKOS transformation

4

Schéma général DONNÉES, INFORMATIONS, CONNAISSANCES

Données

Information

Connaissances

Perception

Sens dans un contexte

Résultat d’un processus d’apprentissage: une

généralisation d’un ensemble d’information que

l’on va mémoriser

Données

Données typées

Classes en POO Description sous forme d’attribut (description

quantitative & qualitative ) + méthodes

(traitements)

Connaissances en IA Des traitement particuliers sur les données

qualitatives

Différent niveau de granularité : information

structurée non structurées

BD Relationnelle Données fortement structurées optimisées pour le

stockage

Page 5: Ontologies, web de données et SKOS transformation

5

Définition ONTOLOGIE

Ontologie avec un O majuscule (philosophie):

Une science: une branche de la métaphysique qui a pour objectif

l’étude de l’être, c'est-à-dire l'étude des propriétés générales de tout

ce qui est…

Ontologies au pluriel avec un o minuscule (informatique):

Outils informatiques

résultat d’une modélisation d’un domaine d’étude

défini pour un objectif donné

acceptée par une communauté d’utilisateurs

Page 6: Ontologies, web de données et SKOS transformation

6

Ontologies …

Gruber 1993 : « une ontologie est une spécification explicite d’une

conceptualisation »

• Conceptualisation: modèle abstrait du domaine: quelles entités?

• Spécification explicite: les types et leurs contraintes d’usage sont définis

dans un langage…

Exemples:

• Un thésaurus : vocabulaire normalisé

• Un schéma de BD : un modèle structuré d'un domaine

• Un système expert : un modèle du domaine formalisé pour les

inférences, des conditions exprimées à l'aide de formules logiques

Ontologie linguistique, ressource termino-ontologique, ontologie de

domaine, ontologie de haut niveau, vocabulaire de métadonnées…

Thomas R. Gruber. “A translation approach to portable ontology specifications”,

Knowledge Acquisition, Volume 5, Issue 2, June 1993, Pages 199–220

Page 7: Ontologies, web de données et SKOS transformation

7

Différent niveau d’Intéropérabilité

7 Increasing Interoperability Capability

Incre

asin

g K

no

wle

dg

e

Lexical

Interoperability

Data

Interoperability Object

Interoperability

List

Thesaurus

Taxonomy

Conceptual Model

Logical

Theory

Controlled Vocabulary

Glossary

UML

DB

Schema XML Schema

ER Model

OWL

Description

Logic

Lexical Database

RDF

SKOS

Page 8: Ontologies, web de données et SKOS transformation

8

Web sémantique, ontologies, web de données

World Wide Web Consortium

(W3C)

Credit Benjamin Nowak

Page 9: Ontologies, web de données et SKOS transformation

9

Syntaxe de base du web sémantique RDF: RESOURCE DESCRIPTION FRAMEWORK

is a triple model i.e. every

piece of knowledge is broken down into

( subject , predicate , object )

RDF

Credit Fabien GANDON

Page 10: Ontologies, web de données et SKOS transformation

10

http://inria.fr/~fabien#me

http://inria.fr/schema#author

http://inria.fr/rr/doc.html

http://inria.fr/schema#theme

"Music"

10

Credit Fabien GANDON

Page 11: Ontologies, web de données et SKOS transformation

11 <rdf:RDF

xmlns:rdf="http://www.w3.org/1999/02/22-

rdf-syntax-ns#"

xmlns:inria="http://inria.fr/schema#" >

<rdf:Description

rdf:about="http://inria.fr/rr/doc.html">

<inria:author rdf:resource=

"http://inria.fr/~fabien#me" />

<inria:theme>Music</inria:theme>

</rdf:Description>

</rdf:RDF>

11

Credit Fabien GANDON

Page 12: Ontologies, web de données et SKOS transformation

12

Les composants des ontologies

Concept /

Class

Term

Object/Instance

Relation

hasLabel

Property

Semantic Relation

Object Relation

Linguistic Relation

Textual Definition Logical Definition

isInstanceOf

hasArgument

hasName hasArgument

hasArgument

hasN

am

e

hasName

*

*

*

1

* * 1

1

* *

* *

1

*

Page 13: Ontologies, web de données et SKOS transformation

13

Ontologie linguistique/terminologique

Concept/

Class

Term

Object/Instance

Relation

hasLabel

Property

Semantic Relation

Object Relation

Linguistic Relation

Textual Definition Logical Definition

isInstanceOf

hasArgument

hasName hasArgument

hasArgument

hasN

am

e

hasName

*

*

*

1

* * 1

1

* *

*

*

1

*

Page 14: Ontologies, web de données et SKOS transformation

14

Problème de l’interopérabilité lexicale

Le même terme est utilisé pour représenter différents objets

Le même objet est référencé par des termes différents

Credit Fabien GANDON

Page 15: Ontologies, web de données et SKOS transformation

15

A relatively large

natural stream of

water

15

rivière

fleuve

river

rio

A relatively large

natural stream of

water

Water course

Una corriente

relativamente larga

corriente de agua natural

Cours d’eau naturel de moyenne

ou de faible importance, qui en

principe n’aboutit pas directement

à la mer

Cours d’eau naturel

généralement important

(plus spécialement lorsque

ce cours d’eau se jette

dans la mer)

Page 16: Ontologies, web de données et SKOS transformation

16

A relatively large

natural stream of

water

16

rivière

fleuve

river

rio

A relatively large

natural stream of

water

Water course

Una corriente

relativamente larga

corriente de agua natural

Cours d’eau naturel de moyenne

ou de faible importance, qui en

principe n’aboutit pas directement

à la mer

Cours d’eau naturel

généralement important

(plus spécialement lorsque

ce cours d’eau se jette

dans la mer)

Page 17: Ontologies, web de données et SKOS transformation

17

17

Page 18: Ontologies, web de données et SKOS transformation

18

Système de Recherche d’Information

Matchin

g

Docum

ent

index

and

user

query

1

2

3

Multilingual Corpora

Query

Ordered list of documents

Terminological

Ontology

Information

Retrieval

System

indexing

Page 19: Ontologies, web de données et SKOS transformation

19

Système de Recherche sur le web

mapping

annotation Query

Results

annotation

annotation

Page 20: Ontologies, web de données et SKOS transformation

20

Format des ontologies terminologiques SKOS: SIMPLE KNOWLEDGE ORGANIZATION SYSTEM

Credit http://www.w3.org/2004/02/skos/intro

Page 21: Ontologies, web de données et SKOS transformation

21

Ontologie de données

*

Concept /

Class

Term

Object/Instance

Relation

hasLabel

Property

Semantic Relation

Object Relation

Linguistic Relation

Textual Definition Logical Definition

isInstanceOf

hasArgument

hasName hasArgument

hasArgument

hasN

am

e

hasName

*

*

1

* * 1

1

* *

* *

1

*

*

Page 22: Ontologies, web de données et SKOS transformation

22

Exemple d’ontologie de données LE DICTIONNAIRE AGRICOLE GIEEA

Page 23: Ontologies, web de données et SKOS transformation

23

Intéropérabilité de données LES FORMATS D’ÉCHANGE DE DONNÉES (SCHÉMA XML)

Blue

data

Blue

system

Green

data

Green

system

Red

data

Red

system

Page 24: Ontologies, web de données et SKOS transformation

24

Intéropérabilité de données LE WEB DE DONNÉES OU LINKED DATA

An extension of the

current Web…

… where data are given

well-defined and

explicitly represented

meaning, …

… so that it can be

shared and used by

humans and machines,

...

... better enabling them

to work in cooperation

And clear principles on

how to publish data

Page 25: Ontologies, web de données et SKOS transformation

25

Les ontologies dans le web de données

Une ontologie contient un vocabulaire et un schéma de données:

• consensuels,

• publiés sur le web et documentés

• formalisés avec des standards du web (RDF, OWL, SPARQL)

• Avec des contraintes en DL (conditions nécessaires et/ou suffisantes)

= un schéma de données pour le web de données

Page 26: Ontologies, web de données et SKOS transformation

26

The Linking Open Data cloud

2

6

Credit Bill ROBERTS

Credit Linking Open Data cloud diagram, by Richard Cyganiak and Anja

Jentzsch. http://lod-cloud.net/

Page 27: Ontologies, web de données et SKOS transformation

27

Format des ontologies de données RDF SCHEMA

define classes and relations of resources and organize their hierarchy

define signatures of relations (domain, range)

document them with labels and comments

define associated inference rules

Credit Fabien Gandon #12

#21

#47 #48

"document"

"book"

"livre"

"novel"

"roman"

"short story"

"nouvelle"

Page 28: Ontologies, web de données et SKOS transformation

28

Page 29: Ontologies, web de données et SKOS transformation

29

Format des ontologies de données OWL WEB ONTOLOGY LANGUAGE

OWL is based on Description Logics

The logical theory (model) can be define using different knowledge

representation Languages:

Description Logics, Frames, Conceptual Graphs

OWL Profiles

EL: large numbers of properties and/or classes and polynomial time.

QL: large volumes of instance data, and conjunctive query answering

using conventional relational database in LOGSPACE

RL: scalable reasoning without sacrificing too much expressive power

using rule-based reasoning in polynomial time

Credit Fabien Gandon

Page 30: Ontologies, web de données et SKOS transformation

30

Ou trouver des ontologies ?

SWOOGLE

http://swoogle.umbc.edu/

Watson

http://watson.kmi.open.ac.uk/WatsonWUI/

LOV Linked Open Vocabulary

http://lov.okfn.org/dataset/lov/

W3C groups

http://www.w3.org/Consortium/activities

Credit Fabien Gandon

Page 31: Ontologies, web de données et SKOS transformation

www.irstea.fr

Pour mieux

affirmer

ses missions,

le Cemagref

devient Irstea

C. Roussey J.P. Chanet (Irstea)

N. Hernandez O. Haemmerlé (IRIT)

Thèse de Fabien Amarger construction d’ontologies agricoles …

Page 32: Ontologies, web de données et SKOS transformation

32

Plan

Motivation

Cas d’étude : projet sur les BSV

Interrogation avec SWIP

Thème de la thèse

Comment construire des ontologies à partir de sources non ontologiques

Etat de l’art:

Méthodologie Néon

Transformation SKOS

Notre proposition

Ontology Design Pattern

Multiplier les Sources

Calculer la confiance des éléments + filtrage

Page 33: Ontologies, web de données et SKOS transformation

33

Motivations

• Volonté d’aider les agriculteurs à diminuer l’usage des produits

phytosanitaires

• Augmentation du nombre de données dans le domaine de l’agriculture

• Bulletins de Santé du Végétal

• thésaurus AGROVOC

• base de données publique e-phy

• etc.

• Volonté de contribuer au Linked Open Data (LOD)

• Interrogation de l’ontologie par requête en langage naturel (projet

SWIP)

• Méthodologie de construction d’ontologies à partir de divers sources

• Interrogation intelligente des informations collectées

Page 34: Ontologies, web de données et SKOS transformation

34

Credit Fabien Amarger

Page 35: Ontologies, web de données et SKOS transformation

35

Cas d'étude:

Bulletin de Sante du Végétal (BSV)

Bulletin d’alerte français contient des observations sur le

développement des cultures et les risques d’attaques de leurs

agresseurs

BSV distribués sur le web au format pdf

BSV hétérogènes: Différents auteurs, Différents style de

présentation, Différents contenus (texte structuré, tableau, image)

Aider la recherche d'information dans ces BSV + reconstruire

des données d'observation des cultures documentées par les

BSV

Comment faciliter la recherche des BSV ?

Trouver les BSV qui correspondent à un besoin

Identifier la partie des BSV intéressante

Un système de Recherche d’Information ?

Page 36: Ontologies, web de données et SKOS transformation

36

Processus d'Interrogation SWIP de l'IRIT SEMANTIC WEB INTERFACE USING PATTERN

Interprétation de la requête en langage

naturel

Ontologie

+ triplets

RDF

Requête exprimée en langage naturel

Requête exprimée en langage pivot

Liste de requêtes formelles classées

Patrons

Formalisation de la

requête en langage pivot

phrases explicatives

Interrogation en français d’une base de triplets RDF

Credit Camille Pradel

Page 37: Ontologies, web de données et SKOS transformation

37

Le Système d'Interrogation

SWIP

pdf Internet

Archive url

Annotation Triple store RDF

pdf

Stockage

Interrogation

Modélisation Ontologies

annotations

Page 38: Ontologies, web de données et SKOS transformation

38

Cas d'étude: Annotations des BSV PROCESSUS ITÉRATIFS D'ANNOTATION

Ontologies

agricoles

1) Reformater les BSV

2) Tenir compte de la structure

des textes pour déduire des

données utiles

Annotation complexes=

•Attaque d'un type de culture

•Par un bio-agresseur

•Quand

•Où

•A quel niveau de risque

outil d'extraction d'information

BD d'annotations = ontologie

peuplée d'observations des

cultures

Annotations

RDF

Page 39: Ontologies, web de données et SKOS transformation

39

Etat de l’art: méthodologie Néon

Page 40: Ontologies, web de données et SKOS transformation

40

Etat de l’Art

• Processus incrémentale: Utilisation que d’une seule source

• Possibilité d’extraction :

• Classes

• Relations non nommées

• Intuition de relation de subsomption (rdfs:subClassOf)

• Techniques de désambiguïsation

• Contraignantes ou pas suffisantes

• Validation peu existante

• Validation de la conceptualisation manuelle

• Validation structurelle automatique

Méthodologie de construction d’ontologie exploitant la

multiplication des sources d’informations disponibles et dirigée par des

patrons de conceptions (Ontology Design Pattern)

Page 41: Ontologies, web de données et SKOS transformation

41

Transformation automatique d’un SKOS EXAMPLE AGROVOC

Page 42: Ontologies, web de données et SKOS transformation

42

Transformation automatique d’un SKOS RÉSULTAT SUR AGROVOC

Page 43: Ontologies, web de données et SKOS transformation

43

Proposition

Hypothèses générales

• Chaque source est modelisée en fonction de son usage

• Besoin de remodeliser

• Toutes les sources n’ont pas la même qualité

• La présence de la même information dans plusieurs sources implique

une augmentation de la confiance attribuée à cette information

Motivations

• Construire des ontologies modulaires, Ontologie de domaine de haut

niveau centrée sur une fonctionnalité

• Premier cas d’étude module sur la taxonomie agricole

• Enrichissement de module AgronomicTaxon

Page 44: Ontologies, web de données et SKOS transformation

44

Proposition ADAPTATION DE DEUX SCÉNARII DE NÉON

Page 45: Ontologies, web de données et SKOS transformation

45

Irstea Agronomic Taxon DESIGN PATTERN ONTOLOGIQUES (ODP)

Il existe déjà des ODP en lien

avec l'agriculture

• FAO (projet Neon): isPestOf,

LinneanTaxonomy

• Données observations des

espèces disponibles sur le

Web de données :Geospecies

ontology, TaxonConcept, …

Fusion, intégration et

enrichissement de ces ODP

Pour répondre à nos besoins.

• Méthode de développement d’

ontologies à partir d’ODP

Page 46: Ontologies, web de données et SKOS transformation

46

Irstea Agronomic Taxon DESIGN PATTERN ONTOLOGIQUES (ODP)

Page 47: Ontologies, web de données et SKOS transformation

47

Proposition

Schéma générale de la méthode

Page 48: Ontologies, web de données et SKOS transformation

48

Proposition TRANSFORMATION AUTOMATIQUE DIRIGÉE PAR LE MODULE

Page 49: Ontologies, web de données et SKOS transformation

49

Transformation du thésaurus Agrovoc

SKOS original

Page 50: Ontologies, web de données et SKOS transformation

50

Example Agrovoc

Page 51: Ontologies, web de données et SKOS transformation

51

Proposition KB MERGING

Page 52: Ontologies, web de données et SKOS transformation

52

Expérimentation

3 sources de bonne qualité:

Thésaurus Agrovoc

Classification TaxRef

Classification NCBI

Construction d’un gold standard à partir de la validation de 3 agronomes

INRA et Irstea.

Extraction des instances F measure > 0.74 très bonne précision

Extraction des relations à améliorer F measure < 0,45

Page 53: Ontologies, web de données et SKOS transformation

53

Conclusion et Perspectives

Extraction de classes, de labels, de relation d'instanciation

Besoin de définir un modèle d’annotations spatio-temporelles des

observations

Construction d’une ontologie modulaire : 1 module créé / 5

Des spécifications du workflow d’annotation en devenir

more on googlesite agriontology

Page 54: Ontologies, web de données et SKOS transformation

54

Réutilisation de sources agricoles

Sources agricoles: Thésaurus (Agrovoc) ou classification TaxRef, NCBI

Extraire des données de chaque source et les agréger en suivant les ODP

Construction d'ontologies modulaires