28
(Onto)WordNet „The OntoWordNet Project: extension and axiomatization of conceptual relations in WordNet“ A. Gangemi, R. Navigli, P. Velardi Vortrag: Frank Loebe

(Onto)WordNet The OntoWordNet Project: extension and axiomatization of conceptual relations in WordNet A. Gangemi, R. Navigli, P. Velardi Vortrag: Frank

Embed Size (px)

Citation preview

Page 1: (Onto)WordNet The OntoWordNet Project: extension and axiomatization of conceptual relations in WordNet A. Gangemi, R. Navigli, P. Velardi Vortrag: Frank

(Onto)WordNet

„The OntoWordNet Project: extension and axiomatization of conceptual relations in WordNet“

A. Gangemi, R. Navigli, P. Velardi

Vortrag: Frank Loebe

Page 2: (Onto)WordNet The OntoWordNet Project: extension and axiomatization of conceptual relations in WordNet A. Gangemi, R. Navigli, P. Velardi Vortrag: Frank

2

Überblick

• WordNet– Ziele & Umfeld– Entwicklung & Aufbau– Anwendungen

• WordNet & Ontologie• OntoWordNet

– Ziele & Annahmen– Verknüpfung von Synsets– (Semi)automatische Axiomatisierung

• Kritik & Zusammenfassung

Page 3: (Onto)WordNet The OntoWordNet Project: extension and axiomatization of conceptual relations in WordNet A. Gangemi, R. Navigli, P. Velardi Vortrag: Frank

3

WordNet: Ziele und Umfeld

• definiert als „lexikalische Datenbank“

• Ziele– Wortsuche nach konzeptionellen statt alphabetischen Kriterien– Großversuch für relationale Semantik von Wörtern

(im Gegensatz zu kompositionalen Ansätzen)

• Ergebnis ist vergleichbar einer Kombination aus Wörterbuch und Thesaurus

• Aufbau von Hand durch Lexikographen• Beginn 1985

Page 4: (Onto)WordNet The OntoWordNet Project: extension and axiomatization of conceptual relations in WordNet A. Gangemi, R. Navigli, P. Velardi Vortrag: Frank

4

WordNet: Aufbau

• Hauptbestandteile– Synsets Bsp.: { motor vehicle, automotive vehicle }– konzeptuelle und lexikalische Relationen Bsp.:

Hypernymie

• ergänzt durch– Bemerkungen

Bsp.: „a self-propelled wheeled vehicle that does not run on rails“

• Beschränkung auf Wörter der 4 offenen Wortklassen(Substantive, Adjektive, Verben, Adverben)

• Statistiken (WordNet 1.5) 91.600 Synsets, 75.400 Bemerkungen– 18% mehrdeutige Wörter, aber Häufigkeit ca. 83%

Page 5: (Onto)WordNet The OntoWordNet Project: extension and axiomatization of conceptual relations in WordNet A. Gangemi, R. Navigli, P. Velardi Vortrag: Frank

5

Ähnliche Worte

Meronyme

Hypernyme

Hyponyme

Beispiel: motor vehicle

motor vehicle(used very rare, polysemy count 1)

self-propelled vehicle

self-propelled vehicle

vehicle container

entity

car

bloodmobile

truck go-kart

engineairbrake

brake systemchassis

Page 6: (Onto)WordNet The OntoWordNet Project: extension and axiomatization of conceptual relations in WordNet A. Gangemi, R. Navigli, P. Velardi Vortrag: Frank

6

WordNet Anwendungen

• Semantische Annotation von Texten mit Synsets• Kombination taxonomischen Wissens mit

probabilistischen Modellen• Information Retrieval• Konzeptuelle Modellierung

(COLOR-X: OO-System mit WordNet-Anbindung)• Wissensverarbeitung mit WordNet-basierten

Inferenzregeln

Page 7: (Onto)WordNet The OntoWordNet Project: extension and axiomatization of conceptual relations in WordNet A. Gangemi, R. Navigli, P. Velardi Vortrag: Frank

7

WordNet & Ontologie: Verbindungen

• Viele Gemeinsamkeiten zwischen Semantik in der Linguistik und Ontologie

• Konzeptuelle Relationen– Hypernymie / Hyponymie = Generalisierung / Spezialisierung– Meronymie / Holonymie = Teil-von- / hat-Teil-Beziehung

• Lexikalische Relationen– Antonymie: Wörter mit gegensätzlicher Bedeutung

Bsp.: Sieg und Niederlage, groß und klein– Synonymie: Wörter mit gleicher Bedeutung– Homonymie: Gleichklingende Wörter unterschiedlicher

Bedeutung

– Polysemie: Wörter mit mehreren BedeutungenBsp.: „big“ tritt in 15 Synsets auf

Page 8: (Onto)WordNet The OntoWordNet Project: extension and axiomatization of conceptual relations in WordNet A. Gangemi, R. Navigli, P. Velardi Vortrag: Frank

8

WordNet & Ontologie: Top-Level

Entity

Organism

Animal

Person

Plant

Object

Artifact

Natural Object Body

Substance Food

Abstraction

Attribute

Quantity

Relation Communication

Time

Psychol. Feature

Cognition

Feeling

Motivation

Nat. Phenomenon Process

Activity

Event

Group

Location

Possession

Shape

State

Page 9: (Onto)WordNet The OntoWordNet Project: extension and axiomatization of conceptual relations in WordNet A. Gangemi, R. Navigli, P. Velardi Vortrag: Frank

9

WordNet & Ontologie: Probleme

• WordNet [Fellbaum, 1998]1) keine Ausnahmen Bsp.: Pinguine fliegen nicht.

2) Subtypen von Hyponymie Bsp.: is-a-kind-of, is-used-as-a-kind-of

3) keine Unterscheidung von Eigennamen und KonzeptenBsp.: Bach und songwriter auf gleicher

Ebene

4) keine „generischen“ Konzepte Bsp.: chair vs. furniture

5) weitere semantische Relationen sind nötig

• DOLCE/OntoClean [Gangemi et al. 2003c]1) Probleme 2), 3) von oben

2) keine Trennung von Objekt- und Metaebene Bsp.: Relation

3) versteckte Polysemie Bsp.: law als Dokument bzw. Regel

4) heterogene Generalitätsebenen Bsp.: car und blood-mobile

Page 10: (Onto)WordNet The OntoWordNet Project: extension and axiomatization of conceptual relations in WordNet A. Gangemi, R. Navigli, P. Velardi Vortrag: Frank

10

OntoWordNet: Ziel & Commitments

• Ziel: Umwandlung von WordNet in eine formale Spezifikation

• Commitments:– logisch: Synsets Typen, formale Semantik für lexikalische

Relationen– ontologisch: Trennung in Konzepte, Relationen, Individuen– kontextuell: Modularisierung nach Domänen, partiell

geordnet– semiotisch: textorientierte Angabe von Präferenzen,

Frequenzen, etc.

• Fokus in [Gangemi et al. 2003a]:ontologische Commitments

Page 11: (Onto)WordNet The OntoWordNet Project: extension and axiomatization of conceptual relations in WordNet A. Gangemi, R. Navigli, P. Velardi Vortrag: Frank

11

OntoWordNet: Annahmen

(A1) Hyperonymy beschreibt Synset-Subsumtion.

(A2) Synsets sind Äquivalenzklassen von Bedeutungen.

(A3) Bemerkungen als Axiomatisierungen.

(A4) Bemerkungen sind konsistent mit Synsets.

(A5) Assoziationen entsprechen konzeptuellen Relationen.

(A6D) Extensionale Abgeschlossenheit von DOLCE.

(A7D) Taxonomien unterhalb „manueller Verknüpfungen“ sind ontologisch konsistent.

Page 12: (Onto)WordNet The OntoWordNet Project: extension and axiomatization of conceptual relations in WordNet A. Gangemi, R. Navigli, P. Velardi Vortrag: Frank

12

OntoWordNet: Algorithmus

• Wortart-Markierung und Entfernen irrelevanter Wörter• Disambiguierung der Wörter in den Synsets• Extraktion von Assoziationen• (semi-)automatische Interpretation der Assoziationen

• Bsp.:– driver „the operator of a motor vehicle“– operator „an agent that operates some apparatus or machine“– motor vehicle

„a self-propelled wheeled vehicle that does not run on rails“

– Disambiguierung von operator– driver – motor vehicle Assoziation Agentive Co-Participation

Page 13: (Onto)WordNet The OntoWordNet Project: extension and axiomatization of conceptual relations in WordNet A. Gangemi, R. Navigli, P. Velardi Vortrag: Frank

13

Disambiguierungsalgorithmus (I)

• Greedy Algorithmus mit Heuristiken

• Input:– S (Synset)– P (Terme aus der Bemerkung von S sowie den Bemerkungen

der direkten Hypernyme von S)

• Output:– D (Menge disambiguierter Synsets)

• Anfangsschritt:– D=S– Umordnung der eindeutigen Terme von P nach D

Page 14: (Onto)WordNet The OntoWordNet Project: extension and axiomatization of conceptual relations in WordNet A. Gangemi, R. Navigli, P. Velardi Vortrag: Frank

14

Disambiguierungsalgorithmus (II)

• Iterationsschritt:– Pfadheuristik: Pfadmustersuche zwischen S´ und S´´

• Bsp. Hypernymy/Meronymy-Ketten: S´ @,# S´´

– Contextheuristik: (nur wenn keine Pfade gefunden)• gemeinsames semantisches Auftreten

– auf Grundlage von 3 Korpora der Computerlinguistik– Disambiguierung erkannt, wenn mind. 2 Korporaergebnisse

übereinstimmen

• gemeinsame Domänenkennzeichen von Synsets

– Umordnung der disambiguierten Terme von P nach D

Page 15: (Onto)WordNet The OntoWordNet Project: extension and axiomatization of conceptual relations in WordNet A. Gangemi, R. Navigli, P. Velardi Vortrag: Frank

15

Beispiellauf

• Disambiguierung von „retrospective“• Bemerkung:

„an exhibition of a representative selection of an artist´s life work“

• Hypernym: „art exhibition“• Bemerkung:

„an exhibition of art objects (paintings or statues)“

Page 16: (Onto)WordNet The OntoWordNet Project: extension and axiomatization of conceptual relations in WordNet A. Gangemi, R. Navigli, P. Velardi Vortrag: Frank

16

Beispiel: Ausgangssituation

• D enthält nur das „Ziel“-Synset• P enthält alle Wörter aus Bemerkungen zu D und „art

exhibition“

retrospective

work

objectexhibition

life

statue artist

selectionrepresentative

painting

art

D P

Page 17: (Onto)WordNet The OntoWordNet Project: extension and axiomatization of conceptual relations in WordNet A. Gangemi, R. Navigli, P. Velardi Vortrag: Frank

17

Beispiel: Anfangsschritt

• Algorithmus:– Umordnen der eindeutigen Wörter nach P

(erkennbar in WordNet)

retrospective

work

objectexhibition

life

statue artist

selectionrepresentative

painting

art

D P

Eindeutige Wörter

statue artist

Page 18: (Onto)WordNet The OntoWordNet Project: extension and axiomatization of conceptual relations in WordNet A. Gangemi, R. Navigli, P. Velardi Vortrag: Frank

18

Beispiel: Iterationen I & II

• Algorithmus:– Pfadheuristik: Ausnutzung konzeptueller Links in WordNet– falls Pfade existieren, umordnen; sonst Kontextheuristik

retrospective

work

objectexhibition

life

selectionrepresentative

painting

art

D P

statue artist

3 Hypernymie-Pfade:retrospective 2 exhibitionstatue 3 artstatue 6 object

1 Hyponymie-Pfad:art 2 painting

objectexhibition art

painting

Page 19: (Onto)WordNet The OntoWordNet Project: extension and axiomatization of conceptual relations in WordNet A. Gangemi, R. Navigli, P. Velardi Vortrag: Frank

19

Beispiel: Iteration III

• Algorithmus:– Kontextheuristik: Ausnutzung gemeinsamen Auftretens in

Standardkorpora der Computerlinguistik

retrospective

work

life

selectionrepresentative

D P

statue artist (artist, life) ist bestimmtim LDC Corpus

objectexhibition art

painting

life

Page 20: (Onto)WordNet The OntoWordNet Project: extension and axiomatization of conceptual relations in WordNet A. Gangemi, R. Navigli, P. Velardi Vortrag: Frank

20

Ergebnis zu „retrospective“

„an exhibition of a representative selection of an artist´s life work“

Page 21: (Onto)WordNet The OntoWordNet Project: extension and axiomatization of conceptual relations in WordNet A. Gangemi, R. Navigli, P. Velardi Vortrag: Frank

21

Experimentelle Ergebnisse I

0% 20% 40% 60% 80% 100%

Tourismus

Tourismus:Präzision

Generisch

Generisch:Präzision

nicht disambiguiert falsch disambiguiert korrekt disambiguiert

Page 22: (Onto)WordNet The OntoWordNet Project: extension and axiomatization of conceptual relations in WordNet A. Gangemi, R. Navigli, P. Velardi Vortrag: Frank

22

Experimentelle Ergebnisse II

• geringe Ergebnisrate, hohe Genauigkeit

• höhere Genauigkeit bei Ergebnissen als die „wähle-die-erste-Variante“-Heuristik

• weitere Analysen:– Substantive mit höherer Rate und Genauigkeit, da Substantive

umfassender kommentiert– Verben problematisch in WordNet Einbeziehung von

FRAMENET geplant

Page 23: (Onto)WordNet The OntoWordNet Project: extension and axiomatization of conceptual relations in WordNet A. Gangemi, R. Navigli, P. Velardi Vortrag: Frank

23

Interpretation von Assoziationen I

• Motivation– semantische Fundierung der gefundenen Assoziationen

• Anforderungen– eine definierte Menge konzeptueller Relationen zwecks

Wiederverwendbarkeit– formale Semantik– ausreichender Grad an Allgemeinheit und Flexibilität

• Mittel zur Lösung– DOLCE bzw. DOLCE-Lite+

• Axiomatisierung reduziert auf Ausdrucksfähigkeit von Beschreibungslogiken

• Erweiterungen generischer und domänenspezifischer Art

Page 24: (Onto)WordNet The OntoWordNet Project: extension and axiomatization of conceptual relations in WordNet A. Gangemi, R. Navigli, P. Velardi Vortrag: Frank

24

Interpretation von Assoziationen II

• Ansatz:Assoziation zwischen (car, engine) kann übersetzt werden zu

x.Car(x) y. Engine(y) Component(x, y)

• Idee:– nutze Position von „car“ und „engine“ in WordNet

(spezifischste Hypernyme, die zu DOLCE gehören)– inferiere spezifischste Relation zwischen diesen Hypernymen

• benötigt:– Partition der Relationsdomänen– technische Vorarbeiten (Zuordnung DOLCE-WordNet, ...)

Page 25: (Onto)WordNet The OntoWordNet Project: extension and axiomatization of conceptual relations in WordNet A. Gangemi, R. Navigli, P. Velardi Vortrag: Frank

25

Interpretation von Assoziationen III

• Partition der Relationsdomänen(Ausschnitt)

• Ergebnis: Generisch 85,21% korrekte AxiomeTourismus 89,80% korrekte Axiome

Object Event Quality

Object – Participant_In (Inherence of)

Event Participant Temporal Mereotopological Association

(Inherence of)

Quality – – (Inherence of)

Region Quality Region of – (Inherence of)

Page 26: (Onto)WordNet The OntoWordNet Project: extension and axiomatization of conceptual relations in WordNet A. Gangemi, R. Navigli, P. Velardi Vortrag: Frank

26

Kritik

• Ansatz: semi-automatisch ist manuell vorzuziehen

• Grundannahmen richtig?– Bemerkungen sind für „Leser“ gedacht, die das Konzept bereits

kennen. Hoher Unvollständigkeitsgrad.– Wie realistisch ist es, dass die Bemerkungen den Synsets und

ihren Relationen entsprechen?

• Axiom-Generierung zu naiv?– Ergebnisse positiv, aber wie findet man die wenigen falschen?– bestimmte Probleme durch Autoren anerkannt und beschrieben

Page 27: (Onto)WordNet The OntoWordNet Project: extension and axiomatization of conceptual relations in WordNet A. Gangemi, R. Navigli, P. Velardi Vortrag: Frank

27

Zusammenfassung

• Linguistik und Ontologie ergänzen einander– Untersuchung verwandter Beziehungen und Probleme

z.B. Hyper/Hyponymie, Meronymie– WordNet ist eine interessante Ressource für beide Gebiete

• (semi-)automatisches Verfahren zur Formalisierung von WordNet– konkreter Nutzen für Top-Level-Ontologien gezeigt– Ergebnisse sprechen für Weiterverfolgung automatischer

Techniken

Page 28: (Onto)WordNet The OntoWordNet Project: extension and axiomatization of conceptual relations in WordNet A. Gangemi, R. Navigli, P. Velardi Vortrag: Frank

28

Literatur

(Fellbaum 1998)Fellbaum, C. (ed) 1998. WordNet: An Electronic Lexical Database. Language, Speech and Communication Series. Cambridge (Mass.): MIT Press.

(Gangemi et al. 2003a)Gangemi, A., Navigli, R., Velardi, P. 2003. The OntoWordNet Project: extension and axiomatization of conceptual relations in WordNet. In: Proceedings of the International Conference on Ontologies, Databases and Applications of Semantics (ODBASE 2003), Nov 3-7, Catania, Italy. S. 820-838. Lecture Notes in Computer Science, Bd. 2888.

(Gangemi et al. 2003b)Gangemi, A., Navigli, R., Velardi, P. 2003. Axiomatizing WordNet Glosses in the OntoWordNet Project. [noch nicht erschienen] In: Workshop on Human Language Technology for the Semantic Web and Web Services, 2nd International Semantic Web Conference (ISWC2003). 20-23 Oct, Sanibel Island, Florida. Vorabdruck verfügbar unter: http://www.loa-cnr.it/Publications.html.

(Gangemi et al. 2003c)Gangemi, A., Guarino N., Masolo C., Oltramari, A. 2003. Sweetening WordNet with DOLCE. AI Magazine 24(3):13-24.

(WordNet)http://www.cogsci.princeton.edu/~wn/