36
Tanja Eder Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Lexikalische Datenbanken WordNet – RussNet EuroWordNet und Global WordNet Association

Tanja Eder Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Lexikalische Datenbanken WordNet – RussNet EuroWordNet und Global WordNet Association

Embed Size (px)

Citation preview

Page 1: Tanja Eder Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Lexikalische Datenbanken WordNet – RussNet EuroWordNet und Global WordNet Association

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

Lexikalische DatenbankenWordNet – RussNet

EuroWordNet und Global WordNet Association

Page 2: Tanja Eder Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Lexikalische Datenbanken WordNet – RussNet EuroWordNet und Global WordNet Association

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

WordNet

• Über WordNet• Verwandte Projekte• Datenbank Statistiken• Häufig gestellte Fragen

Page 3: Tanja Eder Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Lexikalische Datenbanken WordNet – RussNet EuroWordNet und Global WordNet Association

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

Über WordNet• seit 1985 am Wahrnehmungswissenschaftlichen

Laboratorium der Princeton Universität entwickelter Wortschatz der englischen Sprache, unter der Leitung von Professor George A. Miller.

Page 4: Tanja Eder Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Lexikalische Datenbanken WordNet – RussNet EuroWordNet und Global WordNet Association

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

Über WordNet

• WordNet besteht aus einer lexikalischen Datenbank

• ursprünglich entwickelt, um natürlichsprachliche Texte für den Computer verständlich zu machen

• Datenbank - frei durchsuchbar und kostenlos

Page 5: Tanja Eder Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Lexikalische Datenbanken WordNet – RussNet EuroWordNet und Global WordNet Association

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

Über WordNet

• WordNet enthält nur englische Substantive, Verben, Adjektive und Adverben

• Keine Präpositionen, Partikel, Konjunktionen oder Pronomen wie of, an, the, and, about, because, etc.

Page 6: Tanja Eder Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Lexikalische Datenbanken WordNet – RussNet EuroWordNet und Global WordNet Association

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

Über WordNet

• Die folgenden Personen in Princeton arbeiten an der ständigen Entwicklung von WordNet:

- Professor George A. Miller- Dr. Christiane Fellbaum - Randee Tengi u.a.

Page 7: Tanja Eder Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Lexikalische Datenbanken WordNet – RussNet EuroWordNet und Global WordNet Association

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

Über WordNet• Developers Forum

Robert Oschler http://www.wordnetchat.com/phpBB2/• Literatur

Christine Fellbaum (Hrsg.): Wordnet: An Electronic Lexical Database, Bradford Book, 1998, ISBN 026206197X (englisch)

• Weblinkshttp://wordnet.princeton.edu/ - WordNet-Homepage http://www.globalwordnet.org/ - Global WordNet Association http://staff.science.uva.nl/~kamps/wordnet/ WordNet-Visualisierung von http://de.wikipedia.org/wiki/WordNet

Page 8: Tanja Eder Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Lexikalische Datenbanken WordNet – RussNet EuroWordNet und Global WordNet Association

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

Verwandte Projekte

• Semantische Netzwerke • Web Interfaces (Schnittstellen) • Local Interfaces • Erweiterungen • Mappings

Page 9: Tanja Eder Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Lexikalische Datenbanken WordNet – RussNet EuroWordNet und Global WordNet Association

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

Datenbank Statistiken

• http://wordnet.princeton.edu/man/wnstats.7WN

• Die Summe von allen einzigartigen Nomen, Verben, Adjektiven und Adverben beläuft sich auf 147.249

Page 10: Tanja Eder Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Lexikalische Datenbanken WordNet – RussNet EuroWordNet und Global WordNet Association

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

Häufig gestellte Fragen

• http://wordnet.princeton.edu/faq

Page 11: Tanja Eder Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Lexikalische Datenbanken WordNet – RussNet EuroWordNet und Global WordNet Association

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

EuroWordNet

• Mehrsprachige Datenbank mit WordNets für mehrere europäische Sprachen

• Projektstart: März 1996• Projektende: Juni 1999

Page 12: Tanja Eder Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Lexikalische Datenbanken WordNet – RussNet EuroWordNet und Global WordNet Association

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

EuroWordNet

• Selbe Struktur wie Princeton WordNet• Synsets und semantische Beziehungen• einzigartiges spracheninternes System von

Lexika• alle WordNets sind mit einem inter-

sprachlichen Index verbunden (ILI)

Page 13: Tanja Eder Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Lexikalische Datenbanken WordNet – RussNet EuroWordNet und Global WordNet Association

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

EuroWordNet

• http://www.illc.uva.nl/EuroWordNet/• Über den Index sind die Sprachen

miteinander verbunden• Wechsel von Wörtern in einer Sprache zu

ähnlichen Wörtern in jeder anderen Sprache

Page 14: Tanja Eder Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Lexikalische Datenbanken WordNet – RussNet EuroWordNet und Global WordNet Association

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

EuroWordNet

• Das Design der Datenbank, die festgelegten Beziehungen und der inter-sprachliche Index wurden auf Eis gelegt

Page 15: Tanja Eder Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Lexikalische Datenbanken WordNet – RussNet EuroWordNet und Global WordNet Association

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

EuroWordNet

• Institutionen und Forschungsgruppen entwickeln ähnliche WordNets in anderen Sprachen (europäische und nicht-europäische), die die technischen Daten von EuroWordNet verwenden

Page 16: Tanja Eder Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Lexikalische Datenbanken WordNet – RussNet EuroWordNet und Global WordNet Association

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

EuroWordNet

• Entwicklung von WordNets für Schwedisch, Norwegisch, Dänisch, Griechisch, Portugisisch, Baskisch, Katalanisch, Rumänisch, Lithauisch, Russisch, Bulgarisch und Slowenisch

Page 17: Tanja Eder Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Lexikalische Datenbanken WordNet – RussNet EuroWordNet und Global WordNet Association

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

EuroWordNet

• Die Grundstruktur von EuroWordNet wird durch die Global WordNet Association weitergeführt

Page 18: Tanja Eder Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Lexikalische Datenbanken WordNet – RussNet EuroWordNet und Global WordNet Association

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

Global WordNet Association

• freie und öffentliche Vereinigung, die auf EuroWordNet und Princeton WordNet aufgebaut ist

• Plattform für Diskussionen, zeigt die Verbindung von WordNets in allen Sprachen

Page 19: Tanja Eder Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Lexikalische Datenbanken WordNet – RussNet EuroWordNet und Global WordNet Association

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

Global WordNet Association

• Ziel: weitere Entwicklung von WordNets ankurbeln und WordNets in allen Sprachen der Welt miteinander zu verbinden

• http://www.globalwordnet.org

Page 20: Tanja Eder Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Lexikalische Datenbanken WordNet – RussNet EuroWordNet und Global WordNet Association

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

RussNet

• Über RussNet о РуссНет• Ziel цель• Derzeitige Größe теку́щий объём

Page 21: Tanja Eder Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Lexikalische Datenbanken WordNet – RussNet EuroWordNet und Global WordNet Association

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

RussNet

• Projekt Neuigkeiten но́вости прое́кта

• Quellen исто́чники

• Methoden ме́тоды

Page 22: Tanja Eder Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Lexikalische Datenbanken WordNet – RussNet EuroWordNet und Global WordNet Association

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

RussNet

• Beziehungen отноше́ния

• Datenbankstrukturen структу́ра

Page 23: Tanja Eder Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Lexikalische Datenbanken WordNet – RussNet EuroWordNet und Global WordNet Association

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

RussNet

• Definitionen определе́ния

• Anwendungпракти́ческое примене́ние

Page 24: Tanja Eder Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Lexikalische Datenbanken WordNet – RussNet EuroWordNet und Global WordNet Association

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

Über RussNet О РуссНет

• lexikalische, semantische Datenbank für die Russische Sprache

• Abteilung für angewandte und mathematische Linguistik - Philologische Fakultät - St. Petersburger Staatsuniversität

Page 25: Tanja Eder Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Lexikalische Datenbanken WordNet – RussNet EuroWordNet und Global WordNet Association

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

Über RussNet О РуссНет

• Das Projekt startete 1999• 57 (bzw. 8) Linguisten

Page 26: Tanja Eder Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Lexikalische Datenbanken WordNet – RussNet EuroWordNet und Global WordNet Association

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

Ziel Цель

• Entwicklung einer Quelle für allgemeine Zwecke, die das lexikalische System des Russischen als ganzes repräsentiert, das Basisvokabular des modernen Russisch enthält...

Page 27: Tanja Eder Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Lexikalische Datenbanken WordNet – RussNet EuroWordNet und Global WordNet Association

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

ZielЦель

• ...und semantische, semantisch-grammatische und semantisch-nachgeahmte Beziehungen zwischen den Wörtern enthält, die für das Russische relevant sind

http://www.phil.pu.ru/depts/12/RN/

Page 28: Tanja Eder Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Lexikalische Datenbanken WordNet – RussNet EuroWordNet und Global WordNet Association

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

Derzeitige Größe Теку́щий объём

• Mehr als 5500 Synsets:- 1300 Nomen Synsets, - 1900 Verb Synsets, - 1100 Adjektiv Synsets, - 200 Adverb Synsets. - ~10-12000 Synsets sind für die letzte

Ausgabe vorbereitet

Page 29: Tanja Eder Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Lexikalische Datenbanken WordNet – RussNet EuroWordNet und Global WordNet Association

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

Projekt NeuheitenНо́вости прое́кта

• 14 Dezember 2003Beispiel für Datengrundsätze

• 15 Oktober 2003Praktische Anwendung und Ergebnisse

• 13 Oktober 2003Änderung des Designs. Entstehen der russ.Seite

Page 30: Tanja Eder Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Lexikalische Datenbanken WordNet – RussNet EuroWordNet und Global WordNet Association

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

Quellen Исто́чники

• Erklärende Wörterbücher• Häufigkeitslisten• Assoziationswörterbücher • Synonymwörterbücher • Thesauri • Künstlerische Texte • Publizistische Texte

Page 31: Tanja Eder Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Lexikalische Datenbanken WordNet – RussNet EuroWordNet und Global WordNet Association

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

Methoden Ме́тоды

• Allgemeine Strategie • Sammeln von Grundkonzepten• Definitionsanalysen • Hergeleitete Analysen• Kontextanalysen

Page 32: Tanja Eder Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Lexikalische Datenbanken WordNet – RussNet EuroWordNet und Global WordNet Association

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

Beziehungen Отноше́ния

• Beziehungen zwischen Synsets• Beziehungen zwischen Wörtern

Page 33: Tanja Eder Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Lexikalische Datenbanken WordNet – RussNet EuroWordNet und Global WordNet Association

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

Datenbankstruktur Структу́ра

• Vererbte Konstruktionsgrundsätze• PoS files

Nomen VerbenAdjektiveAdverben

• Erklärungen

Page 34: Tanja Eder Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Lexikalische Datenbanken WordNet – RussNet EuroWordNet und Global WordNet Association

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

Definitionen Определе́ния

• nicht nur für maschinelle Benutzung - auch für die menschliche Interaktion entwickelt

• zusätzliche Informationen, die dem Benutzer helfen Wortbedeutungen bzw. Definitionen schnell zu erkennen

Page 35: Tanja Eder Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Lexikalische Datenbanken WordNet – RussNet EuroWordNet und Global WordNet Association

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

Anwendung Практи́ческое примене́ние

• RussNet als einsprachige Quelle• RussNet als mehrsprachige Quelle

• http://www.phil.pu.ru/depts/12/RN/applications_ru.shtml

Page 36: Tanja Eder Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Lexikalische Datenbanken WordNet – RussNet EuroWordNet und Global WordNet Association

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

Danke für eure Aufmerksamkeit!Thank you for your attention!!

Спаси́бо за внима́ние!!!