Tanja Eder Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Lexikalische Datenbanken...

Preview:

Citation preview

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

Lexikalische DatenbankenWordNet – RussNet

EuroWordNet und Global WordNet Association

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

WordNet

• Über WordNet• Verwandte Projekte• Datenbank Statistiken• Häufig gestellte Fragen

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

Über WordNet• seit 1985 am Wahrnehmungswissenschaftlichen

Laboratorium der Princeton Universität entwickelter Wortschatz der englischen Sprache, unter der Leitung von Professor George A. Miller.

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

Über WordNet

• WordNet besteht aus einer lexikalischen Datenbank

• ursprünglich entwickelt, um natürlichsprachliche Texte für den Computer verständlich zu machen

• Datenbank - frei durchsuchbar und kostenlos

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

Über WordNet

• WordNet enthält nur englische Substantive, Verben, Adjektive und Adverben

• Keine Präpositionen, Partikel, Konjunktionen oder Pronomen wie of, an, the, and, about, because, etc.

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

Über WordNet

• Die folgenden Personen in Princeton arbeiten an der ständigen Entwicklung von WordNet:

- Professor George A. Miller- Dr. Christiane Fellbaum - Randee Tengi u.a.

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

Über WordNet• Developers Forum

Robert Oschler http://www.wordnetchat.com/phpBB2/• Literatur

Christine Fellbaum (Hrsg.): Wordnet: An Electronic Lexical Database, Bradford Book, 1998, ISBN 026206197X (englisch)

• Weblinkshttp://wordnet.princeton.edu/ - WordNet-Homepage http://www.globalwordnet.org/ - Global WordNet Association http://staff.science.uva.nl/~kamps/wordnet/ WordNet-Visualisierung von http://de.wikipedia.org/wiki/WordNet

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

Verwandte Projekte

• Semantische Netzwerke • Web Interfaces (Schnittstellen) • Local Interfaces • Erweiterungen • Mappings

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

Datenbank Statistiken

• http://wordnet.princeton.edu/man/wnstats.7WN

• Die Summe von allen einzigartigen Nomen, Verben, Adjektiven und Adverben beläuft sich auf 147.249

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

Häufig gestellte Fragen

• http://wordnet.princeton.edu/faq

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

EuroWordNet

• Mehrsprachige Datenbank mit WordNets für mehrere europäische Sprachen

• Projektstart: März 1996• Projektende: Juni 1999

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

EuroWordNet

• Selbe Struktur wie Princeton WordNet• Synsets und semantische Beziehungen• einzigartiges spracheninternes System von

Lexika• alle WordNets sind mit einem inter-

sprachlichen Index verbunden (ILI)

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

EuroWordNet

• http://www.illc.uva.nl/EuroWordNet/• Über den Index sind die Sprachen

miteinander verbunden• Wechsel von Wörtern in einer Sprache zu

ähnlichen Wörtern in jeder anderen Sprache

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

EuroWordNet

• Das Design der Datenbank, die festgelegten Beziehungen und der inter-sprachliche Index wurden auf Eis gelegt

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

EuroWordNet

• Institutionen und Forschungsgruppen entwickeln ähnliche WordNets in anderen Sprachen (europäische und nicht-europäische), die die technischen Daten von EuroWordNet verwenden

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

EuroWordNet

• Entwicklung von WordNets für Schwedisch, Norwegisch, Dänisch, Griechisch, Portugisisch, Baskisch, Katalanisch, Rumänisch, Lithauisch, Russisch, Bulgarisch und Slowenisch

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

EuroWordNet

• Die Grundstruktur von EuroWordNet wird durch die Global WordNet Association weitergeführt

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

Global WordNet Association

• freie und öffentliche Vereinigung, die auf EuroWordNet und Princeton WordNet aufgebaut ist

• Plattform für Diskussionen, zeigt die Verbindung von WordNets in allen Sprachen

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

Global WordNet Association

• Ziel: weitere Entwicklung von WordNets ankurbeln und WordNets in allen Sprachen der Welt miteinander zu verbinden

• http://www.globalwordnet.org

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

RussNet

• Über RussNet о РуссНет• Ziel цель• Derzeitige Größe теку́щий объём

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

RussNet

• Projekt Neuigkeiten но́вости прое́кта

• Quellen исто́чники

• Methoden ме́тоды

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

RussNet

• Beziehungen отноше́ния

• Datenbankstrukturen структу́ра

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

RussNet

• Definitionen определе́ния

• Anwendungпракти́ческое примене́ние

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

Über RussNet О РуссНет

• lexikalische, semantische Datenbank für die Russische Sprache

• Abteilung für angewandte und mathematische Linguistik - Philologische Fakultät - St. Petersburger Staatsuniversität

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

Über RussNet О РуссНет

• Das Projekt startete 1999• 57 (bzw. 8) Linguisten

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

Ziel Цель

• Entwicklung einer Quelle für allgemeine Zwecke, die das lexikalische System des Russischen als ganzes repräsentiert, das Basisvokabular des modernen Russisch enthält...

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

ZielЦель

• ...und semantische, semantisch-grammatische und semantisch-nachgeahmte Beziehungen zwischen den Wörtern enthält, die für das Russische relevant sind

http://www.phil.pu.ru/depts/12/RN/

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

Derzeitige Größe Теку́щий объём

• Mehr als 5500 Synsets:- 1300 Nomen Synsets, - 1900 Verb Synsets, - 1100 Adjektiv Synsets, - 200 Adverb Synsets. - ~10-12000 Synsets sind für die letzte

Ausgabe vorbereitet

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

Projekt NeuheitenНо́вости прое́кта

• 14 Dezember 2003Beispiel für Datengrundsätze

• 15 Oktober 2003Praktische Anwendung und Ergebnisse

• 13 Oktober 2003Änderung des Designs. Entstehen der russ.Seite

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

Quellen Исто́чники

• Erklärende Wörterbücher• Häufigkeitslisten• Assoziationswörterbücher • Synonymwörterbücher • Thesauri • Künstlerische Texte • Publizistische Texte

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

Methoden Ме́тоды

• Allgemeine Strategie • Sammeln von Grundkonzepten• Definitionsanalysen • Hergeleitete Analysen• Kontextanalysen

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

Beziehungen Отноше́ния

• Beziehungen zwischen Synsets• Beziehungen zwischen Wörtern

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

Datenbankstruktur Структу́ра

• Vererbte Konstruktionsgrundsätze• PoS files

Nomen VerbenAdjektiveAdverben

• Erklärungen

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

Definitionen Определе́ния

• nicht nur für maschinelle Benutzung - auch für die menschliche Interaktion entwickelt

• zusätzliche Informationen, die dem Benutzer helfen Wortbedeutungen bzw. Definitionen schnell zu erkennen

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

Anwendung Практи́ческое примене́ние

• RussNet als einsprachige Quelle• RussNet als mehrsprachige Quelle

• http://www.phil.pu.ru/depts/12/RN/applications_ru.shtml

Tanja Eder

Slawische Korpuslinguistik515.005

Prof. Tosovic, SS 2006

Danke für eure Aufmerksamkeit!Thank you for your attention!!

Спаси́бо за внима́ние!!!

Recommended