30
Bedeutung als Vektor? Überlegungen zur Distributionellen Semantik Christine Engelmann Germanistische Sprachwissenschaft (Friedrich-Schiller-Universität Jena) 18.01.2013

Bedeutung als Vektor? - sprachwissenschaft.uni-jena.de fileDistributionelle Semantik Forschungsbereich innerhalb der Computerlinguistik automatische Methoden zur Gewinnung und Verwendung

  • Upload
    ledieu

  • View
    226

  • Download
    0

Embed Size (px)

Citation preview

Bedeutung als Vektor? Überlegungen zur Distributionellen Semantik

Christine Engelmann

Germanistische Sprachwissenschaft (Friedrich-Schiller-Universität Jena)

18.01.2013

Distributionelle Semantik

Forschungsbereich innerhalb der Computerlinguistik

automatische Methoden zur Gewinnung und Verwendung von Wissen über die sprachliche Bedeutung

Verfahren aus dem mathematischen Gebiet der linearen Algebra

Distributionelle Semantik

(Quantifizierung der) Bedeutungsähnlichkeit zwischen sprachlichen Ausdrücken

Katze – Hund vs. Katze – Auto

Distributionelle Semantik

(Quantifizierung der) Bedeutungsähnlichkeit zwischen sprachlichen Ausdrücken

Grundlage ist die statistische Verteilung von Wörtern in umfangreichen Korpora

Distributionelle Semantik

Distributionelle Hypothese:

Wörter, die in ähnlichen sprachlichen Kontexten vorkommen, ähneln sich auch in ihrer Bedeutung

„[…] if we consider words or morphemes A and B to be more different in meaning than A and C, then we will often find that the distributions of A and B are more different than the distributions of A and C. In other words, difference of meaning correlates with difference of distribution.“ (Harris, 1954, S.43)

Distributionelle Semantik

Bedeutung und Kontext (Lin, 1998):

Eine Flasche Tezgüino steht auf dem Tisch.

Jeder mag Tezgüino.

Tezgüino macht dich betrunken.

Wir stellen Tezgüino aus Mais her.

Eine Flasche Bier steht auf dem Tisch.

Jeder mag Bier.

Bier macht dich betrunken.

Distributionelle Semantik

Arten von Kontexten:

Dokument

→ Verfahren aus dem Bereich des Information Retrieval (Stichwort Suchmaschinen)

Distributionelle Semantik

Dokument 1 Die Äpfel (Malus) bilden eine Pflanzengattung der Kernobstgewächse (Pyrinae) aus der Familie der Rosengewächse (Rosaceae). […] Die Arten der Gattung Äpfel (Malus) sind sommergrüne Bäume oder Sträucher. [...] Gemeinhin bekannt sind die mehr oder minder rundlichen, essbaren Früchte.

Dokument 2 Birnenhonig, auch Birnenkraut, Birnendicksaft, Birähung oder Birnenkonzentrat genannt, ist ein opaker, dickflüssiger, brauner bis schwarzbrauner, eingedickter Fruchtsaft aus Birnen – manchmal werden dafür auch Äpfel verwendet – der hauptsächlich in der Zentralschweiz vorkommt. […] Bei der Produktion ist zu beachten, dass man den richtigen Zeitpunkt, nämlich wenn die Birnen kernteig sind, auswählt.

Dokument 3 In einer Glühlampe lässt man einen elektrischen Strom durch einen dünnen, aus einem leitenden Material (Leiter) (meist ein Metall) bestehenden Faden fließen. […] Die aufgenommene elektrische Leistung wird jedoch nur zu einem geringeren Teil in Form von sichtbarem Licht abgestrahlt. […] sodass ab Oktober 2016 nur noch Birnen mit unter 15 Watt Leistung erlaubt seien.

Artikelfragmente aus de.wikipedia.org

Distributionelle Semantik

Aufbau einer Term-Dokument-Matrix

Dokument 1 Dokument 2 Dokument 3

Äpfel 2 1 0

Birnen 0 2 1

Bäume 1 0 0

Früchte 1 0 0

Strom 0 0 1

Licht 0 0 1

Distributionelle Semantik

Aufbau einer Term-Dokument-Matrix

Repräsentation der Wortbedeutung als Vektor, der die statistische Verteilung des Wortes über die verschiedenen Kontexte erfasst

Dokument 1 Dokument 2 Dokument 3

Äpfel 2 1 0

Birnen 0 2 1

Bäume 1 0 0

Früchte 1 0 0

Strom 0 0 1

Licht 0 0 1

Distributionelle Semantik

Berechnung der Ähnlichkeit zwischen Vektoren

→ Maß für semantische Ähnlichkeit zwischen Wörtern

häufiges Ähnlichkeitsmaß:

Kosinus des Winkels zwischen den Vektoren

ba

baba

),cos(

Distributionelle Semantik

• Semantischer Vektorraum

Äpfel

Früchte

Licht

Distributionelle Semantik

Kosinusähnlichkeiten zwischen Wortpaaren

Äpfel Birnen Bäume Früchte Strom Licht

Äpfel 1 0.400 0.894 0.894 0 0

Birnen 0.400 1 0 0 0.447 0.447

Bäume 0.894 0 1 1 0 0

Früchte 0.894 0 1 1 0 0

Strom 0 0.447 0 0 1 1

Licht 0 0.447 0 0 1 1

Distributionelle Semantik

Arten von Kontexten:

Dokument, Absatz, Satz, Phrase

Wortfenster

Distributionelle Semantik

Kookkurrenzen in Wortfenstern

Die Äpfel (Malus) bilden eine Pflanzengattung der Kernobstgewächse (Pyrinae) aus der Familie der Rosengewächse (Rosaceae). […] Die Arten der Gattung Äpfel (Malus) sind sommergrüne Bäume oder Sträucher. [...] Gemeinhin bekannt sind die mehr oder minder rundlichen, essbaren Früchte.

Distributionelle Semantik

Kookkurrenzen in Wortfenstern

Die Äpfel (Malus) bilden eine Pflanzengattung der Kernobstgewächse (Pyrinae) aus der Familie der Rosengewächse (Rosaceae). […] Die Arten der Gattung Äpfel (Malus) sind sommergrüne Bäume oder Sträucher. [...] Gemeinhin bekannt sind die mehr oder minder rundlichen, essbaren Früchte.

Distributionelle Semantik

Aufbau einer Wort-Kontext-Matrix

Die Äpfel (Malus) bilden eine Pflanzengattung der Kernobstgewächse (Pyrinae) aus der Familie der Rosengewächse (Rosaceae). […] Die Arten der Gattung Äpfel (Malus) sind sommergrüne Bäume oder Sträucher. [...] Gemeinhin bekannt sind die mehr oder minder rundlichen, essbaren Früchte.

bilden Gattung Bäume Malus ... ...

...

Äpfel 1 1 1 2 ... ...

Bäume 0 1 0 1 ... ...

...

Distributionelle Semantik

Suche: semantisch ähnlichste Wörter zu Deutschland

1.000000000052925:deutschland 0.9671432834929083:dänemark

0.9858004036876278:belgien 0.9668661861121576:irland

0.9854271741973624:italien 0.966166008757351:schweden

0.9850096231865137:großbritannien 0.9600973838326844:portugal

0.9765935471076133:england 0.9596616157425074:griechenland

0.9761468511153831:spanien 0.955503014183041:luxemburg

0.9714764739008581:frankreich 0.9549118143050283:finnland

0.9683983845810732:österreich 0.9520452487939561:schottland

Distributionelle Semantik

Suche: semantisch ähnlichste Wörter zu Bürger

1.0:bürger 0.9613630053269956:renten

0.96619220870544:arbeiter 0.961089512373858:städte

0.9648729141351022:nahrungsmittelsicherheit 0.9601737598088547:wettbewerbsfähigkeit

0.9646544703822209:arbeitnehmer 0.9582125994483329:kompetenzen

0.964564946181041:forscher 0.9581056446361504:wirtschaft

0.9634983902845092:völker 0.9580823024336814:energiesicherheit

0.9622369081218799:umwelt 0.9580615718044796:meinungsfreiheit

0.9619118985896427:verbraucher 0.9580570068932066:politiken

Distributionelle Semantik

Arten von Kontexten:

Dokument, Absatz, Satz, Phrase

Wortfenster

syntaktische Beziehungen

spezifische Muster

→ mögliche Anwendung: (automatische) Interpretation von Nominalkomposita?

Distributionelle Semantik

• Nominalkomposita

Schokoladenkuchen

Apfelbaum

Haarnadel

Holzhütte

Distributionelle Semantik

• Nominalkomposita

Schokoladenkuchen

semantische Relationen zwischen den Komponenten:

Beschreibung anhand eines festgelegten Inventars abstrakter Kategorien

Schokoladenkuchen (MATERIAL)

Paraphrasierung

Schokoladenkuchen (Y besteht aus X)

Distributionelle Semantik

• Nominalkomposita

Holzhütte?

Distributionelle Semantik

Latent Relational Analysis (Turney, 2004):

Messung der Ähnlichkeit zwischen Relationen

Suche nach Analogien

Steinmetz : Stein ≈ Zimmermann : Holz

Repräsentation der Relation im Wortpaar als Vektor, der die statistische Verteilung dieser Wörter über bestimmte sprachliche Muster erfasst

X bearbeitet Y X verwendet Y ...

...

Steinmetz:Stein 15 11 ...

Zimmermann:Holz 10 13 ...

...

Distributionelle Semantik

• Latent Relational Analysis:

• Nominalkomposita?

Y besteht aus X X ist in Y ...

...

Holz:Hütte 15 11 ...

Geschirr:Schrank 0 20 ...

Schnee:Haufen 19 0 …

Distributionelle Semantik

• Latent Relational Analysis:

– Output?

Liste sprachlicher Muster, in denen Komponenten vorkommen

→ Paraphrasierungsmöglichkeiten für Nominalkomposita zusammen mit Frequenzangabe aus dem Korpus

Maß für relationale Ähnlichkeit zu bereits klassifizierten Nominalkomposita

→ Klassifizierungsmöglichkeiten für Nominalkomposita

Holzhütte – Schneehaufen … (MATERIAL)

Holzhütte – Geschirrschrank … (LOKAL)

Distributionelle Semantik

• Überlegungen zu den Komposita:

– Nomen-Nomen-Komposita

– endozentrische Determinativkomposita

– semantisch transparente Komposita

– nicht-lexikalisierte Komposita

Fragen

• Anknüpfungspunkte zu semantischen Theorien innerhalb der Linguistik?

• Weitere Möglichkeiten der Anwendung im linguistischen Bereich?

Girju, R., Moldovan, D., Tatu, M. & Antohe, D. (2005): On the semantics of

noun compounds. Computer Speech and Language, 19, 479-496.

Harris, Zellig (1954): Distributional Structure. Word, 10, 146-162.

Jänich, K. (2004): Lineare Algebra. Berlin (u.a.) : Springer.

Lenci, A. (2008): Distributional semantics in linguistic and cognitive research. A foreword. Italian Journal of Linguistics, 20 (1), 1-31.

Levi, J.N. (1987): The syntax and semantics of complex nominals. New York: Academic Press.

Lin, D. (1998): Automatic Retrieval and Clustering of Similar Words, Proceedings of the 36th Annual Meeting of the Association for Computational Linguistics and the 17th International Conference on Computational Linguistics (COLING-ACL 98), 768-774.

Sahlgren, M. (2008): The Distributional Hypothesis. Italian Journal of Linguistics, 20 (1), 33-54.

Turney, P.D. (2004): Human-level performance on word analogy questions by latent relational analysis. Technical Report ERB-1118, NRC-47422.

Widdows, D. (2004): Geometry and Meaning. Stanford: CSLI Publications.

• Außerdem:

http://code.google.com/p/semanticvectors

http://code.google.com/p/airhead-research/

http://www.statmt.org/europarl/

http://de.wikipedia.org