31
Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos [email protected] IDS Jahrestagung Mannheim, 18.03.2005

Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos [email protected] IDS Jahrestagung Mannheim, 18.03.2005

Embed Size (px)

Citation preview

Page 1: Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos chiarcos@ling.uni-potsdam.de IDS Jahrestagung Mannheim, 18.03.2005

Semimanuelle Generierung und Auswertung von Alternativentexten

Christian [email protected]

IDS JahrestagungMannheim, 18.03.2005

Page 2: Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos chiarcos@ling.uni-potsdam.de IDS Jahrestagung Mannheim, 18.03.2005

I MotivationVariation sprachlicher Mittel

referentielle Ausdrücke bezeichnen prototypische „Objekte“ in der

Diskurswelt (Diskursreferent, Karttunen 1975) wirken kohärenzstiftend

beeinflussen Wahrnehmung und Verständlichkeit

Instrument zur Strukturierung von Texten

Page 3: Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos chiarcos@ling.uni-potsdam.de IDS Jahrestagung Mannheim, 18.03.2005

I MotivationVariation sprachlicher Mittel

referentielle Ausdrücke variieren bzgl. ihrer morphosyntaktischen Kategorie (REF)

Was wollte dein Kollege vorhin von der Gärtnerin ?

Hans kaufte bei ihr Blumen. Pronomen

Hans kaufte bei Maria Blumen. Eigenname

Hans kaufte bei der Frau Blumen. definite NP

Hans kaufte bei dieser Frau Blumen. NP + dem.prn

Page 4: Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos chiarcos@ling.uni-potsdam.de IDS Jahrestagung Mannheim, 18.03.2005

I MotivationVariation sprachlicher Mittel

referentielle Ausdrücke variieren bzgl. ihrer morphosyntaktischen Kategorie (REF) der Wortstellung (WS) der grammatischen Rollen (GR)

diese Variabilität ist nicht vollständig durch syntaktische und semantische Restriktionen determiniert

Page 5: Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos chiarcos@ling.uni-potsdam.de IDS Jahrestagung Mannheim, 18.03.2005

I MotivationProbleme

Strenge einer Kodierungsentscheidung stilistische Präferenz oder sprachlich restriktiv

„Goldstandard-Problem“ für die Textgenerierung natürliche Texte können suboptimal sein Übereinstimmung ist damit kein hinreichendes Gütekriterium

verschränkte Variabilität Abweichungen bzgl. der erwarteten Kodierung auf einer

Ebene (z.B. REF) können durch Abweichungen auf einer anderen (z.B. WS) kompensiert werden

Page 6: Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos chiarcos@ling.uni-potsdam.de IDS Jahrestagung Mannheim, 18.03.2005

II AlternativentexteHintergrund

Ziel Untersuchung dieser Freiheitsgrade Untersuchung kontextueller Parameter

Grundidee (Mellish & Yeh 1997) Lückentext Probanden wählen für jede Lücke aus

verschiedenen vorgegebenen Alternativen diese Kodierungsentscheidung kann mit der

eines Textgenerierungssystems verglichen werden

Page 7: Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos chiarcos@ling.uni-potsdam.de IDS Jahrestagung Mannheim, 18.03.2005

II AlternativentexteZielstellung

Betrachtung mehrer Ebenen sprachlicher Variation REF, WS, GR

Sicherstellung hinreichender Überlappung kurze Texte (15-20 Sätze) skalierbare Variabilität der Lückentexte

REF REF+WO REF+WO+GR

Page 8: Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos chiarcos@ling.uni-potsdam.de IDS Jahrestagung Mannheim, 18.03.2005

II AlternativentexteBasisdaten

Potsdamer Kommentarkorpus (Stede 2004) deutschsprachige Zeitungskommentare auf verschiedenen Ebenen annotiert

Morphosyntax (TIGER) Koreferenz (PoCoS) rhetorische Struktur (URML) Informationsstruktur (SFB 632) integratives Metaformat (ANNIS)

Page 9: Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos chiarcos@ling.uni-potsdam.de IDS Jahrestagung Mannheim, 18.03.2005

II AlternativentexteErzeugung und Einsatz

Erzeugung aus morphosyntaktisch (TIGER) und Koreferenz-

(PoCoS) annotierten Texten wird ein Projekt-Skelett erzeugt,

dann semimanuell mit Alternativen angereichert

Einsatz menschliche Probanden werden mit dem daraus

erstellten Lückentext („Entscheidungsbaum“) konfrontiert

Kodierungsentscheidungen („Pfade“) werden separat gespeichert

Page 10: Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos chiarcos@ling.uni-potsdam.de IDS Jahrestagung Mannheim, 18.03.2005

II AlternativentexteSemimanuelle Anreicherung

Projekt-Skelett

Koreferenz-Annotation

morphosyntaktischeAnnotation

nur eine Alternative enthaltend (denoriginalen Text)

GR

REF

WS

Alternativentext

Alternativen-annotiert

Alternativenannotation

Variation des referentiellen Ausdrucksund Kongruenzprüfung

+

Variation der grammatischen Rollen(Passivierung, Verbwechsel)

(+ )

Variation der Worstellung

(+ )

Page 11: Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos chiarcos@ling.uni-potsdam.de IDS Jahrestagung Mannheim, 18.03.2005

III XALT

Ein Format für Alternativentexte

XML-basiertstandoff-Architektur verteiltes Format

mehrere Ebenen der Annotation beziehen sich auf dieselben Basisdaten werden separat gespeichert

modulare Struktur erweiterbar platzeffizient

Page 12: Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos chiarcos@ling.uni-potsdam.de IDS Jahrestagung Mannheim, 18.03.2005

III XALT Ein Format für Alternativentexte

base.xml

ref.xml

die Worte des Textes

für jeden Referentenverschiedene referen-

tielle Ausdrücke

segments.xml

für jeden Satz alternative Ab-

folgen von Wor-ten und Ver-weisen aufReferenten

text.xml

die Abfolgeder Segmentein einem Text

Page 13: Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos chiarcos@ling.uni-potsdam.de IDS Jahrestagung Mannheim, 18.03.2005

III XALT Ein Format für Alternativentexte

base.xml

ref.xml

die Worte des Textes

für jeden Referentenverschiedene referen-

tielle Ausdrücke

segments.xml

für jeden Satz alternative Ab-folgen von Wor-

ten und Ver-weisen aufReferenten

text.xml

die Abfolgeder Segmentein einem Text

paths.xml

vom Nutzer oderAutor gewählte

Kodierungsalter-nativen

Page 14: Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos chiarcos@ling.uni-potsdam.de IDS Jahrestagung Mannheim, 18.03.2005

III XALT Beispiel

base.xml

ref.xml segments.xml text.xml

paths.xml

Was wollte dein Kollege vorhin von der Gärtnerin ?

Page 15: Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos chiarcos@ling.uni-potsdam.de IDS Jahrestagung Mannheim, 18.03.2005

III XALT Beispiel

base.xmlbase.xml

ref.xml segments.xml text.xml

paths.xml

Was1 wollte2 dein3 Kollege4 vorhin5 von6 der7 Gärtnerin8 ?9

word_1: wasword_2: wollteword_3: dein....

Page 16: Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos chiarcos@ling.uni-potsdam.de IDS Jahrestagung Mannheim, 18.03.2005

III XALT Beispiel

base.xml

ref.xmlref.xml segments.xml

paths.xml

[Was]1 wollte [[dein][[dein]22 Kollege] Kollege]33 vorhinvon [der Gärtnerin]4 ?

text.xml

ref_3: [dein]2 Kollegeder Kollege[dein]2 netter Kollegeder Kollege HansHansder Hansdieser Hans...

Page 17: Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos chiarcos@ling.uni-potsdam.de IDS Jahrestagung Mannheim, 18.03.2005

III XALT Beispiel

base.xml

ref.xml segments.xmlsegments.xml text.xml

paths.xml

Was wollte dein Kollege vorhinvon der Gärtnerin ?

seg_1: alt_1 alt_2 ...ref_1 ref_3word_2 word_2ref_3 word_5word_5 ref_1word_6 word_6ref_4 ref_4word_9 word_9

Page 18: Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos chiarcos@ling.uni-potsdam.de IDS Jahrestagung Mannheim, 18.03.2005

III XALT Beispiel

base.xml

ref.xml segments.xmlsegments.xml text.xml

paths.xml

Was wollte dein Kollege vorhinvon der Gärtnerin ?

seg_1: alt_1 ...ref_1 („was“)word_2 („wollte“)ref_3 („dein Kollege“)word_5 („vorhin“)word_6 („von“)ref_4 („der Gärtnerin“)word_9 („?“)

Page 19: Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos chiarcos@ling.uni-potsdam.de IDS Jahrestagung Mannheim, 18.03.2005

III XALT Beispiel

base.xml

ref.xml segments.xmlsegments.xml text.xml

paths.xml

Was wollte dein Kollege vorhinvon der Gärtnerin ?

seg_1: alt_1 ...ref_1ref_1 („was“)word_2 („wollte“)ref_3ref_3 („dein Kollege“)word_5 („vorhin“)word_6 („von“)ref_4ref_4 („der Gärtnerin“)word_9 („?“)

Entscheidungsknoten:referentielle Ausdrücke

Page 20: Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos chiarcos@ling.uni-potsdam.de IDS Jahrestagung Mannheim, 18.03.2005

III XALT Beispiel

base.xml

ref.xml segments.xmlsegments.xml text.xml

paths.xml

Was wollte dein Kollege vorhinvon der Gärtnerin ?

seg_1seg_1: alt_1 alt_2 ...... ref_3 („Hans“)

word_2 („wollte“)word_5 („vorhin“)ref_1 („was“)word_6 („von“)ref_4 („der G.“)word_9 („?“)

Entscheidungsknoten:Form der Äußerung

Page 21: Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos chiarcos@ling.uni-potsdam.de IDS Jahrestagung Mannheim, 18.03.2005

III XALT Beispiel

base.xml

ref.xml segments.xml text.xmltext.xml

paths.xml

[Was wollte dein Kollege vorhinvon der Gärtnerin ?]1

text_1: alt_text_1seg_1seg_2

[Hans kaufte bei ihr Blumen.]2

Page 22: Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos chiarcos@ling.uni-potsdam.de IDS Jahrestagung Mannheim, 18.03.2005

III XALT Ein partieller Entscheidungsbaum

seg_1seg_1

ref_1ref_1 was

wollte

ref_3ref_3 deinKollege

derHans

vorhin von

ref_4ref_4 derGärtnerin

ihr

?

...

...

ref_3ref_3dein

Kollegeder

Hans...

wollte vorhin

ref_1ref_1was

von

ref_4ref_4derGärtnerin

ihr

?

...

alt_1 alt_2

Page 23: Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos chiarcos@ling.uni-potsdam.de IDS Jahrestagung Mannheim, 18.03.2005

III XALT Ein Pfad

seg_1seg_1

ref_1ref_1 was

wollte

ref_3ref_3 deinKollege

derHans

vorhin von

ref_4ref_4 derGärtnerin

ihr

?

...

...

ref_3ref_3dein

Kollegeder

Hans...

wollte vorhin

ref_1ref_1was

von

ref_4ref_4derGärtnerin

ihr

?

...

alt_1

Page 24: Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos chiarcos@ling.uni-potsdam.de IDS Jahrestagung Mannheim, 18.03.2005

III XALT Beispiel

base.xml

ref.xml segments.xml text.xml

paths.xmlpaths.xml

seg_1seg_1

ref_1ref_1 was

wollte

ref_3ref_3 deinKollege

derHans

vorhin von

ref_4ref_4 derGärtnerin

ihr

?

...

...

...

pathid = „orig“

alt_1

Page 25: Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos chiarcos@ling.uni-potsdam.de IDS Jahrestagung Mannheim, 18.03.2005

IV Anwendung und Auswertungpaths.xml

ordnet in jedem Pfad jedem Entscheidungsknoten eine getroffene Kodierungsentscheidung zu

gestattet die Rekonstruktion des Textes

enthält zusätzlich Verweise auf die Form des referentiellen Ausdrucks (REF) grammatische Relationen (GR) Wortstellung (WS)

alleiniger Gegenstand der empirischen Auswertung

Page 26: Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos chiarcos@ling.uni-potsdam.de IDS Jahrestagung Mannheim, 18.03.2005

IV Anwendung und AuswertungStatistische Auswertung

empirische Erfassung der Voraussagekraft verschiedener Kontextfaktoren für das Eintreten und die Variabilität einer gewählten Realisierungsoption Relevanz- („importance/salience“) Indikatoren Givenness- („contextual boundedness/salience“)

Indikatoren

praktisch hochrelevant für Aspekte der Maschinellen Textgenerierung, -zusammenfassung und -interpretation

Page 27: Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos chiarcos@ling.uni-potsdam.de IDS Jahrestagung Mannheim, 18.03.2005

IV Anwendung und AuswertungTheoretische Interpretation

Vergleich von Voraussagen verschiedener Theorien zu referentieller Kohärenz und Anaphernresolution anhand empirischer Daten Centering Theory (Grosz et al. 1995) Givón (2001) Sgall et al. (1986) ...

Page 28: Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos chiarcos@ling.uni-potsdam.de IDS Jahrestagung Mannheim, 18.03.2005

IV Anwendung und AuswertungEvaluation der Textgenerierung

automatisch abgeleitete Kodierungspräferenzen werden mit manuell gewählten verglichen

der Grad der Übereinstimmung, gewichtet mit der Variabilität einer Kodierungsentscheidung, kann als Gütefunktion verwendet werden

Im Unterschied zum Goldstandard-Ansatz wird dabei über mehrere Varianten in einem festen lokalen Kontext generalisiert Minimierung von individuellen/stilistischen Artefakten

Page 29: Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos chiarcos@ling.uni-potsdam.de IDS Jahrestagung Mannheim, 18.03.2005

A Platzkomplexität

wir betrachten einen Satz mit transitivem Verb, zwei Argumenten, einem Adjunkt und einem AdverbHans kaufte gestern bei Maria Blumen.

Page 30: Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos chiarcos@ling.uni-potsdam.de IDS Jahrestagung Mannheim, 18.03.2005

A PlatzkomplexitätHans kaufte gestern bei Maria Blumen.

REF pro Referent durch eine große Konstante abschätzbar, z.B.

10, daher 103=1000

GR Passivierung: 2 Verbalternation: mind. 2 (verkaufen)

WS Vorfeldbesetzung + Variation im Mittelfeld ca. 4!=24

Permutationen

Varianten pro Satz 1.000 * 4 * 24 = 96.000

Page 31: Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos chiarcos@ling.uni-potsdam.de IDS Jahrestagung Mannheim, 18.03.2005

in Abhängigkeit von der Länge n eines Satzesbase.xml O(log n + n)ref.xml O(n*log n) linear: max. konstant viele neue Referenten pro Satz mit

konstant beschränkbarer Länge

segment.xml O(n!*nc*log n) nur aus Verweisen bestehend

text.xml O(1)gesamt verteilt O(n!*nc*log n) monolithisch O(n!*nc)

A PlatzkomplexitätHans kaufte gestern bei Maria Blumen.