44
Aspekte der Natural Language Generation Esther Seyffarth, Ronja Laarmann-Quante TaCoS 25, 15./16.05.2015, München

NLG Workshop

Embed Size (px)

Citation preview

Page 1: NLG Workshop

Aspekte der Natural Language Generation

Esther Seyffarth,

Ronja Laarmann-Quante

TaCoS 25, 15./16.05.2015, München

Page 2: NLG Workshop

TaCoS 25, München 15. April 2023 2

Anwendungsbereiche der NLG

sehr formale Texte • Automatische Wetterberichte• Automatische Routenbeschreibung (Navi)

etwas formale Texte • Produktbeschreibung (E-Commerce)• SEO-Text auf Webseiten• Automatische Zusammenfassung

sehr informelle Texte • Chatbot zur Unterhaltung (z.B. ELIZA)• Twitterbot (als Kunstform oder zur Verbreitung von

Informationen)• Spam?• Handy-Sprachsteuerung (z.B. Siri, Google Now)

Page 3: NLG Workshop

TaCoS 25, München 15. April 2023 3

Wichtige Eigenschaften natürlicher Sprache

• Um Sprache generieren zu können, müssen wir zunächst herausfinden, was die „Natürlichkeit“ natürlicher Sprache konkret ausmacht.

• Die Ergebnisse der Sprachgenerierung sollen idealerweise nicht wie generierte Texte wirken!

• Tricks, um die wahrgenommene „Natürlichkeit“ zu erhöhen:

• Schreibfehler• Interjektionen• Ungenauigkeit im Ausdruck• …

Page 4: NLG Workshop

TaCoS 25, München 15. April 2023 4

Beispiel: Eigenschaften von Chatsprache

1. Freie Plauderchats

marc30: ich mal wieder nich...

quaki: was hast denn zori??

quaki: erzähl

Lantonie: Das hast du dir verdient, zori?

TomcatMJ: oh man wat fürn krawall hier draußen...*guck*

zora: nur einsen *brustschwell*

stoeps: ree :-)))

Quelle: Dortmunder Chatkorpus (http://www.chatkorpus.tu-dortmund.de/)

Phonetisch motivierte Abweichungen

Aktionswörter

Akronyme

Emoticons

Page 5: NLG Workshop

TaCoS 25, München 15. April 2023 5

Beispiel: Eigenschaften von Chatsprache

2. Professionelle Chats

BENUTZER: vielen Dank.

AUSKUNFT: Bittesehr. Haben Sie weitere Fragen?

BENUTZER: noch eine frage:

AUSKUNFT: Ja?

BENUTZER. ich studiere in essen an einer fachhochschule (FOM) kann ich bücher aus der lehrbuchsammlung überhaupt

ausleihen?

AUSKUNFT: Nur wenn Sie in der FH Dortmund, Bochum, Gelsenkirchen oder Hagen studieren

Quelle: Dortmunder Chatkorpus (http://www.chatkorpus.tu-dortmund.de/)

Tokenisierungsfehler

Kleinschreibung

Page 6: NLG Workshop

TaCoS 25, München 15. April 2023 6

Beispiel: Eigenschaften von Chatsprache

3. Plauderchats im Medienkontext

totty: Renie, wenn du mir endlich ne Erhöhung gestatten würdest, wäre och vieles einfacher ;-))

Revoluzzer:@heiland: KLAR DOCH, wenn eine Frau arbeitet und nen Kind hat ist das gleich ne Rabenmutter

Revoluzzer:so sieht's aus im Vaterland

Heiland11: In meiner generation nicht

Gonzman: @revo so krass sehe ich das aba auch net

Quelle: Dortmunder Chatkorpus (http://www.chatkorpus.tu-dortmund.de/)

Vollgroßschreibung

Adressierungen

Page 7: NLG Workshop

TaCoS 25, München 15. April 2023 9

Exkurs: Maschinen mit Persönlichkeit

• Einem Computer das Verstehen von Sprache beizubringen, ist Zukunftsmusik. (Warum?)

• Wir können aber Regeln definieren, die es so aussehen lassen, als würde der Computer „wissen“, worum es geht:

George: I‘m George.

ELIZA: Do you believe it is normal to be George?

George: I don‘t know. I‘ve been George all my life.

ELIZA: Tell me more about that.

• Alle pragmatischen Aspekte menschlicher Unterhaltungen können vom Computer höchstens simuliert werden.

Page 8: NLG Workshop

TaCoS 25, München 15. April 2023 10

Generierte Texte: E-Commerce

Mit dem UE48H6270 erhalten Sie einen LED-Fernseher von Samsung mit einer Display-Diagonale von 121 cm (48 Zoll). Der Samsung UE48H6270 bietet brillante 3D-Bilder in scharfer Full HD-Auflösung sowie eine kabellose Datenübertragung. Das sparsame Display des LED-Fernsehers garantiert eine reflexionsarme Darstellung mit warmen und natürlichen Farben. Die Full HD-Auflösung auf dem Samsung UE48H6270 bietet ideale Voraussetzungen, um auf dem LED-Fernseher Kinofilme in brillanter Qualität zu genießen.

Page 9: NLG Workshop

TaCoS 25, München 15. April 2023 11

Generierte Texte: SEO

Delikate Spezialitäten bei einem Lieferdienst in 80538 München bestellen

Ein zuverlässiger Tipp sind die leckeren Gerichte Rigatoni Spinaci, Hummerkrabben in Erdnusssauce oder Gebratener Reis mit Hühnerfleisch. Nur selten zu finden, aber dennoch einen Versuch wert: Häagen Dazs Cookies und Cream, 500 ml. Der Mindestbestellwert im Durchschnitt bei Essen Zustellservices in 80538 München beträgt 22 Euro.

Page 10: NLG Workshop

TaCoS 25, München 15. April 2023 12

Generierte Texte: Automatische Zusammenfassung

Bundeswehr in Kongo

Die Parlamentsarmee

Die Überlegungen , ein Kontingent der Bundeswehr zur Absicherung der Wahlen nach Kongo zu schicken , stehen unter keinem guten Stern .

Für Angela Merkel stand wohl auch schnell fest , dass die Bundesrepublik das den Einsatz führende Land sein würde .

Der Verteidigungsminister , obwohl in die Überlegungen eingebunden , tat jedoch so , als sei die Entscheidung längst noch nicht gefallen .

Page 11: NLG Workshop

TaCoS 25, München 15. April 2023 13

Generierte Texte: Automatische Zusammenfassung

( 23.03.2006 )

Bundeswehr in Kongo

Die Parlamentsarmee

Die Überlegungen , ein Kontingent der Bundeswehr zur Absicherung der Wahlen nach Kongo zu schicken , stehen unter keinem guten Stern .

Für die Bundeskanzlerin war relativ früh klar , dass Deutschland sich einem entsprechenden Wunsch der UN nicht würde entziehen können .

Für Angela Merkel stand wohl auch schnell fest , dass die Bundesrepublik das den Einsatz führende Land sein würde .

Aus beidem hat sie kein Hehl gemacht .

Der Verteidigungsminister , obwohl in die Überlegungen eingebunden , tat jedoch so , als sei die Entscheidung längst noch nicht gefallen .

Das rächt sich nun .

In beiden Regierungsfraktionen gibt es heftigen Widerstand gegen eine nicht schlüssig vermittelte Operation der Bundeswehr in Westafrika .

Die Bundeswehr aber ist eine Parlamentsarmee .

Nur die Abgeordneten können Auslandseinsätze anordnen .

Die Soldaten haben jedoch einen moralischen Anspruch darauf , dass der Bundestag mit großer Mehrheit hinter dem Auftrag steht .

Schließlich geht es um ihr Leben .

Beim derzeitigen Stand der Debatte fehlen also die Voraussetzungen für eine Kongomission .

apz

Page 12: NLG Workshop

TaCoS 25, München 15. April 2023 14

Automatische Zusammenfassung

• Idee: Text ≠ Aneinanderreihung irgendwelcher Sätze

• U.a. semantische Relationen zwischen Wörtern

• Lexikalische Kette (Morris & Hirst, 1991): Sequenz von Wörtern, zwischen denen semantische Relationen bestehen

Für die Bundeskanzlerin war relativ früh klar , dass Deutschland sich einem entsprechenden Wunsch der UN nicht würde entziehen können . Für Angela Merkel stand wohl auch schnell fest , dass die Bundesrepublik das den Einsatz führende Land sein würde .

= thematische Einheit

Page 13: NLG Workshop

TaCoS 25, München 15. April 2023 15

Automatische Zusammenfassung

Anwendung für die automatische Textzusammenfassung nach Barzilay und Elhadad (1997):

1. Bestimmung thematischer Einheiten eines Textes mithilfe lexikalischer Ketten (z. B. mithilfe von Wiktionary)

„Was wird thematisch im Text behandelt?“

2. Gewichtung der Ketten, Bestimmung von starken Ketten

„Worum geht es im Text hauptsächlich?“

3. Extraktion von Sätzen als Repräsentanten für die jeweilige thematische Einheit

„Welche Sätze spiegeln konkret das jeweilige Thema wider?“

Page 14: NLG Workshop

TaCoS 25, München 15. April 2023 16

Lexikalische Ketten

( 23.03.2006 )

Bundeswehr in Kongo

Die Parlamentsarmee

Die Überlegungen , ein Kontingent der Bundeswehr zur Absicherung der Wahlen nach Kongo zu schicken , stehen unter keinem guten Stern .

Für die Bundeskanzlerin war relativ früh klar , dass Deutschland sich einem entsprechenden Wunsch der UN nicht würde entziehen können .

Für Angela Merkel stand wohl auch schnell fest , dass die Bundesrepublik das den Einsatz führende Land sein würde .

Aus beidem hat sie kein Hehl gemacht .

Der Verteidigungsminister , obwohl in die Überlegungen eingebunden , tat jedoch so , als sei die Entscheidung längst noch nicht gefallen .

Das rächt sich nun .

In beiden Regierungsfraktionen gibt es heftigen Widerstand gegen eine nicht schlüssig vermittelte Operation der Bundeswehr in Westafrika .

Die Bundeswehr aber ist eine Parlamentsarmee .

Nur die Abgeordneten können Auslandseinsätze anordnen .

Die Soldaten haben jedoch einen moralischen Anspruch darauf , dass der Bundestag mit großer Mehrheit hinter dem Auftrag steht .

Schließlich geht es um ihr Leben .

Beim derzeitigen Stand der Debatte fehlen also die Voraussetzungen für eine Kongomission .

apz

Page 15: NLG Workshop

TaCoS 25, München 15. April 2023 17

Sätze in der Zusammenfassung

( 23.03.2006 )

Bundeswehr in Kongo

Die Parlamentsarmee

Die Überlegungen , ein Kontingent der Bundeswehr zur Absicherung der Wahlen nach Kongo zu schicken , stehen unter keinem guten Stern .

Für die Bundeskanzlerin war relativ früh klar , dass Deutschland sich einem entsprechenden Wunsch der UN nicht würde entziehen können .

Für Angela Merkel stand wohl auch schnell fest , dass die Bundesrepublik das den Einsatz führende Land sein würde .

Aus beidem hat sie kein Hehl gemacht .

Der Verteidigungsminister , obwohl in die Überlegungen eingebunden , tat jedoch so , als sei die Entscheidung längst noch nicht gefallen .

Das rächt sich nun .

In beiden Regierungsfraktionen gibt es heftigen Widerstand gegen eine nicht schlüssig vermittelte Operation der Bundeswehr in Westafrika .

Die Bundeswehr aber ist eine Parlamentsarmee .

Nur die Abgeordneten können Auslandseinsätze anordnen .

Die Soldaten haben jedoch einen moralischen Anspruch darauf , dass der Bundestag mit großer Mehrheit hinter dem Auftrag steht .

Schließlich geht es um ihr Leben .

Beim derzeitigen Stand der Debatte fehlen also die Voraussetzungen für eine Kongomission .

apz

X XX X X

X

X X

X X

X

X

Precision: 0.8Recall: 0.57

F-Score: 0.67

Page 16: NLG Workshop

TaCoS 25, München 15. April 2023 18

Einfachste Textgenerierungsprojekte

• Im simpelsten Fall kann ein generierter Text die Form haben, dass Inhalte nach fest vorgegebenen Zusammensetzungsregeln kombiniert werden.

Page 17: NLG Workshop

TaCoS 25, München 15. April 2023 19

Einfachste Textgenerierungsprojekte (2)

• Bei einer ausreichend großen Datenbasis kann diese Methode zu überraschenden und sogar zufriedenstellenden Ergebnissen führen!

Quelle: Twitterbot @VergleichBot: https://twitter.com/vergleichbot

Page 18: NLG Workshop

TaCoS 25, München 15. April 2023 20

Einfachste Textgenerierungsprojekte (3)

• Zusätzlich zu einem Satz-Template, das mit Inhalten befüllt wird, kann man auch weitere Bedingungen definieren, die die Inhalte erfüllen müssen.

Quelle: Twitterbot @ParsExToto: https://twitter.com/parsextoto

Page 19: NLG Workshop

TaCoS 25, München 15. April 2023 21

Komplexere Textgenerierungsprojekte

• Im National Novel Generation Month schreibt man zwischen 1. und 30. November ein Programm, das einen Roman von 50.000 Wörtern erzeugt.

• Weitere Spielregeln gibt es nicht. Der Roman kann auch aus 50.000 Wiederholungen des Wortes „meow“ bestehen. (Siehe Einreichung #50 des NaNoGenMo 2014.)

• Weil die Mindestanforderung so simpel ist, lädt der NaNoGenMo dazu ein, beliebig herumzuexperimentieren und kreativ zu sein.

Page 20: NLG Workshop

TaCoS 25, München 15. April 2023 22

NaNoGenMo

• Um einen Text von 50.000 Wörtern zu erzeugen, brauchen wir eine Datenbasis, anhand derer wir unserem Programm Sprache „beibringen“ können.

• Viele Teilnehmer/innen haben 2014 Tweets als Korpus verwendet.

It's 3:00pm and I'm in my pj's. That's allowed on a Sunday, right? It's 3:01PM and Raymond Felton is still a Knick. Obama's America. It's 3.02pm and all I have achieved today is getting out of bed, and that was only about 20 minutes ago. It's 3:03pm and I haven't had anything to eat all day! I'm kindaaaa hungry but idk what I wanna eat. It's 3:04pm and I haven't had lunch.... It's 3:05pm and all finished , what to do for the next 3 hours ... any suggestions?

Page 21: NLG Workshop

TaCoS 25, München 15. April 2023 23

NaNoGenMo

• Markov-Ketten sind ein beliebtes Mittel zur Generierung von Texten – wenn sie etwas abgedreht klingen dürfen…

Zährechen irstie Ton sicheit vortenundeute dießen mehr Kon mus ab. kund Verg ver etkrischte, dig das eine Proch geriser in den Zorne eilichte war plinste sich hiellen Ton, ung, esagen Wohl, und diegen zug inen häft und esen hier geängmalecht =Grobendir ja Jundemeheugen Hiem ertgeniche sal da Bruchkeinsen Jer Oberr Seine abert. Un Gevorstanntwobarde, derze.

Page 22: NLG Workshop

TaCoS 25, München 15. April 2023 24

Ressourcen, Ressourcen, Ressourcen!

• Es gibt im Internet sehr viele sehr gute Ressourcen für die freie Textgenerierung. Einige davon stellen wir im folgenden vor.

• Die Ressourcen sind nach ihrer Form thematisch sortiert:• Wortlisten• (ungewöhnliche) Textkorpora• APIs• Interessante Datensätze

Page 23: NLG Workshop

TaCoS 25, München 15. April 2023 25

Wortlisten

• SwearJar: https://github.com/joshbuddy/swearjar/blob/master/lib/config/en.yml

"bullshit": ["inappropriate"]"cyberfuck": ["sexual"]"dickwad": ["insult"]"dickweasel": ["insult"]"dickweed": ["insult"]"dickwod": ["insult"]

Page 24: NLG Workshop

TaCoS 25, München 15. April 2023 26

Wortlisten

• Deutsche Wortliste (ohne Annotationen): http://sourceforge.net/projects/germandict/?source=typ_redirect

anilinblaubescherendDynamikforderungenFlugbenzintanksKinderglücksspielenSatellitenempfangsanlagenZeittiefe

Page 25: NLG Workshop

TaCoS 25, München 15. April 2023 27

Wortlisten

• Datenbank mit einigen Wörtern (NN, ADJ, V) der Wortliste: https://github.com/noeddl/parsextoto/blob/master/parsextoto.sqlite

Page 26: NLG Workshop

TaCoS 25, München 15. April 2023 28

Wortlisten

• CMU Pronouncing Dictionary: http://www.speech.cs.cmu.edu/cgi-bin/cmudict

• Download als Textdatei möglich, das Dictionary ist aber auch im NLTK unter dem Namen gutenberg.cmudict enthalten

SLANTING S L AE1 N T IH0 NGSLAP S L AE1 PSLAPDASH S L AE1 P D AE2 SHSLAPE S L EY1 PSLAPHAPPY S L AE1 P HH AE2 P IY0SLAPPED S L AE1 P TSLAPPEY S L AE1 P IY0SLAPPING S L AE1 P IH0 NGSLAPS S L AE1 P S

SLAPSTICK S L AE1 P S T IH2 K

Page 27: NLG Workshop

TaCoS 25, München 15. April 2023 29

Wortlisten

• WordNet: http://wordnet.princeton.edu/wordnet/download/• Zugriff auch über das NLTK möglich (Python)

00046577 02 r 01 extremely 0 001 \ 01565884 a 0101 | to an extreme degree; "extremely cold"; "extremely unpleasant"

00046695 02 r 01 drop-dead 0 001 ;u 07059049 n 0000 | extremely; "she was drop-dead gorgeous"

00046791 02 r 01 beyond_measure 0 000 | in excess or without limit; "amazed beyond measure"

Page 28: NLG Workshop

TaCoS 25, München 15. April 2023 30

Wortlisten

• Corpora, von Darius Kazemi: https://github.com/dariusk/corpora

{ "description": "A list of beer categories.", "beer_categories": [ "belgian and french ale", "british ale", "german ale", "german lager", "international ale", "international lager", "irish ale", "north american ale", "north american lager", "other lager", "other style" ]}

Page 29: NLG Workshop

TaCoS 25, München 15. April 2023 31

Wortlisten

• Wiktionary Verzeichnisse http://de.wiktionary.org/wiki/Kategorie:Verzeichnisse

• Häufigste Vor- und Nachnamen Deutschlands• Fachbegriffe verschiedenster Bereiche• Homophone• Substantive, deren Stammvokal im Plural umgelautet wird• Disney-Figuren• Tierlaute• …

Page 30: NLG Workshop

TaCoS 25, München 15. April 2023 32

Textkorpora

• Reddit-Korpus (csv): https://github.com/umbrae/reddit-top-2.5-million/tree/master/data

Page 31: NLG Workshop

TaCoS 25, München 15. April 2023 33

Textkorpora

• Enron-Email-Korpus: http://www.cs.cmu.edu/~./enron/• 500.000 Mails von 150 Personen; Teil der Untersuchung

während des Enron-Skandals 2001• Achtung: Sehr großer Download!

Dear Questia Series B Preferred Shareholder,The Board of Directors has adopted resolutions extending the Series Coffering in order to attempt to secure additional investors. This is noticethat the proxy holder of your shares intends to vote in favor of theresolutions, and of your right to revoke your proxy with respect to thisvote.

Page 32: NLG Workshop

TaCoS 25, München 15. April 2023 34

Textkorpora

• Shakespeare-Texte (XML): http://www.folgerdigitaltexts.org/download.html

<w xml:id="w0555250" n="5.1.190">Alas</w><pc xml:id="p0555260" n="5.1.190">,</pc><c xml:id="c0555270" n="5.1.190"> </c><w xml:id="w0555280" n="5.1.190">poor</w><lb xml:id="lb-35890"/><milestone unit="ftln" xml:id="ftln-3590" n="5.1.191" ana="#prose" corresp="#w0555290 #p0555300 #c0555310 #w0555320 #c0555330 #w0555340 #c0555350 #w0555360 #p0555370 #c0555380 #w0555390 #p0555400 #w0555410 #c0555420 #w0555430 #c0555440 #w0555450 #c0555460 #w0555470"/><w xml:id="w0555290" n="5.1.191">Yorick</w><pc xml:id="p0555300" n="5.1.191">!</pc>

Page 33: NLG Workshop

TaCoS 25, München 15. April 2023 35

Textkorpora

• SMS Spam Collection: http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/

ham   Siva is in hostel aha:-.ham   Cos i was out shopping wif darren jus now n i called him 2 ask wat present he wan lor. Then he started guessing who i was wif n he finally guessed darren lor.spam  FreeMsg: Txt: CALL to No: 86888 & claim your reward of 3 hours talk time to use from your phone now! ubscribe6GBP/ mnth inc 3hrs 16 stop?txtStopspam  Sunshine Quiz! Win a super Sony DVD recorder if you canname the capital of Australia? Text MQUIZ to 82277. B

Page 34: NLG Workshop

TaCoS 25, München 15. April 2023 36

Textkorpora

• Dortmunder Chatkorpus: http://www.chatkorpus.tu-dortmund.de/

<message id="386" type="utterance" creator="Omnibook" color="blue">

<messageHead><nickname>Omnibook</nickname>

</messageHead><messageBody>

Der Bundestag und die Bundesregierung ähnelt einem Maratonlauf der Orientierungslosen - wie sollen die das Land regieren??????

</messageBody></message>

Page 35: NLG Workshop

TaCoS 25, München 15. April 2023 38

APIs

• JWPL: Wikipedia API für Java• https://www.ukp.tu-darmstadt.de/software/jwpl/

Page 36: NLG Workshop

TaCoS 25, München 15. April 2023 39

APIs

• JWKTL: Wiktionary API für Java• https://code.google.com/p/jwktl/

Page 37: NLG Workshop

TaCoS 25, München 15. April 2023 40

APIs

• ConceptNet: http://conceptnet5.media.mit.edu/

{ … … …,"uri": "/a/[/r/IsA/,/c/en/cheese/,/c/en/food/]", "uri": "/a/[/r/IsA/,/c/en/cheese/,/c/en/dairy_product/]", "uri": "/a/[/r/IsA/,/c/en/cheese/,/c/en/noun/]", "uri": "/a/[/r/IsA/,/c/en/cheese/,/c/en/good_protein_food/]", "uri": "/a/[/r/IsA/,/c/en/cheese/,/c/en/dairy_product_from_cow/]","uri": "/a/[/r/UsedFor/,/c/en/cheese/,/c/en/eat/]",

"uri": "/a/[/r/AtLocation/,/c/en/cheese/,/c/en/pizza/]",… … …

}

Page 38: NLG Workshop

TaCoS 25, München 15. April 2023 41

APIs

• Twitter API: https://dev.twitter.com/streaming/overview• Bequemer Zugriff mit dem Python-Modul tweepy• Liefert Informationen über Tweet-Inhalt, erwähnte User,

Geodaten, Uhrzeit, Endgerät, Hashtags, Anzahl der Retweets und Favs, …

• Ermöglicht auch das Posten von Tweets, sodass dies automatisiert und völlig ohne menschliches Zutun erfolgen kann!

Page 39: NLG Workshop

TaCoS 25, München 15. April 2023 42

APIs

• Gmail API: https://developers.google.com/gmail/api/quickstart/quickstart-python

• Python-Wrapper: https://github.com/charlierguo/gmail• Zugriff auf das eigene Gmail-Konto• Personalisiertes Korpus!

Oberstübchen ausbreiten wie von ergebener Schicksalhaftigkeit." > > Und wie läuft es bei mir.Ihr so zwischen Donnerstag und Samstag in Lübeck, und Du mit Euren Hühnerverkleidungen im Kreis tanzt.Fragen= ihres letzten Willens diskutiert, darunter auch die Gesellschaft zur Stärkung der Wasserkocher tut ganz unschuldig und funktioniert.

Page 40: NLG Workshop

TaCoS 25, München 15. April 2023 44

APIs

• List of News Media APIs: https://en.wikipedia.org/wiki/List_of_news_media_APIs

• Unter anderem vertreten: BBC, ZEIT, Financial Times…

Page 41: NLG Workshop

TaCoS 25, München 15. April 2023 45

Datensätze

• Open Data (Deutschland): https://www.govdata.de/• Straßennamen• Kindernamen• Barrierefreie Toiletten (GPS-Daten)• Studienabschlussstatistiken• …

• Open Data (USA): http://www.data.gov/• Consumer Complaint Database• Baby names• National Stock Number Extract• Crimes• Climate Data• …

Page 42: NLG Workshop

TaCoS 25, München 15. April 2023 46

Datensätze

• Weitere Datensätze finden:• Google-Suche nach Datensätzen: https://

cse.google.com/cse/publicurl?cx=002720237717066476899:v2wv26idk7m

• 100+ Interesting Data Sets for Statistics http://rs.io/100-interesting-data-sets-for-statistics/

Page 43: NLG Workshop

TaCoS 25, München 15. April 2023 47

TL;DL

• Das Wichtigste an der Textgenerierung sind die Beispieltexte/Ressourcen!

• Textgenerierung als Kunstform kann viel Spaß machen!• Jede/r kann Texte generieren!• Obwohl die menschliche Sprache unvorstellbar kompliziert

ist, können wir mit einfachsten Methoden Texte automatisch erzeugen!

• Twitterbots sind vielseitig einsetzbar!

Page 44: NLG Workshop

TaCoS 25, München 15. April 2023 48

Quellen

1) Interessanter Blogeintrag zu unfreundlichen Bots: https://stronglang.wordpress.com/2015/03/09/artificial-belligerence/

2) Barzilay, R. & Elhadad, M. (1997). Using lexical chains for text summarization. In: Proceedings of the ACL'97/EACL‚ 97 Workshop on Intelligent Scalable Text Summarization.

3) Morris, J. & Hirst, G. (1991). Lexical cohesion computed by thesaural relations as an indicator of the structure of text. Computational Linguistics, 17(1), 21-48.

4) Dale, R., Geldof, S., & Prost, J. P. (2005). Using Natural Language Generation in Automatic Route. Journal of Research and practice in Information Technology, 37(1), 89.

5) Reiter, E., Sripada, S., Hunter, J., Yu, J., & Davy, I. (2005). Choosing words in computer-generated weather forecasts. Artificial Intelligence, 167(1), 137-169.