22
Wie funktioniert eigentlich @Pentametron? Wie funktioniert eigentlich @Pentametron? Wie funktioniert eigentlich @Pentametron? Wie funktioniert eigentlich @Pentametron? Computerlinguistische Perspektiven auf Twitter Sprachwissenschaftliches Institut StuTS 54 November 2013 Düsseldorf Esther Seyffarth Ruhr-Uni Bochum [email protected]

Wie funktioniert eigentlich Pentametron? Computerlinguistische Perspektiven auf Twitter

Embed Size (px)

Citation preview

Page 1: Wie funktioniert eigentlich Pentametron? Computerlinguistische Perspektiven auf Twitter

Wie funktioniert eigentlich @Pentametron?Wie funktioniert eigentlich @Pentametron?Wie funktioniert eigentlich @Pentametron?Wie funktioniert eigentlich @Pentametron?

Computerlinguistische Perspektiven auf Twitter

SprachwissenschaftlichesInstitut

StuTS 54November 2013

Düsseldorf

Esther SeyffarthRuhr-Uni Bochum

[email protected]

Page 2: Wie funktioniert eigentlich Pentametron? Computerlinguistische Perspektiven auf Twitter

Was können Linguistinnen mit Twitter anstellen?Was können Linguistinnen mit Twitter anstellen?Was können Linguistinnen mit Twitter anstellen?Was können Linguistinnen mit Twitter anstellen?

� Sentimentanalyse?� … bezüglich bestimmer Produkte/Hersteller

SprachwissenschaftlichesInstitut Computerlinguistische Perspektiven auf Twitter – Esther Seyffarth - StuTS 54, November 2013 [ 2 ]

� … bezüglich bestimmer Produkte/Hersteller� … in politischen Zusammenhängen

� Korpus zur Erforschung von Dialektfragen?� z. B. “yall” / “y’all” / “ya’ll”

� Recherche für Nachrichten?� möglicherweise mit automatischer Textgenerierung auf Basis von Tweets

Page 3: Wie funktioniert eigentlich Pentametron? Computerlinguistische Perspektiven auf Twitter

ÜberblickÜberblickÜberblickÜberblick

� Wie funktioniert @Pentametron?Wie funktioniert @Pentametron?Wie funktioniert @Pentametron?Wie funktioniert @Pentametron?� Vorstellung des CMU

Pronunciation Dictionary

� Wie (gut) funktioniert Twitter zur Sentimentanalyse?Wie (gut) funktioniert Twitter zur Sentimentanalyse?Wie (gut) funktioniert Twitter zur Sentimentanalyse?Wie (gut) funktioniert Twitter zur Sentimentanalyse?� Vorhersage von Wahlergebnissen anhand von Twitterdaten

StrukturierungStrukturierungStrukturierungStrukturierung

SprachwissenschaftlichesInstitut

� Vorhersage von Wahlergebnissen anhand von Twitterdaten� Bedeutungstragende Merkmale von Tweets

� Wie (gut) funktioniert Twitter als Basis für Nachrichtentexte?Wie (gut) funktioniert Twitter als Basis für Nachrichtentexte?Wie (gut) funktioniert Twitter als Basis für Nachrichtentexte?Wie (gut) funktioniert Twitter als Basis für Nachrichtentexte?� Ausbreitung von Krankheiten auswerten anhand von Tweets� Automatisch Nachrichtentexte generieren

� DiskussionDiskussionDiskussionDiskussion

Computerlinguistische Perspektiven auf Twitter – Esther Seyffarth - StuTS 54, November 2013 [ 3 ]

AnalyseAnalyseAnalyseAnalyse

SyntheseSyntheseSyntheseSynthese

Page 4: Wie funktioniert eigentlich Pentametron? Computerlinguistische Perspektiven auf Twitter

Wie funktioniert @Pentametron?Wie funktioniert @Pentametron?Wie funktioniert @Pentametron?Wie funktioniert @Pentametron?

SprachwissenschaftlichesInstitut

� @Pentametron verfasst keine Tweets selbst, sondern retweetet nur fremde Nachrichten.

� Was wird dafür benötigt?� Zugriff auf eine große Menge an Tweets� Eine Möglichkeit, die Silbenstruktur und die möglichen Reimwörter zu

analysieren• z. B. mithilfe des CMU Pronunciation Dictionary

Computerlinguistische Perspektiven auf Twitter – Esther Seyffarth - StuTS 54, November 2013 [ 4 ]

Page 5: Wie funktioniert eigentlich Pentametron? Computerlinguistische Perspektiven auf Twitter

Wie funktioniert @Pentametron?Wie funktioniert @Pentametron?Wie funktioniert @Pentametron?Wie funktioniert @Pentametron?

�CMU Pronunciation Dictionary

� Erreichbar unter: http://www.speech.cs.cmu.edu/cgi-bin/cmudict� Erstellt von Kevin Lenzo: http://www.linkedin.com/in/kevinlenzo

� Maschinenlesbare phonetische Transkription von über 125.000 englischen Wörtern

SprachwissenschaftlichesInstitut

Wörtern

Computerlinguistische Perspektiven auf Twitter – Esther Seyffarth - StuTS 54, November 2013 [ 5 ]

Page 6: Wie funktioniert eigentlich Pentametron? Computerlinguistische Perspektiven auf Twitter

Wie funktioniert @Pentametron?Wie funktioniert @Pentametron?Wie funktioniert @Pentametron?Wie funktioniert @Pentametron?

Good feelings = [equal] good reality.

SprachwissenschaftlichesInstitut Computerlinguistische Perspektiven auf Twitter – Esther Seyffarth - StuTS 54, November 2013 [ 6 ]

G UH1 D . F IY1 L IH0 NG Z . IY1 K W AH0 L . G UH1 D . R IY2 AE1 L AH0 T IY2 .

σσσσ1111 σσσσ2222 σσσσ3333 σσσσ4444 σσσσ5555 σσσσ6666 σσσσ7777 σσσσ8888 σσσσ9999 σσσσ10101010

Y UW1 . R IH1 L IY0 . R IH1 L IY0 . R IH1 L IY0 . B AA1 DH ER0 . M IY1 .

You really really really bother me

Page 7: Wie funktioniert eigentlich Pentametron? Computerlinguistische Perspektiven auf Twitter

SprachwissenschaftlichesInstitut

Twitter und SentimentanalyseTwitter und SentimentanalyseTwitter und SentimentanalyseTwitter und Sentimentanalyse

Computerlinguistische Perspektiven auf Twitter – Esther Seyffarth - StuTS 54, November 2013 [ 7 ]

Page 8: Wie funktioniert eigentlich Pentametron? Computerlinguistische Perspektiven auf Twitter

Twitter und SentimentanalyseTwitter und SentimentanalyseTwitter und SentimentanalyseTwitter und Sentimentanalyse

Is social media a valid indicator of political behavior?

...

Our results show that the percentage of Republicanthe percentage of Republicanthe percentage of Republicanthe percentage of Republican----candidate name mentions correlates with the Republican candidate name mentions correlates with the Republican candidate name mentions correlates with the Republican candidate name mentions correlates with the Republican vote margin in the subsequent electionvote margin in the subsequent electionvote margin in the subsequent electionvote margin in the subsequent election.

SprachwissenschaftlichesInstitut

Joseph DiGrazia, Karissa McKelvey, Johan Bollen, Fabio Rojas:More Tweets, More Votes: Social Media as a Quantitative Indicator of Political BehaviorMore Tweets, More Votes: Social Media as a Quantitative Indicator of Political BehaviorMore Tweets, More Votes: Social Media as a Quantitative Indicator of Political BehaviorMore Tweets, More Votes: Social Media as a Quantitative Indicator of Political Behavior

Computerlinguistische Perspektiven auf Twitter – Esther Seyffarth - StuTS 54, November 2013 [ 8 ]

vote margin in the subsequent electionvote margin in the subsequent electionvote margin in the subsequent electionvote margin in the subsequent election.

Page 9: Wie funktioniert eigentlich Pentametron? Computerlinguistische Perspektiven auf Twitter

Twitter und SentimentanalyseTwitter und SentimentanalyseTwitter und SentimentanalyseTwitter und Sentimentanalyse

�Probleme des quantitativen Ansatzes:

� Die Vorhersagen wurden durch Twitter um nurum nurum nurum nur 2,8%2,8%2,8%2,8% zuverlässiger

� Positiver oder negativer Kontext?

SprachwissenschaftlichesInstitut

• If in fact tweet data are an “unusually” good predictor of elections, then Anthony Weiner Anthony Weiner Anthony Weiner Anthony Weiner should be optimistic about his mayoral aspirations given his ‘explosion’ of tweet attention and despite his free fall in the polls. In fact, this study’s finding that the tweet content is inconsequential prompted Salon.com to post the following headline: “Good news for Weiner: All Twitter publicity is good publicity.”

Computerlinguistische Perspektiven auf Twitter – Esther Seyffarth - StuTS 54, November 2013 [ 9 ]

Page 10: Wie funktioniert eigentlich Pentametron? Computerlinguistische Perspektiven auf Twitter

Twitter und SentimentanalyseTwitter und SentimentanalyseTwitter und SentimentanalyseTwitter und Sentimentanalyse

� Probleme des quantitativen Ansatzes:

SprachwissenschaftlichesInstitut Computerlinguistische Perspektiven auf Twitter – Esther Seyffarth - StuTS 54, November 2013 [ 10 ]

Page 11: Wie funktioniert eigentlich Pentametron? Computerlinguistische Perspektiven auf Twitter

Twitter und SentimentanalyseTwitter und SentimentanalyseTwitter und SentimentanalyseTwitter und Sentimentanalyse

�Mögliche zusätzliche Kriterien (z. B. bei der Auswertung von bestimmten Produkten):

� Positive oder negative Gefühlsausdrücke?

� Mentions oder Nonmentions? Links?

SprachwissenschaftlichesInstitut

� Mentions oder Nonmentions? Links?

� Hashtags? Von Standardsprache abweichende Zeichensetzung?

Computerlinguistische Perspektiven auf Twitter – Esther Seyffarth - StuTS 54, November 2013 [ 11 ]

Page 12: Wie funktioniert eigentlich Pentametron? Computerlinguistische Perspektiven auf Twitter

Twitter und SentimentanalyseTwitter und SentimentanalyseTwitter und SentimentanalyseTwitter und Sentimentanalyse

�Mögliche zusätzliche Kriterien (z. B. bei der Auswertung von bestimmten Produkten):

� Beliebtheit/Verbreitung?

SprachwissenschaftlichesInstitut

� Emoticons?

Computerlinguistische Perspektiven auf Twitter – Esther Seyffarth - StuTS 54, November 2013 [ 12 ]

Page 13: Wie funktioniert eigentlich Pentametron? Computerlinguistische Perspektiven auf Twitter

SprachwissenschaftlichesInstitut

Twitter und NachrichtenTwitter und NachrichtenTwitter und NachrichtenTwitter und Nachrichten

Computerlinguistische Perspektiven auf Twitter – Esther Seyffarth - StuTS 54, November 2013 [ 13 ]

Page 14: Wie funktioniert eigentlich Pentametron? Computerlinguistische Perspektiven auf Twitter

Twitter und NachrichtenTwitter und NachrichtenTwitter und NachrichtenTwitter und Nachrichten

SprachwissenschaftlichesInstitut Computerlinguistische Perspektiven auf Twitter – Esther Seyffarth - StuTS 54, November 2013 [ 14 ]

Adam Sadilek, Henry Kautz, Vincent Silenzio (2012):Modeling Spread of Disease from Social InteractionsModeling Spread of Disease from Social InteractionsModeling Spread of Disease from Social InteractionsModeling Spread of Disease from Social Interactions

Page 15: Wie funktioniert eigentlich Pentametron? Computerlinguistische Perspektiven auf Twitter

Twitter und NachrichtenTwitter und NachrichtenTwitter und NachrichtenTwitter und Nachrichten

�Machine Learning

� Trainingskorpus:5128 per Hand als “sick tweets” oder “normal tweets” annotierte Tweets

SprachwissenschaftlichesInstitut

� 1,6 Mio Tweets wurden auf dieser Basis vom System als “sick” oder “normal” klassifiziert

Computerlinguistische Perspektiven auf Twitter – Esther Seyffarth - StuTS 54, November 2013 [ 15 ]

Page 16: Wie funktioniert eigentlich Pentametron? Computerlinguistische Perspektiven auf Twitter

Twitter und NachrichtenTwitter und NachrichtenTwitter und NachrichtenTwitter und Nachrichten

�CoCoCoCo----Location: Location: Location: Location: User halten sich innerhalb einer bestimmten Zeitspanne im gleichen 100m*100m-Gebiet auf

�Co-Location ist relevant bei ansteckenden Krankheiten, die

SprachwissenschaftlichesInstitut

�Co-Location ist relevant bei ansteckenden Krankheiten, die sich durch physikalischen Kontakt ausbreiten

Computerlinguistische Perspektiven auf Twitter – Esther Seyffarth - StuTS 54, November 2013 [ 16 ]

Page 17: Wie funktioniert eigentlich Pentametron? Computerlinguistische Perspektiven auf Twitter

�Probleme:

� Symptome ≠Diagnose!

SprachwissenschaftlichesInstitut Computerlinguistische Perspektiven auf Twitter – Esther Seyffarth - StuTS 54, November 2013 [ 17 ]

Page 18: Wie funktioniert eigentlich Pentametron? Computerlinguistische Perspektiven auf Twitter

Twitter und NachrichtenTwitter und NachrichtenTwitter und NachrichtenTwitter und Nachrichten

�Probleme:

� Viele User bleiben unsichtbar (z. B. weil GPS-Daten nicht vorliegen oder Symptome vom System nicht erkannt werden)

SprachwissenschaftlichesInstitut

� Im Artikel wurden nur Tweets von 1/30 aller Bewohner von NYC betrachtet, Geodaten waren nur für 1/3000 vorhanden

Computerlinguistische Perspektiven auf Twitter – Esther Seyffarth - StuTS 54, November 2013 [ 18 ]

Page 19: Wie funktioniert eigentlich Pentametron? Computerlinguistische Perspektiven auf Twitter

Twitter und NachrichtenTwitter und NachrichtenTwitter und NachrichtenTwitter und Nachrichten�Ergebnisse:

� Bezüglich Zuverlässigkeit:• The correlationcorrelationcorrelationcorrelation between the prevalence of infectious diseases

predicted by our model and the predictions made by Google Flu Trends specifically for New York City is 0.730.730.730.73.

• Krieck et al. (2011) ... show that selfselfselfself----reported symptoms reported symptoms reported symptoms reported symptoms are the most reliable signal in detecting if a tweet is relevant to an outbreak

SprachwissenschaftlichesInstitut

most reliable signal in detecting if a tweet is relevant to an outbreak or not. This is because people often do not know what their true problem is until diagnosed by an expert, but they can readily write they can readily write they can readily write they can readily write about how they feel. about how they feel. about how they feel. about how they feel.

� Bezüglich Co-Location:• For instance, having 40 encounters with sick individuals with a 1-

hour slack makes one ill with 20% probability.

Computerlinguistische Perspektiven auf Twitter – Esther Seyffarth - StuTS 54, November 2013 [ 19 ]

Page 20: Wie funktioniert eigentlich Pentametron? Computerlinguistische Perspektiven auf Twitter

Twitter und NachrichtenTwitter und NachrichtenTwitter und NachrichtenTwitter und Nachrichten�Projekte zur automatischen Generierung von

Nachrichtentexten

SprachwissenschaftlichesInstitut Computerlinguistische Perspektiven auf Twitter – Esther Seyffarth - StuTS 54, November 2013 [ 20 ]

FroPatI:FroPatI:FroPatI:FroPatI: From Pattern to Information

http://fropati.textrapic.eu

Page 21: Wie funktioniert eigentlich Pentametron? Computerlinguistische Perspektiven auf Twitter

SprachwissenschaftlichesInstitut

Danke für dieDanke für dieDanke für dieDanke für dieAufmerksamkeit!Aufmerksamkeit!Aufmerksamkeit!Aufmerksamkeit!

Computerlinguistische Perspektiven auf Twitter – Esther Seyffarth - StuTS 54, November 2013 [ 21 ]

Page 22: Wie funktioniert eigentlich Pentametron? Computerlinguistische Perspektiven auf Twitter

LiteraturLiteraturLiteraturLiteratur

� DiGrazia, McKelvey, Bollen, Rojas (2013): More Tweets, more votes http://papers.ssrn.com/sol3/papers.cfm?abstract_id=2235423

� Auswertungen zu “More Tweets, more Votes”:� http://www.washingtonpost.com/blogs/the-fix/wp/2013/08/16/how-twitter-could-predict-

elections-a-rebuttal/� http://psychcentral.com/blog/archives/2013/08/17/can-twitter-predict-elections-not-yet/

� Hassan Saif, Yulan He, Harith Alani (2012): Semantic Sentiment Analysis of Twitter http://iswc2012.semanticweb.org/sites/default/files/76490497.pdf

SprachwissenschaftlichesInstitut

http://iswc2012.semanticweb.org/sites/default/files/76490497.pdf

� Regional Dialects Are Alive and Well on Twitter http://www.cmu.edu/news/archive/2011/January/jan7_twitterdialects.shtml

� Sadilek, Kautz, Silenzio (2012): Modeling Spread of Disease from Social Media http://www.aaai.org/ocs/index.php/ICWSM/ICWSM12/paper/view/4493/4999

� Google Flu Trends http://www.google.org/flutrends/about/how.html

Computerlinguistische Perspektiven auf Twitter – Esther Seyffarth - StuTS 54, November 2013 [ 22 ]