96
BIG DATA GEWINNUNG, AUSWERTUNG UND DARSTELLUNG GROSSER MENGEN ONLINEGENERIERTER DATEN IN DEN SOZIALWISSENSCHAFTE WORKSHOP AN DER HEINRICH-HEINE-UNIVERSITÄT DÜSSELDORF 13.04.2014 DOZENTIN: KATRIN WELLER UND KOMMENTARE VON: MERJA MAHRT

Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

Embed Size (px)

DESCRIPTION

Presentation at „Big Data“ Workshop for research group Political Communication in the Online World. Düsseldorf, 13.04.2014.

Citation preview

Page 1: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

BIG DATAGEWINNUNG, AUSWERTUNG UND DARSTELLUNG GROẞER MENGEN ONLINEGENERIERTER DATEN IN DEN SOZIALWISSENSCHAFTEN

WORKSHOP AN DER HEINRICH-HEINE-UNIVERSITÄT DÜSSELDORF

13.04.2014

DOZENTIN: KATRIN WELLER

UND KOMMENTARE VON: MERJA MAHRT

Page 2: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

2

WILLKOMMEN!

Dr. Katrin Weller

GESIS Leibniz Institut für Sozialwissenschaften

[email protected]

@kwelle

http://katrinweller.net

Dr. Merja Mahrt

Heinrich-Heine-Universität Düsseldorf

[email protected]

https://www.phil-fak.uni-duesseldorf.de/kmw-weiss/mitarbeiterinnen/dr-merja-mahrt/

Page 3: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

3

1. EINFÜHRUNG

Page 4: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

4

„I keep saying that the sexy job in the next 10 years will be statisticians,“ said Hal Varian, chief economist at Google. „And I’m not kidding.“

„The ability to take data - to be able to understand it, to process it, to extract value from it, to visualize it, to communicate it - that's going to be a hugely important skill in the next decades...“

http://www.mckinsey.com/insights/innovation/hal_varian_on_how_the_web_challenges_managers

Page 5: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

5

Google Trends Suche „big data“

Page 6: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

6

Amazon Suche „big data“

Page 7: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

7

WIE GROẞ IST GROẞ?• Datensätze, die nur von Supercomputern bearbeitet werden

können?

• Terabyte, Petabytes und Exabytes?

• So groß, dass man die Daten nicht mehr händisch analysieren kann?

Page 8: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

8

BIG DATA (FRÜHER)

„large surveys such as th NCVS may have 60,000 or more observations, and only recently has research begun on how to plot these massive datasets“

1996, Fesco et al.

aus: Unwin, A. / Theus, M. / Hofmann, H., Graphics of Large Datasets. Visualizing a Million (= Statistics and Computing), Springer 2006.

Beispiele via Thomas Rahlf

„the analysis of data recorded by Tel-Star, an early communication satellite, involved tens of thousands of observations and challenged contemporary computing technology“

1965, Chambers „restricted in their analysis because the software there could only handle 88,000 real numbers.“

1981, Aitken et al.

Page 9: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

9

>900 Millionen Facebook-Nutzer, 30 Petabyte Daten(täglich kommen etwa 15 Terabyte hinzu )

täglich zu verarbeitendes Datenvolumen bei Facebook: 500 Terabyte, (mehr als das zehnfache der täglichen Datenproduktion der Detektoren des großen Teilchenbeschleunigers im Forschungszentrum Cern)

Youtube: vier Milliarden Views pro Tag, davon 500 Millionen mobil.

App-Store (2008 eröffnet): 25 Milliarden Downloads (2012)

Google-Earth: > 1 Milliarde Downloads

400 Millionen Twitter Tweets weltweit pro Tag

BIG DATA (HEUTE)

Beispiele via Thomas Rahlf

Page 10: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

10

ARTEN VON BIG DATA?• Naturwissenschaftliche Forschung: z.B. Klimadaten, Genetik („Big Science“)

• Finanz-Sektor: Börsendaten, Bankbewegungen

• Gesundheitswesen: z.B.Krankenhausdaten, Krankmeldungen

• Verwaltungsdaten aus öffentlichen Einrichtungen) / Open Governmental Data (auch unter Linked Open Data)

• Kundendaten: z.B. Kassendaten, Telefonverbindungsdaten, Treukartendaten

• Social Media Daten: Aktionen und Kommentare z.B. auf Facebook, Youtube, Wikipedia

• Andere Online-Nutzungsdaten: z.B. Suchanfragen, Seitenaufrufe, Online-Käufe, Bewertungen

• Gerätedaten / Sensordaten: z.B. GPS-Signale aus Navigationssystemen, RFID Chips

Page 11: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

11

AKTEURE

“Big Data is a Big Deal”http://www.whitehouse.gov/blog/2012/03/29/big-data-big-deal

Page 12: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

12

AKTEURE• Wissenschaft: immer mehr Disziplinen, z.B. Informatik, Bio-

Informatik, Physik, Wirtschaftswissenschaft, Mathematik, Politikwissenschaft, Soziologie…

• Privatwirtschaft: Unternehmen als Datenerzeuger und Besitzer; Marktforschung

• Öffentlicher Sektor / Verwaltung

• Politik / Geheimdienste

• Nutzer: Citizen Science / Crowdsourcing

Page 13: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

13

BIG DATA, SMALL DATA? NEW DATA!

Diskussion: Was liefern diese Daten Neues?

• Möglichkeiten für zeitnahe Analysen und Prognosen

• Entdeckung von Unregelmäßigkeiten (z.B. Epidemien, Finanzen), Entscheidungshilfe in Krisensituationen.

Diskussion: Woher kommt der Hype?

• Bessere Rechnerkapazität

• Zunehmend „beiläufige“ Datenerzeugung

Page 14: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

14

FAZIT• Es gibt keine einheitliche Definition für Big Data – die

Einschätzung, was als „big“ gilt, ist stark kontextabhängig und kann sich im Laufe der Zeit verändern.

• Unterschiedliche Akteure haben unterschiedliche Interessen im Umgang mit Big Data.

Page 15: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

15

2. MÖGLICHKEITEN UND BEISPIELE

Page 16: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

16

BEISPIEL-TYPEN

Ansätze

Agrregierte Daten

auslesen

Prognosen

Textanalysen (CL)

Sentiment analysis

Event detection Worthäufigkeit

Netzwerke Geo-Analysen

Page 17: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

17

Ansätze

Agrregierte Daten

auslesen

Prognosen

Textanalysen (CL)

Sentiment analysis

Event detection Worthäufigkeit

Netzwerke Geo-Analysen

BIG DATA IN DEN SOZIALWISSENSCHAFTEN

Wahlvorhersage Politische Stimmungen,

Kundenzufriedenheit

Politische Krisen

erkennen

Akteursnetze, z.B. Politiker

Ortsbezug bei Meinungsanalysen

Page 18: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

18

VORHERSAGEN

Page 19: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

19

DER KLASSIKER

http://www.google.org/flutrends/de/#DE-NW

Page 20: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

20

GOOGLE FLU TRENDS

“In short, the initial version of GFT was part flu detector, part winter detector.“ (Lazer et al., 2014)

• Googles Ergebnisse sind nicht besser als „klassische“ Vorhersagedaten.

• Aber: Kombination ist sinnvoll.

Lazer, D., Kennedy, R., King, G., & Vespignani, A. (2014). The parable of Google Flu: Traps in big data analysis. Science, 343(6176), 1203-1205.

Page 21: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

21

ARBEITSLOSIGKEIT

Nikolaos Askitas / Klaus F. Zimmermann, Google Econometrics and Unemployment

Forecasting, Forschungsinstitut zur Zukunft der Arbeit IZA DP No. 4201. June 2009.

Daten: Google

Page 22: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

22

WAHLERGEBNISSE

Metaxas, P. T., Mustafaraj, E., & Gayo-Avello, D. (2011, 9-11 Oct. 2011). How (not) to predict elections. Paper presented at the Privacy, security, risk and trust (passat) conference, Boston, MA. Doi: 10.1109/PASSAT/SocialCom.2011.98

Page 23: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

23

WEITERE ANSÄTZE

• Eurovision Song Contest Sieger

• Box Office Revenue

• Aktienkurse, Wechselkurse

• …

Page 24: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

24

STIMMUNGEN

Page 25: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

25

Northeastern University and Harvard UniversityDaten: Twitter. http://www.ccs.neu.edu/home/amislove/twittermood/

Page 26: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

26

00000000000

Rahlf, T. (2014). Datendesign mit R: 100 Visualisierungsbeispiele. München: open source

press.

Daten: Facebook

Page 27: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

27

WER SPRICHT ÜBER…

Page 28: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

28

SENTIMENT ANALYSE FÜR POLITIK-TWEETS

Bakliwal, et al. (2013). Sentiment Analysis of Political Tweets: Towards an Accurate Classifier. In Workshop on Language Analysis in Social Media (LASM 2013), Atlanta, Georgia, US. Retrieved from: http://www.mpi-sws.org/~cristian/LASM_2013_files/LASM/pdf/LASM06.pdf                                 

Page 29: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

29

GEO-DATEN

Page 30: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

30

MOBILITÄT

Livehood ProjectDaten: Foursquare (via Twitter)http://livehoods.org/maps/montreal

Page 32: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

32

WEITERE ANSÄTZE

• Mietspiegel, z.B. mit Immobilienscout.

• Naturkatastrophen

• Sprachgebrauch

http://www.guardian.co.uk/news/datablog/2012/nov/28/data-shadows-twitter-uk-floods-mapped#zoomed-picture

Page 33: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

33

NETZWERKE

Page 34: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

34

WER KENNT WEN?

Facebook (Paul Butler)Daten: Facebookhttps://www.facebook.com/note.php?note_id=469716398919

Page 35: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

35

INTERAKTION

Paßmann, J., Boeschoten, T., & Shäfer, M.T. (2014). The Gift of the Gab: Retweet Cartels and Gift Economies on Twitter. In K. Weller, A. Bruns, J. Burgess, M. Mahrt & C. Puschmann (Eds.), Twitter and Society. New York et al.: Peter Lang.

Page 36: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

36

WEITERE DATEN FÜR SOZIALWISSENSCHAFTLER?• Ebay: Kaufverhalten, Preisentwicklung

• Wikipedia: Versionshistorie von „umstrittenen“ Themen.

• Google: Häufigkeiten von Suchbegriffen

• Kommentare

• Bewertungen: Amazon, Movie Ratings, …

• Video on Demand: Netflix, Lovefilm, YouTube, …

• TV-Backchannel: z.B. Twitter

• RFID Chips für Interaktionen

• Voting Advice Applications: Wahl-O-Mat

Page 37: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

37

CASE STUDIES

Page 38: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

38

BEISPIEL:TWITTER & WAHLEN

2008 2009 2010 2011 2012 20130

10

20

30

40

50

60

Twitter and elections (Scopus and Web of Science)

Weller, K (im Druck): Twitter und Wahlen: Zwischen 140 Zeichen und Milliarden von Tweets. Erscheint in: R. Reichert (Hrsg), Big Data: Analysen zum digitalen Wandel von Wissen, Macht und Ökonomie. Transcript.

Page 39: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

Year of election

Name of election Country/region No. of papers (2013)

Date of election

2008 40th Canadian General Election Canada 1 14.10.2008

2009 European Parliament election, 2009 Europe 1 07.06.2009

2009 German federal election, 2009 Germany 2 27.09.2009

2010 2010 UK general election United Kingdom 4 06.05.2010

2010 South Korean local elections, 2010 South Korea 1 02.06.2010

2010 Dutch general election, 2010 Netherlands 2 09.06.2010

2010 Australian federal election, 2010 Australia 1 21.08.2010

2010 Swedish general election, 2010 Sweden 1 19.09.2010

2010 Midterm elections / United States House of Representatives elections, 2010

USA 4 02.11.2010

2010 Gubernational elections: Georgia USA 1 02.11.2010

2010 Gubernational elections: Ohio USA 1 02.11.2010

2010 Gubernational elections: Rhode Island USA 1 02.11.2010

2010 Gubernational elections: Vermont USA 1 02.11.2010

2010 2010 superintendent elections South Korea 1 17.12.2010

2011 Baden-Württemberg state election, 2011 Germany 1 27.03.2011

2011 Rhineland-Palatinate state election, 2011 Germany 1 27.03.2011

2011 Scottish parliament election 2011 Scotland 1 05.05.2011

2011 Singapore’s 16th parliamentary General Election Singapore 1 07.05.2011

2011 Norwegian local elections, 2011 Norway 2 12.09.2011

2011 2011 Danish parliamentary election Denmark 2 15.09.2011

2011 Berlin state election, 2011 Germany 2 18.09.2011

2011 Gubernational elections: West Virginia USA 1 04.10.2011

2011 Gubernational elections: Louisiana USA 1 22.10.2011

2011 Swiss federal election, 2011 Switzerland 1 23.10.2011

2011 2011 Seoul mayoral elections South Korea 1 26.10.2011

2011 Gubernational eletions: Kentucky USA 1 08.11.2011

2011 Gubernational elections: Mississippi USA 1 08.11.2011

2011 Spanish national election 2011 Spain 1 20.11.2011

2012 Queensland State election Australia 1 24.03.2012

2012 South Korean legislative election, 2012 South Korea 1 11.04.2012

2012 French presidential election, 2012 France 2 22.04.2012

2012 Mexican general election, 2012 Mexico 1 01.07.2012

2012 United States presidential election, 2012 / United States House of Representatives elections, 2012

USA 17 06.11.2012

2012 South Korean presidential election, 2012 South Korea 2 19.12.2012

2013 Ecuadorian general election, 2013 Ecuador 1 17.02.2013

2013 Venezuelan presidential election, 2013 Venezuela 1 14.04.2013

2013 Paraguayan general election, 2013 Paraguay 1 21.04.2013

Page 40: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

Year of election

Name of election Country/region No. of papers (2013)

Date of election

2008 40th Canadian General Election Canada 1 14.10.2008

2009 European Parliament election, 2009 Europe 1 07.06.2009

2009 German federal election, 2009 Germany 2 27.09.2009

2010 2010 UK general election United Kingdom 4 06.05.2010

2010 South Korean local elections, 2010 South Korea 1 02.06.2010

2010 Dutch general election, 2010 Netherlands 2 09.06.2010

2010 Australian federal election, 2010 Australia 1 21.08.2010

2010 Swedish general election, 2010 Sweden 1 19.09.2010

2010 Midterm elections / United States House of Representatives elections, 2010

USA 4 02.11.2010

2010 Gubernational elections: Georgia USA 1 02.11.2010

2010 Gubernational elections: Ohio USA 1 02.11.2010

2010 Gubernational elections: Rhode Island USA 1 02.11.2010

2010 Gubernational elections: Vermont USA 1 02.11.2010

2010 2010 superintendent elections South Korea 1 17.12.2010

2011 Baden-Württemberg state election, 2011 Germany 1 27.03.2011

2011 Rhineland-Palatinate state election, 2011 Germany 1 27.03.2011

2011 Scottish parliament election 2011 Scotland 1 05.05.2011

2011 Singapore’s 16th parliamentary General Election Singapore 1 07.05.2011

2011 Norwegian local elections, 2011 Norway 2 12.09.2011

2011 2011 Danish parliamentary election Denmark 2 15.09.2011

2011 Berlin state election, 2011 Germany 2 18.09.2011

2011 Gubernational elections: West Virginia USA 1 04.10.2011

2011 Gubernational elections: Louisiana USA 1 22.10.2011

2011 Swiss federal election, 2011 Switzerland 1 23.10.2011

2011 2011 Seoul mayoral elections South Korea 1 26.10.2011

2011 Gubernational eletions: Kentucky USA 1 08.11.2011

2011 Gubernational elections: Mississippi USA 1 08.11.2011

2011 Spanish national election 2011 Spain 1 20.11.2011

2012 Queensland State election Australia 1 24.03.2012

2012 South Korean legislative election, 2012 South Korea 1 11.04.2012

2012 French presidential election, 2012 France 2 22.04.2012

2012 Mexican general election, 2012 Mexico 1 01.07.2012

2012 United States presidential election, 2012 / United States House of Representatives elections, 2012

USA 17 06.11.2012

2012 South Korean presidential election, 2012 South Korea 2 19.12.2012

2013 Ecuadorian general election, 2013 Ecuador 1 17.02.2013

2013 Venezuelan presidential election, 2013 Venezuela 1 14.04.2013

2013 Paraguayan general election, 2013 Paraguay 1 21.04.2013

Page 41: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

BIG DATA?2013: TWITTER AND ELECTION

No. of Tweets No. Of publications (2013)

0-500 3501-1.000 4

1.001-5.000 15.001-10.000 1

10.001-50.000 750.001-100.000 4

100.001-500.000 5500.001-1.000.000. 31.000.001-5.000.000 3mehr als 5.000.000 3

mehr als 100.000.000 1mehr als 1.000.000.000 1

keine/ungenaue Angabe 13

Page 42: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

42

METHODENMethodisch unterscheiden sich die Studien weiter darin, ob sie...

• Tweet-Inhalte analysieren (automatisch mit Sprachverarbeitungsprogrammen oder manuell codiert),

• Nutzer-Profile und Nutzer-Netzwerke vermessen,

• Tweet-Typen unterscheiden

• oder URLs in Tweets untersuchen.

• Neben Wahlvorhersagen können auch Verfahren zur automatischen Erkennung von Stimmungen in Tweets (Sentiment Analyse) als wiederkehrende Thematik indentifiziert werden.

Knapp mehr als die Hälfte der betrachteten Studien (26 von 49) setzen die Twitter-Datensätze mit anderen Daten in Beziehung. Dabei kann es sich sowohl um Wahlprognosen und Wahlergebnisse oder Umfragedaten handeln, als auch um Daten aus anderen Social-Media-Diensten wie Facebook oder Blogs.

Weller, K (im Druck): Twitter und Wahlen: Zwischen 140 Zeichen und Milliarden von Tweets. Erscheint in: R. Reichert (Hrsg), Big Data: Analysen zum digitalen Wandel von Wissen, Macht und Ökonomie. Transcript.

Page 43: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

43

BEISPIEL:POLITISCHE KOMMUNIKATION

Scharkow, M., & Vogelgesang, J. (2011). Measuring the public agenda using search engine queries.

International Journal of Public Opinion Research, 23(1), 104-113. doi: 10.1093/ijpor/edq048

Page 44: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

44

BEISPIEL: MEDIALE KOMMUNIKATION

Groshek, J., & Groshek, M. C. (2013). Agenda trending: Reciprocity and the predictive capacity of

social networking sites in intermedia agenda setting across topics over time. Media and

Communication, 1(1), 15-27. doi: 10.12924/mac2013.01010015

Page 45: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

45

FAZIT

Big Data, die für Sozialwissenschaftler interessant sind, sind nicht unbedingt die größten Datensätze. Entscheidend ist hier die Art der Daten und die damit verbundenen ggf. neuartigen Einblicke.

Die neuen Daten werfen aber auch viele neue Fragen auf, v.a. bezüglich der Methoden.

Page 46: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

46

3. METHODEN UND HERAUSFORDERUNGEN

Page 47: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

47

METHODEN (IN DER SOZIALW. TWITTER FORSCHUNG)

Weller, K. (in press). What do we get from Twitter – and what not? A close look at Twitter research in the social sciences. Knowledge Organization.

Page 48: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

48

QUELLEN FÜR BIG DATA• Application Programming Interface (API)

• Web Crawling

• Reseller

• Crowdsourcing (z.B. 23andMe)

• Bislang kaum: Datenarchive, Korpora.

Page 49: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

49

Page 50: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

50

DATENSAMMLUNG

Datenquelle AnzahlKeine Angabe 11Manuelle Datensammlung auf der Twitter-Website (Copy-Paste / Screenshot)

6

Twitter API (one näheren Angaben) 8Twitter Search API 3Twitter Streaming API 1Twitter Rest API 1Twitter API user timeline 1Selbstgeschriebenes Programm mit Zugriff auf Twitter APIs 4Twitter Gardenhose 1Offizielle Reseller (Gnip, DataSift) 3YourTwapperKeeper 3Andere Drittanbieter (z.B. Topsy) 6Von Kooperationspartner erhalten 1

Weller, K (im Druck): Twitter und Wahlen: Zwischen 140 Zeichen und Milliarden von Tweets. Erscheint in: R. Reichert (Hrsg), Big Data: Analysen zum digitalen Wandel von Wissen, Macht und Ökonomie. Transcript.

Twitter and Election (2013 papers)

Page 51: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

51

TOOLS ZUR DATENSAMMLUNG UND -ANALYSE

Page 52: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

DIGITAL METHODS INITIATIVE

https://wiki.digitalmethods.net/Dmi/ToolDatabase

Page 53: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

GNIP

Page 54: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

TOPSY

Page 55: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

YOURTWAPPERKEEPER

Page 56: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

NODEXL

Network Analysis

Sammelt Daten aus (u.a.): Facebook, Twitter,

YouTube, Flickr, Wikipedia

Page 57: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

NODEXLNodeXLGraphGallery.org

Page 58: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

GEPHI

Page 59: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

59

Stephen WolframDaten: Facebookhttp://blog.stephenwolfram.com/2013/04/data-science-of-the-facebook-world/

ALTERNATIVE: CROWDSOURCING

Page 60: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

60

Stephen WolframDaten: Facebookhttp://blog.stephenwolfram.com/2013/04/data-science-of-the-facebook-world/

Page 61: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

61

TECHNISCHE HERAUSFORDERUNGEN

Page 62: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

62

TECHNISCHE HERAUSFORDERUNGEN• Zugänglichkeit

• Data Sharing

• Änderungen

• Manipulation (z.B. Twitter Bomb) & Spam

• Personalisierte Ergebnisse

Fehlende Reproduzierbarkeit und Nachvollziehbarkeit

Page 63: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

63

ENDE DER THEORIE?

because it’s there?

Big Data vs. Found Data

Page 64: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

64

ENDE DER THEORIE?

Sozialwissenschaften

1. Problem

2. Forschungsfrage/

Hypothesen

3. Theorien

4. Methoden

5. Daten

6. Analyse

7. Ergebnispräsentation

Typische Big Data-Analyse

1. Methoden

2. Daten

3. Analyse

4. Ergebnispräsentation

5. Problem

Korrelation vs. Kausalität

Pfeffer, J. (2013). Big data, big research? Opportunities and constraints for computer supported social

science. Keynote zur „Digital methods“-Tagung der DGPuK-Fachgruppe Computervermittelte

Kommunikation, Wien. Abgerufen von http://www.pfeffer.at/slides/DigitalMethods-BigData.pdf

Page 65: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

65

ANFANG DER THEORIE?

“The interesting point is that these limitations can (and have to) be addressed by theory guided research that is typically conducted by social scientists. Accordingly, opportunities emerge for those social and behavioral scientists who are willing to collaborate with the Big Data researchers in the natural, engineering, and computer sciences.”

Snijders, C., Matzat, U., & Reips, U.-D. (2012). ‘Big Data’: Big gaps of knowledge in the field of Internet. International Journal of Internet Science, 7, 1-5. Retrieved from http://www.ijis.net/ijis7_1/ijis7_1_editorial.html  

Page 66: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

66

METHODENPROBLEME

“There are a lot of small data problems that occur in big data,” says Spiegelhalter. “They don’t disappear because you’ve got lots of the stuff. They get worse.”

Tim Harford (2014): Big data: are we making a big mistake? FT Magazine, retrieved from: http://www.ft.com/cms/s/2/21a6e7d8-b479-11e3-a09a-00144feabdc0.html#axzz2xGqAnW8a?utm_source=pocket&utm_medium=email&utm_campaign=pockethits

Page 67: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

67

REPRÄSENTATIVITÄT

“The core challenge is that most big data that have received popular attention are not the output of instruments designed to produce valid and reliable data amenable for scientific analysis.“

Lazer, D., Kennedy, R., King, G., & Vespignani, A. (2014). The parable of Google Flu: Traps in big data analysis. Science, 343(6176), 1203-1205.

Page 68: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

68

REPRÄSENTATIVITÄT

Sampling Bias

N = All

Page 69: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

69

REPRÄSENTATIVITÄT

Blank, G. (2014). Who uses Twitter? Representativeness of Twitter Users. Presentation at General Online Research GOR 14. Retrieved from: http://conftool.gor.de/conftool14/index.php?page=downloadPaper&filename=Blank-Who_uses_Twitter_Representativeness-119.pptx&form_id=119&form_version=final

13

29

14

44

17

51

32

56

44

69

54

74

44

82

67

87

75

87

73

99

0

20

40

60

80

100

% w

ho d

o m

ore

than n

eve

r

ViceCreativeproduc-

tion

Blog-ging

School&

work

Info-tain-ment

Commer-cial

activity

Enter-tain-ment

Classicnews

Infor-mationseeking

Social-ize

OxIS current users: 2013 N=1,613

Figure 2: Activities of Twitter Users & Non-usersTwitter user Non-user

Page 70: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

70

REPRÄSENTATIVITÄT

Blank, G. (2014). Who uses Twitter? Representativeness of Twitter Users. Presentation at General Online Research GOR 14. Retrieved from: http://conftool.gor.de/conftool14/index.php?page=downloadPaper&filename=Blank-Who_uses_Twitter_Representativeness-119.pptx&form_id=119&form_version=final

34

26

812

1814

1017

12

2328

333035

0

20

40

60

80

100

% w

ho h

ave d

one m

ore

th

an n

ever

InterestPolitical activities

Interestin politics

Sendpolitical

message

ContactMP online

Re-postpoliticalnews

Politicalcommenton SNS

Findpolitical

facts

Signonline

petition

OxIS current users: 2013 N=1,613

Figure 6: Political Activities of Twitter UsersTwitter user Non-user

Page 71: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

71

REPRÄSENTATIVITÄTS-PROBLEME AUF MEHREREN EBENEN

“About a third of all UK Internet users have a twitter profile; a subset of that group are the active tweeters who produce the bulk of content; and then a tiny subset of that group (about 1%) geocode their tweets (essential information if you want to know about where your information is coming from).”

Graham M. (2012). Big data and the end of theory?". The Guardian. Retrieved from: http://www.theguardian.com/news/datablog/2012/mar/09/big-data-theory

Page 72: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

72

GEFAHREN DURCH FEHLENDE REPRÄSENTATIVITÄT

Diskussion: Menschen, die durch Big Data nicht repräsentiert sind

http://streetbump.org

Siehe auch: http://www.wired.com/2014/03/potholes-big-data-crowdsourcing-way-better-government/

Page 73: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

73

ETHIK

Page 74: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

74

DISKUSSION

Informed Consent?

Öffentlichkeit der Daten?

Bislang keine Standards, aber Diskussionen.

Page 75: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

75

4. ÜBUNG

Page 76: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

76

LANDTAGSWAHL NRW 2012• Vorgezogene Wahl am 13. Mai 2012.

• Rot-grüne Mehrheit, Kraft bleibt Ministerpräsidentin

• CDU schlechtestes Ergebnis seit 1947, Rücktritt Röttgen

• Piratenpartei erstmals im Landtag

• Linke scheitert an 5%-Hürde

http://de.wikipedia.org/wiki/Landtagswahl_in_Nordrhein-Westfalen_2012

Page 77: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

77

LANDTAGSWAHL BEI TWITTER

Hashtag Tweets (27.03.-15.06.13)

#ltw12 5.656

#ltwnrw 11.116

#ltw2012 165

#ltwnrw12 1.621

#ltwnrw2012 27

#nrw12 41.106

#nrw2012 1.991

Total (ohne Dubletten) 56.145

Demmer, C.J., & Weller, K. (2013). Stimmungsschwankungen bei Twitter? Eine Sentiment-Analyse anhand von Tweets nach der Landtagswahl in Nordrhein-Westfalen 2012. In H.-C. Hobohm (Ed.), Proceedings of the 13th International Symposium of Information Science (ISI 2013), Potsdam, March 2013 (pp. 482-485). Glückstadt: Hülsbusch.

Page 78: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

78

PERSONEN UND PARTEIEN BEI TWITTER

@nrwspd @gruenenrw @cdunrw_de

@fdp_nrw @dielinkenrw @piratennrw

Page 79: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

79

PERSONEN UND PARTEIEN BEI TWITTER

@hannelorekraft (Sylvia Löhrmann) (Norbert Röttgen)

@c_lindner Katharina Schwabedissen @Nick_Haflinger

Page 80: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

80

CSV IMPORTIEREN

Page 81: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

81

CSV IMPORTIEREN

Page 82: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

82

WER DISKUTIERT MIT?

Aufgabe: #nrw12 oder #ltw12 oder #tlwnrw Tweets öffnen

Nutzer identifizieren, die min. einen Tweet geschrieben haben.

Wie viele Nutzer haben genau einen Tweet?

Wie sieht die Verteilung der Tweets pro User aus?

Wer sind die fünf aktivsten Nutzer?

Page 83: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

83

HASHTAG-DISKUSSION 27.03.-15.06.2013

10.438 User

Davon 5.048 mit mehr als 1 Tweet

2.046 mit mehr als 5 Tweets

2 117 232 347 462 577 692 807 922 1037115212671382149716121727184219570

100

200

300

400

500

600

700Tweets pro User

Page 84: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

84

WAS MACHEN DIE KANDIDATEN?

Aufgabe: einen der Kandidaten auswählen, Dateien fromKandidat und atKandidat öffnen

Wie viele Tweets hat „ihr Kandidat“ veröffentlicht?

Wie viele @messages und Retweets hat „ihr“ Kandidat erhalten?

Was wurde besonders häufig geretweetet?

Page 85: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

85

NETZWERK: BUNDESTAGSWAHL

following

85

Lietz, H., Wagner, C., Bleier, A., & Strohmaier, M. (2014). When politicians talk: Assessing online conversational practices of political parties on twitter. In International AAAI Conference on Weblogs and Social Media (ICWSM2014), Ann Arbor, MI, USA, June 2-4, 2014.

mentioningretweeting

Page 86: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

86

WEITERE EINBLICKE

#ltw12 Tweets

• Wie viele Tweets haben einen Geo-Code?

• Tweets im Zeitverlauf?

Page 87: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

87

ZEITVERLAUF BUNDESTAGSWAHL

Gummer, T., Roßmann, J., & Wolf, C. (2014). Candidates’ Twitter Use in the German Election 2013. Presentation at the General Online Research 2014, Cologne, Germany.

Page 88: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

88

ZEITVERLAUF BUNDESTAGSWAHL

Gummer, T., Roßmann, J., & Wolf, C. (2014). Candidates’ Twitter Use in the German Election 2013. Presentation at the General Online Research 2014, Cologne, Germany.

Page 89: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

89

TWEET-INHALTE

1. Manuelle Codierung

• Ca. 10 Tweets lesen – was fällt auf?

2. Automatische Analyse möglich?

• Problem: deutschsprachige Texte• http://sentistrength.wlv.ac.uk/ ausprobieren mit einzelnen

englischen Tweets (z.B. Twitter suche nach election https://twitter.com/search)

Page 90: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

90

DISKUSSION

Welche Fragestellungen wären interessant?

Page 91: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

91

4. FAZIT & DISKUSSION

Page 92: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

92

EINFLUSS?

Welche Rolle kann Big Data langfristig in den Sozialwissenschaften spielen?

Page 93: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

93

NEUE WISSENSCHAFT?

Data Science?

Computational Social Science?

„scientization of social research“

Welche neuen Fähigkeiten müssen erlernt werden?

Verändert sich die Fachausbildung?

Page 94: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

94

NEUE JOBS?

Data Journalist?

Page 95: Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

95

VIELEN DANK!