10
.SIAK-Journal – Zeitschrift für Polizeiwissenschaft und polizeiliche Praxis Vogl, Armin et al. (2015): Wissensrohstoff Daten. Soziale Netzwerke als Indikator für Lageentwicklungen im Migrationsbereich SIAK-Journal − Zeitschrift für Polizeiwissenschaft und polizeiliche Praxis (2), 77-85. doi: 10.7396/2015_2_G Um auf diesen Artikel als Quelle zu verweisen, verwenden Sie bitte folgende Angaben: Vogl, Armin et al. (2015). Wissensrohstoff Daten. Soziale Netzwerke als Indikator für Lageentwicklungen im Migrationsbereich, SIAK-Journal − Zeitschrift für Polizeiwissenschaft und polizeiliche Praxis (2), 77-85, Online: http://dx.doi.org/10.7396/2015_2_G. © Bundesministerium für Inneres Sicherheitsakademie / Verlag NWV, 2015 Hinweis: Die gedruckte Ausgabe des Artikels ist in der Print-Version des SIAK-Journals im Verlag NWV (http://nwv.at) erschienen. Online publiziert: 9/2015

Wissensrohstoff Daten. Soziale Netzwerke als Indikator für ... · Vogl, Armin et al. (2015). Wissensrohstoff Daten. Soziale Netzwerke als Indikator für Lageentwicklungen im Migrationsbereich,

Embed Size (px)

Citation preview

Page 1: Wissensrohstoff Daten. Soziale Netzwerke als Indikator für ... · Vogl, Armin et al. (2015). Wissensrohstoff Daten. Soziale Netzwerke als Indikator für Lageentwicklungen im Migrationsbereich,

SIAK-Journal ndash Zeitschrift fuumlr Polizeiwissenschaft und polizeiliche Praxis

Vogl Armin et al (2015)

Wissensrohstoff Daten Soziale Netzwerke als Indikator fuumlr Lageentwicklungen im Migrationsbereich

SIAK-Journal minus Zeitschrift fuumlr Polizeiwissenschaft und polizeiliche Praxis (2) 77-85

doi 1073962015_2_G

Um auf diesen Artikel als Quelle zu verweisen verwenden Sie bitte folgende Angaben

Vogl Armin et al (2015) Wissensrohstoff Daten Soziale Netzwerke als Indikator fuumlr Lageentwicklungen im Migrationsbereich SIAK-Journal minus Zeitschrift fuumlr Polizeiwissenschaft und polizeiliche Praxis (2) 77-85 Online httpdxdoiorg1073962015_2_G

copy Bundesministerium fuumlr Inneres ndash Sicherheitsakademie Verlag NWV 2015

Hinweis Die gedruckte Ausgabe des Artikels ist in der Print-Version des SIAK-Journals im Verlag NWV (httpnwvat) erschienen

Online publiziert 92015

-

77

SIAK JOURNAL 22015

Armin Vogl Mitarbeiter der Abteilung II3 (Grenzkontrolle) im Bundesministeshyrium fuumlr Inneres

georg neubAuer Senior Scientist und Projektleiter am Austrian Institute of Technology

HermAnn Huber Studienassistent an der Technischen Universitaumlt Wien

Wissensrohstoff Daten Soziale Netzwerke als Indikator fuumlr Lageentwicklungen im Migrationsbereich

Groszlige Migrationsbewegungen sind heute eines der vordringlichsten Probleme fuumlr die soziooumlkonomische Stabilitaumlt in Ziellaumlndern von Primaumlrmigration und insbesondere in der EU Einerseits drohen die Demografien der primaumlren Fluchtlaumlnder an der Masse der ankommenden Fluumlchtlinge zu zerfallen (Bsp syrische Fluumlchtlinge im Libanon) und andererseits sind die sozialen Strukturen der europaumlischen Unionslaumlnder nicht fuumlr eine derartige Anzahl von Migranten vorbereitet Aus diesem Grund werden soziale Medien (hier Twitter) als Informationsquellen immer wichtiger Sie koumlnnen Flucht- und Zielshylaumlndern mehr Vorbereitungszeit verschaffen sodass diese human auf kuumlnftige Migrashytionsstroumlme reagieren koumlnnen Soziale Medien sind grundsaumltzlich geeignet Stimmungsshybilder von Bevoumllkerungsgruppen widerzuspiegeln Die Problematik diese Stimmungen und das dadurch veraumlnderte Kommunikationsverhalten zu messen wurde in einer Zusammenarbeit zwischen Wissenschaftlern des Austrian Institute of Technology (AIT) und dem oumlsterreichischen Bundesministerium fuumlr Inneres untersucht

1 einfuumlHrung Migrationsausloumlsende Ereignisse sind sehr komplex und zunaumlchst oft nur von lokaler Bedeutung Aus diesem Grund erreichen sie in den internationalen Medien geringe Aufmerksamkeit Soziale Medien insbeshysondere Twitter koumlnnen diesem Problem in mehrerlei Hinsicht entgegenwirken Sie sind sehr gut geeignet Stimmungsbilder der Bevoumllkerung in Migrationsausgangsshybzw Transitlaumlndern zu erkennen Fuumlr den Migrationsbereich kann es von groszligem Vorteil sein die vorhandenen Daten aufshyzugreifen und daraus potenziell migrashytionsausloumlsende Ereignisse abzuleiten Der Schutz der Privatsphaumlre und die ausshyschlieszligliche Verwendung von frei zugaumlngshylichen Daten sind fuumlr einen sensiblen Beshyreich wie die Migration von besonderer

Bedeutung Der wichtigste Aspekt in dieshysem Zusammenhang ist dass migrationsshyausloumlsende Ereignisse immer Massenphaumlshynomene sind Beitraumlge von Einzelpersonen zu einem Thema sind demnach voumlllig irshyrelevant Ausschlaggebend ist die Teilnahme der kritischen Masse was sich in erhoumlhtem Kommunikationsverhalten in bestimmten Regionen niederschlaumlgt Einzelne Indivishyduen deren Name Geschlecht politische Einstellung etc sind fuumlr die Ereigniserkenshynung unerheblich In erster Instanz sind selbst die Inhalte (Texte Bilder Links etc) nachrangig Zunaumlchst steht eine regionale punktuelle Anhaumlufung von Interaktionen im Mittelpunkt Erst wenn diese Anhaumlushyfung als solche erkannt wurde werden die Inhalte an Domaumlnenexperten fuumlr eine tiefergehende Einschaumltzung weitergeleitet

-SIAK JOURNAL

22015

Eine automatisierte Vorab-Kategorisieshyrung der Ereignisse ist zwar denkbar auf Grund der heterogenen Daten (verschieshydene Sprache Abkuumlrzungen Doppeldeushytigkeiten etc) ist eine Qualitaumltskontrolle durch geschultes Fachpersonal ausdruumlckshylich empfehlenswert

In dieser Forschungsarbeit werden geoshyund zeitbasierte Haumlufigkeiten in oumlffentlich zugaumlnglichen Twitterdaten am Beispiel Aumlgypten untersucht Die grundsaumltzliche Fragestellung lautet Kann man auf Grund der durchschnittlichen Haumlufigkeit von Twittermeldungen in einem Gebiet Ruumlckshyschluumlsse auf Ereignisse und uumlber die grundsaumltzliche Stimmungslage der dorshytigen Bevoumllkerung ziehen Die Ergebnisse der Studie in Aumlgypten legen nahe dass ndash ohne die Inhalte der Twittermeldungen zu kennen ndash ein solcher Ruumlckschluss unter Beshyachtung einiger Einflussfaktoren prinzipishyell moumlglich ist Fuumlr tiefergehende Analysen der Stimmungslage bspw Sentiment oder Emotion sind Einblicke in den Inhalt der Nachrichten unerlaumlsslich Dieser Aspekt soll in einer weiterfuumlhrenden Forschungsshyzusammenarbeit untersucht werden

Ausgeloumlst durch Naturkatastrophen mishylitaumlrische Konflikte oder wirtschaftliche Probleme ist Migration eine sehr volatile Domaumlne Ihre Auswirkungen sind immer wieder Teil politischer Diskussionen Fuumlr nahezu alle industrialisierten Laumlnder und insbesondere fuumlr die EU ist Migration eine der groumlszligten Herausforderungen der Gegenshywart Wie Collet (Collet 2013) schreibt wurden 10 aller Einwohner der damashyligen EU-27 nicht in einem Mitgliedstaat der EU geboren Aus diesem Grund sind viele Laumlnder an einer Harmonisierung der Immigrationspolitik interessiert (Givens Luedke 2004) Dieser Schritt erfordert zunaumlchst aber eine Uumlbereinkunft hinsichtshylich der Sachlage Messdaten in Bezug auf Migrationsstroumlme sind oft inkonsistent

veraltet oder nicht existent (Zagheni et al 2014) Beer ua (Beer et al 2010) machen darauf aufmerksam dass uumlberdies auch Umfang und Vollstaumlndigkeit in vielen Faumllshylen nicht gegeben sind Neue Medien die insbesondere uumlber mobile Endgeraumlte geshynutzt werden koumlnnen hier einen wichtigen Beitrag leisten Die Moumlglichkeit Inhalte wie Text Bilder oder Videos mit geograshyfischen Positionsdaten auszustatten kann fuumlr die Migrationsdomaumlne von groszliger Beshydeutung sein (Noulas et al 2011)

In dieser Arbeit wird die Veraumlnderung der Tweethaumlufigkeit in Aumlgypten zwischen Herbst 2013 und Fruumlhlingsbeginn 2014 in Bezug auf politische oder gesellschaftliche Ereignisse retrospektiv untersucht Die Veraumlnderungen koumlnnten als Indikatoren fuumlr soziale Instabilitaumlten dienen und helshyfen migrationsausloumlsende Komponenten fruumlhzeitig zu erkennen Rechtzeitige Idenshytifikation von bevorstehenden Migrationsshystroumlmen ist wichtig um potenziell betrofshyfene Zielstaaten in ihren Vorbereitungen zu unterstuumltzen Dazu gehoumlren etwa die rechtzeitige Bereitstellung von Such- und Rettungsteams oder Entscheidungshilfe hinsichtlich eventueller polizeilicher oder humanitaumlrer Maszlignahmen Ein moumlglicher Ansatz ist Signale von sozialen Medien als Indikator fuumlr auszligergewoumlhnliche Ereigshynisse zu verwenden wie zB ein zunaumlchst nicht erklaumlrbarer Anstieg von Twitter-Nachrichten zu bestimmten Zeiten Insshybesondere die Verwendung von mobilen Geraumlten die zusaumltzliche Geo-Informatioshynen bereitstellen bietet eine Vielzahl von Moumlglichkeiten um die Entwicklung von kritischen Ereignissen zu untersuchen

Ein Beispiel fuumlr die Analyse von Daten aus sozialen Medien sind Krawalle wie sie im Jahr 2011 in Groszligbritannien stattshyfanden Uumlber soziale Medien konnten im Nachhinein nuumltzliche Daten uumlber die

78

-

22015 SIAK JOURNAL

Entstehung dieser Unruhen gesammelt werden (GlasgowFink 2013) Als fruumlhes Beispiel fuumlr den Nutzen von sozialen Meshydien wird oft die Notlandung des US-Airshyways-Flugs 1549 im New Yorker Hudson River angegeben (15012009) Bevor die traditionellen Nachrichtenkanaumlle uumlber das Ungluumlck berichteten wurden auf Twitter schon die ersten Nachrichten und Bilder publiziert (Beaumont 2009) Diese fruumlhshyzeitig verfuumlgbaren Informationen sind dazu geeignet Entscheidungstraumlgern eine zushysaumltzliche Bewertungsgrundlage zu geben und weisen daruumlber hinaus einige Vorteile gegenuumlber ndash von traditionellen Medien beshyreitgestellten ndash Informationen auf Speziell im Notfall- und Katastrophenmanagement ist die Analyse von Massenverhalten hilfshyreich Sie kann eine weitere Entscheidungsshygrundlage bei der strategischen Planung darstellen (Chae et al 2014) Die Studie von Schaust ua (Schaust et al 2013) hat am Beispiel des Hurrikans Sandy ebenfalls gezeigt dass die von der Bevoumllkerung in Twitter generierten Daten lagebildrelevant sein koumlnnen Im Gesundheitssektor geshylang es Anzeichen fuumlr den Ausbruch der Schweinegrippe H1N1 bereits 1ndash2 Woshychen fruumlher zu erkennen als es Gesundshyheitseinrichtungen uumlber traditionellen Kashynaumllen moumlglich war Fuumlr Ereigniserkennung besonders relevant sind geo- bzw ortscoshydierte Daten Diese wurden von Ferrari ua (Ferrari et al 2011) genutzt um das Mobilitaumltsverhalten von Buumlrgern der Stadt New York zu analysieren Mit Hilfe der Ergebnisse wurden regionale Verkehrsshykonzepte auf die Beduumlrfnisse der Einshywohner abgestimmt Ortsbezogene Daten aus sozialen Medien haben uumlberdies dazu gefuumlhrt Unterschiede zwischen Wochenshyenden und Arbeitstagen oder Hotspots zu bestimmten Uhrzeiten aufzudecken Um bevorstehende Ereignisse auf Grundlage von raum-zeitlichen Daten zu identifizieshyren entwickelten Kraft ua (Kraft et al

2013) Methoden zur Echtzeitereignisershykennung Interessierte Personen koumlnnen dadurch zeitnah uumlber den Ereigniseintritt informiert werden Auf Grund der sehr fruumlshyhen Erkennung bringt der Einsatz sozialer Medien einen zusaumltzlichen Vorteil gegenshyuumlber traditionellen Medien mit sich Kallus (Kallus 2014) sammelte Daten aus offenen Internetquellen wie etwa Nachrichtenporshytalen Blogs oder sozialen Medien und unshytersuchte sie auf Hinweise auf potenzielle zukuumlnftige Ereignisse Am Beispiel des Staatsstreichs in Aumlgypten konnte gezeigt werden dass eine Evidenz fuumlr die Vorhershysagekapazitaumlt dieser Kanaumlle vorhanden ist

Zagheni ua (Zagheni et al 2014) hashyben gezeigt wie es moumlglich ist Migrashytionsstroumlme aus geo-codierten Daten zu erkennen Die Autoren verweisen auf die Tatsache dass uumlblicherweise Volkszaumlhshylungen verwendet werden um Migrationsshystroumlme indirekt zu schaumltzen Sowohl uumlber die Zeit zwischen den Volkszaumlhlungen als auch uumlber juumlngste Entwicklungen der Gegenwart liegen aber oft keine Daten vor In der Untersuchung von Zagheni ua (Zagheni et al 2014) wurden uumlber zwei Jahre hinweg geo-codierte Tweets von uumlber 500000 Personen aus OECD-Mitgliedstaaten analysiert Durch zeitshyliche Gliederung in Vier-Monats-Schritten konnten Ruumlckschluumlsse auf Migrationsbeshywegungen zwischen einzelnen Laumlndern gezogen werden Am deutlichsten konnten Bevoumllkerungsabwanderungen aus krisenshygeschuumlttelten Laumlndern wie Griechenland oder Irland gemessen werden Diese Meshythode koumlnnte dabei helfen Wendepunkte in Migrationsszenarien zu erkennen und das Verstaumlndnis der Beziehung zwischen interner und internationaler Migration zu verbessern (Weber et al 2014) All diese Beispiele zeigen wie hoch der Informashytionsgehalt von Daten aus sozialen Meshydien prinzipiell ist und wie vielseitig sie

79

-SIAK JOURNAL

22015

genutzt werden koumlnnen Damit das Potenshyzial aber vollstaumlndig ausgeschoumlpft werden kann braucht es nicht nur geeignete IT-Werkzeuge und Datenanalyse-Know-how sondern auch umfassendes domaumlnenspeshyzifisches Fachwissen Denn erst durch eine Interpretation der Analyseergebnisse durch fachkundiges Personal koumlnnen Hyshypothesen bestaumltigt oder widerlegt werden

2 migrAtionspotenziAle in soziAlen meDien Besonders seit dem bdquoArabischen Fruumlhlingldquo haben Krisensituationen in Nordafrika im Nahen Osten in den Laumlndern suumldlich der Sahara sowie in Suumldasien eine uumlberwaumllshytigende Migrationswelle mit einer stetig wachsenden Zahl von Fluumlchtlingen vershyursacht Die europaumlischen Gesellschaften kaumlmpfen mit den soziooumlkonomischen Ausshywirkungen dieser Krisen und suchen daher nach politischen Loumlsungen die sowohl der humanitaumlren Verantwortung als auch dem Schutz ihrer demografischen und wirtshyschaftlichen Strukturen Rechnung tragen

Die Quelllaumlnder illegaler Migration wershyden laufend auch von Experten des Bunshydesministeriums fuumlr Inneres (BMI) auf Migrationspotenziale untersucht Bei akushyten Ereignissen ist es jedoch schwer an sishytuationsbezogene Daten zu kommen Von besonderer Bedeutung fuumlr die Migration ist die emotionale Situation von potenshyziellen Migranten in den betroffenen Laumlnshydern Analog dazu ist auch die gegenwaumlrshytige Situation jener Laumlnder von Interesse in denen die Fluumlchtlinge Primaumlrschutz sushychen Ziellaumlnder muumlssen auf groszlige Fluumlchtshylingsstroumlme gut vorbereitet sein um entshysprechende Kapazitaumlten zu schaffen und humanitaumlre Erstmaszlignahmen einleiten zu koumlnnen Im Moment scheinen die Behoumlrshyden der europaumlischen Mitgliedstaaten nicht umfassend vorbereitet zu sein Aus diesem Grund muumlssen neue Informationsquellen

gefunden werden um moumlgliche migrashytionsausloumlsende Vorfaumllle besser beobachten zu koumlnnen Ob und in wie weit ein Vorfall migrationsausloumlsend ist oder nicht haumlngt stark von der Situation und insbesondere auch von der emotionalen Lage vor Ort ab Aus diesem Grund ist es essentiell uumlber die Hintergruumlnde so fruumlh als moumlglich Beshyscheid zu wissen

Europa bewegt sich langsam in Richshytung einer bdquosanfteren weniger polizeishylichen Reaktionldquo zur Bekaumlmpfung der illegalen Migration ist aber buchstaumlblich mit dem groszligen Zustrom innerhalb kurshyzer Zeit uumlberfordert Vor allem die suumldshyliche Grenze zu Italien steht einer stark steigenden Migrationswelle gegenuumlber Als in den ersten drei Monaten des Jahres 2014 mehr als 20000 illegale Migranten auf offener See gerettet und an die italieshynische Kuumlste gebracht werden mussten entstand in der suumlditalienischen Region Sizilien eine soziooumlkonomische Krise Sowohl die Auswirkungen von groszligen Migrationsbewegungen als auch Szenashyrien in denen hunderte Menschen ertrinshyken koumlnnen durch raschere und ortsbeshyzogene Information gemildert werden Rechtzeitige Alarmierung der Such- und Rettungsteams an der italienischen Kuumlste wuumlrde eine der Situation angepasste und rasche Reaktion ermoumlglichen wodurch potenziell tragische Unfaumllle auf See vershymieden werden koumlnnten

3 DAten Als informAtionsshyroHstoff

31 Der Analyseprozess Zu einer erfolgreichen Datenanalyse gehoumlren viele verschiedene Bausteine Der wichshytigste Baustein sind zunaumlchst die Daten selbst Gemaumlszlig dem Modell von Ackoff (Ackoff 1989) in Abbildung 1 (siehe Seishyte 81) sind sie der Rohstoff zur Informashy

80

-

22015 SIAK JOURNAL

tionsgewinnung Gezielte Aufbereitung der Daten fuumlhrt zu der Entstehung von neuer Information welche durch weitere Verarshybeitungsprozesse in vielen Faumlllen zu Wisshysen verdichtet werden kann Durch Ergaumlnshyzung eines Kontexts wird aus den Zeichen und Ziffern der untersten Ebene zunaumlchst also Information So werden etwa aus der Zahl bdquo17ldquo durch Hinzufuumlgen des Kontextes bdquoTemperaturmesswertldquo beispielsweise bdquo17deg Celsiusldquo Ein zeitlicher und geografischer Kontext kann in die Wissensstufe fuumlhren in welcher die Information dann ihre Anshywendung findet (Beispiel 17deg C im Jaumlnner in Wien sind uumlblicherweise viel zu warm) Interessant ist der Vergleich zwischen der obersten und der untersten Ebene der Pyshyramide Wissen als historisch aumlltestes Eleshyment ist schwer zu beschreiben und in Doshykumenten zumeist implizit verpackt Daten hingegen als wesentlich juumlngeres Konzept koumlnnen leicht notiert werden und haben einen eher mathematisch expliziten Chashyrakter Waumlhrend der Schritt von Daten zu Informationen bereits mit relativ einfachen Mitteln zu bewerkstelligen ist gestaltet sich die Schaffung der naumlchsten Ebene etshywas schwieriger In vielen Faumlllen ist dieser Schritt auf automatischem Weg uumlberhaupt nicht mehr durchfuumlhrbar und muss durch menschliche Akteure getaumltigt werden

Quelle nach Ackoff 1989

Wissen

implizit

explizit

Information

Daten

In der Industrie wurde Datenanalyse bzw Data Mining vor allem durch groszlige Warenhausketten bekannt Sie haben damit begonnen Einkaumlufe ihrer Kunden groszligshyflaumlchig nach Gemeinsamkeiten zu untersushychen Signifikante Korrelationen zwischen einzelnen Produktgruppen wurden dann als Grundlage fuumlr neue Angebote oder alternatives Shopdesign herangezogen In den eher isolierten Datenspeichern der Warenhausketten ist die Datenqualitaumlt tenshydenziell hoch Artikelnummern Zeit und Ort des Kaufes sind bekannt und koumlnnen abgerufen werden Das Datenformat kann in diesen Faumlllen vom Unternehmen selbst bestimmt werden Im Gegensatz dazu ist die Qualitaumlt von Daten aus frei zugaumlngshylichen Quellen und insbesondere sozialen Medien kaum bis gar nicht beeinflussbar Datenerfassung und Aufbereitung sind auf Grund von unkontrollierbarer Inhomogeshynitaumlt und Dynamik eine groszlige Herausforshyderung Auf technischer Ebene gilt es also zunaumlchst Werkzeuge zur Hand zu haben welche die Extraktion und Aufbereitung von Daten garantieren koumlnnen Wenn dieser Schritt bewaumlltigt wurde kann die geschafshyfene Datengrundlage genutzt werden um in der Wissenspyramide aufwaumlrts zu steigen

32 Werkzeuge Um die Inhomogenitaumlt und Dynamik von Rohdaten besser kontrollieren zu koumlnnen hat das AIT die Plattform Ubicity erstellt Ubicity ist in der Lage Daten parallel aus unterschiedlichen Internetquellen entgeshygenzunehmen sie aufzubereiten und fuumlr die spaumltere Analyse geordnet abzuspeishychern Die hoch performante Architektur ermoumlglicht die Aufnahme von mehr als 80000 Nachrichten pro Sekunde Je nach Einsatzzweck werden entgegengenom-

Abb 1 Vereinfachte Darstellung der

mene Daten abhaumlngig von ihrem Zustand durch flexibel schaltbare Aufbereitungsshymodule geschleust um sie schlieszliglich fuumlr

Wissenspyramide1 die eigentliche Analyse abzulegen

81

-SIAK JOURNAL

22015

Fuumlr einen initialen Test hat das Sysshytem von Oktober 2013 bis Maumlrz 2014 (mit kurzen Unterbrechungen) mehr als 400 Mio Tweets uumlber die frei zugaumlngshyliche Twitter-Schnittstelle aufgenommen Insgesamt konnten Daten uumlber 98 Tage hinweg ohne Unterbrechung entgegengeshynommen werden Das entspricht nahezu allen Tweets die uumlber Geraumlte wie Smartshyphones oder Tablets mit GPS-Positionsshydaten abgegeben wurden Etwa eine Mio Tweets wurden innerhalb der aumlgyptischen Landesgrenze abgesetzt und dienten als Ausgangsmaterial fuumlr die gegenstaumlndige Untersuchung Zunaumlchst wurden die Twitshyterhaumlufigkeit und insbesondere das -vershyhalten der Benutzerinnen und Benutzer etwas genauer untersucht Tageszeit- oder wochentagabhaumlngige Schwankungen koumlnshynen regional unterschiedlich ausfallen und muumlssen in die Analyse miteinbezogen werden In einem weiteren Schritt wurden etwaige Schwankungen zwischen urbanen und ruralen Gebieten am Beispiel der Staumldshyte Alexandria und Kairo im Vergleich zum gesamten Staatsgebiet verglichen Vershybreitungsgrad sowie Unterschiede in der technischen Infrastruktur koumlnnten die Zushyverlaumlssigkeit der Daten deutlich beeinflusshysen Um eine Korrelation zwischen Stadt und Land feststellen zu koumlnnen wurden schlieszliglich migrationsrelevante Ereignisse mit der Twitter-Haumlufigkeitskurve uumlberlashygert und der Pearson Korrelationskoeffizishyent berechnet

Quelle Neubauer et al 2014

Abb 2 Haumlufigkeitsklassen TweetsTag2

25

20

15

10

5

0

6001

ndash700

070

01ndash8

000

8001

ndash900

090

01ndash1

0000

1000

1ndash11

000

1100

1ndash12

000

1200

1ndash13

000

1300

1ndash14

000

1400

1ndash15

000

1500

1ndash16

000

gt160

00

33 Ergebnisse Im Histogramm von Abbildung 2 werden die 98 verfuumlgbaren Tage verschiedenen Haumlufigkeitsklassen zugeordnet Die Zushyordnung erfolgt auf Basis der Anzahl von abgesetzten Tweets pro Tag Die Tage der Klasse bdquo7001ndash8000 TweetsTagldquo streuen uumlber den gesamten Untersuchungszeitshyraum von Oktober bis Maumlrz Daraus laumlsst sich ein Trend fuumlr einen durchschnittlichen Erwartungswert ableiten Im Schnitt wurshyden pro Tag also etwa 7000ndash8000 GPS-kodierte Tweets in Aumlgypten abgegeben Im Gegensatz dazu sind die Tage in den Klassen um 13000 TweetsTag deutlich kompakter um den Jahreswechsel angeshysammelt Die deutlich erhoumlhte Kommushynikation in diesem kurzen Zeitraum im Vergleich zu den uumlbrigen Tagen und den zu erwartenden Durchschnittswert ist ein interessanter Aspekt der als Grundlage fuumlr weitere Analysen herangezogen wershyden kann Fuumlr Details zur Vorgehensweise siehe auch Neubauer Huber und Jager (Neubauer et al 2014)

Im naumlchsten Schritt wurde untersucht inwieweit sich das Twitterverhalten in Stadt und Land unterscheidet eine wichshytige Kenngroumlszlige fuumlr Migrationsanalysen Als Referenz wurden die zwei groumlszligten Staumldte Aumlgyptens herangezogen Kairo und Alexandria stellen zusammen 143 der 85-Millionen-Bevoumllkerung Aumlgyptens Mit Hilfe der geo-basierten Abfrage in Ubicity wurden die Stadtgrenzen uumlber Satellitenshybilder angenaumlhert Die Tweets der Staumldte und jene des gesamten Landes wurden anshyschlieszligend jeweils anhand des zugehoumlrigen Medians normalisiert Dadurch ist eine Uumlberlagerung der Kurven (Polynomialshyfunktion fuumlnfter Ordnung) und somit ein relativer Vergleich moumlglich Im Dishyagramm in Abbildung 3 (siehe Seite 83) ist ein aumlhnlicher Kurvenverlauf der Uumlbershylagerung bereits deutlich erkennbar Die

82

-

SIAK JOURNAL 22015

Quelle Neubauer et al 2014

Korrelationskoeffizienten bestaumltigen die-Egypt Normalized Cairo Normalized Alexandria Normalized Poly (Egypt Normalized) Poly (Cairo Normalized) Poly (Alexandria Normalized)

Tweets in Egypt

Num

ber

of T

wee

ts

Timeline

Abb 3 Anzahl der geo-codierten Tweets im gesamten aumlgyptischen Landesgebiet sowie in Kairo und Alexandria

sen Trend (Aumlgypten-Kairo 097 Aumlgypten-Alexandria 093 Kairo-Alexandria 089)

In Tabelle 1 werden die wichtigsten stashytistischen Angaben zum Twitterverhalten in den gemessenen Gebieten dargestellt

Quelle Neubauer et al 2014

TweetsTag Aumlgypten Kairo Alexandria

Durchschnitt 98419 15695 12365 Median 89635 16960 11340 Maximum 168370 24990 20480 01 Quantil 67131 9820 7796 025 Quantil 72040 11110 9108 075 Quantil 125513 19930 16133 09 Quantil 139712 21214 18081

sozialen Medien sehr nahe Schnee auf den Pyramiden gab es zuletzt vor uumlber

Tab 1 Statistische Angaben zum Vergleich der Tweethaumlufigkeit in den jeweils untersuchten Gebieten

Anhand der Trendanalyse ist ein Anstieg der Tweethaumlufigkeit ab Ende November 2013 zu erkennen welche bis Anfang Jaumlnner 2014 wieder abflacht Auf Grund von Wartungsarbeiten liegen leider keine durchgaumlngigen Aufzeichnungen vor Der Trend zeigt jedoch einen deutlichen Ruumlckshygang und erneute Stabilisierung nach dem Jahreswechsel Der deutliche Anstieg ist houmlchstwahrscheinlich durch mehrere Ershyeignisse zu erklaumlren Zunaumlchst wurde in diesem Zeitraum die Muslimbruderschaft von der Regierung Aumlgyptens als terrorisshytische Organisation eingestuft was zu ershyheblichem Aufruhr in der Bevoumllkerung fuumlhrte Die zweite Komponente steht in keiner Verbindung zu politischen Vorshykommnissen und wurde daher erst anshyhand der Analyse einzelner Tage entdeckt welche mit nahezu 17000 Tweets weit uumlber dem Durchschnitt lagen Am 13 Deshyzember 2013 wurde der Nahe Osten und insbesondere Aumlgypten mit heftigem Schneeshyfall konfrontiert Dieses seltene meteoroshylogische Ereignis legt einen Zusammenshyhang mit erhoumlhter Kommunikation in den

100 Jahren Diese ersten Untersuchungen geben schon deutliche Hinweise auf einen Zusammenhang zwischen erhoumlhtem Komshymunikationsverhalten und bestimmten Vorkommnissen wie dem mehrwoumlchigen politischen Umbruch sowie dem auszligershygewoumlhnlichen Schneefall

4 ConClusio Fuumlr genauere Aussagen muss in zukuumlnfshytigen Untersuchungen die Stabilitaumlt des Twitter-Datenumfangs uumlber der Zeit untershysucht werden Morstatter ua (Morstatter et al 2013) haben eine Schwankung von Top-Hashtags zwischen der oumlffentlichen Twitter-Schnittstelle und der Grundgeshysamtheit festgestellt Ob und wie Twitter eine Gewichtung bei der Datenlieferung vornimmt ist derzeit im Detail nicht beshykannt Seitens des Unternehmens werden diesbezuumlglich keine naumlheren Angaben geshymacht Fuumlr eine feinere Aufloumlsung ndash raumlumshylich und zeitlich ndash muss diese Variable noch naumlher untersucht werden Ungeachtet dessen ist es ndash wie beschrieben ndash trotzdem moumlglich Veraumlnderungen und Tendenzen bereits unter gegebenen Voraussetzungen abzuleiten Fuumlr den Migrationsbereich ist die automatisierte Erkennung von Ershyeignissen uumlber soziale Medien eine vielshy

83

-SIAK JOURNAL

22015

versprechende Moumlglichkeit Gerade die komplexen und weltweiten Auswirkungen von Ereignissen in diesem Sektor sind oft schwer durchschaubar Es bedarf hoher Aufmerksamkeit und Sensibilitaumlt releshyvante Vorkommnisse mit potenziellen Folshygen fuumlr globale Migrationsstroumlme wahrzushynehmen Wir haben gezeigt dass soziale Medien als Indikator zur Erkennung von potenziell relevanten Ereignissen gut geshyeignet sind Die detaillierte Analyse obshyliegt aber nach wie vor Domaumlnenexpershyten die individuell uumlber die tatsaumlchliche Bedeutung entscheiden muumlssen Die geshygenstaumlndliche Technologie kann in erster Instanz als zusaumltzliches Instrument zur Erhoumlhung der Reichweite und Verkuumlrzung der Reaktionszeit eingesetzt werden

Die hochdynamischen Inhalte und die sich staumlndig weiterentwickelnde Themenshylandschaft innerhalb sozialer Medien ershyzeugen einerseits eine erhoumlhte Komplexitaumlt bei der Informationsgenerierung Anderershyseits ist genau diese Dynamik ein wesentshyliches Unterscheidungsmerkmal gegenshyuumlber allen anderen Informationskanaumllen Sichtbar wird sie in unterschiedlichen Dimensionen Stimmungsbilder bzw die in den Texten transportierten Emotionen sind fuumlr die Migration ein besonders wichshytiger Aspekt Kaum ein anderes Medium ermoumlglicht eine solch unmittelbare Ableishytung von Stimmungsbildern wie die soziashylen Medien Insbesondere die Dynamik in Hinblick auf zeitliche und geografische

Veraumlnderung von Emotionen bieten vielshyversprechende Moumlglichkeiten zur Weitershyentwicklung und erlauben nuumltzliche Einshysichten in Migrationsprozesse Uumlberdies ist auch die Erkennung und Ausbreitung von Themen ein interessanter Aspekt ndash auch uumlber die Migrationsdomaumlne hinaus In Verbindung mit den bereits durchgeshyfuumlhrten quantitativen Analysen koumlnnten durch Einbeziehen der Nachrichteninhalte domaumlnenspezifische Ereignisse praumlziser und zeitnaher erkannt werden Sowohl die Granularitaumlt der Daten als auch die Komplexitaumlt des Analyseprozesses haumlngen stark vom Ziel des Vorhabens ab Erste Einsichten koumlnnen wie demonstriert beshyreits mit grundlegenden Methoden abgeshyleitet werden Von essentieller Bedeutung fuumlr die Lagebilderstellung ist jedoch die Betreuung des gesamten Analyseprozesses durch Domaumlnenexperten Es ist davon auszugehen dass die Ergebnisse nahezu immer durch fachkundiges Personal mit entsprechendem Hintergrundwissen intershypretiert werden muumlssen Erst durch diese Interpretation koumlnnen die gewonnenen Einsichten in den Wissensprozess der Organisation eingebettet werden Demshygegenuumlber stehen die technische Umsetshyzung und das damit verbundene Knowshyhow in den Bereichen IT Datenanalyse und Prozesskonzeption Die ausgewogene Kombination dieser beiden Aspekte ermoumlglicht durchgaumlngige sinnvolle und praxisbezogene Anwendungen

84

-

22015 SIAK JOURNAL

1 Houmlhere Ebenen bauen jeweils auf der

darunterliegenden Ebene auf Waumlhrend

Daten explizit fuumlr sich stehen ist Wissen

implizit in einer Ansammlung von Daten

(zB Buchstaben Woumlrter Texte) vershy

packt 2 Die Klassen im Histogramm geben die

Menge an abgesetzten Geo-Tweets in

Aumlgypten an Die Houmlhe der Balken kennshy

zeichnet die Anzahl der Tage die in die

jeweilige Kategorie fallen

Quellenangaben

Ackoff Russel L (1989) From data to

wisdom Journal Of Applied Systems

Analysis (1) 3ndash9

Beaumont Claudine (2009) New York

plane crash Twitter breaks the news

again The Telegraph Online http

wwwtelegraphcouktechnologytwitter

4269765New-York-plane-crash-Twittershy

breaks-the-news-againhtml (April 30

2014)

De Beer JoopRaymer James et al

(2010) Overcoming the Problems of

Inconsistent International Migration

data A New Method Applied to Flows in

Europe European journal of populashy

tion = Revue europeenne de demographie

26 (4) 459ndash481 Online httpwwwpub

medcentralnihgovarticlerenderfcgiar

tid=2967706amptool=pmcentrezamprenderty

pe=abstract (April 28 2014)

Chae JunghoonThom Dennis et al

(2014) Public behavior response anashy

lysis in disaster events utilizing visual

analytics of microblog data Computers

amp Graphics (38) 51ndash60 Online http

linkinghubelseviercomretrievepii

S0097849313001490 (April 2 2014)

Collett Elizabeth (2013) Facing 2020

developing a new European agenda for

immigration and asylum policy mpi Mishy

gration Policy Institute Europe (1) 1ndash8

Ferrari LauraRosi Alberto et al

(2011) Extracting urban patterns from

location-based social networks Proceedshy

ings of the 3rd ACM SIGSPATIAL Intershy

national Workshop on Location-Based

Social Networks ndash LBSN rsquo11 New York

1 Online httpdlacmorgcitation

cfmdoid=20632122063226

Givens TerriLuedtke Adam (2004) The

Politics of European Union Immigration

Policy Institutions Salience and Harshy

monization Policy Studies Journal 32

(1)145ndash165 Online httpdoiwiley

com101111j1541-0072200400057x

Glasgow KimberlyFink Clayton (2013)

From push brooms to prayer books

Social media and social networks during

the London riots iConference 155ndash169

Online httpswwwidealsillinoisedu

handle214238382 (April 28 2014)

Kallus Nathan (2014) Predicting crowd

behavior with big public data Proceedshy

ings of the companion publication of the

23rd international conference on WWW

Companion rsquo14 625ndash630 Online http

dxdoiorg10114525679482579233

(April 28 2014)

Kraft ThomasWand Derek et al (2013)

Less After-the-Fact Investigative visshy

ual analysis of events from streaming

twitter IEEE Symposium on Large-

Scale Data Analysis and Visualization

(LDAV) 95ndash103 Online httpieeex

ploreieeeorglpdocsepic03wrapper

htmarnumber=6675163

Morstatter FredPfeffer Juumlrgen et al

(2013) Is the Sample Good Enough

Comparing Data from Twitterrsquos Streamshy

ing API and Twitterrsquos Firehose Proceedshy

ings of ICWSM Online httparxivorg

abs13065204

Neubauer GeorgHuber Hermann et al

(2014) Detecting events in Egypt based

on geo-referenced tweets Interdisciplinshy

ary Information and Management Talks

Poděbrady Noulas AnastasiosScellato Salvatore et

al (2011) An Empirical Study of Geoshy

graphic User Activity Patterns in Fourshy

square Proceedings of the Fifth Internashy

tional AAAI Conference on Weblogs and

Social Media 570ndash573 Online http

wwwaaaiorgocsindexphpICWSM

ICWSM11paperviewFile28313241

(April 28 2014)

Schaust SvenWalther MaximilianKaisser

Michael (2013) Avalanche Prepare

Manage and Understand Crisis Situashy

tions Using Social Media Analytics in

Comes TinaFriedrich Frank et al (Eds)

Proceedings of the 10th International

ISCRAM Conference Baden-Baden

852ndash857

Weber IngmarGarimella Kiran et al

(2014) Using Geolocated Twitter Data

to Study Recent Patterns of International

and Internal Migration in OECD Counshy

tries European Population Conference

2014 Budapest 1ndash9 Online http

epc2014princetoneduabstracts140809

Zagheni EmilioGarimella Venkata

Weber et al (2014) Inferring intershy

national and internal migration patterns

from Twitter data WWW rsquo14 Companion

1ndash6 Online httpdlacmorgcitation

cfmid=2576930 (April 28 2014)

85

Page 2: Wissensrohstoff Daten. Soziale Netzwerke als Indikator für ... · Vogl, Armin et al. (2015). Wissensrohstoff Daten. Soziale Netzwerke als Indikator für Lageentwicklungen im Migrationsbereich,

-

77

SIAK JOURNAL 22015

Armin Vogl Mitarbeiter der Abteilung II3 (Grenzkontrolle) im Bundesministeshyrium fuumlr Inneres

georg neubAuer Senior Scientist und Projektleiter am Austrian Institute of Technology

HermAnn Huber Studienassistent an der Technischen Universitaumlt Wien

Wissensrohstoff Daten Soziale Netzwerke als Indikator fuumlr Lageentwicklungen im Migrationsbereich

Groszlige Migrationsbewegungen sind heute eines der vordringlichsten Probleme fuumlr die soziooumlkonomische Stabilitaumlt in Ziellaumlndern von Primaumlrmigration und insbesondere in der EU Einerseits drohen die Demografien der primaumlren Fluchtlaumlnder an der Masse der ankommenden Fluumlchtlinge zu zerfallen (Bsp syrische Fluumlchtlinge im Libanon) und andererseits sind die sozialen Strukturen der europaumlischen Unionslaumlnder nicht fuumlr eine derartige Anzahl von Migranten vorbereitet Aus diesem Grund werden soziale Medien (hier Twitter) als Informationsquellen immer wichtiger Sie koumlnnen Flucht- und Zielshylaumlndern mehr Vorbereitungszeit verschaffen sodass diese human auf kuumlnftige Migrashytionsstroumlme reagieren koumlnnen Soziale Medien sind grundsaumltzlich geeignet Stimmungsshybilder von Bevoumllkerungsgruppen widerzuspiegeln Die Problematik diese Stimmungen und das dadurch veraumlnderte Kommunikationsverhalten zu messen wurde in einer Zusammenarbeit zwischen Wissenschaftlern des Austrian Institute of Technology (AIT) und dem oumlsterreichischen Bundesministerium fuumlr Inneres untersucht

1 einfuumlHrung Migrationsausloumlsende Ereignisse sind sehr komplex und zunaumlchst oft nur von lokaler Bedeutung Aus diesem Grund erreichen sie in den internationalen Medien geringe Aufmerksamkeit Soziale Medien insbeshysondere Twitter koumlnnen diesem Problem in mehrerlei Hinsicht entgegenwirken Sie sind sehr gut geeignet Stimmungsbilder der Bevoumllkerung in Migrationsausgangsshybzw Transitlaumlndern zu erkennen Fuumlr den Migrationsbereich kann es von groszligem Vorteil sein die vorhandenen Daten aufshyzugreifen und daraus potenziell migrashytionsausloumlsende Ereignisse abzuleiten Der Schutz der Privatsphaumlre und die ausshyschlieszligliche Verwendung von frei zugaumlngshylichen Daten sind fuumlr einen sensiblen Beshyreich wie die Migration von besonderer

Bedeutung Der wichtigste Aspekt in dieshysem Zusammenhang ist dass migrationsshyausloumlsende Ereignisse immer Massenphaumlshynomene sind Beitraumlge von Einzelpersonen zu einem Thema sind demnach voumlllig irshyrelevant Ausschlaggebend ist die Teilnahme der kritischen Masse was sich in erhoumlhtem Kommunikationsverhalten in bestimmten Regionen niederschlaumlgt Einzelne Indivishyduen deren Name Geschlecht politische Einstellung etc sind fuumlr die Ereigniserkenshynung unerheblich In erster Instanz sind selbst die Inhalte (Texte Bilder Links etc) nachrangig Zunaumlchst steht eine regionale punktuelle Anhaumlufung von Interaktionen im Mittelpunkt Erst wenn diese Anhaumlushyfung als solche erkannt wurde werden die Inhalte an Domaumlnenexperten fuumlr eine tiefergehende Einschaumltzung weitergeleitet

-SIAK JOURNAL

22015

Eine automatisierte Vorab-Kategorisieshyrung der Ereignisse ist zwar denkbar auf Grund der heterogenen Daten (verschieshydene Sprache Abkuumlrzungen Doppeldeushytigkeiten etc) ist eine Qualitaumltskontrolle durch geschultes Fachpersonal ausdruumlckshylich empfehlenswert

In dieser Forschungsarbeit werden geoshyund zeitbasierte Haumlufigkeiten in oumlffentlich zugaumlnglichen Twitterdaten am Beispiel Aumlgypten untersucht Die grundsaumltzliche Fragestellung lautet Kann man auf Grund der durchschnittlichen Haumlufigkeit von Twittermeldungen in einem Gebiet Ruumlckshyschluumlsse auf Ereignisse und uumlber die grundsaumltzliche Stimmungslage der dorshytigen Bevoumllkerung ziehen Die Ergebnisse der Studie in Aumlgypten legen nahe dass ndash ohne die Inhalte der Twittermeldungen zu kennen ndash ein solcher Ruumlckschluss unter Beshyachtung einiger Einflussfaktoren prinzipishyell moumlglich ist Fuumlr tiefergehende Analysen der Stimmungslage bspw Sentiment oder Emotion sind Einblicke in den Inhalt der Nachrichten unerlaumlsslich Dieser Aspekt soll in einer weiterfuumlhrenden Forschungsshyzusammenarbeit untersucht werden

Ausgeloumlst durch Naturkatastrophen mishylitaumlrische Konflikte oder wirtschaftliche Probleme ist Migration eine sehr volatile Domaumlne Ihre Auswirkungen sind immer wieder Teil politischer Diskussionen Fuumlr nahezu alle industrialisierten Laumlnder und insbesondere fuumlr die EU ist Migration eine der groumlszligten Herausforderungen der Gegenshywart Wie Collet (Collet 2013) schreibt wurden 10 aller Einwohner der damashyligen EU-27 nicht in einem Mitgliedstaat der EU geboren Aus diesem Grund sind viele Laumlnder an einer Harmonisierung der Immigrationspolitik interessiert (Givens Luedke 2004) Dieser Schritt erfordert zunaumlchst aber eine Uumlbereinkunft hinsichtshylich der Sachlage Messdaten in Bezug auf Migrationsstroumlme sind oft inkonsistent

veraltet oder nicht existent (Zagheni et al 2014) Beer ua (Beer et al 2010) machen darauf aufmerksam dass uumlberdies auch Umfang und Vollstaumlndigkeit in vielen Faumllshylen nicht gegeben sind Neue Medien die insbesondere uumlber mobile Endgeraumlte geshynutzt werden koumlnnen hier einen wichtigen Beitrag leisten Die Moumlglichkeit Inhalte wie Text Bilder oder Videos mit geograshyfischen Positionsdaten auszustatten kann fuumlr die Migrationsdomaumlne von groszliger Beshydeutung sein (Noulas et al 2011)

In dieser Arbeit wird die Veraumlnderung der Tweethaumlufigkeit in Aumlgypten zwischen Herbst 2013 und Fruumlhlingsbeginn 2014 in Bezug auf politische oder gesellschaftliche Ereignisse retrospektiv untersucht Die Veraumlnderungen koumlnnten als Indikatoren fuumlr soziale Instabilitaumlten dienen und helshyfen migrationsausloumlsende Komponenten fruumlhzeitig zu erkennen Rechtzeitige Idenshytifikation von bevorstehenden Migrationsshystroumlmen ist wichtig um potenziell betrofshyfene Zielstaaten in ihren Vorbereitungen zu unterstuumltzen Dazu gehoumlren etwa die rechtzeitige Bereitstellung von Such- und Rettungsteams oder Entscheidungshilfe hinsichtlich eventueller polizeilicher oder humanitaumlrer Maszlignahmen Ein moumlglicher Ansatz ist Signale von sozialen Medien als Indikator fuumlr auszligergewoumlhnliche Ereigshynisse zu verwenden wie zB ein zunaumlchst nicht erklaumlrbarer Anstieg von Twitter-Nachrichten zu bestimmten Zeiten Insshybesondere die Verwendung von mobilen Geraumlten die zusaumltzliche Geo-Informatioshynen bereitstellen bietet eine Vielzahl von Moumlglichkeiten um die Entwicklung von kritischen Ereignissen zu untersuchen

Ein Beispiel fuumlr die Analyse von Daten aus sozialen Medien sind Krawalle wie sie im Jahr 2011 in Groszligbritannien stattshyfanden Uumlber soziale Medien konnten im Nachhinein nuumltzliche Daten uumlber die

78

-

22015 SIAK JOURNAL

Entstehung dieser Unruhen gesammelt werden (GlasgowFink 2013) Als fruumlhes Beispiel fuumlr den Nutzen von sozialen Meshydien wird oft die Notlandung des US-Airshyways-Flugs 1549 im New Yorker Hudson River angegeben (15012009) Bevor die traditionellen Nachrichtenkanaumlle uumlber das Ungluumlck berichteten wurden auf Twitter schon die ersten Nachrichten und Bilder publiziert (Beaumont 2009) Diese fruumlhshyzeitig verfuumlgbaren Informationen sind dazu geeignet Entscheidungstraumlgern eine zushysaumltzliche Bewertungsgrundlage zu geben und weisen daruumlber hinaus einige Vorteile gegenuumlber ndash von traditionellen Medien beshyreitgestellten ndash Informationen auf Speziell im Notfall- und Katastrophenmanagement ist die Analyse von Massenverhalten hilfshyreich Sie kann eine weitere Entscheidungsshygrundlage bei der strategischen Planung darstellen (Chae et al 2014) Die Studie von Schaust ua (Schaust et al 2013) hat am Beispiel des Hurrikans Sandy ebenfalls gezeigt dass die von der Bevoumllkerung in Twitter generierten Daten lagebildrelevant sein koumlnnen Im Gesundheitssektor geshylang es Anzeichen fuumlr den Ausbruch der Schweinegrippe H1N1 bereits 1ndash2 Woshychen fruumlher zu erkennen als es Gesundshyheitseinrichtungen uumlber traditionellen Kashynaumllen moumlglich war Fuumlr Ereigniserkennung besonders relevant sind geo- bzw ortscoshydierte Daten Diese wurden von Ferrari ua (Ferrari et al 2011) genutzt um das Mobilitaumltsverhalten von Buumlrgern der Stadt New York zu analysieren Mit Hilfe der Ergebnisse wurden regionale Verkehrsshykonzepte auf die Beduumlrfnisse der Einshywohner abgestimmt Ortsbezogene Daten aus sozialen Medien haben uumlberdies dazu gefuumlhrt Unterschiede zwischen Wochenshyenden und Arbeitstagen oder Hotspots zu bestimmten Uhrzeiten aufzudecken Um bevorstehende Ereignisse auf Grundlage von raum-zeitlichen Daten zu identifizieshyren entwickelten Kraft ua (Kraft et al

2013) Methoden zur Echtzeitereignisershykennung Interessierte Personen koumlnnen dadurch zeitnah uumlber den Ereigniseintritt informiert werden Auf Grund der sehr fruumlshyhen Erkennung bringt der Einsatz sozialer Medien einen zusaumltzlichen Vorteil gegenshyuumlber traditionellen Medien mit sich Kallus (Kallus 2014) sammelte Daten aus offenen Internetquellen wie etwa Nachrichtenporshytalen Blogs oder sozialen Medien und unshytersuchte sie auf Hinweise auf potenzielle zukuumlnftige Ereignisse Am Beispiel des Staatsstreichs in Aumlgypten konnte gezeigt werden dass eine Evidenz fuumlr die Vorhershysagekapazitaumlt dieser Kanaumlle vorhanden ist

Zagheni ua (Zagheni et al 2014) hashyben gezeigt wie es moumlglich ist Migrashytionsstroumlme aus geo-codierten Daten zu erkennen Die Autoren verweisen auf die Tatsache dass uumlblicherweise Volkszaumlhshylungen verwendet werden um Migrationsshystroumlme indirekt zu schaumltzen Sowohl uumlber die Zeit zwischen den Volkszaumlhlungen als auch uumlber juumlngste Entwicklungen der Gegenwart liegen aber oft keine Daten vor In der Untersuchung von Zagheni ua (Zagheni et al 2014) wurden uumlber zwei Jahre hinweg geo-codierte Tweets von uumlber 500000 Personen aus OECD-Mitgliedstaaten analysiert Durch zeitshyliche Gliederung in Vier-Monats-Schritten konnten Ruumlckschluumlsse auf Migrationsbeshywegungen zwischen einzelnen Laumlndern gezogen werden Am deutlichsten konnten Bevoumllkerungsabwanderungen aus krisenshygeschuumlttelten Laumlndern wie Griechenland oder Irland gemessen werden Diese Meshythode koumlnnte dabei helfen Wendepunkte in Migrationsszenarien zu erkennen und das Verstaumlndnis der Beziehung zwischen interner und internationaler Migration zu verbessern (Weber et al 2014) All diese Beispiele zeigen wie hoch der Informashytionsgehalt von Daten aus sozialen Meshydien prinzipiell ist und wie vielseitig sie

79

-SIAK JOURNAL

22015

genutzt werden koumlnnen Damit das Potenshyzial aber vollstaumlndig ausgeschoumlpft werden kann braucht es nicht nur geeignete IT-Werkzeuge und Datenanalyse-Know-how sondern auch umfassendes domaumlnenspeshyzifisches Fachwissen Denn erst durch eine Interpretation der Analyseergebnisse durch fachkundiges Personal koumlnnen Hyshypothesen bestaumltigt oder widerlegt werden

2 migrAtionspotenziAle in soziAlen meDien Besonders seit dem bdquoArabischen Fruumlhlingldquo haben Krisensituationen in Nordafrika im Nahen Osten in den Laumlndern suumldlich der Sahara sowie in Suumldasien eine uumlberwaumllshytigende Migrationswelle mit einer stetig wachsenden Zahl von Fluumlchtlingen vershyursacht Die europaumlischen Gesellschaften kaumlmpfen mit den soziooumlkonomischen Ausshywirkungen dieser Krisen und suchen daher nach politischen Loumlsungen die sowohl der humanitaumlren Verantwortung als auch dem Schutz ihrer demografischen und wirtshyschaftlichen Strukturen Rechnung tragen

Die Quelllaumlnder illegaler Migration wershyden laufend auch von Experten des Bunshydesministeriums fuumlr Inneres (BMI) auf Migrationspotenziale untersucht Bei akushyten Ereignissen ist es jedoch schwer an sishytuationsbezogene Daten zu kommen Von besonderer Bedeutung fuumlr die Migration ist die emotionale Situation von potenshyziellen Migranten in den betroffenen Laumlnshydern Analog dazu ist auch die gegenwaumlrshytige Situation jener Laumlnder von Interesse in denen die Fluumlchtlinge Primaumlrschutz sushychen Ziellaumlnder muumlssen auf groszlige Fluumlchtshylingsstroumlme gut vorbereitet sein um entshysprechende Kapazitaumlten zu schaffen und humanitaumlre Erstmaszlignahmen einleiten zu koumlnnen Im Moment scheinen die Behoumlrshyden der europaumlischen Mitgliedstaaten nicht umfassend vorbereitet zu sein Aus diesem Grund muumlssen neue Informationsquellen

gefunden werden um moumlgliche migrashytionsausloumlsende Vorfaumllle besser beobachten zu koumlnnen Ob und in wie weit ein Vorfall migrationsausloumlsend ist oder nicht haumlngt stark von der Situation und insbesondere auch von der emotionalen Lage vor Ort ab Aus diesem Grund ist es essentiell uumlber die Hintergruumlnde so fruumlh als moumlglich Beshyscheid zu wissen

Europa bewegt sich langsam in Richshytung einer bdquosanfteren weniger polizeishylichen Reaktionldquo zur Bekaumlmpfung der illegalen Migration ist aber buchstaumlblich mit dem groszligen Zustrom innerhalb kurshyzer Zeit uumlberfordert Vor allem die suumldshyliche Grenze zu Italien steht einer stark steigenden Migrationswelle gegenuumlber Als in den ersten drei Monaten des Jahres 2014 mehr als 20000 illegale Migranten auf offener See gerettet und an die italieshynische Kuumlste gebracht werden mussten entstand in der suumlditalienischen Region Sizilien eine soziooumlkonomische Krise Sowohl die Auswirkungen von groszligen Migrationsbewegungen als auch Szenashyrien in denen hunderte Menschen ertrinshyken koumlnnen durch raschere und ortsbeshyzogene Information gemildert werden Rechtzeitige Alarmierung der Such- und Rettungsteams an der italienischen Kuumlste wuumlrde eine der Situation angepasste und rasche Reaktion ermoumlglichen wodurch potenziell tragische Unfaumllle auf See vershymieden werden koumlnnten

3 DAten Als informAtionsshyroHstoff

31 Der Analyseprozess Zu einer erfolgreichen Datenanalyse gehoumlren viele verschiedene Bausteine Der wichshytigste Baustein sind zunaumlchst die Daten selbst Gemaumlszlig dem Modell von Ackoff (Ackoff 1989) in Abbildung 1 (siehe Seishyte 81) sind sie der Rohstoff zur Informashy

80

-

22015 SIAK JOURNAL

tionsgewinnung Gezielte Aufbereitung der Daten fuumlhrt zu der Entstehung von neuer Information welche durch weitere Verarshybeitungsprozesse in vielen Faumlllen zu Wisshysen verdichtet werden kann Durch Ergaumlnshyzung eines Kontexts wird aus den Zeichen und Ziffern der untersten Ebene zunaumlchst also Information So werden etwa aus der Zahl bdquo17ldquo durch Hinzufuumlgen des Kontextes bdquoTemperaturmesswertldquo beispielsweise bdquo17deg Celsiusldquo Ein zeitlicher und geografischer Kontext kann in die Wissensstufe fuumlhren in welcher die Information dann ihre Anshywendung findet (Beispiel 17deg C im Jaumlnner in Wien sind uumlblicherweise viel zu warm) Interessant ist der Vergleich zwischen der obersten und der untersten Ebene der Pyshyramide Wissen als historisch aumlltestes Eleshyment ist schwer zu beschreiben und in Doshykumenten zumeist implizit verpackt Daten hingegen als wesentlich juumlngeres Konzept koumlnnen leicht notiert werden und haben einen eher mathematisch expliziten Chashyrakter Waumlhrend der Schritt von Daten zu Informationen bereits mit relativ einfachen Mitteln zu bewerkstelligen ist gestaltet sich die Schaffung der naumlchsten Ebene etshywas schwieriger In vielen Faumlllen ist dieser Schritt auf automatischem Weg uumlberhaupt nicht mehr durchfuumlhrbar und muss durch menschliche Akteure getaumltigt werden

Quelle nach Ackoff 1989

Wissen

implizit

explizit

Information

Daten

In der Industrie wurde Datenanalyse bzw Data Mining vor allem durch groszlige Warenhausketten bekannt Sie haben damit begonnen Einkaumlufe ihrer Kunden groszligshyflaumlchig nach Gemeinsamkeiten zu untersushychen Signifikante Korrelationen zwischen einzelnen Produktgruppen wurden dann als Grundlage fuumlr neue Angebote oder alternatives Shopdesign herangezogen In den eher isolierten Datenspeichern der Warenhausketten ist die Datenqualitaumlt tenshydenziell hoch Artikelnummern Zeit und Ort des Kaufes sind bekannt und koumlnnen abgerufen werden Das Datenformat kann in diesen Faumlllen vom Unternehmen selbst bestimmt werden Im Gegensatz dazu ist die Qualitaumlt von Daten aus frei zugaumlngshylichen Quellen und insbesondere sozialen Medien kaum bis gar nicht beeinflussbar Datenerfassung und Aufbereitung sind auf Grund von unkontrollierbarer Inhomogeshynitaumlt und Dynamik eine groszlige Herausforshyderung Auf technischer Ebene gilt es also zunaumlchst Werkzeuge zur Hand zu haben welche die Extraktion und Aufbereitung von Daten garantieren koumlnnen Wenn dieser Schritt bewaumlltigt wurde kann die geschafshyfene Datengrundlage genutzt werden um in der Wissenspyramide aufwaumlrts zu steigen

32 Werkzeuge Um die Inhomogenitaumlt und Dynamik von Rohdaten besser kontrollieren zu koumlnnen hat das AIT die Plattform Ubicity erstellt Ubicity ist in der Lage Daten parallel aus unterschiedlichen Internetquellen entgeshygenzunehmen sie aufzubereiten und fuumlr die spaumltere Analyse geordnet abzuspeishychern Die hoch performante Architektur ermoumlglicht die Aufnahme von mehr als 80000 Nachrichten pro Sekunde Je nach Einsatzzweck werden entgegengenom-

Abb 1 Vereinfachte Darstellung der

mene Daten abhaumlngig von ihrem Zustand durch flexibel schaltbare Aufbereitungsshymodule geschleust um sie schlieszliglich fuumlr

Wissenspyramide1 die eigentliche Analyse abzulegen

81

-SIAK JOURNAL

22015

Fuumlr einen initialen Test hat das Sysshytem von Oktober 2013 bis Maumlrz 2014 (mit kurzen Unterbrechungen) mehr als 400 Mio Tweets uumlber die frei zugaumlngshyliche Twitter-Schnittstelle aufgenommen Insgesamt konnten Daten uumlber 98 Tage hinweg ohne Unterbrechung entgegengeshynommen werden Das entspricht nahezu allen Tweets die uumlber Geraumlte wie Smartshyphones oder Tablets mit GPS-Positionsshydaten abgegeben wurden Etwa eine Mio Tweets wurden innerhalb der aumlgyptischen Landesgrenze abgesetzt und dienten als Ausgangsmaterial fuumlr die gegenstaumlndige Untersuchung Zunaumlchst wurden die Twitshyterhaumlufigkeit und insbesondere das -vershyhalten der Benutzerinnen und Benutzer etwas genauer untersucht Tageszeit- oder wochentagabhaumlngige Schwankungen koumlnshynen regional unterschiedlich ausfallen und muumlssen in die Analyse miteinbezogen werden In einem weiteren Schritt wurden etwaige Schwankungen zwischen urbanen und ruralen Gebieten am Beispiel der Staumldshyte Alexandria und Kairo im Vergleich zum gesamten Staatsgebiet verglichen Vershybreitungsgrad sowie Unterschiede in der technischen Infrastruktur koumlnnten die Zushyverlaumlssigkeit der Daten deutlich beeinflusshysen Um eine Korrelation zwischen Stadt und Land feststellen zu koumlnnen wurden schlieszliglich migrationsrelevante Ereignisse mit der Twitter-Haumlufigkeitskurve uumlberlashygert und der Pearson Korrelationskoeffizishyent berechnet

Quelle Neubauer et al 2014

Abb 2 Haumlufigkeitsklassen TweetsTag2

25

20

15

10

5

0

6001

ndash700

070

01ndash8

000

8001

ndash900

090

01ndash1

0000

1000

1ndash11

000

1100

1ndash12

000

1200

1ndash13

000

1300

1ndash14

000

1400

1ndash15

000

1500

1ndash16

000

gt160

00

33 Ergebnisse Im Histogramm von Abbildung 2 werden die 98 verfuumlgbaren Tage verschiedenen Haumlufigkeitsklassen zugeordnet Die Zushyordnung erfolgt auf Basis der Anzahl von abgesetzten Tweets pro Tag Die Tage der Klasse bdquo7001ndash8000 TweetsTagldquo streuen uumlber den gesamten Untersuchungszeitshyraum von Oktober bis Maumlrz Daraus laumlsst sich ein Trend fuumlr einen durchschnittlichen Erwartungswert ableiten Im Schnitt wurshyden pro Tag also etwa 7000ndash8000 GPS-kodierte Tweets in Aumlgypten abgegeben Im Gegensatz dazu sind die Tage in den Klassen um 13000 TweetsTag deutlich kompakter um den Jahreswechsel angeshysammelt Die deutlich erhoumlhte Kommushynikation in diesem kurzen Zeitraum im Vergleich zu den uumlbrigen Tagen und den zu erwartenden Durchschnittswert ist ein interessanter Aspekt der als Grundlage fuumlr weitere Analysen herangezogen wershyden kann Fuumlr Details zur Vorgehensweise siehe auch Neubauer Huber und Jager (Neubauer et al 2014)

Im naumlchsten Schritt wurde untersucht inwieweit sich das Twitterverhalten in Stadt und Land unterscheidet eine wichshytige Kenngroumlszlige fuumlr Migrationsanalysen Als Referenz wurden die zwei groumlszligten Staumldte Aumlgyptens herangezogen Kairo und Alexandria stellen zusammen 143 der 85-Millionen-Bevoumllkerung Aumlgyptens Mit Hilfe der geo-basierten Abfrage in Ubicity wurden die Stadtgrenzen uumlber Satellitenshybilder angenaumlhert Die Tweets der Staumldte und jene des gesamten Landes wurden anshyschlieszligend jeweils anhand des zugehoumlrigen Medians normalisiert Dadurch ist eine Uumlberlagerung der Kurven (Polynomialshyfunktion fuumlnfter Ordnung) und somit ein relativer Vergleich moumlglich Im Dishyagramm in Abbildung 3 (siehe Seite 83) ist ein aumlhnlicher Kurvenverlauf der Uumlbershylagerung bereits deutlich erkennbar Die

82

-

SIAK JOURNAL 22015

Quelle Neubauer et al 2014

Korrelationskoeffizienten bestaumltigen die-Egypt Normalized Cairo Normalized Alexandria Normalized Poly (Egypt Normalized) Poly (Cairo Normalized) Poly (Alexandria Normalized)

Tweets in Egypt

Num

ber

of T

wee

ts

Timeline

Abb 3 Anzahl der geo-codierten Tweets im gesamten aumlgyptischen Landesgebiet sowie in Kairo und Alexandria

sen Trend (Aumlgypten-Kairo 097 Aumlgypten-Alexandria 093 Kairo-Alexandria 089)

In Tabelle 1 werden die wichtigsten stashytistischen Angaben zum Twitterverhalten in den gemessenen Gebieten dargestellt

Quelle Neubauer et al 2014

TweetsTag Aumlgypten Kairo Alexandria

Durchschnitt 98419 15695 12365 Median 89635 16960 11340 Maximum 168370 24990 20480 01 Quantil 67131 9820 7796 025 Quantil 72040 11110 9108 075 Quantil 125513 19930 16133 09 Quantil 139712 21214 18081

sozialen Medien sehr nahe Schnee auf den Pyramiden gab es zuletzt vor uumlber

Tab 1 Statistische Angaben zum Vergleich der Tweethaumlufigkeit in den jeweils untersuchten Gebieten

Anhand der Trendanalyse ist ein Anstieg der Tweethaumlufigkeit ab Ende November 2013 zu erkennen welche bis Anfang Jaumlnner 2014 wieder abflacht Auf Grund von Wartungsarbeiten liegen leider keine durchgaumlngigen Aufzeichnungen vor Der Trend zeigt jedoch einen deutlichen Ruumlckshygang und erneute Stabilisierung nach dem Jahreswechsel Der deutliche Anstieg ist houmlchstwahrscheinlich durch mehrere Ershyeignisse zu erklaumlren Zunaumlchst wurde in diesem Zeitraum die Muslimbruderschaft von der Regierung Aumlgyptens als terrorisshytische Organisation eingestuft was zu ershyheblichem Aufruhr in der Bevoumllkerung fuumlhrte Die zweite Komponente steht in keiner Verbindung zu politischen Vorshykommnissen und wurde daher erst anshyhand der Analyse einzelner Tage entdeckt welche mit nahezu 17000 Tweets weit uumlber dem Durchschnitt lagen Am 13 Deshyzember 2013 wurde der Nahe Osten und insbesondere Aumlgypten mit heftigem Schneeshyfall konfrontiert Dieses seltene meteoroshylogische Ereignis legt einen Zusammenshyhang mit erhoumlhter Kommunikation in den

100 Jahren Diese ersten Untersuchungen geben schon deutliche Hinweise auf einen Zusammenhang zwischen erhoumlhtem Komshymunikationsverhalten und bestimmten Vorkommnissen wie dem mehrwoumlchigen politischen Umbruch sowie dem auszligershygewoumlhnlichen Schneefall

4 ConClusio Fuumlr genauere Aussagen muss in zukuumlnfshytigen Untersuchungen die Stabilitaumlt des Twitter-Datenumfangs uumlber der Zeit untershysucht werden Morstatter ua (Morstatter et al 2013) haben eine Schwankung von Top-Hashtags zwischen der oumlffentlichen Twitter-Schnittstelle und der Grundgeshysamtheit festgestellt Ob und wie Twitter eine Gewichtung bei der Datenlieferung vornimmt ist derzeit im Detail nicht beshykannt Seitens des Unternehmens werden diesbezuumlglich keine naumlheren Angaben geshymacht Fuumlr eine feinere Aufloumlsung ndash raumlumshylich und zeitlich ndash muss diese Variable noch naumlher untersucht werden Ungeachtet dessen ist es ndash wie beschrieben ndash trotzdem moumlglich Veraumlnderungen und Tendenzen bereits unter gegebenen Voraussetzungen abzuleiten Fuumlr den Migrationsbereich ist die automatisierte Erkennung von Ershyeignissen uumlber soziale Medien eine vielshy

83

-SIAK JOURNAL

22015

versprechende Moumlglichkeit Gerade die komplexen und weltweiten Auswirkungen von Ereignissen in diesem Sektor sind oft schwer durchschaubar Es bedarf hoher Aufmerksamkeit und Sensibilitaumlt releshyvante Vorkommnisse mit potenziellen Folshygen fuumlr globale Migrationsstroumlme wahrzushynehmen Wir haben gezeigt dass soziale Medien als Indikator zur Erkennung von potenziell relevanten Ereignissen gut geshyeignet sind Die detaillierte Analyse obshyliegt aber nach wie vor Domaumlnenexpershyten die individuell uumlber die tatsaumlchliche Bedeutung entscheiden muumlssen Die geshygenstaumlndliche Technologie kann in erster Instanz als zusaumltzliches Instrument zur Erhoumlhung der Reichweite und Verkuumlrzung der Reaktionszeit eingesetzt werden

Die hochdynamischen Inhalte und die sich staumlndig weiterentwickelnde Themenshylandschaft innerhalb sozialer Medien ershyzeugen einerseits eine erhoumlhte Komplexitaumlt bei der Informationsgenerierung Anderershyseits ist genau diese Dynamik ein wesentshyliches Unterscheidungsmerkmal gegenshyuumlber allen anderen Informationskanaumllen Sichtbar wird sie in unterschiedlichen Dimensionen Stimmungsbilder bzw die in den Texten transportierten Emotionen sind fuumlr die Migration ein besonders wichshytiger Aspekt Kaum ein anderes Medium ermoumlglicht eine solch unmittelbare Ableishytung von Stimmungsbildern wie die soziashylen Medien Insbesondere die Dynamik in Hinblick auf zeitliche und geografische

Veraumlnderung von Emotionen bieten vielshyversprechende Moumlglichkeiten zur Weitershyentwicklung und erlauben nuumltzliche Einshysichten in Migrationsprozesse Uumlberdies ist auch die Erkennung und Ausbreitung von Themen ein interessanter Aspekt ndash auch uumlber die Migrationsdomaumlne hinaus In Verbindung mit den bereits durchgeshyfuumlhrten quantitativen Analysen koumlnnten durch Einbeziehen der Nachrichteninhalte domaumlnenspezifische Ereignisse praumlziser und zeitnaher erkannt werden Sowohl die Granularitaumlt der Daten als auch die Komplexitaumlt des Analyseprozesses haumlngen stark vom Ziel des Vorhabens ab Erste Einsichten koumlnnen wie demonstriert beshyreits mit grundlegenden Methoden abgeshyleitet werden Von essentieller Bedeutung fuumlr die Lagebilderstellung ist jedoch die Betreuung des gesamten Analyseprozesses durch Domaumlnenexperten Es ist davon auszugehen dass die Ergebnisse nahezu immer durch fachkundiges Personal mit entsprechendem Hintergrundwissen intershypretiert werden muumlssen Erst durch diese Interpretation koumlnnen die gewonnenen Einsichten in den Wissensprozess der Organisation eingebettet werden Demshygegenuumlber stehen die technische Umsetshyzung und das damit verbundene Knowshyhow in den Bereichen IT Datenanalyse und Prozesskonzeption Die ausgewogene Kombination dieser beiden Aspekte ermoumlglicht durchgaumlngige sinnvolle und praxisbezogene Anwendungen

84

-

22015 SIAK JOURNAL

1 Houmlhere Ebenen bauen jeweils auf der

darunterliegenden Ebene auf Waumlhrend

Daten explizit fuumlr sich stehen ist Wissen

implizit in einer Ansammlung von Daten

(zB Buchstaben Woumlrter Texte) vershy

packt 2 Die Klassen im Histogramm geben die

Menge an abgesetzten Geo-Tweets in

Aumlgypten an Die Houmlhe der Balken kennshy

zeichnet die Anzahl der Tage die in die

jeweilige Kategorie fallen

Quellenangaben

Ackoff Russel L (1989) From data to

wisdom Journal Of Applied Systems

Analysis (1) 3ndash9

Beaumont Claudine (2009) New York

plane crash Twitter breaks the news

again The Telegraph Online http

wwwtelegraphcouktechnologytwitter

4269765New-York-plane-crash-Twittershy

breaks-the-news-againhtml (April 30

2014)

De Beer JoopRaymer James et al

(2010) Overcoming the Problems of

Inconsistent International Migration

data A New Method Applied to Flows in

Europe European journal of populashy

tion = Revue europeenne de demographie

26 (4) 459ndash481 Online httpwwwpub

medcentralnihgovarticlerenderfcgiar

tid=2967706amptool=pmcentrezamprenderty

pe=abstract (April 28 2014)

Chae JunghoonThom Dennis et al

(2014) Public behavior response anashy

lysis in disaster events utilizing visual

analytics of microblog data Computers

amp Graphics (38) 51ndash60 Online http

linkinghubelseviercomretrievepii

S0097849313001490 (April 2 2014)

Collett Elizabeth (2013) Facing 2020

developing a new European agenda for

immigration and asylum policy mpi Mishy

gration Policy Institute Europe (1) 1ndash8

Ferrari LauraRosi Alberto et al

(2011) Extracting urban patterns from

location-based social networks Proceedshy

ings of the 3rd ACM SIGSPATIAL Intershy

national Workshop on Location-Based

Social Networks ndash LBSN rsquo11 New York

1 Online httpdlacmorgcitation

cfmdoid=20632122063226

Givens TerriLuedtke Adam (2004) The

Politics of European Union Immigration

Policy Institutions Salience and Harshy

monization Policy Studies Journal 32

(1)145ndash165 Online httpdoiwiley

com101111j1541-0072200400057x

Glasgow KimberlyFink Clayton (2013)

From push brooms to prayer books

Social media and social networks during

the London riots iConference 155ndash169

Online httpswwwidealsillinoisedu

handle214238382 (April 28 2014)

Kallus Nathan (2014) Predicting crowd

behavior with big public data Proceedshy

ings of the companion publication of the

23rd international conference on WWW

Companion rsquo14 625ndash630 Online http

dxdoiorg10114525679482579233

(April 28 2014)

Kraft ThomasWand Derek et al (2013)

Less After-the-Fact Investigative visshy

ual analysis of events from streaming

twitter IEEE Symposium on Large-

Scale Data Analysis and Visualization

(LDAV) 95ndash103 Online httpieeex

ploreieeeorglpdocsepic03wrapper

htmarnumber=6675163

Morstatter FredPfeffer Juumlrgen et al

(2013) Is the Sample Good Enough

Comparing Data from Twitterrsquos Streamshy

ing API and Twitterrsquos Firehose Proceedshy

ings of ICWSM Online httparxivorg

abs13065204

Neubauer GeorgHuber Hermann et al

(2014) Detecting events in Egypt based

on geo-referenced tweets Interdisciplinshy

ary Information and Management Talks

Poděbrady Noulas AnastasiosScellato Salvatore et

al (2011) An Empirical Study of Geoshy

graphic User Activity Patterns in Fourshy

square Proceedings of the Fifth Internashy

tional AAAI Conference on Weblogs and

Social Media 570ndash573 Online http

wwwaaaiorgocsindexphpICWSM

ICWSM11paperviewFile28313241

(April 28 2014)

Schaust SvenWalther MaximilianKaisser

Michael (2013) Avalanche Prepare

Manage and Understand Crisis Situashy

tions Using Social Media Analytics in

Comes TinaFriedrich Frank et al (Eds)

Proceedings of the 10th International

ISCRAM Conference Baden-Baden

852ndash857

Weber IngmarGarimella Kiran et al

(2014) Using Geolocated Twitter Data

to Study Recent Patterns of International

and Internal Migration in OECD Counshy

tries European Population Conference

2014 Budapest 1ndash9 Online http

epc2014princetoneduabstracts140809

Zagheni EmilioGarimella Venkata

Weber et al (2014) Inferring intershy

national and internal migration patterns

from Twitter data WWW rsquo14 Companion

1ndash6 Online httpdlacmorgcitation

cfmid=2576930 (April 28 2014)

85

Page 3: Wissensrohstoff Daten. Soziale Netzwerke als Indikator für ... · Vogl, Armin et al. (2015). Wissensrohstoff Daten. Soziale Netzwerke als Indikator für Lageentwicklungen im Migrationsbereich,

-SIAK JOURNAL

22015

Eine automatisierte Vorab-Kategorisieshyrung der Ereignisse ist zwar denkbar auf Grund der heterogenen Daten (verschieshydene Sprache Abkuumlrzungen Doppeldeushytigkeiten etc) ist eine Qualitaumltskontrolle durch geschultes Fachpersonal ausdruumlckshylich empfehlenswert

In dieser Forschungsarbeit werden geoshyund zeitbasierte Haumlufigkeiten in oumlffentlich zugaumlnglichen Twitterdaten am Beispiel Aumlgypten untersucht Die grundsaumltzliche Fragestellung lautet Kann man auf Grund der durchschnittlichen Haumlufigkeit von Twittermeldungen in einem Gebiet Ruumlckshyschluumlsse auf Ereignisse und uumlber die grundsaumltzliche Stimmungslage der dorshytigen Bevoumllkerung ziehen Die Ergebnisse der Studie in Aumlgypten legen nahe dass ndash ohne die Inhalte der Twittermeldungen zu kennen ndash ein solcher Ruumlckschluss unter Beshyachtung einiger Einflussfaktoren prinzipishyell moumlglich ist Fuumlr tiefergehende Analysen der Stimmungslage bspw Sentiment oder Emotion sind Einblicke in den Inhalt der Nachrichten unerlaumlsslich Dieser Aspekt soll in einer weiterfuumlhrenden Forschungsshyzusammenarbeit untersucht werden

Ausgeloumlst durch Naturkatastrophen mishylitaumlrische Konflikte oder wirtschaftliche Probleme ist Migration eine sehr volatile Domaumlne Ihre Auswirkungen sind immer wieder Teil politischer Diskussionen Fuumlr nahezu alle industrialisierten Laumlnder und insbesondere fuumlr die EU ist Migration eine der groumlszligten Herausforderungen der Gegenshywart Wie Collet (Collet 2013) schreibt wurden 10 aller Einwohner der damashyligen EU-27 nicht in einem Mitgliedstaat der EU geboren Aus diesem Grund sind viele Laumlnder an einer Harmonisierung der Immigrationspolitik interessiert (Givens Luedke 2004) Dieser Schritt erfordert zunaumlchst aber eine Uumlbereinkunft hinsichtshylich der Sachlage Messdaten in Bezug auf Migrationsstroumlme sind oft inkonsistent

veraltet oder nicht existent (Zagheni et al 2014) Beer ua (Beer et al 2010) machen darauf aufmerksam dass uumlberdies auch Umfang und Vollstaumlndigkeit in vielen Faumllshylen nicht gegeben sind Neue Medien die insbesondere uumlber mobile Endgeraumlte geshynutzt werden koumlnnen hier einen wichtigen Beitrag leisten Die Moumlglichkeit Inhalte wie Text Bilder oder Videos mit geograshyfischen Positionsdaten auszustatten kann fuumlr die Migrationsdomaumlne von groszliger Beshydeutung sein (Noulas et al 2011)

In dieser Arbeit wird die Veraumlnderung der Tweethaumlufigkeit in Aumlgypten zwischen Herbst 2013 und Fruumlhlingsbeginn 2014 in Bezug auf politische oder gesellschaftliche Ereignisse retrospektiv untersucht Die Veraumlnderungen koumlnnten als Indikatoren fuumlr soziale Instabilitaumlten dienen und helshyfen migrationsausloumlsende Komponenten fruumlhzeitig zu erkennen Rechtzeitige Idenshytifikation von bevorstehenden Migrationsshystroumlmen ist wichtig um potenziell betrofshyfene Zielstaaten in ihren Vorbereitungen zu unterstuumltzen Dazu gehoumlren etwa die rechtzeitige Bereitstellung von Such- und Rettungsteams oder Entscheidungshilfe hinsichtlich eventueller polizeilicher oder humanitaumlrer Maszlignahmen Ein moumlglicher Ansatz ist Signale von sozialen Medien als Indikator fuumlr auszligergewoumlhnliche Ereigshynisse zu verwenden wie zB ein zunaumlchst nicht erklaumlrbarer Anstieg von Twitter-Nachrichten zu bestimmten Zeiten Insshybesondere die Verwendung von mobilen Geraumlten die zusaumltzliche Geo-Informatioshynen bereitstellen bietet eine Vielzahl von Moumlglichkeiten um die Entwicklung von kritischen Ereignissen zu untersuchen

Ein Beispiel fuumlr die Analyse von Daten aus sozialen Medien sind Krawalle wie sie im Jahr 2011 in Groszligbritannien stattshyfanden Uumlber soziale Medien konnten im Nachhinein nuumltzliche Daten uumlber die

78

-

22015 SIAK JOURNAL

Entstehung dieser Unruhen gesammelt werden (GlasgowFink 2013) Als fruumlhes Beispiel fuumlr den Nutzen von sozialen Meshydien wird oft die Notlandung des US-Airshyways-Flugs 1549 im New Yorker Hudson River angegeben (15012009) Bevor die traditionellen Nachrichtenkanaumlle uumlber das Ungluumlck berichteten wurden auf Twitter schon die ersten Nachrichten und Bilder publiziert (Beaumont 2009) Diese fruumlhshyzeitig verfuumlgbaren Informationen sind dazu geeignet Entscheidungstraumlgern eine zushysaumltzliche Bewertungsgrundlage zu geben und weisen daruumlber hinaus einige Vorteile gegenuumlber ndash von traditionellen Medien beshyreitgestellten ndash Informationen auf Speziell im Notfall- und Katastrophenmanagement ist die Analyse von Massenverhalten hilfshyreich Sie kann eine weitere Entscheidungsshygrundlage bei der strategischen Planung darstellen (Chae et al 2014) Die Studie von Schaust ua (Schaust et al 2013) hat am Beispiel des Hurrikans Sandy ebenfalls gezeigt dass die von der Bevoumllkerung in Twitter generierten Daten lagebildrelevant sein koumlnnen Im Gesundheitssektor geshylang es Anzeichen fuumlr den Ausbruch der Schweinegrippe H1N1 bereits 1ndash2 Woshychen fruumlher zu erkennen als es Gesundshyheitseinrichtungen uumlber traditionellen Kashynaumllen moumlglich war Fuumlr Ereigniserkennung besonders relevant sind geo- bzw ortscoshydierte Daten Diese wurden von Ferrari ua (Ferrari et al 2011) genutzt um das Mobilitaumltsverhalten von Buumlrgern der Stadt New York zu analysieren Mit Hilfe der Ergebnisse wurden regionale Verkehrsshykonzepte auf die Beduumlrfnisse der Einshywohner abgestimmt Ortsbezogene Daten aus sozialen Medien haben uumlberdies dazu gefuumlhrt Unterschiede zwischen Wochenshyenden und Arbeitstagen oder Hotspots zu bestimmten Uhrzeiten aufzudecken Um bevorstehende Ereignisse auf Grundlage von raum-zeitlichen Daten zu identifizieshyren entwickelten Kraft ua (Kraft et al

2013) Methoden zur Echtzeitereignisershykennung Interessierte Personen koumlnnen dadurch zeitnah uumlber den Ereigniseintritt informiert werden Auf Grund der sehr fruumlshyhen Erkennung bringt der Einsatz sozialer Medien einen zusaumltzlichen Vorteil gegenshyuumlber traditionellen Medien mit sich Kallus (Kallus 2014) sammelte Daten aus offenen Internetquellen wie etwa Nachrichtenporshytalen Blogs oder sozialen Medien und unshytersuchte sie auf Hinweise auf potenzielle zukuumlnftige Ereignisse Am Beispiel des Staatsstreichs in Aumlgypten konnte gezeigt werden dass eine Evidenz fuumlr die Vorhershysagekapazitaumlt dieser Kanaumlle vorhanden ist

Zagheni ua (Zagheni et al 2014) hashyben gezeigt wie es moumlglich ist Migrashytionsstroumlme aus geo-codierten Daten zu erkennen Die Autoren verweisen auf die Tatsache dass uumlblicherweise Volkszaumlhshylungen verwendet werden um Migrationsshystroumlme indirekt zu schaumltzen Sowohl uumlber die Zeit zwischen den Volkszaumlhlungen als auch uumlber juumlngste Entwicklungen der Gegenwart liegen aber oft keine Daten vor In der Untersuchung von Zagheni ua (Zagheni et al 2014) wurden uumlber zwei Jahre hinweg geo-codierte Tweets von uumlber 500000 Personen aus OECD-Mitgliedstaaten analysiert Durch zeitshyliche Gliederung in Vier-Monats-Schritten konnten Ruumlckschluumlsse auf Migrationsbeshywegungen zwischen einzelnen Laumlndern gezogen werden Am deutlichsten konnten Bevoumllkerungsabwanderungen aus krisenshygeschuumlttelten Laumlndern wie Griechenland oder Irland gemessen werden Diese Meshythode koumlnnte dabei helfen Wendepunkte in Migrationsszenarien zu erkennen und das Verstaumlndnis der Beziehung zwischen interner und internationaler Migration zu verbessern (Weber et al 2014) All diese Beispiele zeigen wie hoch der Informashytionsgehalt von Daten aus sozialen Meshydien prinzipiell ist und wie vielseitig sie

79

-SIAK JOURNAL

22015

genutzt werden koumlnnen Damit das Potenshyzial aber vollstaumlndig ausgeschoumlpft werden kann braucht es nicht nur geeignete IT-Werkzeuge und Datenanalyse-Know-how sondern auch umfassendes domaumlnenspeshyzifisches Fachwissen Denn erst durch eine Interpretation der Analyseergebnisse durch fachkundiges Personal koumlnnen Hyshypothesen bestaumltigt oder widerlegt werden

2 migrAtionspotenziAle in soziAlen meDien Besonders seit dem bdquoArabischen Fruumlhlingldquo haben Krisensituationen in Nordafrika im Nahen Osten in den Laumlndern suumldlich der Sahara sowie in Suumldasien eine uumlberwaumllshytigende Migrationswelle mit einer stetig wachsenden Zahl von Fluumlchtlingen vershyursacht Die europaumlischen Gesellschaften kaumlmpfen mit den soziooumlkonomischen Ausshywirkungen dieser Krisen und suchen daher nach politischen Loumlsungen die sowohl der humanitaumlren Verantwortung als auch dem Schutz ihrer demografischen und wirtshyschaftlichen Strukturen Rechnung tragen

Die Quelllaumlnder illegaler Migration wershyden laufend auch von Experten des Bunshydesministeriums fuumlr Inneres (BMI) auf Migrationspotenziale untersucht Bei akushyten Ereignissen ist es jedoch schwer an sishytuationsbezogene Daten zu kommen Von besonderer Bedeutung fuumlr die Migration ist die emotionale Situation von potenshyziellen Migranten in den betroffenen Laumlnshydern Analog dazu ist auch die gegenwaumlrshytige Situation jener Laumlnder von Interesse in denen die Fluumlchtlinge Primaumlrschutz sushychen Ziellaumlnder muumlssen auf groszlige Fluumlchtshylingsstroumlme gut vorbereitet sein um entshysprechende Kapazitaumlten zu schaffen und humanitaumlre Erstmaszlignahmen einleiten zu koumlnnen Im Moment scheinen die Behoumlrshyden der europaumlischen Mitgliedstaaten nicht umfassend vorbereitet zu sein Aus diesem Grund muumlssen neue Informationsquellen

gefunden werden um moumlgliche migrashytionsausloumlsende Vorfaumllle besser beobachten zu koumlnnen Ob und in wie weit ein Vorfall migrationsausloumlsend ist oder nicht haumlngt stark von der Situation und insbesondere auch von der emotionalen Lage vor Ort ab Aus diesem Grund ist es essentiell uumlber die Hintergruumlnde so fruumlh als moumlglich Beshyscheid zu wissen

Europa bewegt sich langsam in Richshytung einer bdquosanfteren weniger polizeishylichen Reaktionldquo zur Bekaumlmpfung der illegalen Migration ist aber buchstaumlblich mit dem groszligen Zustrom innerhalb kurshyzer Zeit uumlberfordert Vor allem die suumldshyliche Grenze zu Italien steht einer stark steigenden Migrationswelle gegenuumlber Als in den ersten drei Monaten des Jahres 2014 mehr als 20000 illegale Migranten auf offener See gerettet und an die italieshynische Kuumlste gebracht werden mussten entstand in der suumlditalienischen Region Sizilien eine soziooumlkonomische Krise Sowohl die Auswirkungen von groszligen Migrationsbewegungen als auch Szenashyrien in denen hunderte Menschen ertrinshyken koumlnnen durch raschere und ortsbeshyzogene Information gemildert werden Rechtzeitige Alarmierung der Such- und Rettungsteams an der italienischen Kuumlste wuumlrde eine der Situation angepasste und rasche Reaktion ermoumlglichen wodurch potenziell tragische Unfaumllle auf See vershymieden werden koumlnnten

3 DAten Als informAtionsshyroHstoff

31 Der Analyseprozess Zu einer erfolgreichen Datenanalyse gehoumlren viele verschiedene Bausteine Der wichshytigste Baustein sind zunaumlchst die Daten selbst Gemaumlszlig dem Modell von Ackoff (Ackoff 1989) in Abbildung 1 (siehe Seishyte 81) sind sie der Rohstoff zur Informashy

80

-

22015 SIAK JOURNAL

tionsgewinnung Gezielte Aufbereitung der Daten fuumlhrt zu der Entstehung von neuer Information welche durch weitere Verarshybeitungsprozesse in vielen Faumlllen zu Wisshysen verdichtet werden kann Durch Ergaumlnshyzung eines Kontexts wird aus den Zeichen und Ziffern der untersten Ebene zunaumlchst also Information So werden etwa aus der Zahl bdquo17ldquo durch Hinzufuumlgen des Kontextes bdquoTemperaturmesswertldquo beispielsweise bdquo17deg Celsiusldquo Ein zeitlicher und geografischer Kontext kann in die Wissensstufe fuumlhren in welcher die Information dann ihre Anshywendung findet (Beispiel 17deg C im Jaumlnner in Wien sind uumlblicherweise viel zu warm) Interessant ist der Vergleich zwischen der obersten und der untersten Ebene der Pyshyramide Wissen als historisch aumlltestes Eleshyment ist schwer zu beschreiben und in Doshykumenten zumeist implizit verpackt Daten hingegen als wesentlich juumlngeres Konzept koumlnnen leicht notiert werden und haben einen eher mathematisch expliziten Chashyrakter Waumlhrend der Schritt von Daten zu Informationen bereits mit relativ einfachen Mitteln zu bewerkstelligen ist gestaltet sich die Schaffung der naumlchsten Ebene etshywas schwieriger In vielen Faumlllen ist dieser Schritt auf automatischem Weg uumlberhaupt nicht mehr durchfuumlhrbar und muss durch menschliche Akteure getaumltigt werden

Quelle nach Ackoff 1989

Wissen

implizit

explizit

Information

Daten

In der Industrie wurde Datenanalyse bzw Data Mining vor allem durch groszlige Warenhausketten bekannt Sie haben damit begonnen Einkaumlufe ihrer Kunden groszligshyflaumlchig nach Gemeinsamkeiten zu untersushychen Signifikante Korrelationen zwischen einzelnen Produktgruppen wurden dann als Grundlage fuumlr neue Angebote oder alternatives Shopdesign herangezogen In den eher isolierten Datenspeichern der Warenhausketten ist die Datenqualitaumlt tenshydenziell hoch Artikelnummern Zeit und Ort des Kaufes sind bekannt und koumlnnen abgerufen werden Das Datenformat kann in diesen Faumlllen vom Unternehmen selbst bestimmt werden Im Gegensatz dazu ist die Qualitaumlt von Daten aus frei zugaumlngshylichen Quellen und insbesondere sozialen Medien kaum bis gar nicht beeinflussbar Datenerfassung und Aufbereitung sind auf Grund von unkontrollierbarer Inhomogeshynitaumlt und Dynamik eine groszlige Herausforshyderung Auf technischer Ebene gilt es also zunaumlchst Werkzeuge zur Hand zu haben welche die Extraktion und Aufbereitung von Daten garantieren koumlnnen Wenn dieser Schritt bewaumlltigt wurde kann die geschafshyfene Datengrundlage genutzt werden um in der Wissenspyramide aufwaumlrts zu steigen

32 Werkzeuge Um die Inhomogenitaumlt und Dynamik von Rohdaten besser kontrollieren zu koumlnnen hat das AIT die Plattform Ubicity erstellt Ubicity ist in der Lage Daten parallel aus unterschiedlichen Internetquellen entgeshygenzunehmen sie aufzubereiten und fuumlr die spaumltere Analyse geordnet abzuspeishychern Die hoch performante Architektur ermoumlglicht die Aufnahme von mehr als 80000 Nachrichten pro Sekunde Je nach Einsatzzweck werden entgegengenom-

Abb 1 Vereinfachte Darstellung der

mene Daten abhaumlngig von ihrem Zustand durch flexibel schaltbare Aufbereitungsshymodule geschleust um sie schlieszliglich fuumlr

Wissenspyramide1 die eigentliche Analyse abzulegen

81

-SIAK JOURNAL

22015

Fuumlr einen initialen Test hat das Sysshytem von Oktober 2013 bis Maumlrz 2014 (mit kurzen Unterbrechungen) mehr als 400 Mio Tweets uumlber die frei zugaumlngshyliche Twitter-Schnittstelle aufgenommen Insgesamt konnten Daten uumlber 98 Tage hinweg ohne Unterbrechung entgegengeshynommen werden Das entspricht nahezu allen Tweets die uumlber Geraumlte wie Smartshyphones oder Tablets mit GPS-Positionsshydaten abgegeben wurden Etwa eine Mio Tweets wurden innerhalb der aumlgyptischen Landesgrenze abgesetzt und dienten als Ausgangsmaterial fuumlr die gegenstaumlndige Untersuchung Zunaumlchst wurden die Twitshyterhaumlufigkeit und insbesondere das -vershyhalten der Benutzerinnen und Benutzer etwas genauer untersucht Tageszeit- oder wochentagabhaumlngige Schwankungen koumlnshynen regional unterschiedlich ausfallen und muumlssen in die Analyse miteinbezogen werden In einem weiteren Schritt wurden etwaige Schwankungen zwischen urbanen und ruralen Gebieten am Beispiel der Staumldshyte Alexandria und Kairo im Vergleich zum gesamten Staatsgebiet verglichen Vershybreitungsgrad sowie Unterschiede in der technischen Infrastruktur koumlnnten die Zushyverlaumlssigkeit der Daten deutlich beeinflusshysen Um eine Korrelation zwischen Stadt und Land feststellen zu koumlnnen wurden schlieszliglich migrationsrelevante Ereignisse mit der Twitter-Haumlufigkeitskurve uumlberlashygert und der Pearson Korrelationskoeffizishyent berechnet

Quelle Neubauer et al 2014

Abb 2 Haumlufigkeitsklassen TweetsTag2

25

20

15

10

5

0

6001

ndash700

070

01ndash8

000

8001

ndash900

090

01ndash1

0000

1000

1ndash11

000

1100

1ndash12

000

1200

1ndash13

000

1300

1ndash14

000

1400

1ndash15

000

1500

1ndash16

000

gt160

00

33 Ergebnisse Im Histogramm von Abbildung 2 werden die 98 verfuumlgbaren Tage verschiedenen Haumlufigkeitsklassen zugeordnet Die Zushyordnung erfolgt auf Basis der Anzahl von abgesetzten Tweets pro Tag Die Tage der Klasse bdquo7001ndash8000 TweetsTagldquo streuen uumlber den gesamten Untersuchungszeitshyraum von Oktober bis Maumlrz Daraus laumlsst sich ein Trend fuumlr einen durchschnittlichen Erwartungswert ableiten Im Schnitt wurshyden pro Tag also etwa 7000ndash8000 GPS-kodierte Tweets in Aumlgypten abgegeben Im Gegensatz dazu sind die Tage in den Klassen um 13000 TweetsTag deutlich kompakter um den Jahreswechsel angeshysammelt Die deutlich erhoumlhte Kommushynikation in diesem kurzen Zeitraum im Vergleich zu den uumlbrigen Tagen und den zu erwartenden Durchschnittswert ist ein interessanter Aspekt der als Grundlage fuumlr weitere Analysen herangezogen wershyden kann Fuumlr Details zur Vorgehensweise siehe auch Neubauer Huber und Jager (Neubauer et al 2014)

Im naumlchsten Schritt wurde untersucht inwieweit sich das Twitterverhalten in Stadt und Land unterscheidet eine wichshytige Kenngroumlszlige fuumlr Migrationsanalysen Als Referenz wurden die zwei groumlszligten Staumldte Aumlgyptens herangezogen Kairo und Alexandria stellen zusammen 143 der 85-Millionen-Bevoumllkerung Aumlgyptens Mit Hilfe der geo-basierten Abfrage in Ubicity wurden die Stadtgrenzen uumlber Satellitenshybilder angenaumlhert Die Tweets der Staumldte und jene des gesamten Landes wurden anshyschlieszligend jeweils anhand des zugehoumlrigen Medians normalisiert Dadurch ist eine Uumlberlagerung der Kurven (Polynomialshyfunktion fuumlnfter Ordnung) und somit ein relativer Vergleich moumlglich Im Dishyagramm in Abbildung 3 (siehe Seite 83) ist ein aumlhnlicher Kurvenverlauf der Uumlbershylagerung bereits deutlich erkennbar Die

82

-

SIAK JOURNAL 22015

Quelle Neubauer et al 2014

Korrelationskoeffizienten bestaumltigen die-Egypt Normalized Cairo Normalized Alexandria Normalized Poly (Egypt Normalized) Poly (Cairo Normalized) Poly (Alexandria Normalized)

Tweets in Egypt

Num

ber

of T

wee

ts

Timeline

Abb 3 Anzahl der geo-codierten Tweets im gesamten aumlgyptischen Landesgebiet sowie in Kairo und Alexandria

sen Trend (Aumlgypten-Kairo 097 Aumlgypten-Alexandria 093 Kairo-Alexandria 089)

In Tabelle 1 werden die wichtigsten stashytistischen Angaben zum Twitterverhalten in den gemessenen Gebieten dargestellt

Quelle Neubauer et al 2014

TweetsTag Aumlgypten Kairo Alexandria

Durchschnitt 98419 15695 12365 Median 89635 16960 11340 Maximum 168370 24990 20480 01 Quantil 67131 9820 7796 025 Quantil 72040 11110 9108 075 Quantil 125513 19930 16133 09 Quantil 139712 21214 18081

sozialen Medien sehr nahe Schnee auf den Pyramiden gab es zuletzt vor uumlber

Tab 1 Statistische Angaben zum Vergleich der Tweethaumlufigkeit in den jeweils untersuchten Gebieten

Anhand der Trendanalyse ist ein Anstieg der Tweethaumlufigkeit ab Ende November 2013 zu erkennen welche bis Anfang Jaumlnner 2014 wieder abflacht Auf Grund von Wartungsarbeiten liegen leider keine durchgaumlngigen Aufzeichnungen vor Der Trend zeigt jedoch einen deutlichen Ruumlckshygang und erneute Stabilisierung nach dem Jahreswechsel Der deutliche Anstieg ist houmlchstwahrscheinlich durch mehrere Ershyeignisse zu erklaumlren Zunaumlchst wurde in diesem Zeitraum die Muslimbruderschaft von der Regierung Aumlgyptens als terrorisshytische Organisation eingestuft was zu ershyheblichem Aufruhr in der Bevoumllkerung fuumlhrte Die zweite Komponente steht in keiner Verbindung zu politischen Vorshykommnissen und wurde daher erst anshyhand der Analyse einzelner Tage entdeckt welche mit nahezu 17000 Tweets weit uumlber dem Durchschnitt lagen Am 13 Deshyzember 2013 wurde der Nahe Osten und insbesondere Aumlgypten mit heftigem Schneeshyfall konfrontiert Dieses seltene meteoroshylogische Ereignis legt einen Zusammenshyhang mit erhoumlhter Kommunikation in den

100 Jahren Diese ersten Untersuchungen geben schon deutliche Hinweise auf einen Zusammenhang zwischen erhoumlhtem Komshymunikationsverhalten und bestimmten Vorkommnissen wie dem mehrwoumlchigen politischen Umbruch sowie dem auszligershygewoumlhnlichen Schneefall

4 ConClusio Fuumlr genauere Aussagen muss in zukuumlnfshytigen Untersuchungen die Stabilitaumlt des Twitter-Datenumfangs uumlber der Zeit untershysucht werden Morstatter ua (Morstatter et al 2013) haben eine Schwankung von Top-Hashtags zwischen der oumlffentlichen Twitter-Schnittstelle und der Grundgeshysamtheit festgestellt Ob und wie Twitter eine Gewichtung bei der Datenlieferung vornimmt ist derzeit im Detail nicht beshykannt Seitens des Unternehmens werden diesbezuumlglich keine naumlheren Angaben geshymacht Fuumlr eine feinere Aufloumlsung ndash raumlumshylich und zeitlich ndash muss diese Variable noch naumlher untersucht werden Ungeachtet dessen ist es ndash wie beschrieben ndash trotzdem moumlglich Veraumlnderungen und Tendenzen bereits unter gegebenen Voraussetzungen abzuleiten Fuumlr den Migrationsbereich ist die automatisierte Erkennung von Ershyeignissen uumlber soziale Medien eine vielshy

83

-SIAK JOURNAL

22015

versprechende Moumlglichkeit Gerade die komplexen und weltweiten Auswirkungen von Ereignissen in diesem Sektor sind oft schwer durchschaubar Es bedarf hoher Aufmerksamkeit und Sensibilitaumlt releshyvante Vorkommnisse mit potenziellen Folshygen fuumlr globale Migrationsstroumlme wahrzushynehmen Wir haben gezeigt dass soziale Medien als Indikator zur Erkennung von potenziell relevanten Ereignissen gut geshyeignet sind Die detaillierte Analyse obshyliegt aber nach wie vor Domaumlnenexpershyten die individuell uumlber die tatsaumlchliche Bedeutung entscheiden muumlssen Die geshygenstaumlndliche Technologie kann in erster Instanz als zusaumltzliches Instrument zur Erhoumlhung der Reichweite und Verkuumlrzung der Reaktionszeit eingesetzt werden

Die hochdynamischen Inhalte und die sich staumlndig weiterentwickelnde Themenshylandschaft innerhalb sozialer Medien ershyzeugen einerseits eine erhoumlhte Komplexitaumlt bei der Informationsgenerierung Anderershyseits ist genau diese Dynamik ein wesentshyliches Unterscheidungsmerkmal gegenshyuumlber allen anderen Informationskanaumllen Sichtbar wird sie in unterschiedlichen Dimensionen Stimmungsbilder bzw die in den Texten transportierten Emotionen sind fuumlr die Migration ein besonders wichshytiger Aspekt Kaum ein anderes Medium ermoumlglicht eine solch unmittelbare Ableishytung von Stimmungsbildern wie die soziashylen Medien Insbesondere die Dynamik in Hinblick auf zeitliche und geografische

Veraumlnderung von Emotionen bieten vielshyversprechende Moumlglichkeiten zur Weitershyentwicklung und erlauben nuumltzliche Einshysichten in Migrationsprozesse Uumlberdies ist auch die Erkennung und Ausbreitung von Themen ein interessanter Aspekt ndash auch uumlber die Migrationsdomaumlne hinaus In Verbindung mit den bereits durchgeshyfuumlhrten quantitativen Analysen koumlnnten durch Einbeziehen der Nachrichteninhalte domaumlnenspezifische Ereignisse praumlziser und zeitnaher erkannt werden Sowohl die Granularitaumlt der Daten als auch die Komplexitaumlt des Analyseprozesses haumlngen stark vom Ziel des Vorhabens ab Erste Einsichten koumlnnen wie demonstriert beshyreits mit grundlegenden Methoden abgeshyleitet werden Von essentieller Bedeutung fuumlr die Lagebilderstellung ist jedoch die Betreuung des gesamten Analyseprozesses durch Domaumlnenexperten Es ist davon auszugehen dass die Ergebnisse nahezu immer durch fachkundiges Personal mit entsprechendem Hintergrundwissen intershypretiert werden muumlssen Erst durch diese Interpretation koumlnnen die gewonnenen Einsichten in den Wissensprozess der Organisation eingebettet werden Demshygegenuumlber stehen die technische Umsetshyzung und das damit verbundene Knowshyhow in den Bereichen IT Datenanalyse und Prozesskonzeption Die ausgewogene Kombination dieser beiden Aspekte ermoumlglicht durchgaumlngige sinnvolle und praxisbezogene Anwendungen

84

-

22015 SIAK JOURNAL

1 Houmlhere Ebenen bauen jeweils auf der

darunterliegenden Ebene auf Waumlhrend

Daten explizit fuumlr sich stehen ist Wissen

implizit in einer Ansammlung von Daten

(zB Buchstaben Woumlrter Texte) vershy

packt 2 Die Klassen im Histogramm geben die

Menge an abgesetzten Geo-Tweets in

Aumlgypten an Die Houmlhe der Balken kennshy

zeichnet die Anzahl der Tage die in die

jeweilige Kategorie fallen

Quellenangaben

Ackoff Russel L (1989) From data to

wisdom Journal Of Applied Systems

Analysis (1) 3ndash9

Beaumont Claudine (2009) New York

plane crash Twitter breaks the news

again The Telegraph Online http

wwwtelegraphcouktechnologytwitter

4269765New-York-plane-crash-Twittershy

breaks-the-news-againhtml (April 30

2014)

De Beer JoopRaymer James et al

(2010) Overcoming the Problems of

Inconsistent International Migration

data A New Method Applied to Flows in

Europe European journal of populashy

tion = Revue europeenne de demographie

26 (4) 459ndash481 Online httpwwwpub

medcentralnihgovarticlerenderfcgiar

tid=2967706amptool=pmcentrezamprenderty

pe=abstract (April 28 2014)

Chae JunghoonThom Dennis et al

(2014) Public behavior response anashy

lysis in disaster events utilizing visual

analytics of microblog data Computers

amp Graphics (38) 51ndash60 Online http

linkinghubelseviercomretrievepii

S0097849313001490 (April 2 2014)

Collett Elizabeth (2013) Facing 2020

developing a new European agenda for

immigration and asylum policy mpi Mishy

gration Policy Institute Europe (1) 1ndash8

Ferrari LauraRosi Alberto et al

(2011) Extracting urban patterns from

location-based social networks Proceedshy

ings of the 3rd ACM SIGSPATIAL Intershy

national Workshop on Location-Based

Social Networks ndash LBSN rsquo11 New York

1 Online httpdlacmorgcitation

cfmdoid=20632122063226

Givens TerriLuedtke Adam (2004) The

Politics of European Union Immigration

Policy Institutions Salience and Harshy

monization Policy Studies Journal 32

(1)145ndash165 Online httpdoiwiley

com101111j1541-0072200400057x

Glasgow KimberlyFink Clayton (2013)

From push brooms to prayer books

Social media and social networks during

the London riots iConference 155ndash169

Online httpswwwidealsillinoisedu

handle214238382 (April 28 2014)

Kallus Nathan (2014) Predicting crowd

behavior with big public data Proceedshy

ings of the companion publication of the

23rd international conference on WWW

Companion rsquo14 625ndash630 Online http

dxdoiorg10114525679482579233

(April 28 2014)

Kraft ThomasWand Derek et al (2013)

Less After-the-Fact Investigative visshy

ual analysis of events from streaming

twitter IEEE Symposium on Large-

Scale Data Analysis and Visualization

(LDAV) 95ndash103 Online httpieeex

ploreieeeorglpdocsepic03wrapper

htmarnumber=6675163

Morstatter FredPfeffer Juumlrgen et al

(2013) Is the Sample Good Enough

Comparing Data from Twitterrsquos Streamshy

ing API and Twitterrsquos Firehose Proceedshy

ings of ICWSM Online httparxivorg

abs13065204

Neubauer GeorgHuber Hermann et al

(2014) Detecting events in Egypt based

on geo-referenced tweets Interdisciplinshy

ary Information and Management Talks

Poděbrady Noulas AnastasiosScellato Salvatore et

al (2011) An Empirical Study of Geoshy

graphic User Activity Patterns in Fourshy

square Proceedings of the Fifth Internashy

tional AAAI Conference on Weblogs and

Social Media 570ndash573 Online http

wwwaaaiorgocsindexphpICWSM

ICWSM11paperviewFile28313241

(April 28 2014)

Schaust SvenWalther MaximilianKaisser

Michael (2013) Avalanche Prepare

Manage and Understand Crisis Situashy

tions Using Social Media Analytics in

Comes TinaFriedrich Frank et al (Eds)

Proceedings of the 10th International

ISCRAM Conference Baden-Baden

852ndash857

Weber IngmarGarimella Kiran et al

(2014) Using Geolocated Twitter Data

to Study Recent Patterns of International

and Internal Migration in OECD Counshy

tries European Population Conference

2014 Budapest 1ndash9 Online http

epc2014princetoneduabstracts140809

Zagheni EmilioGarimella Venkata

Weber et al (2014) Inferring intershy

national and internal migration patterns

from Twitter data WWW rsquo14 Companion

1ndash6 Online httpdlacmorgcitation

cfmid=2576930 (April 28 2014)

85

Page 4: Wissensrohstoff Daten. Soziale Netzwerke als Indikator für ... · Vogl, Armin et al. (2015). Wissensrohstoff Daten. Soziale Netzwerke als Indikator für Lageentwicklungen im Migrationsbereich,

-

22015 SIAK JOURNAL

Entstehung dieser Unruhen gesammelt werden (GlasgowFink 2013) Als fruumlhes Beispiel fuumlr den Nutzen von sozialen Meshydien wird oft die Notlandung des US-Airshyways-Flugs 1549 im New Yorker Hudson River angegeben (15012009) Bevor die traditionellen Nachrichtenkanaumlle uumlber das Ungluumlck berichteten wurden auf Twitter schon die ersten Nachrichten und Bilder publiziert (Beaumont 2009) Diese fruumlhshyzeitig verfuumlgbaren Informationen sind dazu geeignet Entscheidungstraumlgern eine zushysaumltzliche Bewertungsgrundlage zu geben und weisen daruumlber hinaus einige Vorteile gegenuumlber ndash von traditionellen Medien beshyreitgestellten ndash Informationen auf Speziell im Notfall- und Katastrophenmanagement ist die Analyse von Massenverhalten hilfshyreich Sie kann eine weitere Entscheidungsshygrundlage bei der strategischen Planung darstellen (Chae et al 2014) Die Studie von Schaust ua (Schaust et al 2013) hat am Beispiel des Hurrikans Sandy ebenfalls gezeigt dass die von der Bevoumllkerung in Twitter generierten Daten lagebildrelevant sein koumlnnen Im Gesundheitssektor geshylang es Anzeichen fuumlr den Ausbruch der Schweinegrippe H1N1 bereits 1ndash2 Woshychen fruumlher zu erkennen als es Gesundshyheitseinrichtungen uumlber traditionellen Kashynaumllen moumlglich war Fuumlr Ereigniserkennung besonders relevant sind geo- bzw ortscoshydierte Daten Diese wurden von Ferrari ua (Ferrari et al 2011) genutzt um das Mobilitaumltsverhalten von Buumlrgern der Stadt New York zu analysieren Mit Hilfe der Ergebnisse wurden regionale Verkehrsshykonzepte auf die Beduumlrfnisse der Einshywohner abgestimmt Ortsbezogene Daten aus sozialen Medien haben uumlberdies dazu gefuumlhrt Unterschiede zwischen Wochenshyenden und Arbeitstagen oder Hotspots zu bestimmten Uhrzeiten aufzudecken Um bevorstehende Ereignisse auf Grundlage von raum-zeitlichen Daten zu identifizieshyren entwickelten Kraft ua (Kraft et al

2013) Methoden zur Echtzeitereignisershykennung Interessierte Personen koumlnnen dadurch zeitnah uumlber den Ereigniseintritt informiert werden Auf Grund der sehr fruumlshyhen Erkennung bringt der Einsatz sozialer Medien einen zusaumltzlichen Vorteil gegenshyuumlber traditionellen Medien mit sich Kallus (Kallus 2014) sammelte Daten aus offenen Internetquellen wie etwa Nachrichtenporshytalen Blogs oder sozialen Medien und unshytersuchte sie auf Hinweise auf potenzielle zukuumlnftige Ereignisse Am Beispiel des Staatsstreichs in Aumlgypten konnte gezeigt werden dass eine Evidenz fuumlr die Vorhershysagekapazitaumlt dieser Kanaumlle vorhanden ist

Zagheni ua (Zagheni et al 2014) hashyben gezeigt wie es moumlglich ist Migrashytionsstroumlme aus geo-codierten Daten zu erkennen Die Autoren verweisen auf die Tatsache dass uumlblicherweise Volkszaumlhshylungen verwendet werden um Migrationsshystroumlme indirekt zu schaumltzen Sowohl uumlber die Zeit zwischen den Volkszaumlhlungen als auch uumlber juumlngste Entwicklungen der Gegenwart liegen aber oft keine Daten vor In der Untersuchung von Zagheni ua (Zagheni et al 2014) wurden uumlber zwei Jahre hinweg geo-codierte Tweets von uumlber 500000 Personen aus OECD-Mitgliedstaaten analysiert Durch zeitshyliche Gliederung in Vier-Monats-Schritten konnten Ruumlckschluumlsse auf Migrationsbeshywegungen zwischen einzelnen Laumlndern gezogen werden Am deutlichsten konnten Bevoumllkerungsabwanderungen aus krisenshygeschuumlttelten Laumlndern wie Griechenland oder Irland gemessen werden Diese Meshythode koumlnnte dabei helfen Wendepunkte in Migrationsszenarien zu erkennen und das Verstaumlndnis der Beziehung zwischen interner und internationaler Migration zu verbessern (Weber et al 2014) All diese Beispiele zeigen wie hoch der Informashytionsgehalt von Daten aus sozialen Meshydien prinzipiell ist und wie vielseitig sie

79

-SIAK JOURNAL

22015

genutzt werden koumlnnen Damit das Potenshyzial aber vollstaumlndig ausgeschoumlpft werden kann braucht es nicht nur geeignete IT-Werkzeuge und Datenanalyse-Know-how sondern auch umfassendes domaumlnenspeshyzifisches Fachwissen Denn erst durch eine Interpretation der Analyseergebnisse durch fachkundiges Personal koumlnnen Hyshypothesen bestaumltigt oder widerlegt werden

2 migrAtionspotenziAle in soziAlen meDien Besonders seit dem bdquoArabischen Fruumlhlingldquo haben Krisensituationen in Nordafrika im Nahen Osten in den Laumlndern suumldlich der Sahara sowie in Suumldasien eine uumlberwaumllshytigende Migrationswelle mit einer stetig wachsenden Zahl von Fluumlchtlingen vershyursacht Die europaumlischen Gesellschaften kaumlmpfen mit den soziooumlkonomischen Ausshywirkungen dieser Krisen und suchen daher nach politischen Loumlsungen die sowohl der humanitaumlren Verantwortung als auch dem Schutz ihrer demografischen und wirtshyschaftlichen Strukturen Rechnung tragen

Die Quelllaumlnder illegaler Migration wershyden laufend auch von Experten des Bunshydesministeriums fuumlr Inneres (BMI) auf Migrationspotenziale untersucht Bei akushyten Ereignissen ist es jedoch schwer an sishytuationsbezogene Daten zu kommen Von besonderer Bedeutung fuumlr die Migration ist die emotionale Situation von potenshyziellen Migranten in den betroffenen Laumlnshydern Analog dazu ist auch die gegenwaumlrshytige Situation jener Laumlnder von Interesse in denen die Fluumlchtlinge Primaumlrschutz sushychen Ziellaumlnder muumlssen auf groszlige Fluumlchtshylingsstroumlme gut vorbereitet sein um entshysprechende Kapazitaumlten zu schaffen und humanitaumlre Erstmaszlignahmen einleiten zu koumlnnen Im Moment scheinen die Behoumlrshyden der europaumlischen Mitgliedstaaten nicht umfassend vorbereitet zu sein Aus diesem Grund muumlssen neue Informationsquellen

gefunden werden um moumlgliche migrashytionsausloumlsende Vorfaumllle besser beobachten zu koumlnnen Ob und in wie weit ein Vorfall migrationsausloumlsend ist oder nicht haumlngt stark von der Situation und insbesondere auch von der emotionalen Lage vor Ort ab Aus diesem Grund ist es essentiell uumlber die Hintergruumlnde so fruumlh als moumlglich Beshyscheid zu wissen

Europa bewegt sich langsam in Richshytung einer bdquosanfteren weniger polizeishylichen Reaktionldquo zur Bekaumlmpfung der illegalen Migration ist aber buchstaumlblich mit dem groszligen Zustrom innerhalb kurshyzer Zeit uumlberfordert Vor allem die suumldshyliche Grenze zu Italien steht einer stark steigenden Migrationswelle gegenuumlber Als in den ersten drei Monaten des Jahres 2014 mehr als 20000 illegale Migranten auf offener See gerettet und an die italieshynische Kuumlste gebracht werden mussten entstand in der suumlditalienischen Region Sizilien eine soziooumlkonomische Krise Sowohl die Auswirkungen von groszligen Migrationsbewegungen als auch Szenashyrien in denen hunderte Menschen ertrinshyken koumlnnen durch raschere und ortsbeshyzogene Information gemildert werden Rechtzeitige Alarmierung der Such- und Rettungsteams an der italienischen Kuumlste wuumlrde eine der Situation angepasste und rasche Reaktion ermoumlglichen wodurch potenziell tragische Unfaumllle auf See vershymieden werden koumlnnten

3 DAten Als informAtionsshyroHstoff

31 Der Analyseprozess Zu einer erfolgreichen Datenanalyse gehoumlren viele verschiedene Bausteine Der wichshytigste Baustein sind zunaumlchst die Daten selbst Gemaumlszlig dem Modell von Ackoff (Ackoff 1989) in Abbildung 1 (siehe Seishyte 81) sind sie der Rohstoff zur Informashy

80

-

22015 SIAK JOURNAL

tionsgewinnung Gezielte Aufbereitung der Daten fuumlhrt zu der Entstehung von neuer Information welche durch weitere Verarshybeitungsprozesse in vielen Faumlllen zu Wisshysen verdichtet werden kann Durch Ergaumlnshyzung eines Kontexts wird aus den Zeichen und Ziffern der untersten Ebene zunaumlchst also Information So werden etwa aus der Zahl bdquo17ldquo durch Hinzufuumlgen des Kontextes bdquoTemperaturmesswertldquo beispielsweise bdquo17deg Celsiusldquo Ein zeitlicher und geografischer Kontext kann in die Wissensstufe fuumlhren in welcher die Information dann ihre Anshywendung findet (Beispiel 17deg C im Jaumlnner in Wien sind uumlblicherweise viel zu warm) Interessant ist der Vergleich zwischen der obersten und der untersten Ebene der Pyshyramide Wissen als historisch aumlltestes Eleshyment ist schwer zu beschreiben und in Doshykumenten zumeist implizit verpackt Daten hingegen als wesentlich juumlngeres Konzept koumlnnen leicht notiert werden und haben einen eher mathematisch expliziten Chashyrakter Waumlhrend der Schritt von Daten zu Informationen bereits mit relativ einfachen Mitteln zu bewerkstelligen ist gestaltet sich die Schaffung der naumlchsten Ebene etshywas schwieriger In vielen Faumlllen ist dieser Schritt auf automatischem Weg uumlberhaupt nicht mehr durchfuumlhrbar und muss durch menschliche Akteure getaumltigt werden

Quelle nach Ackoff 1989

Wissen

implizit

explizit

Information

Daten

In der Industrie wurde Datenanalyse bzw Data Mining vor allem durch groszlige Warenhausketten bekannt Sie haben damit begonnen Einkaumlufe ihrer Kunden groszligshyflaumlchig nach Gemeinsamkeiten zu untersushychen Signifikante Korrelationen zwischen einzelnen Produktgruppen wurden dann als Grundlage fuumlr neue Angebote oder alternatives Shopdesign herangezogen In den eher isolierten Datenspeichern der Warenhausketten ist die Datenqualitaumlt tenshydenziell hoch Artikelnummern Zeit und Ort des Kaufes sind bekannt und koumlnnen abgerufen werden Das Datenformat kann in diesen Faumlllen vom Unternehmen selbst bestimmt werden Im Gegensatz dazu ist die Qualitaumlt von Daten aus frei zugaumlngshylichen Quellen und insbesondere sozialen Medien kaum bis gar nicht beeinflussbar Datenerfassung und Aufbereitung sind auf Grund von unkontrollierbarer Inhomogeshynitaumlt und Dynamik eine groszlige Herausforshyderung Auf technischer Ebene gilt es also zunaumlchst Werkzeuge zur Hand zu haben welche die Extraktion und Aufbereitung von Daten garantieren koumlnnen Wenn dieser Schritt bewaumlltigt wurde kann die geschafshyfene Datengrundlage genutzt werden um in der Wissenspyramide aufwaumlrts zu steigen

32 Werkzeuge Um die Inhomogenitaumlt und Dynamik von Rohdaten besser kontrollieren zu koumlnnen hat das AIT die Plattform Ubicity erstellt Ubicity ist in der Lage Daten parallel aus unterschiedlichen Internetquellen entgeshygenzunehmen sie aufzubereiten und fuumlr die spaumltere Analyse geordnet abzuspeishychern Die hoch performante Architektur ermoumlglicht die Aufnahme von mehr als 80000 Nachrichten pro Sekunde Je nach Einsatzzweck werden entgegengenom-

Abb 1 Vereinfachte Darstellung der

mene Daten abhaumlngig von ihrem Zustand durch flexibel schaltbare Aufbereitungsshymodule geschleust um sie schlieszliglich fuumlr

Wissenspyramide1 die eigentliche Analyse abzulegen

81

-SIAK JOURNAL

22015

Fuumlr einen initialen Test hat das Sysshytem von Oktober 2013 bis Maumlrz 2014 (mit kurzen Unterbrechungen) mehr als 400 Mio Tweets uumlber die frei zugaumlngshyliche Twitter-Schnittstelle aufgenommen Insgesamt konnten Daten uumlber 98 Tage hinweg ohne Unterbrechung entgegengeshynommen werden Das entspricht nahezu allen Tweets die uumlber Geraumlte wie Smartshyphones oder Tablets mit GPS-Positionsshydaten abgegeben wurden Etwa eine Mio Tweets wurden innerhalb der aumlgyptischen Landesgrenze abgesetzt und dienten als Ausgangsmaterial fuumlr die gegenstaumlndige Untersuchung Zunaumlchst wurden die Twitshyterhaumlufigkeit und insbesondere das -vershyhalten der Benutzerinnen und Benutzer etwas genauer untersucht Tageszeit- oder wochentagabhaumlngige Schwankungen koumlnshynen regional unterschiedlich ausfallen und muumlssen in die Analyse miteinbezogen werden In einem weiteren Schritt wurden etwaige Schwankungen zwischen urbanen und ruralen Gebieten am Beispiel der Staumldshyte Alexandria und Kairo im Vergleich zum gesamten Staatsgebiet verglichen Vershybreitungsgrad sowie Unterschiede in der technischen Infrastruktur koumlnnten die Zushyverlaumlssigkeit der Daten deutlich beeinflusshysen Um eine Korrelation zwischen Stadt und Land feststellen zu koumlnnen wurden schlieszliglich migrationsrelevante Ereignisse mit der Twitter-Haumlufigkeitskurve uumlberlashygert und der Pearson Korrelationskoeffizishyent berechnet

Quelle Neubauer et al 2014

Abb 2 Haumlufigkeitsklassen TweetsTag2

25

20

15

10

5

0

6001

ndash700

070

01ndash8

000

8001

ndash900

090

01ndash1

0000

1000

1ndash11

000

1100

1ndash12

000

1200

1ndash13

000

1300

1ndash14

000

1400

1ndash15

000

1500

1ndash16

000

gt160

00

33 Ergebnisse Im Histogramm von Abbildung 2 werden die 98 verfuumlgbaren Tage verschiedenen Haumlufigkeitsklassen zugeordnet Die Zushyordnung erfolgt auf Basis der Anzahl von abgesetzten Tweets pro Tag Die Tage der Klasse bdquo7001ndash8000 TweetsTagldquo streuen uumlber den gesamten Untersuchungszeitshyraum von Oktober bis Maumlrz Daraus laumlsst sich ein Trend fuumlr einen durchschnittlichen Erwartungswert ableiten Im Schnitt wurshyden pro Tag also etwa 7000ndash8000 GPS-kodierte Tweets in Aumlgypten abgegeben Im Gegensatz dazu sind die Tage in den Klassen um 13000 TweetsTag deutlich kompakter um den Jahreswechsel angeshysammelt Die deutlich erhoumlhte Kommushynikation in diesem kurzen Zeitraum im Vergleich zu den uumlbrigen Tagen und den zu erwartenden Durchschnittswert ist ein interessanter Aspekt der als Grundlage fuumlr weitere Analysen herangezogen wershyden kann Fuumlr Details zur Vorgehensweise siehe auch Neubauer Huber und Jager (Neubauer et al 2014)

Im naumlchsten Schritt wurde untersucht inwieweit sich das Twitterverhalten in Stadt und Land unterscheidet eine wichshytige Kenngroumlszlige fuumlr Migrationsanalysen Als Referenz wurden die zwei groumlszligten Staumldte Aumlgyptens herangezogen Kairo und Alexandria stellen zusammen 143 der 85-Millionen-Bevoumllkerung Aumlgyptens Mit Hilfe der geo-basierten Abfrage in Ubicity wurden die Stadtgrenzen uumlber Satellitenshybilder angenaumlhert Die Tweets der Staumldte und jene des gesamten Landes wurden anshyschlieszligend jeweils anhand des zugehoumlrigen Medians normalisiert Dadurch ist eine Uumlberlagerung der Kurven (Polynomialshyfunktion fuumlnfter Ordnung) und somit ein relativer Vergleich moumlglich Im Dishyagramm in Abbildung 3 (siehe Seite 83) ist ein aumlhnlicher Kurvenverlauf der Uumlbershylagerung bereits deutlich erkennbar Die

82

-

SIAK JOURNAL 22015

Quelle Neubauer et al 2014

Korrelationskoeffizienten bestaumltigen die-Egypt Normalized Cairo Normalized Alexandria Normalized Poly (Egypt Normalized) Poly (Cairo Normalized) Poly (Alexandria Normalized)

Tweets in Egypt

Num

ber

of T

wee

ts

Timeline

Abb 3 Anzahl der geo-codierten Tweets im gesamten aumlgyptischen Landesgebiet sowie in Kairo und Alexandria

sen Trend (Aumlgypten-Kairo 097 Aumlgypten-Alexandria 093 Kairo-Alexandria 089)

In Tabelle 1 werden die wichtigsten stashytistischen Angaben zum Twitterverhalten in den gemessenen Gebieten dargestellt

Quelle Neubauer et al 2014

TweetsTag Aumlgypten Kairo Alexandria

Durchschnitt 98419 15695 12365 Median 89635 16960 11340 Maximum 168370 24990 20480 01 Quantil 67131 9820 7796 025 Quantil 72040 11110 9108 075 Quantil 125513 19930 16133 09 Quantil 139712 21214 18081

sozialen Medien sehr nahe Schnee auf den Pyramiden gab es zuletzt vor uumlber

Tab 1 Statistische Angaben zum Vergleich der Tweethaumlufigkeit in den jeweils untersuchten Gebieten

Anhand der Trendanalyse ist ein Anstieg der Tweethaumlufigkeit ab Ende November 2013 zu erkennen welche bis Anfang Jaumlnner 2014 wieder abflacht Auf Grund von Wartungsarbeiten liegen leider keine durchgaumlngigen Aufzeichnungen vor Der Trend zeigt jedoch einen deutlichen Ruumlckshygang und erneute Stabilisierung nach dem Jahreswechsel Der deutliche Anstieg ist houmlchstwahrscheinlich durch mehrere Ershyeignisse zu erklaumlren Zunaumlchst wurde in diesem Zeitraum die Muslimbruderschaft von der Regierung Aumlgyptens als terrorisshytische Organisation eingestuft was zu ershyheblichem Aufruhr in der Bevoumllkerung fuumlhrte Die zweite Komponente steht in keiner Verbindung zu politischen Vorshykommnissen und wurde daher erst anshyhand der Analyse einzelner Tage entdeckt welche mit nahezu 17000 Tweets weit uumlber dem Durchschnitt lagen Am 13 Deshyzember 2013 wurde der Nahe Osten und insbesondere Aumlgypten mit heftigem Schneeshyfall konfrontiert Dieses seltene meteoroshylogische Ereignis legt einen Zusammenshyhang mit erhoumlhter Kommunikation in den

100 Jahren Diese ersten Untersuchungen geben schon deutliche Hinweise auf einen Zusammenhang zwischen erhoumlhtem Komshymunikationsverhalten und bestimmten Vorkommnissen wie dem mehrwoumlchigen politischen Umbruch sowie dem auszligershygewoumlhnlichen Schneefall

4 ConClusio Fuumlr genauere Aussagen muss in zukuumlnfshytigen Untersuchungen die Stabilitaumlt des Twitter-Datenumfangs uumlber der Zeit untershysucht werden Morstatter ua (Morstatter et al 2013) haben eine Schwankung von Top-Hashtags zwischen der oumlffentlichen Twitter-Schnittstelle und der Grundgeshysamtheit festgestellt Ob und wie Twitter eine Gewichtung bei der Datenlieferung vornimmt ist derzeit im Detail nicht beshykannt Seitens des Unternehmens werden diesbezuumlglich keine naumlheren Angaben geshymacht Fuumlr eine feinere Aufloumlsung ndash raumlumshylich und zeitlich ndash muss diese Variable noch naumlher untersucht werden Ungeachtet dessen ist es ndash wie beschrieben ndash trotzdem moumlglich Veraumlnderungen und Tendenzen bereits unter gegebenen Voraussetzungen abzuleiten Fuumlr den Migrationsbereich ist die automatisierte Erkennung von Ershyeignissen uumlber soziale Medien eine vielshy

83

-SIAK JOURNAL

22015

versprechende Moumlglichkeit Gerade die komplexen und weltweiten Auswirkungen von Ereignissen in diesem Sektor sind oft schwer durchschaubar Es bedarf hoher Aufmerksamkeit und Sensibilitaumlt releshyvante Vorkommnisse mit potenziellen Folshygen fuumlr globale Migrationsstroumlme wahrzushynehmen Wir haben gezeigt dass soziale Medien als Indikator zur Erkennung von potenziell relevanten Ereignissen gut geshyeignet sind Die detaillierte Analyse obshyliegt aber nach wie vor Domaumlnenexpershyten die individuell uumlber die tatsaumlchliche Bedeutung entscheiden muumlssen Die geshygenstaumlndliche Technologie kann in erster Instanz als zusaumltzliches Instrument zur Erhoumlhung der Reichweite und Verkuumlrzung der Reaktionszeit eingesetzt werden

Die hochdynamischen Inhalte und die sich staumlndig weiterentwickelnde Themenshylandschaft innerhalb sozialer Medien ershyzeugen einerseits eine erhoumlhte Komplexitaumlt bei der Informationsgenerierung Anderershyseits ist genau diese Dynamik ein wesentshyliches Unterscheidungsmerkmal gegenshyuumlber allen anderen Informationskanaumllen Sichtbar wird sie in unterschiedlichen Dimensionen Stimmungsbilder bzw die in den Texten transportierten Emotionen sind fuumlr die Migration ein besonders wichshytiger Aspekt Kaum ein anderes Medium ermoumlglicht eine solch unmittelbare Ableishytung von Stimmungsbildern wie die soziashylen Medien Insbesondere die Dynamik in Hinblick auf zeitliche und geografische

Veraumlnderung von Emotionen bieten vielshyversprechende Moumlglichkeiten zur Weitershyentwicklung und erlauben nuumltzliche Einshysichten in Migrationsprozesse Uumlberdies ist auch die Erkennung und Ausbreitung von Themen ein interessanter Aspekt ndash auch uumlber die Migrationsdomaumlne hinaus In Verbindung mit den bereits durchgeshyfuumlhrten quantitativen Analysen koumlnnten durch Einbeziehen der Nachrichteninhalte domaumlnenspezifische Ereignisse praumlziser und zeitnaher erkannt werden Sowohl die Granularitaumlt der Daten als auch die Komplexitaumlt des Analyseprozesses haumlngen stark vom Ziel des Vorhabens ab Erste Einsichten koumlnnen wie demonstriert beshyreits mit grundlegenden Methoden abgeshyleitet werden Von essentieller Bedeutung fuumlr die Lagebilderstellung ist jedoch die Betreuung des gesamten Analyseprozesses durch Domaumlnenexperten Es ist davon auszugehen dass die Ergebnisse nahezu immer durch fachkundiges Personal mit entsprechendem Hintergrundwissen intershypretiert werden muumlssen Erst durch diese Interpretation koumlnnen die gewonnenen Einsichten in den Wissensprozess der Organisation eingebettet werden Demshygegenuumlber stehen die technische Umsetshyzung und das damit verbundene Knowshyhow in den Bereichen IT Datenanalyse und Prozesskonzeption Die ausgewogene Kombination dieser beiden Aspekte ermoumlglicht durchgaumlngige sinnvolle und praxisbezogene Anwendungen

84

-

22015 SIAK JOURNAL

1 Houmlhere Ebenen bauen jeweils auf der

darunterliegenden Ebene auf Waumlhrend

Daten explizit fuumlr sich stehen ist Wissen

implizit in einer Ansammlung von Daten

(zB Buchstaben Woumlrter Texte) vershy

packt 2 Die Klassen im Histogramm geben die

Menge an abgesetzten Geo-Tweets in

Aumlgypten an Die Houmlhe der Balken kennshy

zeichnet die Anzahl der Tage die in die

jeweilige Kategorie fallen

Quellenangaben

Ackoff Russel L (1989) From data to

wisdom Journal Of Applied Systems

Analysis (1) 3ndash9

Beaumont Claudine (2009) New York

plane crash Twitter breaks the news

again The Telegraph Online http

wwwtelegraphcouktechnologytwitter

4269765New-York-plane-crash-Twittershy

breaks-the-news-againhtml (April 30

2014)

De Beer JoopRaymer James et al

(2010) Overcoming the Problems of

Inconsistent International Migration

data A New Method Applied to Flows in

Europe European journal of populashy

tion = Revue europeenne de demographie

26 (4) 459ndash481 Online httpwwwpub

medcentralnihgovarticlerenderfcgiar

tid=2967706amptool=pmcentrezamprenderty

pe=abstract (April 28 2014)

Chae JunghoonThom Dennis et al

(2014) Public behavior response anashy

lysis in disaster events utilizing visual

analytics of microblog data Computers

amp Graphics (38) 51ndash60 Online http

linkinghubelseviercomretrievepii

S0097849313001490 (April 2 2014)

Collett Elizabeth (2013) Facing 2020

developing a new European agenda for

immigration and asylum policy mpi Mishy

gration Policy Institute Europe (1) 1ndash8

Ferrari LauraRosi Alberto et al

(2011) Extracting urban patterns from

location-based social networks Proceedshy

ings of the 3rd ACM SIGSPATIAL Intershy

national Workshop on Location-Based

Social Networks ndash LBSN rsquo11 New York

1 Online httpdlacmorgcitation

cfmdoid=20632122063226

Givens TerriLuedtke Adam (2004) The

Politics of European Union Immigration

Policy Institutions Salience and Harshy

monization Policy Studies Journal 32

(1)145ndash165 Online httpdoiwiley

com101111j1541-0072200400057x

Glasgow KimberlyFink Clayton (2013)

From push brooms to prayer books

Social media and social networks during

the London riots iConference 155ndash169

Online httpswwwidealsillinoisedu

handle214238382 (April 28 2014)

Kallus Nathan (2014) Predicting crowd

behavior with big public data Proceedshy

ings of the companion publication of the

23rd international conference on WWW

Companion rsquo14 625ndash630 Online http

dxdoiorg10114525679482579233

(April 28 2014)

Kraft ThomasWand Derek et al (2013)

Less After-the-Fact Investigative visshy

ual analysis of events from streaming

twitter IEEE Symposium on Large-

Scale Data Analysis and Visualization

(LDAV) 95ndash103 Online httpieeex

ploreieeeorglpdocsepic03wrapper

htmarnumber=6675163

Morstatter FredPfeffer Juumlrgen et al

(2013) Is the Sample Good Enough

Comparing Data from Twitterrsquos Streamshy

ing API and Twitterrsquos Firehose Proceedshy

ings of ICWSM Online httparxivorg

abs13065204

Neubauer GeorgHuber Hermann et al

(2014) Detecting events in Egypt based

on geo-referenced tweets Interdisciplinshy

ary Information and Management Talks

Poděbrady Noulas AnastasiosScellato Salvatore et

al (2011) An Empirical Study of Geoshy

graphic User Activity Patterns in Fourshy

square Proceedings of the Fifth Internashy

tional AAAI Conference on Weblogs and

Social Media 570ndash573 Online http

wwwaaaiorgocsindexphpICWSM

ICWSM11paperviewFile28313241

(April 28 2014)

Schaust SvenWalther MaximilianKaisser

Michael (2013) Avalanche Prepare

Manage and Understand Crisis Situashy

tions Using Social Media Analytics in

Comes TinaFriedrich Frank et al (Eds)

Proceedings of the 10th International

ISCRAM Conference Baden-Baden

852ndash857

Weber IngmarGarimella Kiran et al

(2014) Using Geolocated Twitter Data

to Study Recent Patterns of International

and Internal Migration in OECD Counshy

tries European Population Conference

2014 Budapest 1ndash9 Online http

epc2014princetoneduabstracts140809

Zagheni EmilioGarimella Venkata

Weber et al (2014) Inferring intershy

national and internal migration patterns

from Twitter data WWW rsquo14 Companion

1ndash6 Online httpdlacmorgcitation

cfmid=2576930 (April 28 2014)

85

Page 5: Wissensrohstoff Daten. Soziale Netzwerke als Indikator für ... · Vogl, Armin et al. (2015). Wissensrohstoff Daten. Soziale Netzwerke als Indikator für Lageentwicklungen im Migrationsbereich,

-SIAK JOURNAL

22015

genutzt werden koumlnnen Damit das Potenshyzial aber vollstaumlndig ausgeschoumlpft werden kann braucht es nicht nur geeignete IT-Werkzeuge und Datenanalyse-Know-how sondern auch umfassendes domaumlnenspeshyzifisches Fachwissen Denn erst durch eine Interpretation der Analyseergebnisse durch fachkundiges Personal koumlnnen Hyshypothesen bestaumltigt oder widerlegt werden

2 migrAtionspotenziAle in soziAlen meDien Besonders seit dem bdquoArabischen Fruumlhlingldquo haben Krisensituationen in Nordafrika im Nahen Osten in den Laumlndern suumldlich der Sahara sowie in Suumldasien eine uumlberwaumllshytigende Migrationswelle mit einer stetig wachsenden Zahl von Fluumlchtlingen vershyursacht Die europaumlischen Gesellschaften kaumlmpfen mit den soziooumlkonomischen Ausshywirkungen dieser Krisen und suchen daher nach politischen Loumlsungen die sowohl der humanitaumlren Verantwortung als auch dem Schutz ihrer demografischen und wirtshyschaftlichen Strukturen Rechnung tragen

Die Quelllaumlnder illegaler Migration wershyden laufend auch von Experten des Bunshydesministeriums fuumlr Inneres (BMI) auf Migrationspotenziale untersucht Bei akushyten Ereignissen ist es jedoch schwer an sishytuationsbezogene Daten zu kommen Von besonderer Bedeutung fuumlr die Migration ist die emotionale Situation von potenshyziellen Migranten in den betroffenen Laumlnshydern Analog dazu ist auch die gegenwaumlrshytige Situation jener Laumlnder von Interesse in denen die Fluumlchtlinge Primaumlrschutz sushychen Ziellaumlnder muumlssen auf groszlige Fluumlchtshylingsstroumlme gut vorbereitet sein um entshysprechende Kapazitaumlten zu schaffen und humanitaumlre Erstmaszlignahmen einleiten zu koumlnnen Im Moment scheinen die Behoumlrshyden der europaumlischen Mitgliedstaaten nicht umfassend vorbereitet zu sein Aus diesem Grund muumlssen neue Informationsquellen

gefunden werden um moumlgliche migrashytionsausloumlsende Vorfaumllle besser beobachten zu koumlnnen Ob und in wie weit ein Vorfall migrationsausloumlsend ist oder nicht haumlngt stark von der Situation und insbesondere auch von der emotionalen Lage vor Ort ab Aus diesem Grund ist es essentiell uumlber die Hintergruumlnde so fruumlh als moumlglich Beshyscheid zu wissen

Europa bewegt sich langsam in Richshytung einer bdquosanfteren weniger polizeishylichen Reaktionldquo zur Bekaumlmpfung der illegalen Migration ist aber buchstaumlblich mit dem groszligen Zustrom innerhalb kurshyzer Zeit uumlberfordert Vor allem die suumldshyliche Grenze zu Italien steht einer stark steigenden Migrationswelle gegenuumlber Als in den ersten drei Monaten des Jahres 2014 mehr als 20000 illegale Migranten auf offener See gerettet und an die italieshynische Kuumlste gebracht werden mussten entstand in der suumlditalienischen Region Sizilien eine soziooumlkonomische Krise Sowohl die Auswirkungen von groszligen Migrationsbewegungen als auch Szenashyrien in denen hunderte Menschen ertrinshyken koumlnnen durch raschere und ortsbeshyzogene Information gemildert werden Rechtzeitige Alarmierung der Such- und Rettungsteams an der italienischen Kuumlste wuumlrde eine der Situation angepasste und rasche Reaktion ermoumlglichen wodurch potenziell tragische Unfaumllle auf See vershymieden werden koumlnnten

3 DAten Als informAtionsshyroHstoff

31 Der Analyseprozess Zu einer erfolgreichen Datenanalyse gehoumlren viele verschiedene Bausteine Der wichshytigste Baustein sind zunaumlchst die Daten selbst Gemaumlszlig dem Modell von Ackoff (Ackoff 1989) in Abbildung 1 (siehe Seishyte 81) sind sie der Rohstoff zur Informashy

80

-

22015 SIAK JOURNAL

tionsgewinnung Gezielte Aufbereitung der Daten fuumlhrt zu der Entstehung von neuer Information welche durch weitere Verarshybeitungsprozesse in vielen Faumlllen zu Wisshysen verdichtet werden kann Durch Ergaumlnshyzung eines Kontexts wird aus den Zeichen und Ziffern der untersten Ebene zunaumlchst also Information So werden etwa aus der Zahl bdquo17ldquo durch Hinzufuumlgen des Kontextes bdquoTemperaturmesswertldquo beispielsweise bdquo17deg Celsiusldquo Ein zeitlicher und geografischer Kontext kann in die Wissensstufe fuumlhren in welcher die Information dann ihre Anshywendung findet (Beispiel 17deg C im Jaumlnner in Wien sind uumlblicherweise viel zu warm) Interessant ist der Vergleich zwischen der obersten und der untersten Ebene der Pyshyramide Wissen als historisch aumlltestes Eleshyment ist schwer zu beschreiben und in Doshykumenten zumeist implizit verpackt Daten hingegen als wesentlich juumlngeres Konzept koumlnnen leicht notiert werden und haben einen eher mathematisch expliziten Chashyrakter Waumlhrend der Schritt von Daten zu Informationen bereits mit relativ einfachen Mitteln zu bewerkstelligen ist gestaltet sich die Schaffung der naumlchsten Ebene etshywas schwieriger In vielen Faumlllen ist dieser Schritt auf automatischem Weg uumlberhaupt nicht mehr durchfuumlhrbar und muss durch menschliche Akteure getaumltigt werden

Quelle nach Ackoff 1989

Wissen

implizit

explizit

Information

Daten

In der Industrie wurde Datenanalyse bzw Data Mining vor allem durch groszlige Warenhausketten bekannt Sie haben damit begonnen Einkaumlufe ihrer Kunden groszligshyflaumlchig nach Gemeinsamkeiten zu untersushychen Signifikante Korrelationen zwischen einzelnen Produktgruppen wurden dann als Grundlage fuumlr neue Angebote oder alternatives Shopdesign herangezogen In den eher isolierten Datenspeichern der Warenhausketten ist die Datenqualitaumlt tenshydenziell hoch Artikelnummern Zeit und Ort des Kaufes sind bekannt und koumlnnen abgerufen werden Das Datenformat kann in diesen Faumlllen vom Unternehmen selbst bestimmt werden Im Gegensatz dazu ist die Qualitaumlt von Daten aus frei zugaumlngshylichen Quellen und insbesondere sozialen Medien kaum bis gar nicht beeinflussbar Datenerfassung und Aufbereitung sind auf Grund von unkontrollierbarer Inhomogeshynitaumlt und Dynamik eine groszlige Herausforshyderung Auf technischer Ebene gilt es also zunaumlchst Werkzeuge zur Hand zu haben welche die Extraktion und Aufbereitung von Daten garantieren koumlnnen Wenn dieser Schritt bewaumlltigt wurde kann die geschafshyfene Datengrundlage genutzt werden um in der Wissenspyramide aufwaumlrts zu steigen

32 Werkzeuge Um die Inhomogenitaumlt und Dynamik von Rohdaten besser kontrollieren zu koumlnnen hat das AIT die Plattform Ubicity erstellt Ubicity ist in der Lage Daten parallel aus unterschiedlichen Internetquellen entgeshygenzunehmen sie aufzubereiten und fuumlr die spaumltere Analyse geordnet abzuspeishychern Die hoch performante Architektur ermoumlglicht die Aufnahme von mehr als 80000 Nachrichten pro Sekunde Je nach Einsatzzweck werden entgegengenom-

Abb 1 Vereinfachte Darstellung der

mene Daten abhaumlngig von ihrem Zustand durch flexibel schaltbare Aufbereitungsshymodule geschleust um sie schlieszliglich fuumlr

Wissenspyramide1 die eigentliche Analyse abzulegen

81

-SIAK JOURNAL

22015

Fuumlr einen initialen Test hat das Sysshytem von Oktober 2013 bis Maumlrz 2014 (mit kurzen Unterbrechungen) mehr als 400 Mio Tweets uumlber die frei zugaumlngshyliche Twitter-Schnittstelle aufgenommen Insgesamt konnten Daten uumlber 98 Tage hinweg ohne Unterbrechung entgegengeshynommen werden Das entspricht nahezu allen Tweets die uumlber Geraumlte wie Smartshyphones oder Tablets mit GPS-Positionsshydaten abgegeben wurden Etwa eine Mio Tweets wurden innerhalb der aumlgyptischen Landesgrenze abgesetzt und dienten als Ausgangsmaterial fuumlr die gegenstaumlndige Untersuchung Zunaumlchst wurden die Twitshyterhaumlufigkeit und insbesondere das -vershyhalten der Benutzerinnen und Benutzer etwas genauer untersucht Tageszeit- oder wochentagabhaumlngige Schwankungen koumlnshynen regional unterschiedlich ausfallen und muumlssen in die Analyse miteinbezogen werden In einem weiteren Schritt wurden etwaige Schwankungen zwischen urbanen und ruralen Gebieten am Beispiel der Staumldshyte Alexandria und Kairo im Vergleich zum gesamten Staatsgebiet verglichen Vershybreitungsgrad sowie Unterschiede in der technischen Infrastruktur koumlnnten die Zushyverlaumlssigkeit der Daten deutlich beeinflusshysen Um eine Korrelation zwischen Stadt und Land feststellen zu koumlnnen wurden schlieszliglich migrationsrelevante Ereignisse mit der Twitter-Haumlufigkeitskurve uumlberlashygert und der Pearson Korrelationskoeffizishyent berechnet

Quelle Neubauer et al 2014

Abb 2 Haumlufigkeitsklassen TweetsTag2

25

20

15

10

5

0

6001

ndash700

070

01ndash8

000

8001

ndash900

090

01ndash1

0000

1000

1ndash11

000

1100

1ndash12

000

1200

1ndash13

000

1300

1ndash14

000

1400

1ndash15

000

1500

1ndash16

000

gt160

00

33 Ergebnisse Im Histogramm von Abbildung 2 werden die 98 verfuumlgbaren Tage verschiedenen Haumlufigkeitsklassen zugeordnet Die Zushyordnung erfolgt auf Basis der Anzahl von abgesetzten Tweets pro Tag Die Tage der Klasse bdquo7001ndash8000 TweetsTagldquo streuen uumlber den gesamten Untersuchungszeitshyraum von Oktober bis Maumlrz Daraus laumlsst sich ein Trend fuumlr einen durchschnittlichen Erwartungswert ableiten Im Schnitt wurshyden pro Tag also etwa 7000ndash8000 GPS-kodierte Tweets in Aumlgypten abgegeben Im Gegensatz dazu sind die Tage in den Klassen um 13000 TweetsTag deutlich kompakter um den Jahreswechsel angeshysammelt Die deutlich erhoumlhte Kommushynikation in diesem kurzen Zeitraum im Vergleich zu den uumlbrigen Tagen und den zu erwartenden Durchschnittswert ist ein interessanter Aspekt der als Grundlage fuumlr weitere Analysen herangezogen wershyden kann Fuumlr Details zur Vorgehensweise siehe auch Neubauer Huber und Jager (Neubauer et al 2014)

Im naumlchsten Schritt wurde untersucht inwieweit sich das Twitterverhalten in Stadt und Land unterscheidet eine wichshytige Kenngroumlszlige fuumlr Migrationsanalysen Als Referenz wurden die zwei groumlszligten Staumldte Aumlgyptens herangezogen Kairo und Alexandria stellen zusammen 143 der 85-Millionen-Bevoumllkerung Aumlgyptens Mit Hilfe der geo-basierten Abfrage in Ubicity wurden die Stadtgrenzen uumlber Satellitenshybilder angenaumlhert Die Tweets der Staumldte und jene des gesamten Landes wurden anshyschlieszligend jeweils anhand des zugehoumlrigen Medians normalisiert Dadurch ist eine Uumlberlagerung der Kurven (Polynomialshyfunktion fuumlnfter Ordnung) und somit ein relativer Vergleich moumlglich Im Dishyagramm in Abbildung 3 (siehe Seite 83) ist ein aumlhnlicher Kurvenverlauf der Uumlbershylagerung bereits deutlich erkennbar Die

82

-

SIAK JOURNAL 22015

Quelle Neubauer et al 2014

Korrelationskoeffizienten bestaumltigen die-Egypt Normalized Cairo Normalized Alexandria Normalized Poly (Egypt Normalized) Poly (Cairo Normalized) Poly (Alexandria Normalized)

Tweets in Egypt

Num

ber

of T

wee

ts

Timeline

Abb 3 Anzahl der geo-codierten Tweets im gesamten aumlgyptischen Landesgebiet sowie in Kairo und Alexandria

sen Trend (Aumlgypten-Kairo 097 Aumlgypten-Alexandria 093 Kairo-Alexandria 089)

In Tabelle 1 werden die wichtigsten stashytistischen Angaben zum Twitterverhalten in den gemessenen Gebieten dargestellt

Quelle Neubauer et al 2014

TweetsTag Aumlgypten Kairo Alexandria

Durchschnitt 98419 15695 12365 Median 89635 16960 11340 Maximum 168370 24990 20480 01 Quantil 67131 9820 7796 025 Quantil 72040 11110 9108 075 Quantil 125513 19930 16133 09 Quantil 139712 21214 18081

sozialen Medien sehr nahe Schnee auf den Pyramiden gab es zuletzt vor uumlber

Tab 1 Statistische Angaben zum Vergleich der Tweethaumlufigkeit in den jeweils untersuchten Gebieten

Anhand der Trendanalyse ist ein Anstieg der Tweethaumlufigkeit ab Ende November 2013 zu erkennen welche bis Anfang Jaumlnner 2014 wieder abflacht Auf Grund von Wartungsarbeiten liegen leider keine durchgaumlngigen Aufzeichnungen vor Der Trend zeigt jedoch einen deutlichen Ruumlckshygang und erneute Stabilisierung nach dem Jahreswechsel Der deutliche Anstieg ist houmlchstwahrscheinlich durch mehrere Ershyeignisse zu erklaumlren Zunaumlchst wurde in diesem Zeitraum die Muslimbruderschaft von der Regierung Aumlgyptens als terrorisshytische Organisation eingestuft was zu ershyheblichem Aufruhr in der Bevoumllkerung fuumlhrte Die zweite Komponente steht in keiner Verbindung zu politischen Vorshykommnissen und wurde daher erst anshyhand der Analyse einzelner Tage entdeckt welche mit nahezu 17000 Tweets weit uumlber dem Durchschnitt lagen Am 13 Deshyzember 2013 wurde der Nahe Osten und insbesondere Aumlgypten mit heftigem Schneeshyfall konfrontiert Dieses seltene meteoroshylogische Ereignis legt einen Zusammenshyhang mit erhoumlhter Kommunikation in den

100 Jahren Diese ersten Untersuchungen geben schon deutliche Hinweise auf einen Zusammenhang zwischen erhoumlhtem Komshymunikationsverhalten und bestimmten Vorkommnissen wie dem mehrwoumlchigen politischen Umbruch sowie dem auszligershygewoumlhnlichen Schneefall

4 ConClusio Fuumlr genauere Aussagen muss in zukuumlnfshytigen Untersuchungen die Stabilitaumlt des Twitter-Datenumfangs uumlber der Zeit untershysucht werden Morstatter ua (Morstatter et al 2013) haben eine Schwankung von Top-Hashtags zwischen der oumlffentlichen Twitter-Schnittstelle und der Grundgeshysamtheit festgestellt Ob und wie Twitter eine Gewichtung bei der Datenlieferung vornimmt ist derzeit im Detail nicht beshykannt Seitens des Unternehmens werden diesbezuumlglich keine naumlheren Angaben geshymacht Fuumlr eine feinere Aufloumlsung ndash raumlumshylich und zeitlich ndash muss diese Variable noch naumlher untersucht werden Ungeachtet dessen ist es ndash wie beschrieben ndash trotzdem moumlglich Veraumlnderungen und Tendenzen bereits unter gegebenen Voraussetzungen abzuleiten Fuumlr den Migrationsbereich ist die automatisierte Erkennung von Ershyeignissen uumlber soziale Medien eine vielshy

83

-SIAK JOURNAL

22015

versprechende Moumlglichkeit Gerade die komplexen und weltweiten Auswirkungen von Ereignissen in diesem Sektor sind oft schwer durchschaubar Es bedarf hoher Aufmerksamkeit und Sensibilitaumlt releshyvante Vorkommnisse mit potenziellen Folshygen fuumlr globale Migrationsstroumlme wahrzushynehmen Wir haben gezeigt dass soziale Medien als Indikator zur Erkennung von potenziell relevanten Ereignissen gut geshyeignet sind Die detaillierte Analyse obshyliegt aber nach wie vor Domaumlnenexpershyten die individuell uumlber die tatsaumlchliche Bedeutung entscheiden muumlssen Die geshygenstaumlndliche Technologie kann in erster Instanz als zusaumltzliches Instrument zur Erhoumlhung der Reichweite und Verkuumlrzung der Reaktionszeit eingesetzt werden

Die hochdynamischen Inhalte und die sich staumlndig weiterentwickelnde Themenshylandschaft innerhalb sozialer Medien ershyzeugen einerseits eine erhoumlhte Komplexitaumlt bei der Informationsgenerierung Anderershyseits ist genau diese Dynamik ein wesentshyliches Unterscheidungsmerkmal gegenshyuumlber allen anderen Informationskanaumllen Sichtbar wird sie in unterschiedlichen Dimensionen Stimmungsbilder bzw die in den Texten transportierten Emotionen sind fuumlr die Migration ein besonders wichshytiger Aspekt Kaum ein anderes Medium ermoumlglicht eine solch unmittelbare Ableishytung von Stimmungsbildern wie die soziashylen Medien Insbesondere die Dynamik in Hinblick auf zeitliche und geografische

Veraumlnderung von Emotionen bieten vielshyversprechende Moumlglichkeiten zur Weitershyentwicklung und erlauben nuumltzliche Einshysichten in Migrationsprozesse Uumlberdies ist auch die Erkennung und Ausbreitung von Themen ein interessanter Aspekt ndash auch uumlber die Migrationsdomaumlne hinaus In Verbindung mit den bereits durchgeshyfuumlhrten quantitativen Analysen koumlnnten durch Einbeziehen der Nachrichteninhalte domaumlnenspezifische Ereignisse praumlziser und zeitnaher erkannt werden Sowohl die Granularitaumlt der Daten als auch die Komplexitaumlt des Analyseprozesses haumlngen stark vom Ziel des Vorhabens ab Erste Einsichten koumlnnen wie demonstriert beshyreits mit grundlegenden Methoden abgeshyleitet werden Von essentieller Bedeutung fuumlr die Lagebilderstellung ist jedoch die Betreuung des gesamten Analyseprozesses durch Domaumlnenexperten Es ist davon auszugehen dass die Ergebnisse nahezu immer durch fachkundiges Personal mit entsprechendem Hintergrundwissen intershypretiert werden muumlssen Erst durch diese Interpretation koumlnnen die gewonnenen Einsichten in den Wissensprozess der Organisation eingebettet werden Demshygegenuumlber stehen die technische Umsetshyzung und das damit verbundene Knowshyhow in den Bereichen IT Datenanalyse und Prozesskonzeption Die ausgewogene Kombination dieser beiden Aspekte ermoumlglicht durchgaumlngige sinnvolle und praxisbezogene Anwendungen

84

-

22015 SIAK JOURNAL

1 Houmlhere Ebenen bauen jeweils auf der

darunterliegenden Ebene auf Waumlhrend

Daten explizit fuumlr sich stehen ist Wissen

implizit in einer Ansammlung von Daten

(zB Buchstaben Woumlrter Texte) vershy

packt 2 Die Klassen im Histogramm geben die

Menge an abgesetzten Geo-Tweets in

Aumlgypten an Die Houmlhe der Balken kennshy

zeichnet die Anzahl der Tage die in die

jeweilige Kategorie fallen

Quellenangaben

Ackoff Russel L (1989) From data to

wisdom Journal Of Applied Systems

Analysis (1) 3ndash9

Beaumont Claudine (2009) New York

plane crash Twitter breaks the news

again The Telegraph Online http

wwwtelegraphcouktechnologytwitter

4269765New-York-plane-crash-Twittershy

breaks-the-news-againhtml (April 30

2014)

De Beer JoopRaymer James et al

(2010) Overcoming the Problems of

Inconsistent International Migration

data A New Method Applied to Flows in

Europe European journal of populashy

tion = Revue europeenne de demographie

26 (4) 459ndash481 Online httpwwwpub

medcentralnihgovarticlerenderfcgiar

tid=2967706amptool=pmcentrezamprenderty

pe=abstract (April 28 2014)

Chae JunghoonThom Dennis et al

(2014) Public behavior response anashy

lysis in disaster events utilizing visual

analytics of microblog data Computers

amp Graphics (38) 51ndash60 Online http

linkinghubelseviercomretrievepii

S0097849313001490 (April 2 2014)

Collett Elizabeth (2013) Facing 2020

developing a new European agenda for

immigration and asylum policy mpi Mishy

gration Policy Institute Europe (1) 1ndash8

Ferrari LauraRosi Alberto et al

(2011) Extracting urban patterns from

location-based social networks Proceedshy

ings of the 3rd ACM SIGSPATIAL Intershy

national Workshop on Location-Based

Social Networks ndash LBSN rsquo11 New York

1 Online httpdlacmorgcitation

cfmdoid=20632122063226

Givens TerriLuedtke Adam (2004) The

Politics of European Union Immigration

Policy Institutions Salience and Harshy

monization Policy Studies Journal 32

(1)145ndash165 Online httpdoiwiley

com101111j1541-0072200400057x

Glasgow KimberlyFink Clayton (2013)

From push brooms to prayer books

Social media and social networks during

the London riots iConference 155ndash169

Online httpswwwidealsillinoisedu

handle214238382 (April 28 2014)

Kallus Nathan (2014) Predicting crowd

behavior with big public data Proceedshy

ings of the companion publication of the

23rd international conference on WWW

Companion rsquo14 625ndash630 Online http

dxdoiorg10114525679482579233

(April 28 2014)

Kraft ThomasWand Derek et al (2013)

Less After-the-Fact Investigative visshy

ual analysis of events from streaming

twitter IEEE Symposium on Large-

Scale Data Analysis and Visualization

(LDAV) 95ndash103 Online httpieeex

ploreieeeorglpdocsepic03wrapper

htmarnumber=6675163

Morstatter FredPfeffer Juumlrgen et al

(2013) Is the Sample Good Enough

Comparing Data from Twitterrsquos Streamshy

ing API and Twitterrsquos Firehose Proceedshy

ings of ICWSM Online httparxivorg

abs13065204

Neubauer GeorgHuber Hermann et al

(2014) Detecting events in Egypt based

on geo-referenced tweets Interdisciplinshy

ary Information and Management Talks

Poděbrady Noulas AnastasiosScellato Salvatore et

al (2011) An Empirical Study of Geoshy

graphic User Activity Patterns in Fourshy

square Proceedings of the Fifth Internashy

tional AAAI Conference on Weblogs and

Social Media 570ndash573 Online http

wwwaaaiorgocsindexphpICWSM

ICWSM11paperviewFile28313241

(April 28 2014)

Schaust SvenWalther MaximilianKaisser

Michael (2013) Avalanche Prepare

Manage and Understand Crisis Situashy

tions Using Social Media Analytics in

Comes TinaFriedrich Frank et al (Eds)

Proceedings of the 10th International

ISCRAM Conference Baden-Baden

852ndash857

Weber IngmarGarimella Kiran et al

(2014) Using Geolocated Twitter Data

to Study Recent Patterns of International

and Internal Migration in OECD Counshy

tries European Population Conference

2014 Budapest 1ndash9 Online http

epc2014princetoneduabstracts140809

Zagheni EmilioGarimella Venkata

Weber et al (2014) Inferring intershy

national and internal migration patterns

from Twitter data WWW rsquo14 Companion

1ndash6 Online httpdlacmorgcitation

cfmid=2576930 (April 28 2014)

85

Page 6: Wissensrohstoff Daten. Soziale Netzwerke als Indikator für ... · Vogl, Armin et al. (2015). Wissensrohstoff Daten. Soziale Netzwerke als Indikator für Lageentwicklungen im Migrationsbereich,

-

22015 SIAK JOURNAL

tionsgewinnung Gezielte Aufbereitung der Daten fuumlhrt zu der Entstehung von neuer Information welche durch weitere Verarshybeitungsprozesse in vielen Faumlllen zu Wisshysen verdichtet werden kann Durch Ergaumlnshyzung eines Kontexts wird aus den Zeichen und Ziffern der untersten Ebene zunaumlchst also Information So werden etwa aus der Zahl bdquo17ldquo durch Hinzufuumlgen des Kontextes bdquoTemperaturmesswertldquo beispielsweise bdquo17deg Celsiusldquo Ein zeitlicher und geografischer Kontext kann in die Wissensstufe fuumlhren in welcher die Information dann ihre Anshywendung findet (Beispiel 17deg C im Jaumlnner in Wien sind uumlblicherweise viel zu warm) Interessant ist der Vergleich zwischen der obersten und der untersten Ebene der Pyshyramide Wissen als historisch aumlltestes Eleshyment ist schwer zu beschreiben und in Doshykumenten zumeist implizit verpackt Daten hingegen als wesentlich juumlngeres Konzept koumlnnen leicht notiert werden und haben einen eher mathematisch expliziten Chashyrakter Waumlhrend der Schritt von Daten zu Informationen bereits mit relativ einfachen Mitteln zu bewerkstelligen ist gestaltet sich die Schaffung der naumlchsten Ebene etshywas schwieriger In vielen Faumlllen ist dieser Schritt auf automatischem Weg uumlberhaupt nicht mehr durchfuumlhrbar und muss durch menschliche Akteure getaumltigt werden

Quelle nach Ackoff 1989

Wissen

implizit

explizit

Information

Daten

In der Industrie wurde Datenanalyse bzw Data Mining vor allem durch groszlige Warenhausketten bekannt Sie haben damit begonnen Einkaumlufe ihrer Kunden groszligshyflaumlchig nach Gemeinsamkeiten zu untersushychen Signifikante Korrelationen zwischen einzelnen Produktgruppen wurden dann als Grundlage fuumlr neue Angebote oder alternatives Shopdesign herangezogen In den eher isolierten Datenspeichern der Warenhausketten ist die Datenqualitaumlt tenshydenziell hoch Artikelnummern Zeit und Ort des Kaufes sind bekannt und koumlnnen abgerufen werden Das Datenformat kann in diesen Faumlllen vom Unternehmen selbst bestimmt werden Im Gegensatz dazu ist die Qualitaumlt von Daten aus frei zugaumlngshylichen Quellen und insbesondere sozialen Medien kaum bis gar nicht beeinflussbar Datenerfassung und Aufbereitung sind auf Grund von unkontrollierbarer Inhomogeshynitaumlt und Dynamik eine groszlige Herausforshyderung Auf technischer Ebene gilt es also zunaumlchst Werkzeuge zur Hand zu haben welche die Extraktion und Aufbereitung von Daten garantieren koumlnnen Wenn dieser Schritt bewaumlltigt wurde kann die geschafshyfene Datengrundlage genutzt werden um in der Wissenspyramide aufwaumlrts zu steigen

32 Werkzeuge Um die Inhomogenitaumlt und Dynamik von Rohdaten besser kontrollieren zu koumlnnen hat das AIT die Plattform Ubicity erstellt Ubicity ist in der Lage Daten parallel aus unterschiedlichen Internetquellen entgeshygenzunehmen sie aufzubereiten und fuumlr die spaumltere Analyse geordnet abzuspeishychern Die hoch performante Architektur ermoumlglicht die Aufnahme von mehr als 80000 Nachrichten pro Sekunde Je nach Einsatzzweck werden entgegengenom-

Abb 1 Vereinfachte Darstellung der

mene Daten abhaumlngig von ihrem Zustand durch flexibel schaltbare Aufbereitungsshymodule geschleust um sie schlieszliglich fuumlr

Wissenspyramide1 die eigentliche Analyse abzulegen

81

-SIAK JOURNAL

22015

Fuumlr einen initialen Test hat das Sysshytem von Oktober 2013 bis Maumlrz 2014 (mit kurzen Unterbrechungen) mehr als 400 Mio Tweets uumlber die frei zugaumlngshyliche Twitter-Schnittstelle aufgenommen Insgesamt konnten Daten uumlber 98 Tage hinweg ohne Unterbrechung entgegengeshynommen werden Das entspricht nahezu allen Tweets die uumlber Geraumlte wie Smartshyphones oder Tablets mit GPS-Positionsshydaten abgegeben wurden Etwa eine Mio Tweets wurden innerhalb der aumlgyptischen Landesgrenze abgesetzt und dienten als Ausgangsmaterial fuumlr die gegenstaumlndige Untersuchung Zunaumlchst wurden die Twitshyterhaumlufigkeit und insbesondere das -vershyhalten der Benutzerinnen und Benutzer etwas genauer untersucht Tageszeit- oder wochentagabhaumlngige Schwankungen koumlnshynen regional unterschiedlich ausfallen und muumlssen in die Analyse miteinbezogen werden In einem weiteren Schritt wurden etwaige Schwankungen zwischen urbanen und ruralen Gebieten am Beispiel der Staumldshyte Alexandria und Kairo im Vergleich zum gesamten Staatsgebiet verglichen Vershybreitungsgrad sowie Unterschiede in der technischen Infrastruktur koumlnnten die Zushyverlaumlssigkeit der Daten deutlich beeinflusshysen Um eine Korrelation zwischen Stadt und Land feststellen zu koumlnnen wurden schlieszliglich migrationsrelevante Ereignisse mit der Twitter-Haumlufigkeitskurve uumlberlashygert und der Pearson Korrelationskoeffizishyent berechnet

Quelle Neubauer et al 2014

Abb 2 Haumlufigkeitsklassen TweetsTag2

25

20

15

10

5

0

6001

ndash700

070

01ndash8

000

8001

ndash900

090

01ndash1

0000

1000

1ndash11

000

1100

1ndash12

000

1200

1ndash13

000

1300

1ndash14

000

1400

1ndash15

000

1500

1ndash16

000

gt160

00

33 Ergebnisse Im Histogramm von Abbildung 2 werden die 98 verfuumlgbaren Tage verschiedenen Haumlufigkeitsklassen zugeordnet Die Zushyordnung erfolgt auf Basis der Anzahl von abgesetzten Tweets pro Tag Die Tage der Klasse bdquo7001ndash8000 TweetsTagldquo streuen uumlber den gesamten Untersuchungszeitshyraum von Oktober bis Maumlrz Daraus laumlsst sich ein Trend fuumlr einen durchschnittlichen Erwartungswert ableiten Im Schnitt wurshyden pro Tag also etwa 7000ndash8000 GPS-kodierte Tweets in Aumlgypten abgegeben Im Gegensatz dazu sind die Tage in den Klassen um 13000 TweetsTag deutlich kompakter um den Jahreswechsel angeshysammelt Die deutlich erhoumlhte Kommushynikation in diesem kurzen Zeitraum im Vergleich zu den uumlbrigen Tagen und den zu erwartenden Durchschnittswert ist ein interessanter Aspekt der als Grundlage fuumlr weitere Analysen herangezogen wershyden kann Fuumlr Details zur Vorgehensweise siehe auch Neubauer Huber und Jager (Neubauer et al 2014)

Im naumlchsten Schritt wurde untersucht inwieweit sich das Twitterverhalten in Stadt und Land unterscheidet eine wichshytige Kenngroumlszlige fuumlr Migrationsanalysen Als Referenz wurden die zwei groumlszligten Staumldte Aumlgyptens herangezogen Kairo und Alexandria stellen zusammen 143 der 85-Millionen-Bevoumllkerung Aumlgyptens Mit Hilfe der geo-basierten Abfrage in Ubicity wurden die Stadtgrenzen uumlber Satellitenshybilder angenaumlhert Die Tweets der Staumldte und jene des gesamten Landes wurden anshyschlieszligend jeweils anhand des zugehoumlrigen Medians normalisiert Dadurch ist eine Uumlberlagerung der Kurven (Polynomialshyfunktion fuumlnfter Ordnung) und somit ein relativer Vergleich moumlglich Im Dishyagramm in Abbildung 3 (siehe Seite 83) ist ein aumlhnlicher Kurvenverlauf der Uumlbershylagerung bereits deutlich erkennbar Die

82

-

SIAK JOURNAL 22015

Quelle Neubauer et al 2014

Korrelationskoeffizienten bestaumltigen die-Egypt Normalized Cairo Normalized Alexandria Normalized Poly (Egypt Normalized) Poly (Cairo Normalized) Poly (Alexandria Normalized)

Tweets in Egypt

Num

ber

of T

wee

ts

Timeline

Abb 3 Anzahl der geo-codierten Tweets im gesamten aumlgyptischen Landesgebiet sowie in Kairo und Alexandria

sen Trend (Aumlgypten-Kairo 097 Aumlgypten-Alexandria 093 Kairo-Alexandria 089)

In Tabelle 1 werden die wichtigsten stashytistischen Angaben zum Twitterverhalten in den gemessenen Gebieten dargestellt

Quelle Neubauer et al 2014

TweetsTag Aumlgypten Kairo Alexandria

Durchschnitt 98419 15695 12365 Median 89635 16960 11340 Maximum 168370 24990 20480 01 Quantil 67131 9820 7796 025 Quantil 72040 11110 9108 075 Quantil 125513 19930 16133 09 Quantil 139712 21214 18081

sozialen Medien sehr nahe Schnee auf den Pyramiden gab es zuletzt vor uumlber

Tab 1 Statistische Angaben zum Vergleich der Tweethaumlufigkeit in den jeweils untersuchten Gebieten

Anhand der Trendanalyse ist ein Anstieg der Tweethaumlufigkeit ab Ende November 2013 zu erkennen welche bis Anfang Jaumlnner 2014 wieder abflacht Auf Grund von Wartungsarbeiten liegen leider keine durchgaumlngigen Aufzeichnungen vor Der Trend zeigt jedoch einen deutlichen Ruumlckshygang und erneute Stabilisierung nach dem Jahreswechsel Der deutliche Anstieg ist houmlchstwahrscheinlich durch mehrere Ershyeignisse zu erklaumlren Zunaumlchst wurde in diesem Zeitraum die Muslimbruderschaft von der Regierung Aumlgyptens als terrorisshytische Organisation eingestuft was zu ershyheblichem Aufruhr in der Bevoumllkerung fuumlhrte Die zweite Komponente steht in keiner Verbindung zu politischen Vorshykommnissen und wurde daher erst anshyhand der Analyse einzelner Tage entdeckt welche mit nahezu 17000 Tweets weit uumlber dem Durchschnitt lagen Am 13 Deshyzember 2013 wurde der Nahe Osten und insbesondere Aumlgypten mit heftigem Schneeshyfall konfrontiert Dieses seltene meteoroshylogische Ereignis legt einen Zusammenshyhang mit erhoumlhter Kommunikation in den

100 Jahren Diese ersten Untersuchungen geben schon deutliche Hinweise auf einen Zusammenhang zwischen erhoumlhtem Komshymunikationsverhalten und bestimmten Vorkommnissen wie dem mehrwoumlchigen politischen Umbruch sowie dem auszligershygewoumlhnlichen Schneefall

4 ConClusio Fuumlr genauere Aussagen muss in zukuumlnfshytigen Untersuchungen die Stabilitaumlt des Twitter-Datenumfangs uumlber der Zeit untershysucht werden Morstatter ua (Morstatter et al 2013) haben eine Schwankung von Top-Hashtags zwischen der oumlffentlichen Twitter-Schnittstelle und der Grundgeshysamtheit festgestellt Ob und wie Twitter eine Gewichtung bei der Datenlieferung vornimmt ist derzeit im Detail nicht beshykannt Seitens des Unternehmens werden diesbezuumlglich keine naumlheren Angaben geshymacht Fuumlr eine feinere Aufloumlsung ndash raumlumshylich und zeitlich ndash muss diese Variable noch naumlher untersucht werden Ungeachtet dessen ist es ndash wie beschrieben ndash trotzdem moumlglich Veraumlnderungen und Tendenzen bereits unter gegebenen Voraussetzungen abzuleiten Fuumlr den Migrationsbereich ist die automatisierte Erkennung von Ershyeignissen uumlber soziale Medien eine vielshy

83

-SIAK JOURNAL

22015

versprechende Moumlglichkeit Gerade die komplexen und weltweiten Auswirkungen von Ereignissen in diesem Sektor sind oft schwer durchschaubar Es bedarf hoher Aufmerksamkeit und Sensibilitaumlt releshyvante Vorkommnisse mit potenziellen Folshygen fuumlr globale Migrationsstroumlme wahrzushynehmen Wir haben gezeigt dass soziale Medien als Indikator zur Erkennung von potenziell relevanten Ereignissen gut geshyeignet sind Die detaillierte Analyse obshyliegt aber nach wie vor Domaumlnenexpershyten die individuell uumlber die tatsaumlchliche Bedeutung entscheiden muumlssen Die geshygenstaumlndliche Technologie kann in erster Instanz als zusaumltzliches Instrument zur Erhoumlhung der Reichweite und Verkuumlrzung der Reaktionszeit eingesetzt werden

Die hochdynamischen Inhalte und die sich staumlndig weiterentwickelnde Themenshylandschaft innerhalb sozialer Medien ershyzeugen einerseits eine erhoumlhte Komplexitaumlt bei der Informationsgenerierung Anderershyseits ist genau diese Dynamik ein wesentshyliches Unterscheidungsmerkmal gegenshyuumlber allen anderen Informationskanaumllen Sichtbar wird sie in unterschiedlichen Dimensionen Stimmungsbilder bzw die in den Texten transportierten Emotionen sind fuumlr die Migration ein besonders wichshytiger Aspekt Kaum ein anderes Medium ermoumlglicht eine solch unmittelbare Ableishytung von Stimmungsbildern wie die soziashylen Medien Insbesondere die Dynamik in Hinblick auf zeitliche und geografische

Veraumlnderung von Emotionen bieten vielshyversprechende Moumlglichkeiten zur Weitershyentwicklung und erlauben nuumltzliche Einshysichten in Migrationsprozesse Uumlberdies ist auch die Erkennung und Ausbreitung von Themen ein interessanter Aspekt ndash auch uumlber die Migrationsdomaumlne hinaus In Verbindung mit den bereits durchgeshyfuumlhrten quantitativen Analysen koumlnnten durch Einbeziehen der Nachrichteninhalte domaumlnenspezifische Ereignisse praumlziser und zeitnaher erkannt werden Sowohl die Granularitaumlt der Daten als auch die Komplexitaumlt des Analyseprozesses haumlngen stark vom Ziel des Vorhabens ab Erste Einsichten koumlnnen wie demonstriert beshyreits mit grundlegenden Methoden abgeshyleitet werden Von essentieller Bedeutung fuumlr die Lagebilderstellung ist jedoch die Betreuung des gesamten Analyseprozesses durch Domaumlnenexperten Es ist davon auszugehen dass die Ergebnisse nahezu immer durch fachkundiges Personal mit entsprechendem Hintergrundwissen intershypretiert werden muumlssen Erst durch diese Interpretation koumlnnen die gewonnenen Einsichten in den Wissensprozess der Organisation eingebettet werden Demshygegenuumlber stehen die technische Umsetshyzung und das damit verbundene Knowshyhow in den Bereichen IT Datenanalyse und Prozesskonzeption Die ausgewogene Kombination dieser beiden Aspekte ermoumlglicht durchgaumlngige sinnvolle und praxisbezogene Anwendungen

84

-

22015 SIAK JOURNAL

1 Houmlhere Ebenen bauen jeweils auf der

darunterliegenden Ebene auf Waumlhrend

Daten explizit fuumlr sich stehen ist Wissen

implizit in einer Ansammlung von Daten

(zB Buchstaben Woumlrter Texte) vershy

packt 2 Die Klassen im Histogramm geben die

Menge an abgesetzten Geo-Tweets in

Aumlgypten an Die Houmlhe der Balken kennshy

zeichnet die Anzahl der Tage die in die

jeweilige Kategorie fallen

Quellenangaben

Ackoff Russel L (1989) From data to

wisdom Journal Of Applied Systems

Analysis (1) 3ndash9

Beaumont Claudine (2009) New York

plane crash Twitter breaks the news

again The Telegraph Online http

wwwtelegraphcouktechnologytwitter

4269765New-York-plane-crash-Twittershy

breaks-the-news-againhtml (April 30

2014)

De Beer JoopRaymer James et al

(2010) Overcoming the Problems of

Inconsistent International Migration

data A New Method Applied to Flows in

Europe European journal of populashy

tion = Revue europeenne de demographie

26 (4) 459ndash481 Online httpwwwpub

medcentralnihgovarticlerenderfcgiar

tid=2967706amptool=pmcentrezamprenderty

pe=abstract (April 28 2014)

Chae JunghoonThom Dennis et al

(2014) Public behavior response anashy

lysis in disaster events utilizing visual

analytics of microblog data Computers

amp Graphics (38) 51ndash60 Online http

linkinghubelseviercomretrievepii

S0097849313001490 (April 2 2014)

Collett Elizabeth (2013) Facing 2020

developing a new European agenda for

immigration and asylum policy mpi Mishy

gration Policy Institute Europe (1) 1ndash8

Ferrari LauraRosi Alberto et al

(2011) Extracting urban patterns from

location-based social networks Proceedshy

ings of the 3rd ACM SIGSPATIAL Intershy

national Workshop on Location-Based

Social Networks ndash LBSN rsquo11 New York

1 Online httpdlacmorgcitation

cfmdoid=20632122063226

Givens TerriLuedtke Adam (2004) The

Politics of European Union Immigration

Policy Institutions Salience and Harshy

monization Policy Studies Journal 32

(1)145ndash165 Online httpdoiwiley

com101111j1541-0072200400057x

Glasgow KimberlyFink Clayton (2013)

From push brooms to prayer books

Social media and social networks during

the London riots iConference 155ndash169

Online httpswwwidealsillinoisedu

handle214238382 (April 28 2014)

Kallus Nathan (2014) Predicting crowd

behavior with big public data Proceedshy

ings of the companion publication of the

23rd international conference on WWW

Companion rsquo14 625ndash630 Online http

dxdoiorg10114525679482579233

(April 28 2014)

Kraft ThomasWand Derek et al (2013)

Less After-the-Fact Investigative visshy

ual analysis of events from streaming

twitter IEEE Symposium on Large-

Scale Data Analysis and Visualization

(LDAV) 95ndash103 Online httpieeex

ploreieeeorglpdocsepic03wrapper

htmarnumber=6675163

Morstatter FredPfeffer Juumlrgen et al

(2013) Is the Sample Good Enough

Comparing Data from Twitterrsquos Streamshy

ing API and Twitterrsquos Firehose Proceedshy

ings of ICWSM Online httparxivorg

abs13065204

Neubauer GeorgHuber Hermann et al

(2014) Detecting events in Egypt based

on geo-referenced tweets Interdisciplinshy

ary Information and Management Talks

Poděbrady Noulas AnastasiosScellato Salvatore et

al (2011) An Empirical Study of Geoshy

graphic User Activity Patterns in Fourshy

square Proceedings of the Fifth Internashy

tional AAAI Conference on Weblogs and

Social Media 570ndash573 Online http

wwwaaaiorgocsindexphpICWSM

ICWSM11paperviewFile28313241

(April 28 2014)

Schaust SvenWalther MaximilianKaisser

Michael (2013) Avalanche Prepare

Manage and Understand Crisis Situashy

tions Using Social Media Analytics in

Comes TinaFriedrich Frank et al (Eds)

Proceedings of the 10th International

ISCRAM Conference Baden-Baden

852ndash857

Weber IngmarGarimella Kiran et al

(2014) Using Geolocated Twitter Data

to Study Recent Patterns of International

and Internal Migration in OECD Counshy

tries European Population Conference

2014 Budapest 1ndash9 Online http

epc2014princetoneduabstracts140809

Zagheni EmilioGarimella Venkata

Weber et al (2014) Inferring intershy

national and internal migration patterns

from Twitter data WWW rsquo14 Companion

1ndash6 Online httpdlacmorgcitation

cfmid=2576930 (April 28 2014)

85

Page 7: Wissensrohstoff Daten. Soziale Netzwerke als Indikator für ... · Vogl, Armin et al. (2015). Wissensrohstoff Daten. Soziale Netzwerke als Indikator für Lageentwicklungen im Migrationsbereich,

-SIAK JOURNAL

22015

Fuumlr einen initialen Test hat das Sysshytem von Oktober 2013 bis Maumlrz 2014 (mit kurzen Unterbrechungen) mehr als 400 Mio Tweets uumlber die frei zugaumlngshyliche Twitter-Schnittstelle aufgenommen Insgesamt konnten Daten uumlber 98 Tage hinweg ohne Unterbrechung entgegengeshynommen werden Das entspricht nahezu allen Tweets die uumlber Geraumlte wie Smartshyphones oder Tablets mit GPS-Positionsshydaten abgegeben wurden Etwa eine Mio Tweets wurden innerhalb der aumlgyptischen Landesgrenze abgesetzt und dienten als Ausgangsmaterial fuumlr die gegenstaumlndige Untersuchung Zunaumlchst wurden die Twitshyterhaumlufigkeit und insbesondere das -vershyhalten der Benutzerinnen und Benutzer etwas genauer untersucht Tageszeit- oder wochentagabhaumlngige Schwankungen koumlnshynen regional unterschiedlich ausfallen und muumlssen in die Analyse miteinbezogen werden In einem weiteren Schritt wurden etwaige Schwankungen zwischen urbanen und ruralen Gebieten am Beispiel der Staumldshyte Alexandria und Kairo im Vergleich zum gesamten Staatsgebiet verglichen Vershybreitungsgrad sowie Unterschiede in der technischen Infrastruktur koumlnnten die Zushyverlaumlssigkeit der Daten deutlich beeinflusshysen Um eine Korrelation zwischen Stadt und Land feststellen zu koumlnnen wurden schlieszliglich migrationsrelevante Ereignisse mit der Twitter-Haumlufigkeitskurve uumlberlashygert und der Pearson Korrelationskoeffizishyent berechnet

Quelle Neubauer et al 2014

Abb 2 Haumlufigkeitsklassen TweetsTag2

25

20

15

10

5

0

6001

ndash700

070

01ndash8

000

8001

ndash900

090

01ndash1

0000

1000

1ndash11

000

1100

1ndash12

000

1200

1ndash13

000

1300

1ndash14

000

1400

1ndash15

000

1500

1ndash16

000

gt160

00

33 Ergebnisse Im Histogramm von Abbildung 2 werden die 98 verfuumlgbaren Tage verschiedenen Haumlufigkeitsklassen zugeordnet Die Zushyordnung erfolgt auf Basis der Anzahl von abgesetzten Tweets pro Tag Die Tage der Klasse bdquo7001ndash8000 TweetsTagldquo streuen uumlber den gesamten Untersuchungszeitshyraum von Oktober bis Maumlrz Daraus laumlsst sich ein Trend fuumlr einen durchschnittlichen Erwartungswert ableiten Im Schnitt wurshyden pro Tag also etwa 7000ndash8000 GPS-kodierte Tweets in Aumlgypten abgegeben Im Gegensatz dazu sind die Tage in den Klassen um 13000 TweetsTag deutlich kompakter um den Jahreswechsel angeshysammelt Die deutlich erhoumlhte Kommushynikation in diesem kurzen Zeitraum im Vergleich zu den uumlbrigen Tagen und den zu erwartenden Durchschnittswert ist ein interessanter Aspekt der als Grundlage fuumlr weitere Analysen herangezogen wershyden kann Fuumlr Details zur Vorgehensweise siehe auch Neubauer Huber und Jager (Neubauer et al 2014)

Im naumlchsten Schritt wurde untersucht inwieweit sich das Twitterverhalten in Stadt und Land unterscheidet eine wichshytige Kenngroumlszlige fuumlr Migrationsanalysen Als Referenz wurden die zwei groumlszligten Staumldte Aumlgyptens herangezogen Kairo und Alexandria stellen zusammen 143 der 85-Millionen-Bevoumllkerung Aumlgyptens Mit Hilfe der geo-basierten Abfrage in Ubicity wurden die Stadtgrenzen uumlber Satellitenshybilder angenaumlhert Die Tweets der Staumldte und jene des gesamten Landes wurden anshyschlieszligend jeweils anhand des zugehoumlrigen Medians normalisiert Dadurch ist eine Uumlberlagerung der Kurven (Polynomialshyfunktion fuumlnfter Ordnung) und somit ein relativer Vergleich moumlglich Im Dishyagramm in Abbildung 3 (siehe Seite 83) ist ein aumlhnlicher Kurvenverlauf der Uumlbershylagerung bereits deutlich erkennbar Die

82

-

SIAK JOURNAL 22015

Quelle Neubauer et al 2014

Korrelationskoeffizienten bestaumltigen die-Egypt Normalized Cairo Normalized Alexandria Normalized Poly (Egypt Normalized) Poly (Cairo Normalized) Poly (Alexandria Normalized)

Tweets in Egypt

Num

ber

of T

wee

ts

Timeline

Abb 3 Anzahl der geo-codierten Tweets im gesamten aumlgyptischen Landesgebiet sowie in Kairo und Alexandria

sen Trend (Aumlgypten-Kairo 097 Aumlgypten-Alexandria 093 Kairo-Alexandria 089)

In Tabelle 1 werden die wichtigsten stashytistischen Angaben zum Twitterverhalten in den gemessenen Gebieten dargestellt

Quelle Neubauer et al 2014

TweetsTag Aumlgypten Kairo Alexandria

Durchschnitt 98419 15695 12365 Median 89635 16960 11340 Maximum 168370 24990 20480 01 Quantil 67131 9820 7796 025 Quantil 72040 11110 9108 075 Quantil 125513 19930 16133 09 Quantil 139712 21214 18081

sozialen Medien sehr nahe Schnee auf den Pyramiden gab es zuletzt vor uumlber

Tab 1 Statistische Angaben zum Vergleich der Tweethaumlufigkeit in den jeweils untersuchten Gebieten

Anhand der Trendanalyse ist ein Anstieg der Tweethaumlufigkeit ab Ende November 2013 zu erkennen welche bis Anfang Jaumlnner 2014 wieder abflacht Auf Grund von Wartungsarbeiten liegen leider keine durchgaumlngigen Aufzeichnungen vor Der Trend zeigt jedoch einen deutlichen Ruumlckshygang und erneute Stabilisierung nach dem Jahreswechsel Der deutliche Anstieg ist houmlchstwahrscheinlich durch mehrere Ershyeignisse zu erklaumlren Zunaumlchst wurde in diesem Zeitraum die Muslimbruderschaft von der Regierung Aumlgyptens als terrorisshytische Organisation eingestuft was zu ershyheblichem Aufruhr in der Bevoumllkerung fuumlhrte Die zweite Komponente steht in keiner Verbindung zu politischen Vorshykommnissen und wurde daher erst anshyhand der Analyse einzelner Tage entdeckt welche mit nahezu 17000 Tweets weit uumlber dem Durchschnitt lagen Am 13 Deshyzember 2013 wurde der Nahe Osten und insbesondere Aumlgypten mit heftigem Schneeshyfall konfrontiert Dieses seltene meteoroshylogische Ereignis legt einen Zusammenshyhang mit erhoumlhter Kommunikation in den

100 Jahren Diese ersten Untersuchungen geben schon deutliche Hinweise auf einen Zusammenhang zwischen erhoumlhtem Komshymunikationsverhalten und bestimmten Vorkommnissen wie dem mehrwoumlchigen politischen Umbruch sowie dem auszligershygewoumlhnlichen Schneefall

4 ConClusio Fuumlr genauere Aussagen muss in zukuumlnfshytigen Untersuchungen die Stabilitaumlt des Twitter-Datenumfangs uumlber der Zeit untershysucht werden Morstatter ua (Morstatter et al 2013) haben eine Schwankung von Top-Hashtags zwischen der oumlffentlichen Twitter-Schnittstelle und der Grundgeshysamtheit festgestellt Ob und wie Twitter eine Gewichtung bei der Datenlieferung vornimmt ist derzeit im Detail nicht beshykannt Seitens des Unternehmens werden diesbezuumlglich keine naumlheren Angaben geshymacht Fuumlr eine feinere Aufloumlsung ndash raumlumshylich und zeitlich ndash muss diese Variable noch naumlher untersucht werden Ungeachtet dessen ist es ndash wie beschrieben ndash trotzdem moumlglich Veraumlnderungen und Tendenzen bereits unter gegebenen Voraussetzungen abzuleiten Fuumlr den Migrationsbereich ist die automatisierte Erkennung von Ershyeignissen uumlber soziale Medien eine vielshy

83

-SIAK JOURNAL

22015

versprechende Moumlglichkeit Gerade die komplexen und weltweiten Auswirkungen von Ereignissen in diesem Sektor sind oft schwer durchschaubar Es bedarf hoher Aufmerksamkeit und Sensibilitaumlt releshyvante Vorkommnisse mit potenziellen Folshygen fuumlr globale Migrationsstroumlme wahrzushynehmen Wir haben gezeigt dass soziale Medien als Indikator zur Erkennung von potenziell relevanten Ereignissen gut geshyeignet sind Die detaillierte Analyse obshyliegt aber nach wie vor Domaumlnenexpershyten die individuell uumlber die tatsaumlchliche Bedeutung entscheiden muumlssen Die geshygenstaumlndliche Technologie kann in erster Instanz als zusaumltzliches Instrument zur Erhoumlhung der Reichweite und Verkuumlrzung der Reaktionszeit eingesetzt werden

Die hochdynamischen Inhalte und die sich staumlndig weiterentwickelnde Themenshylandschaft innerhalb sozialer Medien ershyzeugen einerseits eine erhoumlhte Komplexitaumlt bei der Informationsgenerierung Anderershyseits ist genau diese Dynamik ein wesentshyliches Unterscheidungsmerkmal gegenshyuumlber allen anderen Informationskanaumllen Sichtbar wird sie in unterschiedlichen Dimensionen Stimmungsbilder bzw die in den Texten transportierten Emotionen sind fuumlr die Migration ein besonders wichshytiger Aspekt Kaum ein anderes Medium ermoumlglicht eine solch unmittelbare Ableishytung von Stimmungsbildern wie die soziashylen Medien Insbesondere die Dynamik in Hinblick auf zeitliche und geografische

Veraumlnderung von Emotionen bieten vielshyversprechende Moumlglichkeiten zur Weitershyentwicklung und erlauben nuumltzliche Einshysichten in Migrationsprozesse Uumlberdies ist auch die Erkennung und Ausbreitung von Themen ein interessanter Aspekt ndash auch uumlber die Migrationsdomaumlne hinaus In Verbindung mit den bereits durchgeshyfuumlhrten quantitativen Analysen koumlnnten durch Einbeziehen der Nachrichteninhalte domaumlnenspezifische Ereignisse praumlziser und zeitnaher erkannt werden Sowohl die Granularitaumlt der Daten als auch die Komplexitaumlt des Analyseprozesses haumlngen stark vom Ziel des Vorhabens ab Erste Einsichten koumlnnen wie demonstriert beshyreits mit grundlegenden Methoden abgeshyleitet werden Von essentieller Bedeutung fuumlr die Lagebilderstellung ist jedoch die Betreuung des gesamten Analyseprozesses durch Domaumlnenexperten Es ist davon auszugehen dass die Ergebnisse nahezu immer durch fachkundiges Personal mit entsprechendem Hintergrundwissen intershypretiert werden muumlssen Erst durch diese Interpretation koumlnnen die gewonnenen Einsichten in den Wissensprozess der Organisation eingebettet werden Demshygegenuumlber stehen die technische Umsetshyzung und das damit verbundene Knowshyhow in den Bereichen IT Datenanalyse und Prozesskonzeption Die ausgewogene Kombination dieser beiden Aspekte ermoumlglicht durchgaumlngige sinnvolle und praxisbezogene Anwendungen

84

-

22015 SIAK JOURNAL

1 Houmlhere Ebenen bauen jeweils auf der

darunterliegenden Ebene auf Waumlhrend

Daten explizit fuumlr sich stehen ist Wissen

implizit in einer Ansammlung von Daten

(zB Buchstaben Woumlrter Texte) vershy

packt 2 Die Klassen im Histogramm geben die

Menge an abgesetzten Geo-Tweets in

Aumlgypten an Die Houmlhe der Balken kennshy

zeichnet die Anzahl der Tage die in die

jeweilige Kategorie fallen

Quellenangaben

Ackoff Russel L (1989) From data to

wisdom Journal Of Applied Systems

Analysis (1) 3ndash9

Beaumont Claudine (2009) New York

plane crash Twitter breaks the news

again The Telegraph Online http

wwwtelegraphcouktechnologytwitter

4269765New-York-plane-crash-Twittershy

breaks-the-news-againhtml (April 30

2014)

De Beer JoopRaymer James et al

(2010) Overcoming the Problems of

Inconsistent International Migration

data A New Method Applied to Flows in

Europe European journal of populashy

tion = Revue europeenne de demographie

26 (4) 459ndash481 Online httpwwwpub

medcentralnihgovarticlerenderfcgiar

tid=2967706amptool=pmcentrezamprenderty

pe=abstract (April 28 2014)

Chae JunghoonThom Dennis et al

(2014) Public behavior response anashy

lysis in disaster events utilizing visual

analytics of microblog data Computers

amp Graphics (38) 51ndash60 Online http

linkinghubelseviercomretrievepii

S0097849313001490 (April 2 2014)

Collett Elizabeth (2013) Facing 2020

developing a new European agenda for

immigration and asylum policy mpi Mishy

gration Policy Institute Europe (1) 1ndash8

Ferrari LauraRosi Alberto et al

(2011) Extracting urban patterns from

location-based social networks Proceedshy

ings of the 3rd ACM SIGSPATIAL Intershy

national Workshop on Location-Based

Social Networks ndash LBSN rsquo11 New York

1 Online httpdlacmorgcitation

cfmdoid=20632122063226

Givens TerriLuedtke Adam (2004) The

Politics of European Union Immigration

Policy Institutions Salience and Harshy

monization Policy Studies Journal 32

(1)145ndash165 Online httpdoiwiley

com101111j1541-0072200400057x

Glasgow KimberlyFink Clayton (2013)

From push brooms to prayer books

Social media and social networks during

the London riots iConference 155ndash169

Online httpswwwidealsillinoisedu

handle214238382 (April 28 2014)

Kallus Nathan (2014) Predicting crowd

behavior with big public data Proceedshy

ings of the companion publication of the

23rd international conference on WWW

Companion rsquo14 625ndash630 Online http

dxdoiorg10114525679482579233

(April 28 2014)

Kraft ThomasWand Derek et al (2013)

Less After-the-Fact Investigative visshy

ual analysis of events from streaming

twitter IEEE Symposium on Large-

Scale Data Analysis and Visualization

(LDAV) 95ndash103 Online httpieeex

ploreieeeorglpdocsepic03wrapper

htmarnumber=6675163

Morstatter FredPfeffer Juumlrgen et al

(2013) Is the Sample Good Enough

Comparing Data from Twitterrsquos Streamshy

ing API and Twitterrsquos Firehose Proceedshy

ings of ICWSM Online httparxivorg

abs13065204

Neubauer GeorgHuber Hermann et al

(2014) Detecting events in Egypt based

on geo-referenced tweets Interdisciplinshy

ary Information and Management Talks

Poděbrady Noulas AnastasiosScellato Salvatore et

al (2011) An Empirical Study of Geoshy

graphic User Activity Patterns in Fourshy

square Proceedings of the Fifth Internashy

tional AAAI Conference on Weblogs and

Social Media 570ndash573 Online http

wwwaaaiorgocsindexphpICWSM

ICWSM11paperviewFile28313241

(April 28 2014)

Schaust SvenWalther MaximilianKaisser

Michael (2013) Avalanche Prepare

Manage and Understand Crisis Situashy

tions Using Social Media Analytics in

Comes TinaFriedrich Frank et al (Eds)

Proceedings of the 10th International

ISCRAM Conference Baden-Baden

852ndash857

Weber IngmarGarimella Kiran et al

(2014) Using Geolocated Twitter Data

to Study Recent Patterns of International

and Internal Migration in OECD Counshy

tries European Population Conference

2014 Budapest 1ndash9 Online http

epc2014princetoneduabstracts140809

Zagheni EmilioGarimella Venkata

Weber et al (2014) Inferring intershy

national and internal migration patterns

from Twitter data WWW rsquo14 Companion

1ndash6 Online httpdlacmorgcitation

cfmid=2576930 (April 28 2014)

85

Page 8: Wissensrohstoff Daten. Soziale Netzwerke als Indikator für ... · Vogl, Armin et al. (2015). Wissensrohstoff Daten. Soziale Netzwerke als Indikator für Lageentwicklungen im Migrationsbereich,

-

SIAK JOURNAL 22015

Quelle Neubauer et al 2014

Korrelationskoeffizienten bestaumltigen die-Egypt Normalized Cairo Normalized Alexandria Normalized Poly (Egypt Normalized) Poly (Cairo Normalized) Poly (Alexandria Normalized)

Tweets in Egypt

Num

ber

of T

wee

ts

Timeline

Abb 3 Anzahl der geo-codierten Tweets im gesamten aumlgyptischen Landesgebiet sowie in Kairo und Alexandria

sen Trend (Aumlgypten-Kairo 097 Aumlgypten-Alexandria 093 Kairo-Alexandria 089)

In Tabelle 1 werden die wichtigsten stashytistischen Angaben zum Twitterverhalten in den gemessenen Gebieten dargestellt

Quelle Neubauer et al 2014

TweetsTag Aumlgypten Kairo Alexandria

Durchschnitt 98419 15695 12365 Median 89635 16960 11340 Maximum 168370 24990 20480 01 Quantil 67131 9820 7796 025 Quantil 72040 11110 9108 075 Quantil 125513 19930 16133 09 Quantil 139712 21214 18081

sozialen Medien sehr nahe Schnee auf den Pyramiden gab es zuletzt vor uumlber

Tab 1 Statistische Angaben zum Vergleich der Tweethaumlufigkeit in den jeweils untersuchten Gebieten

Anhand der Trendanalyse ist ein Anstieg der Tweethaumlufigkeit ab Ende November 2013 zu erkennen welche bis Anfang Jaumlnner 2014 wieder abflacht Auf Grund von Wartungsarbeiten liegen leider keine durchgaumlngigen Aufzeichnungen vor Der Trend zeigt jedoch einen deutlichen Ruumlckshygang und erneute Stabilisierung nach dem Jahreswechsel Der deutliche Anstieg ist houmlchstwahrscheinlich durch mehrere Ershyeignisse zu erklaumlren Zunaumlchst wurde in diesem Zeitraum die Muslimbruderschaft von der Regierung Aumlgyptens als terrorisshytische Organisation eingestuft was zu ershyheblichem Aufruhr in der Bevoumllkerung fuumlhrte Die zweite Komponente steht in keiner Verbindung zu politischen Vorshykommnissen und wurde daher erst anshyhand der Analyse einzelner Tage entdeckt welche mit nahezu 17000 Tweets weit uumlber dem Durchschnitt lagen Am 13 Deshyzember 2013 wurde der Nahe Osten und insbesondere Aumlgypten mit heftigem Schneeshyfall konfrontiert Dieses seltene meteoroshylogische Ereignis legt einen Zusammenshyhang mit erhoumlhter Kommunikation in den

100 Jahren Diese ersten Untersuchungen geben schon deutliche Hinweise auf einen Zusammenhang zwischen erhoumlhtem Komshymunikationsverhalten und bestimmten Vorkommnissen wie dem mehrwoumlchigen politischen Umbruch sowie dem auszligershygewoumlhnlichen Schneefall

4 ConClusio Fuumlr genauere Aussagen muss in zukuumlnfshytigen Untersuchungen die Stabilitaumlt des Twitter-Datenumfangs uumlber der Zeit untershysucht werden Morstatter ua (Morstatter et al 2013) haben eine Schwankung von Top-Hashtags zwischen der oumlffentlichen Twitter-Schnittstelle und der Grundgeshysamtheit festgestellt Ob und wie Twitter eine Gewichtung bei der Datenlieferung vornimmt ist derzeit im Detail nicht beshykannt Seitens des Unternehmens werden diesbezuumlglich keine naumlheren Angaben geshymacht Fuumlr eine feinere Aufloumlsung ndash raumlumshylich und zeitlich ndash muss diese Variable noch naumlher untersucht werden Ungeachtet dessen ist es ndash wie beschrieben ndash trotzdem moumlglich Veraumlnderungen und Tendenzen bereits unter gegebenen Voraussetzungen abzuleiten Fuumlr den Migrationsbereich ist die automatisierte Erkennung von Ershyeignissen uumlber soziale Medien eine vielshy

83

-SIAK JOURNAL

22015

versprechende Moumlglichkeit Gerade die komplexen und weltweiten Auswirkungen von Ereignissen in diesem Sektor sind oft schwer durchschaubar Es bedarf hoher Aufmerksamkeit und Sensibilitaumlt releshyvante Vorkommnisse mit potenziellen Folshygen fuumlr globale Migrationsstroumlme wahrzushynehmen Wir haben gezeigt dass soziale Medien als Indikator zur Erkennung von potenziell relevanten Ereignissen gut geshyeignet sind Die detaillierte Analyse obshyliegt aber nach wie vor Domaumlnenexpershyten die individuell uumlber die tatsaumlchliche Bedeutung entscheiden muumlssen Die geshygenstaumlndliche Technologie kann in erster Instanz als zusaumltzliches Instrument zur Erhoumlhung der Reichweite und Verkuumlrzung der Reaktionszeit eingesetzt werden

Die hochdynamischen Inhalte und die sich staumlndig weiterentwickelnde Themenshylandschaft innerhalb sozialer Medien ershyzeugen einerseits eine erhoumlhte Komplexitaumlt bei der Informationsgenerierung Anderershyseits ist genau diese Dynamik ein wesentshyliches Unterscheidungsmerkmal gegenshyuumlber allen anderen Informationskanaumllen Sichtbar wird sie in unterschiedlichen Dimensionen Stimmungsbilder bzw die in den Texten transportierten Emotionen sind fuumlr die Migration ein besonders wichshytiger Aspekt Kaum ein anderes Medium ermoumlglicht eine solch unmittelbare Ableishytung von Stimmungsbildern wie die soziashylen Medien Insbesondere die Dynamik in Hinblick auf zeitliche und geografische

Veraumlnderung von Emotionen bieten vielshyversprechende Moumlglichkeiten zur Weitershyentwicklung und erlauben nuumltzliche Einshysichten in Migrationsprozesse Uumlberdies ist auch die Erkennung und Ausbreitung von Themen ein interessanter Aspekt ndash auch uumlber die Migrationsdomaumlne hinaus In Verbindung mit den bereits durchgeshyfuumlhrten quantitativen Analysen koumlnnten durch Einbeziehen der Nachrichteninhalte domaumlnenspezifische Ereignisse praumlziser und zeitnaher erkannt werden Sowohl die Granularitaumlt der Daten als auch die Komplexitaumlt des Analyseprozesses haumlngen stark vom Ziel des Vorhabens ab Erste Einsichten koumlnnen wie demonstriert beshyreits mit grundlegenden Methoden abgeshyleitet werden Von essentieller Bedeutung fuumlr die Lagebilderstellung ist jedoch die Betreuung des gesamten Analyseprozesses durch Domaumlnenexperten Es ist davon auszugehen dass die Ergebnisse nahezu immer durch fachkundiges Personal mit entsprechendem Hintergrundwissen intershypretiert werden muumlssen Erst durch diese Interpretation koumlnnen die gewonnenen Einsichten in den Wissensprozess der Organisation eingebettet werden Demshygegenuumlber stehen die technische Umsetshyzung und das damit verbundene Knowshyhow in den Bereichen IT Datenanalyse und Prozesskonzeption Die ausgewogene Kombination dieser beiden Aspekte ermoumlglicht durchgaumlngige sinnvolle und praxisbezogene Anwendungen

84

-

22015 SIAK JOURNAL

1 Houmlhere Ebenen bauen jeweils auf der

darunterliegenden Ebene auf Waumlhrend

Daten explizit fuumlr sich stehen ist Wissen

implizit in einer Ansammlung von Daten

(zB Buchstaben Woumlrter Texte) vershy

packt 2 Die Klassen im Histogramm geben die

Menge an abgesetzten Geo-Tweets in

Aumlgypten an Die Houmlhe der Balken kennshy

zeichnet die Anzahl der Tage die in die

jeweilige Kategorie fallen

Quellenangaben

Ackoff Russel L (1989) From data to

wisdom Journal Of Applied Systems

Analysis (1) 3ndash9

Beaumont Claudine (2009) New York

plane crash Twitter breaks the news

again The Telegraph Online http

wwwtelegraphcouktechnologytwitter

4269765New-York-plane-crash-Twittershy

breaks-the-news-againhtml (April 30

2014)

De Beer JoopRaymer James et al

(2010) Overcoming the Problems of

Inconsistent International Migration

data A New Method Applied to Flows in

Europe European journal of populashy

tion = Revue europeenne de demographie

26 (4) 459ndash481 Online httpwwwpub

medcentralnihgovarticlerenderfcgiar

tid=2967706amptool=pmcentrezamprenderty

pe=abstract (April 28 2014)

Chae JunghoonThom Dennis et al

(2014) Public behavior response anashy

lysis in disaster events utilizing visual

analytics of microblog data Computers

amp Graphics (38) 51ndash60 Online http

linkinghubelseviercomretrievepii

S0097849313001490 (April 2 2014)

Collett Elizabeth (2013) Facing 2020

developing a new European agenda for

immigration and asylum policy mpi Mishy

gration Policy Institute Europe (1) 1ndash8

Ferrari LauraRosi Alberto et al

(2011) Extracting urban patterns from

location-based social networks Proceedshy

ings of the 3rd ACM SIGSPATIAL Intershy

national Workshop on Location-Based

Social Networks ndash LBSN rsquo11 New York

1 Online httpdlacmorgcitation

cfmdoid=20632122063226

Givens TerriLuedtke Adam (2004) The

Politics of European Union Immigration

Policy Institutions Salience and Harshy

monization Policy Studies Journal 32

(1)145ndash165 Online httpdoiwiley

com101111j1541-0072200400057x

Glasgow KimberlyFink Clayton (2013)

From push brooms to prayer books

Social media and social networks during

the London riots iConference 155ndash169

Online httpswwwidealsillinoisedu

handle214238382 (April 28 2014)

Kallus Nathan (2014) Predicting crowd

behavior with big public data Proceedshy

ings of the companion publication of the

23rd international conference on WWW

Companion rsquo14 625ndash630 Online http

dxdoiorg10114525679482579233

(April 28 2014)

Kraft ThomasWand Derek et al (2013)

Less After-the-Fact Investigative visshy

ual analysis of events from streaming

twitter IEEE Symposium on Large-

Scale Data Analysis and Visualization

(LDAV) 95ndash103 Online httpieeex

ploreieeeorglpdocsepic03wrapper

htmarnumber=6675163

Morstatter FredPfeffer Juumlrgen et al

(2013) Is the Sample Good Enough

Comparing Data from Twitterrsquos Streamshy

ing API and Twitterrsquos Firehose Proceedshy

ings of ICWSM Online httparxivorg

abs13065204

Neubauer GeorgHuber Hermann et al

(2014) Detecting events in Egypt based

on geo-referenced tweets Interdisciplinshy

ary Information and Management Talks

Poděbrady Noulas AnastasiosScellato Salvatore et

al (2011) An Empirical Study of Geoshy

graphic User Activity Patterns in Fourshy

square Proceedings of the Fifth Internashy

tional AAAI Conference on Weblogs and

Social Media 570ndash573 Online http

wwwaaaiorgocsindexphpICWSM

ICWSM11paperviewFile28313241

(April 28 2014)

Schaust SvenWalther MaximilianKaisser

Michael (2013) Avalanche Prepare

Manage and Understand Crisis Situashy

tions Using Social Media Analytics in

Comes TinaFriedrich Frank et al (Eds)

Proceedings of the 10th International

ISCRAM Conference Baden-Baden

852ndash857

Weber IngmarGarimella Kiran et al

(2014) Using Geolocated Twitter Data

to Study Recent Patterns of International

and Internal Migration in OECD Counshy

tries European Population Conference

2014 Budapest 1ndash9 Online http

epc2014princetoneduabstracts140809

Zagheni EmilioGarimella Venkata

Weber et al (2014) Inferring intershy

national and internal migration patterns

from Twitter data WWW rsquo14 Companion

1ndash6 Online httpdlacmorgcitation

cfmid=2576930 (April 28 2014)

85

Page 9: Wissensrohstoff Daten. Soziale Netzwerke als Indikator für ... · Vogl, Armin et al. (2015). Wissensrohstoff Daten. Soziale Netzwerke als Indikator für Lageentwicklungen im Migrationsbereich,

-SIAK JOURNAL

22015

versprechende Moumlglichkeit Gerade die komplexen und weltweiten Auswirkungen von Ereignissen in diesem Sektor sind oft schwer durchschaubar Es bedarf hoher Aufmerksamkeit und Sensibilitaumlt releshyvante Vorkommnisse mit potenziellen Folshygen fuumlr globale Migrationsstroumlme wahrzushynehmen Wir haben gezeigt dass soziale Medien als Indikator zur Erkennung von potenziell relevanten Ereignissen gut geshyeignet sind Die detaillierte Analyse obshyliegt aber nach wie vor Domaumlnenexpershyten die individuell uumlber die tatsaumlchliche Bedeutung entscheiden muumlssen Die geshygenstaumlndliche Technologie kann in erster Instanz als zusaumltzliches Instrument zur Erhoumlhung der Reichweite und Verkuumlrzung der Reaktionszeit eingesetzt werden

Die hochdynamischen Inhalte und die sich staumlndig weiterentwickelnde Themenshylandschaft innerhalb sozialer Medien ershyzeugen einerseits eine erhoumlhte Komplexitaumlt bei der Informationsgenerierung Anderershyseits ist genau diese Dynamik ein wesentshyliches Unterscheidungsmerkmal gegenshyuumlber allen anderen Informationskanaumllen Sichtbar wird sie in unterschiedlichen Dimensionen Stimmungsbilder bzw die in den Texten transportierten Emotionen sind fuumlr die Migration ein besonders wichshytiger Aspekt Kaum ein anderes Medium ermoumlglicht eine solch unmittelbare Ableishytung von Stimmungsbildern wie die soziashylen Medien Insbesondere die Dynamik in Hinblick auf zeitliche und geografische

Veraumlnderung von Emotionen bieten vielshyversprechende Moumlglichkeiten zur Weitershyentwicklung und erlauben nuumltzliche Einshysichten in Migrationsprozesse Uumlberdies ist auch die Erkennung und Ausbreitung von Themen ein interessanter Aspekt ndash auch uumlber die Migrationsdomaumlne hinaus In Verbindung mit den bereits durchgeshyfuumlhrten quantitativen Analysen koumlnnten durch Einbeziehen der Nachrichteninhalte domaumlnenspezifische Ereignisse praumlziser und zeitnaher erkannt werden Sowohl die Granularitaumlt der Daten als auch die Komplexitaumlt des Analyseprozesses haumlngen stark vom Ziel des Vorhabens ab Erste Einsichten koumlnnen wie demonstriert beshyreits mit grundlegenden Methoden abgeshyleitet werden Von essentieller Bedeutung fuumlr die Lagebilderstellung ist jedoch die Betreuung des gesamten Analyseprozesses durch Domaumlnenexperten Es ist davon auszugehen dass die Ergebnisse nahezu immer durch fachkundiges Personal mit entsprechendem Hintergrundwissen intershypretiert werden muumlssen Erst durch diese Interpretation koumlnnen die gewonnenen Einsichten in den Wissensprozess der Organisation eingebettet werden Demshygegenuumlber stehen die technische Umsetshyzung und das damit verbundene Knowshyhow in den Bereichen IT Datenanalyse und Prozesskonzeption Die ausgewogene Kombination dieser beiden Aspekte ermoumlglicht durchgaumlngige sinnvolle und praxisbezogene Anwendungen

84

-

22015 SIAK JOURNAL

1 Houmlhere Ebenen bauen jeweils auf der

darunterliegenden Ebene auf Waumlhrend

Daten explizit fuumlr sich stehen ist Wissen

implizit in einer Ansammlung von Daten

(zB Buchstaben Woumlrter Texte) vershy

packt 2 Die Klassen im Histogramm geben die

Menge an abgesetzten Geo-Tweets in

Aumlgypten an Die Houmlhe der Balken kennshy

zeichnet die Anzahl der Tage die in die

jeweilige Kategorie fallen

Quellenangaben

Ackoff Russel L (1989) From data to

wisdom Journal Of Applied Systems

Analysis (1) 3ndash9

Beaumont Claudine (2009) New York

plane crash Twitter breaks the news

again The Telegraph Online http

wwwtelegraphcouktechnologytwitter

4269765New-York-plane-crash-Twittershy

breaks-the-news-againhtml (April 30

2014)

De Beer JoopRaymer James et al

(2010) Overcoming the Problems of

Inconsistent International Migration

data A New Method Applied to Flows in

Europe European journal of populashy

tion = Revue europeenne de demographie

26 (4) 459ndash481 Online httpwwwpub

medcentralnihgovarticlerenderfcgiar

tid=2967706amptool=pmcentrezamprenderty

pe=abstract (April 28 2014)

Chae JunghoonThom Dennis et al

(2014) Public behavior response anashy

lysis in disaster events utilizing visual

analytics of microblog data Computers

amp Graphics (38) 51ndash60 Online http

linkinghubelseviercomretrievepii

S0097849313001490 (April 2 2014)

Collett Elizabeth (2013) Facing 2020

developing a new European agenda for

immigration and asylum policy mpi Mishy

gration Policy Institute Europe (1) 1ndash8

Ferrari LauraRosi Alberto et al

(2011) Extracting urban patterns from

location-based social networks Proceedshy

ings of the 3rd ACM SIGSPATIAL Intershy

national Workshop on Location-Based

Social Networks ndash LBSN rsquo11 New York

1 Online httpdlacmorgcitation

cfmdoid=20632122063226

Givens TerriLuedtke Adam (2004) The

Politics of European Union Immigration

Policy Institutions Salience and Harshy

monization Policy Studies Journal 32

(1)145ndash165 Online httpdoiwiley

com101111j1541-0072200400057x

Glasgow KimberlyFink Clayton (2013)

From push brooms to prayer books

Social media and social networks during

the London riots iConference 155ndash169

Online httpswwwidealsillinoisedu

handle214238382 (April 28 2014)

Kallus Nathan (2014) Predicting crowd

behavior with big public data Proceedshy

ings of the companion publication of the

23rd international conference on WWW

Companion rsquo14 625ndash630 Online http

dxdoiorg10114525679482579233

(April 28 2014)

Kraft ThomasWand Derek et al (2013)

Less After-the-Fact Investigative visshy

ual analysis of events from streaming

twitter IEEE Symposium on Large-

Scale Data Analysis and Visualization

(LDAV) 95ndash103 Online httpieeex

ploreieeeorglpdocsepic03wrapper

htmarnumber=6675163

Morstatter FredPfeffer Juumlrgen et al

(2013) Is the Sample Good Enough

Comparing Data from Twitterrsquos Streamshy

ing API and Twitterrsquos Firehose Proceedshy

ings of ICWSM Online httparxivorg

abs13065204

Neubauer GeorgHuber Hermann et al

(2014) Detecting events in Egypt based

on geo-referenced tweets Interdisciplinshy

ary Information and Management Talks

Poděbrady Noulas AnastasiosScellato Salvatore et

al (2011) An Empirical Study of Geoshy

graphic User Activity Patterns in Fourshy

square Proceedings of the Fifth Internashy

tional AAAI Conference on Weblogs and

Social Media 570ndash573 Online http

wwwaaaiorgocsindexphpICWSM

ICWSM11paperviewFile28313241

(April 28 2014)

Schaust SvenWalther MaximilianKaisser

Michael (2013) Avalanche Prepare

Manage and Understand Crisis Situashy

tions Using Social Media Analytics in

Comes TinaFriedrich Frank et al (Eds)

Proceedings of the 10th International

ISCRAM Conference Baden-Baden

852ndash857

Weber IngmarGarimella Kiran et al

(2014) Using Geolocated Twitter Data

to Study Recent Patterns of International

and Internal Migration in OECD Counshy

tries European Population Conference

2014 Budapest 1ndash9 Online http

epc2014princetoneduabstracts140809

Zagheni EmilioGarimella Venkata

Weber et al (2014) Inferring intershy

national and internal migration patterns

from Twitter data WWW rsquo14 Companion

1ndash6 Online httpdlacmorgcitation

cfmid=2576930 (April 28 2014)

85

Page 10: Wissensrohstoff Daten. Soziale Netzwerke als Indikator für ... · Vogl, Armin et al. (2015). Wissensrohstoff Daten. Soziale Netzwerke als Indikator für Lageentwicklungen im Migrationsbereich,

-

22015 SIAK JOURNAL

1 Houmlhere Ebenen bauen jeweils auf der

darunterliegenden Ebene auf Waumlhrend

Daten explizit fuumlr sich stehen ist Wissen

implizit in einer Ansammlung von Daten

(zB Buchstaben Woumlrter Texte) vershy

packt 2 Die Klassen im Histogramm geben die

Menge an abgesetzten Geo-Tweets in

Aumlgypten an Die Houmlhe der Balken kennshy

zeichnet die Anzahl der Tage die in die

jeweilige Kategorie fallen

Quellenangaben

Ackoff Russel L (1989) From data to

wisdom Journal Of Applied Systems

Analysis (1) 3ndash9

Beaumont Claudine (2009) New York

plane crash Twitter breaks the news

again The Telegraph Online http

wwwtelegraphcouktechnologytwitter

4269765New-York-plane-crash-Twittershy

breaks-the-news-againhtml (April 30

2014)

De Beer JoopRaymer James et al

(2010) Overcoming the Problems of

Inconsistent International Migration

data A New Method Applied to Flows in

Europe European journal of populashy

tion = Revue europeenne de demographie

26 (4) 459ndash481 Online httpwwwpub

medcentralnihgovarticlerenderfcgiar

tid=2967706amptool=pmcentrezamprenderty

pe=abstract (April 28 2014)

Chae JunghoonThom Dennis et al

(2014) Public behavior response anashy

lysis in disaster events utilizing visual

analytics of microblog data Computers

amp Graphics (38) 51ndash60 Online http

linkinghubelseviercomretrievepii

S0097849313001490 (April 2 2014)

Collett Elizabeth (2013) Facing 2020

developing a new European agenda for

immigration and asylum policy mpi Mishy

gration Policy Institute Europe (1) 1ndash8

Ferrari LauraRosi Alberto et al

(2011) Extracting urban patterns from

location-based social networks Proceedshy

ings of the 3rd ACM SIGSPATIAL Intershy

national Workshop on Location-Based

Social Networks ndash LBSN rsquo11 New York

1 Online httpdlacmorgcitation

cfmdoid=20632122063226

Givens TerriLuedtke Adam (2004) The

Politics of European Union Immigration

Policy Institutions Salience and Harshy

monization Policy Studies Journal 32

(1)145ndash165 Online httpdoiwiley

com101111j1541-0072200400057x

Glasgow KimberlyFink Clayton (2013)

From push brooms to prayer books

Social media and social networks during

the London riots iConference 155ndash169

Online httpswwwidealsillinoisedu

handle214238382 (April 28 2014)

Kallus Nathan (2014) Predicting crowd

behavior with big public data Proceedshy

ings of the companion publication of the

23rd international conference on WWW

Companion rsquo14 625ndash630 Online http

dxdoiorg10114525679482579233

(April 28 2014)

Kraft ThomasWand Derek et al (2013)

Less After-the-Fact Investigative visshy

ual analysis of events from streaming

twitter IEEE Symposium on Large-

Scale Data Analysis and Visualization

(LDAV) 95ndash103 Online httpieeex

ploreieeeorglpdocsepic03wrapper

htmarnumber=6675163

Morstatter FredPfeffer Juumlrgen et al

(2013) Is the Sample Good Enough

Comparing Data from Twitterrsquos Streamshy

ing API and Twitterrsquos Firehose Proceedshy

ings of ICWSM Online httparxivorg

abs13065204

Neubauer GeorgHuber Hermann et al

(2014) Detecting events in Egypt based

on geo-referenced tweets Interdisciplinshy

ary Information and Management Talks

Poděbrady Noulas AnastasiosScellato Salvatore et

al (2011) An Empirical Study of Geoshy

graphic User Activity Patterns in Fourshy

square Proceedings of the Fifth Internashy

tional AAAI Conference on Weblogs and

Social Media 570ndash573 Online http

wwwaaaiorgocsindexphpICWSM

ICWSM11paperviewFile28313241

(April 28 2014)

Schaust SvenWalther MaximilianKaisser

Michael (2013) Avalanche Prepare

Manage and Understand Crisis Situashy

tions Using Social Media Analytics in

Comes TinaFriedrich Frank et al (Eds)

Proceedings of the 10th International

ISCRAM Conference Baden-Baden

852ndash857

Weber IngmarGarimella Kiran et al

(2014) Using Geolocated Twitter Data

to Study Recent Patterns of International

and Internal Migration in OECD Counshy

tries European Population Conference

2014 Budapest 1ndash9 Online http

epc2014princetoneduabstracts140809

Zagheni EmilioGarimella Venkata

Weber et al (2014) Inferring intershy

national and internal migration patterns

from Twitter data WWW rsquo14 Companion

1ndash6 Online httpdlacmorgcitation

cfmid=2576930 (April 28 2014)

85