Big Data – Das Potential großer Datenmengen für die Wirtschaft ?· Big Data – Das Potential großer…

  • View
    217

  • Download
    0

Embed Size (px)

Transcript

Big Data Das Potential groer Datenmengen fr die Wirtschaft

Univ.-Prof. Dr. Claudia PlantForschungsgruppe Data MiningFakultt fr Informatik

Data Science @ Uni Vienna

Big Data Das Potential groer Datenmengen fr die Wirtschaft

Was ist Big Data?

Variety

Velocity

Volume

VeracityIn vielen Anwendungen haben wir mindestens eines dieser Probleme.Oft alle gemeinsam!

60 75% der Daten, die in Unternehmen gesammelt werden, werden nie analysiert.(Forrester [1])

Big Data Das Potential groer Datenmengen fr die Wirtschaft

Volume, e.g. the Internet of Things (IoT)

Eine Vielfalt von Dingen, die ber Sensoren Daten gewinnen und ber das Internet Datenaustauschen.

Image source:http://tinyurl.com/prtfqxf

Seit 2008: mehr Dinge als Menschen im Internet

Prognose fr 2020: 200 Billionen vs. 7.3. Billionen (according to Cisco, Intel) [2,3]

Smartphones, Tablets, Khlschrnke, Sensoren in Tieren, z.B. Rinder [4].

Big Data Das Potential groer Datenmengen fr die Wirtschaft

Velocity, z.B. Smartphone Sensor Data

Sensoren in einem iPhone 8

Accelerometermisst Beschleunigung,Etwa 400 Werte proSekunde

GPS Update der Position 1 Mal pro Sekunde

GyroskopMisst die Orientierung, Auch ca. 400 Werte/s.

Magnetometer (Kompass)Ca. 100 Werte/s

Barometer

Proximitts-Sensor

Lichtmessungs-Sensor

Bild: iFixit

Big Data Das Potential groer Datenmengen fr die Wirtschaft

Variety, z.B. in medizinischen Daten

Brain imaging10 GB

clinical data< 1 GB

Whole Genome Sequencing180 GB

VerschiedeneDatentypen vontausenden von Patientenund Gesunden.

Big Data Das Potential groer Datenmengen fr die Wirtschaft

Veracity, z.B. Teilchenphysik

Teilchen werden mitSehr viel EnergieBeschleunigt und kollidieren.

Dabei entstehen seltenunbekannte neue Elementarteilchen, z.B. Higgs Boson (2012)

Erweiterung der Theorienber die Materie

Auf jeden Fall entstehensehr viel Daten!

ca. 1 Petabyte/s [5]

Big Data Das Potential groer Datenmengen fr die Wirtschaft

Veracity: Viel Rauschen in den Daten des LHC

Aufgabe: Rekonstruktion der Flugbahn zur Identifizierung von Elementarteilchen

Big Data Das Potential groer Datenmengen fr die Wirtschaft

Big Data Wir brauchen Data Mining!

Was genau ist das Ziel von Data Mining?

identifying valid, novel, potentially useful, and ultimately understandable patterns in data.

[Fayyad, Piatetsky-Shapiro & Smyth 1996]

Wie knnen wir Daten verstehen?

Big Data Das Potential groer Datenmengen fr die Wirtschaft

Outline

Teil 1: Data Mining durch Entropiereduktion Teil 2: Anwendung: Gehirnnetzwerke Teil 3: Anwendung: Mobilittserkennung

Zusammenfassung und Kontaktmglichkeiten

DATA MINING DURCH ENTROPIEREDUKTIONTeil 1

Order is a necessary condition for anything the human mind is to understand.

Rudolf Arnheim, Entropy and Art 1971, artwork by John Schier, http://john-art.com

Big Data Das Potential groer Datenmengen fr die Wirtschaft

Entropie ist ein Ma fr Struktur

geringe Entropieregelmiges Musterleicht zu verstehen

groe Entropiezufllig, chaotisch

unmglich zu verstehen

Big Data Das Potential groer Datenmengen fr die Wirtschaft

Mathematische Definition von Entropie

=

2()

Summe ber allemglichen Ausprgungen

Logarithmusder Wahrscheinlichkeit

Wahrscheinlichkeitder Ausprgung

2 Ausprgungen1 Bit

8 Ausprgungen3 Bit

1 000 000 Ausprgungen~20 Bit

Big Data Das Potential groer Datenmengen fr die Wirtschaft

Die Entropiefunktion

=

2()

Bei 2 Ausprgungen

Maximum bei 50%/50% Wahrscheinlichkeit

Big Data Das Potential groer Datenmengen fr die Wirtschaft

Diskrete Daten mit 2 Ausprgungen: Soziale Netzwerke

Twitter Netzwerk [7]

Knoten: Personen, Kanten: Freundschaft

High-school Freudschaftsnetzwerk [6]

Big Data Das Potential groer Datenmengen fr die Wirtschaft

Struktur in Netzwerken

Es gibt hufig eine Gruppenstuktur,d.h. eine Aufteilung in verschiedene Communities (Cluster genannt)

Hift beim Visualisieren und Verstehen vonGroen Netzwerken

Wie knnen wir diese Struktur finden?

Big Data Das Potential groer Datenmengen fr die Wirtschaft

Netzwerkstrukturierte Daten

1 2 3 4 51 ja ja ja2 ja ja3 ja4 ja ja5 2

13 4

5

Darstellung als Tabelle Darstellung als Graph

Zeilen/Spalten: Sportvereine Zellen: gegeneinander gespielt?

Knoten: Sportvereine Kanten: gegeneinander gespielt

5 Vereine, 4 Spiele, ok

Big Data Das Potential groer Datenmengen fr die Wirtschaft

Netzwerkstrukturierte Daten

115 Vereine, 613 Spiele

Darstellung als Tabelle

Zeilen/Spalten: Sportvereine Zellen: gegeneinander gespielt?

Darstellung als Graph

Knoten: Sportvereine Kanten: gegeneinander gespielt

Big Data Das Potential groer Datenmengen fr die Wirtschaft

Netzwerkstrukturierte Daten

Darstellung als Tabelle Darstellung als Graph

Sehr unbersichtlich, unverstndlich. Groe Entropie!

Big Data Das Potential groer Datenmengen fr die Wirtschaft

Entropie der Tabelle (Adjazenzmatrix)

=

2()

Wenn wir nichts ber die Daten wissen:Kante ja/nein gleichwahrscheinlich Entropie: 1 Bit Insgesamt: 6 440 Bits

Aber wir wissen bereits:Es gibt 613 SpieleP(Spiel) = 613/6440 = 0.0952, P(kein Spiel) = 1 613/6440 = 0.9048 Entropie: 0.1923 Bits Insgesamt: 1 238 Bits

Das ist einfache Statistik. Etwa jedes 10. aller prinzipiell

mglichen Spiele findet statt. Mit diesem Wissen reduzieren wir

bereits die Entropie!

Big Data Das Potential groer Datenmengen fr die Wirtschaft

Entropie der Tabelle (Adjazenzmatrix)

=

2()

Wenn wir nichts ber die Daten wissen:Kante ja/nein gleichwahrscheinlich Entropie: 1 Bit Insgesamt: 6 440 Bits

Aber wir wissen bereits:Es gibt 613 SpieleP(Spiel) = 613/6440 = 0.0952, P(kein Spiel) = 1 613/6440 = 0.9048 Entropie: 0.1923 Bits Insgesamt: 1 238 Bits

Das ist einfache Statistik. Etwa jedes 10. aller prinzipiell

mglichen Spiele findet statt. Mit diesem Wissen reduzieren wir

bereits die Entropie!

Geht noch mehr?

Big Data Das Potential groer Datenmengen fr die Wirtschaft

Entropie- Reduktion in Netzwerken

Durch Clustering, d.h. Umsortieren der Tabelle

Salt-and-Pepper

???

Regelmiges Muster

Es gibt Gruppen von Teams, Die hufig gegeneinander spielen!

Big Data Das Potential groer Datenmengen fr die Wirtschaft

Entropiereduktion durch Clustering

H(A|P) =27+14+15+28+30 = 114 Bit

H(P) = 56 Bit

Sortierung nach ClusternUrsprngliche Anordnung

H(A) = 218 Bit

Ohne Wissen ber Cluster:Berechne die Entropie der gesamten Tabelle.

Mit Clustering:Berechne die Entropie pro Cluster.

Big Data Das Potential groer Datenmengen fr die Wirtschaft

Wir knnen herausfinden wie viele Cluster es gibt!

218 Bits 27+14+15+28+30 = 114 Bit(+56 Bits fr Clustering)

27+14+3+15+10+68 = 137 Bit(+63 Bits fr Clustering)

218 Bit 200 Bit170 Bit

Underfitting Beste Balance Overfitting

Qualittskriterium: Datenkompression, d.h. Entropie plus Modellkosten

Big Data Das Potential groer Datenmengen fr die Wirtschaft

Entropie- Reduktion in Netzwerken

Zum besseren Verstndis der Tabelle

Salt-and-Pepper

???

Regelmiges Muster

Hier gibt es 10 Cluster, also Gruppen vonVereinen die hufig gegeneinander spielen

Big Data Das Potential groer Datenmengen fr die Wirtschaft

Entropie- Reduktion in Netzwerken

Zum Zeichnen des Netzwerks

Hier gibt es 10 Cluster, also Gruppen vonVereinen die hufig gegeneinander spielen

Big Data Das Potential groer Datenmengen fr die Wirtschaft

Anwendung: Finden von Zielgruppen fr Marketing

advertiser

quer

y

Bi-partiter graph mit 2 Arten von Knoten: Wrter in Suchanfragen von Benutzern Werbeunternehmen

Kanten: Unternehmen mchte Ad schaltenBei Suche nach Keyword

Teilgraph von Yahoos sponsored search [8]

hnlich: GoogleAdWords

GEHIRNNETZWERKE VERSTEHENTeil 2

C. Plant, A. Zherdin, C. Sorg, A. Meyer-Bse, A. M. Wohlschlger: Mining Interaction Patterns among Brain Regions by Clustering. IEEE Trans. Knowl. Data Eng. 26(9): 2237-2249 (2014)

Neurowissenschaftliche Bildgebung

Functional Magnetic ResonanceImaging (fMRI):Zeitreihe von 3-d Bildern des menschlichen Gehirns

Ziel: Interaktionsmuster zwischen Gehirnregionen verstehen.

x

t

Kooperation mit Klinikum Rechts der Isar, Mnchen, Deutschland

Big Data Das Potential groer Datenmengen fr die Wirtschaft

Zeitaufgelste gewichtete Netzwerke

Aufteilung in90 anatomischeRegionen.

fMRI Daten:Zeitreihen von3d Volumenbildern

x

t

Fr jede Person ein zeitaufgelstesNetzwerk mit 90 Knoten.Kanten: Ko-aktivierung zum Zeitpunkt t

t

d

Big Data Das Potential groer Datenmengen fr die Wirtschaft

Clustering von Zeitaufgelsten Netzwerken

Big Data Das Potential groer Datenmengen fr die Wirtschaft

durch Finden von Interaktionsmustern

orange = blue + 3* green

orange = blue - green

Big Data Das Potential groe