50
Big Data – Das Potential großer Datenmengen für die Wirtschaft Univ.-Prof. Dr. Claudia Plant Forschungsgruppe Data Mining Fakultät für Informatik Data Science @ Uni Vienna

Big Data – Das Potential großer Datenmengen für die Wirtschaft · Big Data – Das Potential großer Datenmengen für die Wirtschaft Univ.-Prof. Dr. Claudia Plant Forschungsgruppe

Embed Size (px)

Citation preview

Big Data –Das Potential großer Datenmengen für die Wirtschaft

Univ.-Prof. Dr. Claudia PlantForschungsgruppe Data MiningFakultät für Informatik

Data Science @ Uni Vienna

Big Data – Das Potential großer Datenmengen für die Wirtschaft

Was ist Big Data?

Variety

Velocity

Volume

VeracityIn vielen Anwendungen haben wir mindestens eines dieser Probleme.Oft alle gemeinsam!

60 – 75% der Daten, die in Unternehmen gesammelt werden, werden nie analysiert.(Forrester [1])

Big Data – Das Potential großer Datenmengen für die Wirtschaft

Volume, e.g. the Internet of Things (IoT)

Eine Vielfalt von Dingen, die über Sensoren Daten gewinnen und über das Internet Datenaustauschen.

Image source:http://tinyurl.com/prtfqxf

• Seit 2008: mehr Dinge als Menschen im Internet

• Prognose für 2020: 200 Billionen vs. 7.3. Billionen (according to Cisco, Intel) [2,3]

Smartphones, Tablets, Kühlschränke, Sensoren in Tieren, z.B. Rinder [4].

Big Data – Das Potential großer Datenmengen für die Wirtschaft

Velocity, z.B. Smartphone Sensor Data

Sensoren in einem iPhone 8

Accelerometermisst Beschleunigung,Etwa 400 Werte proSekunde

GPS Update der Position 1 Mal pro Sekunde

GyroskopMisst die Orientierung, Auch ca. 400 Werte/s.

Magnetometer (Kompass)Ca. 100 Werte/s

Barometer

Proximitäts-Sensor

Lichtmessungs-Sensor

Bild: iFixit

Big Data – Das Potential großer Datenmengen für die Wirtschaft

Variety, z.B. in medizinischen Daten

Brain imaging10 GB

clinical data< 1 GB

Whole Genome Sequencing180 GB

VerschiedeneDatentypen vontausenden von Patientenund Gesunden.

Big Data – Das Potential großer Datenmengen für die Wirtschaft

Veracity, z.B. Teilchenphysik

Teilchen werden mitSehr viel EnergieBeschleunigt und kollidieren.

Dabei entstehen seltenunbekannte neue Elementarteilchen, z.B. Higgs Boson (2012)

Erweiterung der Theorienüber die Materie

Auf jeden Fall entstehensehr viel Daten!

ca. 1 Petabyte/s [5]

Big Data – Das Potential großer Datenmengen für die Wirtschaft

Veracity: Viel Rauschen in den Daten des LHC

Aufgabe: Rekonstruktion der Flugbahn zur Identifizierung von Elementarteilchen

Big Data – Das Potential großer Datenmengen für die Wirtschaft

Big Data – Wir brauchen Data Mining!

Was genau ist das Ziel von Data Mining?

identifying valid, novel, potentially useful, and ultimately understandable patterns in data.

[Fayyad, Piatetsky-Shapiro & Smyth 1996]

Wie können wir Daten verstehen?

Big Data – Das Potential großer Datenmengen für die Wirtschaft

Outline

• Teil 1: Data Mining durch Entropiereduktion• Teil 2: Anwendung: Gehirnnetzwerke• Teil 3: Anwendung: Mobilitätserkennung

Zusammenfassung und Kontaktmöglichkeiten

DATA MINING DURCH ENTROPIEREDUKTIONTeil 1

Order is a necessary condition for anything the human mind is to understand.

Rudolf Arnheim, Entropy and Art 1971, artwork by John Schier, http://john-art.com

Big Data – Das Potential großer Datenmengen für die Wirtschaft

Entropie ist ein Maß für Struktur

geringe Entropieregelmäßiges Musterleicht zu verstehen

große Entropiezufällig, chaotisch

unmöglich zu verstehen

Big Data – Das Potential großer Datenmengen für die Wirtschaft

Mathematische Definition von Entropie

𝐻𝐻 𝐷𝐷 = − �𝑎𝑎 𝜖𝜖 𝐷𝐷

𝑃𝑃 𝑎𝑎 � 𝑙𝑙𝑙𝑙𝑙𝑙2𝑃𝑃(𝑎𝑎)

Summe über allemöglichen Ausprägungen

Logarithmusder Wahrscheinlichkeit

Wahrscheinlichkeitder Ausprägung

2 Ausprägungen1 Bit

8 Ausprägungen3 Bit

1 000 000 Ausprägungen~20 Bit

Big Data – Das Potential großer Datenmengen für die Wirtschaft

Die Entropiefunktion

𝐻𝐻 𝐷𝐷 = − �𝑎𝑎 𝜖𝜖 𝐷𝐷

𝑃𝑃 𝑎𝑎 � 𝑙𝑙𝑙𝑙𝑙𝑙2𝑃𝑃(𝑎𝑎)

Bei 2 Ausprägungen

Maximum bei 50%/50% Wahrscheinlichkeit

Big Data – Das Potential großer Datenmengen für die Wirtschaft

Diskrete Daten mit 2 Ausprägungen: Soziale Netzwerke

Twitter Netzwerk [7]

Knoten: Personen, Kanten: Freundschaft

High-school Freudschaftsnetzwerk [6]

Big Data – Das Potential großer Datenmengen für die Wirtschaft

Struktur in Netzwerken

Es gibt häufig eine Gruppenstuktur,d.h. eine Aufteilung in verschiedene Communities (Cluster genannt)

Hift beim Visualisieren und Verstehen vonGroßen Netzwerken

Wie können wir diese Struktur finden?

Big Data – Das Potential großer Datenmengen für die Wirtschaft

Netzwerkstrukturierte Daten

1 2 3 4 51 ja ja ja2 ja ja3 ja4 ja ja5 2

13 4

5

Darstellung als Tabelle Darstellung als Graph

• Zeilen/Spalten: Sportvereine• Zellen: gegeneinander gespielt?

• Knoten: Sportvereine• Kanten: gegeneinander gespielt

5 Vereine, 4 Spiele, ok

Big Data – Das Potential großer Datenmengen für die Wirtschaft

Netzwerkstrukturierte Daten

115 Vereine, 613 Spiele

Darstellung als Tabelle

• Zeilen/Spalten: Sportvereine• Zellen: gegeneinander gespielt?

Darstellung als Graph

• Knoten: Sportvereine• Kanten: gegeneinander gespielt

Big Data – Das Potential großer Datenmengen für die Wirtschaft

Netzwerkstrukturierte Daten

Darstellung als Tabelle Darstellung als Graph

• Sehr unübersichtlich, unverständlich.• Große Entropie!

Big Data – Das Potential großer Datenmengen für die Wirtschaft

Entropie der Tabelle (Adjazenzmatrix)

𝐻𝐻 𝐷𝐷 = − �𝑎𝑎 𝜖𝜖 𝐷𝐷

𝑃𝑃 𝑎𝑎 � 𝑙𝑙𝑙𝑙𝑙𝑙2𝑃𝑃(𝑎𝑎)

Wenn wir nichts über die Daten wissen:Kante ja/nein gleichwahrscheinlich• Entropie: 1 Bit• Insgesamt: 6 440 Bits

Aber wir wissen bereits:Es gibt 613 SpieleP(Spiel) = 613/6440 = 0.0952, P(kein Spiel) = 1 – 613/6440 = 0.9048• Entropie: 0.1923 Bits• Insgesamt: 1 238 Bits

Das ist einfache Statistik.• Etwa jedes 10. aller prinzipiell

möglichen Spiele findet statt.• Mit diesem Wissen reduzieren wir

bereits die Entropie!

Big Data – Das Potential großer Datenmengen für die Wirtschaft

Entropie der Tabelle (Adjazenzmatrix)

𝐻𝐻 𝐷𝐷 = − �𝑎𝑎 𝜖𝜖 𝐷𝐷

𝑃𝑃 𝑎𝑎 � 𝑙𝑙𝑙𝑙𝑙𝑙2𝑃𝑃(𝑎𝑎)

Wenn wir nichts über die Daten wissen:Kante ja/nein gleichwahrscheinlich• Entropie: 1 Bit• Insgesamt: 6 440 Bits

Aber wir wissen bereits:Es gibt 613 SpieleP(Spiel) = 613/6440 = 0.0952, P(kein Spiel) = 1 – 613/6440 = 0.9048• Entropie: 0.1923 Bits• Insgesamt: 1 238 Bits

Das ist einfache Statistik.• Etwa jedes 10. aller prinzipiell

möglichen Spiele findet statt.• Mit diesem Wissen reduzieren wir

bereits die Entropie!

Geht noch mehr?

Big Data – Das Potential großer Datenmengen für die Wirtschaft

Entropie- Reduktion in Netzwerken

Durch Clustering, d.h. Umsortieren der Tabelle

Salt-and-Pepper

???

Regelmäßiges Muster

Es gibt Gruppen von Teams, Die häufig gegeneinander spielen!

Big Data – Das Potential großer Datenmengen für die Wirtschaft

Entropiereduktion durch Clustering

H(A|P) =27+14+15+28+30 = 114 Bit

H(P) = 56 Bit

Sortierung nach ClusternUrsprüngliche Anordnung

H(A) = 218 Bit

Ohne Wissen über Cluster:Berechne die Entropie der gesamten Tabelle.

Mit Clustering:Berechne die Entropie pro Cluster.

Big Data – Das Potential großer Datenmengen für die Wirtschaft

Wir können herausfinden wie viele Cluster es gibt!

218 Bits 27+14+15+28+30 = 114 Bit(+56 Bits für Clustering)

27+14+3+15+10+68 = 137 Bit(+63 Bits für Clustering)

218 Bit 200 Bit170 Bit

Underfitting Beste Balance Overfitting

Qualitätskriterium: Datenkompression, d.h. Entropie plus Modellkosten

Big Data – Das Potential großer Datenmengen für die Wirtschaft

Entropie- Reduktion in Netzwerken

Zum besseren Verständis der Tabelle

Salt-and-Pepper

???

Regelmäßiges Muster

Hier gibt es 10 Cluster, also Gruppen vonVereinen die häufig gegeneinander spielen

Big Data – Das Potential großer Datenmengen für die Wirtschaft

Entropie- Reduktion in Netzwerken

Zum Zeichnen des Netzwerks

Hier gibt es 10 Cluster, also Gruppen vonVereinen die häufig gegeneinander spielen

Big Data – Das Potential großer Datenmengen für die Wirtschaft

Anwendung: Finden von Zielgruppen für Marketing

advertiser

quer

y

Bi-partiter graph mit 2 Arten von Knoten:• Wörter in Suchanfragen von Benutzern• Werbeunternehmen

Kanten: Unternehmen möchte Ad schaltenBei Suche nach Keyword

Teilgraph von Yahoos sponsored search [8]

Ähnlich: GoogleAdWords

GEHIRNNETZWERKE VERSTEHENTeil 2

C. Plant, A. Zherdin, C. Sorg, A. Meyer-Bäse, A. M. Wohlschläger: Mining Interaction Patterns among Brain Regions by Clustering. IEEE Trans. Knowl. Data Eng. 26(9): 2237-2249 (2014)

Neurowissenschaftliche Bildgebung

Functional Magnetic ResonanceImaging (fMRI):Zeitreihe von 3-d Bildern des menschlichen Gehirns

Ziel: Interaktionsmuster zwischen Gehirnregionen verstehen.

x

t

Kooperation mit Klinikum Rechts der Isar, München, Deutschland

Big Data – Das Potential großer Datenmengen für die Wirtschaft

Zeitaufgelöste gewichtete Netzwerke

Aufteilung in90 anatomischeRegionen.

fMRI Daten:Zeitreihen von3d Volumenbildern

x

t

Für jede Person ein zeitaufgelöstesNetzwerk mit 90 Knoten.Kanten: Ko-aktivierung zum Zeitpunkt t

t

d

Big Data – Das Potential großer Datenmengen für die Wirtschaft

Clustering von Zeitaufgelösten Netzwerken

Big Data – Das Potential großer Datenmengen für die Wirtschaft

…durch Finden von Interaktionsmustern

orange = blue + 3* green

orange = blue - green

Big Data – Das Potential großer Datenmengen für die Wirtschaft

Algorithmus Interaction-K-means [TKDE14]

Cluster:

Menge von linearen Modellen für die AbhängigkeitJeder Region Y von den anderen Regionen X

orange = blue + 3* green + εblue = …

green = …

Menge vonPersonen.

ε+= XßY

orange = blue – green + εblue = …

green = …

Welche Regionen sind wirklich relevant?

Big Data – Das Potential großer Datenmengen für die Wirtschaft

Entropiereduktion!

Bestimme zu jedem Zeitpunkt das Interaktionsmuster, das die Daten im Cluster am besten komprimiert

x

t

Knoten: GehirnregionenKanten: gemeinsame Aktivierung

x

t

Big Data – Das Potential großer Datenmengen für die Wirtschaft

Algorithmus Interaction K-means

Clustering

Interaktion

Kompression?

Solange sich die Kompression verbessert:1) Neuzuordnung von Personen zu Clustern2) Neubestimmung der Interaktionsmuster

Big Data – Das Potential großer Datenmengen für die Wirtschaft

Experimentelles Design

Kooperation mit den Abteilungen für Neurologie und Psychiatrie, Klinikum rechts der Isar

fMRI Studie zur Erforschung der somatoformen Schmerzstörung, d.h. chronische Schmerzen ohne organische Ursache.

Mit Laserthermode auf der Hand:Abwechselnd • Wärme• Und leicht schmerzhafte Hitze.

Big Data – Das Potential großer Datenmengen für die Wirtschaft

Ergebnisse

control somatoform

Amygdala (grün) ist kommuniziert mit:• gesunde: sensorische Areale (temporal, auditiv)• patienten: frontale Areale der Emotionskontrolle.

Interaction K-means findet automatisch die zwei Gruppen von Personen (gesund, krank)basierend auf unterschiedlichen Interaktionsmustern ihrer Gehirnregionen.

Big Data – Das Potential großer Datenmengen für die Wirtschaft

VERKEHRSMUSTER FINDENTeil 3

M. Leodolter, N. Brändle, C. Plant: Automatic Detection of Warped Patterns in Time Series: The Caterpillar Algorithm (2018), to appear in proceedings of ICBK conference.

Motivation: Transport Mode Identification

• Mobilitätsverhalten verstehen:• Infrastruktur verbessern• Wechsel zwischen

Mobiltätsarten erleichtern• etc.

• Reisetagebuch:Papier vs. Smartphone

39

Motivation: Transport Mode Identification

Sensor Data fromAIT-Smart Survey App(GPS, Accelerometer, …)

𝑃𝑃(Transportmode | Data)

Data Mining

40

Verwendung von Accellerometerdaten•batterieeffizient• geht auch im Tunnel, U-Bahn

41

Dynamic Time Warping als Ähnlichkeitsmaß

𝐷𝐷𝐷𝐷𝐷𝐷(𝑥𝑥, 𝑦𝑦)𝐷𝐷𝐷𝐷𝐷𝐷(𝑥𝑥, 0) ≈

726

𝐸𝐸𝐸𝐸𝐸𝐸𝑙𝑙𝐸𝐸𝐸𝐸(𝑥𝑥,𝑦𝑦)𝐸𝐸𝐸𝐸𝐸𝐸𝑙𝑙𝐸𝐸𝐸𝐸(𝑥𝑥, 0)

≈2122

42Seconds

• Kombiniert DTW und Datenkompression• Eingabe: ein Muster, eine lange Zeitreihe• Ausgabe: der beste Fit des Musters in der

langen Zeitreihe

• Findet gewarpte Muster wie eine Raupe

• Bewegungen:• Forward: incremental DTW• Back-up: decremental DTW• Catch-up: reverse decremental DTW• Backward: reverse incremental DTW

Der Caterpillar Algorithmus

43

44

Bremsen – Stop – Anfahren Muster typisch für U-Bahn

45

Seconds Seconds

Acce

lera

tion

Big Data – Das Potential großer Datenmengen für die Wirtschaft

Zusammenfassung

• Wir brauchen effiziente Data Mining Techniken um große Daten zu verstehen

• Entropiereduktion/Datenkompression ist ein Qualitätsmaß für Muster in Daten

• Wir können es auf Netzwerke, Zeitreihen, zeitaufgelöste Netzwerke und viele andere Datentypen anwenden

• Beispielhafte Anwendungen: Gehirnnetzwerke verstehen, und Mobilitätsverhalten erforschen

46

Big Data – Das Potential großer Datenmengen für die Wirtschaft

Wichtige derzeitige Kooperationspartner

Und vielleicht Sie?

Big Data – Das Potential großer Datenmengen für die Wirtschaft

Kooperationsmöglichkeiten

Mit meiner Gruppe:• Studentische Abschlussarbeiten• Projektschienen der FFG

Außerdem: • Fakultät für Informatik • Forschungsplattform Data Science

Big Data – Das Potential großer Datenmengen für die Wirtschaft

Forschungsgruppe Data Miningan der Fakultät für Informatikder Universität Wienhttp://dm.cs.univie.ac.at/[email protected] siehe Internet

Währinger Straße 291090 Wien

Big Data – Das Potential großer Datenmengen für die Wirtschaft

Referenzen

[1] https://go.forrester.com/blogs/hadoop-is-datas-darling-for-a-reason/ (15.11.18)[2] https://blogs.cisco.com/diversity/the-internet-of-things-infographic (19.11.18)[3] https://www.intel.com/content/dam/www/public/us/en/images/iot/guide-to-iot-infographic.png(19.11.18)[4] https://www.ft.com/content/2db7e742-7204-11e7-93ff-99f383b09ff9 (15.11.18)[5] https://home.cern/news/news/computing/cern-data-centre-passes-200-petabyte-milestone(20.11.18)[6] http://www-personal.umich.edu/~mejn/networks/ (20.11.18)[7] http://allthingsgraphed.com/2014/11/02/twitter-friends-network/ (20.11.18)[8] Anderson, Lang: Communities from Seeds. WWW 2006