27
20. Februar 2014 IHK Darmstadt Big Data 10.000 ft DR. ROBERTO RAO, AXXESSIO GMBH

Big Data 10.000 ft

Embed Size (px)

DESCRIPTION

Dr. Roberto Rao, Principal Architect bei der axxessio GmbH, eröffnete am Donnerstag, den 20. Februar 2014 die Veranstaltung „Big Data – Die neue Goldgräberzeit in der IT“ und gab einen Überblick zum Thema „Big Data 10.000 ft“.

Citation preview

Page 1: Big Data 10.000 ft

20. Februar 2014IHK Darmstadt

Big Data 10.000 ft

DR. ROBERTO RAO, AXXESSIO GMBH

Page 2: Big Data 10.000 ft

• Big Data – Was ist das?

• Anwendungsfälle für Big Data

• Big Data Architektur

• Big Data Anbieter

• Was passiert in Zukunft mit Big Data?

Inhalte

2

Page 3: Big Data 10.000 ft

Big Data – Was ist das?

Page 4: Big Data 10.000 ft

4

Rohstoffe wie Gold sind nur in einer geringen Dichte vorhanden

2.700 Kg an Ressourcen müssen aufgewendet werden um einen Goldring herzustellen

300 Kg Erz+

20 Tonnen Giftstoffe (u.a. Cyanid)+…

Page 5: Big Data 10.000 ft

5

Spaltbares Uran muss aufwendig getrennt werden

238U99,3 %

235U0,7 %

Natururan

1000 Kg Uranerz ergeben 1 Kg Uran

235U100 %

Gaszentrifugen

Spaltbares Material

Page 6: Big Data 10.000 ft

6

Wertvolle Information

Text

Bilder

Dokumente

Big Data ist ähnlich zur Rohstoffgewinnung

Internet Seiten, Web-Foren, BlogsSocial Networks, eMails, Sensoren

Aus enorm vielen Daten sollen nur die wertvollen Informationen extrahiert werden. Aufwendige

Trennung von wertlosen und wertvollen Informationen• Volume (Datenvolumen)

• Variety (Vielfalt)• Velocity (Tempo)• Value (Wert)• Veracity (Datenqualität)• Volatility (Aufbewahrung)

Page 7: Big Data 10.000 ft

7

Vielfältige Daten

Kunde

Name

Vorname

Kundennummer

Ort

Artikel

Bezeichnung

EAN

Preis

MwSt

KundenNr EAN Netto MwSt Brutto Datum

98273891 DE28309810 12,21 19% 24,05 19.04.13

83691817 DE94839928 81,77 19% 97,31 22.04.13

63879287 DE87687628 2,31 7% 2,47 29.04.13

Relationale DB

- Attribute- Tupel

SQL Query:SELECT SUM(BRUTTO) WHERE KUNDENNR = 123456789

Page 8: Big Data 10.000 ft

8

Mit Big Data hat die Goldgräberzeit auch in der IT begonnen

Hallo Stefan, wie geht es dir? Wir hatten gestern einen schönen Abend.

Das Fußballspiel morgen ist der Hammer! Das dürfen wir nicht verpassen.VG Micky

Die Politiker haben einen Schatten. Wird mal Zeit, dass wir sie abschaffen. Eine neue Regierung wär

Die Bombe müssten wir dann um ca. 11 Uhr zünden. Da sind die meisten Leute unterwegs.

Hallo Martha,Du musst 1 Kg Mehl und 3 Eier nehmen.Du rührst dann 10 Minuten und backst es.

Sehr geehrter Herr Mayer,Leider kann ich morgen nicht da sein, da ich einen wichtigen Termin habe.

Hi Gerd,Die Schule fällt morgen aus. Was wollen wir machen?

LOW DENSITY DATALOW VALUE

HIGH DENSITY DATAHIGH VALUE

Die Bombe müssten wir dann um ca. 11 Uhr zünden. Da sind die meisten Leute unterwegs.

Die Politiker haben einen Schatten. Wird mal Zeit, dass wir sie abschaffen. Eine neue Regierung wärTAXONOMIE

CLUSTERING

FILTER

RegierungabschaffenBombe

Page 9: Big Data 10.000 ft

9

Erst große Plattenspeicher machen Big Data möglich

Page 10: Big Data 10.000 ft

Anwendungsfälle für Big Data

Page 11: Big Data 10.000 ft

11

Anwendungsfälle

Finanzdienstleister • Erkennung betrügerischer Transaktionen in Echtzeit, Risikoabschätzungen, beschleunigte Fallbearbeitung, individualisierte Dienstleistungen

Versicherungen • Beschleunigte Fallbearbeitung, bessere Risikoabschätzung, verhaltensbezogene Bepreisung

Telekommunikation • Qualitätssicherung, individualisierte Ansprache und Dienstleistungen, Betrugserkennung, neue Produkte

Produktion • Präventive Wartung und Überwachung, vernetzte Geräte, individualisierte Dienstleistungen, Marktüberwachung

Energie • Kurzfristige Bedarfsprognosen, vernetzte, individualisierte Geräte, vorausschauende Steuerung

Handel • Prognosen für die Absatzplanung, dynamische Preisbildung, Marktüberwachung und individualisierte Ansprache

Öffentliche Sicherheit • Schnelle Lageerfassung und Früherkennung gefährlicher Ereignisse

Gesundheit • Vernetzte Geräte, präventive Steuerung, effizientes Fallmanagement, datengetriebene Entwicklung

Mobilität • Vernetzte Autos, Navigation, Stauhilfe

Page 12: Big Data 10.000 ft

12

Beispiel: Kreditkartenmissbrauch

Visa hat ca. 2 Mrd. Kreditkarten

weltweit

Kreditkartenunternehmen erstellen ein Muster aus den

Zahlungsdaten

Werden einige Tage später Einkäufe im Reiseland getätigt, liegt evtl. ein

Missbrauch vor!

Durch Big Data hat sich die Dauer der Analyse von 45 Min. auf 4 Sek. verkürzt

Quelle: Bild der Wissenschaft, Ulrich Schmitz

Page 13: Big Data 10.000 ft

13

Versicherungsbetrug

Quelle: Bild der Wissenschaft, Ulrich Schmitz

Aus Terabytes an personen- und raumbezogenen Daten kann Versicherungsbetrug aufgedeckt werden.

NetReveal von Detica setzt Personen zueinander in Beziehung und korreliert sie mit Ereignissen (z.B. Schadensmeldungen)

Identische Personen, Brüder, Neffen, Vettern hatten in der selben Region Schadenersatz nach einem Auffahrunfall geltend gemacht

Fingierte Auffahrunfälle

Page 14: Big Data 10.000 ft

14

Smart Meter für 40 Mio Haushalte ab 2020

HeuteStandard Last Profil (SLP)

• Eine Ablesung pro Jahr

• 40 Mio. Datensätze / Jahr

• 40 TB / Jahr

Künftig (mögliches Szenario)Registrierende

Leistungsmessung (RLM)

• Ein Datensatz pro 15 Min

• 1,5 Billionen Datensätze / Jahr

• 1,5 Exabytes / Jahr

Energiewirtschaft

Page 15: Big Data 10.000 ft

Big Data Architektur

Page 16: Big Data 10.000 ft

16

Traditionelle Architektur

System 1

System 3

System 2 DWH Analytics

Strukturierte Daten

Integration

Page 17: Big Data 10.000 ft

17

Big Data Architektur

System 1

System 3

System 2Distributed File System DWH

Analytics

Strukturierte und unstrukturierte Daten

Map / Reduce

Page 18: Big Data 10.000 ft

18

Hadoop Ökosystem

HDFS

MapReduceHBASE

PIG HIVE

MAHOUT machine learning, Bibliothek von Algorithmen z.B. Clustering

Scripting von MapReduce jobs

HQL für MapReduce

Hadoop distributed file system

Key-Value DB

* Es existieren weitere Komponenten des Hadoop Ökosystems, die hier nicht dargestellt sind (Oozi, Ambari, ZooKeeper, Hcatalog, Scoop, Flume, etc.)

Java framework

Page 19: Big Data 10.000 ft

19

HDFS (hadoop distributed file system)

Data Node 1

Data Node 2

Data Node 3

Data Node N

Client Node

Name Node

File.txt1 TB

A B C

write

A auf Node 1B auf Node 2C auf Node 3

A B C

Page 20: Big Data 10.000 ft

20

MapReduce

Verteilte Daten

Worker

Worker

WorkerWorker

Worker

MAP PHASE REDUCE PHASE

Zwischenergebnisse

Endergebnis

Worker

Worker

remotelocal

Aggregation

Page 21: Big Data 10.000 ft

21

MapReduce am WordCount-Beispiel

Page 22: Big Data 10.000 ft

Big Data Anbieter

Page 23: Big Data 10.000 ft

23

Anbieter

IBM

Microsoft

HP

Oracle

EMC2

Exasol

Teradata

Page 24: Big Data 10.000 ft

Was passiert in Zukunft mit Big Data?

Page 25: Big Data 10.000 ft

25

Google hat festgestellt, dass die Häufigkeit bestimmter Suchbegriffe Anhaltspunkt für die Häufigkeit von Grippefällen sein kann. Für die Google Grippe-Trends werden Daten der Google-Suche gesammelt und

ausgewertet. Auf Grundlage der Ergebnisse wird anschließend die Häufigkeit von Grippefällen geschätzt.

Grippe-Trends weltweit verfolgen

Welche Chancen und Risiken ergeben sich in Zukunft

Page 26: Big Data 10.000 ft

26

Chancen und Risiken in der Medizin

Neue Zusammenhänge erlauben neue Therapien

Wissen-schaftliche Veröffent-lichungen

Klinische Studien

Kranken-akten

Errechnen von Risiko-Patienten

Wissen-schaftliche Veröffent-lichungen

Klinische Studien

Kranken-akten

Chancen Risiken

Page 27: Big Data 10.000 ft

Unsere Standorte

Niederlassung Köln

Wilhelmstraße 351143 KölnTel +49 22 03 – 91 22 0Fax +49 22 03 – 91 22 23

Niederlassung Darmstadt

Kasinostraße 6064293 DarmstadtTel +49 61 51 – 78 90 0Fax +49 61 51 – 78 90 23 0

Hauptsitz Bonn

Kurfürstenallee 553177 BonnTel +49 228 – 76 36 31 0Fax +49 228 –76 36 31 3

Niederlassung Bern

Frohbergweg 73012 BernTel +41 31 – 534 07 06Fax +41 31 – 536 69 78

Vielen Dank für Ihre Aufmerksamkeit