Big Data 10.000 ft

Preview:

DESCRIPTION

Dr. Roberto Rao, Principal Architect bei der axxessio GmbH, eröffnete am Donnerstag, den 20. Februar 2014 die Veranstaltung „Big Data – Die neue Goldgräberzeit in der IT“ und gab einen Überblick zum Thema „Big Data 10.000 ft“.

Citation preview

20. Februar 2014IHK Darmstadt

Big Data 10.000 ft

DR. ROBERTO RAO, AXXESSIO GMBH

• Big Data – Was ist das?

• Anwendungsfälle für Big Data

• Big Data Architektur

• Big Data Anbieter

• Was passiert in Zukunft mit Big Data?

Inhalte

2

Big Data – Was ist das?

4

Rohstoffe wie Gold sind nur in einer geringen Dichte vorhanden

2.700 Kg an Ressourcen müssen aufgewendet werden um einen Goldring herzustellen

300 Kg Erz+

20 Tonnen Giftstoffe (u.a. Cyanid)+…

5

Spaltbares Uran muss aufwendig getrennt werden

238U99,3 %

235U0,7 %

Natururan

1000 Kg Uranerz ergeben 1 Kg Uran

235U100 %

Gaszentrifugen

Spaltbares Material

6

Wertvolle Information

Text

Bilder

Dokumente

Big Data ist ähnlich zur Rohstoffgewinnung

Internet Seiten, Web-Foren, BlogsSocial Networks, eMails, Sensoren

Aus enorm vielen Daten sollen nur die wertvollen Informationen extrahiert werden. Aufwendige

Trennung von wertlosen und wertvollen Informationen• Volume (Datenvolumen)

• Variety (Vielfalt)• Velocity (Tempo)• Value (Wert)• Veracity (Datenqualität)• Volatility (Aufbewahrung)

7

Vielfältige Daten

Kunde

Name

Vorname

Kundennummer

Ort

Artikel

Bezeichnung

EAN

Preis

MwSt

KundenNr EAN Netto MwSt Brutto Datum

98273891 DE28309810 12,21 19% 24,05 19.04.13

83691817 DE94839928 81,77 19% 97,31 22.04.13

63879287 DE87687628 2,31 7% 2,47 29.04.13

Relationale DB

- Attribute- Tupel

SQL Query:SELECT SUM(BRUTTO) WHERE KUNDENNR = 123456789

8

Mit Big Data hat die Goldgräberzeit auch in der IT begonnen

Hallo Stefan, wie geht es dir? Wir hatten gestern einen schönen Abend.

Das Fußballspiel morgen ist der Hammer! Das dürfen wir nicht verpassen.VG Micky

Die Politiker haben einen Schatten. Wird mal Zeit, dass wir sie abschaffen. Eine neue Regierung wär

Die Bombe müssten wir dann um ca. 11 Uhr zünden. Da sind die meisten Leute unterwegs.

Hallo Martha,Du musst 1 Kg Mehl und 3 Eier nehmen.Du rührst dann 10 Minuten und backst es.

Sehr geehrter Herr Mayer,Leider kann ich morgen nicht da sein, da ich einen wichtigen Termin habe.

Hi Gerd,Die Schule fällt morgen aus. Was wollen wir machen?

LOW DENSITY DATALOW VALUE

HIGH DENSITY DATAHIGH VALUE

Die Bombe müssten wir dann um ca. 11 Uhr zünden. Da sind die meisten Leute unterwegs.

Die Politiker haben einen Schatten. Wird mal Zeit, dass wir sie abschaffen. Eine neue Regierung wärTAXONOMIE

CLUSTERING

FILTER

RegierungabschaffenBombe

9

Erst große Plattenspeicher machen Big Data möglich

Anwendungsfälle für Big Data

11

Anwendungsfälle

Finanzdienstleister • Erkennung betrügerischer Transaktionen in Echtzeit, Risikoabschätzungen, beschleunigte Fallbearbeitung, individualisierte Dienstleistungen

Versicherungen • Beschleunigte Fallbearbeitung, bessere Risikoabschätzung, verhaltensbezogene Bepreisung

Telekommunikation • Qualitätssicherung, individualisierte Ansprache und Dienstleistungen, Betrugserkennung, neue Produkte

Produktion • Präventive Wartung und Überwachung, vernetzte Geräte, individualisierte Dienstleistungen, Marktüberwachung

Energie • Kurzfristige Bedarfsprognosen, vernetzte, individualisierte Geräte, vorausschauende Steuerung

Handel • Prognosen für die Absatzplanung, dynamische Preisbildung, Marktüberwachung und individualisierte Ansprache

Öffentliche Sicherheit • Schnelle Lageerfassung und Früherkennung gefährlicher Ereignisse

Gesundheit • Vernetzte Geräte, präventive Steuerung, effizientes Fallmanagement, datengetriebene Entwicklung

Mobilität • Vernetzte Autos, Navigation, Stauhilfe

12

Beispiel: Kreditkartenmissbrauch

Visa hat ca. 2 Mrd. Kreditkarten

weltweit

Kreditkartenunternehmen erstellen ein Muster aus den

Zahlungsdaten

Werden einige Tage später Einkäufe im Reiseland getätigt, liegt evtl. ein

Missbrauch vor!

Durch Big Data hat sich die Dauer der Analyse von 45 Min. auf 4 Sek. verkürzt

Quelle: Bild der Wissenschaft, Ulrich Schmitz

13

Versicherungsbetrug

Quelle: Bild der Wissenschaft, Ulrich Schmitz

Aus Terabytes an personen- und raumbezogenen Daten kann Versicherungsbetrug aufgedeckt werden.

NetReveal von Detica setzt Personen zueinander in Beziehung und korreliert sie mit Ereignissen (z.B. Schadensmeldungen)

Identische Personen, Brüder, Neffen, Vettern hatten in der selben Region Schadenersatz nach einem Auffahrunfall geltend gemacht

Fingierte Auffahrunfälle

14

Smart Meter für 40 Mio Haushalte ab 2020

HeuteStandard Last Profil (SLP)

• Eine Ablesung pro Jahr

• 40 Mio. Datensätze / Jahr

• 40 TB / Jahr

Künftig (mögliches Szenario)Registrierende

Leistungsmessung (RLM)

• Ein Datensatz pro 15 Min

• 1,5 Billionen Datensätze / Jahr

• 1,5 Exabytes / Jahr

Energiewirtschaft

Big Data Architektur

16

Traditionelle Architektur

System 1

System 3

System 2 DWH Analytics

Strukturierte Daten

Integration

17

Big Data Architektur

System 1

System 3

System 2Distributed File System DWH

Analytics

Strukturierte und unstrukturierte Daten

Map / Reduce

18

Hadoop Ökosystem

HDFS

MapReduceHBASE

PIG HIVE

MAHOUT machine learning, Bibliothek von Algorithmen z.B. Clustering

Scripting von MapReduce jobs

HQL für MapReduce

Hadoop distributed file system

Key-Value DB

* Es existieren weitere Komponenten des Hadoop Ökosystems, die hier nicht dargestellt sind (Oozi, Ambari, ZooKeeper, Hcatalog, Scoop, Flume, etc.)

Java framework

19

HDFS (hadoop distributed file system)

Data Node 1

Data Node 2

Data Node 3

Data Node N

Client Node

Name Node

File.txt1 TB

A B C

write

A auf Node 1B auf Node 2C auf Node 3

A B C

20

MapReduce

Verteilte Daten

Worker

Worker

WorkerWorker

Worker

MAP PHASE REDUCE PHASE

Zwischenergebnisse

Endergebnis

Worker

Worker

remotelocal

Aggregation

21

MapReduce am WordCount-Beispiel

Big Data Anbieter

23

Anbieter

IBM

Microsoft

HP

Oracle

EMC2

Exasol

Teradata

Was passiert in Zukunft mit Big Data?

25

Google hat festgestellt, dass die Häufigkeit bestimmter Suchbegriffe Anhaltspunkt für die Häufigkeit von Grippefällen sein kann. Für die Google Grippe-Trends werden Daten der Google-Suche gesammelt und

ausgewertet. Auf Grundlage der Ergebnisse wird anschließend die Häufigkeit von Grippefällen geschätzt.

Grippe-Trends weltweit verfolgen

Welche Chancen und Risiken ergeben sich in Zukunft

26

Chancen und Risiken in der Medizin

Neue Zusammenhänge erlauben neue Therapien

Wissen-schaftliche Veröffent-lichungen

Klinische Studien

Kranken-akten

Errechnen von Risiko-Patienten

Wissen-schaftliche Veröffent-lichungen

Klinische Studien

Kranken-akten

Chancen Risiken

Unsere Standorte

Niederlassung Köln

Wilhelmstraße 351143 KölnTel +49 22 03 – 91 22 0Fax +49 22 03 – 91 22 23

Niederlassung Darmstadt

Kasinostraße 6064293 DarmstadtTel +49 61 51 – 78 90 0Fax +49 61 51 – 78 90 23 0

Hauptsitz Bonn

Kurfürstenallee 553177 BonnTel +49 228 – 76 36 31 0Fax +49 228 –76 36 31 3

Niederlassung Bern

Frohbergweg 73012 BernTel +41 31 – 534 07 06Fax +41 31 – 536 69 78

Vielen Dank für Ihre Aufmerksamkeit

Recommended