IBM - Big Value from Big Data

1 Seite :

Big Value from Big Data Fertig werden mit den 3 wichtigsten Herausforderungen: Volume, Velocity und Variety [=V3]

Wilfried Hoge Leading Technical Sales Professional Senior IT Architect Information Management IBM Deutschland

Information Management

2 Seite :

Was ist Big Data? •  Datenmengen wachsen immer

schneller – in allen Unternehmen und in allen Branchen

•  Die Daten werden häufig von einer großen Anzahl Menschen (z.B. Social Media) oder von Maschinen (z.B. Ticker oder Messgeräte) generiert

•  Die meisten Daten sind nicht einfach strukturiert sondern haben komplexe oder unbekannte Strukturen und der Aufwand für die Analyse und Anpassung der Strukturierung ist sehr groß

•  Informationen in diesen Daten enthalten große Chancen und großen Wert und daher ist die effiziente Analyse dieser Daten von strategischer Bedeutung

•  Big ist relativ zu dem, was bisher an Daten in einem Unternehmen verarbeitet werden konnte, und bezieht sich sowohl auf die Datenmenge als auch auf die Verarbeitungsgeschwindigkeit

2009 800,000 petabytes

2020 35 zettabytes

mehr Daten im kommenden Jahrzehnt

44x 80% der Daten sind unstrukturiert


3 Seite :

Nutzen zu ziehen aus diesen riesigen Datenmengen, die so verschieden strukturiert sind und so schnell entstehen, ist mit bisherigen Technologien nicht

möglich gewesen.

Die Big Data Herausforderung

Verarbeitung der Komplexität von relationalen und nicht-relationalen Datentypen und Schemas

Variety

Analyse von Daten direkt während sie entstehen Velocity

Effizientes skalieren für große Datenmengen Volume

Eine Technologie für BigData muss geeignet sein, die drei wichtigsten Dimensionen von BigData zu beherrschen: Variety, Velocity, Volume (=V3)


4 Seite :

Up to 10,000 Times larger

Up to 10,000 times faster

Traditional Data Warehouse and Business Intelligence

Dat

a Sc

ale

Dat

a Sc

ale

yr mo wk day hr min sec … ms µs

Exa

Peta

Tera

Giga

Mega

Kilo

Decision Frequency Occasional Frequent Real-time

Data in Motion

Dat

a at

Res

t

Volume und Velocity – zwei Dimensionen für Big Data

Telco Promotions

100,000 records/sec, 6B/day 10 ms/decision 270TB for Deep Analytics

DeepQA 100s GB for Deep Analytics 3 sec/decision Power7, 15TB memory

Wind Turbine Placement & Operation PBs of data Analysis time to 3 days from 3 weeks 1220 IBM iDataPlex nodes

Security

600,000 records/sec, 50B/day 1-2 ms/decision 320TB for Deep Analytics


5 Seite :

Massiv parallele Verarbeitung für Volume und Velocity

•  Divide and conquer ist eine bewährte Methode zur Bewältigung von umfangreichen Berechnungen

•  Jeder Knoten verwaltet einen Teil der Daten •  Jeder Knoten kann Algorithmen auf seinen Daten ausführen •  Viele verteilte Knoten lösen ein Problem, indem sie parallel Teilaufgaben lösen •  Eine übergeordnete Kontrolle schickt die passenden Algorithmen zu den Daten

Anfrageknoten

Berechnungs-/Speicherknoten


6 Seite :

Variety – Speicherung und Analyse neuer Datentypen

•  Daten aus den Quellen Web (z.B. Logs, Clickstream), Dokumente (z.B. Texte, Protokolle, E-Mails), RFIDs (XML, Spatial) werden in vielen Unternehmen bereits gesammelt

•  Die Datenstrukturen sind in den wenigsten Fällen geeignet für die Verarbeitung in traditionellen DWH Umgebungen, die meist auf relationale Datenstrukturen beschränkt sind

•  Aufwändige ETL Prozesse und/oder Betrachtung von Ausschnitten machen sie konsumierbar

•  Diese Daten aber in Gänze zu analysieren erfordert eine direkte Verarbeitung von komplexeren Datentypen

•  Hinzu kommen Datentypen, die nicht leicht in relationale Strukturen zu überführen sind und daher i.d.R. gar nicht berücksichtigt wurden (z.B. Audio, Bilder, Video)

•  Datenspeicher, die in der Lage sind die Daten in ihrer Vielfalt direkt zu behandeln, und Algorithmen, die diese Daten verarbeiten, sind notwendig.


7 Seite :

Variety – Explorative Analysen für Big Data

•  IBM Research hat Algorithmen zur explorativen Analyse entwickelt

•  Diese Algorithmen erlauben die Analyse von Daten in ihrem ursprünglichen Datenformat

Text

Image & Video

Acoustic

Financial

Times Series

IBM macht den Unterschied – signifikante Investitionen in die Forschung und Entwicklung von Analysealgorithmen für Big Data

Statistics

Mining

Predictive

Geospatial Mathematical


8 Seite :

Big Data Ansatz ergänzt das bisherige Vorgehensmodell

IT Strukturiert die Daten, um die Fragen zu beantworten

IT Stellen eine Plattform für kreative Erkundung bereit

Fachbereich Erkundet, welche Informationen in den Daten stecken

Fachbereich Bestimmen, welche Fragen gestellt werden

Monatlicher Umsatz Profitabilität Kundenanalyse

Reputation der Marke Produkt Strategie Maximierung der Ausutzung

Big Data Vorgehen Iterative & Forschende Analyse

Traditionelles Vorgehen Strukturierung & Wiederholbare Analyse


9 Seite :

Eine Kombination von zwei Technologien für Big Data

•  Um den 3 Dimensionen von Big Data – Volume, Velocity und Variety – gerecht zu werden ist eine Kombination von zwei Technologien sinnvoll

•  Analyse von Big Data während der Entstehung – Streaming Analytics •  Die Daten werden analysiert sobald sie im System ankommen •  Die einfließenden Datenströme werden analysiert und können mit gespeicherten

Informationen in Verbindung gebracht werden •  Aus der Analyse werden sofort Aktivitäten (Events) abgeleitet ➯  InfoSphere Streams

•  Speicherung von großen Datenmengen und flexible Analyse dieser Daten – Internet Scale Analytics •  Die Daten werden gespeichert und stehen für verschiedenste Analysen bereit •  Operationen auf diesen Daten können effizient ausgeführt werden •  Basiert auf dem Hadoop Framework ➯  InfoSphere BigInsights


10 Seite :

IBM Big Data Platform

Big Data Accelerators

Eclipse Oozie Hadoop HBase Pig Lucene Jaql

Open Source Foundation Compnents

Big Data Enterprise Engines

Productivity Tools and Optimization

InfoSphere BigInsights InfoSphere Streams

Connectors Applications Blueprints

Text

Image/Video

Financial

Times Series

Statistics

Mining

Geospatial

Mathematical

Acoustic

Workload Management and Optimization

Client and Partner Solutions

IBM Big Data Solutions

Consumability and Management Tools

Data Growth Management

InfoSphere Optim

Database

DB2

Data Warehouse InfoSphere Warehouse

Master Data Management

InfoSphere MDM

Warehouse Appliance

IBM Netezza

Marketing

IBM Unica

Content Analytics

ECM

Business Analytics

Cognos & SPSS

Info

rSph

ere I

nfor

mat

ion

Serv

er


11 Seite :

IBM Netezza für Big Data Analyse

•  IBM Netezza ist eine DWH Appliance mit MPP Architektur, Hardware basierender Abfragebeschleunigung und in-Datenbank Ausführung von Analysealgorithmen

•  Das Appliance Konzept ermöglicht extrem hohe Analyse Leistung ohne Tuning

•  Ideal geeignet für Big Data Analyse auf Daten, die im relationalen Modell untergebracht werden können

•  In-Database Analysen (z.B. Data Mining, Spatial, Predictive Analysis) out of the box

•  Zusätzlich Unterstützung von Hadoop Map/Reduce Algorithmen direkt auf Netezza


12 Seite :

Netezza

Integration von IBM Data Warehouse und BigInsights

JaqlSubmit UDF HDFSRead UDF

SQL DB2 Cubing services

Jaql client

Jaql server

Infosphere Warehouse

Infosphere BigInsights

Http Http

JDBC Connector

Persistent data (MapReduce repository)


13 Seite :

Streams und BigInsights – Verfeinerung eines Analysemodells •  Da die Algorithmen sowohl in Streams als auch in

BigInsights verwendet werden können lassen sich closed-loop Projekte leicht umsetzen

1.  Daten laden

Daten- Integration,

Data Mining, Machine Learning, Statistical Modelling

Visualisierung sowohl von Echzeit-Analysen als auch

von Analysen auf Basis historischer Daten

3.  Adaptives analytisches Modell

Laden von Daten, Datenaufbereitung, Echtzeit-Analyse, Modell Validierung

Daten

2.  Modell erzeugen und verfeinern

Control flow

InfoSphere BigInsights & Data Warehouse

InfoSphere Streams


14 Seite :

Business Analytics

Information Integration & Federation

Data Warehouse

Enterprise Content Management

Information Governance Data

Management

Big Data Big Data

Big Data muss ein integrierter Bestandteil der Informationsarchitektur eines Unternehmens sein


15 Seite :

BigInsights in der IBM SmartCloud Enterprise

•  Ihr eigener Hadoop Cluster in der IBM Cloud in weniger als 30 Minuten

•  Benötigt keine eigene Hardware, keine Installation, keine Wartung

•  Hadoop Cluster kann in einem beliebigen IBM Cloud Data Center platziert werden

•  Geringe Gebühren, die pro Stunde berechnet werden

•  Start mit lizenzfreiem BigInsights Basic und einfache Umstellung auf die BigInsights Enterprise Version


16 Seite :

BigInsights in der Cloud Einfaches Kennenlernen von Hadoop •  Online Kurs erlaubt das Lernen am

Standort ihrer Wahl mit freier Zeiteinteilung

•  Kurse und Kursmaterial kostenfrei

•  Cloud basierte Sandbox für Übungen

•  Bereits mehr als 8500 Teilnehmer


17 Seite :

Big Data und Watson

InfoSphere BigInsights

POS Data

CRM Data Social Media

Analyseergebnisse -  Kaufverhalten -  Soziale Beziehungen -  Trends

Erweiterte Analyse und Suche

Watson kann Informationen aus Big Data zur erweiterten Analyse konsumieren!

Big Data Technology wurde genutzt um die Wissensdatenbank von Watson zu bauen!

Watson verwendete das Apache Hadoop Framework zur Verteilung der

Workload beim Laden der Informationen in das Memory"

~200 Millionen Textseiten (Um Jeopardy zu spielen!)

Watson‘s Memory


18 Seite :

THINK

ibm.com/bigdata

Nutzen sie bereits das Potential ihrer unstrukturierten Daten? Variety

Velocity

Volume

Können sie durch Analyse in Echtzeit besser werden?

Sammeln sie die Daten nur oder nutzen sie diese auch?

19 Seite :

Wilfried Hoge Leading Technical Sales Professional Senior IT Architect Information Management IBM Deutschland