Upload
wilfried-hoge
View
1.668
Download
0
Embed Size (px)
DESCRIPTION
Die BigData Plattform der IBM
Citation preview
1 Seite :
Big Value from Big Data Fertig werden mit den 3 wichtigsten Herausforderungen: Volume, Velocity und Variety [=V3]
Wilfried Hoge Leading Technical Sales Professional Senior IT Architect Information Management IBM Deutschland
Information Management
2 Seite :
Was ist Big Data? • Datenmengen wachsen immer
schneller – in allen Unternehmen und in allen Branchen
• Die Daten werden häufig von einer großen Anzahl Menschen (z.B. Social Media) oder von Maschinen (z.B. Ticker oder Messgeräte) generiert
• Die meisten Daten sind nicht einfach strukturiert sondern haben komplexe oder unbekannte Strukturen und der Aufwand für die Analyse und Anpassung der Strukturierung ist sehr groß
• Informationen in diesen Daten enthalten große Chancen und großen Wert und daher ist die effiziente Analyse dieser Daten von strategischer Bedeutung
• Big ist relativ zu dem, was bisher an Daten in einem Unternehmen verarbeitet werden konnte, und bezieht sich sowohl auf die Datenmenge als auch auf die Verarbeitungsgeschwindigkeit
2009 800,000 petabytes
2020 35 zettabytes
mehr Daten im kommenden Jahrzehnt
44x 80% der Daten sind unstrukturiert
Information Management
3 Seite :
Nutzen zu ziehen aus diesen riesigen Datenmengen, die so verschieden strukturiert sind und so schnell entstehen, ist mit bisherigen Technologien nicht
möglich gewesen.
Die Big Data Herausforderung
Verarbeitung der Komplexität von relationalen und nicht-relationalen Datentypen und Schemas
Variety
Analyse von Daten direkt während sie entstehen Velocity
Effizientes skalieren für große Datenmengen Volume
Eine Technologie für BigData muss geeignet sein, die drei wichtigsten Dimensionen von BigData zu beherrschen: Variety, Velocity, Volume (=V3)
Information Management
4 Seite :
Up to 10,000 Times larger
Up to 10,000 times faster
Traditional Data Warehouse and Business Intelligence
Dat
a Sc
ale
Dat
a Sc
ale
yr mo wk day hr min sec … ms µs
Exa
Peta
Tera
Giga
Mega
Kilo
Decision Frequency Occasional Frequent Real-time
Data in Motion
Dat
a at
Res
t
Volume und Velocity – zwei Dimensionen für Big Data
Telco Promotions
100,000 records/sec, 6B/day 10 ms/decision 270TB for Deep Analytics
DeepQA 100s GB for Deep Analytics 3 sec/decision Power7, 15TB memory
Wind Turbine Placement & Operation PBs of data Analysis time to 3 days from 3 weeks 1220 IBM iDataPlex nodes
Security
600,000 records/sec, 50B/day 1-2 ms/decision 320TB for Deep Analytics
Information Management
5 Seite :
Massiv parallele Verarbeitung für Volume und Velocity
• Divide and conquer ist eine bewährte Methode zur Bewältigung von umfangreichen Berechnungen
• Jeder Knoten verwaltet einen Teil der Daten • Jeder Knoten kann Algorithmen auf seinen Daten ausführen • Viele verteilte Knoten lösen ein Problem, indem sie parallel Teilaufgaben lösen • Eine übergeordnete Kontrolle schickt die passenden Algorithmen zu den Daten
Anfrageknoten
Berechnungs-/Speicherknoten
Information Management
6 Seite :
Variety – Speicherung und Analyse neuer Datentypen
• Daten aus den Quellen Web (z.B. Logs, Clickstream), Dokumente (z.B. Texte, Protokolle, E-Mails), RFIDs (XML, Spatial) werden in vielen Unternehmen bereits gesammelt
• Die Datenstrukturen sind in den wenigsten Fällen geeignet für die Verarbeitung in traditionellen DWH Umgebungen, die meist auf relationale Datenstrukturen beschränkt sind
• Aufwändige ETL Prozesse und/oder Betrachtung von Ausschnitten machen sie konsumierbar
• Diese Daten aber in Gänze zu analysieren erfordert eine direkte Verarbeitung von komplexeren Datentypen
• Hinzu kommen Datentypen, die nicht leicht in relationale Strukturen zu überführen sind und daher i.d.R. gar nicht berücksichtigt wurden (z.B. Audio, Bilder, Video)
• Datenspeicher, die in der Lage sind die Daten in ihrer Vielfalt direkt zu behandeln, und Algorithmen, die diese Daten verarbeiten, sind notwendig.
Information Management
7 Seite :
Variety – Explorative Analysen für Big Data
• IBM Research hat Algorithmen zur explorativen Analyse entwickelt
• Diese Algorithmen erlauben die Analyse von Daten in ihrem ursprünglichen Datenformat
Text
Image & Video
Acoustic
Financial
Times Series
IBM macht den Unterschied – signifikante Investitionen in die Forschung und Entwicklung von Analysealgorithmen für Big Data
Statistics
Mining
Predictive
Geospatial Mathematical
Information Management
8 Seite :
Big Data Ansatz ergänzt das bisherige Vorgehensmodell
IT Strukturiert die Daten, um die Fragen zu beantworten
IT Stellen eine Plattform für kreative Erkundung bereit
Fachbereich Erkundet, welche Informationen in den Daten stecken
Fachbereich Bestimmen, welche Fragen gestellt werden
Monatlicher Umsatz Profitabilität Kundenanalyse
Reputation der Marke Produkt Strategie Maximierung der Ausutzung
Big Data Vorgehen Iterative & Forschende Analyse
Traditionelles Vorgehen Strukturierung & Wiederholbare Analyse
Information Management
9 Seite :
Eine Kombination von zwei Technologien für Big Data
• Um den 3 Dimensionen von Big Data – Volume, Velocity und Variety – gerecht zu werden ist eine Kombination von zwei Technologien sinnvoll
• Analyse von Big Data während der Entstehung – Streaming Analytics • Die Daten werden analysiert sobald sie im System ankommen • Die einfließenden Datenströme werden analysiert und können mit gespeicherten
Informationen in Verbindung gebracht werden • Aus der Analyse werden sofort Aktivitäten (Events) abgeleitet ➯ InfoSphere Streams
• Speicherung von großen Datenmengen und flexible Analyse dieser Daten – Internet Scale Analytics • Die Daten werden gespeichert und stehen für verschiedenste Analysen bereit • Operationen auf diesen Daten können effizient ausgeführt werden • Basiert auf dem Hadoop Framework ➯ InfoSphere BigInsights
Information Management
10 Seite :
IBM Big Data Platform
Big Data Accelerators
Eclipse Oozie Hadoop HBase Pig Lucene Jaql
Open Source Foundation Compnents
Big Data Enterprise Engines
Productivity Tools and Optimization
InfoSphere BigInsights InfoSphere Streams
Connectors Applications Blueprints
Text
Image/Video
Financial
Times Series
Statistics
Mining
Geospatial
Mathematical
Acoustic
Workload Management and Optimization
Client and Partner Solutions
IBM Big Data Solutions
Consumability and Management Tools
Data Growth Management
InfoSphere Optim
Database
DB2
Data Warehouse InfoSphere Warehouse
Master Data Management
InfoSphere MDM
Warehouse Appliance
IBM Netezza
Marketing
IBM Unica
Content Analytics
ECM
Business Analytics
Cognos & SPSS
Info
rSph
ere I
nfor
mat
ion
Serv
er
Information Management
11 Seite :
IBM Netezza für Big Data Analyse
• IBM Netezza ist eine DWH Appliance mit MPP Architektur, Hardware basierender Abfragebeschleunigung und in-Datenbank Ausführung von Analysealgorithmen
• Das Appliance Konzept ermöglicht extrem hohe Analyse Leistung ohne Tuning
• Ideal geeignet für Big Data Analyse auf Daten, die im relationalen Modell untergebracht werden können
• In-Database Analysen (z.B. Data Mining, Spatial, Predictive Analysis) out of the box
• Zusätzlich Unterstützung von Hadoop Map/Reduce Algorithmen direkt auf Netezza
Information Management
12 Seite :
Netezza
Integration von IBM Data Warehouse und BigInsights
JaqlSubmit UDF HDFSRead UDF
SQL DB2 Cubing services
Jaql client
Jaql server
Infosphere Warehouse
Infosphere BigInsights
Http Http
JDBC Connector
Persistent data (MapReduce repository)
Information Management
13 Seite :
Streams und BigInsights – Verfeinerung eines Analysemodells • Da die Algorithmen sowohl in Streams als auch in
BigInsights verwendet werden können lassen sich closed-loop Projekte leicht umsetzen
1. Daten laden
Daten- Integration,
Data Mining, Machine Learning, Statistical Modelling
Visualisierung sowohl von Echzeit-Analysen als auch
von Analysen auf Basis historischer Daten
3. Adaptives analytisches Modell
Laden von Daten, Datenaufbereitung, Echtzeit-Analyse, Modell Validierung
Daten
2. Modell erzeugen und verfeinern
Control flow
InfoSphere BigInsights & Data Warehouse
InfoSphere Streams
Information Management
14 Seite :
Business Analytics
Information Integration & Federation
Data Warehouse
Enterprise Content Management
Information Governance Data
Management
Big Data Big Data
Big Data muss ein integrierter Bestandteil der Informationsarchitektur eines Unternehmens sein
Information Management
15 Seite :
BigInsights in der IBM SmartCloud Enterprise
• Ihr eigener Hadoop Cluster in der IBM Cloud in weniger als 30 Minuten
• Benötigt keine eigene Hardware, keine Installation, keine Wartung
• Hadoop Cluster kann in einem beliebigen IBM Cloud Data Center platziert werden
• Geringe Gebühren, die pro Stunde berechnet werden
• Start mit lizenzfreiem BigInsights Basic und einfache Umstellung auf die BigInsights Enterprise Version
Information Management
16 Seite :
BigInsights in der Cloud Einfaches Kennenlernen von Hadoop • Online Kurs erlaubt das Lernen am
Standort ihrer Wahl mit freier Zeiteinteilung
• Kurse und Kursmaterial kostenfrei
• Cloud basierte Sandbox für Übungen
• Bereits mehr als 8500 Teilnehmer
Information Management
17 Seite :
Big Data und Watson
InfoSphere BigInsights
POS Data
CRM Data Social Media
Analyseergebnisse - Kaufverhalten - Soziale Beziehungen - Trends
Erweiterte Analyse und Suche
Watson kann Informationen aus Big Data zur erweiterten Analyse konsumieren!
Big Data Technology wurde genutzt um die Wissensdatenbank von Watson zu bauen!
Watson verwendete das Apache Hadoop Framework zur Verteilung der
Workload beim Laden der Informationen in das Memory"
~200 Millionen Textseiten (Um Jeopardy zu spielen!)
Watson‘s Memory
Information Management
18 Seite :
THINK
ibm.com/bigdata
Nutzen sie bereits das Potential ihrer unstrukturierten Daten? Variety
Velocity
Volume
Können sie durch Analyse in Echtzeit besser werden?
Sammeln sie die Daten nur oder nutzen sie diese auch?
19 Seite :
Wilfried Hoge Leading Technical Sales Professional Senior IT Architect Information Management IBM Deutschland