Upload
others
View
12
Download
0
Embed Size (px)
Citation preview
WISSEN
TDWI Poster
Data LakeSammelbecken polystrukturierter Daten in Zeiten hybrider Datenarchitekturen
Autor: Prof. Dr. Peter Gluchowski
Technische Universität Chemnitz
tdwi.eu
DEFINITION & EINORDNUNG
Ein Data Lake nimmt Daten in ihrer unbearbeiteten, originalen Form direkt von den Da- tenquellen mit keiner oder wenig Bereinigung, Standardisierung, Ummodellierung oder Veränderung auf. Die Transformation der Inhalte des Data Lakes erfolgt on the fly im Rahmen der Auswertung (wie z. B. im Rahmen von ad-hoc-analytics) oder als Zwischen- schritt zur Vorbereitung für wiederkehrende Aufgaben (wie z. B. das Berichtswesen).1
Der Data Lake stellt eine wichtige Komponente einer hybriden Datenarchitektur dar, die sich dadurch auszeichnet, dass in den unterschiedlichen Datenhaltungsbereichen oder-schichten eines analytischen Ecosystems verschiedene Speichertechnologien zum Ein- satz gelangen und dadurch die jeweiligen individuellen Stärken einbringen können.2
Werden in einem gesondert kontrollierten und verwalteten Bereich des Data Lake zu-sätzlich aufbereitete und qualitätsgesicherte Inhalte vorgehalten, so lässt sich hierfür die Bezeichnung Data Reservoir verwenden, zu dem auch ein Katalog mit Metadaten zu den gespeicherten Objekten gehört, der grundlegende Angaben über die Daten wie zum Beispiel deren Herkunft, Ursprungsformat, fachliche Bedeutung etc. beinhaltet.3
Data Lakes haben das Potenzial existieren-de Daten-Ökosysteme zu modernisieren und analytische Programme zu erweitern.
Welche Anwendungen würden in Ihrer Organisation von einem Hadoop-basierten Data Lake am meisten profitieren?(1173 Antworten von 237 Teilnehmern, bis zu 6 Antworten je Teilnehmer)
49% Advanced Analytics
49% Data Discovery
45% Big Data Analytics
39% Erweiterung des DWH
36% Daten-Landing und -StagingSicherheit und Governance sind in Data
Lakes schwer zu gewährleisten, Hadoop Kenntnisse zu wenig entwickelt.
Welche Barierren sind in Ihrer Organisation bei der Implemen- tierung eines Hadoop-basierten Data Lake zu erwarten?(1066 Antworten von 237 Teilnehmern, bis zu 6 Antworten je Teilnehmer)
41% Fehlen einer Data Governance
32% Fehlen von Integrations-Tools
32% Unzureichende Skills zu Big Data
32% Unzureichende Skills zu Hadoop
31% Fehlen eines Business Cases
ABGRENZUNG USE CASES (AUSWAHL)
Multichannel MarketingDatenmix von Websites, Social Media, externen Daten von Fremdanbietern und inter-nen Daten von Customer Touch Points für ein ganzheitliches Bild des Kunden.
Betrugserkennung (Fraud Detection) Aufdeckung von z. B. Versicherungsbetrug und Insiderhandel durch Kombination von Daten aus unterschiedlichen Quellen.
Stimmungsanalyse (Sentiment Analysis) Auswertung der subjektiver Aussagen und Meinungen natürlicher Personen vor allem aus Sozialen Medien durch Verfahren des Text Minings.
Wartung und Instandhaltung (Predictive Maintenance)Kombination von maschinengenerierte Sensordaten mit anderen Daten (z. B. Maschi-nenstammdaten), um daraus Erkenntnisse über den Zustand der Anlagen und erforderli-che Maßnahmen zu gewinnen.
ERFOLGSPOTENZIALE UND BARRIEREN
Erfolgspotenziale Barrieren
DATA LAKES IN EINER HYBRIDEN DATENARCHITEKTUR
ZAHLEN & FAKTEN
In Anlehnung an: Kromer, Mark : Modern Hybrid Big Data Warehouse Architectures, in: Business Intelligence Journal, 19. Jg., 2015, Nr. 4, S. 48 - 55TDWI: TDWI Infographic, Q1 2017, www.TDWI.org
Russom , Philip: Data Lakes - Purposes, Practices, Patterns, and Platforms, TDWI Best Practice Report, Q1 2017
ZEIT DER PRODUKTIVSETZUNG EINES DATA LAKE IN DER EIGENEN ORGANISATION AUFBEREITUNGSGRAD ORT DER INSTALLATION
Bereits in Produktion 23%
Innerhalb von 12 Monaten
Innerhalb von 24 Monaten
Innerhalb von 36 Monaten
In drei oder mehr Jahren
Nie
24%
15%
10%
21%
7%
0% 5% 10% 15% 20% 25% 10% 20% 30% 40% 50%
Klassisch Inhouse (on premise)
Private Cloud
Drittanbieter Cloud
Service Provider
Kombination
Andere
12%
7%
5%
60%0%
52%
8%
16%
Ausschließlich detailliertes Rohdatenmaterial
Meist Rohdaten, aber mit einem Bereich für restrukturierte Daten
Meist Rohdaten, aber mit mehreren Bereichen für restrukturierte Daten
Weiß nicht
40%
3%
18%
39%
10% 20% 30%15% 25% 35% 45%5%0% 40%
72 Teilnehmer237 Teilnehmer 72 Teilnehmer
BEDEUTUNG EINES HADOOP-BASIERTEN DATA LAKE FÜR DIE EIGENE ORGANISATION DATENHERKUNFT VERWENDETE SPEICHERTECHNOLOGIE
10% 20% 30% 40% 50%
Hadoop
Relationales Datenbanksystem
Beide
Andere
25%
16%
60%0%
53%
6%
Primär Big Data und andere moderne Quellen
Meist traditionelle Unternehmensdaten
Mischung aus traditionellen und modernen Daten
Weiß nicht
39%
1%
15%24%45%
10% 20% 30% 40%15% 25% 35% 45%5%0%
72 Teilnehmer237 Teilnehmer 72 Teilnehmer
Extrem wichtig
Wichtig
Kein drängendes Thema
44%
32%
1 Russom , Philip: Data Lake Management Innovations, January 23, 2017, https://upside.tdwi.org2 Kromer , Mark: Modern Hybrid Big Data Warehouse Architectures, in: Business Intelligence Journal, 19. Jg., 2015,
Nr. 4, S. 48 - 553 Hardt, Fabian; Lenzhölzer, Christian: Wie Lakes, Labs und Governance das DWH beeinflussen, in: BI-Spektrum, 12.
Jg., 2017, Nr. 3, S. 22 – 26 Russom , Philip: Data Lakes - Purposes, Practices, Patterns, and Platforms, TDWI Best Practice Report, Q1 2017
ABGRENZUNG
Kriterium Data Lake DWH
Datenvolumen
Datentypen
Aufbereitung
Flexibilität
Datenquellen
Gute Skalierbarkeit auch bei sehr großen Datenmengen
Polystrukturiert
Daten überwiegend detailliert und original
Speicherung im Original- format – Transformation nach Datenablage (Schema-on-Read)
Batch, Realtime, Stream
Gute Skalierbarkeit auch bei sehr großen Datenmengen
Strukturiert
Daten überwiegend veredelt und teils vorkalkuliert
Limitierung durch vorgegebenes DWH-Schema (Schema-on-Write)
Batch
Schäfer, R.; Goetze, D.: Integration von Data Lakes in BI-Landschaften, DW-Konferenz 2016, Regensdorf/Zürich, 22.11.16
Sponsored by
www.adesso.de/ http://de.hortonworks.com/ www.infomotion.de www.informatica.com www.opitz-consulting.com www.reply.de www.suisseco.com
Präsentationsschicht
Analytische Speicherschicht
Datensammlung
Quellsysteme
SQL noSQL
DWH
Files
DAT
A A
NA
LYTI
CS S
UPP
LY C
HA
IN
Sandboxes
JSON XML