1
WISSEN TDWI Poster Data Lake Sammelbecken polystrukturierter Daten in Zeiten hybrider Datenarchitekturen Autor: Prof. Dr. Peter Gluchowski Technische Universität Chemnitz tdwi.eu DEFINITION & EINORDNUNG Ein Data Lake nimmt Daten in ihrer unbearbeiteten, originalen Form direkt von den Da- tenquellen mit keiner oder wenig Bereinigung, Standardisierung, Ummodellierung oder Veränderung auf. Die Transformation der Inhalte des Data Lakes erfolgt on the fly im Rahmen der Auswertung (wie z. B. im Rahmen von ad-hoc-analytics) oder als Zwischen- schritt zur Vorbereitung für wiederkehrende Aufgaben (wie z. B. das Berichtswesen). 1 Der Data Lake stellt eine wichtige Komponente einer hybriden Datenarchitektur dar, die sich dadurch auszeichnet, dass in den unterschiedlichen Datenhaltungsbereichen oder -schichten eines analytischen Ecosystems verschiedene Speichertechnologien zum Ein- satz gelangen und dadurch die jeweiligen individuellen Stärken einbringen können. 2 Werden in einem gesondert kontrollierten und verwalteten Bereich des Data Lake zu- sätzlich aufbereitete und qualitätsgesicherte Inhalte vorgehalten, so lässt sich hierfür die Bezeichnung Data Reservoir verwenden, zu dem auch ein Katalog mit Metadaten zu den gespeicherten Objekten gehört, der grundlegende Angaben über die Daten wie zum Beispiel deren Herkunft, Ursprungsformat, fachliche Bedeutung etc. beinhaltet. 3 Data Lakes haben das Potenzial existieren- de Daten-Ökosysteme zu modernisieren und analytische Programme zu erweitern. Welche Anwendungen würden in Ihrer Organisation von einem Hadoop-basierten Data Lake am meisten profitieren? (1173 Antworten von 237 Teilnehmern, bis zu 6 Antworten je Teilnehmer) 49% Advanced Analytics 49% Data Discovery 45% Big Data Analytics 39% Erweiterung des DWH 36% Daten-Landing und -Staging Sicherheit und Governance sind in Data Lakes schwer zu gewährleisten, Hadoop Kenntnisse zu wenig entwickelt. Welche Barierren sind in Ihrer Organisation bei der Implemen- tierung eines Hadoop-basierten Data Lake zu erwarten? (1066 Antworten von 237 Teilnehmern, bis zu 6 Antworten je Teilnehmer) 41% Fehlen einer Data Governance 32% Fehlen von Integrations-Tools 32% Unzureichende Skills zu Big Data 32% Unzureichende Skills zu Hadoop 31% Fehlen eines Business Cases USE CASES (AUSWAHL) Multichannel Marketing Datenmix von Websites, Social Media, externen Daten von Fremdanbietern und inter- nen Daten von Customer Touch Points für ein ganzheitliches Bild des Kunden. Betrugserkennung (Fraud Detection) Aufdeckung von z. B. Versicherungsbetrug und Insiderhandel durch Kombination von Daten aus unterschiedlichen Quellen. Stimmungsanalyse (Sentiment Analysis) Auswertung der subjektiver Aussagen und Meinungen natürlicher Personen vor allem aus Sozialen Medien durch Verfahren des Text Minings. Wartung und Instandhaltung (Predictive Maintenance) Kombination von maschinengenerierte Sensordaten mit anderen Daten (z. B. Maschi- nenstammdaten), um daraus Erkenntnisse über den Zustand der Anlagen und erforderli- che Maßnahmen zu gewinnen. ERFOLGSPOTENZIALE UND BARRIEREN Erfolgspotenziale Barrieren DATA LAKES IN EINER HYBRIDEN DATENARCHITEKTUR ZAHLEN & FAKTEN In Anlehnung an: Kromer, Mark : Modern Hybrid Big Data Warehouse Architectures, in: Business Intelligence Journal, 19. Jg., 2015, Nr. 4, S. 48 - 55 TDWI: TDWI Infographic, Q1 2017, www.TDWI.org Russom , Philip: Data Lakes - Purposes, Practices, Patterns, and Platforms, TDWI Best Practice Report, Q1 2017 ZEIT DER PRODUKTIVSETZUNG EINES DATA LAKE IN DER EIGENEN ORGANISATION AUFBEREITUNGSGRAD ORT DER INSTALLATION Bereits in Produktion 23% Innerhalb von 12 Monaten Innerhalb von 24 Monaten Innerhalb von 36 Monaten In drei oder mehr Jahren Nie 24% 15% 10% 21% 7% 0% 5% 10% 15% 20% 25% 10% 20% 30% 40% 50% Klassisch Inhouse (on premise) Private Cloud Drittanbieter Cloud Service Provider Kombination Andere 12% 7% 5% 60% 0% 52% 8% 16% Ausschließlich detailliertes Rohdatenmaterial Meist Rohdaten, aber mit einem Bereich für restrukturierte Daten Meist Rohdaten, aber mit mehreren Bereichen für restrukturierte Daten Weiß nicht 40% 3% 18% 39% 10% 20% 30% 15% 25% 35% 45% 5% 0% 40% 72 Teilnehmer 237 Teilnehmer 72 Teilnehmer BEDEUTUNG EINES HADOOP-BASIERTEN DATA LAKE FÜR DIE EIGENE ORGANISATION DATENHERKUNFT VERWENDETE SPEICHERTECHNOLOGIE 10% 20% 30% 40% 50% Hadoop Relationales Datenbanksystem Beide Andere 25% 16% 60% 0% 53% 6% Primär Big Data und andere moderne Quellen Meist traditionelle Unternehmensdaten Mischung aus traditionellen und modernen Daten Weiß nicht 39% 1% 15% 24% 45% 10% 20% 30% 40% 15% 25% 35% 45% 5% 0% 72 Teilnehmer 237 Teilnehmer 72 Teilnehmer Extrem wichtig Wichtig Kein drängendes Thema 44% 32% 1 Russom , Philip: Data Lake Management Innovations, January 23, 2017, https://upside.tdwi.org 2 Kromer , Mark: Modern Hybrid Big Data Warehouse Architectures, in: Business Intelligence Journal, 19. Jg., 2015, Nr. 4, S. 48 - 55 3 Hardt, Fabian; Lenzhölzer, Christian: Wie Lakes, Labs und Governance das DWH beeinflussen, in: BI-Spektrum, 12. Jg., 2017, Nr. 3, S. 22 – 26 Russom , Philip: Data Lakes - Purposes, Practices, Patterns, and Platforms, TDWI Best Practice Report, Q1 2017 ABGRENZUNG Kriterium Data Lake DWH Datenvolumen Datentypen Aufbereitung Flexibilität Datenquellen Gute Skalierbarkeit auch bei sehr großen Datenmengen Polystrukturiert Daten überwiegend detailliert und original Speicherung im Original- format – Transformation nach Datenablage (Schema-on-Read) Batch, Realtime, Stream Gute Skalierbarkeit auch bei sehr großen Datenmengen Strukturiert Daten überwiegend veredelt und teils vorkalkuliert Limitierung durch vorgegebenes DWH-Schema (Schema-on-Write) Batch Schäfer, R.; Goetze, D.: Integration von Data Lakes in BI-Landschaften, DW-Konferenz 2016, Regensdorf/Zürich, 22.11.16 Sponsored by www.adesso.de/ http://de.hortonworks.com/ www.infomotion.de www.informatica.com www.opitz-consulting.com www.reply.de www.suisseco.com Präsentationsschicht Analytische Speicherschicht Datensammlung Quellsysteme SQL noSQL DWH Files DATA ANALYTICS SUPPLY CHAIN Sandboxes JSON XML

Poster 'Data Lake' | TDWI Poster - Opitz Consulting · TDWI Poster Data Lake Sammelbecken polystrukturierter Daten in Zeiten hybrider Datenarchitekturen Autor: Prof. Dr. Peter Gluchowski

  • Upload
    others

  • View
    12

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Poster 'Data Lake' | TDWI Poster - Opitz Consulting · TDWI Poster Data Lake Sammelbecken polystrukturierter Daten in Zeiten hybrider Datenarchitekturen Autor: Prof. Dr. Peter Gluchowski

WISSEN

TDWI Poster

Data LakeSammelbecken polystrukturierter Daten in Zeiten hybrider Datenarchitekturen

Autor: Prof. Dr. Peter Gluchowski

Technische Universität Chemnitz

tdwi.eu

DEFINITION & EINORDNUNG

Ein Data Lake nimmt Daten in ihrer unbearbeiteten, originalen Form direkt von den Da- tenquellen mit keiner oder wenig Bereinigung, Standardisierung, Ummodellierung oder Veränderung auf. Die Transformation der Inhalte des Data Lakes erfolgt on the fly im Rahmen der Auswertung (wie z. B. im Rahmen von ad-hoc-analytics) oder als Zwischen- schritt zur Vorbereitung für wiederkehrende Aufgaben (wie z. B. das Berichtswesen).1

Der Data Lake stellt eine wichtige Komponente einer hybriden Datenarchitektur dar, die sich dadurch auszeichnet, dass in den unterschiedlichen Datenhaltungsbereichen oder-schichten eines analytischen Ecosystems verschiedene Speichertechnologien zum Ein- satz gelangen und dadurch die jeweiligen individuellen Stärken einbringen können.2

Werden in einem gesondert kontrollierten und verwalteten Bereich des Data Lake zu-sätzlich aufbereitete und qualitätsgesicherte Inhalte vorgehalten, so lässt sich hierfür die Bezeichnung Data Reservoir verwenden, zu dem auch ein Katalog mit Metadaten zu den gespeicherten Objekten gehört, der grundlegende Angaben über die Daten wie zum Beispiel deren Herkunft, Ursprungsformat, fachliche Bedeutung etc. beinhaltet.3

Data Lakes haben das Potenzial existieren-de Daten-Ökosysteme zu modernisieren und analytische Programme zu erweitern.

Welche Anwendungen würden in Ihrer Organisation von einem Hadoop-basierten Data Lake am meisten profitieren?(1173 Antworten von 237 Teilnehmern, bis zu 6 Antworten je Teilnehmer)

49% Advanced Analytics

49% Data Discovery

45% Big Data Analytics

39% Erweiterung des DWH

36% Daten-Landing und -StagingSicherheit und Governance sind in Data

Lakes schwer zu gewährleisten, Hadoop Kenntnisse zu wenig entwickelt.

Welche Barierren sind in Ihrer Organisation bei der Implemen- tierung eines Hadoop-basierten Data Lake zu erwarten?(1066 Antworten von 237 Teilnehmern, bis zu 6 Antworten je Teilnehmer)

41% Fehlen einer Data Governance

32% Fehlen von Integrations-Tools

32% Unzureichende Skills zu Big Data

32% Unzureichende Skills zu Hadoop

31% Fehlen eines Business Cases

ABGRENZUNG USE CASES (AUSWAHL)

Multichannel MarketingDatenmix von Websites, Social Media, externen Daten von Fremdanbietern und inter-nen Daten von Customer Touch Points für ein ganzheitliches Bild des Kunden.

Betrugserkennung (Fraud Detection) Aufdeckung von z. B. Versicherungsbetrug und Insiderhandel durch Kombination von Daten aus unterschiedlichen Quellen.

Stimmungsanalyse (Sentiment Analysis) Auswertung der subjektiver Aussagen und Meinungen natürlicher Personen vor allem aus Sozialen Medien durch Verfahren des Text Minings.

Wartung und Instandhaltung (Predictive Maintenance)Kombination von maschinengenerierte Sensordaten mit anderen Daten (z. B. Maschi-nenstammdaten), um daraus Erkenntnisse über den Zustand der Anlagen und erforderli-che Maßnahmen zu gewinnen.

ERFOLGSPOTENZIALE UND BARRIEREN

Erfolgspotenziale Barrieren

DATA LAKES IN EINER HYBRIDEN DATENARCHITEKTUR

ZAHLEN & FAKTEN

In Anlehnung an: Kromer, Mark : Modern Hybrid Big Data Warehouse Architectures, in: Business Intelligence Journal, 19. Jg., 2015, Nr. 4, S. 48 - 55TDWI: TDWI Infographic, Q1 2017, www.TDWI.org

Russom , Philip: Data Lakes - Purposes, Practices, Patterns, and Platforms, TDWI Best Practice Report, Q1 2017

ZEIT DER PRODUKTIVSETZUNG EINES DATA LAKE IN DER EIGENEN ORGANISATION AUFBEREITUNGSGRAD ORT DER INSTALLATION

Bereits in Produktion 23%

Innerhalb von 12 Monaten

Innerhalb von 24 Monaten

Innerhalb von 36 Monaten

In drei oder mehr Jahren

Nie

24%

15%

10%

21%

7%

0% 5% 10% 15% 20% 25% 10% 20% 30% 40% 50%

Klassisch Inhouse (on premise)

Private Cloud

Drittanbieter Cloud

Service Provider

Kombination

Andere

12%

7%

5%

60%0%

52%

8%

16%

Ausschließlich detailliertes Rohdatenmaterial

Meist Rohdaten, aber mit einem Bereich für restrukturierte Daten

Meist Rohdaten, aber mit mehreren Bereichen für restrukturierte Daten

Weiß nicht

40%

3%

18%

39%

10% 20% 30%15% 25% 35% 45%5%0% 40%

72 Teilnehmer237 Teilnehmer 72 Teilnehmer

BEDEUTUNG EINES HADOOP-BASIERTEN DATA LAKE FÜR DIE EIGENE ORGANISATION DATENHERKUNFT VERWENDETE SPEICHERTECHNOLOGIE

10% 20% 30% 40% 50%

Hadoop

Relationales Datenbanksystem

Beide

Andere

25%

16%

60%0%

53%

6%

Primär Big Data und andere moderne Quellen

Meist traditionelle Unternehmensdaten

Mischung aus traditionellen und modernen Daten

Weiß nicht

39%

1%

15%24%45%

10% 20% 30% 40%15% 25% 35% 45%5%0%

72 Teilnehmer237 Teilnehmer 72 Teilnehmer

Extrem wichtig

Wichtig

Kein drängendes Thema

44%

32%

1 Russom , Philip: Data Lake Management Innovations, January 23, 2017, https://upside.tdwi.org2 Kromer , Mark: Modern Hybrid Big Data Warehouse Architectures, in: Business Intelligence Journal, 19. Jg., 2015,

Nr. 4, S. 48 - 553 Hardt, Fabian; Lenzhölzer, Christian: Wie Lakes, Labs und Governance das DWH beeinflussen, in: BI-Spektrum, 12.

Jg., 2017, Nr. 3, S. 22 – 26 Russom , Philip: Data Lakes - Purposes, Practices, Patterns, and Platforms, TDWI Best Practice Report, Q1 2017

ABGRENZUNG

Kriterium Data Lake DWH

Datenvolumen

Datentypen

Aufbereitung

Flexibilität

Datenquellen

Gute Skalierbarkeit auch bei sehr großen Datenmengen

Polystrukturiert

Daten überwiegend detailliert und original

Speicherung im Original- format – Transformation nach Datenablage (Schema-on-Read)

Batch, Realtime, Stream

Gute Skalierbarkeit auch bei sehr großen Datenmengen

Strukturiert

Daten überwiegend veredelt und teils vorkalkuliert

Limitierung durch vorgegebenes DWH-Schema (Schema-on-Write)

Batch

Schäfer, R.; Goetze, D.: Integration von Data Lakes in BI-Landschaften, DW-Konferenz 2016, Regensdorf/Zürich, 22.11.16

Sponsored by

www.adesso.de/ http://de.hortonworks.com/ www.infomotion.de www.informatica.com www.opitz-consulting.com www.reply.de www.suisseco.com

Präsentationsschicht

Analytische Speicherschicht

Datensammlung

Quellsysteme

SQL noSQL

DWH

Files

DAT

A A

NA

LYTI

CS S

UPP

LY C

HA

IN

Sandboxes

JSON XML