Transcript
Page 1: Wie baue ich ein DataWarehouse auf Basis Hadoop

Wie baut man ein komplementäres Data Warehouse auf Basis von Hadoop?

Gerd König11. November 2013 / DW2013

Page 2: Wie baue ich ein DataWarehouse auf Basis Hadoop

PROFILECOMPANY

Page 3: Wie baue ich ein DataWarehouse auf Basis Hadoop

WE ARE HERE

Vom Standort Kreuzlingen / Schweiz bedient YMC seit 2001 namhafte nationale und internationale Kunden.

Page 4: Wie baue ich ein DataWarehouse auf Basis Hadoop

WEB SOLUTIONS

BIG DATA ANALYTICS

MOBILEAPPLICATIONS

WE CREATE Hosting & Support

Kundenspezifische Individuallösungen fürs Web

Social-Media-Anwendungen (z.B. Corporate Blogs, Wikis, Facebook-Apps etc.)

Web-Strategien

Shop-Systeme, Websites, Intranets

Empfehlungssysteme (z.B. für Apps, Webshops, Websites und Intranet)

Vorhersagemodelle(z.B. für Interessen von App-Usern)

Integrierte Suchsysteme(z.B. auch für unstrukturierte Daten)

Massgeschneiderte Web Analytics Systeme(z.B. mit Echtzeit-Metriken und Effekten in Sozialen Netzwerken)

Training(Apache Hadoop)

Geolokalisierung für ortsspezifische Services

Integration von Sozialen Netzwerken wie Facebook und Twitter

Apps für Tablets und Smartphones (iPhone, Android)

Mobile Strategien

Page 5: Wie baue ich ein DataWarehouse auf Basis Hadoop

WORKCustomers

WITHWE

Page 6: Wie baue ich ein DataWarehouse auf Basis Hadoop

VORSTELLUNGFALLBEISPIEL

Page 7: Wie baue ich ein DataWarehouse auf Basis Hadoop

FALLBEISPIEL

Wir, die WebFashionSellers mit Sitz in Los Angeles, USA, betreiben einen Online Shop und möchten unseren Umsatz steigern.

Unsere häufigsten Fragen:

■ Was sind unsere Topseller?■ Wie umsatzstark war letztes Quartal?■ Wie entwickelt sich der Absatz von Produkt X?■ Wofür geben wir das meiste Geld aus?

■ Wie stehen unsere Kunden zu unseren Produkten?■ Würde der Umsatz steigen, wenn der Versand

kostenlos wäre?■ Wie hoch ist die Abbruchrate im Checkout-Prozess

und warum?

VORSTELLUNGFallbeispiel: Online Shop

Page 8: Wie baue ich ein DataWarehouse auf Basis Hadoop

AUSGANGS-LAGE

FALLBEISPIEL

Page 9: Wie baue ich ein DataWarehouse auf Basis Hadoop

AUSGANGSLAGEFallbeispiel: Online Shop

Hypothese“Wenn wir die Lieferzeit um die Hälfte verkürzen, führt dies zu zufriedeneren Kunden und damit zu mehr Umsatz.”

■ Wie wirkt sich die heutige Lieferzeit auf die Kundenzufriedenheit aus?

■ Sollten wir neue Lieferzentren eröffnen?■ Welche Standorte wären dafür optimal?

Page 10: Wie baue ich ein DataWarehouse auf Basis Hadoop

Fallbeispiel: Online Shop

Wir haben ein externes Support-Call-Center zur Bearbeitung von Kundenanfragen. Alle Aufzeichnungen sämtlicher Anrufe sind als MP3 Dateien verfügbar. Aus den Metadaten können die Hauptursachen für einen Support-Call ermittelt werden.

Was benötigen wir zusätzlich, um die Fragen zu beantworten?

■ Kundendaten (CRM)■ Bestelldaten (OLTP)

AUSGANGSLAGE

Page 11: Wie baue ich ein DataWarehouse auf Basis Hadoop

ZUR LÖSUNGVON DER IDEE

Page 12: Wie baue ich ein DataWarehouse auf Basis Hadoop

LÖSUNGSANSATZHigh Level

Big Data Pipeline ■ Ingest/ETL ■ Store ■ Analyse

Die komplette Pipeline wird durch Tools aus dem Hadoop-Ökosystem abgedeckt.Hadoop

Excel

DataMart

Dashboard

Talend

….

Ingest(ETL) Store Analyze

Page 13: Wie baue ich ein DataWarehouse auf Basis Hadoop

Hadoop-basierte Big Data Pipeline

Hadoop Tools für dieExtract Phase:■ Flume ■ Sqoop ■ Hue

Mögliche Quellen■ Datenbanken ■ Filesystem ■ Streams

Hadoop

Excel

DataMart

Dashboard

Talend

….

Ingest(ETL) Store Analyze

LÖSUNGSANSATZ

Page 14: Wie baue ich ein DataWarehouse auf Basis Hadoop

Hadoop-basierte Big Data Pipeline

Hadoop Tools für die Transform Phase:■ MapReduce■ Hive ■ Pig

Wozu?■ Validieren ■ Normalisieren■ Filtern■ Aggregieren

Hadoop

Excel

DataMart

Dashboard

Talend

….

Ingest(ETL) Store Analyze

LÖSUNGSANSATZ

Page 15: Wie baue ich ein DataWarehouse auf Basis Hadoop

Hadoop-basierte Big Data Pipeline

Hadoop Tools für die Load Phase:■ Hive ■ Pig■ Sqoop

Wozu?■ Data Marts■ Data Cubes ■ Tabellen■ Views

Hadoop

Excel

DataMart

Dashboard

Talend

….

Ingest(ETL) Store Analyze

LÖSUNGSANSATZ

Page 16: Wie baue ich ein DataWarehouse auf Basis Hadoop

Hadoop-basierte Big Data Pipeline

Hadoop Tools für Storage:■ HDFS

Eigenschaften:■ Skalierbar■ Verteilt ■ Zuverlässig■ Redundant■ Kostengünstig (industrial

standard hardware)

Hadoop

Excel

DataMart

Dashboard

Talend

….

Ingest(ETL) Store Analyze

LÖSUNGSANSATZ

Page 17: Wie baue ich ein DataWarehouse auf Basis Hadoop

Hadoop-basierte Big Data Pipeline

Hadoop Tools für Analyze:■ HiveQL■ PigLatin■ Impala■ Drill■ ODBC■ MapReduce■ Search/SolrCloud

Wozu?■ Anbindung an externe BI-

Lösung■ SQL-basierte Analyse

(low latency oder ad-hoc)

Hadoop

Excel

DataMart

Dashboard

Talend

….

Ingest(ETL) Store Analyze

LÖSUNGSANSATZ

Page 18: Wie baue ich ein DataWarehouse auf Basis Hadoop

UMSETZUNGFALLBEISPIEL

Page 19: Wie baue ich ein DataWarehouse auf Basis Hadoop

ANALYSE DER CALLCENTER AUFZEICHNUNGENExtract

Hue: ■ Upload der MP3-

Daten

■ HDFS Verzeichnis nach Upload

Page 20: Wie baue ich ein DataWarehouse auf Basis Hadoop

Transform

Pig: ■ Dateien einlesen■ Extrahieren der

Metadaten mittels Pig-Streaming

■ Aggregieren■ Speichern

ANALYSE DER CALLCENTER AUFZEICHNUNGEN

Page 21: Wie baue ich ein DataWarehouse auf Basis Hadoop

Ergebnis

Erkenntnis:Bei mehr als der Hälfte aller eingegangenen Support Calls wurde die Lieferzeit bemängelt.

Hier besteht Optimierungsbedarf, aber welches wäre der optimale Standort für ein neues Verteilzentrum?

ANALYSE DER CALLCENTER AUFZEICHNUNGEN

Page 22: Wie baue ich ein DataWarehouse auf Basis Hadoop

EVALUATION DES OPTIMALEN STANDORTSSchritt 1: Extract

Sqoop:■ Importieren der

Kunden-, und Bestelldaten aus dem OLTP

Page 23: Wie baue ich ein DataWarehouse auf Basis Hadoop

Schritt 1: Extract

Sqoop:■ Importieren der

Kunden-, und Bestelldaten aus dem OLTP

EVALUATION DES OPTIMALEN STANDORTS

Page 24: Wie baue ich ein DataWarehouse auf Basis Hadoop

Schritt 2: Transform

Pig:■ Zusätzlicher Input:

Datei latlon.tsv, enthält für jeden Zipcode den Längen- u. Breitengrad

■ Ermittlung der Geodaten von Kunden, welche kürzlich bestellt haben

EVALUATION DES OPTIMALEN STANDORTS

Page 25: Wie baue ich ein DataWarehouse auf Basis Hadoop

Schritt 2: Heatmap Kundenwohnorte

■ Wo wohnen die Kunden, die in den letzten 2 Wochen bestellt haben?

akd

EVALUATION DES OPTIMALEN STANDORTS

Page 26: Wie baue ich ein DataWarehouse auf Basis Hadoop

Schritt 3: Aggregation

Pig:■ Zusätzlicher Input:

alternative_verteilzentren.tsv, enthält 3 mögliche Standorte: Massachusetts, Texas, Missouri

■ Berechnung der durchschnittlichen Entfernung jedes im vorigen Schritt ermittelten Kunden zu jeder der 3 Alternativen

EVALUATION DES OPTIMALEN STANDORTS

Page 27: Wie baue ich ein DataWarehouse auf Basis Hadoop

Schritt 4: Visualisierung

■ St. Louis, Missouri, ist die Alternative mit der geringsten, durchschnittlichen Entfernung zu den Kunden

EVALUATION DES OPTIMALEN STANDORTS

Page 28: Wie baue ich ein DataWarehouse auf Basis Hadoop

SUMMARYFAZIT

Page 29: Wie baue ich ein DataWarehouse auf Basis Hadoop

TAKEAWAYS

■ Hadoop bietet die Möglichkeit zur ad-hoc Datenanalyse auf explorative Art und Weise. Denn es ist unrealistisch, alle Fragen im voraus zu wissen. Fragen ergeben sich während der Analyse.

■ Für Ihr erstes Hadoop-Projekt empfehlen wir Ihnen:■ versuchen Sie nicht Ihr bestehendes DWH abzulösen :)■ starten Sie “einfach”, lean & agile, implementieren Sie einen

POC mit geringem Aufwand (~5MT)■ holen Sie sich die richtigen Personen / Skills ins Boot■ sammeln und speichern Sie alle Daten, es soll keine

Information verloren gehen■ “arbeiten” Sie mit den Daten■ erzeugen Sie Diagramme und Grafiken um Ihre Erkenntnisse

aus der Analyse zu präsentieren

Page 30: Wie baue ich ein DataWarehouse auf Basis Hadoop

YMC AG

Sonnenstrasse 4

CH-8280 Kreuzlingen

Switzerland

@gerd_koenig

CONTACT [email protected]

Tel. +41 (0)71 508 24 74

www.ymc.ch