Wie baut man ein komplementäres Data Warehouse auf Basis von Hadoop?
Gerd König11. November 2013 / DW2013
PROFILECOMPANY
WE ARE HERE
Vom Standort Kreuzlingen / Schweiz bedient YMC seit 2001 namhafte nationale und internationale Kunden.
WEB SOLUTIONS
BIG DATA ANALYTICS
MOBILEAPPLICATIONS
WE CREATE Hosting & Support
Kundenspezifische Individuallösungen fürs Web
Social-Media-Anwendungen (z.B. Corporate Blogs, Wikis, Facebook-Apps etc.)
Web-Strategien
Shop-Systeme, Websites, Intranets
Empfehlungssysteme (z.B. für Apps, Webshops, Websites und Intranet)
Vorhersagemodelle(z.B. für Interessen von App-Usern)
Integrierte Suchsysteme(z.B. auch für unstrukturierte Daten)
Massgeschneiderte Web Analytics Systeme(z.B. mit Echtzeit-Metriken und Effekten in Sozialen Netzwerken)
Training(Apache Hadoop)
Geolokalisierung für ortsspezifische Services
Integration von Sozialen Netzwerken wie Facebook und Twitter
Apps für Tablets und Smartphones (iPhone, Android)
Mobile Strategien
WORKCustomers
WITHWE
VORSTELLUNGFALLBEISPIEL
FALLBEISPIEL
Wir, die WebFashionSellers mit Sitz in Los Angeles, USA, betreiben einen Online Shop und möchten unseren Umsatz steigern.
Unsere häufigsten Fragen:
■ Was sind unsere Topseller?■ Wie umsatzstark war letztes Quartal?■ Wie entwickelt sich der Absatz von Produkt X?■ Wofür geben wir das meiste Geld aus?
■ Wie stehen unsere Kunden zu unseren Produkten?■ Würde der Umsatz steigen, wenn der Versand
kostenlos wäre?■ Wie hoch ist die Abbruchrate im Checkout-Prozess
und warum?
VORSTELLUNGFallbeispiel: Online Shop
AUSGANGS-LAGE
FALLBEISPIEL
AUSGANGSLAGEFallbeispiel: Online Shop
Hypothese“Wenn wir die Lieferzeit um die Hälfte verkürzen, führt dies zu zufriedeneren Kunden und damit zu mehr Umsatz.”
■ Wie wirkt sich die heutige Lieferzeit auf die Kundenzufriedenheit aus?
■ Sollten wir neue Lieferzentren eröffnen?■ Welche Standorte wären dafür optimal?
Fallbeispiel: Online Shop
Wir haben ein externes Support-Call-Center zur Bearbeitung von Kundenanfragen. Alle Aufzeichnungen sämtlicher Anrufe sind als MP3 Dateien verfügbar. Aus den Metadaten können die Hauptursachen für einen Support-Call ermittelt werden.
Was benötigen wir zusätzlich, um die Fragen zu beantworten?
■ Kundendaten (CRM)■ Bestelldaten (OLTP)
AUSGANGSLAGE
ZUR LÖSUNGVON DER IDEE
LÖSUNGSANSATZHigh Level
Big Data Pipeline ■ Ingest/ETL ■ Store ■ Analyse
Die komplette Pipeline wird durch Tools aus dem Hadoop-Ökosystem abgedeckt.Hadoop
Excel
DataMart
Dashboard
Talend
….
Ingest(ETL) Store Analyze
Hadoop-basierte Big Data Pipeline
Hadoop Tools für dieExtract Phase:■ Flume ■ Sqoop ■ Hue
Mögliche Quellen■ Datenbanken ■ Filesystem ■ Streams
Hadoop
Excel
DataMart
Dashboard
Talend
….
Ingest(ETL) Store Analyze
LÖSUNGSANSATZ
Hadoop-basierte Big Data Pipeline
Hadoop Tools für die Transform Phase:■ MapReduce■ Hive ■ Pig
Wozu?■ Validieren ■ Normalisieren■ Filtern■ Aggregieren
Hadoop
Excel
DataMart
Dashboard
Talend
….
Ingest(ETL) Store Analyze
LÖSUNGSANSATZ
Hadoop-basierte Big Data Pipeline
Hadoop Tools für die Load Phase:■ Hive ■ Pig■ Sqoop
Wozu?■ Data Marts■ Data Cubes ■ Tabellen■ Views
Hadoop
Excel
DataMart
Dashboard
Talend
….
Ingest(ETL) Store Analyze
LÖSUNGSANSATZ
Hadoop-basierte Big Data Pipeline
Hadoop Tools für Storage:■ HDFS
Eigenschaften:■ Skalierbar■ Verteilt ■ Zuverlässig■ Redundant■ Kostengünstig (industrial
standard hardware)
Hadoop
Excel
DataMart
Dashboard
Talend
….
Ingest(ETL) Store Analyze
LÖSUNGSANSATZ
Hadoop-basierte Big Data Pipeline
Hadoop Tools für Analyze:■ HiveQL■ PigLatin■ Impala■ Drill■ ODBC■ MapReduce■ Search/SolrCloud
Wozu?■ Anbindung an externe BI-
Lösung■ SQL-basierte Analyse
(low latency oder ad-hoc)
Hadoop
Excel
DataMart
Dashboard
Talend
….
Ingest(ETL) Store Analyze
LÖSUNGSANSATZ
UMSETZUNGFALLBEISPIEL
ANALYSE DER CALLCENTER AUFZEICHNUNGENExtract
Hue: ■ Upload der MP3-
Daten
■ HDFS Verzeichnis nach Upload
Transform
Pig: ■ Dateien einlesen■ Extrahieren der
Metadaten mittels Pig-Streaming
■ Aggregieren■ Speichern
ANALYSE DER CALLCENTER AUFZEICHNUNGEN
Ergebnis
Erkenntnis:Bei mehr als der Hälfte aller eingegangenen Support Calls wurde die Lieferzeit bemängelt.
Hier besteht Optimierungsbedarf, aber welches wäre der optimale Standort für ein neues Verteilzentrum?
ANALYSE DER CALLCENTER AUFZEICHNUNGEN
EVALUATION DES OPTIMALEN STANDORTSSchritt 1: Extract
Sqoop:■ Importieren der
Kunden-, und Bestelldaten aus dem OLTP
Schritt 1: Extract
Sqoop:■ Importieren der
Kunden-, und Bestelldaten aus dem OLTP
EVALUATION DES OPTIMALEN STANDORTS
Schritt 2: Transform
Pig:■ Zusätzlicher Input:
Datei latlon.tsv, enthält für jeden Zipcode den Längen- u. Breitengrad
■ Ermittlung der Geodaten von Kunden, welche kürzlich bestellt haben
EVALUATION DES OPTIMALEN STANDORTS
Schritt 2: Heatmap Kundenwohnorte
■ Wo wohnen die Kunden, die in den letzten 2 Wochen bestellt haben?
akd
EVALUATION DES OPTIMALEN STANDORTS
Schritt 3: Aggregation
Pig:■ Zusätzlicher Input:
alternative_verteilzentren.tsv, enthält 3 mögliche Standorte: Massachusetts, Texas, Missouri
■ Berechnung der durchschnittlichen Entfernung jedes im vorigen Schritt ermittelten Kunden zu jeder der 3 Alternativen
EVALUATION DES OPTIMALEN STANDORTS
Schritt 4: Visualisierung
■ St. Louis, Missouri, ist die Alternative mit der geringsten, durchschnittlichen Entfernung zu den Kunden
EVALUATION DES OPTIMALEN STANDORTS
SUMMARYFAZIT
TAKEAWAYS
■ Hadoop bietet die Möglichkeit zur ad-hoc Datenanalyse auf explorative Art und Weise. Denn es ist unrealistisch, alle Fragen im voraus zu wissen. Fragen ergeben sich während der Analyse.
■ Für Ihr erstes Hadoop-Projekt empfehlen wir Ihnen:■ versuchen Sie nicht Ihr bestehendes DWH abzulösen :)■ starten Sie “einfach”, lean & agile, implementieren Sie einen
POC mit geringem Aufwand (~5MT)■ holen Sie sich die richtigen Personen / Skills ins Boot■ sammeln und speichern Sie alle Daten, es soll keine
Information verloren gehen■ “arbeiten” Sie mit den Daten■ erzeugen Sie Diagramme und Grafiken um Ihre Erkenntnisse
aus der Analyse zu präsentieren
YMC AG
Sonnenstrasse 4
CH-8280 Kreuzlingen
Switzerland
@gerd_koenig
CONTACT [email protected]
Tel. +41 (0)71 508 24 74
www.ymc.ch