Click here to load reader

Wie baue ich ein DataWarehouse auf Basis Hadoop

  • View
    266

  • Download
    1

Embed Size (px)

DESCRIPTION

UseCase zu "Wie baue ich ein DataWarehouse auf Basis Hadoop"

Text of Wie baue ich ein DataWarehouse auf Basis Hadoop

  • 1. Wie baut man ein komplementres Data Warehouse auf Basis von Hadoop? Gerd Knig 11. November 2013 / DW2013
  • 2. COMPANY PROFILE
  • 3. WE ARE HERE Vom Standort Kreuzlingen / Schweiz bedient YMC seit 2001 namhafte nationale und internationale Kunden.
  • 4. WE CREATE Hosting & Support Social-Media-Anwendungen (z.B. Corporate Blogs, Wikis, Facebook-Apps etc.) Web-Strategien Shop-Systeme, Websites, Intranets Kundenspezifische Individuallsungen frs Web WEB SOLUTIONS Empfehlungssysteme (z.B. fr Apps, Webshops, Websites und Intranet) Mobile Strategien MOBILE APPLICATIONS BIG DATA ANALYTICS Apps fr Tablets und Smartphones (iPhone, Android) Massgeschneiderte Web Analytics Systeme (z.B. mit Echtzeit-Metriken und Effekten in Sozialen Netzwerken) Integration von Sozialen Netzwerken wie Facebook und Twitter Geolokalisierung fr ortsspezifische Services Vorhersagemodelle (z.B. fr Interessen von App-Usern) Training (Apache Hadoop) Integrierte Suchsysteme (z.B. auch fr unstrukturierte Daten)
  • 5. WE WORK WITH Customers
  • 6. FALLBEISPIEL VORSTELLUNG
  • 7. FALLBEISPIEL VORSTELLUNG Fallbeispiel: Online Shop Wir, die WebFashionSellers mit Sitz in Los Angeles, USA, betreiben einen Online Shop und mchten unseren Umsatz steigern. Unsere hufigsten Fragen: Was sind unsere Topseller? Wie umsatzstark war letztes Quartal? Wie entwickelt sich der Absatz von Produkt X? Wofr geben wir das meiste Geld aus? Wie stehen unsere Kunden zu unseren Produkten? Wrde der Umsatz steigen, wenn der Versand kostenlos wre? Wie hoch ist die Abbruchrate im Checkout-Prozess und warum?
  • 8. FALLBEISPIEL AUSGANGSLAGE
  • 9. AUSGANGSLAGE Fallbeispiel: Online Shop Hypothese Wenn wir die Lieferzeit um die Hlfte verkrzen, fhrt dies zu zufriedeneren Kunden und damit zu mehr Umsatz. Wie wirkt sich die heutige Lieferzeit auf die Kundenzufriedenheit aus? Sollten wir neue Lieferzentren erffnen? Welche Standorte wren dafr optimal?
  • 10. AUSGANGSLAGE Fallbeispiel: Online Shop Wir haben ein externes Support-Call-Center zur Bearbeitung von Kundenanfragen. Alle Aufzeichnungen smtlicher Anrufe sind als MP3 Dateien verfgbar. Aus den Metadaten knnen die Hauptursachen fr einen Support-Call ermittelt werden. Was bentigen wir zustzlich, um die Fragen zu beantworten? Kundendaten (CRM) Bestelldaten (OLTP)
  • 11. VON DER IDEE ZUR LSUNG
  • 12. LSUNGSANSATZ High Level Excel DataMart Big Data Pipeline Ingest/ETL Store Analyse Dashboard Ingest (ETL) Store Analyze Talend . Hadoop Die komplette Pipeline wird durch Tools aus dem Hadoop-kosystem abgedeckt.
  • 13. LSUNGSANSATZ Hadoop-basierte Big Data Pipeline Excel DataMart Dashboard Ingest (ETL) Store Analyze Talend . Hadoop Hadoop Tools fr die Extract Phase: Flume Sqoop Hue Mgliche Quellen Datenbanken Filesystem Streams
  • 14. LSUNGSANSATZ Hadoop-basierte Big Data Pipeline Excel DataMart Dashboard Ingest (ETL) Store Analyze Talend . Hadoop Hadoop Tools fr die Transform Phase: MapReduce Hive Pig Wozu? Validieren Normalisieren Filtern Aggregieren
  • 15. LSUNGSANSATZ Hadoop-basierte Big Data Pipeline Excel DataMart Dashboard Ingest (ETL) Store Analyze Talend . Hadoop Hadoop Tools fr die Load Phase: Hive Pig Sqoop Wozu? Data Marts Data Cubes Tabellen Views
  • 16. LSUNGSANSATZ Hadoop-basierte Big Data Pipeline Hadoop Tools fr Storage: HDFS Excel DataMart Dashboard Ingest (ETL) Store Analyze Talend . Hadoop Eigenschaften: Skalierbar Verteilt Zuverlssig Redundant Kostengnstig (industrial standard hardware)
  • 17. LSUNGSANSATZ Hadoop-basierte Big Data Pipeline Excel DataMart Dashboard Ingest (ETL) Store Analyze Talend . Hadoop Hadoop Tools fr Analyze: HiveQL PigLatin Impala Drill ODBC MapReduce Search/SolrCloud Wozu? Anbindung an externe BILsung SQL-basierte Analyse (low latency oder ad-hoc)
  • 18. FALLBEISPIEL UMSETZUNG
  • 19. ANALYSE DER CALLCENTER AUFZEICHNUNGEN Extract Hue: Upload der MP3Daten HDFS Verzeichnis nach Upload
  • 20. ANALYSE DER CALLCENTER AUFZEICHNUNGEN Transform Pig: Dateien einlesen Extrahieren der Metadaten mittels Pig-Streaming Aggregieren Speichern
  • 21. ANALYSE DER CALLCENTER AUFZEICHNUNGEN Ergebnis Erkenntnis: Bei mehr als der Hlfte aller eingegangenen Support Calls wurde die Lieferzeit bemngelt. Hier besteht Optimierungsbedarf, aber welches wre der optimale Standort fr ein neues Verteilzentrum?
  • 22. EVALUATION DES OPTIMALEN STANDORTS Schritt 1: Extract Sqoop: Importieren der Kunden-, und Bestelldaten aus dem OLTP
  • 23. EVALUATION DES OPTIMALEN STANDORTS Schritt 1: Extract Sqoop: Importieren der Kunden-, und Bestelldaten aus dem OLTP
  • 24. EVALUATION DES OPTIMALEN STANDORTS Schritt 2: Transform Pig: Zustzlicher Input: Datei latlon.tsv, enthlt fr jeden Zipcode den Lngenu. Breitengrad Ermittlung der Geodaten von Kunden, welche krzlich bestellt haben
  • 25. EVALUATION DES OPTIMALEN STANDORTS Schritt 2: Heatmap Kundenwohnorte akd Wo wohnen die Kunden, die in den letzten 2 Wochen bestellt haben?
  • 26. EVALUATION DES OPTIMALEN STANDORTS Schritt 3: Aggregation Pig: Zustzlicher Input: alternative_verteilzent ren.tsv, enthlt 3 mgliche Standorte: Massachusetts, Texas, Missouri Berechnung der durchschnittlichen Entfernung jedes im vorigen Schritt ermittelten Kunden zu jeder der 3 Alternativen
  • 27. EVALUATION DES OPTIMALEN STANDORTS Schritt 4: Visualisierung St. Louis, Missouri, ist die Alternative mit der geringsten, durchschnittlichen Entfernung zu den Kunden
  • 28. FAZIT SUMMARY
  • 29. TAKEAWAYS Hadoop bietet die Mglichkeit zur ad-hoc Datenanalyse auf explorative Art und Weise. Denn es ist unrealistisch, alle Fragen im voraus zu wissen. Fragen ergeben sich whrend der Analyse. Fr Ihr erstes Hadoop-Projekt empfehlen wir Ihnen: versuchen Sie nicht Ihr bestehendes DWH ab