Data Warehousing und Data Mining - hu- · PDF fileData Warehousing und Data Mining •...

Ulf Leser

Wissensmanagement in der Bioinformatik

Data Warehousing und

Data Mining

Wintersemester 2014 / 2015

Ulf Leser: Data Warehousing und Data Mining 2

Datenbanken und Datenanalyse

• „... Der typische Wal-Mart Kaufagent verwendet täglich mächtige Data Mining Werkzeuge, um die Daten der 300 Terabyte Datenbank zu erforschen“ [Jim Gray, Computer Zeitung 17/2003]

• „Today, Wal-Mart … is logging one million customer transactions per hour and feeding information into databases estimated at 2.5 petabytes in size.”

[Rogers, Big Data is Scaling BI and Analytics, 2011]

eCommerce

Backup Durchsatz

Load- balancing

Daten bank

Portfolio Umsatz

Marketing

Die Datenbank dazu

line_item order_id product_id amount single_price

order id session_id supply_id total_amount

day id day month_id

month id Month year_id

year id year

supply_station id region_id

product id productgroup_id

productgroup id name

region id name

customer id name cust_class

discount customer_id productg_id discount

session id cust_id day_id time

order_status order_id supply_id status

Strategische Fragen

• Was kaufen Kunden

– Welche Produkte? Wann? Welche gehen zurück? Welche werden wie bewertet?

• Wie kann man liefern – Lagerhaltung, Lagerplatzierung, Auslieferungslogistik,

Reklamationen, Kundenzufriedenheit, Ratings, …

• Wie kann man mehr verkaufen – Kundensegmentierung, personalisierte Empfehlungen,

Manipulation der Suchergebnisse, personalisierter Werbung, …

• Wie kann man besser planen – Sortimentplanung, Saisongeschäft, Einkaufsrabatte, …

Fragen eines Marketingleiters

day id day month_id

year id year

region id name

Wie viele abgeschlossene Bestellungen haben wir jeweils im Monat vor Weihnachten, aufgeschlüsselt nach Produktgruppen und Promotion?

Technisch

day id day month_id

year id year

region id name

SELECT Y.year, PG.name, DI.disc, count(*) FROM year Y, month M, day D, session S, line_item I, order O, product P, productgroup PG, discount DI, order_status OS WHERE M.year_id = Y.id and D.month_id = M.id and S.day_id = D.id and O.session_id = S.id and I.order_id = O.id and I.product_id = P.id and P.productgroup_id = PG.id and DI.productgroup_id = PG.id and O.id = OS.order_id D.day < 24 and M.month = 12 and OS.status=‘FINISHED‘ GROUP BY Y.year, PG.name, DI.discount ORDER BY Y.year, DI.discount

Ergebnis

9 Joins

• year: 10 Records • month: 120 Records • day: 3650 Records • session: 36.000.000 • order: 37.000.000 • line_item: 72.000.000 • order_status: 37.000.000 • product: 200.000 • productgroup: 100 • discount: 50

Problem! • Schwierig zu optimieren (Join-Order) • Ja nach Ausführungsplan riesige Zwischenergebnisse • Viele strategische Anfragen werden ähnlich aussehen – jedes Mal die gleichen Probleme

In Wahrheit ...

Eine Möglichkeit

CREATE VIEW christmas AS

SELECT Y.year, PG.name, DI.disc, count(*) AS o_count FROM FR.year Y, FR.month M, FR.day D, FR.session S, … WHERE M.year = Y.id and ... GROUP BY Y.year, DI.discount

UNION ALL

SELECT Y.year, PG.name, DI.disc, count(*) AS o_count FROM EN.year Y, EN.month M, EN.day D, EN.session S, … WHERE M.year = Y.id and ... GROUP BY Y.year, DI.discount

SELECT year, name, disc, sum(o_count) FROM christmas GROUP BY year, name, disc ORDER BY year, disc

Probleme

• Count über Union über verteilte Datenbanken • Heterogenität

– Quellen werden Schemata verändern – Länderspezifischer Eigenheiten müssen berücksichtigt werden

• MWST, Versandart /-kosten, Verbraucherschutz ...

– Oftmals verborgene Änderungen in der Semantik der Daten

• Datenmenge: Nicht so schlimm (Präaggregation) • Divergierende Anforderungen

– Anfrage belastet die operativen Systeme – Operative Systeme brauchen die historischen Daten nicht

• Admin-Ziel: Frühes löschen (abgeschlossene Bestellungen)

– Planung braucht historische Perspektive • Admin-Ziel: Alles aufheben

Ursprüngliches Szenario

– Prinzipiell schnelle operative Anfragen – Aber erhebliche Belastung durch Planungs-Anfragen – Lange Antwortzeiten für strategische Anfragen – Heterogenität muss im View abgefangen werden

EN FR DE

Zentrale Datenbank

– Zweigstellen schreiben übers Netz – Lange Antwortzeiten im operativen Betrieb

– Erheblicher Datentransport

– Schnelle Planungsanfragen (lokal) – Heterogenität muss beim Schreiben abgefangen werden

Replizierte Datenbanken

Replikation Replikation

• Lokale Anfrage arbeiten auf riesigen Tabellen • Langsamer operativer Betrieb: Vielfältiges replizieren, größere Tabs • Planungsanfragen können auf jeder Instanz beantwortet werden • Heterogenität muss in jeder Replikation abgefangen werden

Data Warehouse

• Redundante Datenhaltung • DWH kann unabhängig von Quellen entworfen werden

– Optimiert für andere Arten von Anfragen

• Quellen werden nur bei periodischen Uploads belastet • Heterogenität muss beim Upload abgefangen werden

Data Warehousing und Data Mining

• Modul 4+2 SWS – Mo, 11.00 – 13.00 Uhr, RUD 26, 1’303 – Do, 13.00 – 15.00 Uhr, RUD 26, 1’305

• Übung (Sebastian Wandelt) – Do, 15.00 – 17.00 Uhr, RUD 26, 1‘305 – Erster Termin: Donnerstag, 23.10.2014 – Teilnahme und Bestehen ist Voraussetzung für Prüfung – Anmeldung über GOYA

• Sprechstunde – Nach Vereinbarung – IV.401, (030) 2093 – 3902 – leser(...)informatik.hu-berlin.de

Einbettung

• Voraussetzung: DBS-I

– Relationales Modell und Algebra – ER-Modell – Selektion, Projektion, Joins, Group-by, … – Grundzüge der Anfrageoptimierung

• Keine Voraussetzung: DBS-II • Anrechenbar

– Diplomhauptstudium, Praktische Informatik – Master Informatik, Schwerpunkt Datenmanagement (10SP) – Master Wirtschaftsinformatik (10SP)

Data Warehousing und …

• Architektur & Prozesse • Multidimensionale Modellierung • Umsetzung des multidimensionalen Datenmodells • Extraction, Transformation, Load (ETL) • Indexstrukturen für DWH • Logische Optimierung • Materialisierte Sichten

1.Qrtl.

2.Qrtl.

3.Qrtl.

4.Qrtl.

… Data Mining

• Datenaufbereitung • Clustering

– Kundensegmentierung • Klassifikation

– Kreditrating • Assoziationsregeln

– Warenkorbanalyse

1.Qrtl.

2.Qrtl.

3.Qrtl.

4.Qrtl.

Literatur

• Primär – Lehner: „Datenbanktechnologie für Data Warehouse Systeme“,

dpunkt.Verlag, 2003 – Han/Kamber: „Data Mining“, Morgan Kaufmann, 2006

• Weitere – Bauer/Günzel: „Data Warehouse Systeme“, dpunkt.Verlag, 2012 – Oehler: „OLAP: Grundlagen, Modellierung und

betriebswirtschaftliche Grundlagen“, Hanser Verlag, 2000 • Übersichtsartikel

– Chaudhuri, Dayal: „An Overview of Data Warehousing and OLAP Technology“, SIGMOD Record, 1997

– Jensen et al. (2010). "Multidimensional Databases and Data Warehousing", Morgan & Claypool Publishers.

– Fayyad: „From Data Mining to Knowledge Discovery in Databases”, Ai Magazine, 1996

Gäste

• 11.12.14: Christoph Jacobs, CETERIS AG

Webseite

Übung

• Sie bilden Teams • Es gibt 5-6 Aufgaben a ca. 2 Wochen • Praktisch orientiert: Arbeiten mit Oracle • Alle Aufgaben müssen bestanden werden

Feedback WS 2011/2012

Was an der Vorlesung gefiel

• 2 Beispiele • 5 Vortragsstil • 2 Praxisbezug • 2 Organisation der Gastvorlesungen • Drumherumgerede • 2 Folien Oracle-Bezug • 3 WDH am Anfang • Bereitschaft zur Folienkorrektur • 4 Gute Struktur • Viel gelernt • Guter Theorieanteil

Was ich besser machen kann

• 4 Mehr Data Mining • Weniger Theorie-Marathon • MV-Teil zu schnell • 4 Zu viel Stoff, dann zu oberflächlich; Feintuning fehlt • Mehr Gastdozenten • 3 Mehr Beispiele • 2 Langsamer werden • Sehr frontal • Folien vorher ins Netz • Wdh RDBMS raus • Zu technisch • Folien durchgehend nummerieren • Oracle-Vorlesung wenig hilfreich • Gastvorlesung zu konkretem Projekt • Wdh am Anfang oft zu lang

Ich will (habe)

• MV-Optimierung stark kürzen • Wiederholung RDBMS raus • Folien weiter entschlacken • Keine Verkaufs-Gastvorlesung mehr • Data Mining Teil ausbauen

Fragen

• Diplominformatiker? • Semester? • Prüfung? • Spezielle Erwartungen? Erfahrungen?

TPC.ORG: Benchmarks

• Vergleich der Leistungsfähigkeit von Datenbanken – TPC-C OLTP Benchmark – TPC-H Ad-Hoc Decision Support (variable Anfragen) – TPC-DS New Decision Support Benchmark (no results) – TPC-R Reporting Decision Support (feste Anfragen) – TPC-W eCommerce Transaktionsverarbeitung – [TPC-D Abgelöst durch H und R] – TPC-E Neuer OLTP Benchmark

• TPC-H – Vorgegebene Schemata (Lieferwesen) – Schema-, Anfrage- und Datengeneratoren – Unterschiedliche DB-Größen

• 100 GB - 300 GB - 1 TB - 3 TB

TPC-H Ergebnisse 3000 GB, 2003

Data Warehousing und Data Mining - hu- · PDF fileData Warehousing und Data Mining •...

Documents

Introduzione al data warehousing

Data Warehousing and Data Mining - Bharathidasan · PDF fileContent •Introduction •Overview of data mining technology •Association rules •Classification •Clustering •Applications

Microsoft SQL Server 2005 Analysis Services / Data Warehousing / Data Mining Architektur und Verwendung

Data Warehousing and Data Mining - hu-berlin.de · 2018. 2. 6. · Ulf Leser: Data Warehousing und Data Mining 15 Kategoriale Attribute ID Alter Autotyp Risiko 1 23 Familie hoch 2

APPLICATION PROGRAMMING: DATA MINING AND … Engineering W-4/04_Data...Introduction The purpose of this “Guide to Data Mining and Data Warehousing” is to present the practical

Data Warehousing

1 Minggu 13, Pertemuan 25 Data Warehousing and Data Mining Concepts (Ch.30.1 - 30.3, 30.5, 32.2.1 - 32.2.2 ; 3rd ed.) Matakuliah: T0206-Sistem Basisdata

Data Warehousing und Data Mining - hu-berlin.de · Ulf Leser: Data Warehousing and Data Mining 4 Definition DWH • “A DWH is a subject-oriented, integrated, non-volatile, and time-variant

Data Warehousing und Data Mining - Institut für Informatik · Ulf Leser Wissensmanagement in der Bioinformatik Data Warehousing und Data Mining Das multidimensionale Datenmodell

Kapitel 6: Data Preprocessing - ipd.kit.eduipd/institut/dwm/dwm-6-qualityAspekte.pdf · Klemens Böhm Data Warehousing und Mining: Data Preprocessing – 9 Duplikateliminierung –

Data Warehousing _ Hefesto

Data Mining: Concepts and Techniquesvjit.ac.in/.../Data-Warehousing-Data-Mining-Lecture-notes...UNIT-1.pdfRelational data model, relational DBMS implementation ... Data mining, data

Data Warehousing und Data Mining - · PDF fileUlf Leser: Data Warehousing und Data Mining 2 . Wo sind wir? • Einleitung & Motivation • Architektur • Modellierung von Daten im

Data Warehousing und Data Mining - hu-berlin.de · Ulf Leser: Data Warehousing und Data Mining 4 Materialisierte Sichten • Beobachtung – Viele Anfragen sind Variationen anderer

Data Warehousing - hu-berlin.de€¦ · Ulf Leser: Data Warehousing, Sommersemester 2005 2 • Nächsten Montag – OLAP und Data Mining Plattform Analysis Services und die Data Warehouse

ETL: Extraction, Transformation, Load · Ulf Leser Wissensmanagement in der Bioinformatik ETL: Extraction, Transformation, Load Data Warehousing und Data Mining

OLAP –OnLine Analytical Procesing Data Warehousing - Dátové sklady Data Mining – Dolovanie dát

229-611 Data Warehousing and Data Mining

APPLICATION PROGRAMMING: DATA MINING AND DATA WAREHOUSING ... · PDF fileDATA MINING AND DATA WAREHOUSING PRACTICAL GUIDE Data Mining and Data Warehousing Wrocław 2011. Wrocław University

Praktikum: Data Warehousing und Data Mining - IPD Böhm · Praktikum Data Warehousing und Mining 6 Wahl des Stoppkriteriums • Natürliche Stoppkriterien • Knoten enthält (fast)