1
Komponenten und Phasen des Data Warehousing
Simon König
2
Einführung
• Arbeitskreis „Konzepte des Data Warehousing“ der GI
• Ziele– Schaffung einer einheitlichen Terminologie– Ausgangspunkt für den Vergleich
bestehender und die Empfehlung für geplante Data-Warehouse-Systeme
3
Datenquellen: Auswahl
• Zweck• Verfügbarkeit
– rechtlich– sozial– technisch– organisatorisch
• Preis
• Qualität– Genauigkeit
(Granularität)– Vollständigkeit– Konsistenz– Relevanz– Korrektheit
Anschließend: Klassifikation
4
Extraktion
• Umfang– Struktureller Extrakt– Inhaltlicher Extrakt– Aggregierter Extrakt
• Arbeitsbereich
• Zeitliche Steuerung– Periodisch– Anfragegesteuert– Ereignisgesteuert– Sofort
5
Monitor
• Überwachungsstrategie– Snapshot– Log– Zeitstempel– Replikation– Trigger
• Anwendungsunterstützt
6
Transformation
• Schematransformation– Integration der Einzelschemata– Einmalige Durchführung– Ziele
• Vollständigkeit• Korrektheit• Minimalität• Verständlichkeit
7
Transformation
• Schematransformation– Konflikte
• Semantische Konflikte• Beschreibungskonflikte• Heterogenitätskonflikte• Strukturkonflikte
8
Transformation
• Datentransformation– Überführung der Daten in neue Schemata– Durchführung bei jeder Transformation– Synonym-, Homonymkonflikte– Vereinheitlichung von Kodierungen– Integritätsbedingungen
9
Transformation
• Datenbereinigung– Durchführung bei jeder Transformation– Korrektur fehlerhafter bzw. Ergänzung
unvollständiger Daten– Referenzielle Integrität beachten
• Gewährleistung hoher Datenqualität– Nachvollziehbarkeit
10
Basisdatenbank
• Zentrale Komponente: Datenlager• Inhalt (Inmon)
– Themenorientierte Daten (subject-oriented)– Integrierte Daten (integrated)– Dauerhafte Daten (non-volatile)– Historische Daten (time-variant)
• Ausgangspunkt für Data Warehouses
11
Konsistenz
12
Data Warehouse
• Extraktion der Daten aus der Basis-datenbank
• Umfang– Struktureller Extrakt– Inhaltlicher Extrakt– Aggregierter Extrakt
• Zeitliche Steuerung– Periodisch– auf Anfrage– Ereignisgesteuert– Sofort
13
Nabe-Speiche-Architektur
14
Data Warehouse
• Data Marts– Verteilung des Data Warehouse– abhängige und unabhängige Data Marts– Abgrenzung zum Data Warehouse
problematisch• Ansatzpunkt für die Analyse
15
Data Marts
abhängig unabhängig
16
Metadaten
• Definition– „Daten über Daten“– fachliche und technische Metadaten– Informationen über Datenstrukturen,
Datentransformationen, Veränderungen von Metadaten
• Erleichtern das Wiederfinden von Informationen
17
Analyse
• Drei Ansätze– Data Access– Online Analytical Processing (OLAP)
• Rotation oder Pivotierung• Roll-up, drill-down, drill-across• Slice and dice
– Data Mining
18
OLAP
19
OLAP
• Rotation• Roll-up• Drill-down• Drill-across• Slice• Dice
20
Architekturbeispiel
21
Vielen Dank für Ihre Aufmerksamkeit