Upload
florian-franke
View
219
Download
5
Embed Size (px)
Citation preview
Thema 1
Data WareHouseVolker Jahns
Themen
1. Einführung - Motivation
2. Aufbau eines DWh
3. Data Marts vs. Data WareHouse
4. Operative Daten vs. Analytische Daten
5. Datenbereitstellung
[1.] Einführung - Motivation
Eine Technik / Konzept unterschiedliche Daten in zentraler Form zu speichern
Zentrale Informationsquelle für Daten
Ermöglicht globale Sicht auf heterogene Daten
Verfolgt das Ziel der Integration und Separation
Was ist ein Data Ware House?
Definition:
Ein Data-Warehouse ist eine zentrale Datensammlung (meist eine Datenbank), deren Inhalt sich aus
Daten unterschiedlicher Quellen zusammensetzt.
Die Daten werden von den Datenquellen in das Data-Warehouse geladen und dort vor allem für die Datenanalyse und
zur betriebswirtschaftlichen Entscheidungshilfe in Unternehmen langfristig gespeichert.
DW‘s sind in den Bereich der Softwareentwicklung einzuordnen
Entwicklung durchläuft ein eigenständigen Prozess
Fachkenntnisse aus der IT und Fachabteilung sind notwendig
[1.] Einführung - Motivation
Grundlegendes für den Aufbau eines DW
Der Aufbau eines DW kann in zwei grundlegende Phasen gegliedert werden
Beide Entwürfe werden in dem ALC (Application Life Cycle) – Prozess detailliert ausgeführt, um eine fundierte Basis für die Umsetzung des DW zu bilden.
[2.] Aufbau eines Data WareHouses
Grundlegendes für den Aufbau eines DW
Konzeptueller Entwurf
IT Entwurf
Aufbau
[2.] Aufbau eines Data WareHouses
Grundlegendes für den Aufbau eines DW
Anforderungen
ETL
ERP‘s
Vertrieb Produktion ReWe
Mehrwert
Unternehmen
Magic
[2.] Aufbau eines Data WareHouses
Der ALC – Prozess wird in folgende Phasen gegliedert
Grundlegendes für den Aufbau eines DW
Deployment Management Verificiation
[2.] Aufbau eines Data WareHouses
Deployment
Grundlegende Fragen in der Vorstudienphase: FACHABTEILUNG
Was sind die Ziele?
Was will man damit erreichen bzw. welche Situation verbessern?
Können damit Erfolgspotentiale/Wettbewerbsfaktoren geweckt bzw. gefördert werden?
Welchen ROI haben wir bzw. gibt es einen?
DW geeignet oder „Oversized“ ?
[2.] Aufbau eines Data WareHouses
Deployment
Grundlegende Fragen in der Vorstudienphase: IT – Abteilung Was für operative Systeme sind vorhanden?
Welche Daten müssen/sollen übernommen werden?
Wo liegen die größten Probleme? Daten Qualität Daten Granularität Daten Konsistenz
Welche DW – Anbieter sind für uns optimal?
Welche Anforderungen aus der Fachabteilung sind überhaupt realisierbar?
[2.] Aufbau eines Data WareHouses
Drei Varianten stehen zur Verfügung
Implementierung
Op.Data
DW
Th.P.Data Op.
DataTh.P.Data
DM DM
Op.Data
Th.P.Data
Virtuelles DW Zentrales DW Data Mart
[2.] Aufbau eines Data WareHouses
ALC – Management/Implementierung
Nach der Auswahl der DW-Grobstruktur (Zentral, Virtuell oder DM),
müssen folgende Fragen geklärt werden:
Granularität der Daten
Partitionierung Horizontal Vertikal
Denormalisierung
Externe Daten
Datenhaltung
ETL‘sS
pezialisierung
Gen
eral
isie
rung
[3.] Data Warehouse vs. Data Mart
[3.] Data Warehouse vs. Data Mart
Data Warehouse
Eine von den operativen DV-Systemen isolierte Datenbank, die als unternehmensweite zentrale Datenbasis für alle Ausprägungen managementunterstützender Systeme dient
Data Mart
Datensammlung, die auf die Bedürfnisse einer bestimmten Abteilung oder eines eingegrenzten Themas ausgerichtet ist.
[3.] Data Warehouse / Data Mart
Kriterien Data Mart Data Warehouse
Anwendungsbezug Ja Nein, anwendungsneutralAdressat der Datenbereitstellung
Abteilung Unternehmen
Vorherrschende Datenbanktechnologie
Multidimensional Relational
Granularität der Daten Niedrig HochDatenmenge Niedrig HochMenge historischer Daten Niedrig HochOptimierungsziel Abfragegeschwindigkeit Datenmenge
Anzahl pro Unternehmen Mehrere Eines bis sehr wenige
Datenmodell In jedem Data Mart unterschiedlich
Einheitliches Unternehemsmodell
[3.] Daten für operative / analytische Anwendungen (1)
Kriterien Daten für operative Anwendungen
Daten für analytische Anwendungen
Zweck Unterstützung und Abwicklung operativer Geschäftsvorfälle
Informationen für das Management; Unterstützung von Entscheidungen, themenorientiert
Inhalt Detaillierte, aktuelle Geschäftsvorfalldaten, zeitpunktorientiert
Verdichtete und bereinigte Daten, historische und z.T. zukünftige Daten, zeitraumorientiert
Aktualität Hoch (online, realtime) Meist keine Tagesaktualität
Modellierung Altdatenbstände oft nicht modelliert (funktionsorientiert)
Sachgebiets- oder themenbezogen modelliert; standardisiert und endbenutzertauglich
[3.] Daten für operative / analytische Anwendungen (2)
Kriterien Daten für operative Anwendungen
Daten für analytische Anwendungen
Zustand Redundant, inkonsistent, teilweise unnormalisiert
Konsistent modelliert, kontrollierte Redundanzen
Änderungen Laufend Automatische Fortschreibung, Beständigkeit des einmal übernommenen Datenbestandes
Abfragen Strukturiert, vordefiniert Ad-hoc-Abfragen für komplexe, ständig wechselnde Fragestellungen; vordefinierte Standardauswertungen
[4.] Operative vs. Analytische Daten
Operative Daten Strukturiert für die Verarbeitung in Transaktionssystemen Jeder Datensatz muss jederzeit für Lese- und Schreibzugriffe zur
Verfügung stehen Details über Daten sind notwendig
Analytische Daten Anderer Aufbau als „Operative Daten“ Analytische Daten wurden verändert/angepasst Daten werden komprimiert in Kennzahlen und zusammengefasst
[4.] Operative vs. Analytische Daten
Die Daten können mit folgenden Fragen klassifiziert werden:
Was?
Wer?
Wann?
Wie?
[5.] Arbeitsschritte zur Datenbereitstellung „ETL-Prgramme“
[5.] Arbeitsschritte zur Datenbereitstellung „ETL-Prgramme“
[5.] Arbeitsschritte zur Datenbereitstellung „ETL-Prgramme“
1. Extraktion
= Selektion von Daten aus operativen Datenquellen für das Data Warehouse
Prüfung der Daten-Verfügbarkeit (Beachtung von Datenschutzrechten, Eigentumsrechten, Grad der Vertraulichkeit)
Festlegung des Zeitpunktes zur Daten-Extraktion Periodische Extraktion Extraktion auf Anfrage Ereignisgesteuerte Extraktion Sofortige Extraktion
Temporäre Speicherung im Arbeitsbereich des DW „Staging Area“
[5.] Arbeitsschritte zur Datenbereitstellung „ETL-Prgramme“
2. Transformation
= Eliminierung von Qualitätsmängeln und betriebswirtschaftliche Aufbereitung der operativen Daten für analytische Fragestellungen mittels folgender Verfahren:
Bereinigung Beseitigung von semantischen und syntaktischen Mängeln 1. bis 3. Klasse
Harmonisierung betriebswirtschaftliche Vereinheitlichung unterschiedlicher Codierungen, Attribute und Schlüssel
Verdichtung Summierung der Daten auf verschiedenen Stufen im DW
Anreicherung Speicherung von vorberechneten Kennzahlen im DW
[5.] Arbeitsschritte zur Datenbereitstellung „ETL-Prgramme“
3. Laden
= Übernahme der Daten aus operativen Vorsystemen in das Data Warehouse, unterschieden wird in:
Initiales Füllen des DW mit Daten aus operativen Datenquellen und ggf. ergänzt durch Archivdaten
Zyklische Aktualisierung der analytischen Datenbasis Aktualisierungsvarianten:
Kompletter Abzug Nur Übernahme der Änderungen Auswahl protokollierter Datenbanktransaktionen