31
KLASSZIKUS ADATTÁRHÁZAK Dr. Horváth Gábor 2017.03.23. MMK- Informatikai projektellenőr képzés INFORMATIKAI PROJEKTELLENŐR

INFORMATIKAI PROJEKTELLENŐR - MMK

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: INFORMATIKAI PROJEKTELLENŐR - MMK

KLASSZIKUS ADATTÁRHÁZAK

Dr. Horváth Gábor

2017.03.23. MMK- Informatikai projektellenőr képzés

30 MB

INFORMATIKAI PROJEKTELLENŐR

Page 2: INFORMATIKAI PROJEKTELLENŐR - MMK

Tartalom

2017.03.23. MMK-Informatikai projekt ellenőr képzés 2

• Elemző Adatbázisok

• Az adattárházak komponensei • Adatmodell

• Adatbázis-kezelő

• ETL

• Front-end : BI eszköz

• Operatív döntéstámogatás: kimenő interfészek

• Adatbányász eszköz

• Meta-adat kezelés és „data governance”

• Jogosultság-kezelés, adat biztonság

• Egy kis kitekintés: Klasszikus adattárházak és Big Data Architektúrák

• Az adattárház projekt főbb elemei

• Agilis módszerek alkalmazása az adattárház projektekben

• Az adattárház projektek sikerességének alapjai

Page 3: INFORMATIKAI PROJEKTELLENŐR - MMK

Elemző adatbázisok

2017.03.23. MMK-Informatikai projekt ellenőr képzés 3

• A tranzakciós rendszerek működésének „melléktermékei” az adatok. Ez a vállalat „az adatvagyona”. Az tranzakciós adatok felhasználása : VIR, MI és egyéb elemzések

• Más funkció

• Más típusú adatbáziskezelés

• Más adatmodell

• Más hardver környezet

OLTP vsElemző

adatbázisok

Informatika

Page 4: INFORMATIKAI PROJEKTELLENŐR - MMK

A vállalati adatvagyon részei

2017.03.23. MMK-Informatikai projekt ellenőr képzés 4

BIG DATA

WEBPetabytes

CRMTerabytes

GigabytesERP

Exabytes

INCREASING Data Variety and Complexity

User Generated Content

Mobile Web

SMS/MMS

Sentiment

External Demographics

HD Video

Speech to Text

Product/Service Logs

Social Network

Business Data Feeds

User Click Stream

Web Logs

Offer History A/B Testing

Dynamic Pricing

Affiliate Networks

Search Marketing

Behavioral Targeting

Dynamic FunnelsPayment Record Support Contacts

Customer TouchesPurchase

Detail

Purchase Record

Offer Details

Segmentation

DECREASING Value Density in the Data

Page 5: INFORMATIKAI PROJEKTELLENŐR - MMK

Az adattárházak komponensei

2017.03.23. MMK-Informatikai projekt ellenőr képzés 5

Page 6: INFORMATIKAI PROJEKTELLENŐR - MMK

Az adattárházak adatarchitektúrája, adatfolyam

2017.03.23. MMK-Informatikai projekt ellenőr képzés 6

StageSystem of Records/

DWAggregációk Adatpiacok

Források

Page 7: INFORMATIKAI PROJEKTELLENŐR - MMK

Az adattárházak adatarchitektúrája, adatfolyam

2017.03.23. MMK-Informatikai projekt ellenőr képzés 7

STAGE

• forrásrendszerrel megegyező tárolási struktúra

• forrásadatok többnyire napi táblapartíciókban

• adatfogadás vagy beszerzés

• forrásadatok változtatásmentes archiválása

• Teljes újratöltés lehetősége

DW

• egységes üzleti adatmodell

• helyettesítő kulcs képzése

• forrás természetes kulcsainak tárolása

• történeti adattárolás

• elsődleges, egyedi és idegen kulcsok beállítása

• forrásrendszeri fix értékkészletek egységes tárolása

• forrásoldali fizikai törlés kezelése

• szótár-, törzs-, kapcsoló- és esemény típusú táblák

• technikai mezők: OBJ_TIPUS, FORRAS_AZON_1…5

DM

• helyettesítő kulcs megtartása

• különböző aggregáltsági szint több rétegen keresztül

• újrafuttathatóság a folyamatos bővítések miatt

• aggregátumok üzleti paraméterezés alapján

• helygazdálkodás kérdése, visszamenőleges adattárolás

Page 8: INFORMATIKAI PROJEKTELLENŐR - MMK

Adatpiac és adattárház:

Adatarchitektúrák

2017.03.23. MMK-Informatikai projekt ellenőr képzés 8

Informatika

Page 9: INFORMATIKAI PROJEKTELLENŐR - MMK

Adatpiac és adattárház:

Adatarchitektúrák

2017.03.23. MMK-Informatikai projekt ellenőr képzés 9

Informatika

Page 10: INFORMATIKAI PROJEKTELLENŐR - MMK

Adatpiac és adattárház :

adatarchitektúrák – tervezési szempontok

2017.03.23. MMK-Informatikai projekt ellenőr képzés 10

Informatika

• Elemzési célok sokrétűsége

• Az elemzési adatbázis szerepe a vállalati architektúrában

• A felhasználók széleskörűsége, típusai, száma

• Az elemzendő adatok (forrásrendszerek ) száma

• Adatbázis méret, history

• ..stb

Page 11: INFORMATIKAI PROJEKTELLENŐR - MMK

Az adattárházak komponensei:

adatmodell

2017.03.23. MMK-Informatikai projekt ellenőr képzés 11

• Relációs vs. dimenzionális

• „Kész adatmodellek” vs. „custom developed”

• Az adatmodell karbantartása„házon belülre” vs. szállítónál

• Adatmodellező team : rend vs. szűk keresztmetszet

• CASE eszköz használata – metaadat kezelés

Page 12: INFORMATIKAI PROJEKTELLENŐR - MMK

Az adattárházak komponensei: adatbázis

kezelés

2017.03.23. MMK-Informatikai projekt ellenőr képzés 12

Egyszeri bulk insert

No update

Select

Időkezelés

Particionálás

Párhuzamos felhasználás

Real-time igény

Index kezelés

Index vs full table scan

Jogosultság kezelés

Tuningolás, adminisztráció

Shared everything vs shared nothing vs in memory

Appliance megközelítés

Page 13: INFORMATIKAI PROJEKTELLENŐR - MMK

Az adattárházak komponensei: ETL

2017.03.23. MMK-Informatikai projekt ellenőr képzés 13

ETL eszközök vs „kézzel írt kódok”

- ODI

- Informatica

- IBM DataStage

- SAS

- Talend…stb

- „Custom developed”

Tervezési szempontok – meta-adat kezelés

CASE eszközök használata: Enterprise Architect, Powerdesigner

Ütemező modul

ETL eszköz kiválasztás szempontjai:

- funkcionalitás

- ár

- szakemberek elérhetősége

Page 14: INFORMATIKAI PROJEKTELLENŐR - MMK

Az adattárházak komponensei: ETL

2017.03.23. MMK-Informatikai projekt ellenőr képzés 14

- ETL folyamat minősége függ

Épített adatmodell minőségétől

Mappelés minőségétől

Betöltési folyamatvezérlés és naplózás teljességétől

Page 15: INFORMATIKAI PROJEKTELLENŐR - MMK

Az adattárházak komponensei: ETL

2017.03.23. MMK-Informatikai projekt ellenőr képzés 15

• Fejlesztő eszköz független formalizált tervezés• Egységes meta adatok képzése• Egységes adatmodellre és kulcsolási mechanizmusra épülő mappelés• Futtatható kód generálás az adatbázisban ill. interface-en keresztül • A generálási folyamat hátterét egy adatbázis objektumokból álló alkalmazás adja,

ami a paraméterezésnek megfelelő mappingeket állít elő.• History képzése :

•egyedi kulcs alapú history képzés standard mezők felhasználásával•history kezelt mezők meghatározása automatikusan - dictionary alapján•céltáblával azonos szerkezetű munkatáblák használata

• Fizikai mapping a logikai mapping alapján könnyen elkészíthető• DW töltése egyszerűbb• DM töltése aggregáltsági szinttől függően több lépésben valósítható meg• Mapping logikák egymásba ágyazhatók• Bonyolultabb forráslekérdezések nézetbe rendezhetők• Generált kód kézi továbbfejlesztése kizárja a központi meta adattár további használatát• Újraindítható kódok

Page 16: INFORMATIKAI PROJEKTELLENŐR - MMK

Az adattárházak komponensei: ETL

2017.03.23. MMK-Informatikai projekt ellenőr képzés 16

A tervezés előtt a fizikai modell ismeretén kívül szükséges a betöltés szabványainak és névkonvencióinak definiálása.Adatbázis objektumokból álló generálási folyamat háttér, háromszintű paraméterezés:

-Alapadatok definiálása1.Map neve, csoportja2.Céltábla és tulajdonosa, alias3.Töltés típusa:

DELTA/FULLHistory képzés típusa

4.SQL paraméterezés/hintek-Forrástáblák és kapcsolatok definiálása

1.Forrás táblák, tulajdonosok, aliasok2.Forrásként használt táblák kapcsolási feltételei:

JOINHalmazműveletekDISTINCTAnalitikus függvények használata

3.Filterek megadása4.SQL paraméterezés (hintek)5.Automatikus forrás struktúra forgatások – tipikusan DM töltéskor aktuális és history adatok együttes használata (ACT_HIST_FL = ’I’)

-Mezőszintű mappelés1.Forrás-cél mezőpárok2.History képzés egyedi kulcs alapján3.Helyettesítő kulcs képzése szekvenciából egységes rövidnevek alapján 4.Lookup kapcsolatok egyszerű paraméterezése forrás objektumok és idegen kulcsok alapján

Page 17: INFORMATIKAI PROJEKTELLENŐR - MMK

Az adattárházak komponensei: Operatív

döntéstámogatás – kimenő interfészek

2017.03.23. MMK-Informatikai projekt ellenőr képzés 17

i) Bejövő interfészek : file, „db-link”, „connectors”, SOA megközelítés szerepe.

Szabványok kialakítása

ii) Kimenő interfészek : illeszkedés a SOA architektúrába

Adattárház funkciók vs. Core rendszer funkciók:

• „A DWH túlnő az „eredeti” terjedelmén

• Rugalmasabban lehet fejleszteni mint a Core rendszereket

• Integrált adatok szükségesek

• Historikus adatok szükségeke

• Integrált és historikus adatok szükségesek

• Vállalati szintű „adat architektúra”

• Rövid távú határidők vs. „rend”

Page 18: INFORMATIKAI PROJEKTELLENŐR - MMK

Az adattárházak komponensei: BI -

eszköz

2017.03.23. MMK-Informatikai projekt ellenőr képzés 18

Page 19: INFORMATIKAI PROJEKTELLENŐR - MMK

Az adattárházak komponensei:

adatbányászat

2017.03.23. MMK-Informatikai projekt ellenőr képzés 19

Page 20: INFORMATIKAI PROJEKTELLENŐR - MMK

Az adattárházak komponensei: meta-

adat kezelés, adatminőség, data

governance

2017.03.23. MMK-Informatikai projekt ellenőr képzés 20

i) Átláthatóság – üzleti meta-adatok

ii) Értékkészletek és hierarchiák karbantartása

iii) Auditálhatóság – technikai meta-adatok

iv) Adatminőség – automatikus ellenőrzések / hibák javítása

v) Meta-adat kezelési architektúra -- rajz

vi) Data governance – az adattárházakat menedzselő szervezet és folyamatok

szerepe

Page 21: INFORMATIKAI PROJEKTELLENŐR - MMK

2017.03.23. MMK-Informatikai projekt ellenőr képzés 21

Meta-adat repository

Target Adatmodell

Forrás adatmodell

Üzleti definíciók

Adatminőségi szabályok

Mapping szabályok

ETL eszköz ETL program

Adatminőség ellenőrzés

Info portál

Ütemezési meta-adatok

Ütemező eszköz

Page 22: INFORMATIKAI PROJEKTELLENŐR - MMK

2017.03.23. MMK-Informatikai projekt ellenőr képzés 22

Product Key = Product Key

Customer_Key = Customer_Key

Geography_Key = ShipTo_Address_Key

Geography_Key = BillTo_Address_Key

ProductSubCategory_Key =

ProductSubCategory_Key

Product Key = Product Key

Geography_Key = Geography_Key

DateKey = OrderDate_Key

DateKey = DueDate_Key

DateKey = ShipDate_Key

SalesLT.Dim_Geography

Geography_Key

City

StateProvince

CountryRegion

PostalCode

meta_ValidFrom_Date

meta_ValidTo_Date

meta_Status_Flag

...

numeric(10)

nvarchar(30)

nvarchar(50)

nvarchar(50)

nvarchar(15)

datetime

datetime

tinyint

<pk>

SalesLT.Dim Customer

Customer_Key

CustomerID

Geography_Key

NameStyle

Title

FirstName

MiddleName

LastName

Suffix

CompanyName

SalesPerson

EmailAddress

Phone

PasswordHash

PasswordSalt

AddressLine1

AddressLine2

meta_ValidFrom_Date

meta_ValidTo_Date

meta_Status_Flag

...

numeric(10)

int

numeric(10)

bit

nvarchar(8)

nvarchar(50)

nvarchar(50)

nvarchar(50)

nvarchar(10)

nvarchar(128)

nvarchar(256)

nvarchar(50)

nvarchar(25)

varchar(128)

varchar(10)

nvarchar(60)

nvarchar(60)

datetime

datetime

tinyint

<pk>

<fk>

SalesLT.Dim ProductCategory

ProductSubCategory_Key

ProductSubCategoryID

ProductSubCategory_Name

ProductCategory_Name

meta_ValidFrom_Date

meta_ValidTo_Date

meta_Status_Flag

...

numeric(10)

int

nvarchar(50)

nvarchar(50)

datetime

datetime

tinyint

<pk>

<ak>

SalesLT.Fact ProductModel Description

ProductDescription Key

Product Key

Culture

Description

...

numeric(10)

numeric(10)

nchar(6)

nvarchar(400)

<pk>

<fk>

SalesLT.Fact SalesOrder

SalesOrder_Key

SalesOrderID

SalesOrderDetailID

Product Key

Customer_Key

ShipTo_Address_Key

BillTo_Address_Key

OrderDate_Key

DueDate_Key

ShipDate_Key

OrderQty

UnitPrice

UnitPriceDiscount

LineTotal

RevisionNumber

Status

OnlineOrderFlag

SalesOrderNumber

PurchaseOrderNumber

AccountNumber

ShipMethod

CreditCardApprovalCode

SubTotal

TaxAmt

Freight

TotalDue

Comment

meta_LastModification_Date

meta_Status_Flag

...

numeric(10)

int

int

numeric(10)

numeric(10)

numeric(10)

numeric(10)

numeric(8)

numeric(8)

numeric(8)

smallint

money

money

money

tinyint

tinyint

bit

nvarchar(25)

nvarchar(25)

nvarchar(15)

nvarchar(50)

varchar(15)

money

money

money

money

nvarchar(max)

datetime

tinyint

<pk>

<fk4>

<fk1>

<fk2>

<fk3>

<fk5>

<fk6>

<fk7>

SalesLT.Dim Product

Product Key

ProductID

Name

ProductNumber

Color

StandardCost

ListPrice

Size

Weight

ProductSubCategory_Key

SellStartDate

SellEndDate

DiscontinuedDate

ThumbNailPhoto

ThumbnailPhotoFileName

Product Model Name

CatalogDescription

meta_ValidFrom_Date

meta_ValidTo_Date

meta_Status_Flag

...

numeric(10)

int

nvarchar(50)

nvarchar(25)

nvarchar(15)

money

money

nvarchar(5)

decimal(8, 2)

numeric(10)

datetime

datetime

datetime

varbinary(max)

nvarchar(50)

nvarchar(50)

XML

datetime

datetime

tinyint

<pk>

<fk>

SalesLT.Dim_Date

DateKey

FullDateAlternateKey

DayNumberOfWeek

EnglishDayNameOfWeek

HungarianDayNameOfWeek

DayNumberOfMonth

DayNumberOfYear

WeekNumberOfYear

EnglishMonthName

HungarianMonthName

MonthNumberOfYear

CalendarQuarter

CalendarYear

CalendarSemester

FiscalQuarter

FiscalYear

FiscalSemester

meta_ValidFrom_Date

meta_ValidTo_Date

meta_Status_Flag

...

numeric(8)

date

tinyint

nvarchar(10)

nvarchar(10)

tinyint

smallint

tinyint

nvarchar(10)

nvarchar(10)

tinyint

tinyint

smallint

tinyint

tinyint

smallint

tinyint

datetime

datetime

tinyint

<pk>

<ak>

Page 23: INFORMATIKAI PROJEKTELLENŐR - MMK

Adatminőség biztosítás egy lehetséges

módja

2017.03.23. MMK-Informatikai projekt ellenőr képzés 23

DWHStag

e

Adattisztító alkalmazás

Adatminőségi riportok

Adatminőségi riportok- Hibás adatok kezelése

- Hogyan töltsük?

- Mit ne töltsünk?

- Speciális esetek pl:

- Banki környezetben

kötelező jelentések

Javítások a forrásrendszerekben

Javítások a DWH-ban

(adattárház hibák)

Page 24: INFORMATIKAI PROJEKTELLENŐR - MMK

Az adattárházak komponensei:

jogosultság kezelés és adatbiztonság

2017.03.23. MMK-Informatikai projekt ellenőr képzés 24

i) Jogosultsági szintek

ii) Érzékeny adatok

iii) Üzemeltetés – fejlesztés – környezetek

Page 25: INFORMATIKAI PROJEKTELLENŐR - MMK

Az adattárházak komponensei:

Klasszikus adattárház és Big Data

2017.03.23. MMK-Informatikai projekt ellenőr képzés 25

Page 26: INFORMATIKAI PROJEKTELLENŐR - MMK

Az adattárházak komponensei:

Klasszikus adattárház és Big Data

2017.03.23. MMK-Informatikai projekt ellenőr képzés 26

Page 27: INFORMATIKAI PROJEKTELLENŐR - MMK

Az adattárház projektek főbb elemei

2017.03.23. MMK-Informatikai projekt ellenőr képzés 27

• Üzleti követelmény felmérés

• IT követelmény felmérés

• Jogosultság kezelés

• Tesztelés tervezés

• Meta-adat tervezés

• Adatmodellezés

• ETL tervezés

• Logikai mapping - BA

• Fizikai mapping - fejlesztés

• Adatbázis fizikai terv

• Üzemeltetés tervezés

• Tesztelés

• Adatpiac tervezés (adatmodellezés, riport tervezés, logikai, fizikai map,

• riport fejlesztés tesztelés)

• Szervezet kiépítés

• Oktatás

Page 28: INFORMATIKAI PROJEKTELLENŐR - MMK

Tipikus adattárház projekt szervezet

2017.03.25. MMK-Informatikai projekt ellenőr képzés 28

Projekt Irányító BizottságProjekt Szponzor

Kulcs Stakeholderek

PM

DW Architect/ Technikai

vezető

Üzleti elemző Team

Adat-modellező(k)

ETL Team BI TeamÜzemeltetés

Team

Üzleti elemzők/ Tesztelők

ETL Fejlesztők/ Tesztelők

BI Fejlesztők/ Tesztelők

DBA

ReleaseManager

ETL Üzemeltetés

Rendszer Admin

Page 29: INFORMATIKAI PROJEKTELLENŐR - MMK

Agilitás az adattárház építésben

2017.03.23. MMK-Informatikai projekt ellenőr képzés 29

Back-end: töltési megközelítés: „vigyünk mindent”, modellezzük ami kell

Front-end : klasszikus agilis módszerek: SCRUM, „prototípus”

- Megfelelő BI eszközök – Klasszikus Bi eszközök vs „önkiszolgáló BI”

- „Sand-box” az éles környezetben

Page 30: INFORMATIKAI PROJEKTELLENŐR - MMK

Mitől sikeres egy adattárház projekt

2017.03.23. MMK-Informatikai projekt ellenőr képzés 30

- Terjedelem : ne lőjünk nagyra de legyen hosszú távú víziónk – rugalmasság, időt-

állóság a legfőbb tervezési szempont

- Megfelelő szervezet / data governance

- Az üzlet és az IT szoros együttműködése : „nem kínai fal”, üzleti célok vs IT

költségek

- Agilitás

- Szponzor

- Több beszállító vs. Egységes adattárház építési módszertan (monopólium vs

verseny)

- Ügyfél – beszállítók partnersége (Saját szervezet vs beszállítók)

- Kulcs ügyfél oldali pozíciók:

- PM

- Adatmodellező

- „Data steward”

- BI helpdesk

- Üzemeltetés

- Adatminőség biztosítása

- Tesztelés tervezése időben