26
Gollnhofer Gábor @ Meta Consulting Kft. Adattárház modernizáció a gyakorlatban

DW modernizáció a gyakorlatban

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: DW modernizáció a gyakorlatban

Gollnhofer Gábor @ Meta Consulting Kft.

Adattárház modernizáció a gyakorlatban

Page 2: DW modernizáció a gyakorlatban

2Adattárház modernizáció a gyakorlatban

BudapestData2021 - 2021.06.23.

AZ ELŐADÓRÓL…

Gollnhofer Gábor

▪ 1992 óta foglalkozom nagyvállalati adatbáziskezeléssel

▪ 1996 óta dolgozom adattárház és BI jellegű projekteken

▪ adatmodellezés, modellezési tanácsadás, oktatás

▪ 3NF, dimenziós és Data Vault rendszerek tervezése

▪ iparági tapasztalatok: államigazgatás, bank, biztosító, FMCG, felsőoktatás, távközlés, stb.

▪ technológiák: Snowflake, Oracle, Microsoft, Wherescape, stb.

Page 3: DW modernizáció a gyakorlatban

3Adattárház modernizáció a gyakorlatban

BudapestData2021 - 2021.06.23.

RÓLUNK

Meta Consulting Kft.

▪ 2002-ben alakult, magyar tulajdonú vállalat

Tevékenységünk

▪ DW & BI, metaadat management, data governance

▪ Rendszertervezés, fejlesztés, tanácsadás, oktatás

Ügyfeleink

▪ Bank, biztosító, FMCG, távközlés, média, felsőoktatás, államigazgatás, stb.

▪ Közép-kelet európai régióban (HU, DE, PL, CZ, SK, RO, MNE)

▪ ~60 ügyfél, ~130 projekt

A Snowflake és WhereScape magyar partnere

Page 4: DW modernizáció a gyakorlatban

4Adattárház modernizáció a gyakorlatban

BudapestData2021 - 2021.06.23.

Tematika

Bevezető

Modern adat környezet és elvárások

DW „modernizáció” tapasztalatok▪ Alap helyzet

▪ Elvárások, „fájdalmak” és megoldások

▪ Tapasztalatok és eredmények

Tanulságok

Összefoglaló

Page 5: DW modernizáció a gyakorlatban

5Adattárház modernizáció a gyakorlatban

BudapestData2021 - 2021.06.23.

A modern adat környezet

forrás: Cloud Data Warehousing for Dummies 2nd Snowflake Edition

Page 6: DW modernizáció a gyakorlatban

6Adattárház modernizáció a gyakorlatban

BudapestData2021 - 2021.06.23.

Modern adatkezelési technológiák

Adatbázisok

Relációs

NoSQL

Adatmozgatás

ETL/ELT

Streaming

CDC

Kiaknázás

Önkiszolgáló BI

Data Science

Alapelemek

On-premise/Could/Hibrid

Metaadatok/Governance

Biztonság (GDPR?)

Page 7: DW modernizáció a gyakorlatban

7Adattárház modernizáció a gyakorlatban

BudapestData2021 - 2021.06.23.7

Thirty-five years after Robert Waterman’s

observation in In Search of Excellence

that companies were‘data rich and

information poor’… Little has changed.

A VILÁG LEGÉRTÉKESEBB ERŐFORRÁSA (?)

– John Ladley and Thomas C. Redman Harvard Business Review

2020. március

““

Page 8: DW modernizáció a gyakorlatban

8Adattárház modernizáció a gyakorlatban

BudapestData2021 - 2021.06.23.

A vállalati adat platformmal szembeni elvárások

A vállalati adatvagyon integrált tárháza

Stabil, megbízható működés

Jó teljesítményű, méretezhető, bővíthető

Költség hatékony

Rugalmas, agilis

▪ Változó környezet, adatforrások, felhasználások

Auditálható, a szabályoknak megfelelő (külső/belső)

▪ Adatok, folyamatok, lekérdezések/riportok

▪ Felhasználói módosítások (pl. csoportosítások)

Page 9: DW modernizáció a gyakorlatban

9Adattárház modernizáció a gyakorlatban

BudapestData2021 - 2021.06.23.

3 különböző „DW modernizáció” projekt

Bevezetés & technológiaIparág Pénzügyi szektor Szolgáltató szektor FMCG

DW “életkora” 20 év 10 év 10 év

Adatforrások 40+ 5 10

Forrás technológiadb2, AS400, Oracle, SQL

Server, Informix, ExcelOracle, MySQL, CSV SQL Server, SAP, Excel, CSV

Táblák 5000 300 1000+

Riportok 100+ 50+ 200+

Felhasználók 300+ 30-50 200+

FejlesztőkDW IT: 7-10; BI: 10-20;

+külső fejlesztőkDW IT 3; BI 5 DW IT 2-3; business 5-7

DB méret ~25TB ~1.5TB ~1.5TB

TechnológiaDW: Oracle, OWB, PL/SQL

BI: Access/Excel, Cognos stb.

DW: Oracle, PL/SQL

BI: BO, Excel, PowerBI stb.

DW: SQL Server, SSIS, T-SQL

BI: Excel, Qlikview, stb.

Page 10: DW modernizáció a gyakorlatban

10Adattárház modernizáció a gyakorlatban

BudapestData2021 - 2021.06.23.

3 különböző „DW modernizáció” projekt

Közös IT problémák

Működtetés, üzemeltetés

▪ Napi szintű üzemeltetési és teljesítmény problémák

▪ Elavult technológiák (end-of-life)

Fejlesztés

▪ Sok év “evolúció” a használt módszerekben és modellezésben3NF & történet + dimenziós (csillagok) + flat & wide ==> a különböző koncepcionális elemek „keveréke”(?)

▪ Csak kevés szakértő, semmi dokumentáció, semmi tech. support

▪ Lassú! és drága fejlesztési folyamatok

Page 11: DW modernizáció a gyakorlatban

11Adattárház modernizáció a gyakorlatban

BudapestData2021 - 2021.06.23.

3 különböző „DW modernizáció” projekt

Közös üzleti elvárások

Gyorsabb reagálás a változásokra

Költséghatékony fejlesztés

Az „eredeti” forrásadatok történetiség kezelt tárolása - ’fact’

Teljeskörűen „nyomon követhető” adatok

Önkiszolgáló BI támogatás

Változó és növekvő üzleti területek → új adatforrások

Fejlesztések rosszul definiált, gyorsan változó üzleti követelmények alapján

Az egyetlen dolog, ami biztos, hogy kellenek az adatok!

És gyorsan és olcsón!

Page 12: DW modernizáció a gyakorlatban

12Adattárház modernizáció a gyakorlatban

BudapestData2021 - 2021.06.23.

A kiválasztott megoldás(ok)

Új modellezési módszertan (Data Vault)

DW automatizáció

▪ Elemzés, tervezés & ETL generálás (“majdnem teljesen” automatikusan)

▪ Adatmodell generálás (PSA & ODS & DW)

▪ ETL kód generálás (PSA & ODS & DW)

▪ Metaadat generálás

Futtatás & monitorozás

▪ Metaadat vezérelt ETL keretrendszer

Kiválasztott automatizációs eszköz(ök)

▪ WhereScape / DBT / egyedi PowerDesigner extension

Page 13: DW modernizáció a gyakorlatban

13Adattárház modernizáció a gyakorlatban

BudapestData2021 - 2021.06.23.

A Data Vault modellezés előnyei (ígéretei)

Teljeskörűség

▪ Nyomon követhetőség - ”all the data, all the time”

▪ Integráció az üzleti entitások kulcsai alapján

Produktivitás

▪ Egyszerű, standardizált adatstruktúrák

▪ Könnyen implementálható ETL template-ek

▪ Agilitás

Teljesítmény

▪ Gyors, párhuzamos töltések

▪ Jól skálázható

Page 14: DW modernizáció a gyakorlatban

14Adattárház modernizáció a gyakorlatban

BudapestData2021 - 2021.06.23.

„Fájdalmak” és megoldások #1

Teljeskörűség

▪ “All the data, all the time”

▪ Rossz minőségű forrásadatok (pl. hiányos kulcsok, nem létező PK-k)

▪ “Üzleti kulcs” alapú integráció

▪ Nincs “igazi” üzleti kulcs, csak technikai (ID, sequence)

Produktivitás

▪ DV “standardizált” struktúrák → DM (dimenziós - Kimball)

▪ ezt a transzformációt és meg kell tervezni és lefejleszteni

▪ ETL template-ek

▪ több hétig tartó optimalizálás, hogy az adott környezetben és nagy adathalmazokon is jó legyen a teljesítmény

Page 15: DW modernizáció a gyakorlatban

15Adattárház modernizáció a gyakorlatban

BudapestData2021 - 2021.06.23.

„Fájdalmak” és megoldások #2

Technológia

▪ ETL teljesítmény problémák → megfelelően hangolt rendszer

▪ Query teljesítmény problémák → PIT & Bridge táblák használata

▪ ETL “újra-fejlesztés” → reverse engineering & automatizált kódgenerálás

Emberek

▪ Fejlesztők ≠ Tervezők

▪ Az automatizációs eszközök használata mellett is jól kell ismerni…

▪ üzleti koncepciókat és üzleti szabályokat

▪ adatforrásokat, forrás rendszereket

▪ modellezési módszereket (3NF, Data Vault, Kimball)

Page 16: DW modernizáció a gyakorlatban

16Adattárház modernizáció a gyakorlatban

BudapestData2021 - 2021.06.23.

Tapasztalatok és eredmények #1

Data Vault modellezés

A Data Vault modellezés …

▪ … viszonylag gyorsan megtanulható

▪ Néhány, standardizált adatstruktúrát használ

▪ “Hibatűrő”, a modellezési “hibák” könnyen javíthatók

▪ …komoly előrelépés az agilisabb DW irányába

▪ Egyszerűbb integráció (az üzleti kulcsok alapján)

▪ Korlátozza a változások hatását (adatmodell & ETL)

“All the data all the time”

▪ Valóban kezeli a rossz adatminőséget (hiányzó és hibás referenciák)

▪ A “tényeket” mutatja (az “igazság” helyett)

Page 17: DW modernizáció a gyakorlatban

17Adattárház modernizáció a gyakorlatban

BudapestData2021 - 2021.06.23.

Tapasztalatok és eredmények #2

DW automatizáció

A modell és kód generálás automatizálása…

▪ …működik (Data Vault és dimenziós modelleknél is)

▪ …gyorsítja a fejlesztést a template-ek használatával

▪ …jobb minőségű és jobban dokumentált rendszert eredményez

▪ …”trükkös” is lehet az adatpiacoknál (bonyolult szabályok, transzformációk)

▪ …több elemzőt és tervezőt igényel és kevesebb fejlesztőt! ☺

Page 18: DW modernizáció a gyakorlatban

18Adattárház modernizáció a gyakorlatban

BudapestData2021 - 2021.06.23.

Tanulságok

Érettség (maturity)

Automatizáció (GIGO)

Több, mint modellezés & fejlesztés

kép: forrás - license: CC BY-NC

Page 19: DW modernizáció a gyakorlatban

19Adattárház modernizáció a gyakorlatban

BudapestData2021 - 2021.06.23.

DW és a Data Vault modellezés nagyon jó ötlet,

de…

Vannak felhasználókés fejlesztők is (nem csak tervezők)

Ezért aztán…

…őket is meg kell győzni

…meg kell mutatni nekik az előnyöket

…képezni kell őket is a jó gyakorlatra(use & not abuse)

és ez időt igényel (ha egyáltalán megoldható)

Page 20: DW modernizáció a gyakorlatban

20Adattárház modernizáció a gyakorlatban

BudapestData2021 - 2021.06.23.

DW és a Data Vault modellezés nagyon jó ötlet,

de…

Vannak felhasználókés fejlesztők is (nem csak tervezők)

Ezért aztán…

…őket is meg kell győzni

…meg kell mutatni nekik az előnyöket

…képezni kell őket is a jó gyakorlatra(use & not abuse)

és ez időt igényel (ha egyáltalán megoldható)

adat & analitika érettség

Page 21: DW modernizáció a gyakorlatban

21Adattárház modernizáció a gyakorlatban

BudapestData2021 - 2021.06.23.

Az automatizáció jó, de …

Herkules eltéríti az Alpheus és Peneus folyókat, hogy kitisztítsa Augeász istállóját.

Római mozaik, 3. századforrás: wikipedia

garbage in - garbage out

Hulladékkezelés, 21. századimage: source, license: CC0 public domain

Page 22: DW modernizáció a gyakorlatban

22Adattárház modernizáció a gyakorlatban

BudapestData2021 - 2021.06.23.

A modern módszerek,

technológiák…

… nem hanem

Ezeknél is szükséges:

▪ Elemzés: követelmények, adatforrások, hatáselemzés

▪ Tervezés: architektúra, adatmodell, ETL, riport/BI/analitika

▪ Rendszerfejlesztés: DW & adatpiacok/API-k

▪ Front-end fejlesztés: dashboard, riport, analytics

▪ Menedzsment: projekt~, minőség~, törzsadat~, változás~

Silver bullet

Forrás: By Jonathunder - Own work, CC BY-SA 3.0

Page 23: DW modernizáció a gyakorlatban

23Adattárház modernizáció a gyakorlatban

BudapestData2021 - 2021.06.23.

A modern módszerek,

technológiák…

… nem hanem

Ezeknél is szükséges:

▪ Elemzés: követelmények, adatforrások, hatáselemzés

▪ Tervezés: architektúra, adatmodell, ETL, riport/BI/analitika

▪ Rendszerfejlesztés: DW & adatpiacok/API-k

▪ Front-end fejlesztés: dashboard, riport, analytics

▪ Menedzsment: projekt~, minőség~, törzsadat~, változás~

Silver bullet

Forrás: By Jonathunder - Own work, CC BY-SA 3.0

Az adattárház sokkal több

mint az adatmodell és ETL

Page 24: DW modernizáció a gyakorlatban

24Adattárház modernizáció a gyakorlatban

BudapestData2021 - 2021.06.23.

Kulcs tanulságok

Az egyszerűség jó (K.I.S.S.)

▪ És a data vault “király” ebben ☺

Az automatizáció nagyon jó (data lake, ODS & DW)

De még mindig szükségünk van dedikált adatpiacokra

▪ A felhasználók (jobb, ha) nem érik el az elemi, nyers adat rétegeket

Egyszerű és gyors adat betöltés (ingestion)

▪ A DW team az adatpiacokra, riportokra, elemzésekre tud fókuszálni!

Page 25: DW modernizáció a gyakorlatban

25Adattárház modernizáció a gyakorlatban

BudapestData2021 - 2021.06.23.

Kulcs tanulságok

Az egyszerűség jó (K.I.S.S.)

▪ És a data vault “király” ebben ☺

Az automatizáció nagyon jó (data lake, ODS & DW)

De még mindig szükségünk van dedikált adatpiacokra

▪ A felhasználók (jobb, ha) nem érik el az elemi, nyers adat rétegeket

Egyszerű és gyors adat betöltés (ingestion)

▪ A DW team az adatpiacokra, riportokra, elemzésekre tud fókuszálni!Az adattárház nem egy technológia,

hanem egy működő megoldás

az üzlet analitikai kérdéseire!

Page 26: DW modernizáció a gyakorlatban

26Adattárház modernizáció a gyakorlatban

BudapestData2021 - 2021.06.23.

Köszönöm a figyelmet!

[email protected]