DW modernizáció a gyakorlatban

Preview:

Citation preview

Gollnhofer Gábor @ Meta Consulting Kft.

Adattárház modernizáció a gyakorlatban

2Adattárház modernizáció a gyakorlatban

BudapestData2021 - 2021.06.23.

AZ ELŐADÓRÓL…

Gollnhofer Gábor

▪ 1992 óta foglalkozom nagyvállalati adatbáziskezeléssel

▪ 1996 óta dolgozom adattárház és BI jellegű projekteken

▪ adatmodellezés, modellezési tanácsadás, oktatás

▪ 3NF, dimenziós és Data Vault rendszerek tervezése

▪ iparági tapasztalatok: államigazgatás, bank, biztosító, FMCG, felsőoktatás, távközlés, stb.

▪ technológiák: Snowflake, Oracle, Microsoft, Wherescape, stb.

3Adattárház modernizáció a gyakorlatban

BudapestData2021 - 2021.06.23.

RÓLUNK

Meta Consulting Kft.

▪ 2002-ben alakult, magyar tulajdonú vállalat

Tevékenységünk

▪ DW & BI, metaadat management, data governance

▪ Rendszertervezés, fejlesztés, tanácsadás, oktatás

Ügyfeleink

▪ Bank, biztosító, FMCG, távközlés, média, felsőoktatás, államigazgatás, stb.

▪ Közép-kelet európai régióban (HU, DE, PL, CZ, SK, RO, MNE)

▪ ~60 ügyfél, ~130 projekt

A Snowflake és WhereScape magyar partnere

4Adattárház modernizáció a gyakorlatban

BudapestData2021 - 2021.06.23.

Tematika

Bevezető

Modern adat környezet és elvárások

DW „modernizáció” tapasztalatok▪ Alap helyzet

▪ Elvárások, „fájdalmak” és megoldások

▪ Tapasztalatok és eredmények

Tanulságok

Összefoglaló

5Adattárház modernizáció a gyakorlatban

BudapestData2021 - 2021.06.23.

A modern adat környezet

forrás: Cloud Data Warehousing for Dummies 2nd Snowflake Edition

6Adattárház modernizáció a gyakorlatban

BudapestData2021 - 2021.06.23.

Modern adatkezelési technológiák

Adatbázisok

Relációs

NoSQL

Adatmozgatás

ETL/ELT

Streaming

CDC

Kiaknázás

Önkiszolgáló BI

Data Science

Alapelemek

On-premise/Could/Hibrid

Metaadatok/Governance

Biztonság (GDPR?)

7Adattárház modernizáció a gyakorlatban

BudapestData2021 - 2021.06.23.7

Thirty-five years after Robert Waterman’s

observation in In Search of Excellence

that companies were‘data rich and

information poor’… Little has changed.

A VILÁG LEGÉRTÉKESEBB ERŐFORRÁSA (?)

– John Ladley and Thomas C. Redman Harvard Business Review

2020. március

““

8Adattárház modernizáció a gyakorlatban

BudapestData2021 - 2021.06.23.

A vállalati adat platformmal szembeni elvárások

A vállalati adatvagyon integrált tárháza

Stabil, megbízható működés

Jó teljesítményű, méretezhető, bővíthető

Költség hatékony

Rugalmas, agilis

▪ Változó környezet, adatforrások, felhasználások

Auditálható, a szabályoknak megfelelő (külső/belső)

▪ Adatok, folyamatok, lekérdezések/riportok

▪ Felhasználói módosítások (pl. csoportosítások)

9Adattárház modernizáció a gyakorlatban

BudapestData2021 - 2021.06.23.

3 különböző „DW modernizáció” projekt

Bevezetés & technológiaIparág Pénzügyi szektor Szolgáltató szektor FMCG

DW “életkora” 20 év 10 év 10 év

Adatforrások 40+ 5 10

Forrás technológiadb2, AS400, Oracle, SQL

Server, Informix, ExcelOracle, MySQL, CSV SQL Server, SAP, Excel, CSV

Táblák 5000 300 1000+

Riportok 100+ 50+ 200+

Felhasználók 300+ 30-50 200+

FejlesztőkDW IT: 7-10; BI: 10-20;

+külső fejlesztőkDW IT 3; BI 5 DW IT 2-3; business 5-7

DB méret ~25TB ~1.5TB ~1.5TB

TechnológiaDW: Oracle, OWB, PL/SQL

BI: Access/Excel, Cognos stb.

DW: Oracle, PL/SQL

BI: BO, Excel, PowerBI stb.

DW: SQL Server, SSIS, T-SQL

BI: Excel, Qlikview, stb.

10Adattárház modernizáció a gyakorlatban

BudapestData2021 - 2021.06.23.

3 különböző „DW modernizáció” projekt

Közös IT problémák

Működtetés, üzemeltetés

▪ Napi szintű üzemeltetési és teljesítmény problémák

▪ Elavult technológiák (end-of-life)

Fejlesztés

▪ Sok év “evolúció” a használt módszerekben és modellezésben3NF & történet + dimenziós (csillagok) + flat & wide ==> a különböző koncepcionális elemek „keveréke”(?)

▪ Csak kevés szakértő, semmi dokumentáció, semmi tech. support

▪ Lassú! és drága fejlesztési folyamatok

11Adattárház modernizáció a gyakorlatban

BudapestData2021 - 2021.06.23.

3 különböző „DW modernizáció” projekt

Közös üzleti elvárások

Gyorsabb reagálás a változásokra

Költséghatékony fejlesztés

Az „eredeti” forrásadatok történetiség kezelt tárolása - ’fact’

Teljeskörűen „nyomon követhető” adatok

Önkiszolgáló BI támogatás

Változó és növekvő üzleti területek → új adatforrások

Fejlesztések rosszul definiált, gyorsan változó üzleti követelmények alapján

Az egyetlen dolog, ami biztos, hogy kellenek az adatok!

És gyorsan és olcsón!

12Adattárház modernizáció a gyakorlatban

BudapestData2021 - 2021.06.23.

A kiválasztott megoldás(ok)

Új modellezési módszertan (Data Vault)

DW automatizáció

▪ Elemzés, tervezés & ETL generálás (“majdnem teljesen” automatikusan)

▪ Adatmodell generálás (PSA & ODS & DW)

▪ ETL kód generálás (PSA & ODS & DW)

▪ Metaadat generálás

Futtatás & monitorozás

▪ Metaadat vezérelt ETL keretrendszer

Kiválasztott automatizációs eszköz(ök)

▪ WhereScape / DBT / egyedi PowerDesigner extension

13Adattárház modernizáció a gyakorlatban

BudapestData2021 - 2021.06.23.

A Data Vault modellezés előnyei (ígéretei)

Teljeskörűség

▪ Nyomon követhetőség - ”all the data, all the time”

▪ Integráció az üzleti entitások kulcsai alapján

Produktivitás

▪ Egyszerű, standardizált adatstruktúrák

▪ Könnyen implementálható ETL template-ek

▪ Agilitás

Teljesítmény

▪ Gyors, párhuzamos töltések

▪ Jól skálázható

14Adattárház modernizáció a gyakorlatban

BudapestData2021 - 2021.06.23.

„Fájdalmak” és megoldások #1

Teljeskörűség

▪ “All the data, all the time”

▪ Rossz minőségű forrásadatok (pl. hiányos kulcsok, nem létező PK-k)

▪ “Üzleti kulcs” alapú integráció

▪ Nincs “igazi” üzleti kulcs, csak technikai (ID, sequence)

Produktivitás

▪ DV “standardizált” struktúrák → DM (dimenziós - Kimball)

▪ ezt a transzformációt és meg kell tervezni és lefejleszteni

▪ ETL template-ek

▪ több hétig tartó optimalizálás, hogy az adott környezetben és nagy adathalmazokon is jó legyen a teljesítmény

15Adattárház modernizáció a gyakorlatban

BudapestData2021 - 2021.06.23.

„Fájdalmak” és megoldások #2

Technológia

▪ ETL teljesítmény problémák → megfelelően hangolt rendszer

▪ Query teljesítmény problémák → PIT & Bridge táblák használata

▪ ETL “újra-fejlesztés” → reverse engineering & automatizált kódgenerálás

Emberek

▪ Fejlesztők ≠ Tervezők

▪ Az automatizációs eszközök használata mellett is jól kell ismerni…

▪ üzleti koncepciókat és üzleti szabályokat

▪ adatforrásokat, forrás rendszereket

▪ modellezési módszereket (3NF, Data Vault, Kimball)

16Adattárház modernizáció a gyakorlatban

BudapestData2021 - 2021.06.23.

Tapasztalatok és eredmények #1

Data Vault modellezés

A Data Vault modellezés …

▪ … viszonylag gyorsan megtanulható

▪ Néhány, standardizált adatstruktúrát használ

▪ “Hibatűrő”, a modellezési “hibák” könnyen javíthatók

▪ …komoly előrelépés az agilisabb DW irányába

▪ Egyszerűbb integráció (az üzleti kulcsok alapján)

▪ Korlátozza a változások hatását (adatmodell & ETL)

“All the data all the time”

▪ Valóban kezeli a rossz adatminőséget (hiányzó és hibás referenciák)

▪ A “tényeket” mutatja (az “igazság” helyett)

17Adattárház modernizáció a gyakorlatban

BudapestData2021 - 2021.06.23.

Tapasztalatok és eredmények #2

DW automatizáció

A modell és kód generálás automatizálása…

▪ …működik (Data Vault és dimenziós modelleknél is)

▪ …gyorsítja a fejlesztést a template-ek használatával

▪ …jobb minőségű és jobban dokumentált rendszert eredményez

▪ …”trükkös” is lehet az adatpiacoknál (bonyolult szabályok, transzformációk)

▪ …több elemzőt és tervezőt igényel és kevesebb fejlesztőt! ☺

18Adattárház modernizáció a gyakorlatban

BudapestData2021 - 2021.06.23.

Tanulságok

Érettség (maturity)

Automatizáció (GIGO)

Több, mint modellezés & fejlesztés

kép: forrás - license: CC BY-NC

19Adattárház modernizáció a gyakorlatban

BudapestData2021 - 2021.06.23.

DW és a Data Vault modellezés nagyon jó ötlet,

de…

Vannak felhasználókés fejlesztők is (nem csak tervezők)

Ezért aztán…

…őket is meg kell győzni

…meg kell mutatni nekik az előnyöket

…képezni kell őket is a jó gyakorlatra(use & not abuse)

és ez időt igényel (ha egyáltalán megoldható)

20Adattárház modernizáció a gyakorlatban

BudapestData2021 - 2021.06.23.

DW és a Data Vault modellezés nagyon jó ötlet,

de…

Vannak felhasználókés fejlesztők is (nem csak tervezők)

Ezért aztán…

…őket is meg kell győzni

…meg kell mutatni nekik az előnyöket

…képezni kell őket is a jó gyakorlatra(use & not abuse)

és ez időt igényel (ha egyáltalán megoldható)

adat & analitika érettség

21Adattárház modernizáció a gyakorlatban

BudapestData2021 - 2021.06.23.

Az automatizáció jó, de …

Herkules eltéríti az Alpheus és Peneus folyókat, hogy kitisztítsa Augeász istállóját.

Római mozaik, 3. századforrás: wikipedia

garbage in - garbage out

Hulladékkezelés, 21. századimage: source, license: CC0 public domain

22Adattárház modernizáció a gyakorlatban

BudapestData2021 - 2021.06.23.

A modern módszerek,

technológiák…

… nem hanem

Ezeknél is szükséges:

▪ Elemzés: követelmények, adatforrások, hatáselemzés

▪ Tervezés: architektúra, adatmodell, ETL, riport/BI/analitika

▪ Rendszerfejlesztés: DW & adatpiacok/API-k

▪ Front-end fejlesztés: dashboard, riport, analytics

▪ Menedzsment: projekt~, minőség~, törzsadat~, változás~

Silver bullet

Forrás: By Jonathunder - Own work, CC BY-SA 3.0

23Adattárház modernizáció a gyakorlatban

BudapestData2021 - 2021.06.23.

A modern módszerek,

technológiák…

… nem hanem

Ezeknél is szükséges:

▪ Elemzés: követelmények, adatforrások, hatáselemzés

▪ Tervezés: architektúra, adatmodell, ETL, riport/BI/analitika

▪ Rendszerfejlesztés: DW & adatpiacok/API-k

▪ Front-end fejlesztés: dashboard, riport, analytics

▪ Menedzsment: projekt~, minőség~, törzsadat~, változás~

Silver bullet

Forrás: By Jonathunder - Own work, CC BY-SA 3.0

Az adattárház sokkal több

mint az adatmodell és ETL

24Adattárház modernizáció a gyakorlatban

BudapestData2021 - 2021.06.23.

Kulcs tanulságok

Az egyszerűség jó (K.I.S.S.)

▪ És a data vault “király” ebben ☺

Az automatizáció nagyon jó (data lake, ODS & DW)

De még mindig szükségünk van dedikált adatpiacokra

▪ A felhasználók (jobb, ha) nem érik el az elemi, nyers adat rétegeket

Egyszerű és gyors adat betöltés (ingestion)

▪ A DW team az adatpiacokra, riportokra, elemzésekre tud fókuszálni!

25Adattárház modernizáció a gyakorlatban

BudapestData2021 - 2021.06.23.

Kulcs tanulságok

Az egyszerűség jó (K.I.S.S.)

▪ És a data vault “király” ebben ☺

Az automatizáció nagyon jó (data lake, ODS & DW)

De még mindig szükségünk van dedikált adatpiacokra

▪ A felhasználók (jobb, ha) nem érik el az elemi, nyers adat rétegeket

Egyszerű és gyors adat betöltés (ingestion)

▪ A DW team az adatpiacokra, riportokra, elemzésekre tud fókuszálni!Az adattárház nem egy technológia,

hanem egy működő megoldás

az üzlet analitikai kérdéseire!

26Adattárház modernizáció a gyakorlatban

BudapestData2021 - 2021.06.23.

Köszönöm a figyelmet!

gabor.gollnhofer@metaconsulting.hu