Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
Gollnhofer Gábor @ Meta Consulting Kft.
Adattárház modernizáció a gyakorlatban
2Adattárház modernizáció a gyakorlatban
BudapestData2021 - 2021.06.23.
AZ ELŐADÓRÓL…
Gollnhofer Gábor
▪ 1992 óta foglalkozom nagyvállalati adatbáziskezeléssel
▪ 1996 óta dolgozom adattárház és BI jellegű projekteken
▪ adatmodellezés, modellezési tanácsadás, oktatás
▪ 3NF, dimenziós és Data Vault rendszerek tervezése
▪ iparági tapasztalatok: államigazgatás, bank, biztosító, FMCG, felsőoktatás, távközlés, stb.
▪ technológiák: Snowflake, Oracle, Microsoft, Wherescape, stb.
3Adattárház modernizáció a gyakorlatban
BudapestData2021 - 2021.06.23.
RÓLUNK
Meta Consulting Kft.
▪ 2002-ben alakult, magyar tulajdonú vállalat
Tevékenységünk
▪ DW & BI, metaadat management, data governance
▪ Rendszertervezés, fejlesztés, tanácsadás, oktatás
Ügyfeleink
▪ Bank, biztosító, FMCG, távközlés, média, felsőoktatás, államigazgatás, stb.
▪ Közép-kelet európai régióban (HU, DE, PL, CZ, SK, RO, MNE)
▪ ~60 ügyfél, ~130 projekt
A Snowflake és WhereScape magyar partnere
4Adattárház modernizáció a gyakorlatban
BudapestData2021 - 2021.06.23.
Tematika
Bevezető
Modern adat környezet és elvárások
DW „modernizáció” tapasztalatok▪ Alap helyzet
▪ Elvárások, „fájdalmak” és megoldások
▪ Tapasztalatok és eredmények
Tanulságok
Összefoglaló
5Adattárház modernizáció a gyakorlatban
BudapestData2021 - 2021.06.23.
A modern adat környezet
forrás: Cloud Data Warehousing for Dummies 2nd Snowflake Edition
6Adattárház modernizáció a gyakorlatban
BudapestData2021 - 2021.06.23.
Modern adatkezelési technológiák
Adatbázisok
Relációs
NoSQL
Adatmozgatás
ETL/ELT
Streaming
CDC
Kiaknázás
Önkiszolgáló BI
Data Science
Alapelemek
On-premise/Could/Hibrid
Metaadatok/Governance
Biztonság (GDPR?)
7Adattárház modernizáció a gyakorlatban
BudapestData2021 - 2021.06.23.7
Thirty-five years after Robert Waterman’s
observation in In Search of Excellence
that companies were‘data rich and
information poor’… Little has changed.
A VILÁG LEGÉRTÉKESEBB ERŐFORRÁSA (?)
– John Ladley and Thomas C. Redman Harvard Business Review
2020. március
““
8Adattárház modernizáció a gyakorlatban
BudapestData2021 - 2021.06.23.
A vállalati adat platformmal szembeni elvárások
A vállalati adatvagyon integrált tárháza
Stabil, megbízható működés
Jó teljesítményű, méretezhető, bővíthető
Költség hatékony
Rugalmas, agilis
▪ Változó környezet, adatforrások, felhasználások
Auditálható, a szabályoknak megfelelő (külső/belső)
▪ Adatok, folyamatok, lekérdezések/riportok
▪ Felhasználói módosítások (pl. csoportosítások)
9Adattárház modernizáció a gyakorlatban
BudapestData2021 - 2021.06.23.
3 különböző „DW modernizáció” projekt
Bevezetés & technológiaIparág Pénzügyi szektor Szolgáltató szektor FMCG
DW “életkora” 20 év 10 év 10 év
Adatforrások 40+ 5 10
Forrás technológiadb2, AS400, Oracle, SQL
Server, Informix, ExcelOracle, MySQL, CSV SQL Server, SAP, Excel, CSV
Táblák 5000 300 1000+
Riportok 100+ 50+ 200+
Felhasználók 300+ 30-50 200+
FejlesztőkDW IT: 7-10; BI: 10-20;
+külső fejlesztőkDW IT 3; BI 5 DW IT 2-3; business 5-7
DB méret ~25TB ~1.5TB ~1.5TB
TechnológiaDW: Oracle, OWB, PL/SQL
BI: Access/Excel, Cognos stb.
DW: Oracle, PL/SQL
BI: BO, Excel, PowerBI stb.
DW: SQL Server, SSIS, T-SQL
BI: Excel, Qlikview, stb.
10Adattárház modernizáció a gyakorlatban
BudapestData2021 - 2021.06.23.
3 különböző „DW modernizáció” projekt
Közös IT problémák
Működtetés, üzemeltetés
▪ Napi szintű üzemeltetési és teljesítmény problémák
▪ Elavult technológiák (end-of-life)
Fejlesztés
▪ Sok év “evolúció” a használt módszerekben és modellezésben3NF & történet + dimenziós (csillagok) + flat & wide ==> a különböző koncepcionális elemek „keveréke”(?)
▪ Csak kevés szakértő, semmi dokumentáció, semmi tech. support
▪ Lassú! és drága fejlesztési folyamatok
11Adattárház modernizáció a gyakorlatban
BudapestData2021 - 2021.06.23.
3 különböző „DW modernizáció” projekt
Közös üzleti elvárások
Gyorsabb reagálás a változásokra
Költséghatékony fejlesztés
Az „eredeti” forrásadatok történetiség kezelt tárolása - ’fact’
Teljeskörűen „nyomon követhető” adatok
Önkiszolgáló BI támogatás
Változó és növekvő üzleti területek → új adatforrások
Fejlesztések rosszul definiált, gyorsan változó üzleti követelmények alapján
Az egyetlen dolog, ami biztos, hogy kellenek az adatok!
És gyorsan és olcsón!
12Adattárház modernizáció a gyakorlatban
BudapestData2021 - 2021.06.23.
A kiválasztott megoldás(ok)
Új modellezési módszertan (Data Vault)
DW automatizáció
▪ Elemzés, tervezés & ETL generálás (“majdnem teljesen” automatikusan)
▪ Adatmodell generálás (PSA & ODS & DW)
▪ ETL kód generálás (PSA & ODS & DW)
▪ Metaadat generálás
Futtatás & monitorozás
▪ Metaadat vezérelt ETL keretrendszer
Kiválasztott automatizációs eszköz(ök)
▪ WhereScape / DBT / egyedi PowerDesigner extension
13Adattárház modernizáció a gyakorlatban
BudapestData2021 - 2021.06.23.
A Data Vault modellezés előnyei (ígéretei)
Teljeskörűség
▪ Nyomon követhetőség - ”all the data, all the time”
▪ Integráció az üzleti entitások kulcsai alapján
Produktivitás
▪ Egyszerű, standardizált adatstruktúrák
▪ Könnyen implementálható ETL template-ek
▪ Agilitás
Teljesítmény
▪ Gyors, párhuzamos töltések
▪ Jól skálázható
14Adattárház modernizáció a gyakorlatban
BudapestData2021 - 2021.06.23.
„Fájdalmak” és megoldások #1
Teljeskörűség
▪ “All the data, all the time”
▪ Rossz minőségű forrásadatok (pl. hiányos kulcsok, nem létező PK-k)
▪ “Üzleti kulcs” alapú integráció
▪ Nincs “igazi” üzleti kulcs, csak technikai (ID, sequence)
Produktivitás
▪ DV “standardizált” struktúrák → DM (dimenziós - Kimball)
▪ ezt a transzformációt és meg kell tervezni és lefejleszteni
▪ ETL template-ek
▪ több hétig tartó optimalizálás, hogy az adott környezetben és nagy adathalmazokon is jó legyen a teljesítmény
15Adattárház modernizáció a gyakorlatban
BudapestData2021 - 2021.06.23.
„Fájdalmak” és megoldások #2
Technológia
▪ ETL teljesítmény problémák → megfelelően hangolt rendszer
▪ Query teljesítmény problémák → PIT & Bridge táblák használata
▪ ETL “újra-fejlesztés” → reverse engineering & automatizált kódgenerálás
Emberek
▪ Fejlesztők ≠ Tervezők
▪ Az automatizációs eszközök használata mellett is jól kell ismerni…
▪ üzleti koncepciókat és üzleti szabályokat
▪ adatforrásokat, forrás rendszereket
▪ modellezési módszereket (3NF, Data Vault, Kimball)
16Adattárház modernizáció a gyakorlatban
BudapestData2021 - 2021.06.23.
Tapasztalatok és eredmények #1
Data Vault modellezés
A Data Vault modellezés …
▪ … viszonylag gyorsan megtanulható
▪ Néhány, standardizált adatstruktúrát használ
▪ “Hibatűrő”, a modellezési “hibák” könnyen javíthatók
▪ …komoly előrelépés az agilisabb DW irányába
▪ Egyszerűbb integráció (az üzleti kulcsok alapján)
▪ Korlátozza a változások hatását (adatmodell & ETL)
“All the data all the time”
▪ Valóban kezeli a rossz adatminőséget (hiányzó és hibás referenciák)
▪ A “tényeket” mutatja (az “igazság” helyett)
17Adattárház modernizáció a gyakorlatban
BudapestData2021 - 2021.06.23.
Tapasztalatok és eredmények #2
DW automatizáció
A modell és kód generálás automatizálása…
▪ …működik (Data Vault és dimenziós modelleknél is)
▪ …gyorsítja a fejlesztést a template-ek használatával
▪ …jobb minőségű és jobban dokumentált rendszert eredményez
▪ …”trükkös” is lehet az adatpiacoknál (bonyolult szabályok, transzformációk)
▪ …több elemzőt és tervezőt igényel és kevesebb fejlesztőt! ☺
18Adattárház modernizáció a gyakorlatban
BudapestData2021 - 2021.06.23.
Tanulságok
Érettség (maturity)
Automatizáció (GIGO)
Több, mint modellezés & fejlesztés
kép: forrás - license: CC BY-NC
19Adattárház modernizáció a gyakorlatban
BudapestData2021 - 2021.06.23.
DW és a Data Vault modellezés nagyon jó ötlet,
de…
Vannak felhasználókés fejlesztők is (nem csak tervezők)
Ezért aztán…
…őket is meg kell győzni
…meg kell mutatni nekik az előnyöket
…képezni kell őket is a jó gyakorlatra(use & not abuse)
és ez időt igényel (ha egyáltalán megoldható)
20Adattárház modernizáció a gyakorlatban
BudapestData2021 - 2021.06.23.
DW és a Data Vault modellezés nagyon jó ötlet,
de…
Vannak felhasználókés fejlesztők is (nem csak tervezők)
Ezért aztán…
…őket is meg kell győzni
…meg kell mutatni nekik az előnyöket
…képezni kell őket is a jó gyakorlatra(use & not abuse)
és ez időt igényel (ha egyáltalán megoldható)
adat & analitika érettség
21Adattárház modernizáció a gyakorlatban
BudapestData2021 - 2021.06.23.
Az automatizáció jó, de …
Herkules eltéríti az Alpheus és Peneus folyókat, hogy kitisztítsa Augeász istállóját.
Római mozaik, 3. századforrás: wikipedia
garbage in - garbage out
Hulladékkezelés, 21. századimage: source, license: CC0 public domain
22Adattárház modernizáció a gyakorlatban
BudapestData2021 - 2021.06.23.
A modern módszerek,
technológiák…
… nem hanem
Ezeknél is szükséges:
▪ Elemzés: követelmények, adatforrások, hatáselemzés
▪ Tervezés: architektúra, adatmodell, ETL, riport/BI/analitika
▪ Rendszerfejlesztés: DW & adatpiacok/API-k
▪ Front-end fejlesztés: dashboard, riport, analytics
▪ Menedzsment: projekt~, minőség~, törzsadat~, változás~
Silver bullet
Forrás: By Jonathunder - Own work, CC BY-SA 3.0
23Adattárház modernizáció a gyakorlatban
BudapestData2021 - 2021.06.23.
A modern módszerek,
technológiák…
… nem hanem
Ezeknél is szükséges:
▪ Elemzés: követelmények, adatforrások, hatáselemzés
▪ Tervezés: architektúra, adatmodell, ETL, riport/BI/analitika
▪ Rendszerfejlesztés: DW & adatpiacok/API-k
▪ Front-end fejlesztés: dashboard, riport, analytics
▪ Menedzsment: projekt~, minőség~, törzsadat~, változás~
Silver bullet
Forrás: By Jonathunder - Own work, CC BY-SA 3.0
Az adattárház sokkal több
mint az adatmodell és ETL
24Adattárház modernizáció a gyakorlatban
BudapestData2021 - 2021.06.23.
Kulcs tanulságok
Az egyszerűség jó (K.I.S.S.)
▪ És a data vault “király” ebben ☺
Az automatizáció nagyon jó (data lake, ODS & DW)
De még mindig szükségünk van dedikált adatpiacokra
▪ A felhasználók (jobb, ha) nem érik el az elemi, nyers adat rétegeket
Egyszerű és gyors adat betöltés (ingestion)
▪ A DW team az adatpiacokra, riportokra, elemzésekre tud fókuszálni!
25Adattárház modernizáció a gyakorlatban
BudapestData2021 - 2021.06.23.
Kulcs tanulságok
Az egyszerűség jó (K.I.S.S.)
▪ És a data vault “király” ebben ☺
Az automatizáció nagyon jó (data lake, ODS & DW)
De még mindig szükségünk van dedikált adatpiacokra
▪ A felhasználók (jobb, ha) nem érik el az elemi, nyers adat rétegeket
Egyszerű és gyors adat betöltés (ingestion)
▪ A DW team az adatpiacokra, riportokra, elemzésekre tud fókuszálni!Az adattárház nem egy technológia,
hanem egy működő megoldás
az üzlet analitikai kérdéseire!
26Adattárház modernizáció a gyakorlatban
BudapestData2021 - 2021.06.23.
Köszönöm a figyelmet!