Upload
adila
View
75
Download
1
Embed Size (px)
DESCRIPTION
Multidimenzionální modelování. Adaptované z knihy (kap.14) : Pour,J ., Gála,L , Šedivá, Z..: Podniková informatika, 2. Vydanie,. Grada , Praha, 2009. ISBN: 978-80-247-2615-1. Podstata dimenzionálního modelování. - PowerPoint PPT Presentation
Citation preview
Multidimenzionální modelování
Adaptované z knihy (kap.14) : Pour,J., Gála,L, Šedivá, Z..: Podniková informatika, 2.
Vydanie,. Grada, Praha, 2009. ISBN: 978-80-247-2615-1
Podstata dimenzionálního modelování
• Podstata dimenzionálního modelování vychází z uplatňování multidimenzionality při řešení Bl,
• to znamená jeho hlavním úkolem je : vytvořit základní logiku uložení nebo uspořádání dat tak,
aby vyhovovala požadavkům na analytické a plánovací aplikace v rámci podnikového řízení.
• Cílem je tak vytvořit flexibilní datový model, který bude plně podporovat rozsah analýz, jak aktuálně požadovaných, tak předpokládaných v budoucím období
• Uplatnění dimenzionálního modelování je předpokladem pro naplnění účelu business intelligence aplikací:– prezentovat uživatelům potřebné informace co
nejjednodušším způsobem,– poskytovat odpovědi na dotazy s minimální dobou
odezvy,– zajišťovat relevantní informace přesně odpovídající
definovaným podnikovým procesům.
• Dimenzionální modelování vychází z poznání a zhodnocení potřeb řízení dané organizace, a na základě toho:– definuje všechny dimenze, jejich obsah, včetně
vnitřní hierarchie prvků, a dílčí charakteristikyjednotlivých dimenzí,
– určuje soustavu sledovaných ukazatelů a definuje jejich dílčí charakteristiky,
– specifikuje vazby mezi ukazateli a odpovídajícími dimenzemi.
Postup dimenzionálního modelování
Přípravná fáze• První, přípravná fáze navazuje na předchozí vstupní
analytické aktivity spojené s plánováním Bl projektů,se zjišťováním a dokumentací aktuálních uživatelských požadavků, s návrhem architektury Bl řešení, tj. sespecifikací jeho jednotlivých vrstev od zdrojových systémů přes transformace dat, určení datového skladua datových tržišť až po analytické aplikace a reporty.
• Tyto informace jsou obvykle zakotveny v úvodní studiiBl řešení a v rámci přípravné fáze se rekapitulují a verifikují oproti aktuálnímu stavu.
Přípravná fáze• Variantpřístupu k řešení koncepce Bl je tzv. zdrojové
modelování, jehož cílem je analyzovat zdrojové systémy a nalézt potencionální entity a atributy, které by mohly vyhovovat zatím neidentifikovaným uživatelským požadavkům. Tyto entity a atributy budou poté zahrnuty do modelů datového skladu tak, aby mohly vyhovět případným budoucím požadavkům.
• Na druhé straně existuje přístup označovaný jako cílové modelování. Ten vede k návrhu datového skladu a datových tržišť od definovaných uživatelských požadavků (ukazatele, jejich dimenze, analytické funkce, reporty) a teprve na jejich základě se posuzuje, zda existují k těmto požadav kům potřebné datové zdroje
Hrubý dimenzionální model
• Hrubý dimenzionální model vymezuje základní obsah řešení, to znamená, že zahrnuje:– návrh všech relevantních dimenzí a jejich
charakteristik,– návrh ukazatelů, jejich dílčích charakteristik a
granularity,– řešení vazeb mezi dimenzemi a ukazateli.
Tabulkové vyjádření dimenzí
Návrh ukazatelu
Návrh ukazatelu• Návrh vybraných ukazatelů a jejich přiřazení k dimenzím dokumentuje
tab. 14.2, kde ve sloupcích dimenzí v pravé části tabulky je:– D_Cas - dimenze času, např. pro sledování hodnot ukazatelů podle jednotlivých
dnů,– D_PI_skut - dimenze plánu a skutečnosti, rozlišující hodnoty ukazatelů na
plánované a skutečné,– D_Zbozi - již uvedená dimenze zboží,– D_Zakaznik - struktura zákazníků,– D_Teritoria - struktura teritorií, kde se realizuje prodej, např. dle států, krajů
apod.– D_ Útvar - je organizační struktura podniku, tedy podnikové útvary,– D_Typ_rek - typ reklamace, např. na kvalitu, cenu, sortiment, čas dodávky apod.,– D_Zpusob - způsob prodeje, resp. prodejní kanály, např. v kamenných
obchodech, přes internet, prostřednictvím obchodních zástupců apod.
Tabulka ukazatelů a jejich vazeb k dimenzím
ID Ukazatel Jednotka Zdroj/kalkulace
D_Cas
D_PI_skut
D_Zbozi
D_Teritoria
DZakazník
DJJtvar
D_Typ_rek
DZpusob
prod_trzby Tržby tis. Kč databáze AX X X X X X X X
prod_zakaz Počet zakázek, prodejních případů
zakázka databáze AX X X X X X X
náklady Náklady tis. Kč databáze AX X X X X X
prod_zisk Zisk z prodeje tis. Kčprodjrzby -prod_nak
X X X X X X
prod_rekl Počet reklamací
reklamace databáze Reklamace
X X X X X
zbo_zasoby Objem zásob zboží
tis. Kč databáze AX X X X
• Podstatným aspektem této úrovně řešení je určení náplně dimenzí a jejich prvků, to znamená např., jací konkrétní zákazníci budou naplňovat dimenzi „D_Zakaznik", jaké konkrétní zboží dimenzi „D_Zbozř apod. Je dále nezbytné prvky v dimenzi racionálně strukturalizovat, jak jsme viděli v předchozích příkladech.
• Jedním z problémů je však to, že ukazatele s definovanými dimenzemi označenými v buňkách příslušné řád ky „X" musí mít adekvátní obraz ve zdrojových databázích.
• To znamená, že např. hodnoty ukazatele Tržby musí být identifikovány prvky všech uvedených dimenzí. Pokud tomu tak není, pak je hodnota ukazatele neúplně identifikována, což je chyba a musí být řešena v rámci čištění a transformací dat
• Z uvedených charakteristik a možností dimenzionálního modelování vyplývá, že data jsou organizována tak, je ve svém výsledku a aplikacích nabízejí tyto efekty:– lze je prezentovat na libovolné úrovni agregace (s využitím funkcí drill
down, drill up;– dimenze lze v průběhu specifikace dotazu nebo požadavku na výstupní
data libovolně kombinovat (na principu slice & dice, crosstabing, tedy identifikovat data pomocí dimenzí v různých tabulkách);
– nad dimenzionálně uspořádanými daty lze provádět nejrůznější aritmetické i množinové operace, lze využí vat agregační a statistické funkce (např. SUM, MIN, MAX, COUNT, AVG), lze efektivně vyhledávat extrémníhodnoty dle dimenzí apod.
• Speciální místo v modelu má časová dimenze, tedy určení, jaká bude struktura časových intervalů (roky, kvartály, měsíce), zda se bude k aktuálnímu datu nějakým způsobem měnit (např. na dekády, dny), zda se budou některé starší časové úseky přesouvat z provozního řešení do archivu (tzv. aging) apod.
Analýza a návrh datového skladu a tržišť
• analýza a návrh realizuje na třech základních úrovních:– konceptualní, kde se definují základní entity v datovém
skladu a jejich vazby (na základě výše uvedených principů);
– logické, kde se jednotlivé entity transformují do návrhů logických struktur databázových tabulek, tedy včetně struktur atributů těchto tabulek;
– fyzické, specifikující již všechny nezbytné technologické charakteristiky databázových tabulek a jejich vazeb.
Tabulky faktů
• Dimenzionalitu uložení dat můžeme realizovat i v relačních databázích datových skladů a tržišť vhodným řešením databázových schémat hvězdy (STAR) a sněhové vločky (SNOWFLAKE).
• V centru schématu je tabulka faktů, tedy tabulka sledovaných hodnot ekonomických a dalších ukazatelů identifikovaných klíčem složeným z cizích klíčů dimenzionálních tabulek.
Dimenzionální tabulky• Dimenzionální tabulky slouží jako úložiště textových informací o
hodnotách ukazatelů uložených v tabulce faktů. • Většinou si je lze představit jako číselník. Pro reálné dimenzionální
tabulky je typické velké množství atributů, pro něž se nejlépe hodí atributy textové a diskrétní.
• Přesto občas bývá problematické rozhodnout, které pole bude zařazeno do fakt tabulky, a které do tabulky dimenzionální.
• Naše rozhodnutí je většinou závislé na tom, jeli sledovaná veličina měřitelná a měnící se v čase - pak patří do tabulky faktů, či zda je diskrétní a vystupuje spíše jako konstanta - pak jde o položku z dimenzionální tabulky.
• Příkladem je cena zboží, která se může často podstatně měnit, a pak by měla být zařazena do tabulky faktů.
Principy tabulky faktů
• Sloupce tabulky faktů jsou pouze buď klíčové položky, nebo hodnoty. • Řádky v tabulce jsou přiřazovány na nejnižší úrovni detailu, tj. pouze na úrovni listů ve strukturách dimenzí.• Na odpovídající tabulky dimenzí se tabulka faktů odkazuje prostřednictvím cizích klíčů, např. Zbo_id váže tabulku faktů na dimenzionální tabulku D_Zbozi. • Všechny cizí klíče do odpovídajících tabulek dimenzí tvoří složený primární klíč tabulky faktů, např. Zbo_jd, Ter_jd, Cas_id.• Klíčové položky (listy ve struktuře dimenzí) jsou, s ohledem na nároky na paměťový prostor, vesměs celočíselné hodnoty.• Klíče reprezentující datumové položky mohou být buď celočíselného nebo datumového typu.
Granularita v tabulce faktů• Granularita určuje úroveň podrobnosti údajů-faktů uložených ve fakt
tabulce. Granularita údajů v tabulce faktů je přímo závislá na úrovni podrobnosti dimenzí odpovídajících příslušné tabulce faktů. Například máme-li v časové dimenzi definovanou strukturu až na jeden den, a v dimenzi D_Zbozi na jeden dílčí produkt, pak každý záznam v tabulce faktů („zrno") je na úrovni Jedno dílčí zboží" a Jeden den". Tím je dána granularita tabulky faktů a ob dobně je tomu ve vztahu k ostatním dimenzím.
• Nízká granularita, tedy nízká úroveň detailu uložených dat, znamená nemožnost pracovat s detailními daty, tj. podle dnů, jednotlivých zboží, prodejců apod. Naopak vysoká granularita, tedy vysoká úroveň detailu dat, možnosti detailních analýz nabízí, ale na druhé straně znamená i podstatně vyšší nároky na diskový prostor da tového skladu.
• Kapitola je neukončená