Skladište podataka

Alen KosanoviSkladite podataka

Univerzitet u Novom SaduTehniki fakultet Mihajlo PupinZrenjanin

Predmet: Poslovna InteligencijaSeminarski radSKLADITE PODATAKA Data Warehouse

Mentor: Prof. dr Biljana Radulovi Student: Alen KosanoviBroj indeksa: IM 93/13Smer: Inenjerski menadment

Zrenjanin 2014 god.Sadraj1Istorijski pogled na fenomen skladitenja podataka42Principi skladitenja podataka42.1Upravljanje podacima na stari nain52.2Upravljanje podacima na osnovu principa skladita podataka53Definicija skladita podataka (Data Warehouse)53.1Razlike u odnosu na transakcione baze podataka64Data mining74.1Primena Data Mining75Pristup implementaciji Data Warehouse85.1Problem nepouzdanih podataka95.1.1Viestruki informacioni sistemi95.1.2Viestruki kanali podataka115.1.3Informacioni silosi115.1.4Definicije podataka115.2Data Warehouse kao alternativa115.3Organizovanje procesa125.4Pogled na skladite sa stanovita menadmenta znanja (Knowledge management)125.5Globalni korporativni model135.6Analiza lanca vrednosti146Arhitektura skladita156.1Dvoslojna arhitektura s jednim zajednikim skladitem podataka156.2Dvoslojna arhitektura sa vie nezavisnih lokalnih skladita podataka156.3Troslojna arhitektura skladita podataka156.4Data Mart167Komponente skladita podataka167.1Izvor podataka177.2Oblast za pripremu podataka177.3Prezentacija podataka187.4Pristup podacima188Pristup izgradnji skladita189Proces razvoja skladita199.1Analiza izvora podataka199.1.1Prikupljanje zahteva199.1.2Planiranje skladita podataka209.1.3Izbor tehnike analize podataka209.2Pripremanje podataka219.2.1Problemi izvora podataka229.2.2Ekstrakcija podataka229.2.3Transformacija podataka239.3Izgradnja skladita podataka2510OLAP3110.1OLAP kocka3110.2Operacije nad OLAP kockom3210.3Arhitektura OLAP sistema3410.3.1Viedimenzioni OLAP (MOLAP)3410.3.2Relacioni OLAP (ROLAP)3510.3.3Hibridni OLAP (HOLAP)3511Budunost Data Warehouse3512Zakljuak3613Literatura37

Istorijski pogled na fenomen skladitenja podatakaKoreni skladitenja podataka mogu se nai u disciplinama baza podataka i upravljanja podataka. Godinama, zapravo od ranih 1960-ih, organizacije i teoretiari su shvatili da upravljanje informacijama i podaci koji ine da informacije budu upotrebljive, bile su pokretaka snaga modernog poslovanja korporacija. Naalost, podaci i informacije nisu laki za upravljanje.Prvi veliki pokuaj da se obezbedi upravljanje velikom koliinom podataka je bio jo 1950-tih godina. Specijalizovani softver, pod nazivom Sistemi za upravljanje bazama podataka, stvoren je da pomogne preduzeima da vre kontrolu nad ogromnom koliinom podataka kojima su bili primorani da upravljaju. Ove rane baze podataka kao to su IBM IMS ili Cullinet IDMS su bile kompleksne, obimne a efiksano upravljane se vrilo od strane programera poslovnih procesa. Kako je vreme prolazilo i kako je tehnologija bivala sve sloenija, ove staromodne baze podataka pokazivale su sve manju fleksibilnost i odziv prema potrebama preduzea. Sredinom 1960-tih izmiljen je koncept relacionih baza podataka. Relacione baze podataka su bile drugaije od ranijih verzija baza jer su dozvolile ljudima da steknu vei pristup podacima na vie naina sa mnogo manjom zavisnosti od programera. Relacione baze podataka su se proirile industrijom kao oluja, do take u kojoj gotovo da nema druge vrste baza podataka. Relacione baze podataka su praktino dovele do revolucije u pristupu upravljanja podacima i unele su ogromnu promenu kako za programere, tako i za korisnike sistema. Ubrzo zatim, dolazi do jo jedne revolucije. Ova se odnosila na nove vrste hardvera (UNIX sistemi, prersonalni raunari) i novi nain razvoja sistema. Ova revolucija je nazvana klijent-server revolucija. Mone radne stanice sada imaju vie snage nego stari mainframe sistemi koji su sluili za procesiranje podataka. Mo se ogledala u tome to su omoguili da zaposleni van IT sektora postanu administratori baza, koristei sofisticirane sisteme kao to su LOTUS, Excel, Access, ili dBASE-IV. Dolo je do velikog pomaka u shvatanju da je upravljanje informacijama mogue raditi drugaije.Dobra stvar koja je izala iz klijent-server revolucije bila je shvatanje kakav potencijal moe da ima kombinacija dinamikih mrea, jeftinih UNIX servera, kao i inteligentnih personalnih raunara na promenu korporativne radne sredine i poslovnih procesa.Loa stvar je da smo otkrili, da je upravljanje podacima koji su upravljali ovim procesima zapravo najslabija karika i najvei ograniavajui faktor koji spreava ostvarivanje punog potencijala koji tehnologija nudi. Ovo je zapravo najvea problematika skladitenja podataka. Kako bi se zaista iskoristi puni potencijal ove tehnoloke revolucije, potreban je novi, poboljan, znatno vie poslovno-orijentisan pogled na procesiranje podataka nego to je bio ikada ranije. Principi skladitenja podatakaOsnovni princip koji predstavlja skladitenje podataka je jednostavan, ali u mnogim nainima je revolucionaran.Svaka teorija upravljanja podacima pre skladitenje podataka je voena sa nekoliko osnovnih principa. Preko 40 godina, industrija je bila rob ovim principima. Ono to je zaista revolucionarno u vezi skladitenja podataka je nain da odbacuje ili drastino ove principe.

Upravljanje podacima na stari nainOsnovni koncepti koji su godinama diktirali pravila isporuke za administratore baza podataka i sistem programere su:1. Eliminacija redundantnosti podataka i minimiziranje skladinog prostora Nikada nije bilo, ili je bilo retko, dozvoljeno da sauvate isti element podataka (ime, adresa, ifarnik prodaje i sl.) vie puta. Uspena aktivnost je bila ta da su provedeni sati, dani, ponekad i meseci, da se doe do spoznaje gde sve ljudi moda ele da koriste podatke, a zatim da se sauvaju jednom za sva vremena.2. Upotreba odnosa entiteta i modelovanje tehnikama normalizacije Ove dve tehnike postaju obeleje procesa dizajna baze podataka, a obe tehnike zahtevaju da se odrediti ta ide u bazu podataka (ne na poslovno-orijentisan nain). Logika koja pokree takve sisteme je namenjena za konstrukciju velikog broja transakcija u realnom vremenu - OLTP (On-Line Transaction Processing).3. Zavisnost od ivotnog ciklusa razvoja sistema i JAD (joint application development - zajedniki razvoj aplikacija) sesije kao sredstvo projektovanja sistema Ove tehnike predstavljaju zbir nekoliko decenija iskustva u zgradi raunarskih sistema.Upravljanje podacima na osnovu principa skladita podatakaSuprotno principima eliminacije redudanse podataka i optimizacije skladinog prostora kao kljua za uspean dizajn baze podataka, princip skladitenja podataka, kae da je u redu duplirati podatake, a u mnogim sluajevima i dobra stvar. Suprotno principu normalizacije, insistiranju na odnosima entiteta i drugim teorijskim pristupima, principi skladitenja oslanjaju se na praktian pristup. ema zvezde zamenjuje starije pristupe.Gde JAD sesije i razvoj sistema ivotnog ciklusa pruaju, pod uslovom birokratski granica, strukturiran nain gledanja na odnos izmeu korisnika i IT osoblja gde je gotovo nemogue napraviti kreativan sistem sa take gledita korisnika, princip skladitenja podataka prua iterativan, learn-as-you-go sistemski pristup.Definicija skladita podataka (Data Warehouse)Sam pojam "skladite podataka" (engl. Data Warehouse) podrazumeva zbirku podataka izolovanih iz operativnih baza i spremljenih u posebne baze, odnosno skladita podataka. Ralph Kimball u svojoj knjizi "The Data Warehouse Toolkit: Practical Techniques for Building Dimensional Data Warehouses" definie skladite podataka kao kopiju transakcionih podataka specifino strukturiranih za upite i analize.Skladite podataka se danas smatra najobuhvatnijom arhitekturom koja objedinjuje sve dosadanje koncepte i podvrste informacionih sistema. Sutinska filozofija skladitenja podataka je zasnovana na konceptu integracije podataka. Celovitost podataka je vrednija od zbira delova podataka.Data Warehouse je jedinstveno, integrisano skladite podataka koje obezbeuje infrastrukturnu osnovu svim aplikacijama u jednoj organizaciji. Glavna karakteristika koja odreuje skladite podataka odnosi se na njegovu svrhu. U skladitu podataka podaci se skupljaju i organizuju na nain da budu lako dostupni da bi ih menadment mogao na brz i jednostavan nain iskoristiti za potrebe analize svog poslovanja.Prema definiciji koju je postavio William H. Inmon, skladite podataka predstavlja subjektno usmeren, integrisani, vremenski zavisan i sadrajno nepromenjiv skup podataka, a krajnji cilj mu je pomo menadmentu pri donoenju odluka.Subjektno usmerenje podataka znai da se oni organizuju oko predmeta, na nain da daju informacije o tano odreenim predmetima u okviru funkcionalnih podruja preduzea umesto o tekuim operacijama. Suprotnost tome su operativne baze podataka koje su organizovane oko poslovnih aplikacija, tj. usmerene su na tekue operacije (obrade porudbina, isporuka i sl.).Integrisanost - podaci se skupljaju u bazu podataka iz razliitih izvora i pohranjuju uvek u istom formatu, te su samim tim konzistentni i prikazuju se na dosledan nain.Vremenska zavisnost - svi podaci u skladitu podataka vezani su i identifikuju se uz odreeni vremenski period, to znai da imaju istorijski karakter. Za razliku od njih, u operativnim bazama podataka pohranjeni su samo aktuelni, najsveiji podaci. Meutim, s gledita koncepta poslovne inteligencije, sveobuhvatno predvianje buduih dogaaja nije mogue provesti bez poznavanja istorije istih ili nekih drugih dogaaja. Iz toga proizilazi da su podaci u skladitu podataka istorijski, dok je njihovo usmerenje okrenuto ka budunosti.Nepromenjivost sadraja - podaci u skladitu su stabilni i kad se jednom unesu u skladite po pravilu se ne menjaju. Time se omoguava da menadement ili svako ko koristi skladite podataka moe biti siguran da e dobiti istovetan odgovor nezavisno od vremena ili uestalosti postavljanja upita.Razlike u odnosu na transakcione baze podatakaOsnovna razlika izmeu transakcione baze podataka i skladita podataka je ta to su transakcione baze dizajnirane i optimizovane za snimanje, dok su skladita podataka dizajnirana i optimizovana da odgovore na pitanja koja su kritina za poslovanje organizacije.Transakcione baze podataka su OLTP (On-Line Transaction Processing) sistemi gde svaka transakcija mora da bude zabeleena i to veoma brzo. Zamislimo scenario gde je bankomat neke banke isplatio novac za kupca, ali nije mogao da zabelei ovaj dogaaj u evidenciji banke. Ako bi se ovo deavalo esto, banka ne bi ostala u poslu dugo vremena. Dakle, bankarski sistem je dizajniran da se da se sve transakcije belee u trenutku dok se korisnik nalazi ispred bankomata i koristi ga. Skladite podataka, sa druge strane, je takoe baza podataka ali je za razliku od transakcioih baza, dizajniran za olakavanje izvravanje upita i analiza. esto zamiljene kao OLAP (On-Line Analytical Processing) sistemi, ove baze podataka sadre samo za itanje podataka koji se moe potraiti i analizirani daleko efikasnije u poreenju sa transakcionim bazama podataka. Odvajanje od transakcione baze podataka osigurava skalabilnost poslovnog sistema.Stvaranje skladita podataka dovodi do direktnog poveanja kvaliteta analiza kada su strukture tabele jednostavnije (u tabelama se dre samo potrebne informacije), standardizovan (dobro dokumentovan strukture tabele) i denormalizovane (smanjen broj veza izmeu tabela i odgovarajua sloenost upita). Skladite podataka drastino smanjuje "cenu po analizi" i na taj nain omoguava vie uraenih analiza po zaposlenom u jedinici vremena. Skladite podataka je dobra osnova za uspene biznis analize.Data miningDok je skladitenje podataka je omoguilo korisnicima lagodan pristup podacima, Data Mining omoguava da se sa podacima uradi mnogo vie nego ranije.Godinama u nazad, inteligentno korienje podataka je bio projekat stotina teoretiara iz oblasti psihologije, interakcija ovek-kompjuter, statistike, vetake inteligencije, podrke pri odluivanju i izvrom upravljanju informacijama. Cilj je bio da se korisnicima omogui podrka u donoenju znaajnih odluka. Konano, realizacija po razumnoj ceni je bila mogua kada je nastupila era monih raunara. Kao i za skladite podataka, postoje raznovrsne definicije koje se odnose na analizu podataka. Opta definicija opisuje analizu podataka kao sortiranje, organizovanje ili grupisanje velikog broja podataka u cilju izvlaenja relevantnih infromacija. Sveukupni cilj je ekstrakcija znanja iz postojeih podataka i trasformacija u oblik podesan za dalju upotrebu. Softver za Data mining je jedan od brojnih analitikih alata za analizu podataka. On omoguava korisnicima da analiziraju podatke iz razliitih dimenzija ili uglova, kategorie ga i sumira identifikovane odnose. Tehniki, analiza podataka je proces pronalaenja korelacija ili obrazaca meu desetinama polja u velikim relacionim bazama podataka.Primena Data MiningData Mining se prvenstveno koristi u dananjim kompanijama sa jakim fokusom na potroae u oblastima maloprodaje, finansija, komunikacija i marketinga. To omoguava ovim kompanijama da se utvrdi veza izmeu "unutranjih" faktora kao to su cena, pozicioniranje proizvoda, ili vetina osoblja i "spoljnih" faktora kao to su ekonomski pokazatelji, konkurencija i demografija kupaca. Takoe, omoguava da se utvrdi uticaj na prodaju, zadovoljstvo kupaca i dobit. Konano, omoguava detaljan uvid u podatke o transakcijama.Analizom podataka, trgovac moe da koristi point-of-sale evidenciju o kupovinama kupaca, da alje ciljane promocije na osnovu kupoprodajne istorije pojedinca i da vri segmentaciju korinsika po razliitim kljunim parametrima.WalMart je pionir u masivnoj analizi podataka. WalMart snima point-of-sale transakcije od preko 2.900 prodavnica u 6 zemalja i kontinuirano prenosi ove podatke u svoja masivna skladita podataka. On omoguava da vie od 3.500 dobavljaa, pristupe podacima o svojim proizvodima i vre analize podataka. Dobavljai koriste ove informacije da upravljaju lokalnom inventarom prodavnice i identifikuju nove mogunosti. Jo 1995. godine, WalMart-ovi raunari su obraivali preko 1 milion sloenih upita.Ameriki nacionalni koarkaki savez (NBA) istrauje aplikaciju Advanced Scout za analizu podataka koji se moe koristiti u sprezi sa snimcima koarkakih utakmica. Napredni softver analizira pokrete igraa u cilju pruanja pomoi trenerima da adekvatno orkestriraju strategije. Na primer, analiza utakmice koja se igrala izmeu New York Knicks i Cleveland Cavaliers, otkriva da kada je Mark Price igrao bekovsku poziciju, John Williams je pokuao etiri skok uta i pogodio samo jedan. Advanced Scout nee samo konstatovati ovaj obrazac, ve objanjava zato je to interesantno, jer znatno razlikuje od prosenog procenta gaanja od 49.30% za Cleveland Cavaliers tokom te utakmice.Pristup implementaciji Data WarehouseSa stanovita teorije oba pristupa (Data Warehouse, Data Mining) zvue veoma primamljivo, ali ukoliko se posmatra aspekt da tehnologija treba da rei poslovne probleme, neophodno je imati potpuno razumevanje na koji nain e tehnologija biti primenjena. Naalost, istorija primene skladitenja podataka nije bila ruiasta. Suvie esto ljudi su hteli da primene tehnologiju bez potunog razumevanja kako da je koriste i ta treba raditi sa istom. Rezultat su bile stotine propalih projekata.Oigledno je da su uspeni projekti oni gde ljudi pri razvoju sistema imaju jasanu sliku o poslovno konceptu. Arhitektura i dizajn moraju biti voeni poslovnim potrebama. Ukoliko je fokus pri voenju projekta na teoriji i procesiranju podataka, onda on nee uspeti.Posmatrajui telekomunikacionu kompaniju koja je idealan primer zbog veoma intenzivne razmene podataka, prikazae se zato je primena ovih principa bitna. Postoji nekoliko razloga:Intenzitet podatakaTelekomunikacije su industrija koja ima veoma izraenu razmenu podataka. Glavna usluga je poziv ili konekcija, a korisnici mogu napraviti stotine hiljada ovih transakcija dnevno. Kompanija mora da omogui da sve ove transakcije funkcioniu, da ih monitorie sa stanovita mree, rauna, adekvatnim mrenim planiranjem i optimizacijom. U okruenju sa velikim brojem sirovih podataka, skladitenje podataka i analiza podataka imaju mnogo smisla.Analiza zavisnostiTelekomunikacione kompanije su veoma zavisne od njihove mogunosti da obrauju tone sirovnih podataka i da na osnovu njih prave inteligentne odluke. Za razliku od tradicionalne proizvodne firme koje prate fiziki proizvod, telekomunikacione kompanije ne prate nita opipljivo. Dakle, ove firme su ozbiljno zavisne od sirovih podataka u silju generisanja rauna, merenja mrene efikasnosti itd. U ovu svrhu skladitenje podataka i analiza podataka su najbolji.Konkurentska klimaU ranijem periodu telekomunikacione kompanije su poslovale kao monopolisti i razvijane su sa ozbiljnim nedostakom da sagledaju kako da posluju u konkurenskoj borbi. Relativno skoro, ove kompanije su primorane da ue kako da formiraju tehnoloke infrastrukture i organizacionu kulturu (orijentacija ka korisniku) na efektivan nain kako bi opstale u konkuretskoj borbi. Skladitenje podataka i analiza podataka su najbolji alat za reavanje ovih nasleenih slabosti. Tehnoloka promenaTelekomunikaciona industrija je verovatno najkompleksija za rad sa infrastrukturnog i inenjerskog stanovita. Veliki broj inovacija, skoro kvartalno primoravaju telekomunikacione kompanije da ponovo procenjuju svoje investicije i infrastrukturu i dizajn mree. Upravljanje promenama je u ovoj grani od fundamentalnog znaaja po opstanak kompanije, prilagoavanje mora da bude brzo uz merenje uvedenih promena. Skladitenje podataka je veoma pogodan pristup zbog mogunosti da fleksibilno i brzo reaguje na promene kod ovakvih organizacija.Istorijski presedan Telekomunikaciona industrija ima dugu i veoma bodatu istoriju koja se ogleda u tenji da inovacije u upravljanju podataka pretvore u svoju prednost, jo od od najranijih dana nastanka ove grane industrije. Bogata tradicija u vrenju kompleksnih analiza podataka, telekomunikacione kompanije je uinila efiksanim i profitabilnim i kao takve su idealne za razvoj mone organizacije skladita podataka.Problem nepouzdanih podatakaU prethodnoj taki prikazana je zavisnost dananjih kompanija o kvalitet podataka koje obrauju. Veliki broj kompanija suoen je sa problemom nepouzdanih podataka, a faktori koji doprinose tome su prikazani na slici 1.

Slika 1. Nepouzdani podaciViestruki informacioni sistemiDiversifikacija proizvodnje, odnosno uveanje broja proizvoda u portfoliju organizacije je najei faktor koji doprinosi multipliciranju sistema. Najvei izazovi viestrukih sistema su upravljanje operativnim performansama kao i sve kompleksnije upravljanje podacima. Dobro je poznato da viestruki sistemi podataka utiu na pouzdanost podataka. Iz perspektive poslovnog raunarskog sistema u organizaciji, neminovno je da svaka specijalizovana oblast poslovanja tei da ima sopstvene informacione sisteme. Raunovoe rade sa finansijskim sistemima, marketing ljudi rade sa marketing i prodajnim sistema, i tako dalje.

Slika 2. Osnovni sistemi poslovanjaKako organizacija raste i kako informacioni sistemi postaju rafinirani i optimizovani, usklaenost izmeu njih se sve vie smanjuje. Ovo se ogleda u tome to vremenom sistemi postaju bitni za vie organizacionih celina, tako da odreeni sistem nema konkretnog vlasnika (slika 3.). Npr. sistem naplate vremenom postaje veoma bitan za poslovne procese cele kompanije (slika 4.).

Slika 3. Meuzavisnost sistema

Slika 4. Deljeni sistem naplateVremenom ova fragmentacija dovodi do veoma velike kompleksnosti celog sistema kojim je sve tee upravljati i moe imati razorne posledice po kompaniju. Sve vie postaju zavisni jedni od drugih, to prourokuje da se problem sa jednim sistemom reflektuje lanano na ostale zavisne sisteme. Drugi problem se ogleda u tome to spajanje sistema smanjuje njihovu pojedinanu efikasnost i efektivnost.Za ovo postoje tri razloga koji su veliki izazovi organizaciji: Nedovoljno resursa za za racionalizaciju sistema Nedostatak razumevanja kako integrisati podatke Nedovoljan budet koji bi reio problemViestruki kanali podatakaViestruki kanali podataka su kanali kroz koje se generiu podaci a to su poslovnice, kontakt centri, internet portali itd. U cilju razumevanja uzroka nepouzdanisti podataka u organizacijama analizom koliine podataka, integraciji i kvalitetu podataka dolazi se do zakljuaka da se borba sa koliinom podataka vodi uveanjem kapaciteta, to je trokovno manji problem, ali je mnogo vei problem ukupno uveanje operativnih trokova. Dok je cena skladita mala, cena upravljanja i primene podataka iziskuje uveanje broja zaposlenih i dalje irenje tehnologije. Informacioni silosiInformacioni silosi su repozitorijumi podataka i mogu da sadre skladita, Data Mart-ove i tabelarne dokumente. Informacioni silosi su izazov za pouzdanost podataka decenijama u nazad. Istraivanja pokazuju da bol raste kada novi sistemi, novi kanali i nova tehnologija nastave da rade u organizacijama zasnovanim na funkcionalnom modelu.Glavni razlog nastanka informacionih silosa je postojanje funkcionalnih odeljenja koji operativno funkcioniu nezavisno jedni od drugih. Sa ovakvom fragmentacijom u poslovnoj strukturi postoji realan rizik da se stvori organizacija gde zaposleni gube dodir sa onim to je zaista posao firme u kojoj rade i pogled na to kako se njihovi poslovi meusobno uklapaju. Zapravo, prilino je ironino to da su neeljeni efekti segmentacije poslovnih funkcija stvaranje grupa specijalista koji e na mnogo naina da se posmatraju meusobno kao konkurenti. Postoje primeri gde su ak cela odeljenja u nekoj usluno orijentisanoj kompaniji postala anti-prodajna zbog meusobnog sukoba sa odeljenjem prodaje. Ne tako retko deava se da odeljenja na svojim serverima manuleno prave zasebne kopije veoma bitnih podataka to dovodi do dupliranja i nepouzdanosti podataka. Definicije podatakaOvaj faktor utie na pouzdanost podataka slino kao i informacioni silosi, postojanje nezavisnih odeljenja i odsustvo strategije. Definisanje podataka je veoma vaan faktor na pouzdanost podataka u procesu transformacije organizacije. Ustanovljavanje standardnih termina je kljunog znaaja za izvetavanje i donoenje odluka za organizacije koje su u toku ili su zavrile transformaciju. Takoe, definicije podataka su kljune za reavanje problema sa informacionim silosima i smanjivanje trokova radne snage i tehnologije.Data Warehouse kao alternativaSkladite podataka je alternativa meusobnoj zavisnosti sistema i stvaranju mega sistema. Skladite se moe iskoristiti za optimizaciju pojedinanih procesa iz razloga to je orijentacija skladita na teme a ne na funkcionalne celine kao u OLTP sistemima. Teme su objekti koji interesuju vie organizacionih funkcija, npr proizvodi ili kupci iji se podaci obrauju u funkcijama marketinga, proizvodnje, finansijama itd. U najveem broju sluajeva skladite se formira u cilju reavanja specifinih poslovnih problema. Takva skladita mogu da izvalae informacije iz bilo kog silosa po potrebi i da ih kombinuju kao istorijske ili podatke u relanom vremenu.

Slika 5. Skladite kao alternativaOrganizovanje procesaPosmatrajui telekomunikaconu industriju ije su glavne karakteristike da je velika, neverovatno profitabilna, sve vie konkurentna, gotovo neverovatno kompleksna, tehniki sofisticirana, a prua kritine usluge za korisnike, preduzea, vladu, ostale industrije, principi skladitenja i analize podataka su idealni za reavanje problema sa kojima se suoavaju. Postavlja se pitanje kako da najbolje iskoriste tehnologiju na efikasan i profitabilan nain, kako da ponu i shvate njenu primenu. Da bi se uspeno primenila ova tehnologijia, bitno je znati vie stvari koje su navedene u daljem tekstu.Sagledavanje informacionih sistema i druge tehnoloke infrastrukture u kompanijiPrva stvar koju treba sagledati je ta postojei informacioni sistemi rade i kojom vrstom informacija se ve upravlja u organizaciji. Efiksano reenje je ono koje u to veoj meri prua podrku postojeem sistemu do njegovog maksimalnog iskorienja. Pristup raspodeli podatka u skladituNakon sagledavanja postojeeg sistema, pristupa se sagledavanju na koji nain da se prikupe svi podaci u skladite i na koji nain da se iskoriste. U ovom koraku se sagledava nain izgradnje skladita.Razvijanje plana za identifikovanje podataka koji se stavljaju u skladite i odabir alata za analizu podatakaNakon sagledavanja kako da se izgradi skladite, potrebno je sagledati ta e sve skladite da radi. U ovu svrhu se okreemo menadmentu kao naunoj disciplini, odnosno menadmentu znanja (knowledge management). Korienjem ovog pristupa, definie se proces u cilju razumevanja koje stvari skladite treba da dri u poslovnom smislu i predlau se alati za analizu podataka koji treba da se primene u tu svrhu. Svi ovi ulazi se prikupljaju kako bi se razvila kompletna konstrukcija skladita. Pogled na skladite sa stanovita menadmenta znanja (Knowledge management)Na poslovanje u veem delu XX veka gledano je kao na grupu ljudi okupljenih sa ciljem da konvertuju sirove materijale u upotrebljivu robu. Linija za sklapanje proizvoda, ekonomska skala i podela rada su kljune paradigme koje su modelovale poslovne procese.Sa stanovita upravljanja znanjem, rekli bismo da je specijalizacija ili fragmentacija procesa nain na koji kompanije pokuavaju da ostvare efikasnost. Veina velikih kompanija je sastavljena od razliitih grupa specijalista za marketing, prodaju, inenjering, finansije i sl. Svi oni su skoncentrisani da u svojim poslovnim aktivnostima optimizuju pare organizacione strukture kojoj pripadaju a ujedno i strukturu cele korporacije. Jedan od ranih pionira koncepta upravljanja znanjem je menadment guru - Peter Drucker. Pre nekoliko decenija Drucker je stvorio koncept "radnika znanja" (knowledge worker). Radnici znanja su radnici iji je glavni kapital znanje. ak i tada, on je istakao da je veliki procenat bruto nacionalnog proizvoda nacije (BDP) moe se pripisati radniku znanja za razliku od pravog posla. Danas, takvo posmatranje ima veu smisao nego ikada. Prema zagovornicima upravljanja znanjem kljuna kompetentnost privrednog drutva nisu vie samo procesi, kapital i sirovi materijali, ve pre svega upravljanje znanjem. Korporacija se vidi kao kolektivna grupa razmiljanja i obrazovanih ljudi koji koriste svoje znanje se da stvore takvi proizvodi koji e imati znaajnu korist za kupce. Dakle, ako se kompanija posmatra kao kompanija koja transformie znanje, sledee to je bitno identifikovati su tipovi znanja koje vode taj proces.Globalni korporativni modelU prethodnoj taki navedeno je kakav pogled na organizaciju treba da bude da bi se napravio savren model skladita sa stanovita upravljanja znanjem. Zakljuuje se da je potrebno stvoriti jasnu sliku okruenja koji sadri silose svih bitnih oblasti poslovnih znanja u cilju njihovog kombinovanja u skladitu posmatrano iz perspektive vremena. Slika 6. Arhitektura skladita i organizaciono poravnanjeU procesu kreiranja skladita bitno je navesti sledee: Prvo - shvatiti da ono to se preslikava je model znanja poslovanja a ne sistema ili organizacioni informacioni sistem. Na ova pitanja je potrebno odgovoriti pre nego to se teoretski model konvertuje u radni model. Drugo organizacija moda nee eleti da se implementira kompletno znanje, bitno je odrediti koja znanja treba da budu sadrana u skladitu. Tree S obzirom da se pravi model znanja a ne model podataka, treba znati da su podaci koji se nalaze u bazama je jedan deo znanja koji organizacija uva. Postoje druga znanja kao to su dokumenta, prezentacije, asopisi, izvetaji, slike i ono to je najbitnije, osnovni interni resurs organizacije znanje koje se nalazi u glavama zaposlenih. Ovo poslednje je ujedno i najvee u celoj slagalici. etvrto i najvanije samo najvaniji procesi treba da budu sadrani u skladitu.Analiza lanca vrednostiCilj analize lanca vrednosti je da pokuaj da se shvati ta su zaista kljune kompetencije i ciljevi poslovanja. Kada se uradi analiza lanca vrednosti, mogue je postaviti nekoliko jednostavnih i vrlo direktnih pitanja. ta je poenta poslovanja organizacije? Ko su njeni klijenti, a ta su njihove potrebe? Na kraju, koji su glavne poslovne funkcionalne oblasti koje pokreu proces ispunjavanja tih potreba? Odgovorom na poslednje pitanje dobija se saznanje ta je sr poslovnog lanca vrednosti organizacije.Da bi se sagledao lanac vrednosti potrebno je shvatiti ta je poenta poslovanja. U sluaju osiguravajue kompanije to je osiguranje klijenata izdavanjem polisa osiguranja. Potrebno je identifikovati glavne funkcije su potrebne za ostvarivanje ovog posla. U sluaju osiguravajue kompanije to su marketing (koje polise prodavati), statistika i analiza (odreivanje cene polise), potraivanja (isplata klijentima) i prodaja polisa klijentima.

Slika 7. Lanac vrednosti telekomunikacione kompanijeSlika 8. Lanac vrednosti osiguravajue kompanije

Zato je ovo bitno? Organizacija se vremenom menja, diversifikuje poslovanje, informacioni sistemi se menjaju ali sr posla ostaje. Identifikovanjem sri poslovanja ustanovie se stabilni model skladita.Za optimalno skladite potrebno je razumeti relaciju izmeu: Operativnih sistema optimizuju upravljanje procesima u celoj organizaciji Skladita i analize podataka optimizuju i upravljaju znanjem u organizaciji. Oni se hrane infromamcijama kojima operativni sistemi upravljaju Organizacione strukture upravlja ljudima do optimalnog nivoa efikasnosti i efektivnosti.Arhitektura skladitaPrilikom kreiranja skladita podataka danas u praksi susreemo tri osnovna modela ili osnovne arhitekture skladita podataka: dvoslojna arhitektura s jednim zajednikim skladitem podataka, dvoslojna arhitektura s vie nezavisnih lokalnih skladita podataka (engl. Data Mart) i troslojna arhitektura sa zajednikim skladitem podataka i vie povezanih lokalnih skladita podataka. Dvoslojna arhitektura s jednim zajednikim skladitem podatakaOvaj model karakterie jedinstveno, zajedniko centralizovano skladite podataka. Podaci se unose u skladite podataka iz razliitih izvora unutar organizacije (npr. podaci iz online sistema za obradu transakcija, podaci iz ranije razvijenih sistema koji odravaju baze podataka i sl.) ili iz spoljnih izvora podataka dostupnih putem interneta ili na neki drugi nain. Karakteristika dvoslojne arhitekture skladita je da ona slui veem broju organizacionih jedinica preduzea kao i pojedinanim korisnicima. Takva skladita su velikog obima i vrlo sloena i u njima se po pravilu skladiti ogromna koliina podataka. Rutine prema kojima se vri prikupljanje i skladitenje podataka trebaju da podravaju irok spektar aplikacijskih zahteva. Vidljivo je da su trokovi odravanja takve arhitekture visoki i uz to zahtevaju znatano vei angaman ljudstva na odravanju skladita.Dvoslojna arhitektura sa vie nezavisnih lokalnih skladita podatakaKarakteristika ove arhitekture skladita podataka je postojanje veeg broja nezavisnih lokalnih skladita podataka namenjenih za rad pojedinanih aplikacija po organizacionim jedinicama preduzea. Rezultat takve arhitekture je veliki broj sistema u koji se posebno unose podaci iz razliitih transakcionih baza podataka. Prednost navedenog modela skladita podataka je jednostavnija izgradnja i lake korienje. Meutim takav model ima i nedostatke kao to su: oteana komunikacija meu organizacionim jedinicama preduzea. Ovaj model nije pogodan za preduzea ije poslovanje zahteva podrku aplikacija i projekata koji podrazumevaju meusobnu komunikaciju i saradnju veeg broja organizacionih jedinica preduzea, poveanjem broja meusobno nezavisnih skladita podataka paralelno raste i optereenost samih transakcionih sistema, Data Mart-ovi su oblikovani tako da podravaju samo jednu aplikaciju, pa naknadno dodavanje novih aplikacija za odreeno skladite predstavlja problem, ograniena proirivost platforme i otean je uvid u stvarno stanje informacija na nivou preduzea.Troslojna arhitektura skladita podatakaOvaj model se sastoji od veeg broja lokalnih skladita podataka i jednog zajednikog skladita podataka (Data Warehouse) koje je smeteno izmeu skladita podataka i razliitih izvora podataka unutar i izvan preduzea. Lokalna skladita podataka se oslanjaju na centralno skladite podataka koje im isporuuje podatke u obliku koji daje ujednaen uvid u sve segmente poslovanja preduzea. U odnosu na prethodna dva modela prednosti troslojne arhitekture su vea tanost informacija nevezano s kojeg izvora su zahvaene, olakana je komunikacija meu organizacionim jedinicama, smanjena je optereenost informatiara, poveana je skalabilnost i proirivost platforme za skladitenje podataka i na kraju, ova arhitektura prua mogunost korienja spoljnih aplikacija ime se omoguava povezivanje svih subjekata u unutar preduzea. Data MartData Mart-ovi su podskupovi podataka skladita podataka i mesto gde se odvija najvie analitikih aktivnosti u BI okruenju. Podaci u svakom Data Mart-u su uobiajeno kreirani za odreenu mogunost ili funkciju, segment (marketing, prodaja, analiza profitabilnosti proizvoda, demografske analize kupaca, itd). Svaki specifini Data Mart je optimizovan za unapred definisano podruje i ne mora biti odgovarajui za druge upotrebe. Najei oblik Data Mart-a je multidimenzionalan, to omoguava lak pristup, brzu i kvalitetnu analizu podataka. Problem koji se moe pojaviti u organizaciji koja je implementirala nekoliko Data Mart-ova pre implementacije centralnog skladita podataka je integracija postojeih Data Mart-ova u celovit sistem. Verovatno najvei zagovornik implementacije Data Mart-ova i decentraliziranih sistema je Ralph Kimball. Potrebno je neprestano praviti balans izmeu tenje da se oni kreiraju kao odvojeni silosi ili odeljenja i potrebe za uspenim funkcionisanjem skladita na globalnom nivou. Meusobno usklaeni i koordinirani data martovi se nazivaju super martovi. Svaki data mart se sastoji iz niza tabela injenica, iji je klju sastavljen od vie spoljnih kljueva koji dolaze iz tabela dimenzija. Konformisana dimenzija (conformed dimension) je ona koja ima potpuno isto znaenje u svakoj tabeli injenica sa kojom je povezana. Zato je ta dimenzija identina u svakom Data Mart-u. Upravo to dovodi do integracije Data Mart-ova, a meusobne veze se uspostavljaju preko deljenih dimenzija (Kupac, Proizvod). Skladite je kolekcija zasebno implementiranih supermartova povezanih zajedno sa monom arhitekturom, zasnovanom na konformiranim dimenzijama i standardizovanim injenicama. U Data Warehouse Bus arhitekturi razlikuju se dve vrste Data Mart-ova: Atomski (Atomic Data Marts) - dre multidimenzionalne podatke na najniem nivou. Agregirani (Aggregated Data Marts) skladite podatke u skladu sa sutinom poslovnih procesa. Dimenzionalni modeli su izgraeni po poslovnim procesima (koji odgovaraju poslovnim merama ili dogaajima), a ne poslovnim odeljenjima. Tako, na primer, podaci vezani za narudbine su na raspolaganju na korporativnom nivou, a ne razdvojeni u tri departmenta za finansije, marketing i prodaju. Bus arhitektura identifikuje i odrava veze izmeu metrike poslovnih procesa (injenica) i opisnih atributa (dimenzija).Komponente skladita podatakaSvaka komponenta skladita ima odreenu funkciju. Bitno je razumeti strateki znaaj svake komponente. Jedna od najveih pretnji za uspenu implementaciju skladita su zbunjujue uloge i funkcije komponenti. Kao to je ilustrovano na slici 9, postoje etiri komponente koje treba da se sagledaju kada se formira okruenje skladita: Operativni izvor podataka, oblast za pripremu podataka, prezentacija podataka, pristup podacima.

Slika 9. Komponente skladita podatakaIzvor podatakaOvo su sistemi koji sadre podatke o transakcijama i oni treba da budu izvan skladita iz razloga to postoji minimalna ili nikakva kontrola nad sadrajem i formatom podataka u ovim sistemima. Osnovni cilj ovih sistema su visoka dostupnost i visoka mo procesiranja. Oni sadre mali broj istorijskih podataka.Oblast za pripremu podataka Ovde se sirovi podaci transformiu format pogodan za upite i korienje. Ova oblast se nalazi u skladitu podataka i predstavlja skladite i procese koji se obino nazivaju ETL (extract-transformation-load). Iako naziv aludira na to da se ETL sastoji od tri koraka, zapravo ETL se sastoji od etiri koraka i to: 1. Ekstrakcija podataka (engl. Extracting). Ekstrakcija je korak u kome se podaci iz izvornih sistema upisuju u odgovarajue strukture pogodne za dalju obradu. 2. ienje podataka (engl. Cleaning). U veini sluajeva kvalitet podataka koji je dovoljan za izvorne operacione sisteme ne mora biti dovoljan i za skladite podataka. ienje podataka podrazumeva transformaciju podataka dobijenih ekstrakcijom u oblik pogodan za primenu u skladitu podataka. To moe da podrazumeva proveru da li su vrednosti validne (u odgovarajuem opsegu), da li su podaci konzistentni, da li postoje duplirani podaci, da li su zadovoljena razliita poslovna pravila, i sl. Obino se ekstrahovani podaci nakon ienja odbacuju, a preienji podaci se uvaju za dalju obradu. 3. Ujednaavanje podataka (engl. Conforming). Ako izvorni podaci pristiu iz vie razliitih izvora, zadatak ovog koraka je da podatke ujednai, tj. da se ne dozvoli da se npr. isti podaci obeleavaju razliitim nazivima. Ovaj korak predstavlja pre svega standardizaciju domena i mera. 4. Uitavanje podataka (engl. Delivering). Poslednji korak ETL procesa je uitavanje i strukturiranje prethodno pripremljenih podataka u pogodne eme optimizovane za korienje od strane krajnjih korisnika sistema.Prezentacija podatakaOva oblast predstavlja podatke sloene u odgovarajue strukture pogodne za korienje od strane krajnjih korisnika koji im pristupaju preko odreenih namenskih alata. Struktura podataka je zasnovana na dimenzionom modelu. Kada se prezentaciono podruje implementira u relacionim bazama podataka dobijena struktura dimenziono modelovanih tabela se naziva zvezdasta struktura podataka (engl. Star Schema). Jedna takva struktura prikazana je na slici 10. Ako se prezentacioni sloj implementira u multidimenzionim bazama podataka ili OLAP tehnologiji, tada se podaci smetaju u hiperkocke ili samo kocke (engl. Cube).

Slika 10. ema zvezdePristup podacimaOva oblast predstavlja skup analitikih alata koji koristi krajnji korisnik za pristup podacima iz oblasti prezentacije podataka.Pristup izgradnji skladitaPostoji nekoliko naina na koji moemo napraviti skladite. Iz vremenske perspektive, skadite e pomoi zaposlenima imaju uvid u istorijske podatke ili podatke u realnom vremenu. Ovakvi pristupi se nazivaju pasivni (istorijski) ili aktivni (u realnom vremenu), tako da razlikujemo pasivna i aktivna skladita podataka. Posmatrano sa stanovita obrade podatka, npr. poziv korisnika, pasivni sistemi se primenjuju u prodajnim odeljenjima kako bi se izuavala ponaanja korisnika i pripremale adekvatne ponude i segmentacije korisnika. Aktivni sistemi e imati primenu u kriditnim ili bezbednosnim analizama ponaanja korisnika koji obavljaju pozive u cilju spreavanja eventualnih prevara.Skladite podataka se moe primeniti za analizu i optimizaciju ne samo pojedinanih silosa podataka, ve za integrisani pogled kako bi se premostio jaz izmeu silosa informacija i sagledao kompletan proces poslovnih aktivnosti. Ovakav pogled omoguava dobijanje jasnije slike o pruanju usluge i percepcije o zadovoljstvu korisnika uslugom koju organizacija prua. Ova dva pogleda daju novu podelu, na skaldita zasnovana na pojedninim silosima i integrisana skladita.Proces razvoja skladitaProces razvoja skladita obuhvata (slika 11.): Analizu izvora podataka Pripremanje podataka Izgradnju skladita

Slika 11. Proces razvoja skladita podatakaAnaliza izvora podatakaOsnovni izvori podataka za koncept skladita podataka su OLTP podaci, kao i spoljne informacije nastale kao istorija poslovanja ili industrijski i demografski podaci uzeti iz velikih javnih baza podataka. Analiza izvornih podataka se smatra kljunim elementom i oduzima 80% vremena, jer je potrebno definisati odgovarajua pravila za preuzimanje podataka iz izvornih podataka. Znanja vezana za ovu oblast su najee u glavama onih koji treba da koriste skladite podataka. Analiza izvora podataka prolazi kroz sledee faze:Prikupljanje zahteva U ovoj fazi razvoja skladita razmatraju se poslovnie potrebe i zahtevi buduih korisnika sistema. Prikupljanje izvornih (Source-Driven) zahtevaMetoda bazirana na definisanju zahteva korienjem izvornih podataka u proizvodno-operativnim sistemima. Ovo se radi analiziranjem ER-modela izvornih podataka. Prikupljanje korisnikih (User-Driven) zahtevaPrikupljanje korisnikih zahteva je metoda koja se bazira na definisanju zahteva istraivanjem funkcija kojima korisnik tei, odnosno koje korisnik izvrava. Ovo se obino postie kroz seriju sastanaka i/ili intervjua sa korisnikom.Planiranje skladita podatakaPlaniranje skladita podataka sastoji se od sledeih zadataka: Definisanje obima projekta, Kreiranje projektnog plana, Definisanje tehnikih uslova, Definisanje resursa, zadataka i vremenskih rokova.Pre poetka razvoja projekta treba da se razmotri arhitektura i infrastruktura skladita podataka:Tehnika infrastruktura podrazumeva razne tehnologije, platforme, baze podataka i ostale komponente koje podravaju izabranu arhitekturu skladita podataka. Tehnika infrastruktura ukljuuje i izbor instalacije baze podataka, podeavanje mrenog okruenja, kao i izbor i instalaciju alata za rad sa bazom podataka. Izbor tehnike analize podatakaPostoji nekoliko tehnika analize podataka: Upiti i izvetaji, Viedimenzionalne analize i Data mining. Upiti i izvetaji Tehnike analize podataka mogu uticati na tip odabranog modela podataka i njegov sadraj. Na primer, ako je namera da se obezbedi jednostavna mogunost upita i izvetaja, model podataka koji struktuira podatke na normalizovani nain verovatno e obezbediti najbri i nalaki pristup podacima. Mogunost upita i izvetavanja se primarno sastoji od biranja povezanih elemenata podataka, eventualnog njihovog sumiranja i grupisanja u neku kategoriju i prezentovanja rezultata. Viedimezionalna analiza je nain da se proire mogunosti upita i izvetaja. Ovo znai da se umesto izvravanja viestrukih upita podaci struktuiraju da bi se omoguio brz i lak pristup odgovorima na pitanja koja se tipino postavljaju. Na primer, interesuje vas koliko je odreenih proizvoda prodato odreenog dana, u odreenoj prodavnici i u odreenom rasponu cena. Onda za dalju analizu elite da znate koliko prodavnica je prodalo odreeni proizvod, u odreenom rasponu cena, odreenog dana. Ova dva pitanja zahtevaju sline informacije, ali jedna posmatrane iz ugla proizvoda, a druga iz ugla prodavnice.Viedimenzionalna analiza zahteva model podataka koji e omoguiti da se podaci lako i brzo mogu pogledati iz bilo koje mogue perspektive ili dimenzije. Poto se koristi vie dimenzija, model mora da obezbedi nain da se podacima brzo pristupa (ako se koriste visoko normalizovane strukture podataka, bie potrebno mnogo grupisanja izmeu tabela koje sadre razliite dimenzije podataka i mogu znaajno uticati na performanse). Data MiningZa razliku od upita, izvetaja i viedimenzionalnih analiza, gde je korisnik morao da kreira i izvrava upite zasnovane na hipotezama, data mining trai odgovore na pitanja koja ne moraju biti prethodno postavljana. Tehnika otkrivanja - Veoma je razliita od upita i izvetaja, kao i od viedimenzionalnih analiza, po tome to koristi tehniku otkrivanja. Ovo znai da ne pitate odreeno pitanje ve koristite odreene algoritme koji analiziraju podatke i izvetavaju ta su otkrili. Otkrivanje moe imati formu pronalaenja znaaja u vezama izmeu odreenih elemenata podataka, klasterisanja odreenih elemenata podataka ili neki drugi obrazac u korienju odreenih skupova elemenata podataka. Nakon iznalaenja ovih obrazaca, algoritmi mogu da iz njih izvedu pravila. Ova pravila tada mogu biti koriena da se generie model koji ima eljeno ponaanje, identifikuje veze meu podacima, otkriva obrasce i grupie klastere zapisa sa slinim atributima. Pripremanje podatakaU procesu razvoja skladita podataka priprema podataka je jedna od najbitnijih aktivnosti. Dalji proces razvoja skladita podataka bie uspean samo ako je ova aktivnost uspeno zavrena.ETL (Ekstrakcija/Transformacija/Punjenje) je najkoplikovaniji proces u itavom projektu. Izvori podataka se nalaze na razliitim platformama, koje su upravljane razliitim operativnim sistemima i aplikacijama. Svrha ETL procesa je da spoji podatke iz heterogenih platformi u standardni format.ETL proces (slika 12.) poinje sa preformatiranjem podataka koji treba da unificira formate podatka sa razliitih izvora. U drugom koraku se reava problem konzistentnosti koji se javlja usled redundantnosti podataka. Na kraju se pristupa ienju onih podataka koji naruavaju poslovna pravila.

Slika 12. ETL procesProblemi izvora podatakaNekonzistentnost primarnih kljueva esto se primarni kljuevi izvornih zapisa podataka ne poklapaju. Na primer, moe postojati pet fajlova o klijentima, gde svaki od njih ima razliiti atribut kao primarni klju klijenta. Ovi razliiti kljuevi klijenata se moraju konsolidovati ili transformisati u jedan standardizovani klju klijenta.Nekonzistentnost vrednosti podataka mnoge organizacije dupliciraju svoje podatke. Termin dupliciranje se odnosi na elemente podataka koji su kopija originalnog podatka. Tokom vremena, usled anomalija auriranja, ovi duplicirani podaci imaju totalno razliite vrednosti. Razliiti formati podataka elementi podataka kao to su datumi i novani podaci (currencies) mogu biti uskladiteni u totalno razliitim formatima. Netane vrednosti podataka da bi se korigovale netane vrednosti podataka, mora se definisati logiko ienje. ETL algoritmi ienja podataka treba da se aktiviraju svaki put kada se podatak puni. Stoga, programi transformacije ne smeju biti pisani na brzinu, ve se moraju razviti na jedan struktuiran nain. Sinonimi i homonimiredundantne podatke nije uvek lako prepoznati usled toga to isti elementi podataka imaju razliite nazive. S obzirom da sinonimi i homonimi ne smeju postojati u okruenju, neophodno je preimenovati date elemente podataka.Ugraena logika procesa neki operacioni sistemi su ekstremno stari. Oni esto sadre nedokumentovane i arhaine relacije izmeu pojedinih elemenata podataka. Takoe, obino koriste i neke kodove, kao na primer, vrednost 00 podrazumeva da je poiljka vraena, dok FF znai da je prosleena na kraju meseca. Specifikacije procesa transformacije moraju da reflektuju ovu logiku.Generalno, prvi zadatak je proces konverzije sistema gde se mapiraju najpogodniji elementi podataka u ciljne fajlove ili baze podataka. Kada se kae najpogodniji elementi podataka misli se na one podatke koji su najsliniji po imenu, definiciji, veliini, duini i funkcionalnosti. Drugi zadatak je pisanje programa konverzije (transformacije) kako bi se transformisali izvorni podaci. Ovi programi moraju da ree probleme dupliciranih zapisa, prilagoavanja primarnih kljueva i odsecanja ili poveavanja veliine elemenata podataka. Ono to uglavnom nedostaje ETL programima su ienje i usklaivanje podataka, na koje treba obratiti panju kod projektovanja procesa punjenja.Kod procesa punjenja istorijskih podataka koji su obino statini, treba obratiti panju na one podatke koji nisu vie u upotrebi i novih podataka koji se dodaju tokom godina.Ekstrakcija podatakaPrvi korak ka integraciji razliitih izvora podataka je ekstrakcija podataka iz produkcionih sistema. Osnovno pitanje je kako pristupiti izvornim produkcionim sistemima, s obzirom na injenicu da se oni mogu sastojati iz razliitih sistema za upravljanje bazama podataka, operativnih sistema, hardvera, da koriste razliite komunikacione protokole, i sl. Pristup i ekstrahovanje podataka iz izvornih sistema u prihvatno podruje obino vri poseban podsistem za ekstrakciju podataka. Podaci jednom ekstrahovani u prihvatno podruje postaju nezavisni od izvornih sistema i mogu se dalje transformisati prema potrebama krajnjih korisnika. Ova faza se sastoji od sledeih zadataka: razvoj procedura za ekstrakciju podataka, razvoj procedura za ienje podataka. Razvoj procedura za ekstrakciju podatakaPodaci koji e se koristiti u skladitu podataka moraju se ekstrahovati iz transakcionih sistema (baza podataka u okviru nekog sistema) koji sadre te podatke. Podaci se inicijalno ekstrahuju u procesu kreiranja skladita podataka, a kasnije se na osnovu odrenih procedura vri dodavanje novih podataka u skladite podataka. Ekstrakcija podataka je vrlo jednostavna operacija, ako se potrebni podaci nalaze u jednoj relacionoj bazi, ali moe da bude i veoma kompleksna operacija, ako su podaci smeteni u viestrukim heterogenim transakcionim sistemima. Cilj procesa ekstrakcije podataka je da sve potrebne podatke, u pogodnom i konzistentnom formatu, pripremi za uitavanje u skladite podataka. Razvoj procedura za ienje podatakaZbog problema koji se prilikom ekstrakcije podataka javljaju, podaci dobijeni ekstrakcijom se moraju "istiti". ienje podataka podrazumeva: proveru postojanja logikih greaka, "poboljanje" podataka i eliminisanje ostalih greaka.Provera logikih greaka ukljuuje proveru vrednosti atributa usled razliitog oznaavanja pojmova, proveru atributa u kontekstu ostalih podataka u redu, proveru atributa u kontekstu redova druge tabele koja je povezana, proveru veza izmeu redova iste ili povezanih tabela (provera prenesenih kljueva)."Poboljanje" podataka je proces ienja kojim se tei da podaci dobiju puno znaenje. Primer za ovo su podaci o imenima i adresama. Eliminisanje ostalih greaka je proces u kome se odluuje o sudbini podataka koji su nepotpuni ili nemaju veliko znaenje. Ovi podaci se mogu odbaciti, privremeno smestiti i popraviti ili smestiti u skladite podataka sa tim svojim nesavrenostima.Transformacija podatakaKoristei pravilo 80/20, 80% ETL procesa je transformacija podataka, dok je ostalih 20% ekstrakcija i punjenje. Projektovanje programa transformacije je veoma komplikovano, naroito kada su podaci ekstrakovani iz heterogenih operativnih okruenja. Pored transformisanja izvornih podataka zbog nekompatibilnosti tipa podataka, duine ili netanosti, najvei deo transformacione logike e ukljuivati i preraunavanje podataka za multidimenzionalno skladitenje.U ovoj fazi potrebno je: definisati izvore podataka i tipove transformacija koje treba izvriti nad podacima i ostvariti mapiranje podataka iz izvorita u odredita. Pre poetka procesa transformacije podataka, tim strunjaka koji radi na projektu dizajniranja skladita podataka definie fiziki model podataka za skladite podataka i generie eme. Faza mapiranja i transformacije podataka sastoji se od sledeih zadataka: kreiranje plana transformacije podataka, razvoj procedura za transformaciju podataka, razvoj procedura za uitavanje podataka, testiranje procedura, generisanje meta podataka. Kreiranje plana transformacije podatakaPlanom je potrebno odrediti najbolji put migracije izvornih podataka do skladita podataka. Analiziraju se raspoloivi resursi, koliina izvornih podataka, razliite izvorne eme, razliiti naini pristupanja podacima, struktura skladita podataka i potreban broj agregacija. Planom se dokumentuju sve izvorne platforme, metode pristupa i programski jezik koji je potreban za ekstrakciju podataka.Prelazne eme - Obino se izvorni podaci prvo smetaju u prelazne eme. Prelazne eme su zajedniki interfejs za sve izvorne sisteme. One se ne podudaraju u potpunosti ni sa izvornim ni sa odredinim emama. Koriste se da bi se poboljali procesi "ienja" i transformacije podataka.Analiza izvora podataka - Nakon kreiranja plana transformacije podataka, prelazi se na analizu izvora podataka. Potrebno je odrediti koji e se podaci mapirati u odredini sistem i koja je to logika potrebna da bi se izvrila migracija podataka. Razvoj procedura za transformaciju podatakaPod transformacijom podataka se podrazumeva proces kojim se usklauju razliiti naini prikazivanja podataka razliitih sistema u jedinstveni oblik. Na primer, neki sistemi mogu oznaavati pol ljudi sa 1 za muki pol i 2 za enski pol. Ako se u skladitu podataka ovo oznaavanje vri sa M i Z, onda mora postojati proces koji e transformisati 1 u M i 2 u Z. Tipina transformacija podataka ukljuuje: prevoenje polja sa vie imena u jedno polje, razbijanje polja sa datumom u posebna polja za godinu, mesec i dan, prevoenje polja sa jednom reprezentacijom u drugu (npr. sa 1 i 0 u DA i NE), kreiranje i dodavanje kljueva za tabele dimenzija. Razvoj procedura za uitavanje podatakaProcedure za uitavanje podataka treba da izvravaju sledee aktivnosti: Kreiranje formata podataka. Za sve podatke iz starijih sistema moraju se obezbediti formati pogodni za smetanje u skladite podataka. Prenoenje podataka iz starijih sistema u skladite podataka. Vri se raspakivanje podataka, njihovo poreenje, kombinovanje i transformacija u oblik pogodan za skladite podataka. Kreiranje agregacija (sumiranih podataka). Kreiranje agregacija je postupak sortiranja podataka po odreenim atributima na osnovu kojih se, zatim, vri sumiranje. Tako sumirani podaci se smetaju u skladite podataka. Kreiranje kljueva za agregacione zapise. Svi zapisi u tabelama, a samim tim i agregacije, moraju imati kljueve. Ovaj korak se razlikuje od prethodnog jer su kljuevi za agregacione zapise u potpunosti vetaki i ne smeju biti identini primarnim kljuevima tabele injenica. Prema tome, struni tim mora dizajnirati aplikaciju koja e generisati takve kljueve. Obrada neuitanih podataka. Pri procesu smetanja podataka u skladite podataka esto se deava da se neki podaci ipak ne uitaju, najee zbog referencijalnog integriteta. Takvi podaci se moraju obraditi u posebnoj aplikaciji, koja e obezbeivati referencijalni integritet podataka. Indeksiranje podataka. Po zavrenom procesu smetanja podataka u skladite podataka, svi indeksi se moraju aurirati. Testiranje proceduraDa bi se utvrdila ispravnost rada procedura za ekstrakciju i uitavanje podataka, mora se izvriti njihovo testiranje. Provera kvaliteta podataka - Testiranje procedura se, najee, ostvaruje proverom kvaliteta podataka, tako to se zadaju upiti nad skladitem podataka koji prebrojavaju podatke ili ih prikazuju u vidu grafikona sa kojih se moe utvrditi da li su podaci u rasponu koji je oekivan. Po zavrenoj transformaciji, postoje svi uslovi da se pristupi generisanju meta podataka. Izrada meta baze podatakaMeta baza podataka, odnosno renika podataka je baza podataka o bazi podataka. Meta baza podataka uva sve podatke o podacima mapirajui izvorni u ciljni sistem i uspostavlja vezu izmeu podataka sa izvora i cilja. Oni uvaju informacije o transakcionim podacima, definiciju podataka u ciljnoj bazi i transformaciono-integracionu logiku. Tek po postavci meta baze podataka moe se krenuti dalje u izdvajanje podataka iz transakcione baze podataka, pa potom sumiranje, sortiranje i organizovanje pre punjenja skladita. Izgradnja skladita podatakaIzgradnja skladita podataka se sastoji od sledeih zadataka: denormalizacija podataka, definisanje hijerarhija, kreiranje agregacija, kreiranje fizikog modela, generisanje baze podataka, uitavanje podataka. Denormalizacija podatakaPrvi korak je identifikacija dimenzija i atributa koja podsea na klasino projektovanje upotrebom ER modela i zove se dimenziono modeliranje. Dimenziono modeliranje je tehnika logikog dizajna iji je cilj prezentacija podataka u obliku koji obezbeuje visoke performanse sistema radi vrenja analize podataka. Termini koji se esto koriste u dimenzinalnom modeliranju: Dimenzija: kategorija informacija. Npr. vremenska dimenzija. Atribut: jedinstven nivo unutar dimenzije. Npr. mesec je atribut u vremenskoj dimenziji. Hijerarhija: Specifikacija nivoa koji predstavlja odnos izmeu razliitih atributa u okviru dimenzije. Npr. jedan od mogucih hijerarhija u dimenziji Vreme je Godina kvartal mesec danNormalizovani model, iako pogodan za masovno unoenje podataka, ne pogoduje ciljevima postavljenim za skladite podataka. Podaci koji su u ovom modelu smeteni ine kompleksnu mreu koja je teka za shvatanje i ne pogoduje krajnjem korisniku. Takoe, sloeni upiti nad ovakvim modelom se izvravaju suvie sporo. Dimenzioni model sadri iste informacije kao i normalizovani model, meutim podaci su na pogodan nain spakovani kako bi bili lako razumljivi i dostupni krajnjem korisniku, kao i da bi iskazali dobre performanse i bili otporni na promene. Poto su upiti koje e postavljati krajnji korisnik nepredvidivi, podaci moraju biti na nivou atomine granularnosti, tj. moraju biti na najniem nivou granularnosti. U ovom modelu tabele se smatraju denormalizovanim. Dimenzioni model se sastoji od centralne tabele fakata i tabela dimenzija koje je okruuju i zajedno ine zvezdastu shemu.Tabela fakataTabela fakata, primer strukture je dat na slici 13, predstavlja osnovnu tabelu u dimenzionom modelu. Fakt predstavlja jedno poslovno merenje. U tabeli 1. dat je primer tabele fakata tabela dnevne prodaje u kojoj jedan red predstavlja proizvod koji je odreenog dana prodat u odreenoj koliini i ukupnoj vrednosti.

Slika 13. Tabela fakata

Tabela 1. Primer tabele fakataPrvi korak u izgradnji tabele fakata je ustanovljavanje granularnosti tabele fakata. Pod ternimom granularnost se misli na najnii nivo podataka koji e se nalaziti u tabeli injenica. Ovo predstavlja dva koraka: Odreivanje dimenzija koje e biti ukljuene, ustanoviti gde e se du hijerarhije svake od dimenzija uvati podaciTabele fakata su obino male po irini, ali zato mogu imati milione redova. S obzirom na potencijalno veliki broj redova, u tabelu fakata se ne unose nula fakta (fakta kojima su vrednosti u nekom trenutku jednake nuli), jer nemaju nikakvog uticaja na sumiranja podataka, a zatrpavaju tabelu. Trei red iz tabele 1 je nula fakt i po pravilu se izostavlja. Svaka tabela fakata se sastoji iz dva ili vie stranih kljueva (eng. Forein key). Jedinstven prost klju se ne uvodi. Primarni klju tabele fakata se sastoji od podskupa skupa stranih kljueva i naziva se sloen klju. Svaka tabela fakata u dimenzionom modelu ima sloen klju i obrnuto, svaka tabela dimezionog modela koja ima sloen klju je tabela fakata. Isto tako, moe se rei i da je tabela fakata svaka tabela koja predstavlja vie-prema-vie relacije izmeu dimenzija relacionog modela.Postoje tri tipa injenica (fakta): Aditivne: Aditivne injenice su injenice koje se mogu sumirati kroz sve dimenzije u tabeli fakata. Polu-aditivne: Polu-aditivne injenice su injenice koje se mogu sumirati za neke od dimenzija u tabeli fakata. Neaditivne: neaditivne injenice su injenice koje se ne mogu sumirati za bilo koji od dimenzija prisutnih u tabeli fakata.Na osnovu gore navedene podele injenica, razlikujemo dva tipa tabele fakata: Kumulativne tabele fakata (eng. Cumulative): Ova vrsta tabele fakata opisuje ta se dogodilo tokom odreenog vremenskog perioda. Na primer, ova injenica moe tabela opisuju ukupnu prodaju po proizvodu po prodavnici po danu. injenice za ovu vrstu tabele fakata su uglavnom aditivne injenice. Snimak tabele fakata (eng. Snapshot): Ova vrsta tabele fakata opisuje stanje stvari u odreenom stepenu vremena, a obino ukljuuje vie polu-aditivnih i neaditivih injenica. U dizajniranju modela podataka za skladita podataka, najece koriceni tipovi su ema Zvezda shema, shema Pahuljica i shema Galaksija. Zvezdasta shemaKao to je ve napomenuto, zvezdasta shema (eng. Star Shema) se sastoji od tabele fakata i njenih tabela dimenzija. Primer zvezdaste sheme dat je na slici 14. Zvezdasta shema moe dodatno biti razgranata na taj nain to e se dozvoliti tabelama dimenzija da imaju svoje poddimenzije, odnosno tako to e im se omoguiti hijerarhija atributa. Na primer, za atribut prodavnice se moe uzeti ifra lokacije, a da se dimenziji prodavnica, doda posebna poddimenzija tabela lokacija, koja e da opisuje geografsku lokaciju na kojoj je prodavnica smetena. Osnovne prednosti eme zvezde su to omoguava definisanje sloenih viedimenzionih podataka u vidu jednostavnog modela, smanjuje broj fizikih veza koje se moraju procesirati pri zadavanju upita, ime se postie poboljanje performansi sistema i omoguava proirenje skladita podataka uz relativno jednostavno odravanje.Velika mana eme zvezde je to se poveava redundantnost podataka.

Slika 14. Primer zvezdaste shemeShema PahuljeZapravo zvezdasta shema je specijalan sluaj pahuljaste sheme koja ima dubinu 1, odnosno njene dimenzije nemaju poddimenzije. Pahuljasta shema je shema ije tabele dimenzija imaju sopstvene poddimenzije (normalizovani model). Pitanje oko koga se jo vode polemike je da li nam je uopte potrebna pahuljasta shema u modelu, s obzirom na to da usporava performanse upita ime se dovodi u pitanje jedan od osnova za izgradnju ovakvog modela. Meutim, u nekim sluajevima, logika podela podataka na poddimenzije je neophodna, u ovim sluajevima problemi se mogu reiti normalizacijom dimenzija ime se shema zvezde, prevodi u shemu pahulje. Najee se postiu najbolji rezultati ako se izvri normalizacija samo par dimenzija, a da se ostale ostave onakve kakve su i bile. Na taj nain se dolazi do delimine sheme pahulje. Shema Galaksijaema galaksije predstavlja kolekciju ema zvezda, tj. ako se ne moe kreirati model koji bi imao samo jednu injeninu tabelu, tada je potrebno povezati dve eme zvezde da bi se zadovoljile potrebe korisnika.

Slika 15. Shema Zvezde, Shema Pahulje, Shema Galaksije Definisanje hijerarhijaTabela dimenzija Tabela dimenzija predstavlja tekstualni opis poslovanja. Karakterie je veliki broj kolona (50, 100 i vie), a mali broj redova u odnosu na broj redova u tabeli fakata. Zauzima okvirno oko 10% prostora baze skladita podataka. Primer strukture tabele dimenzija je dat na slici 15.

Slika 15. Tabela koja predstavlja dimenziju koja opisuje proizode

Tabela 2. Primer dela tabele dimenzijaSvaka tabela dimenzija ima jedinstveni prost primarni klju. Atributi dimenzija se koriste za definisanje ogranienja upita, grupisanje i za prikazivanje rezultata upita. Poto e se po atributima dimenzija kasnije vriti upiti, kvalitet skladita podataka direktno je srazmeran njihovom broju i preciznom odreenju. Najbolji atributi su tekstualni i predstavljaju npr. opis nekog porizvoda. I numeriki podatak moe biti atribut, ali samo ako je nepromenljiv. Tabele dimenzija opisuju i hijerarhijske veze poslovanja. Na primer, proizvodi se grupiu u potkategorije, pa u kategorije, pa u brendove, itd. Za svaki red u dimenziji proizvoda uvamo podatak i o potkategoriji, kao i o kategoriji i brendu kojem pripada. Iako je ovakav nain uvanja podataka redundantan, normalizacija ne bi znaajnije doprinela smanjenju skadita podataka, a znatno se dobija na performansama upita. Datumska dimenzija Posebno vanu dimenziju predstavlja datumska dimenzija. Standardna i najvie koriena datumska dimenzija je sa nivoom granularnosti od jednog dana. Nalazi se u skoro svakoj zvezdastoj shemi (dobra praksa je svakoj tabeli fakata dodeliti i datumsku dimenziju, jer svaki fakt je vezan za odreeni vremenski trenutak) i omoguava poslovnim korisnicima lako baratanje podacima i po nestandradnim vremenskim funkcijama, kao to su vikend, praznik, fiskalni mesec, i sl. Pravi se unapred nezavisno od izvornog sistema za dui vremenski period, koji ukljuuje prethodno poslovanje koje se unosi u skladite i narednih nekoliko godina. Za 10 godina ima priblino 3652 reda, u zavisnosti od broja prestupnih godina. Takoe, nazivi atributa su opisni, da bi izvetaji bili jasni. Ukoliko kompanija ima potreba za granularnou veom od nivoa dana (npr. po smenama zaposlenih), uvodi se posebna dimenzija doba dana. Ako je granularnost na nivou minuta, dimenzija doba dana e imati 1440 redova, a 86400, ako je na nivou sekunda. Na slici 16. dat je primer datumske dimenzije.

Slika 16. Tabela koja predstavlja Datumsku dimenziju esto se deava da jedan red tabele fakata ima vie datuma, npr. datum narudbine nekog proizvoda i datum njegove isporuke, odnosno da je u zvezdastoj shemi za jednu tabelu fakata vezano vie datumskih dimenzija, a da su pri tom podaci tih tabela potpuno isti (sa obaveznom razlikom u nazivu atributa tabela), npr. datum narudbine i datum isporuke ili dan u nedelji narudbine i dan u nedelji isporuke. Da bi se izbeglo dupliranje istih podataka, na fizikom nivou se koristi ista tabela, a na logikom nivou se definiu razliiti pogledi na istu datumsku dimenziju. Na taj nain se sa pozicije korisnikih alata i krajnjih korisnika dobijaju dve jedinstvene potpuno nezavisne tabele dimenzija. Ovakav nain upotrebe tabele dimenzija se na engloskom oznaava terminom Dimension Role-Playing. Kreiranje agregacijaAgregacijama se sumiraju detalji podataka i smetaju u posebne tabele. Na primer, mogue je kreirati sumarne podatke o prodaji po regionu i oblasti skupljajui ih iz svake prodavnice, tj. najnieg nivoa detalja. Glavni razlozi kreiranja agregacija su da se poboljaju performanse upita, tj. da se smanji vreme odziva na upit, kao i da se smanji broj resursa potrebnih za izvrenje upita. Kreiranje fizikog modelaU okviru kreiranja fizikog modela baze podataka, izvodi se postupak prevoenja logikog modela u fiziki model prikazan preko dijagrama entiteta. Neposredno pre kreiranja modela treba izabrati sistem za upravljanje bazama podataka na kome e biti implementirana baza podataka. Generisanje fizikog modela treba da rei probleme: Multiplikativnosti - definie broj instanci jednog entiteta (budua tabela u bazi) u relaciji sa jednom instancom drugog entiteta. Referencijalnog integriteta - zahteva da unesena vrednost atributa odgovara vrednosti atributa koji je primarni klju druge tabele. Referenacijalni integritet se definie za operacije ubacivanja, brisanja i auriranja. Kreiranja indeksa - je izvreno automatski za sve primarne kljueve u entitetima i za prenesene kljueve u entitetu. Ovo se radi iz razloga to e se budua pretraivanja u okviru skladita podataka vriti na osnovu ovih polja. Generisanje baze podatakaAktivnost generisanja baze podataka vri se korienjem SQL jezika. Naime, alat u kome je izvreno kreiranje fizikog modela (npr. ERWin) omoguava automatsko generisanje koda preko takozvanih DDL (Data Definition Language) datoteka.U sledeem koraku se vri izvravanje DDL datoteka pomou Query Analyzer-a, alata koji je sastavni deo SQL Servera. Ovaj alat omoguava direktno zadavanje SQL naredbi i njihovo izvravanje u cilju generisanja baze podataka.Kada se svi ovi poslovi uspeno urade, baza (skladite) podataka je generisana. Uitavanje podatakaU toku uitavanja se mogu eventalno izvriti jo neke transformacije, mada bi sa transformacijama podataka trebalo zavriti pre uitavanja zbog problema konzistentnosti baze. Za uitavanje podataka moe se koristiti alat MS SQL Server-a DTS (Data Transformation Services) i njegova procedura uitavanja podataka pomou takozvanih DTS paketa.OLAPOLAP (eng. On - Line Analytical Processing) predstavlja skup alata koji omoguuju analizu podataka sauvanih u bazi podataka. Pomou OLAP-a, rukovodioci i analitiari mogu da imaju brz, interaktivan pristup podacima kroz irok spektar razliitih uglova posmatranja. OLAP pripada kategoriji aplikacija i tehnologija za sakupljanje, upravljanje, obradu i predstavljanje multidimenzionih podataka za potrebe analize. Najire usvojenu definiciju OLAP-a, koja se danas koristi, dao je Nigel Pendse i opisana je pomou sledeih 5 rei: Brza Analiza Deljenih Multidimenzionih Informacija: Brza - odnosi se na brzinu kojom OLAP moe da donese to vei broj odgovora svojim krajnjim korisnicima. Analiza - odnosi se na sposobnost OLAP sistema da savlada poslovnu logiku i statistike analize relevantne za aplikaciju i korisnika i da ih dovoljno pojednostavi za razumevanje krajnjem korisniku. Deljenih - omogueno je da se podaci dele izmeu vie korisnika. Multidimenzionih - odnosi se na na koncept koji je primaran zahtev OLAP-a. OLAP sistem mora da omogui multidimenzioni pogled na podatke i da ukljui hijerarhije i viestruke hijerarhije dimenzija. Informacija - predstavlja sve podatke i izvedene podatke koji su relevantni za aplikaciju.OLAP kockaPrema samoj definiciji OLAP-a, kljuni zahtev je viedimenzionalnost. OLAP postie svoju viedimenzionu funkcionalnost korienjem strukture koja je nazvana kocka. Kocka omoguava multidimenzioni pogled na podatke, a sa druge strane, moe da se poredi sa tabelom u bazi podatka. Specifian dizajn OLAP kocke garantuje optimizaciju izvetaja. Viedimenzionalne strukture podataka (opisane u prethodnom poglavlju) se najbolje vizuelizuju kao kocke podataka koje se sastoje iz manjih, jedininih kocki. Svaka strana kocke je jedna njena dimenzija. Dimenzija predstavlja skup kategorija podataka iste vrste. Npr. u kocki prodaje jedna dimenzija je lokacija, njene razliite kategorije mogu biti gradovi, okruzi, drave... Svaka elija te kocke sadri agregirane podatke koji su u vezi sa dimenzijama. Npr. jedna elija moe da sadri podatke o ukupnoj prodaji za dati proizvod i region u toku jedne godine:

Slika 17. OLAP kocka sa podacima o prodajiOperacije nad OLAP kockom Osnovne operacije koje su bitne za analizu podataka pomou OLAP kocke su: seenje na pojaseve (eng. slice), komadanje (eng. dice), buenje (eng. drill down), zavijanje (eng. roll up), rotacija. Seenje na pojaseve predstavlja izdvajanje podataka za dati uslov po jednoj dimenziji. Na slici 18. je prikazana prodaja za konkretan proizvod - beini mi, odnosno lokaciju - Azija.

Slika 18. Operacija seenja OLAP kocke na pojaseveKomadanje je izdvajanje podataka za uslove po dve ili vie dimenzija. Na slici 19. je prikazana prodaja telefona za 2000. godinu u Severnoj Americi.

Slika 19. Operacija komadanja OLAP kockeBuenje predstavlja detaljizaciju kocke, sputanjem po hijerarhiji dimenzije. Na slici 20. je prikazana kombinacija operacija komadanja (prikaz prodaje telefona u Severnoj Americi 2000.godine) i buenja (vremenska dimenzija je prikazana po kategoriji kvartala, lokacija po dravama, a grupe proizvoda po pojedinanim vrstama).

Slika 20. Kombinacija operacija komadanja i buenja OLAP kockeZavijanje je suprotna operacija od buenja, tj. predstavlja izdvajanje podataka penjanjem po hijerarhiji neke od dimenzija. Rotacija u literaturi se naziva i pivotiranje. Predstavlja vizuelizaciju kocke okretanjem dimenzionih osa radi alternativnog prikaza podataka.

Slika 21. Operacija rotacije OLAP kockeArhitektura OLAP sistemaPostoje sledee arhitekture OLAP sistema: viedimenzioni OLAP (MOLAP), relacioni OLAP (ROLAP), hibridni OLAP (HOLAP).MOLAP i ROLAP se razlikuju po nainu fizikog uvanja podataka. Kod MOLAP sistema podaci se uvaju u viedimenzionoj strukturi, a u sluaju ROLAP sistema podaci se uvaju u relacionim bazama podataka. Viedimenzioni OLAP (MOLAP)MOLAP kao osnovu ima multidimenzionu bazu podataka (eng. Multidimensional Data Base - MDDB). Osnovni stav pristalica ove arhitekture je da podaci moraju da budu uvani u multidimenzionim strukturama da bi pogled na njih bio multidimenzionalan. Multidimenziona baza se puni podacima iz razliitih izvora pomou serije grupnih, pozadinskih (eng. batch) obrada.MOLAP baze podataka imaju sledea ogranienja: ogranienje fizike veliine skupa podataka sa kojima mogu da barataju. ogranienje na broj dimenzija koje jo uvek obezbeuju dobre performanse sistema. da bi se vrila bilo kakva analiza, potrebno je prvo uitati podatke u viedimenzione strukture. Pri tome se vre razni prorauni da bi se kreirale agregacije i popunili podaci, to vremenski moe trajati relativno dugo. Po zavrenom procesu, korisnik moe zapoeti analizu. Prednost MOLAP sistema je to obezbeuju odline performanse sistema kada se radi sa ve sraunatim podacima (agregacijama).Nedostatak MOLAP sistema je tekoa dodavanja novih dimenzija.Relacioni OLAP (ROLAP)ROLAP sistemi pristupaju podacima direktno iz skladita podataka i rade sa relacionim bazama podataka. ROLAP sistemi mogu da rade sa velikim skupovima podataka. im se odredi izvor podataka, korisnik moe zapoeti analizu. S obzirom da se radi direktno nad bazom podataka, korisniku su uvek na raspolaganju tekui podaci. Kod ROLAP sistema ne postoje ogranienja po pitanju broja dimenzija koja postoje u sluaju MOLAP sistema.Karakteristike ROLAP i MOLAP sistema ROLAP sistemi su optimizovani za pristupanje podacima, dok su MOLAP sistemi optimizovani za prikupljanje podataka. Prednost ROLAP sistema je to su sumarne tabele kreirane direktno u RSUBP-u, ime se obezbeuje kratko vreme odziva sistema na upit i to su tabele veoma itljive. Viedimenziona analiza mogua je korienjem ROLAP i MOLAP sistema, Za manje koliine podataka ROLAP sistemi imaju skoro iste performanse kao i MOLAP sistemi, MOLAP sistemi nisu pogodni za rad sa velikim skupom podataka, MOLAP sistemi su manji od ROLAP sistema, te je potrebno manje U/I operacija pri pribavljanju podataka, to uslovljava da su MOLAP sistemi bri.Hibridni OLAP (HOLAP)HOLAP alati mogu pristupati i relacionim i viedimenzionim bazama podataka. Cilj korienja HOLAP alata jeste da se iskoriste prednosti MOLAP alata (kratko vreme odziva sistema i analitike mogunosti) i ROLAP alata (dinamiki pristup podacima). Pri tome se ne moe rei da je HOLAP prost zbir MOLAP-a i ROLAP-a. To je zapravo ROLAP koji ima mogunost izvravanja vrlo sloenih SQL naredbi. Cilj je bio da se zadre sve prednosti ROLAP-a, ali da se pri tome dodaju i neke nove mogunosti za rad sa viedimenzionim bazama podataka. Potrebe korisnika su: viedimenzioni pogled na podatke ovu mogunost poseduju i MOLAP i ROLAP alati, odline performanse sistema ovu mogunost poseduju MOLAP alati, analitika fleksibilnost (za potrebe simulacija) ovu mogunost poseduju MOLAP alati, pristup podacima u realnom vremenu ovu mogunost poseduju ROLAP alati, veliki kapacitet podataka ovu mogunost poseduju ROLAP alati.Budunost Data WarehouseDananja skladita podataka su na raskrsnici. Kompanije su potroile milione dolara na osmiljavanje, primenu i auriranje skladita, ali malo organizacija su realizovale povratak investicija (prema Richard Solari, direktora Deloitte Consulting LLP za voenje informacione linije).

Razoaravajuci ROI uglavnom potie iz nasleene neadekvatnosti skladita podataka: Ona su dizajnirana da rukuju sa struktuiranim podacima uskladitenih u ERP sistemima, a ne sa nestrukturiranim podacima iz drutvenih medija, mobilnih ureaja, web saobracaja i drugih izvora koji strimuju u preduzecima. Po proceni Solari, 90 odsto skladita podataka posmatra proces samo 20 odsto podataka preduzeca. Shodno tome, mnoga preduzeca su samo bila u stanju da koriste svoje skladita podataka za istorijsku analizu i izvetavanje istorijskih izvetaja.Sutina (Solari): "Kompanije koriste skupe infrastrukture za generisanje back office izvetaje ".Izgledi organizacije za dobijanje ROI iz svojih skladita podataka mogu nastaviti da se smanjuju sve dok ta infrastruktura ne uspeva da odri korak sa velikim podacima (eng. Big Data). Vendori izgrauju nove generacije skladita podataka sa naprednim mogucnostima za obavljanje analitike i predvianja. Ona su takoe poboljana integracijom sa novim platformama poput Apache Hadoop koja procesiraju velike koliine nestrukturiranih podataka. Kompanije koje koriste skladita podataka ne moraju da bace svoju infrastrukturu i da ponu iznova. Mogu unaprediti svoje postojece infrastrukture za skladitenje podataka kako bi prerasla u "analitika skladita"." Skladita podataka ce izgledati veoma drugaije u pet godina i organizacije bi trebalo da pone pripreme za tu tranziciju" (Solari).Uvoenje Analitikog skladitaU osnovi, analitiko skladite funkcionie kao centralno skladite za strukturirane i nestrukturirane podatake preduzeca. Arhitektura analitikih skladita gradi se na osnovu tradicionalne arhitekture skladita podataka na tri osnovna naina :1. Distribuirani sistem datoteka (kao Hadoop) nalazi izmeu izvornih sistema podataka i skladita podataka. On prikuplja, agregira i obrauje ogromne koliine nestrukturiranih podataka za utovar u skladite podataka.2. Strukturni i nestrukturirani podataci iz back-end sistemima mogu biti dovedeni u skladite podataka u realnom i skoro realnom vremenu.3. Motori koji koriste statistike i prediktivne tehnike modeliranja za otkrivanje podataka, vizuelizaciju , induktivno i deduktivno rasuivanje i odluivanje u realnom vremenu nalazi se izmeu skladita podataka i krajnjih korisnika. Ovi motori identifikuju obrasce u velikim podacima. Oni takoe mogu da dopunjuju i hrane tradicionalne alate za ad hoc upite i aplikacije za poslovnu inteligenciju."U prolosti, kompanije nisu mogle da integriu ove razliite tehnologije sa skladitima podataka jer svaka tehnologija zahteva razliite formate datoteka i eme podataka" (Stackowiak). "Danas, moete da integriete ove tehnologije, a rezultat je da kompanije mogu da pristupe veem broju podataka podataka a ne 20 odsto iz sistema preduzeca - i pretvoriti ga u vredne, profitabilne informacije".ZakljuakJo od prvog Sistema za upravljanje podacima 50-tih godina prolog veka postojala je potreba kompanija za poslovno-orijentisani pogled na procesiranje podataka. Dve revolucije (relacione baze i klijent-server arhitektura) omoguile su zaposlenima izvan IT sektora da postanu administratori baza podataka koristei napredne alate na personalnim raunarima, to je dovelo do velikog pomaka u shvatanju da je upravljanje informacijama mogue raditi drugaije. Dijametralan pogled na viedecenijski koncept skladitenja podataka, omoguio je nastanak Data Warehouse koncepta kao posebno projektovano tehnoloko okruenje koje omoguava objedinjavanje srodnih podataka u oblik pogodan za analizu ime se olakava proces donoenja odluka i daje nov pristup sistemima za podrku odluivanju. Ovaj koncept obezbeuje standardizovan, fleksibilan i efikasan nain raspolaganja podacima u formatu pogodnom za korienje u savremenim poslovnim sistemima i aplikacijama. Postojanje skladita podataka, kao integrisanog okruenja bogatog informacijama, orijentisano je ka potrebama krajnjih korisnika koji uz pomo alata za poslovno odluivanje mogu donositi pravovremene i kvalitetne poslovne odluke.Uvoenjem koncepta skladitenja podataka, transakcione baze podataka postaju manje optereene sloenim upitima u cilju generisanja kompleksnih izvetaja i analiza. Skladite se moe iskoristiti za optimizaciju pojedinanih procesa i alternativa je meusobnoj zavisnosti primenjenih sistema u organizaciji i stvaranju mega sistema. Metode skladitenja podataka sve vie postaju integrisane u softverske pakete celokupnog informacionog sistema preduzea, novije verzije relacionih baza podataka (kao npr. Oracle i MS SQL server) imaju dodatke za Data Warehousing koji je integrisan u ovim paketima kao OLAP. Menaderima nije potreban angaman analitiara za obradu kljunih pokazatelja o stanju preduzea, ve obraene podatke klikom mia mogu dobiti iz baze podataka, koje e koristiti kao pomo u donoenju poslovnih odluka.Literatura Menadment informacioni sistemi, Alimpije Veljovi Rob Mattison, Data Warehousing and Data Mining for Telecommunications, ARTECH HOUSE, INC. Ralph Kimball, Margy Ross, The Data Warehouse Toolkit- Second Edition- The Complete Guide toDimensional Modeling, Wiley Computer Publishing The Reliability of Australian Data- Insights into the causes & consequences of unreliable data http://deloitte.wsj.com/cio/2013/07/17/the-future-of-data-warehouses-in-the-age-of-big-data/ Njegu A., Poslovni informacioni sistemi, Univerzitet Singidunum, 2008. Philip Russom, Evolving Data Warehouse Architectures In the Age of Big Data, TDWI Research http://en.wikipedia.org/ http://www.dwbiconcepts.com/ http://www.in-oracle.com/

37

Documents

Skladište podataka