38
SKLADIŠTA PODATAKA Beli Krešimir Boršćak Ivo Varaždin, 17. siječanj 2006.

SKLADISTA PODATAKA

Embed Size (px)

DESCRIPTION

extra materijal

Citation preview

  • SKLADITA PODATAKABeli KreimirBorak Ivo

    Varadin, 17. sijeanj 2006.

  • Osnove skladitenja podatakaSkladitenje podataka je novi koncept koji se pojavio sredinom 90-tih godina 20. stoljea

    Skladite podataka ili Data Warehouse(DW) je proces integracije podataka u jedan repozitorij iz kojeg krajnji korisnici mogu sprovoditi ad-hock analize podataka i praviti izvetaje

    Osnovni cilj skladitenja podataka je prikupljanje i distribucija informacija kroz preduzee - tonije ostvarenje principa "Biti uvijek na usluzi korisniku informacija"

  • Povijesni pregled razvoja skladitenja podatakasustavi 70-tih godina su bili monolitni sustavi sa centraliziranim mainframe raunalom-naslijedeni sustavi (engl. Legacy systems)80-tih godina dolazi do popularizacije osobnih raunalavrhunac sustava za analizu prije pojave skladitenja podataka bili su sustavi za potporu odluivanju i izvrni informacijski sustavi pojava koncepta Intraneta i koritenja web baziranih aplikacija-putem Intraneta podaci u skladitu podataka postaju dostupni svima unutar kompanije tijekom 90-tih se javila potreba za neim to se danas zove skladite podataka

  • Osnovni pojmoviSkladite podataka je baza podataka koja sadri povijesne, nepromijenjive podatke koji su logiki i fiziki izvueni iz raznih izvora. Ti podaci se u skladu s definiranim modelom uitavaju u skladite i integriraju s postojeim podacima, a sve to u svrhu potpore poslovnom odluivanju.

    Skladitenje podataka je proces integracije podataka o poslovanju neke organizacije u jednu bazu podataka iz koje krajnji korisnici mogu raditi izvjea, postavljati upite i analizirati podatke.

  • Osnovni pojmoviIskopavanje podataka (engl. data mining) je proces automatskog otkrivanja prethodno nepoznatih obrazaca i odnosa meu podacima u bazi podataka.OLAP (engl. On-Line Analytic Processing) obuhvaa skupa alata koji krajnjem korisniku pruaju potporu poslovnom odluivanju, a temelje se na dimenzijskom (viedimenzijskom) pristupu. Metapodaci (podaci o podacima, engl. metadata) je izraz koji oznaava sekundarne, pomone podatke koji sadre informacije o podacima u skladitu podataka ili sadre informacije kako te podatke najlake obraditi.

  • Znaajke skladita podatakapristup podacima je najefikasniji ako su ti podaci odvojeni od podataka pohranjenih u operacijskim sustavimajedan od razloga za razdvajanje je da podaci u skladite podataka mogu doi i iz vie izvora Takoder bitan razlog je da se procesi obrade transakcije i analize podataka bitno razlikuju odnosno da postoji razlika izmeu transakcijskih (operacijskih) sustava i sustava za analizutransakcijski sustav (esto se naziva i OLTP On-Line Transaction Processing) pridaje najveu vanost raspoloivosti i brzini obrade i ne smije se dozvoliti da analiza podataka dovede do degradacija performansi transakcijskog sustava-kljuni razlog razdvajanja

  • Znaajke skladita podatakaRazlike izmeu OLTP i skladita podataka

  • Ciljevi skladitenja podatakaSkladite podataka mora omoguiti pristup podacima bitnim za neku organizaciju ili kompanijuPodaci u skladitu podataka moraju biti konzistentniPodaci se u skladitu podataka mogu kombinirati na sve mogue naine (engl. dice and slice requirement)Skladite podataka nisu samo podaci, ve ono mora sadravati i skup alata za postavljanje upita (engl. query tools), alata za analizu i predstavljanje informacije Skladite podataka je mjesto gdje se objavljuju koriteni podaciKvaliteta podataka u skladitu je pokreta poslovnog restrukturiranja

  • Dimenzijski modelDimenzijski model je tehnika logikog dizajna koja tei prikazivanju podataka na standardiziran, intuitivan nain koji omoguava pristup podacima velikom brzinom.

    Prikaz dimenzijskog modela podataka u obliku kocke

  • Struktura dimenzijskog modela se sastoji od jedne tablice sa sloenim kljuem koje se naziva tablicom injenica (engl. fact table) i vie tablica dimenzija (engl. dimensional tables) od kojih svaka ima jednostavan klju koji je dio sloenog kljua tablice injenica. Takva struktura se esto zove zvijezda spoj (engl. star-join schema)

    Prikaz tipinog dimenzijskog modela

  • Tablice injenicatablica injenica je mjesto gdje se spremaju brojani poslovni pokazateljisvaki od tih pokazatelja se nalazi negdje na presjeku svih dimenzija ti pokazatelji se nazivaju injenicama i otuda se tablica zove tablica injenicatipian primjer za injenicu je npr. atribut koji sadri ukupnu vrijednost proizvoda prodanog odreeni dan najbolje i najkorisnije injenice su: brojane, kontinuirano vrednovane i zbrojive tablica injenica ima sloeni klju i on se sastoji od svih primarnih kljueva dimenzijskih tablica

  • Dimenzijske tabliceDimenzijske tablice spremaju podatke vezane za svaku pojedinu dimenzijuDimenzije daju injenicama kontekst, one su prirodni poslovni parametri koji odreuju svaku injenicuDimenzije se opisuju u dimenzijskim tablicama koristei iscrpne tekstualne opise Dimenzijska tablica bi trebala imati to vei broj atributa jer se tako poveava broj ogranienja u upitima, a time se poveava i koliina informacija koja je korisniku dostupna Dimenzijske tablice su denormalizirane radi jednostavnosti dizajna i uinkovitijeg izvoenja upita

  • Jedna tipina dimenzijska tablica Dimenzija vremena

  • OLAPIzrazom On-Line Analytical Processing (OLAP) oznaena je kategorija softverske tehnologije koja omoguava korisnicima (analitiarima, menaderima) da steknu uvid u podatke kroz brz, konzistentan, interaktivan pristup razliitim moguim pogledima na informacije transformirane iz sirovih podataka da bi odrazile stvarnu dimenzionalnost poslovanja kako ga shvaa korisnikUloga OLAP-a

  • OLAPOLAP je pojam koji izvorno potie od E.F. Codda, a opisuje informacijski sustav za brz, konzistentan i interaktivan pristup i manipulaciju multidimenzionalnim podacima koji dolaze iz razliitih izvora, a spremljeni su u skladitu podataka Funkcionalnost OLAP-a ostvarena je kroz mogunost multidimenzionalnih analiza konsolidiranih korporativnih podataka koje ukljuuju: modeliranje koritenjem dimenzija i hijerarhija podataka, analize trendova kroz odreena vremenska razdoblja, projekciju podataka kroz what-if scenarije, podskupove podataka, buenje (drill down) do niih nivoa detaljnosti podataka OLAP je obino implementiran u klijent-server okruenju

  • OLAP postoji u dva temeljna oblika s obzirom na formu u kojoj su podaci spremljeni: relacijski (ROLAP-Relational On Line Analitycal Processing) i multidimenzionalni (MOLAP- Multidimensional On Line Analitycal Processing), te u hibridnom obliku (HOLAP-Hybrid On Line Analitycal Processing) koji za vie nivoe sumarizacije koristi multidimenzionalni oblik, ali omoguuje dril-down do niih nivoa sumarizacije koji su smjeteni u relacijskoj tabliciU posljednje vrijeme koristi se i izraz FASMI - Fast Analysis of Shared Multidimenzional Data

  • Aktivnosti u izradi skladita podatakaAnaliza izvora podataka

    Postupak pripreme podataka

    Postupak uskladitenja podataka

    Analiza podataka

  • Rudarenje podatakaRudarenje podataka se moe opisati kao netrivijalan proces identifikacije neospornih, novih, potencijalno korisnih i razumljivih uzoraka i odnosa meu podacima u skladitu podataka.

    Ima vie modela i algoritama koji se koriste, te se ovisno o primjeni odabire najpogodniji.

  • Rudarenje podatakaNajpoznatije metode rudarenja podataka su:

    - klasifikacija i regresija (algoritmi neuralnih mrea i stabla odluivanja), - klasteriranje (identificiranje i grupiranje slinih podataka), - saimanje i vizualizacija, - modeliranje zavisnosti, asocijacije i sekvencijalna analiza, te - analiza vremenskih serija

  • Rudarenje podatakaSkladite podataka, ne samo da predstavlja veliki skup podataka i informacija, ve mora omoguiti upotrebu analitikih sredstava koji omoguavaju: - otkrivanje uzoraka - predvianje ponaanja korisnika - izradu analize trita

  • Rudarenje podatakaData mining analize se u biti baziraju na metodama raspoznavanja uzoraka i koriste se za rjeavanje slijedeih zadataka:razvrstavanje predvianje procjena vrijednosti grupiranje opisivanje i vizualizacija podataka

  • Business intelligence BI je krovni naziv za skup metoda, alata i aplikacija koje omoguavaju prikupljanje, analizu, distribuciju i djelovanje na osnovu poslovnih informacija, sa ciljem donoenja boljih poslovnih odluka

    BI daje pogled na cijelu kompaniju, pri emu svatko moe dobiti upravo onu informaciju koja mu je potrebna

    BI omoguava proaktivan nain voenja kompanije

    BI sustav je izvorno bio namijenjen decision makerima, odnosno ljudima koji donose poslovne odluke

  • Business intelligenceBI sistem ne postoji kao gotov proizvod, postoje proizvoai koji nude tehnoloke platforme i znanja za implementaciju

    Uvoenje BI sustava je projekt koji nema kraja

    Postavlja se pitanje cijene ovakvih sustava i trokova informacija

  • Iskustva u izgradnji sustava skladita podataka Voenje projekta - Statistike kau da izmeu 50 i 60% projekata izgradnje skladita podataka ne uspijeva u ostvarenju zadanih ciljeva - Oracle PJM je metodologija koja se uz odreene prilagodbe koristi za voenje projekta - kljune institucije u ovom dijelu su:- sponzor (sponzorski odbor) i - voditelj projekta

  • Iskustva u izgradnji sustava skladita podatakaIzgradnja sustava - Neke od kljunih uloga u projektnom timu za koje je potreban ovakav angaman su: strunjak za dohvat izvorinih podataka, administrator podataka, analitiar i naravno krajnji korisnici - Krajnji korisnici kojima su namijenjene aplikacije razlikuju se od korisnike populacije produkcijskih sustava - Spremnost korisnika na upotrebu sustava jedan je od kljunih faktora uspjeha projekta u cjelini

  • Iskustva u izgradnji sustava skladita podatakaSustav prijenosa podataka - Sustav prijenosa podataka predstavlja najtei zadatak u cijelom procesu izgradnje sustava skladita podataka i na njega otpada priblino 60% ukupnog vremena - Sam proces moe se podijeliti u nekoliko faza i to: - dohvat,- transport,- prihvat,- prilagodba i- punjenje.

  • Iskustva u izgradnji sustava skladita podatakaKvaliteta podataka - Loa kvaliteta podataka, prema istraivanjima SAS Instituta, uzrok je neuspjeha u 70% projekata izgradnje skladita podataka - Kako bi se moglo provesti testiranje kvalitete podataka potrebno je prvo utvrditi karakteristike kvalitetnih podataka:- ispravnost,- potpunost,- konzistentnost, - jedinstvenost i- pravovremenost.

  • Iskustva u izgradnji sustava skladita podatakaSigurnost podataka

    - Sigurnosti podataka se u pravilu ne poklanja dovoljna panja, a skladite podataka je vrlo osjetljivo na pitanja sigurnosti

    - Kada se prisjetimo da se u skladite podataka pohranjuju i podaci o konkurenciji, predvianja, planovi, scenariji dakle ne samo povijesni podaci onda je jasno koliko je pitanje sigurnosti osjetljivo i kakva mogunost zloupotrebe takvih podataka postoji

  • Iskustva u izgradnji sustava skladita podatakaSigurnost podataka - Slijedi nekoliko uputa koje mogu olakati rjeavanje pitanja sigurnosti: - utvrdite trenutnu politiku spram sigurnosti unutar organizacije - utvrdite da li i koji tajni podaci e biti pohranjeni u skladite podataka - definirajte tko sve moe pristupiti sustavu - gdje e pravila sigurnosti biti implementirana - koliko e implementacija sigurnosti kotati - to e se poduzeti u sluaju evidentiranog krenja pravila

  • Iskustva u izgradnji sustava skladita podatakaPrezentacija podataka korisnike aplikacije - Korisnike aplikacije u sustavu skladita podataka mogu biti od skupine izvjetaja do specijalistikih aplikacija za prognoziranje, data mining - Loe je za uspjenost projekta predati korisnicima skladite podataka i alate za izradu izvjetaja i ad-hoc upita bez unaprijed pripremljenih izvjetaja i oekivati da e ih veina koristiti

  • Skladite u HZZ-u Situacija u HZZ-u

    - Dolaskom u HZZ nailo se na postojeu CLIPPER aplikaciju, uz koju su se izvjea generirala runo. - Uzmemo li u obzir organizaciju rada i sustava, podaci su bili redundantno pohranjeni na vie mjesta ( gotovo na svakom PC raunalu klijentu ). Izvjea su bila u tekstulanom formatu, a zbog estog verzioniranja programa i naina replikacije podataka postojala je mogunost razlike istog izvjetaja na razliitim lokacijama.

  • Skladite u HZZ-uCilj i poslovna rjeenja

    Samim time, razvila se elja za automatizacijom samog procesa, kao i brzim odgovorima na kompliciranije upite nad bazomNapravljeni su sljedei moduli : 1. Sistemski modul za prijenos podataka iz postojeih aplikacija (Clipper i ostale) 2. Aplikativni modul za funkcionalnu-tehnoloku nadogradnju i zamjenu postojeih aplikacija (Clipper i ostale)

  • Skladite u HZZ-uProjekt HZZ-DW obuhvaa:

    - procese dohvata, prihvata, prilagodbe i punjenje postojeih podataka iz produkcije u skladite podataka - izrada i razvoj OLAP kocki ( mjere, dimenzije...) - izvjetavanje i publiciranje na Web ( 'arobnjak' ) - implementiranje i odravanje

  • Skladite u HZZ-uZa izradu skladita podataka koritena je Microsoft tehnologija : -SQL Server 2000 Enterprise ( Windows 2000 Server ), - SQL Server Developer ( Windows 2000 Profesional ) - Analyses Services SQL Servera - SQL Server Service,

    za prezentaciju podataka : - MDX upiti - Active X kontrola za Prekapanje - Excell Pivot tabele .

  • Skladite u HZZ-u

  • Skladite u HZZ-u

  • Skladite u HZZ-u

  • Literatura http://www.geocities.com/elvirko/skladistenje_i_analiza_informacija.htmlhttp://www.efzg.hr/inc.visits.aspx?id=2452http://www.in2.hr/data/docs/BI_DWH-iskustva.dochttp://www.in2.hr/data/docs/HZZ-DW.dochttp://www.ekonomist.co.yu/magazin/ebit/16/h$s/h$s4.htmhttp://www.skladistenje.com/download/ IzgradnjaSkladistaPodataka.pdfhttp://www.alfatec.hr/pojmovnik_list.asp