biljeske-OZSP-pogl-1-2-3

Embed Size (px)

Citation preview

Otkrivanje znanja u skupovima podatakaMetoda glavnih komponeneta Prof.dr.sc. Bojana Dalbelo Bai1/39 FAKULTET ELEKTROTEHNIKE I RAUNARSTVA Prof.dr.sc. N. Bogunovi Prof.dr.sc. B. Dalbelo Bai OTKRIVANJE ZNANJA U SKUPOVIMA PODATAKA Multivarijantna analiza 1. Uvod u multivarijantnu analizu 2. Metoda glavnih komponenata 3. Grupiranje podataka 4. Diskriminantna analiza biljeke za predavanja ak.god. 2003/04 Otkrivanje znanja u skupovima podatakaMetoda glavnih komponeneta Prof.dr.sc. Bojana Dalbelo Bai2/39 1. Uvod u multivarijatnu statistiku The objective of the data analysis is to extract relevant information contained in the data which canthen be used to solve a given problem. Exploratory data analysis, EDA vs. Hypothesis Testing Data mining Postoje razliite klasifikacije multivarijatnih metoda. Mjerneskale:nominalna,ureajna,intervalna,racionalna (zadnje dvije ine metriku skalu) Brojvarijabli:zavarijablemjerenenazadnjetriskalebroj varijabli je odgovarajui. Za nominalne varijable koje imaju 2 vrijednostidefinirasejednadummyvarijabla,(npr. varijablaspol,varijablapoprimavrijednosti:0mukii1 enski).Zanominalnuvarijablus3vrijednostipotrebnoje formulirati tri varijable. Neka je dano: n entiteta,p varijabli Pretpostavimo podjelu tog skupa u dvije grupe. Otkrivanje znanja u skupovima podatakaMetoda glavnih komponeneta Prof.dr.sc. Bojana Dalbelo Bai3/39 DEPENDANCEMETHODSprisutnostiliodsutnost relacijeizmeudvaskupa(zavisneinezavisne) varijable INTERDEPENDANCEMETHODS-akojenemogue unaprijedodreditiskupvarijablikojesuzavisneiskup varijablikojesunezavisnenegojepotrebnoodrediti kako i zato su varijable meusobno u relaciji DEPENDANCE METHODS Dependance methods nadalje dijelimo prema: Broju nezavisnih varijabli (jedna ili vie) Broju zavisnih varijabli (jedna ili vie) Vrsti mjerne skale zavisne varijable Vrsti mjerne skale nezavisne varijable Jedna zavisna varijabla i jedna nezavisna varijabla (univarijatna statistika, za razliku od multivarijatne) Jedna zavisna i vie nezavisnih varijabli Primjer:strunjakzamarketingeliutvrditivezuizmeu namjerekupnje(NK)nekogproizvodainizanezavisnih varijabli:prihoda(P),obrazovanja(O),godine(G),naina ivota(N) itd. Linearni model: NK=0+ 1P + 2O+ 3G +4N + Otkrivanje znanja u skupovima podatakaMetoda glavnih komponeneta Prof.dr.sc. Bojana Dalbelo Bai4/39 REGRESIJA Jednazavisnaivienezavisnihvarijablisvemjerenena metrikoj skali. ANOVA (Analiza varijance) Nezavisnavarijablamjerenananominalnojskali(primjer: umjesto da se biljei toni prihod, prihod se kategorizira kao visok, srednji, nizak.)ANOVA je tehnika za procjenu parametara linearnog modela kada su nezavisne varijable nominalne. ANOVAjeposebnisluajregresije(nezavisnevarijablesu kategorizirane).UnajjednostavnijemsluajuANOVAse svodinat-testakonominalnavarijablapoprimadvije vrijednosti.(Primjer: Da li spol utjee na razinu kolesterola u krvi? Da li profesijautjeenarazinukolesterolaukrvi?Dalispoli profesija zajedno utjeu na razinu kolesterola u krvi?) DISKRIMINANTNA ANALIZA Pretpostavimodanamjerukupnjemjerimonanominalnoj skali(kupciionikojitonisu)doksunezavisnevarijable mjerenenametrikojskali.elimoodreditidalisedvije grupe(kupciionikojitonisu)znaajnorazlikujusobzirom na nezavisne varijable, i ako da, mogu li nezavisne varijable bitiupotrebljenezapredvianjeiliklasifikacijupotencijalnih kupaca u jednu od dvije grupe. 2- grupe DA je poseban sluaj multiple regresije. LOGISTIKA REGRESIJA Pretpostavkadiskriminantneanalizejedapodacidolazeiz multivarijatnenormalnedistribucije.Logistikaregresijase primjenjujekadasutepretpostavkenarueneikadaje zavisna varijabla kombinacija nominalne i metrike varijable. Otkrivanje znanja u skupovima podatakaMetoda glavnih komponeneta Prof.dr.sc. Bojana Dalbelo Bai5/39 Vie od jedne zavisne i jedna ili vie nezavisnih varijabli. KANONSKA KORELACIJSKA ANALIZA Je tehnika za analizu relacije izmeu dviju skupova varijabli. U naem primjeru ako nas kao zavisna varijable uz namjeru kupnjeprehrambenogproizvodajointeresiraimiljenje kupca o okusu proizvoda. (Multipla regresija je poseban sluaj CCA) MDA - DISKRIMINANTNA ANALIZA S VIE GRUPA Pretpostavimo da potencijalne kupce podijelimo u tri grupe. Kakosetetrigruperazlikujuuodnosunanezavisne varijable?Kakorazvitimetodudiskriminacijezabudue kupce? Otkrivanje znanja u skupovima podatakaMetoda glavnih komponeneta Prof.dr.sc. Bojana Dalbelo Bai6/39 INTERDEPENDANCE METHODS Nemaeksplicitnozadanihskupovazavisnihinezavisnih varijabli.Potrebnojeidentificiratikakoizatosuvarijable korelirane jedna s drugom. METODA GLAVNIH KOMPONENATA -metodazaredukcijupodataka.Reduciravelikibroj varijabli na mali broj kompozitnih varijabli. FAKTORSKA ANALIZA Pokuavaidentificiratimalibrojfaktorakojisuodgovorniza korelacijuizmeuvelikogbrojavarijabli.FAtehnika redukcijepodataka.Identificiragrupevarijablitakodasu korelacijevarijabliunutargrupeveenegooneizmeu grupa.(Primjerkolskipsihologpokuavaanaliziratikorelaciju izmeuocjenarazliitihkolegijapredmetazauenikeu koli) GRUPIRANJE PODATAKA Tehnikagrupiranjaelemenata(objekata,entiteta, opservacija)takodasuelementiunutarjednogklastera slini u odnosu na obiljeja (varijable) koje ih opisuju.Naroitointeresantnaubioznanostimazarazvijanje taksonomija. Primjer:grupiranjeprehrambenihartikalaprema vrijednostimanutrijenata(vitaminima,mineralima, ugljikohidratima),grupiranjepotencijalnihkupacaprema kupovnim navikama. Otkrivanje znanja u skupovima podatakaMetoda glavnih komponeneta Prof.dr.sc. Bojana Dalbelo Bai7/39 2. METODA GLAVNIH KOMPONENATAili Karhunen-Love transformacijaili Hotellingova transformacija (engl. Principal Component Analysis - PCA) -Karl Pearson 1901. godine prvi opisao PCA -Hotelling 1933. dao opis izrauna glavnih komponenti -Primjena za vie varijabli tek s razvojem raunala Jedna od najjednostavnijih metoda multivarijatne statistike. Cilj je nainiti novi koordinatni sustav s manjim brojem dimenzija od izvornog koji naglaava glavne uzorke varijacija podataka Primjena: redukcijadimenzionalnostipodataka(reducirabroj izvornihvarijablinamalibrojindeksakojisulinearna kombinacijaizvornihvarijabliikojisezovuglavne komponente) interpretacijapodataka(glavnekomponente objanjavajuvarijabilnostpodatakananajkonciznijinain, natajnainpokazujenekeskrivenepovezanosti, meuodnosepodataka.Podaciseprikazujunanainkoji nijeuobiajen,alisadrimnogobitnihinformacijaoskupu izvornih podataka) Otkrivanje znanja u skupovima podatakaMetoda glavnih komponeneta Prof.dr.sc. Bojana Dalbelo Bai8/39 Cilj metode glavnih komponeneta: X1,X2,Xpvarijabli(svojstava),mjerenihnanobjekata(sva mjerenja se prikazuju n x p matricom), treba nai Y1, Y2, Yptako da su nekorelirani (odsustvokorelacijeindeksiodraavajurazliitedimenzije podataka)i da vrijedi Var(Y1) Var(Y2) Var(Y p) Yi se nazivaju glavne komponente -varijanceveineYizanemarivomale->varijabilnostskupa podataka se moe opisati s malim brojem glavnih komponenata Yi

-PCAprovedivasamoakosuizvornevarijablekorelirane najboljeakosujakokorelirane-tadaimaredundancijeu izvornimvarijablamakojemjereistustvar,naprimjer20-30 varijabli predstavi se sa 2-3 glavne komponente.

Otkrivanje znanja u skupovima podatakaMetoda glavnih komponeneta Prof.dr.sc. Bojana Dalbelo Bai9/39 Osnovne definicije: Neka jeXsluajni vektor ,elementi od X su sluajne varijable.((((((

=pXXXXL21 Tada je oekivanjesluajnog vektora vektordefiniran sa: ( )( )( )( )((((((

=pX EX EX EX EL21, gdje je) (iX Eoekivanje sluajne varijable iX , oznaimo ga s i . Varijanca sluajnog vektoraXje ( ) ( ) ( ) | |2 2X E X E X Var = = . Zap j i . , 2 , 1 , K =definirajmo realne brojeve: ( ) ( ) ( ) ( ) | | ( ) ( ) ( )j i j i j j i i ijX E X E X X E X E X X E X E c = = . Zaj i , ijczovemo kovarijanca sluajnih varijabli iX , jXi esto je oznaavamo s( )j iX X Cov , . Simetrinu matricudefiniranu na slijedei nain: ((((((

= pp p pppc c cc c cc c c .......... .......... .......... .......... ......... .........2 12 22 211 12 11 nazivamo kovarijaciona matrica sluajnog vektoraX . Kada je oekivanje sluajnog vektora nula (nul-vektor) tada je kovarijaciona matrica jednaka autokorelacionoj matrici sluajnog vektoraXkoja je definirana sa: Otkrivanje znanja u skupovima podatakaMetoda glavnih komponeneta Prof.dr.sc. Bojana Dalbelo Bai10/39 ) (TXX E R = . GLAVNE KOMPONENTE Nekaje( )TpX X X , ,1K = sluajnivektorskovarijacionommatricom ineka su njene svojstvene vrijednosti dane s02 1 p K .Pogledajmo linearne kombinacije : p pTX l X l X l X l Y1 2 21 1 11 1 1+ + + = = Kp pTX l X l X l X l Y2 2 22 1 12 2 2+ + + = = KMp ph h hTh hX l X l X l X l Y + + + = = K2 2 1 1 Mp pp p pTp pX l X l X l X l Y + + + = = K2 2 1 1 Glavne komponente su nekorelirane linearne kombinacijepY Y Y , , ,2 1Kije varijance su najvee mogue. Linearne kombinacije k hY Y ,su nekorelirane ako vrijedi( ) 0 , =h kY Y Cov .Prva glavna komponenta je linarna kombinacija s najveom varijancom, odnosno ona koja maksimizira izraz( )1Y Var ,uz uvjet da vrijedi11 1= l lT. Otkrivanje znanja u skupovima podatakaMetoda glavnih komponeneta Prof.dr.sc. Bojana Dalbelo Bai11/39 Glavne komponente definiramo na slijedei nain: Prva glavna komponentaje linearna kombinacijaX l YT1 1 =koja maksimiziraizraz( ) X l VarT1, uz uvjet11 1= l lT. Druga glavna komponentaje linearna kombinacijaX l YT2 2 =koja maksimiziraizraz( ) X l VarT2, uz uvjet12 2= l lT i( ) 0 ,2 1= X l X l CovT T. h-ta glavna komponenta je linearna kombinacijaX l YTh h=koja maksimiziraizraz( ) X l VarTh, uz uvjet1 =hTh l li( ) 0 , = X l X l CovTkTh zah k < . p-ta glavna komponenta je linearna kombinacijaX l YTp p=koja maksimiziraizraz( ) X l VarTp, uz uvjet1 =pTpl li( ) 0 , = X l X l CovTkTp zap k < . Otkrivanje znanja u skupovima podatakaMetoda glavnih komponeneta Prof.dr.sc. Bojana Dalbelo Bai12/39 Objanjenje metode glavnih komponenata Varijance i kovarijance linearnih kombinacija Yi (tj. glavnih komponenti) dane su formulama: ( )h hTh hl l Y Var = =zap h , , 2 , 1 K =( ) 0 , = =kTh k hl l Y Y Covzap k h , , 2 , 1 , K = Kovarijaciona matrica podataka je realna i simetrina tj. vrijedi = T, te je pozitivno definitna , odnosnox x x > , 0. Kovarijacionamatricajedimenzijepxpiimapnenegativnihsvojstvenih vrijednosti.Svakasesimetrinamatricamoenapisatikaoproduktsvojihsvojstvenih vektora i svojstvenih vrijednosti na slijedei nain: Tp p pT Te e e e e e + + + = K2 2 2 1 1 1, odnosno Q QT = , gdje jeQ matrica svojstvenih vektora matrice, je dijagonalna matrica koja na dijagonali imasvojstvene vrijednosti matrice . Svojstvene vrijednosti ( ) definirane kao nul-toke jednadbe ( ) 0 det = I , a svojstveni vektori ( e ) se dobivaju iz jednadbe e e = . Otkrivanje znanja u skupovima podatakaMetoda glavnih komponeneta Prof.dr.sc. Bojana Dalbelo Bai13/39 Tvrdnja1.NekajeBpozitivnodefinitnamatricasasvojstvenimvrijednostima02 1 p K ipripadnimnormaliziranimsvojstvenimvektorima pe e e , , ,2 1K . Tada je 10max =x x Bx xTTx (postie se za 1e x = ) i vrijedi takoer 1,1max+=k TTe e xx x Bx xkK (postie se za 1 +=ke x , 1 , , 2 , 1 = p k K ). Tvrdnja 2. Neka jekovarijaciona matricasluajnog vektora( )TpX X X , ,1K =i nekasudaniparovisvojstvenavrijednost-svojstvenivektor ( ) ( ) ( )p pe e e , , , , , ,2 2 1 1 K kovarijacionematrice ,gdjeje02 1 p K . (Akosunekesvojstvenevrijednosti h jednake,tadaizborpripadnog svojstvenogvektora he i hY nijejedinstven.)Oznaimokoordinatevektora heovako:| |Tph h h he e e e K , ,2 1= . Tada je h-ta glavna komponenta dana sa p ph h hTh hX e X e X e X e Y + + + = = K2 2 1 1 zap h , , 2 , 1 K =i vrijedi ( )h hTh he e Y Var = =zap h , , 2 , 1 K =( ) 0 , = =kTh h ke e Y Y Covzak h . Tvrdnja 3.Ukupna varijanca je jednaka ( ) ( )== + + + = pjj pX Var tr12 2221 K( )== + + + =phh pY Var12 1 K Otkrivanje znanja u skupovima podatakaMetoda glavnih komponeneta Prof.dr.sc. Bojana Dalbelo Bai14/39 Primjer.Pretpostavimo da sluajne varijable 3 2 1, , X X Ximaju kovarijacionu matricu:|||.|

\|2 0 00 5 20 2 1. Moe se provjeriti da tada parovi svojstvena vrijednost-svojstveni vektor izgledaju ovako: 83 . 51 = | | 0 , 924 . 0 , 383 . 01 =Te00 . 22 = | | 1 , 0 , 02=Te17 . 03 = | | 0 , 383 . 0 , 924 . 03=TeGlavne komponente su tada : 2 1 1 1924 . 0 383 . 0 X X X e YT = =3 2 2X X e YT= =2 1 3 3383 . 0 924 . 0 X X X e YT+ = = Varijanca prve glavne komponente je ( ) ( )1 2 1 183 . 5 924 . 0 383 . 0 = = = X X Var Y Var , kovarijanca izmeu prve i druge glavne komponente je( ) ( ) 0 , 924 . 0 383 . 0 ,3 2 1 2 1= = X X X Cov Y Y Cov . Sada raunamo trag: 17 . 0 00 . 2 83 . 5 2 5 13 2 1232221+ + = + + = + + = + + = 8 Prve dvije komponente sudjeluju s udjelom( )98 . 082 83 . 5=+ od ukupne varijance. U ovom sluaju je jasno da bi komponente 2 , 1Y Ymogle dobro zamjeniti tri originalne varijable s vrlo malo gubitaka informacije. Otkrivanje znanja u skupovima podatakaMetoda glavnih komponeneta Prof.dr.sc. Bojana Dalbelo Bai15/39 Geometrijska interpretacija metodeglavnih komponenata elimo li vidjeti to bi bile glavne komponente nekog konkretnog skupa uzoraka moramo definirati neke pojmove deskriptivne statistike. Neka je { }nx x x X K , ,2 1=neki skup uzoraka, tada je srednja vrijednost dana s.11==niin x Uzorci mogu biti viedimenzionalni podaci, odnosno svaki uzorak ixmoe biti p-dimenzionalni vektor ((((((

=piiiixxxL21x .

Tadavektor srednjih vrijednosti definiramo kao: ((((((

=((((((((((

= =====pnipiniiniiniixnxnxnxnLL211121111111.

Ako su podaci dvodimenzionalni, tada je vektor srednjih vrijednosti Otkrivanje znanja u skupovima podatakaMetoda glavnih komponeneta Prof.dr.sc. Bojana Dalbelo Bai16/39 PRIKAZ VEKTORA SREDNJIH VRIJEDNOSTI Varijanca skupa uzorakaSjep-dimenzionalni vektor dan izrazom: ( )( )( )( ) ((((((((((

= =====nip piniiniiniixnxnxnn12122 2121 112 211111111L x s . Komponenteovogvektoramjererairenost(spread)skupauzorakadusvihp osi koje razapinju p-dimenzionalni prostor. Razliite komponente uzoraka mogu biti meusobno u korelaciji, npr.vrijednost varijable axraste kada raste vrijednost varijable bx. Ovo svojstvo je sadrano u kovarijanci abcovod axi bxdefiniranoj kao: ( )( )= =nib bia ai abx xn111cov . MatricaC dimenzije p x p dana sa| |n b a ab , , 1 ,covK == C, odnosno Otkrivanje znanja u skupovima podatakaMetoda glavnih komponeneta Prof.dr.sc. Bojana Dalbelo Bai17/39 ( ) ( )( )( )( ) ( )((((((

=((((((

= = == =nip pinip pi inip pi iniipp p pppxnx xnx xnxnc c cc c cc c c1211 111 1121 12 12 22 211 12 1111111111 .......... .......... .......... .......... ......... ......... LM O MLCNazivasekovarijacionamatricauzoraka.Kovarijacionamatricazaskup uzoraka koji ima vektor srednjih vrijednosti nula postajeautokorelaciona matrica definirana ovako: ( )( ) ((((((

= = == =nipinipi inipi iniixnx xnx xnxnR12111112111111111 LM O ML (Napomene: Nazivi SS i SSCP za sum of squares i cross product; R= XXT) Geometrijski gledano, metoda glavnih komponenata je izbor novog koordinatnog sustava dobivenog ortogonalnom transformacijom originalnog sustava GEOMETRIJSKA INTERPRETACIJA GLAVNIH KOMPONENATA Otkrivanje znanja u skupovima podatakaMetoda glavnih komponeneta Prof.dr.sc. Bojana Dalbelo Bai18/39 Prvaglavnakomponentajesmjerdukojegjevarijancapodataka najvea.Drugaglavnakomponentajesmjermaksimalnevarijance podataka u prostoru okomitom na prvu glavnu komponentu.Novikoordinatnisustavrazapinjupripadnisvojstvenivektorinajveih svojstvenih vrijednosti kovarijacione matrice skupa podataka. Redukcija dimenzionalnosti metodom glavnih komponenata Primjer slike u boji. Metoda glavnih komponenata -> za redukciju dimenzionalnosti podataka, (uz to manje bitnih gubitaka). Izvorni, p-dim podaci se projekcijom prevode u k-dim pri emu vrijedi,p k < Ideja: napraviti projekciju tih n uzoraka iz p-dim prostora N u k -dim potprostor M, ali tako da ti projicirani uzorci budu to sliniji originalnim uzorcima. ProjekcijauzorakaizprostoraNupotprostorMdobijasemnoenjemuzorka transponiranom matricom matriceV, (p x k matrica) iji stupci predstavljaju bazu potprostora M izraenu preko baze N izvornog prostora.Odnosno, i iTy x V = , gdje je ixuzorak u prostoru N, a iyuzorak u prostoru M. Potprostorukojisevriprojekcijatrebabititakoodabrandajepogreka rekonstrukcijenajmanjamogua,tj.daseprojekcijomizgubitojemanje mogue informacije o izvornom podatku.Otkrivanje znanja u skupovima podatakaMetoda glavnih komponeneta Prof.dr.sc. Bojana Dalbelo Bai19/39 Primjer.Danjeskuptoakau3-dimprostoru.Traimo2-dimprikazpodataka koji to vjernije opisuje originalni skup podataka. PRIKAZ PODATAKA U ORIGINALNOM PROSTORU Projekcija na Y-Z ravninu, vjernije uva izvorne podatke nego projekcija na X-Z. PROJEKCIJA PODATAKA NA RAVNINU PCA najbolje oodreuje potprostor koji uva najvie informacija! Otkrivanje znanja u skupovima podatakaMetoda glavnih komponeneta Prof.dr.sc. Bojana Dalbelo Bai20/39 Neka je dan p-dimenzionalni prostor uzoraka i X skup n-uzoraka iz tog prostora. Vektor srednjih vrijednosti uzoraka dan je izrazom: .11==niixn Akosrednjavrijednostskupauzorakanijenula,tadasvakomuzorkuizSoduzmemo vektor srednjih vrijednosti, odnosno) (x ti i = . Tada e taj dobiveni skup uzorakaTimati vektor srednjih vrijednosti nula. DabiodredilipotprostorM ukojieseprojiciratiskupuzorakaT potrebnoje odrediti kovarijacionu matricu skupa uzorakaT , te njene svojstvene vrijednosti i jedinine svojstvene vektore. Kovarijaciona matrica rauna se prema formuli: ( )( )j inlTj l j i l it tnx xnj i1111) , (1, ,= == C . Svojstvene vrijednosti ( ) definirane su kao nul-toke jednadbe, ( ) 0 det = C I . Broj svojstvenih vrijednosti kovarijacione matrice C (dim p x p) je p. Otkrivanje znanja u skupovima podatakaMetoda glavnih komponeneta Prof.dr.sc. Bojana Dalbelo Bai21/39 Svojstveni vektoriei svojstvene vrijednostisu povezani jednadbom, e e = C . Svakom svojstvenom vektoru odgovara jedna svojstvena vrijednost,Jednojsvojstvenojvrijednostimoeodgovaratibeskonanomnogo svojstvenih vektora, (meusobno kolinearni) Svakojsvojstvenojvrijednostipripadasamojedanjedininisvojstveni vektor. Svojstvenivektorikojipripadajurazliitimsvojstvenimvrijednostima meusobno su ortogonalni. Bazak-dimenzionalnogpotprostoraM odreenajepomou'vodeih'k jedininih svojstvenih vektora kovarijacione matriceC (inae ih ima p!).Podpojmom'vodei'jedininisvojstvenivektoripodrazumijevajusejedinini svojstveni vektori koji pripadaju najveim svojstvenim vrijednostima. { }( ) ( )( ) ( )( ) ( ) , ) ( ,..... .......... .......... .......... .......... ..........2 ) ( ,1 ) ( ,,......, ,2p) i (k ip) i ( ip) i ( iBkk M

=iii 12 1e ee ee ee e e gdje je MBbaza vektorskog potprostoraM , iesu jedinini svojstveni vektori, a ) (ie su svojstvene vrijednosti koje pripadaju jedininim svojstvenim vektorima. StupcimatriceV(pxkmatrica)sadravatevektoreiz MB ,tojezapisk svojstvenih vektora u terminima p originalnih varijabli. Otkrivanje znanja u skupovima podatakaMetoda glavnih komponeneta Prof.dr.sc. Bojana Dalbelo Bai22/39 ((((((

=pkp2p12k22211k1211e ......... e e..... .......... ..........e ......... e ee ......... e eV . Sada ovu matricu V koristimo za proiciranje podataka iz prostora Nu prostor M. Neka je sada ixneki uzorak iz prostora N, tada je njegova projekcija iy : ((((((

=((((((

((((((

= =kiiipiiiiTiyyyxxxx y... ...e ......... e e..... .......... ..........e ......... e ee ......... e e2121pk2k1kp22212p12111V . Sada je kiyk- ta glavna komponenta.Dobili smo p-dimenzionalan vektorixzapisan kao k-dimenzionalan vektor glavnih komponenti iy ( k < p ).Sada tu projekciju primjenimo na sve elemente skupa uzoraka.Ovo proiciranje podataka je sada na neki nain kompresija skupa uzoraka. MatricaU(dimnxk),recisuzapisinuzorakaizvornogprostoraNuk-dim potprostoru M. nove koordinate = matrica transformacijex uzorci izraeni su starim koordinatama UT (k x n) = VT (k x p) XT (p x n) Otkrivanje znanja u skupovima podatakaMetoda glavnih komponeneta Prof.dr.sc. Bojana Dalbelo Bai23/39 Rekonstrukcija podataka i pripadna pogreka Usluajudametoduglavnihkomponenataelimokoristitizakompresiju podatakailizaslanjepodatakakanalimanedostatneirine(manjeoddimenzije podataka),tadaenaszanimatiirekonstrukcijapodatakanakonslanja (kompresije) i greka koja pri tome nastaje. Formula za rekonstrukciju uzorka ixiz vektora glavnih komponenata je: ((((((

((((((

= =kiiipkp pkki iyyyy V x... .......... .......... .......... .......... ......... .........212 12 22211 1211'e e ee e ee e e. XT (p x n) = V (p x k) UT (k x n) Uslijedgubitkainformacijekojijeuzrokovanprojekcijom,javljasepogreka rekonstrukcije (udaljenost izmeu uzoraka), a njen kvadrat jetono jednak sumi svih svojstvenih vrijednosti koje su odbaene: + == = =pk ii i i i i1, x V V x x xT. Srednja kvadratna pogreka rekonstrukcije svih uzoraka iz skupa S je: = =nii in11x V V xT . Otkrivanje znanja u skupovima podatakaMetoda glavnih komponeneta Prof.dr.sc. Bojana Dalbelo Bai24/39 Primjer primjene metode glavnih komponenata redukciju dimenzionalnosti podataka u obradi slike BojauRGBzapisujepredstavljenakaovektorutrodimenzionalnom prostoruijubazuinevektoriR,GiBkojiodgovarajucrvenoj,plavoji zelenojboji.Dakle,svakislikovnielement(engl.pixel)jejedanvektoru prostoru koji razapinjuvektori R, G i B. Slika je skup 3-dimenzionalnih podataka. ORIGINALNA SLIKA U BOJI Pretvorbuslikeubojiucrnobijelusliku,odnosnounijansesive,moemo gledati kao projekciju elemenata skupa iz 3-dimenzionalnog (R, G i B) prostora u 1-dimenzionalan prostor. Otkrivanje znanja u skupovima podatakaMetoda glavnih komponeneta Prof.dr.sc. Bojana Dalbelo Bai25/39 PCAodreujesmjerukojemeprojekcijaimatinajveuvarijancu, odnosnocrno-bijelaprojekcijaslikeezadratinajvieinformacijaoboji. (nijenajbolji nain pretvorbe!) smjerprveglavnekomponentejevektoruprostoruRGB-bojaijih razliitih nijansi na slici ima najvie. Primjer-naslicikojaveinomimanijansecrveneboje,boljeeizgledati projekcija na os R (crvena), nego projekcija na G (zelena) ili B (plava). PROJEKCIJA NA OS R (CRVENA) Otkrivanje znanja u skupovima podatakaMetoda glavnih komponeneta Prof.dr.sc. Bojana Dalbelo Bai26/39 PROJEKCIJA NA OS B (PLAVA) PROJEKCIJA U SMJERU PRVE GLAVNE KOMPONENTE Projekcijausmjeruprveglavnekomponenteuvijekdajenajvjernijucrno-bijelu sliku.Otkrivanje znanja u skupovima podatakaMetoda glavnih komponeneta Prof.dr.sc. Bojana Dalbelo Bai27/39 Literatura: Johnson,R.A.;Wichern,D.W.:AppliedMultivariateStatistical Analysis, Prentice Hall; 5th edition, 2002. Poljak,T.,Metodaglavnihkomponenata,diplomskirad,Matematiki odjel Prirodoslovno-matematikog fakulteta, 2003. Otkrivanje znanja u skupovima podatakaMetoda glavnih komponeneta Prof.dr.sc. Bojana Dalbelo Bai28/39 3. GRUPIRANJE PODATAKA (engl. CLUSTER ANALIZA) engl. Taxonomy analysis Cilj: Pridruiti objekte u grupe na temelju slinosti objekata. Slinost je predefinirani kriterij koji se rauna iz opaanja (mjerenja) na objektima. Pitanja: Kojumjeruslinostiilirazliitosti(engl.similarity,dissimilarity) koristiti ? Koji algoritam grupiranja koristiti? Za grupiranje objekata metrika, za grupiranje varijabli korelacijski koeficijenti Otkrivanje znanja u skupovima podatakaMetoda glavnih komponeneta Prof.dr.sc. Bojana Dalbelo Bai29/39 Mjeraudaljenosti(engl.dissimilaritymeasure)jemjera razliitosti podataka MjeraudaljenostiilimetrikadjefunkcijasaXxXuRkoja zadovoljava uvjete: D (xk, xl) 0, za xk=xl, D (xk, xl) = 0 (pozitivna definitnost) D (xk, xl) = D (xl, xk)(simetrinost) D (xk, xl) D (xk, xj) + D (xj, xl)(pravilo trokuta) Metrika: L2, Euklidska, D (xk, xj) = || xk xj || =( i (xki xji)2 )1/2 specijalni sluaj metrika Minkowski za r = 2 D (xk, xj) = ( i | xki xji|r )1/r (primjer: skup toaka u 2-dim prostoru koji je od neke vrste toke, sredita, udaljen za odabranu konstantnu vrijednost rje krunica) L1,ManhattaniliCityblockspecijalnisluajmetrika Minkowski za r = 1 (primjer: skup toaka u 2-dim prostoru koji je od neke vrste toke, sredita, udaljen za odabranu konstantnu vrijednost rje dijamant) Za binarne vektora L1 je Hammingova udaljenost L,za r formula se naziva ebievljeva udaljenost: D (xk, xi) = Max1 jN { | xkj xij| } (primjer: skup toaka u 2-dim prostoru koji je od neke vrste toke, sredita, udaljen za odabranu konstantnu vrijednost rje kvadrat) Otkrivanje znanja u skupovima podatakaMetoda glavnih komponeneta Prof.dr.sc. Bojana Dalbelo Bai30/39 Primjer: Otkrivanje znanja u skupovima podatakaMetoda glavnih komponeneta Prof.dr.sc. Bojana Dalbelo Bai31/39 Statistika udaljenost: Mahalonobisova udaljenost (1948.g.) d(x,y) = sqrt [ (x-y)'-1(x-y)], gdje je-1 inverz matrice varijanci-kovarijanci. Ta je udaljenost pozitivno definitna kvadratna forma oblika x'Ax, sdje je A= -1 i poopenje je euklidske udaljenosti ako varijable imaju razliite standardne devijacije i korelirane su! Na primjer ako se Mahalanobisova udaljenost koristi za raunanje udaljenosti jedne multivarijatne opservacije od centra populacije: = = =pijjpjij i ix x v x x D1 12) ( ) ( gdjesu(x1,x2,,xp)vrijednostivarijabliX1,X2,,Xp,avijje elementui-tomretkuij-tomstupcuinverznematricevarijanci kovarijanci. (Primjer: skup toaka u 2-dim prostoru koji je od neke vrste toke, sredita, udaljen za odabranu konstantnu vrijednost rje elipsa) Otkrivanje znanja u skupovima podatakaMetoda glavnih komponeneta Prof.dr.sc. Bojana Dalbelo Bai32/39 Vrste grupiranja: ParticijskaHijerarhijska Parametarska Otkrivanje znanja u skupovima podatakaMetoda glavnih komponeneta Prof.dr.sc. Bojana Dalbelo Bai33/39 Hijerarhijska grupiranja rezultat grupiranja DENDOGRAM Tree Diagram for 22 CasesComplete LinkageEuclidean distances0 1 2 3 4 5 6 7 8Linkage DistancePorscheCorvetteEagleIsuzuFordBuickToyotaMazdaVolvoSaabBMWMercedesAudiNissanMitsub.PontiacHondaVWDodgeChryslerOldsAcura Aglomerativna(bottom-up)(poinjuindividualnim objektom, inicijalno n objekat n grupa, najsliniji objekti segrupiraju,grupesestapajuuskladusodabranim kriterijem)

Divizivna(top-down)(radesuprotno,inicijalnosvihn podatakajejednagrupa,kojasedijelinapodgrupe, podgrupe se dijele dalje u skladu s odabranim kriterijem) Particijska grupiranja nisu hijerarhijske (engl. flat) K srednjih vrijednosti , (k means) SOM Parametarski modelEM algoritam Otkrivanje znanja u skupovima podatakaMetoda glavnih komponeneta Prof.dr.sc. Bojana Dalbelo Bai34/39 Aglomerativna hijerarhijska grupiranja Metode povezivanja (linkage methods) -pogodne za varijable i objekte single linkage completelinkage average linkage Primjer: Grupiranje 4 podataka u 2-dim prostoru Otkrivanje znanja u skupovima podatakaMetoda glavnih komponeneta Prof.dr.sc. Bojana Dalbelo Bai35/39 Single linkage Povezivanje na temelju minimalne udaljenostiili povezivanje najblieg susjeda Podaci u proceduri mogu biti udaljenosti ili slinosti izmeu objekata. Najblii susjed odreuje najmanju udaljenost ili najveu slinost izmeu podataka. Zbog naina spajanja ne moe razlikovati slabo odjeljive grupe, ali moe odijeliti ne-elipsoidalne grupe. Ima tendenciju stvaranja duljih lanaca na ijim se krajevima jedinke mogu bitno razlikovati. Average Linkage Povezivanje na temelju srednje udaljenosti izmeu grupa. Udaljenost je srednja vrijednost udaljenosti svih parova u grupama. Otkrivanje znanja u skupovima podatakaMetoda glavnih komponeneta Prof.dr.sc. Bojana Dalbelo Bai36/39 Povezivanje na temelju maksimalne udaljenosti udaljenost izmeu dvije grupe (elementa) je odreena najveom udaljenou. Osigurava da su svi objekti u grupi unutar neke maksimalne udaljenosti. Uoava se slinost dendogramacomplete linkage i average linkage, ali se povezivanje deava na razliitim razinama udaljenosti. Ulaz u postupak povezivanja moe biti i korelacijske matrica. Slinost izmeu dviju varijabli mjeri se produkt-moment korelacijskim koeficijentom. Varijable s velikim negativnim korel. koef. smatraju se jako udaljenima, a one s veim pozitivnim smatraju se bliskima. Zakljuci: hijerarhijske aglomerativne metode su osjetljive na outliere nema mogunosti preispitivanja ve pridjeljenih (krivo) objekata grupamadobro je probati vie metoda i vie mjera udaljenosti te provjeriti konzistentnost rjeenja stabilnost grupiranja moe se provjeriti dodavanjem perturbacija. Ako su grupe jasno odjeljive grupiranje prije i poslije perturbacija se trebaju slagati Otkrivanje znanja u skupovima podatakaMetoda glavnih komponeneta Prof.dr.sc. Bojana Dalbelo Bai37/39 Particijske metoda: Algoritam k srednjih vrijednosti najpoznatiji ALGORITAM k SREDNJIH VRIJEDNOSTI Odnosi se na particiju objekata, a ne varijabli. Nekoristimatricuslinostipajezahvalnijametodazaveiskup podataka. Ukratko:1.odabere se k poetnih centara grupa 2.sve se vrijednosti rasporede u k grupa po pravilu minimalne udaljenosti 3.rauna se novih k centroida 4.ponavljaj korake 2 i 3 dok vie nama promjena Algoritamk-srednjihvrijednosti(engl.kmeansalgoritam)je postupak grupiranja na temelju minimizacije kriterijske funkcije: Nc J = j=1Jj, pri emu je Jj = x Sj || x Zj ||2. Ncpredstavljabrojelemenataodkgrupa,dokSjpredstavljaskup uzoraka iji je centar Zj. CiljalgoritmajenaiksreditagrupaZ1,Z2, ...,ZkzaNpoetnih neraspodjeljenihuzoraka.Brojksezadajenapoetku,zajednosa uzorcima, i za njega vrijedi: 0 < k < N. Specifinost algoritma je ta da ovisi o redoslijedu uzimanja uzoraka. Otkrivanje znanja u skupovima podatakaMetoda glavnih komponeneta Prof.dr.sc. Bojana Dalbelo Bai38/39 Algoritam: 1.izabiremoksreditagrupaZ1(1),Z2(1),...,Zk(1).Metodaizbora poetnih sredita grupa je proizvoljna. Postoji nekoliko tipova uobiajenih izbora pa prema tome i nekoliko tipova algoritma k srednjih vrijednosti. 2.u m tom koraku (iteraciji) razdjeljujemo uzorke x1, x2, ..., xN u k grupa pomou relacije: x Sj (m)ako je|| x Zj (m) || < || x Zi (m) ||,i = 1, 2, .., N;i j. Sj (m) predstavlja skup uzorakau m tom koraku iji je centar Zj. 3.izraunavamonovasreditagrupaZj(m+1),j=1,2,...,ktakodaje kriterijska funkcija J = kj=1 x Sj(m) || x Zj (m+1) ||2minimalna. Sreditagrupakojaminimizirajukriterijskufunkcijuumtojiteracijisu aritmetike srednje vrijednosti uzoraka pojedinih grupa Zj (m+1) = 1/Nj ( x=Sj(m) x )za j = 1, 2, ..., k;Nj je broj uzoraka u grupi. 4.akojeZj(m+1)=Zj(m)zasvej=1,2,...,k,postupakzavrava. Ukoliko taj uvjet nije ispunjen, ponavljamo postupak od koraka 2. Narezultatgrupiranjapomoualgoritmaksrednjihvrijednosti utjee: broj grupa izbor poetnih sredita grupa Algoritamzahtjevaeksperimentiranjesarazliitimvrijednostimaki razliitim poetnim konfiguracijama centara. Nema openitog dokaza o konvergenciji algoritma. Otkrivanje znanja u skupovima podatakaMetoda glavnih komponeneta Prof.dr.sc. Bojana Dalbelo Bai39/39 Metoda glavnih komponenata i grupiranje Moe se raditi PCA prije grupiranja kako bi se reducirao veliki broj varijabli i time smanjiloukupno raunanje. Rezultati se sa i bez predprocesiranja s PCA mogu razlikovati! Literatura: Hartigan, J.A., Clustering Algorithms, John Wiley & Sons, 1975.