Click here to load reader

ANALÝZA HLAVNÝCH KOMPONENTOV

  • Upload
    jodie

  • View
    130

  • Download
    1

Embed Size (px)

DESCRIPTION

ANALÝZA HLAVNÝCH KOMPONENTOV. P rincipal C omponent A nalysis. X 1. X 2. X 3. X 4. X 5. X 6. X 7. X 8. X 9. X 10. X 11. X p. 1. 2. 3. 4. 5. n. Viacrozmerné metódy -údaje. n > p. Metódy analýzy skrytých vzťahov. Často v praxi vzniká problém : - PowerPoint PPT Presentation

Citation preview

Chapter 1

Principal Component AnalysisANALZA HLAVNCH KOMPONENTOV

Viacrozmern metdy -daje

X3X10X7X4X8X9X6X5X11X1X212345nXpn > pMetdy analzy skrytch vzahov

asto v praxi vznik problm:zaiaton poet premennch, popisujcich objekty (pozorovania) je vysok a naviac premenn s vzjomne korelovan (problm multikolinearity) .

zjednoduenm me by vytvorenie menieho potu znakov (premennch) bez podstatnej straty informcie

K rieeniu tohto problmu boli vytvoren dve metdy:

Analza hlavnch komponentov Principal Components Analysis PCA

Faktorov analza Factor Analysis - FA

PCA a FA patria do metd analzy skrytch vzahov a metd znenia dimenzie

Analza hlavnch komponentovOkruhy, ktorm budeme venova pozornos:Matematick a geometrick vyjadrenie hlavnch komponentovHlavn komponentyInterpretcia hlavnch komponentovIlustratvne prklady v SAS EGPCA = metda analzy skrytch vzahov:premenn nemono logicky rozdeli do dvoch skupn na zvisl a nezvislcieom je pochopi alebo identifikova preo a ako s premenn navzjom prepojen, t.j. ako sa navzjom ovplyvujak s premenn navzjom prepojen korelovan, mono rovnak objem informci vystihnmenm potom premennch znenie dimenzieMetdy vychdzaj z analzy kovarianej resp. korelanej matice pvodnch premennch a pokaj sa njs skryt nemeraten- latentn premenn = premenn sa nedaj mera, ale maj schopnos vecnej interpretcie. Analza hlavnch komponentovPCA vyuitie v praxiFinann analytik - zistenie finannho zdravia firmy. Na zklade vekho potu ukazovateov znakov (napr. 120) je nkladn, nron a ako interpretovaten hodnotenie finannho zdravia podniku. loha analytika: vytvorenie menieho potu ukazovateov (3, viac), resp. indexov, ktor s linernymi kombinciami pvodnch 120 ukazovateovMarketingov manar vytvorenie regresnho modelu pre predpove predaja problm multikolinearity zvolench premennch (skreslenie smerod. odchlok a nestabilita modelu). Snaha o vytvorenie novch premennch, ktor s linernymi kombinciami pvodnch premennch, ale u nie s korelovan . Pre regresn model bud pouit nov premenn Kontrola kvality snaha vytvori z dostupnch ukazovateov nov zloen ukazovatele (indexy ) o procese vroby vyuitie pri kontrole kvality

Analza hlavnch komponentovCharakteristikapredmetom analzy je skupina kvantitatvnych premennch je metda, ktor umouje vytvra nov premenn, ktor s linernou kombinciou pvodnch premennchnov premenn sa nazvaj hlavn komponenty (HK)CieIdentifikcia odahlch pozorovan, resp. vplyvnch pozorovan (outliers)Znenie dimenzie (premennch) viacrozmernej analzyOdstrnenie zvislosti medzi premennmi, nsledn pouitie HK v zhlukovej analze, resp. pri tvorbe regresnch modelov na odstrnenie multikolinearity

Analza hlavnch komponentovKad tatistick jednotka je charakterizovan viacermi ukazovatemi (premenn, znaky), predstavuje body v p-rozmernom priestore (p=poet sledovanch premennch)Kad z pvodnch premennch m v sbore nejak variabilitu, meran rozptylom. Rozptyl je nositeom informcie. Pozn. Ak premenn nem pre dan pozorovania iadnu variabilitu, vetky pozorovania maj rovnak hodnotu. Nememe na zklade tejto premennej pozorovania odli a teda nm nedva iadnu informciu ich charaktere.Celkov objem informcie zskame stom rozptylov jednotlivch premennchMatematick a geometrick vyjadrenie HKPCA je ordinlna metda, ktor umouje redukova poet dimenzi v euklidovskom priestore (definovanom korelovanmi premennmi ) tak, aby nedolo k strate informciPvodnch p vzjomne korelovanch (pozorovanch) premennch je nahradench novmi q vzjomne nekorelovanmi, nemeratenmi syntetickmi premennmi tak, e prv nov sradnicov os (prv HK) je veden v smere maximlnej variability medzi objektmi. Druh os je (druh HK) je kolm na prv os a je veden v smere druhej najvej variability medzi objektmi, at . Relatvna pozcia objektov v pvodnom priestore a v novom priestore (danom HK) je rovnak, tzn. pvodn sradnicov systm sa nata do smeru max. variability medzi objektmi, priom euklidovsk vzdialenosti medzi objektmi sa zachovvaj.Matematick a geometrick vyjadrenie HKV grafickej prezentcii: Uvaujeme, e kad objekt je meran len dvomi ukazovatemi (x1, x2). Pvodn sradnicov systm posvame do novho systmu v smere najvej variability. Sradnice bodu A vzhadom na nov osi s linernou kombinciou sradnc vzhadom na pvodn osi.Matematick a geometrick vyjadrenie HKX1X2A11Cie PCA: njdenie skutonho (novho) rozmeru, v ktorom sa daje nachdzaj. Pre splnenie tejto lohy je vhodn uri nov sradnicov osi tak, aby platili podmienky V1 a V5V1 Vzjomn poloha bodov v p-rozmernom priestore (pozorovan) sa nemen . Nov osi predstavuj nov umel premenn - hlavn komponenty, HK. Nov hodnoty premennch na tatistickch jednotkch (pozorovaniach) nazvame komponentov body. V2 Kad z novch premennch je linernou kombinciou pvodnch p-premennchV3 Nov premenn HK, ktorch poet je max. p, s navzjom nekorelovan. V4 Prv HK vysvetuje najviu as variability dajov, preto je najdleitej. Mysl sa tm najviu as zo stu rozptylov vetkch p pvodnch premennch. V5 Kad al HK vysvetuje o najviu as zo zostvajcej variability dajov tak, e na posledn komponent ostane u len nepatrn zvyok.Hlavn komponentyPredpokladajme, e sbor pvodnch p premennch X1, X2, ..., Xp transformujeme na nov premenn Y1, Y2, ...,Yp hlavn komponenty tak, e s linernou kombinciou pvodnch premennch.X3X4X6X5X1X212345nXppremennY3YqY1Y2hlavn komponentyPCAp qY1 = a11 x1 + a12 x2 + a13 x3 + . + a1p xpY2 = a21 x1 + a22 x2 + a23 x3 + . + a2p xp...Hlavn komponentyHlavn komponenty s linernou kombinciou pvodnch premennch Y1 = a11 x1 + a12 x2 + a13 x3 + . + a1p xpY2 = a21 x1 + a22 x2 + a23 x3 + . + a2p xpY3 = a31 x1 + a32 x2 + a33 x3 + . + a3p xpYp = ap1 x1 + ap2 x2 + ap3 x3 + . + app xp.Hlavn komponentykoeficienty aij , saturcie, vhyHlavn komponenty Yimaximlne mono vytvori rovnak poet HK ako pvodnch premennch,kad HK je linernou kombinciou pvodnch premennch,nov premenn s navzjom nekorelovan (nezvisl)Hlavn komponentyKoeficienty aij , vhy, saturcie s odhadovan tak, e:s splnen podmienky V1 a V5. celkov variabilita sa nezmen , t.j. rozptyl novch a pvodnch premennch sa rovn 1, t.j. aij2 = 1 ai12 + ai22 + ..+ aip2 = 1, pre kad i=1, 2,...pnov premenn boli navzjom nezvisl, o zabezpeuje vzah ai1aj1 + ai2aj2 + . + aipajp = 0 pre i j a i, j =1,2,...,pHlavn komponentyHlavn komponentyPred odhadom je potrebn rozhodn z akch dajov sa bude vychdza. ak maj rovnak mern jednotku vychdzame z kovarianej matice. Je to vhodnejie, pretoe k-ty HK je tak linerna kombincia premennch, ktor vysvetuje k-tu najviu as celkovho rozptylu. Maximalizcia tohto rozptylu pri normovanch premennch m umel charakter. ak maj rzne mern jednotky vychdzame z korelanej maticeje potrebn bra do vahy normovan (tandardizovan) hodnoty, aby sme ich previedli na spolon zklad.

PCA - prava dajovRozliujeme nasledovn typy PCA poda toho, z oho vychdzame pri vpote.Centrovan PCA vychdzame z kovariannej matice. Zaiaton bod novej sradnicovej sstavy je posunut z pvodnho bodu do centroidu objektov (centroid = hypotetick objekt, kt. predstavuje priemern objekt. Vzdialenosti medzi objektami s rovnak v novom aj v pvodnom systme.tandardizovan PCA vychdzame z korelanej matice. Zaiaton bod novej sradnicovej sstavy je posunut z pvodnho bodu do centroidu objektov a sasne s pvodn hodnoty normovan (ich rozptyl = 1)Necentrovan PCA vychdzame z pvodnch premennch. Zaiaton bod novho systmu je v tom istom bode ako bol v pvodnom systme.

Analza hlavnch komponentovLen niekoko prvch HK sta vysvetli celkov rozptyl pvodnch dajov.Existuje niekoko pravidiel na urenie optimlneho potu HK:Poda vlastnej vahy o potrebe zachovania informci (vlastn sla, ktor vysvetuj napr. 90% variability)Kaiserovo pravidlo: poui tie HK, ktorch vlastn slo je vie ako priemer vetkch vlastnch sel. Pri normovanch dajoch sa priemer=1, t.j. berieme tie HK, ktorch eigenvalue > 1.Poui HK, ktor spolu vysvetuj aspo 70% celkovho rozptylu Vychdza z grafickho zobrazenia, z tzv. Scree Plot grafu njs zlom v tomto grafe a do vahy bra HK po tento zlom.Andersonove pravidlo (test sfrinosti): test hypotzy: len prvch q vlastnch sel je urench jednoznane, ostatn s rovnak. H0 : q+1= q+2= . = p = 0H1 : neplat H0zaneme q=0 => ak plat H1 => HK1 je tat. vznamn. Pokraujeme, km sa nepotvrd H0. Testovacie kritrium m ch- kvadrt rozdelenie(SAS tento test neposkytuje).

Urenie potu HK

Scree Plot grafKomponentov skre (component scores)- predstavuje sradnice objektu v novom priestore definovanom HK. Jeho hodnotu pre j-t tat. jednotku (j=1,2,...,n) v i-tom komponente vypotame poda: yij= aij(xj xpr)(aij = vij)Vlastn vektory kosnusy (eigenvectors) - vyjadruj smer vektorov, ktor charakterizuj vplyv pvodnch znakov na komponenty. sla vlastnch vektorov = komponentov vhy (saturcie) jednotlivch premennch pri tvorbe prslunho komponentu. m je hodnota aij vyia, tm viac informcie o pvodnej premennej Xj vysvetuje komponent Yi . Dleit je zisti vetky premenn s vysokmi vhami pre dan komponent. Komponent sa potom sname vhodne interpretova. Vmame si vysok vhy, t.j. I(aij )I>0,5. Vlastn sla h (eigenvalue) - vyjadruj mieru variability, ktor je zachyten prslunm komponentom. Z hadiska interpretcie nie s dleit ich konkrtne hodnoty, ale vyjadrenie ich podielu na celkovom rozptyle.

Interpretcia vsledovKoeficienty korelcie premennch s komponentami- koeficient korelcie vyjadruje nakoko dan pvodn Xi ovplyvuje nov HK Yim je koeficient vy, o to viac vplva pvodn premenn na nov HKOrdinan grafy objektov (pozorovan) - zobrazuj tatistick jednotky objekty v sradnicovom systme pvodnch premennchOrdinan grafy znakov (premennch) - zobrazuj pvodn premenn v novom sradnicovom systme HK. Vplyv hodnotme na zklade porovnania vektorov jednotlivch znakov, t.j. m je vektor dlh, tm je psobenie znaku silnejie a m je uhol medzi vektorom a prslunou komponentovou osou men, tm je vplyv znaku silnej na dan komponent.Biploty zobrazuj pozorovania aj znaky ma jednom grafe, ktorho sradnicov osi tvoria zvolen komponenty. Slia tak na lepiu interpretciu podielu pvodnch znakov na komponenty. Detekcia odahlch pozorovan - na zklade zobrazenia pozorovan na priemete hlavnho komponentu.

Interpretcia vsledov22

K dispozcii daje o 93 (n=93) modeloch ut rznych znaiek:

Skman parametre jednotlivch automobilov:Engine SizeObjem motoraHorsepowerVkon motoraFueltankObjem ndrePassengersPoet miest v auteLenghDka autaWheelbaseRzvor npravWidthrka autaU Turn Space Vzdialenos potrebn pri otan autaRear seatPriestor na sedenie na zadnom sedadleLuggageObjem batoivnovho priestoruWeightHmotnos autaIlustratvny prklad v SAS EG

24loha: poste pomocou PCA, i je mon vyjadri rovnak objem informci menm potom premennch. Krok 1: Overi, i je mon redukova poet premennchExistencia multikolinearity pomocou korelanej matice

Ilustratvny prklad v SAS EG

25Krok 2: Redukova poet premennch pomocou PCASAS: Task/Multivariate/Principal Components ...

Ilustratvny prklad v SAS EG

26SAS: Zada analyzovan (pvodn) premenn zloka Data

Ilustratvny prklad v SAS EG

27SAS: zloka Analysis

Ilustratvny prklad v SAS EG

28SAS: zloka Plots

Ilustratvny prklad v SAS EG

29SAS: zloka Results

Ilustratvny prklad v SAS EG

30SAS: zloka Plots

Ilustratvny prklad v SAS EG

31SAS: Vstupy

Ilustratvny prklad v SAS EG

32SAS: Vstupy - Eigenvalues Vlastn sla

Ilustratvny prklad v SAS EG

33SAS: Vstupy - Eigenvectors Vlastn vektory - vetky

Ilustratvny prklad v SAS EG

34SAS: Vstupy - Eigenvectors Vlastn vektory len vznamn

PRN1: vhy s pribline rovnak PRN2: vznamn: passengers, rear seat - pozitvne korelovan luggage horsepower negatvne korelovan

Ilustratvny prklad v SAS EG

35SAS: grafick vstup1: SCREE PLOT

Ilustratvny prklad v SAS EG

36SAS: grafick vstup2: Matica komponentovho skre

Ilustratvny prklad v SAS EG

37SAS: grafick vstup3: Vlastn vektory

Ilustratvny prklad v SAS EG

38SAS: grafick vstup4: Komponentov skre

Ilustratvny prklad v SAS EG

39SAS: grafick vstup5: Vlastn vektory

Ilustratvny prklad v SAS EG

40SAS: Vstup1

Ilustratvny prklad v SAS EG

41SAS: Vstup2

Ilustratvny prklad v SAS EG

42Sheet1Nezvisl premenn (premenn)Zvisl premenn (premenn)Poet premennchTyp dajovJednaViac ako jednaKvantitatvneKvalitatvneKvantitatvnaKvalitatvnaKvantitatvnaKvalitatvnaDveJednoduch korelciaAnalza dvojrozmernch kontingennch tabuliekJednaKvantitatvnaRegresn analzaLogistick regresiaKanonick korelan analzaViacskupinov diskriminan analzaDiskriminan analzaLoglinerne modelyKvalitatvnat-testDiskrtna diskriminan analzaMANOVADiskrtna viacskupinov diskriminan analzaViac ako dveAnalza hlavnch komponentovAnalza viacrozmernch kontingennch tabuliekViac ako jednaKvantitatvnaViacnsobn regresn analzaLogistick regresiaKanonick korelan analzaViacskupinov diskriminan analzaDiskriminan analzaLoglinerne modelyFaktorov analzaKvalitatvnaDiskrtna diskriminan analzaMANOVADiskrtna viacskupinov diskriminan analzaKorepondenn analzaANOVAConjoint analza

Sheet2

Sheet3