30
Analýza hlavných komponentov (PCA – Principal Component Analysis)

Analýza hlavných komponentov

  • Upload
    hastin

  • View
    118

  • Download
    0

Embed Size (px)

DESCRIPTION

Analýza hlavných komponentov. (PCA – Principal Component Analysis ). X 1. X 2. X 3. X 4. X 5. X 6. X 7. X 8. X 9. X 10. X 11. X p. 1. 2. 3. 4. 5. n. Viacrozmerné metódy. n > p. Metódy analýzy skrytých vzťahov. Často v praxi vzniká problém : - PowerPoint PPT Presentation

Citation preview

Analýza hlavných komponentov

(PCA – Principal Component Analysis)

Viacrozmerné metódy

X3 X10X7X4 X8 X9X6X5 X11X1 X2

1

2

3

4

5

n

Xp

n > p

Metódy analýzy skrytých vzťahov

Kvantitatívne Kvalitatívne

Analýza viacrozmerných kontingenčných tabuliek

Loglineárne modely

Korešpondenčná analýza

Počet premenných

Loglineárne modely

Viac ako dve

Analýza hlavných komponentov

Typ údajov

Jednoduchá korelácia

Faktorová analýza

Analýza dvojrozmerných kontingenčných tabuliek

Dve

Často v praxi vzniká problém:začiatočný počet premenných, popisujúcich objekty (pozorovania) je vysoký a naviac premenné sú vzájomne korelované (problém multikolinearity) .

zjednodušením môže byť vytvorenie menšieho počtu znakov (premenných) bez podstatnej straty informácie

K riešeniu tohto problému boli vytvorené dve metódy:

• Analýza hlavných komponentov – Principal Components Analysis – PCS

• Faktorová analýza – Factor Analysis - FA

PCA a FA patria do metód analýzy skrytých vzťahov a metód zníženia dimenzie

Metódy analýzy skrytých vzťahov

• premenné nemožno logicky rozdeliť do dvoch skupín na závislé a nezávislé

• cieľom je pochopiť alebo identifikovať prečo a ako sú premenné navzájom korelované t.j. ako sa navzájom ovplyvňujú

• ak sú premenné navzájom prepojené – korelované, možno rovnaký objem informácií vystihnúťmenším počtom premenných – zníženie dimenzie

• Obe metódy vychádzajú z analýzy kovariačnej resp, korelačnej matice pôvodných premenných a pokúšajú sa nájsť skryté – nemerateľné- latentné prememnné. Tieto premenné sa nedajú merať, ale majú schopnosť vecnej interpretácie.

Analýza hlavných komponentov, PCAAplikácie PCA

Finančný analytik - zistenie finančného zdravia firmy. Na základe veľkého počtu ukazovateľov znakov(napr. 120), ktoré sú použiteľné a medzi ktorými je korelácia je nákladné, náročné a ťažko interpretovateľné hodnotenie finančného zdravia podniku).

Úloha analytika: vytvorenie menšieho počtu ukazovateľov (3, viac), resp. indexov, ktoré sú lineárnymi kombináciami pôvodných 120 ukazovateľov (napr. DIJA)

Marketingový manažér – vytvorenie regresného modelu pre predpoveď predaja – problém multikolinearity zvolených premenných (skreslenie štd. odchýlok). ...snaha o vytvorenie nových premenných , ktoré sú lineárnymi kombináciami pôvodných premenných , ale už nebudú korelované . Pre regresný model bud použité nové premenné

Kontrola kvality – snaha vytvoriť z dostupných ukazovateľov nové zložené ukazovatele (indexy ) o procese výroby – využitie pri kontrole kvality

Analýza hlavných komponentov

• Charakteristika

• predmetom analýzy je skupina kvantitatívnych premenných

• je metóda, ktorá umožňuje vytvárať nové premenné, ktoré sú lineárnou kombináciou pôvodných premenných

• nové premenné sa nazývajú hlavné komponenty (HK)• Cieľ

• Identifikácia odľahlých pozorovaní, resp. vplyvných pozorovaní (outliers)

• Zníženie dimenzie (premenných) viacrozmernej analýzy

• Odstránenie závislosti medzi premennými, následné použitie HK v zhlukovej analýze, pri tvorbe regresných modelov na odstránenie multikolinearity

Matematické a geometrické vyjadrenie hlavných komponentov

X3 X10X7X4 X8 X9X6X5 X11X1 X2

1

2

3

4

5

n

XP

premenné

Analýza hlavných komponentov

• Každá štatistická jednotka je charakterizovaná viacerými ukazovateľmi (premenné, znaky), predstavuje body v p-rozmernom priestore

• Každá z pôvodných premenných má v súbore nejakú variabilitu, meranú rozptylom. Rozptyl je nositeľom informácie.

• Pozn. Ak premenná nemá pre dané pozorovania žiadnu variabilitu

• všetky pozorovania majú rovnakú hodnotu,

• nemôže na základe tejto premennej pozorovania odlíšiť a teda nám nedáva žiadnu informáciu o ich charaktere

• Celkový objem informácie získame súčtom rozptylov jednotlivých premenných

Analýza hlavných komponentov

• PCA je ordinálna metóda, ktorá umožňuje redukovať počet dimenzií v euklidovskom priestore (definovanom korelovanými premennými ) tak, aby nedošlo k strate informácií

• Pôvodných p vzájomne korelovaných (pozorovaných) premenných je nahradených novými q vzájomne nekorelovanými (ortogonálnymi) nemerateľnými „syntetickými“ premennými tak, že prvá nová súradnicová os (prvý HK) je vedená v smere maximálnej variability medzi objektmi (štatist. jednotkami). Druhá os (druhý HK) je kolmá na prvú os a je vedená v smere druhej najväčšej variability medzi objektmi, atď .

• Relatívna pozícia objektov v pôvodnom priestore a v novom priestore (danom HK) je rovnaká. T.zn. pôvodný súradnicový systém sa natáča do smeru max. variability medzi objektmi, pričom euklidovské vzdialenosti medzi objektmi sa zachovávajú.

PCA - hlavné komponenty v základnom súbore

Cieľ PCA: nájdenie skutočného (nového) rozmeru, v ktorom sa údaje nachádzajú. Pre splnenie tejto úlohy je výhodné určiť nové súradnicové osi tak, aby platili podmienky V1 až V5

• V1 Vzájomná poloha bodov v p-rozmernom priestore (pozorovaní) sa nemení . Nové osi predstavujú nové umelé premenné - hlavné komponenty, HK. Nové hodnoty premenných na štatistických jednotkách (pozorovaniach) nazývame komponentové body (komponentové skóre) .

• V2 Každá z nových premenných je lineárnou kombináciou pôvodných p-premenných

• V3 Nové premenné – HK, ktorých počet je max. p sú navzájom (po dvojociach) nekorelované.

• V4. Prvý HK vysvetľuje najväčšiu časť variability údajov, preto je najdôležitejší. Myslí sa tým naväčšiu časť zo súčtu rozptylov všetkých p pôvodných premenných.

• V5 Každý ďalší HK vysvetľuje čo najväčšiu časť zo zostávajúcej variability údajov tak, že na posledný komponent ostane len nepatrný zvyšok

PCApredpokladajme, že súbor pôvodných p – premenných X1, X2, ..., Xp transformujeme na nové premenné Y1, Y2, ...,Yp – hlavné komponenty

X3 X4 X6X5X1 X2

1

2

3

4

5

n

Xp

premenné

Y3 YqY1 Y2

hlavné komponenty

PCA

p q

Y1 = a11 x1 + a12 x2 + a13 x3 + …. + a1p xp

Y2 = a21 x1 + a22 x2 + a23 x3 + …. + a2p xp

...

Analýza hlavných komponentov

• Hlavné komponenty sú lineárnou kombináciou pôvodných premenných

Y1 = a11 x1 + a12 x2 + a13 x3 + …. + a1p xp

Y2 = a21 x1 + a22 x2 + a23 x3 + …. + a2p xp

Y3 = a31 x1 + a32 x2 + a33 x3 + …. + a3p xp

Yp = ap1 x1 + ap2 x2 + ap3 x3 + …. + app xp

….

hlavné komponenty

aij koeficienty saturácie, váhy

Hlavné komponenty Yi

•maximálne možno vytvoriť rovnaký počet HK ako pôvodných premenných,•každý HK je lineárnou kombináciou pôvodných premenných,•nové premenné sú navzájom nekorelované (nezávislé)

Analýza hlavných komponentov

HK sú odhadnuté tak, že

• 1. HK vystihuje maximálny objem informácií pôvodných premenných (max. podiel rozptylu)

• 2. HK vystihuje maximálny objem z informácií pôvodných premenných, ktoré neboli vystihnuté 1. HK

• 3. HK vystihuje maximálny objem z informácií pôvodných premenných, ktoré neboli vystihnuté 1. a 2. HK

• atď.

Analýza hlavných komponentov

Koeficienty, váhy HK, saturácie aij sú odhadované tak, že

• sú splnené podmienky V1 až V5.

• celková variabilita sa nezmení , t.j. rozptyl nových a pôvodných

premenných sa rovná 1, t.j.

aij2

= 1

ai12 + ai2

2 + ..+ aip2 = 1, pre každé i=1, 2,...p

(zabezpečuje, aby sa nezmenila variabilita HK oproti pôvodným premenným Xi)

• ai1aj1 + ai2aj2 + …. + aipajp = 0 pre i j

i, j =1,2,...,p

• (zabezpečuje nezávislosť nových premenných, čiže HK)

PCA – úprava údajov

Pred odhadom je potrebné rozhodnúť, z akých údajov sa bude vychádzať, upraviť pôvodné pňremenné:

ak majú rovnakú mernú jednotku

• je potrebné brať do úvahy centrované hodnoty, aby sme odstránili posun v strednej hodnote:

Kovariačná matica

ak majú rôzne merné jednotky

• je potrebné brať do úvahy normované (štandardizované) hodnoty, aby sme ich previedli na spoločný základ:

Väčšinou sa pracuje s korelačnou maticou

)( xxi

x

i

s

xx )(

Podľa vstupných údajov:

• Centrovaná PCA – vychádzame z kovariančnej matice, centrovanie znakov

• Štandardizovaná PCA – vychádzame z korelačnej matice, Centrovanie a preškálovanie premenných, normovanie premenných

• Necentrovaná PCA – vychádzame z pôvodných premenných.

Analýza hlavných komponentov

• vlastnosti hlavných komponentov• E(Yi)= 0• D(Yi) = i• D(Y1) D(Y2) D(Y3) …. D(Yp) = 1 2 3 ... p• cov (Yi,Yj) = 0 , pre i ≠ j

• odhad hlavných komponentov• | S - I | = 0, kde S je výberová kovariančná matica

výsledkom výpočtu sú vlastné čísla matice 1i,i=1, 2, ...p• vlastné čísla matice sú odhadom variability HK• D(Yh)=s2(Yh) = h

• | S - hI | Ah = 0

výsledkom sú saturácie pre h-tý HK, váhy aij pôvodných premenných Xj pri tvorbe i-tého komponentu.

Analýza hlavných komponentov

• podiel variability vysvetlený q-tým HK• celkový rozptyl (variabilita)

s2(Yh) = h

• podiel variability vysvetlený h-tým komponentom

h / h

PCA – určenie počtu HK

• aký počet komponentov uvažovať• podľa vlastnej úvahy

• o potrebe zachovania informácií (90%)• Kaiserovo kritérium

• ak h > priemer(),potom h-tý HK je štatisticky významný,

•kde priemer(pr.)

= (1/p) h

Analýza hlavných komponentov

• aký počet komponentov uvažovať

• Testom sféričnosti (Anderson).., že len prvých q HK je významných

• H0 : q+1= q+2= …. = p = 0

• H1 : neplatí H0

• začneme q=0 => ak platí H1 => HK1 je štat. významný

• pokračujeme, kým sa nepotvrdí H0

Testovacie krotérium V má CHÍ- kvadrát rozdelenie

Interpretácia výsledkov

• Komponentové skóre (component scores)- predstavuje súradnice objektu v novom priestore definovanom HK-ami. Jeho hodnotu pre j-tú štatist. jednotku (j=1,2,...,n) v i-tom komponente vypočítame podľa:

yij= aij(xJ –xpr.)

• Vlastné vektory – kosínusy (eigen vectors) - vyjadrujú smer vektorov, ktoré charakterizujú vplyv pôvodných znakov na komponenty. Čísla (prvky) vlastných vektorov predstavujú komponentové váhy (saturácie) jednotlivých premenných pri tvorbe príslušného komponentu. Čím je hodnota aij vyššia, tým viac

informácie o pôvodnej premennej Xj vysvetľuje komponent Yi . Dôležité je zistiť, všetky prememenné s vysokými váhami pre daný komponent. Komponent je potom tým javom (latentným znakom), ktorý stojí v pozadí premenných a snažíme sa ho vhodne interpretovať. Aká vysoká má byť váha? Obvykle sa ako vysoká váha považuje, ak

I(aij )I>0,5.

Table of Principal Components

Component Component

Row Label 1 2

1 Integra -1.49203 0.00673575

2 Legend 2.37408 -0.247278

3 90 0.165636 -0.261873

4 100 2.23212 1.01524

5 535i 1.52815 -2.15174

6 Century 0.723227 1.39817

7 LeSabre 3.46805 0.778351

8 Roadmaster 6.6603 0.133406

9 Riviera 2.24466 -1.07736

STATGRAPHICS

PCA – Komponentové skóre

Komponentové váhy - saturácieTable of Component Weights

Component Component

1 2

Engine Size 0.332726 -0.133891

Horsepower 0.268123 -0.442852

Fueltank 0.311244 -0.210124

Passengers 0.238683 0.530291

Length 0.335379 0.02122

Wheelbase 0.335386 .0610323

Width 0,324896 -0,134248

U Turn Space 0,299218 .0830471

Rear seat 0,231256 0,3351

Luggage 0,276494 0,322776

Weight 0,337017 0.206599

The weights

PCA - Interpretácia výsledkov

• Vlastné čísla h (eigenvalue) - vyjadrujú objem variability , ktorá je zachytená príslušným komponentom. Z hľadiska interpretácie nie sú dôležité konkrétne hodnoty , ale vyjadrenie ich podielu na celkovom rozptyle h / h

• Koeficienty korelácie - koeficient korelácie vyjadruje na koľko daná pôvodná Xi ovplyvňuje nový HK Yi

• čím je koeficient vyšší, o to viac vplýva pôvodnápremenná na nový HK

• možno interpretovať v zmysle nových premenných

r(xj, Yh)= ajh. h/sj

• Ordinačné grafy objektov (pozorovaní ) - zobrazujú štatistické jednotky –

objekty v súradnicovom systéme pôvodných premenných

Vlastné čísla

Principal Components Analysis

Component Percent of Cumulative

Number Eigenvalue Variance Percentage

1 7.92395 72.036 72.036

2 1.32354 12.032 84.068

3 0.47071 4.279 88.347

4 0.353248 3.211 91.559

5 0.269048 2.446 94.004

6 0.190242 1.729 95.734

7 0.172892 1.572 97.306

8 0.107148 0.974 98.280

9 0.0824071 0.749 99.029

10 0.0694689 0.632 99.660

11 0.0373497 0.340 00.00

Výstupy – scree plot

PCA – interpretácia výsledkov

• Ordinačné grafy znakov (premenných) zobrazujú pôvodné premenné v novom súradnicovom systéme HK. Vplyv znaku na HK sa interpretuje tak, , že sa porovnávajú vektory jednotlivých znakov (spájajú nulový bod súradnicovej sústavy s príslušným znakom). Čím je vektor dlhší, tým je pôsobenie znaku silnejšie a čím je uhol medzi vektorom a príslušnou komponentovou osou menší, tým je vplyv znaku silnejší na daný komponent.

• Biploty – zobrazujú pozorovania aj znaky ma jednom grafe, ktorého súradnicové osi tvoria zvolené komponenty. Umožňujú tak lepšiu interpretáciu podielu pôvodných znakov na komponenty.

• Detekcia odľahlých pozorovaní v údajoch je možná na základe zobrazenia pozorovaní na priemete hlavného komponentu

PCA –nauč sa:

úlohy metódy

podmienky použitia

Princíp metódy , jej podstata

Výsledky, interpretácia numerických a

grafických výstupov

aplikácie