56
ANALIZA GLAVNIH KOMPONENATA 1

ANALIZA GLAVNIH KOMPONENATA

  • Upload
    zasha

  • View
    121

  • Download
    3

Embed Size (px)

DESCRIPTION

ANALIZA GLAVNIH KOMPONENATA. Analiza glavnih komponenata bavi se tumačenjem strukture matrice varijanci i kovarijanci skupa izvornih varijabli pomoću malog broja njihovih linearnih kombinacija. Osnovni ciljevi analize su: Redukcija podataka Interpretacija. - PowerPoint PPT Presentation

Citation preview

Page 1: ANALIZA GLAVNIH KOMPONENATA

ANALIZA GLAVNIH KOMPONENATA

1

Page 2: ANALIZA GLAVNIH KOMPONENATA

• Analiza glavnih komponenata bavi se tumačenjem strukture matrice varijanci i kovarijanci skupa izvornih varijabli pomoću malog broja njihovih linearnih kombinacija.

• Osnovni ciljevi analize su:

• Redukcija podataka

• Interpretacija

2

Page 3: ANALIZA GLAVNIH KOMPONENATA

Premda je p ulaznih varijabli odabrano kako bi se opisala varijablnost cijelog sustava, često je velik dio tog varijabiliteta opisan malim brojem k glavnih komponenata (k<p) .

Ako je to ispunjeno, k glavnih komponenata sadrži jednaku količinu informacija kao p ulaznih varijabli.

3

Page 4: ANALIZA GLAVNIH KOMPONENATA

Stoga se početni skup podataka koji se sastoji od n mjerenja na p ulaznih varijabli može reducirati na skup od n mjerenja na k glavnih komponenata.

Analiza glavnih komponenata otkriva povezanost među varijablama i stoga dozvoljava interpretacije do kojih se inače bez ovako provedene analize ne bi došlo.

4

Page 5: ANALIZA GLAVNIH KOMPONENATA

• Analiza glavnih komponenata često služi kao međukorak za provođenje drugih metoda kao primjerice:

• regresijske

• klaster

• ili faktorske analize.

5

Page 6: ANALIZA GLAVNIH KOMPONENATA

Algebarski, glavne komponente su linearne kombinacije p slučajnih varijabli .

Geometrijski su te linearne kombinacije koordinatne osi novog koordinatnog sustava dobivenog rotacijom oko starog s glavnim komponentama kao koordinatnim osima.

6

Page 7: ANALIZA GLAVNIH KOMPONENATA

• Kao što će se vidjeti, glavne komponente reprezentiraju smjer maksimalnog varijabiliteta i omogućuju jednostavniji opis kovarijančne strukture.

• Također će se vidjeti da glavne komponente ovise samo o matrici varijanci i kovarijanci (odnosno o korelacijskoj matrici ) polaznih varijabli pXXX ,,, 21

7

Page 8: ANALIZA GLAVNIH KOMPONENATA

Neka slučajni vektor

ima matricu varijanci i kovarijanci sa svojstvenim vrijednostima (eigenvalues, latent roots):

pXXXX ,,, 21

021 p

8

Page 9: ANALIZA GLAVNIH KOMPONENATA

Promotrimo linearne kombinacije:

ppppppp

pp

pp

XaXaXaXaY

XaXaXaXaY

XaXaXaXaY

2211

222212122

121211111

(1.1)

9

Page 10: ANALIZA GLAVNIH KOMPONENATA

10

pppipp

jpjijj

pi

pi

21

21

222221

111211

Svojstvo varijance:

),(2)()()( 2122

2121 YXCovaaXVaraXVaraYaXaVar

Page 11: ANALIZA GLAVNIH KOMPONENATA

11

),(2)()()( 2122

2121 YXCovaaXVaraXVaraYaXaVar

aa

a

a

YVarYXCov

YXCovXVaraaYaXaVar

aa

2

12121 )(),(

),()()(

Page 12: ANALIZA GLAVNIH KOMPONENATA

Odatle je:

pkiaaYYCov

piaaYVar

kiki

iii

,,2,1,),(

,,2,1)(

(1.2)

12

Page 13: ANALIZA GLAVNIH KOMPONENATA

Glavne komponente su one linearne kombinacije pYYY ,,, 21

čije su varijance što je moguće veće.

Prva glavna komponenta je linearna kombinacija s najvećom varijancom.

13

Page 14: ANALIZA GLAVNIH KOMPONENATA

S obzirom da se varijanca

može povećati množenjem vektora konstantom, pažnja se ograničava na vektore koeficijenata duljine jedan.

111)( aaYVar

14

Page 15: ANALIZA GLAVNIH KOMPONENATA

Prva glavna komponenta = linearna kombinacija XaY 11

koja maksimizira

111)( aaYVar uz uvjet 111 aa

Druga glavna komponenta = linearna kombinacija XaY 22

koja maksimizira 222 )( aaYVar uz uvjet 122 aa i

0),( 21 XaXaCov

15

Page 16: ANALIZA GLAVNIH KOMPONENATA

.

.

.i-ta glavna komponenta = linearna kombinacija XaY ii

koja maksimizira iii aaYVar )( uz uvjet

1 iiaa i ikzaXaXaCov ki 0),(

16

Page 17: ANALIZA GLAVNIH KOMPONENATA

17

TEOREM 1

Neka je matrica varijanci i kovarijanci pridružena

slučajnom vektoru

pXXXX ,,, 21

Neka su parovi svojstvenih vrijednosti i svojstvenih vektora matrice :

),(,),,(),,( 2211 pp eee

Pri čemu vrijedi: p 21

Page 18: ANALIZA GLAVNIH KOMPONENATA

piXeXeXeXeY pipiiii ,,2,12211 (1.3)

Uz takav izbor

pieeYVar iiii ,,2,1)(

kizaeeCovYYCov kiki 0)(),( (1.4)

Ako su neke svojstvene vrijednosti međusobno jednake izbor odgovarajućih koeficijenata vektora ei, dakle i Yi nije jednoznačan.

18

Tada je i-ta glavna komponenta određena s:

Page 19: ANALIZA GLAVNIH KOMPONENATA

Dokaz:

10

max

aa

aa

a(dostignuto ako je )iea

No , jer su svojstveni vektori normalizirani.

111 ee

Odatle je:

)(max 11

1

111

11

11

1

11

111

0

YVareeeeee

ee

aa

aa

ea

19

Page 20: ANALIZA GLAVNIH KOMPONENATA

20

Page 21: ANALIZA GLAVNIH KOMPONENATA

0),( kik

e

kiki eeeeYYCovkk

Posljedica ovog teorema je da su glavne komponente nekorelirane i da su im varijance jednake svojstvenim vrijednostima matrice

.

21

Page 22: ANALIZA GLAVNIH KOMPONENATA

TEOREM 2

22

Page 23: ANALIZA GLAVNIH KOMPONENATA

DOKAZ:

23

Page 24: ANALIZA GLAVNIH KOMPONENATA

kao posljedica ovog rezultata proporcija ukupne varijance protumačene k-tom glavnom komponentom je:

Ako je velikii dio varijance (80%-90%) protumačen s jednom, dvije ili tri glavne komponente,tada te komponente mogu bez većeg gubitka informacija zamijeniti početnih p varijabli.

24

Page 25: ANALIZA GLAVNIH KOMPONENATA

25

Page 26: ANALIZA GLAVNIH KOMPONENATA

TEOREM 3

26

Page 27: ANALIZA GLAVNIH KOMPONENATA

DOKAZ:

27

Page 28: ANALIZA GLAVNIH KOMPONENATA

• Premda korelacije između ulaznih varijabli i glavnih komponenata često pomažu pri interpretaciji komponenata, one mjere samo univarijatni doprinos jedne varijable na komponentu .

• Koeficijenti linearne korelacije ne pokazuju važnost individualne varijable na u prisustvu drugih varijabli.

iY

iY

28

Page 29: ANALIZA GLAVNIH KOMPONENATA

29

Zbog toga statističari preporučuju da se pri interpretaciji komponenata koriste samo koeficijenti ike

No, iako koeficijenti i koeficijenti korelacije, kao mjere značajnosti varijabli vode do različitih rangiranja, u praksi varijable s relativno visokim koeficijentima (po apsolutnoj vrijednosti) imaju i relativno visoke korelacije.

ike

Stoga dvije mjere važnosti varijabli, od kojih je prva multivarijatna, a druga univarijatna daju često slične rezultate.

Page 30: ANALIZA GLAVNIH KOMPONENATA

Glavne komponente izračunate polazeći od standardiziranih

varijabli

30

Page 31: ANALIZA GLAVNIH KOMPONENATA

31

Page 32: ANALIZA GLAVNIH KOMPONENATA

32

Page 33: ANALIZA GLAVNIH KOMPONENATA

• Glavne komponente mogu se izvesti pomoću svojstvenih vektora korelacijske matrice od X.

• Svi se ranije izvedeni rezultati mogu primijeniti uz određena pojednostavljenja, s obzirom da su varijance standardiziranih varijabli jednake 1. Nastavit ćemo s oznakama za i-tu glavnu komponentu i za par i-te svojstvene vrijednosti i pridruženog i-tog svojstvenog vektora matrice ili matrice .

iY),( ii e

33

Page 34: ANALIZA GLAVNIH KOMPONENATA

TEOREM 4

34

Page 35: ANALIZA GLAVNIH KOMPONENATA

35

DOKAZ

Page 36: ANALIZA GLAVNIH KOMPONENATA

36

Page 37: ANALIZA GLAVNIH KOMPONENATA

Primjer 1.1

• Svojstvene vrijednosti korelacijske matrice za 5 mjerenja na 49 ženskih vrabaca

• Primjenom programskog paketa Statistica dobiveni su između ostalih slijedeći rezultati:

37

Page 38: ANALIZA GLAVNIH KOMPONENATA

38

Page 39: ANALIZA GLAVNIH KOMPONENATA

39

Eigenvalues of correlation matrix, and related statistics (PTICE) Active variables only

Eigenvalue% Total - variance

Cumulative - Eigenvalue

Cumulative - %

1 3,608862 72,17724 3,608862 72,1772

2 0,530993 10,61987 4,139855 82,7971

3 0,388756 7,77512 4,528612 90,5722

4 0,310764 6,21528 4,839375 96,7875

5 0,160625 3,21249 5,000000 100,0000

Svojstvene vrijednosti i pridruženi pokazatelji

Page 40: ANALIZA GLAVNIH KOMPONENATA

• Svojstvene vrijednosti su varijance glavnih komponenata. Zbroj svojstvenih vrijednosti iznosi 5. U drugom je stupcu izračunat postotak ukupne varijance objašnjen svakom glavnom komponentom, a u 4. je dan kumulativni niz postotaka iz drugog stupca. Tako je npr prvom glavnom komponentom objašnjeno 72.18% ukupne varijance, drugom 10.62%, odnosno s prve dvije glavne komponente protumačeno je 82.80% ukupne varijance.

40

Page 41: ANALIZA GLAVNIH KOMPONENATA

• Drugi način gledanja na relativnu važnost pojedinih komponenata je uspoređivanje njihovih varijanci s varijancama ulaznih standardiziranih varijabli (koje su jednake 1).

• Prva glavna komponenta ima varijancu 3.609 puta veću od varijance originalnih standardiziranih varijabli, druga ima varijancu samo 0.531 od varijance originalnih standardiziranih varijabli, a preostale glavne komponente objašnjavaju još manji dio varijacija. To potvrđuje važnost prve glavne komponente u odnosu na ostale.

41

Page 42: ANALIZA GLAVNIH KOMPONENATA

Svojstveni vektori korelacijske matrice

42

Eigenvectors of correlation matrix (PTICE) Active variables only

Factor 1 Factor 2 Factor 3 Factor 4 Factor 5

X1 -0,450380 -0,018718 -0,730426 0,347058 0,377936

X2 -0,461962 0,299784 -0,273386 -0,595008 -0,517635

X3 -0,452537 0,312784 0,390085 0,643980 -0,361248

X4 -0,470349 0,169774 0,465880 -0,329877 0,651219

X5 -0,397154 -0,884942 0,150092 -0,044577 -0,186097

Page 43: ANALIZA GLAVNIH KOMPONENATA

43

Page 44: ANALIZA GLAVNIH KOMPONENATA

• Vrijednosti glavnih komponenata mogu se koristiti za daljnje analize. One se računaju iz standardiziranih varijabli.

44

Page 45: ANALIZA GLAVNIH KOMPONENATA

U slijedećoj tabeli navedene su sredine (Means) i standardne devijacije (Std. Dev.) ulaznih varijabli:

45

Summary statistics (PTICE)

Mean Std. Dev.

X1 157,8980 3,709475

X2 241,3265 5,067822

X3 31,4592 0,794753

X4 18,4694 0,564286

X5 20,8265 0,991374

Page 46: ANALIZA GLAVNIH KOMPONENATA

Standardizirane vrijednosti mjerenja za prvog vrapca su:

-0.329370.001374

20.8265)-(20.5)(Z

0.05425564286.0

)4694.185.18()(Z

0.177182794753.0

)4592.316.31()(Z

0.724862067822.5

)3265.241245()(Z

-0.51165709475.3

)8980.157156()(

55

51515

44

41414

33

31313

22

21212

11

11111

X

X

X

X

XZ

46

Page 47: ANALIZA GLAVNIH KOMPONENATA

47

Page 48: ANALIZA GLAVNIH KOMPONENATA

48

Page 49: ANALIZA GLAVNIH KOMPONENATA

Vrijednosti (za prva četiri vrapca) su predočene u slijedećoj tabeli:

49

Factor coordinates of cases, based on correlations (PTICE) Labelling variable: NewVar

Factor 1 Factor 2 Factor 3 Factor 4 Factor 5

1 -0,07931 0,58298 0,22051 -0,497983 -0,535969

2 2,16325 0,44789 -0,33656 -0,679181 -0,207070

3 1,12565 -0,05314 0,71905 -0,623828 -0,192366

4 2,29093 -0,18266 0,24726 0,191980 -0,471100

Page 50: ANALIZA GLAVNIH KOMPONENATA

• Promatrane ptice pokupljene su nakon snažne oluje. Prvih 21 vrabaca se oporavilo i preživjelo, a ostalih 28 je uginulo. Pitanje, pokazuju li preživjeli i uginuli vrapci bilo kakve razlike. Sa stajališta analize glavnih komponenata može se promatrati dijagram rasipanja za 49 vrijednosti prve i druge glavne komponente.

50

Page 51: ANALIZA GLAVNIH KOMPONENATA

51

Page 52: ANALIZA GLAVNIH KOMPONENATA

• Na dijagramu rasipanja se jasno vidi da ptice s ekstremnim vrijednostima na prvoj (a jednako tako i na drugoj komponenti) nisu preživjele.

52

Page 53: ANALIZA GLAVNIH KOMPONENATA

Broj glavnih komponenata

• Uvijek se postavlja pitanje: Koliko glavnih komponenata treba zadržati?

• Ne postoji konačni odgovor na to pitanje. Pomoć pri donošenju odluke može pružiti scree-dijagram. To je dijagram koji dužinama povezuje točke u ravnini, čija je apscisa jednaka rednom broju svojstvene vrijednosti, a ordinata njenoj veličini. S obzirom da su svojstvene vrijednosti poredane u padajući niz, dobivena izlomljena linija je opadajuća. Smatra se da je broj glavnih komponenata koje ostaju određen točkom na pregibu iza koje su svojstvene vrijednosti male i koje se značajno ne razlikuju.

53

Page 54: ANALIZA GLAVNIH KOMPONENATA

E i g e n va lu e s o f co va ria n ce m a tri x

A cti ve va ri a b l e s o n l y

7 2 ,1 8 %

1 0 ,6 2 % 7 ,7 8 % 6 ,2 2 %

3 ,2 1 %

0 ,0 0 ,5 1 ,0 1 ,5 2 ,0 2 ,5 3 ,0 3 ,5 4 ,0 4 ,5 5 ,0 5 ,5 6 ,0

E i g e n va lu e n u m b e r

-0 ,5

0 ,0

0 ,5

1 ,0

1 ,5

2 ,0

2 ,5

3 ,0

3 ,5

4 ,0

Eig

en

valu

e

54

Page 55: ANALIZA GLAVNIH KOMPONENATA

• U promatranom primjeru pregib je za i=2. Svojstvene vrijednosti iza su male, te se mogu zadržati prve dvije glavne komponente.

• Prema Keiserovu kriteriju zadržavaju se samo glavne komponente čija je svojstvena vrijednost veća od 1.

55

Page 56: ANALIZA GLAVNIH KOMPONENATA

56

Upute:Statics→Multivariate Exploratory Techniques →Principal Components

1.Variable for analysis →OK Variables → Eigenvalues and correlation matrix

→ Eigenvectors of correlation matrix

Descriptives →Summary statistics

Cases → Factor coordinates of cases

→ Plot case factor coordinates D2

Variables → Scree plot