Upload
giulio
View
78
Download
1
Embed Size (px)
DESCRIPTION
Korelacijske metode psihologija (1.st.) – 2. letnik 2011/12 7. predavanje: analiza glavnih komponent ( principal component analysis ) Preberite: Sočan, G. (2004). Postopki klasične testne teorije . Ljubljana: FF UL. ( poglavje 5 in dodatek B). Namen: - PowerPoint PPT Presentation
Citation preview
Korelacijske metode
psihologija (1.st.) – 2. letnik
2011/12
7. predavanje:analiza glavnih komponent (principal component analysis)
Preberite: Sočan, G. (2004). Postopki klasične testne teorije. Ljubljana: FF UL.
(poglavje 5 in dodatek B)
Namen:večje število spremenljivk nadomestimo z manjšim številom njihovih obteženih vsot (komponent).Zmanjšanje kompleksnosti + struktura odnosovKomponentni “model”:Kk = b1kX1 + b2kX2 + … + bnkXn oz. K = XB(Lahko tudi standardizirane spremenljivke -> K = ZB)Xi = ai1K1 + ai2K2 + … aikKk oz. X = KA´
Primeri uporab:• izračun skupnega dosežka,• grupiranje testnih postavk,• združevanje koreliranih napovednikov pri regresiji,• ortogonalizacija spremenljivk...
PCA izdela k nekoreliranih obteženih vsot n spremenljivk, ki pojasnijo največji možni delež celotne variance teh spremenljivk (tj.
• komponente so obtežene vsote (prim. z regresijo);• zmanjšanje kompleksnosti: 1 k n; • optimalni povzetki (maksimizacija pojasnjene
variance);• optimalnost velja pri vsakem k;• nekoreliranost komponent.
Želja: visok %Var z majhnim k…Merska lestvica komponent arbitrarna (npr. z).
01
2
kijk KK
n
jXK rr .max
-2,00
-1,00
0,00
1,00
2,00
-2 -1 0 1 2
izpit
vaje
M
K2
K1
a d
Grafični prikaz za dve spremenljivkiK1∝ izpit+vajeK2∝ izpit-vaje d = vsota kvadriranih
razdalj posameznih točk od premice
a = varianca projekcij teh točk na to premico (te projekcije so nestand.
vrednosti K1)
K1:Min. Var (d)Max. Var (a)
Glavna os
regresijska premica!
Vhodni podatki
Korelacijska oz. kovariančna matrika ( ali želimo, da variabilnost vpliva na rezultate?)
Korelacije med spremenljivkami ne smejo biti prenizke!
Intervalne spremenljivke (izračun r oz. Cov smiseln).
Velikost vzorca? Odvisno od namena analize in pojasnjevalne moči komponent… PCA je predvsem opisovalna analiza (vezana na vzorec).
Primer: 9 testov sposobnosti.Rezultate želimo povzeti z 2 komponentama.
Ang. Arit. Arit.pr. Raven NV1 NV2 Prost.2 Prost.3
Verb. 0,79 0,72 0,76 0,64 0,59 0,68 0,67 0,40 Ang. 0,73 0,72 0,51 0,46 0,57 0,55 0,30 Arit 0,76 0,34 0,33 0,41 0,38 0,20 Arit.pr. 0,48 0,49 0,55 0,62 0,35 Raven 0,51 0,73 0,62 0,41 NV1 0,60 0,63 0,39 NV2 0,63 0,47 Prost.2 0,62 Verb.: verbalna inteligentnost; Ang.: angleščina (materni jezik); Arit.: preprosta aritmetika; Arit.pr.: aritmetika-problemske naloge; Raven: progresivne matrice; NV1 in NV2: neverbalna testa inteligentnosti; Prost.2 in Prost.3: testa prostorske sposobnosti v dveh oz. treh dimenzijah
Vhodni podatki: korelacije (arbitrarne merske lestvice testov).
Glavni rezultati:
1. matrika uteži A (loadings, “nasičenosti”): stand. uteži so korelacije med spremenljivkami in komponentami; interpretacija komponent
2. matrika koeficientov komponentnih dosežkov B – uteži za izračun vrednosti komponent definicija komponent
Vrednosti ai povezane z rij
Interpretacija A gl. na vzorec korelacij.V posameznem stolpcu A oz. B lahko zamenjamo vse predznake (obrnjena interpretacija!)
K1 ~ mera splošne inteligentnostiK2 ~ mera razlike med besedno in nebesedno sposobnostjo
Com ponent Matr ixa
.909 -.190
.820 -.362
.709 -.600
.833 -.331
.756 .283
.716 .272
.811 .248
.817 .319
.570 .526
VE RBANGARITARTIPRRAVENNV 1NV 2PROST2PROST3
1 2Component
Extraction Method: P rincipal Component A nalysis.2 components extracted.a.
Matrika uteži za naš primer:
Pojasnjena varianca spremenljivk: diag(AA)
Reproducirane korelacije: AA (razen diagonale)
Skupna pojasnjena varianca za komponento i (lastna vrednost, i): AA
K1 K2VERB ,909 -,190ANG ,820 -,362ARIT ,709 -,600ARITPR ,833 -,331RAVEN ,756 ,283NV1 ,716 ,272NV2 ,811 ,248PROST2 ,817 ,319PROST3 ,570 ,526 5.432 1.231Var(k) 60.358 13.677
pVar .863 .804 .863 .803 .652 .587 .720 .770 .601
1 = 0,9092 + 0,8202 + 0,7092 + … + 0,5702 = 5,432
Var(K1) = 1/n = 5,432/9 × 100= 60,4%
Primeri:
pVar(VERB) = 0,9092 + (-0,190)2 = 0,863
80,0)600,0()362,0(709,0820,0ˆ , ARITANGr
Koeficienti komponentnih dosežkov: B = AL-1 (pri nerotiranih komp.!)L = diagonalna matrika lastnih vrednosti)
npr. bverb,1 = 0,909/5,432 = 0,167K1 K2
VERB ,909 -,190ANG ,820 -,362ARIT ,709 -,600ARTIPR ,833 -,331RAVEN ,756 ,283NV1 ,716 ,272NV2 ,811 ,248PROST2 ,817 ,319PROST3 ,570 ,526
B1 B2,167 -,154,151 -,294,131 -,487,153 -,269,139 ,230,132 ,221,149 ,201,150 ,259,105 ,427
Izračun komponentnih dosežkov:K1 = z(VERB)0,167 + z(ANG)0,151 + … + z(PROST3)0,105
Koliko komponent uporabiti (= to extract, “izločiti”)?
Ni “resničnega” števila komponent: parsimoničnost vs. izčrpnost opisa podatkov!
• enodimenzionalen test: k = 1;• ortogonalizacija spremenljivk: k = n;
sicer: • “graf drobirja” (scree-plot);• % pojasnjene variance;• interpretacija in uporabnost!
Scree Plot
Component Number
987654321
Eige
nval
ue6
5
4
3
2
1
0
k = 2
k = 4
Rotacija komponent:
• izboljšanje interpretabilnosti;• enakomernejša porazdelitev pojasnjene variance po
komponentah.
Ponovno zavrtimo prostor, ki ga opisujejo samo obdržane komponente.
Odstotki pojasnjene variance spremenljivk in skupna pojasnjena varianca se ne spremenijo!
Grafična rotacija:na sliki nasičenosti izberemo najboljši kot rotacije.
Rotiramo pare komponent (pretvorbena matrika T):
1.0.50.0-.5-1.0
1.0
.5
0.0
-.5
-1.0
d = 1,1
21
1cosd
cossinsincos
T
Kot rotacije:
Uteži po rotaciji(novo strukturno matriko Dobimo tako, da prvotno Pomnožimo s pretvorbeno):Ar = AT
Korelacije med starimi (v vrsticah) in novimi (v stolpcih) komponentami:
47673,01,11
1cos2
67,074,074,067,0
T
K1r K2 r
VERB 0,75 0,54ANG 0,82 0,36ARIT 0,92 0,12ARTIPR 0,81 0,39RAVEN 0,30 0,75NV1 0,28 0,71NV2 0,36 0,77PROST2 0,31 0,82PROST3 -0,01 0,78
Analitične rotacije: uporabimo objektiven kriterij.
Pravokotne rotacije ohranijo nekorelirane komponente.“Standard”: Varimax (poenostavi interpretacijo komponent).
Component Plot in Rotated Space
Component 1
1.0.50.0-.5-1.0
Com
pone
nt 2
1.0
.5
0.0
-.5
-1.0
prost3
prost2nv2
nv1raven
artiprarit
angverb
Com ponent Tr ansfor m ation Matr ix
.711 .704
.704 -.711
Component12
1 2
E xtraction Method: P rincipal Component A nalysis. Rotation Method: Varimax with K aiser Normalization.
Poševnokotne rotacije komponent:
• komponente po rotaciji korelirane;• skupaj pojasnijo enako variance kot pravokotne;• preprostejša interpretacija kot pri pravokotnih.
1.0.50.0-.5-1.0
1.0
.5
0.0
-.5
-1.0
prost3
prost2nv2
nv1raven
artiprarit
angverb
Še o poševnokotnih rotacijah…
Namesto matrike komponentnih uteži A imamo:• matriko regresijskih koeficientov za napovedovanje
spremenljivk na osnovi komponent (pattern, P) in• matriko korelacij med spremenljivkami in
komponentami (strukturna matrika, S), poleg tega pa še
• matriko korelacij med komponentami () .
• drugačno računanje pojasnjenih varianc: R SP´= PP´;
• % pojasnjene variance po komponentah se ne seštevajo!
Varimax:r12 = 0
Oblimin:r12 = 0,50
Varimax(pravokotna)
Oblimin(poševna)
K1 K2 K1 K2VERB 0,51 0,78 0,70 0,88ANG 0,33 0,84 0,54 0,89ARIT 0,08 0,93 0,33 0,92ARTIPR 0,36 0,82 0,57 0,88RAVEN 0,74 0,33 0,80 0,50NV1 0,70 0,31 0,76 0,47NV2 0,75 0,40 0,83 0,57PROST2 0,81 0,35 0,87 0,53PROST3 0,78 0,03 0,75 0,22Poj.Var. 37,3% 36,8% 49,5% 47,8%
Primerjava strukturnih matrik po rotaciji:
Koef. komponentnih dosežkov po rotaciji: Br = BT.Korelacije med komponentnimi dosežki so enake korelacijam med komponentami.
Com ponent S cor e Coefficient Matr ix
.010 .227-.100 .315-.250 .438-.080 .299.261 -.065.249 -.064.248 -.038.290 -.079.375 -.230
V E RBA NGA RITA RTIP RRAV E NNV 1NV 2P ROS T2P ROS T3
1 2Component
E xtraction Method: P rincipal Component A nalysis. Rotation Method: Varimax with K aiser Normalization.
Malo za šalo, malo zares: struktura lastnosti piva
Znamke kot osebe!Nerotirani komponenti iz kovariančne matrike, %Var = 73% + 22%“Osebe” in spremenljivke opišemo z istimi komponentami!