16
Statistică multivariată Lucrarea nr. 11 — Analiza în componente principale - SPSS A. Noţiuni teoretice Analiza factorială (analiza în componente principale este o metodă factorială) a apărut pentru a rezolva probleme din categoria următoare: reducerea complexităţii datelor (data reduction) – poate fi înlocuit un masiv de date de mari dimensiuni prin masive de dimensiuni mai mici? evidenţierea şi fixarea patternului asocierilor (corelaţiilor) dintre variabile. determinarea variabilelor latente (mai puţine) care se află în spatele variabilelor măsurate (mai multe) – problemă similară descoperirii celor care mănuiesc păpuşile într-un teatru de păpuşi; comportarea, varianţa variabilelor măsurate poate fi regăsită din varianţa unor variabile ascunse, care le determină prin asociere. Variabilele ascunse, latente, sunt denumite factori şi de aici denumirea metodelor analizei factoriale. Metoda a apărut la început în studii psihologice în care s-a încercat să se determine, evalueze, variabile precum inteligenţa. Cum se pot evalua atribute precum puterea de asimilare, de reacţie, de înţelegere etc., s-a presupus că multe dintre acestea sunt determinate de o variabilă latentă care poate fi inteligenţa. Formalizând cele spuse se consideră că există o mulţime de variabile X 1 , X 2 ,...,X p şi se doreşte determinarea unor variabile noi C 1 , C 2 ,...,C m , unde C i = w i1 X 1 + w i2 X 2 + ... + w ip X p , cu dorinţa ca m << p. Aceste variabile noi se numesc uzual factori sau componente. Este evidentă şi cerinţa inversării, deci posibilitatea de a regăsi variabilele X cu ajutorul componentelor, X i = a i1 C 1 + a i2 C 2 + ... + a im C m . Se observă astfel că prin intermediul componentelor se încearcă reducerea numărului de variabile (şi, după cum se va vedea, fără a pierde varianţa variabilelor iniţiale). Dacă se propune ca în noile componente, notate cu F de la factor, să se reţină doar ceea ce este comun variabilelor X, adică X i = a i1 F 1 + a i2 F 2 + ... + a im F m + E i , unde F 1 , F 2 ,..., F m sunt factorii comuni variabilelor X, iar E i reprezintă partea specifică a lui X i , analiza este cea propusă iniţial în psihologie (analiza în factori comuni şi specifici). Analiza factorială – metoda generală Metoda generală este prezentată pornind de la următoarea problemă matematică (deci adoptând limbajul din data reduction): Este posibil să reconstituim cele np valori x ij ale unui tablou X n×p pornind de la un număr mai mic de date? Răspunsul poate fi afirmativ: dacă X = u 1 v 1 ’, unde u n×1 şi v 1 p , atunci se poate reconstitui X din cele n+p valori ale lui u 1 şi v 1 . Se spune că X este de rang 1. În practică este foarte improbabilă o asemenea descompunere şi se va căuta o ajustare de rang q, de forma E v u v u v u X + + + + = ' ' 2 2 ' 1 1 q q L

Lucrarea nr. 11 — Analiza în componente principale - SPSS

  • Upload
    vongoc

  • View
    308

  • Download
    9

Embed Size (px)

Citation preview

Page 1: Lucrarea nr. 11 — Analiza în componente principale - SPSS

Statistică multivariată

Lucrarea nr. 11 — Analiza în componente principale - SPSS

A. Noţiuni teoretice Analiza factorială (analiza în componente principale este o metodă factorială)

a apărut pentru a rezolva probleme din categoria următoare: • reducerea complexităţii datelor (data reduction) – poate fi înlocuit un

masiv de date de mari dimensiuni prin masive de dimensiuni mai mici? • evidenţierea şi fixarea patternului asocierilor (corelaţiilor) dintre

variabile. • determinarea variabilelor latente (mai puţine) care se află în spatele

variabilelor măsurate (mai multe) – problemă similară descoperirii celor care mănuiesc păpuşile într-un teatru de păpuşi; comportarea, varianţa variabilelor măsurate poate fi regăsită din varianţa unor variabile ascunse, care le determină prin asociere.

Variabilele ascunse, latente, sunt denumite factori şi de aici denumirea metodelor analizei factoriale.

Metoda a apărut la început în studii psihologice în care s-a încercat să se determine, evalueze, variabile precum inteligenţa. Cum se pot evalua atribute precum puterea de asimilare, de reacţie, de înţelegere etc., s-a presupus că multe dintre acestea sunt determinate de o variabilă latentă care poate fi inteligenţa.

Formalizând cele spuse se consideră că există o mulţime de variabile X1, X2,...,Xp şi se doreşte determinarea unor variabile noi C1, C2,...,Cm, unde Ci = wi1X1 + wi2X2 + ... + wipXp, cu dorinţa ca m << p. Aceste variabile noi se numesc uzual factori sau componente. Este evidentă şi cerinţa inversării, deci posibilitatea de a regăsi variabilele X cu ajutorul componentelor, Xi = ai1C1 + ai2C2 + ... + aimCm.

Se observă astfel că prin intermediul componentelor se încearcă reducerea numărului de variabile (şi, după cum se va vedea, fără a pierde varianţa variabilelor iniţiale).

Dacă se propune ca în noile componente, notate cu F de la factor, să se reţină doar ceea ce este comun variabilelor X, adică Xi = ai1F1 + ai2F2 + ... + aimFm + Ei, unde F1, F2,..., Fm sunt factorii comuni variabilelor X, iar Ei reprezintă partea specifică a lui Xi, analiza este cea propusă iniţial în psihologie (analiza în factori comuni şi specifici).

Analiza factorială – metoda generală Metoda generală este prezentată pornind de la următoarea problemă

matematică (deci adoptând limbajul din data reduction): Este posibil să reconstituim cele np valori xij ale unui tablou Xn×p pornind de la un număr mai mic de date?

Răspunsul poate fi afirmativ: dacă X = u1v1’, unde un×1 şi v1�p, atunci se poate reconstitui X din cele n+p valori ale lui u1 şi v1. Se spune că X este de rang 1.

În practică este foarte improbabilă o asemenea descompunere şi se va căuta o ajustare de rang q, de forma

EvuvuvuX ++++= ''22

'11 qqL

Page 2: Lucrarea nr. 11 — Analiza în componente principale - SPSS

unde E este o matrice reziduală, cu termeni suficient de mici astfel încât cele np valori din X să fie reconstituite suficient de bine din cele q(n+p) valori ale vectorilor uα şi vα, α=1,…,q.

Problema se va rezolva cu ajutorul reprezentărilor geometrice. Tabloul X poate fi privit drept mulţimea coordonatelor pentru • n puncte în spaţiul cu p dimensiuni, R p (fiecare linie a tabloului este un

punct în acest spaţiu), sau • p puncte în spaţiul cu n dimensiuni, R n (fiecare coloană a tabloului este

un punct în acest spaţiu). Ambele spaţii, R p şi R n, se consideră dotate cu metrica euclidiană uzuală.

Ajustarea printr-un subspaţiu vectorial din R p

Ideea este aceea de a determina un subspaţiu vectorial de dimensiune q < p în care să fie conţinută X (matricea X este gândită ca mulţimea a n vectori – coloanele matricei). În acest caz, cele n puncte din X pot fi reconstituite plecând de la

• coordonatele pe noile q axe, adică nq valori, • componentele noilor axe în spaţiul iniţial, adică pq valori. Se utilizează astfel nq + pq valori. Să începem prin a căuta dreapta F1, trecând prin origine, care ajustează cel mai

bine, în sensul celor mai mici pătrate, norul de puncte.

Fie un vector unitar u de pe această dreaptă, deci u′u=1. Rezultă că fiecare linie din Xu este produsul scalar al punctului respectiv cu u

şi deci lungimea proiecţiei punctului pe F1. Prin urmare, minimizarea sumei distanţelor la F1 (criteriul celor mai mici pătrate) revine la maximizarea sumei proiecţiilor. Deci determinarea lui F1 conduce la maximizarea sumei pătratelor acestor proiecţii, adică se caută u care maximizează forma pătratică

(Xu)′(Xu)=u′X′Xu, cu restricţia u′u=1.

Page 3: Lucrarea nr. 11 — Analiza în componente principale - SPSS

Prin metoda multiplicatorului lui Lagrange, se consideră L = u′X′Xu - λ( u′u-1)

şi anularea derivatelor parţiale în raport cu u conduce la 2 X′Xu-2λu=0,

de unde X′Xu = λu

ceea ce arată că u este un vector propriu al matricei X′X. Atunci, u′X′Xu = λ u′u

şi, din restricţia impusă, rezultă u′X′Xu = λ, adică maximul căutat este egal cu o valoare proprie λ a matricei simetrice X′X.

Prin urmare, u este acel vector propriu u1 care corespunde celei mai mari valori proprii λ1.

În general, se arată că o bază ortonormată a subspaţiului vectorial cu q dimensiuni, care ajustează norul de puncte în sensul celor mai mici pătrate, este constituită din cei q vectori proprii care corespund celor mai mari q valori proprii ale matricei simetrice X’X. Notăm cu u1, u2,…, uq vectorii proprii şi λ1, λ2, …, λq valorile proprii corespunzătoare.

De remarcat că matricea X’X este simetrică şi semipozitiv definită, deci toate valorile proprii sunt reale nenegative, iar vectorii proprii sunt ortogonali.

Ajustarea printr-un subspaţiu vectorial din R n În R n, coloanele matricei Xn×p definesc un nor de p puncte. Raţionând analog

(pe matricea X′) se ajunge la: cel mai bun subspaţiu cu q dimensiuni este generat de vectorii proprii v1, v2,…, vq care corespund la valorile proprii (descrescătoare) µ1, µ2, …, µq ale matricei XX′.

Relaţia dintre cele două subspaţii din R p şi R n Din definiţia vectorului propriu vα, avem

XX′vα =µαvα

de unde, prin înmulţire la stânga cu X′, X′XX′ vα = µαX′vα

adică (X′X)(X′ vα) = µα(X′vα)

Deci fiecărui vector propriu vα a lui XX′ îi corespunde un vector propriu egal cu X′vα a matricei X′X iar µα este valoare proprie pentru X′X. Adică

{µα)⊆{λα} Analog se demonstrează şi incluziunea inversă şi se arată astfel identitatea

celor două mulţimi de valori proprii, µα = λα, α = 1,…,r,

unde r este rang(X), r ≤ min(p,n). Intre vectorii proprii există relaţiile (cu observaţia că egalitatea are loc până la

un factor) uα = kαX′vα

vα = k’αX′uα

unde kα şi k’α sunt constante necunoscute. Din u′αuα = v′αvα = 1 rezultă

Page 4: Lucrarea nr. 11 — Analiza în componente principale - SPSS

1u ''2' == ααααα vXXvu k Dar v′αXX′vα = λα = µα de unde

ααα λ

1' == kk

Intre vectorii proprii din cele două spaţii există astfel relaţiile (*)

αα

α λvXu ′=

1 , α

αα λ

Xuv 1=

Axa Fα, care poartă vectorul unitar uα, este numită a α-a axă factorială din R p. Analog pentru Gα în R n.

Coordonatele punctelor pe axa α din Rp (şi respectiv din Rn) sunt, prin construcţie, componentele lui Xuα (respectiv X′vα).

Relaţiile precedente arată proporţionalitatea care există între coordonatele punctelor pe o axă α dintr-un spaţiu şi componentele unitare (cosinuşii directori) ai axei α din celălalt spaţiu.

Reconstituirea tabloului X Din relaţia (*) se obţine

ααα λ vXu = , de unde ααααα λ uvuXu ′=′ şi sumând

∑∑==

′=′pp

uvuuX11 α

αααα

αα λ .

Cum ∑=

′p

uu1α

αα este produsul matricei ortogonale a vectorilor proprii cu

transpusa sa, adică este matricea unitate, se obţine reconstituirea tabloului iniţial prin

∑=

=p

uvX1

'

ααααλ

cu menţiunea că anumite valori proprii pot fi 0 (dar există vectorii proprii corespunzători).

O reconstituire aproximativă X* este obţinută prin limitarea la primele q axe factoriale (reamintim că valorile proprii au fost luate în ordine descrescătoare, deci λq+1, …, λp sunt valorile cele mai mici):

∑=

=≈q

uvXX1

'*

ααααλ .

Fiecare valoare proprie măsoară suma pătratelor distanţelor la origine ale proiecţiilor pe axa factorială respectivă. Prin urmare, reconstituirea va fi cu atât mai bună cu cât suma valorilor proprii reţinute va constitui o parte notabilă a sumei tuturor valorilor proprii. Calitatea globală a reconstituirii poate fi măsurată prin cantitatea

∑∑==

=pq

q11 α

αα

α λλτ

numită rata de inerţie (măsoară partea din varianţa norului explicată de subspaţiul cu q dimensiuni). Se poate verifica şi

∑∑=ji

ijji

ijq xx,

2

,

2*τ .

care oferă un suport intuitiv faptului că τ reflectă calitatea globală a reconstituirii.

Page 5: Lucrarea nr. 11 — Analiza în componente principale - SPSS

Analize particulare Atunci când nu este vorba strict de o aproximare numerică şi ne încadrăm în

analiza statistică, dispunem de informaţii suplimentare asupra naturii datelor. Considerarea acestor informaţii conduce la transformări prealabile ale datelor

iniţiale, astfel încât aplicarea metodei generale la datele transformate permite interpretări mai adecvate structurii datelor.

Se obţin astfel analize factoriale particulare, cele mai importante sunt enumerate în continuare:

• Analiza în componente principale, • Analiza în componente principale normate, • Analiza rangurilor, • Analiza corespondenţelor. Ideea de bază care stă la baza tuturor acestor analize este aceea că • un tabel de valori poate produce (prin liniile, respectiv coloanele sale)

reprezentări sub forma norilor de puncte în două spaţii, • ajustările punctelor din cele două spaţii sunt legate prin relaţii simple,

interpretabile.

Analiza în componente principale Iniţiată de Pearson (1901) şi dezvoltată de Hotelling (1933). Tabloul de plecare R este oarecare: rij semnifică, în mod uzual, a i-a observaţie

a unei variabile j. Variabilele pot fi eterogene în privinţa mediilor lor (de ex. unităţi de măsură diferite, ordine de mărime diferite etc.). Pentru a anula efectul eterogenităţii se efectuează transformarea

nrr

x jijij

*−= , unde ∑

=

=n

iijj r

nr

1*

1 este media variabilei a j-a.

Analiza generală se va aplica tabloului X astfel obţinut, matricea X’X este matricea de covarianţă a variabilelor iniţiale.

Analiza în componente principale normate Dacă variabilele sunt eterogene şi în dispersie, se vor norma valorile prin

nsrr

xj

jijij

*−= , unde sj este abaterea standard pentru a j-a variabilă.

Analiza generală se va aplica tabloului X, cu observaţia că că matricea X’X implicată în calcule este tocmai matricea de corelaţie a variabilelor iniţiale.

Analiza în componente principale (normate) ACP/ACPN Numele metodei provine din aceea că factorii (obţinuţi prin analiza generală)

sunt numiţi şi componente principale. Deşi pentru identificarea factorilor se aplică metoda generală asupra matricei

de covarianţă (corelaţie) a variabilelor implicate, în continuare se prezintă şi o metodă alternativă, care poate oferi o viziune mai intuitivă asupra calculelor efectuate.

Se doreşte reducerea numărului de variabile dar cu păstrarea a cât mai mult (în limita posibilităţilor) din varianţa datelor iniţiale.

Pentru aceasta se introduce o nouă variabilă, Z, ca o combinaţie liniară a variabilelor iniţiale:

pp xaxaxaZ +++= K2211

Page 6: Lucrarea nr. 11 — Analiza în componente principale - SPSS

unde a1,…,ap sunt ponderi asociate variabilelor iniţiale. Observaţie. Ecuaţia precedentă este doar aparent similară unei ecuaţii de

regresie, deoarece nu se cunosc valori observate pentru variabila Z, nu există termen liber şi nici erori (reziduuri).

Analiza în componente principale determină acele ponderi ai care maximizează varianţa variabilei Z. Cum varianţa poate tinde la infinit pentru valori ale ponderilor convenabil alese, metoda determină doar ponderile supuse restricţiei că

vectorul a este normalizat, adică ∑=

=p

iia

1

2 1. O dată calculate ponderile a, variabila Z

este numită prima componentă principală. Notând cu C matricea de covarianţă (corelaţie) a variabilelor X, de fapt prin

transformarea datelor din analiza în componente principale C = X′X, rezultă că dispersia lui Z este a′Ca. Se doreşte maximizarea varianţei lui Z cu restricţia a′a = 1.Se ajunge astfel la problema generală:

max a′X′Xa cu restricţia a′a = 1 Prin metoda multiplicatorilor lui Lagrange se va căuta maximul funcţiei

F(a) = a′Ca - λ(a′a – 1) de unde rezultă, ca în metoda generală, că a este vector propriu al matricei C corespunzător valorii proprii λ şi a′Ca = λ. Deoarece Var(Z) = a′Ca rezultă Var(Z) = λ, adică a este vectorul propriu care corespunde celei mai mari valori proprii λ.

A doua componentă principală este definită drept combinaţia liniară a variabilelor X cu următoarea cea mai mare varianţă:

Z2 = a12x1 + a22x2 + … + ap2xp Se ajunge astfel la a doua valoare proprie ca mărime etc. De remarcat că aij

reprezintă ponderea variabilei i în componenta principală cu numărul j. O consecinţă a faptului că varianţele componentelor principale sunt valorile

proprii iar ponderile (coeficienţii combinaţiilor liniare) sunt vectorii proprii este aceea că factorii obţinuţi (componentele principale) sunt necorelate între ele.

Astfel, din exprimarea matriceală z = Ax a componentelor principale şi din faptul că matricea vectorilor proprii este ortogonală, A′A = I, rezultă

A′z = A′Ax = Ix = x,

adică şi variabilele iniţiale pot fi exprimate drept combinaţii liniare între componentele principale. Notând cu Czz matricea de covarianţe a componentelor principale, relaţia anterioară produce

C = A′CzzA. de unde, utilizând rezultatul cunoscut

C = A′ΛA, unde Λ este matricea diagonală a valorilor proprii, rezultă că Czz este o matrice diagonală, adică toate componentele principale sunt necorelate între ele. Se observă astfel că prin trecerea la componentele principale se elimină redundanţa din date.

Analiza în R p Cele n puncte ale acestui spaţiu sunt indivizi (observaţii) şi se doreşte o

reprezentare a apropierilor dintre aceste puncte într-un spaţiu de dimensiune mai mică. Prin transformările prealabile are loc o translaţie a norului de puncte într-un reper având ca origine centrul de greutate al norului.

In ACPN se modifică şi scala pe fiecare axă.

Page 7: Lucrarea nr. 11 — Analiza în componente principale - SPSS

Analiza în R n

Cele p puncte sunt aici variabilele, transformările prealabile au însă o interpretare diferită:

• transformarea din ACP este o proiecţie paralelă cu prima bisectoare Astfel, în cazul n=2 (neimportant din punct de vedere statistic, dar permite o

vizualizare corectă), un punct variabilă este supus transformării:

• transformarea din ACPN este o deformare a norului de puncte care aduce

fiecare punct variabilă la distanţa 1 de origine (pe sfera unitate).

Într-adevăr, din transformarea nsrr

xj

jijij

*−= , rezultă că distanţa unui punct

variabilă la origine este

∑=

=−=n

ijjij srr

nj

1

222 1/)(1)0,(d .

Distanţa dintre două puncte este dată de ),(cor22),(d2 kjkj −=

adică proximităţile dintre puncte se pot interpreta în termenii corelaţiilor dintre variabile.

Coordonatele punctelor variabile pe o axă sunt coeficienţii de corelaţie dintre variabile şi factorul respectiv (considerat ca o nouă variabilă). Prin urmare se poate interpreta un factor (axă) drept o combinaţie a variabilelor cele mai corelate cu el.

Componente principale – o altă definiţie Definiţia componentelor principale prezentată aici oferă un punct de vedere diferit (apropiat

de sensul istoric iniţial). Notăm cu Xn×p matricea de date (n observaţii asupra a p variabile), cu Aj′ matricea (transpusă) (de tip j×p) a ponderilor primelor j componente principale (coloanele din Aj fiind primii j vectori proprii), cu Zn×j matricea scorurilor componentelor principale.

zik = a1ix1k + a2ix2k + … + apixpk Rezultă atunci

X = Z Aj′ + U unde Un×p este matricea reziduurilor.

Se poate arăta atunci că primele j componente principale sunt acele variabile necorelate care constituie cele mai bune variabile predictor (printr-un model liniar) ale variabilelor observate.

Criteriul este tot al celor mai mici pătrate ∑∑

i jiju2min

Page 8: Lucrarea nr. 11 — Analiza în componente principale - SPSS

Se poate astfel spune că, dacă s-ar determina mulţimea de variabile necorelate care prognozează cel mai bine (printr-un model liniar) variabilele observate, atunci aceste noi variabile ar fi componentele principale.

Prin urmare, relaţia matriceală X = Z Aj′ + U

se interpretează ca evidenţiind variabilele ascunse (latente), z, care determină variabilele observate x.

Numărul de componente principale Din toată discuţia de până acum apare ca un punct important acela al fixării

numărului j de componente principale care se reţin în modelul final. Această întrebare nu are un răspuns precis. Există o serie de proceduri

acceptate, discutate în continuare şi care se aplică şi altor metode factoriale. O proprietate importantă a metodei este aceea a menţinerii varianţei totale a

datelor. Cu alte cuvinte )var(...)var()var()var(...)var()var( 2121 pp ZZZXXX +++=+++

pλλλ +++= ...21 În cazul ACPN, variabilele sunt standardizate şi, prin urmare,

pXXX p =+++=+++ 1...11)var(...)var()var( **2

*1

de unde rezultă că suma varianţelor componentelor principale este p: pp =+++ λλλ ...21

În general, primele q componente principale oferă un rezumat q-dimensional al variabilelor iniţiale, acela care are varianţa maximă dintre toate rezumatele q-dimensionale. Pentru q = p nu are loc o reducere a dimensiunii, obţinând o simplă transformare a variabilelor iniţiale. Prin reţinerea doar a primelor q valori proprii, proporţia explicată din varianţa totală este

p

q

λλλλ

++

++

...

...

1

1

Acesta nu poate constitui un criteriu pentru numărul de factori reţinuţi, întrucât raportul creşte o dată cu numărul factorilor (ajungând la 1). Un prim criteriu poate fi acela al reţinerii acelor valori proprii care depăşesc media, adică

)...(11 pi p

λλλ ++>

criteriul implicit în SPSS, cu observaţia că în ACPN criteriul devine identic cu criteriul Kaizer.

Criteriul Kaiser Se reţin doar componentele principale corespunzând valorilor proprii mai mari

decât 1. Se aplică de regulă în ACPN.

Criteriul Cattell (scree test) Varianta grafică: se detectează pe diagrama valorilor proprii un “cot”. Se

reţin doar valorile proprii de până în acel loc, inclusiv.

Page 9: Lucrarea nr. 11 — Analiza în componente principale - SPSS

Varianta analitică: se calculează ε1=λ1-λ1, ε2=λ2-λ3, … δ1=ε1-ε2, δ2=ε2-ε3, … şi se reţin λ1, …, λk+1 astfel încât δ1, δ2, …, δk să fie toate pozitive. Analog, se încearcă trasarea unei drepte (dreapta de regresie) prin ultimele j

valori proprii şi se reţin doar valorile proprii situate deasupra acesteia.

Reprezentări grafice In ACP/ACPN datele iniţiale se referă la n observaţii asupra a p variabile, care

pot fi interpretate ca • n puncte-indivizi (observaţii) în R p, • p puncte-variabile în R n. Reţinerea unui număr de axe factoriale echivalează cu determinarea unui

subspaţiu în care datele iniţiale pot fi regăsite cu suficientă acurateţe. Examinarea structurii norilor de puncte din subspaţiile respective se realizează prin metode grafice, reprezentând punctele prin proiecţii pe un număr suficient de plane factoriale.

Astfel, pentru a putea înţelege structura unui nor de puncte în R 3 este nevoie de proiecţia lor pe două plane (xOy şi xOz, de exemplu). Interpretările diferă totuşi după cum este vorba de variabile sau de observaţii.

Variabile Prin metoda numerică utilizată, coordonatele punctelor variabile sunt mai mici

de 1, punctele fiind pe sfera unitate. Cum distanţele dintre puncte sunt invers proporţionale cu corelaţiile dintre variabilele corespunzătoare, grupările de puncte indică grupuri de variabile corelate.

Pentru eliminarea erorilor de perspectivă, aprecierea corectă apare doar după analiza proiecţii-lor pe mai multe planuri factoriale (= nr.de factori – 1). Variabilele apropiate de o axă sunt corelate cu acea componentă principală, se poate considera că axa respectivă este o combinaţie a variabilelor apropiate de ea.

Page 10: Lucrarea nr. 11 — Analiza în componente principale - SPSS

Observaţii Reprezentarea punctelor-observaţii prezintă de asemenea grupările de

observaţii, fără a mai fi pe sfera unitate. Prima axă factorială este, uzual, factorul de talie, separând de-a lungul ei

observaţiile mici de cel mari. A doua axă factorială este factorul de formă. care nuanţează diferen-ţele efectuate de primul factor.

Dacă observaţiile aparţin la grupuri de interes, evidenţierea claselor (ca în figură) poate oferi informaţii utile prin configuraţiile vizibile. Concluziile sunt justificate doar după utilizarea unui număr suficient de proiecţii.

Coordonatele punctelor observaţii sunt, de regulă, scalate astfel încât să

permită suprapunerea celor două grafice (variabile, observaţii). Deşi trebuie o oarecare grijă în emiterea concluziilor (vezi, de exemplu, efectul de perspectivă în configuraţiile multidimensionale), asemenea vizualizări pot oferi explicaţii ale apropierilor dintre observaţii prin variabilele apropiate acelui grup etc.

B. Instrumente SPSS

Dialogul Factor Analysis Pentru a aplica analiza factorială, prin natura metodei, trebuie ca între

variabile să existe corelaţii suficient de mari pentru a avea sens problema reducerii

Page 11: Lucrarea nr. 11 — Analiza în componente principale - SPSS

dimensiunii. Prin urmare, dacă o variabilă nu este corelată cu celelalte va trebui exclusă din analiză. În acelaşi timp, nici corelaţiile foarte mari (multicoliniaritatea) nu conduc la rezultate uşor de interpretat, situaţia extremă fiind cea de singularitate, a existenţei variabilelor perfect corelate. În asemenea cazuri este imposibil să se determine contribuţia individuală la un factor a variabilelor. Prin urmare este necesar să se calculeze şi să se analizeze matricea de corelaţii a variabilelor prin Analyse – Correlate – Bivariate, inclusiv determinantul acestei matrice pentru determinarea multicoliniarităţii.

Este de asemenea necesar să se testeze că variabilele au o distribuţie apropiată de distribuţia normală (prin analizarea histogramelor sau a testelor de normalitate).

Dialogul principal este Analyse – Data Reduction – Factor. Se afişează dialogul Factor Analysis.

Variabilele procesate se trec în lista Variables iar în Selection Variable se

poate indica o variabilă care selectează prin Value observaţiile/cazurile considerate în analiză. Parametrii analizei se fixează în dialogurile afişate de acţionarea butoanelor Descriptives, Extraction, Rotation, Scores, Options, dialoguri descrise în continuare.

Descriptives În grupul Statistics se poate cere afişarea statisticilor elementare (media,

abaterea standard etc.). Selectarea Initial solution afişează comunalităţile iniţiale, valorile proprii etc.

Grupul Correlation Matrix conţine informaţiile despre coeficienţii de corelaţie

şi cele utile în studiul multicoliniarităţii. Dintre acestea, Bartlett's Test of Sphericity testează dacă matricea de corelaţie este aproximativ unitară (ca ipoteză nulă), ceea ce denotă o multicoliniaritate accentuată, dar nu precizează care variabilă nu este corelată cu celelalte. Acest studiu ar trebui realizat separat prin estimarea coeficientului de determinare R2 în fiecare model liniar Xi = f (restul variabilelor X). KMO (Kaiser-Meyer-Olkin) testează corelaţiile parţiale dintre variabile doar global, ceea ce nu este util în identificarea variabilelor necorelate.

Acceptarea ipotezei nule din testul Bartlett conduce la ideea că variabilele nu sunt corelate între ele, deci o încercare de reducere a dimensiunii nu este sortită

Page 12: Lucrarea nr. 11 — Analiza în componente principale - SPSS

succesului, fiecare variabilă are o contribuţie proprie importantă şi care nu poate fi suplinită de celelalte variabile.

Este de remarcat că dacă o variabilă nu este bine corelată cu celelalte (deci nu contribuie la multicoliniaritate), această variabilă poate fi omisă din analiză.

Opţiunea Reproduced afişează matricea de corelaţie estimată din soluţia factorială şi se afişează şi reziduurile.

Extraction Din lista Method se poate fixa metoda de analiză factorială. Pentru analiza în

componente principale sau componente principale normate se va selecta Principal components. În acest caz, tipul analizei este dat de selecţia din grupul Analyze: correlation matrix pentru ACPN sau covariance matrix pentru ACP.

În grupul de opţiuni Extract se poate indica exact numărul de factori sau

preciza pragul pentru valorile proprii (deci factorii) reţinute. Prin selectarea opţiunii Scree plot se obţine diagrama valorilor proprii care oferă ajutor în stabilirea numărului de factori. Unrotated Factor Solution produce afişarea pentru soluţie a încărcărilor, comunalităţilor şi valorilor proprii.

Deoarece soluţia se obţine în urma unui proces iterativ, se poate fixa numărul maxim de iteraţii în Maximum Iterations for Convergence.

Reamintim că din p variabile se pot extrage p componente, fiecare valoare proprie reprezentând partea de varianţă care este explicată de componenta respectivă.

Rotation Rotaţia reperului axelor factoriale pentru a prinde un “unghi de vedere” mai

bun se poate selecta în dialogul Rotation. Ca metode sunt disponibile: varimax (se minimizează numărul de variabile cu încărcări mari pe fiecare factor, ceea ce simplifică interpretarea factorilor), direct oblimin (rotaţie oblică), quartimax (minimizează numărul de factori necesari explicării fiecărei variabile), equamax (combinaţie între metodele varimax şi quartimax) şi promax (rotaţie oblică în care se admit factori corelaţi).

Pentru soluţia obţinută în urma rotaţiei se poate cere soluţia sau diagramele

încărcărilor pentru primii doi (dacă nu s-au extras cel puţin trei factori) sau trei factori. Şi pentru procesul de rotaţie se poate preciza numărul maxim de iteraţii în Maximum Iterations for Convergence.

Page 13: Lucrarea nr. 11 — Analiza în componente principale - SPSS

Scores Se poate cere salvarea ca noi variabile a scorurilor factoriale finale, fiecare

factor producând o variabilă. Cu alte cuvinte coordonatele cazurilor în reperul factorial sau transformări ale acestora.

Se poate preciza metoda de calcul a scorurilor: regression (scorurile produse au media zero şi o dispersie egală cu pătratul corelaţiei multiple între scorurile factoriale estimate şi coordonatele factoriale adevărate), Bartlett (scorurile produse au media zero şi este minimizată suma pătratelor factorilor reţinuţi) sau Anderson-Rubin (scorurile au media zero, abatere standard unitară şi sunt necorelate).

Prin Display factor score coefficient matrix se afişează matricea de corelaţie

dintre scoruri şi coeficienţii cu care se înmulţesc variabilele pentru a obţine scorurile factoriale.

Options Se precizează modul de tratare a valorilor lipsă ca şi modul de afişare a

matricelor, de exemplu se pot omite coeficienţii care sunt în valoare absolută sub un anumit prag.

Structura fişierului de ieşire Matricea de corelaţie, dacă este solicitată, se interpretează în mod uzual,

dupăcum s-a explicat în lucrarea dedicată asocierii variabilelor. Se recomandă analizarea corelaţiilor pentru a identifica variabilele care nu sunt corelate cu celelalte (şi care pot fi eventual omise din analiză, dacă nu se doreşte mai degrabă reducerea numărului de variabile decât analiza corelaţiilor). Se afişează şi tabelul cu testele amintite mai sus, asociate existenţei multicoliniarităţii:

Tabelul valorilor proprii (eigenvalues) conţine, pe lângă valoarea efectivă,

calculul necesar identificării varianţelor explicate de componentele respective. Suma celor p valori proprii este egală cu p (numărul de variabile). Proporţia de varianţă explicată de o componentă este prin urmare raportul dintre valoarea proprie respectivă

Page 14: Lucrarea nr. 11 — Analiza în componente principale - SPSS

şi p (reamintind că fiecare valoare proprie reprezintă partea de varianţă explicată, captată de componenta respectivă):

3.313 47.327 47.3272.616 37.369 84.696

.575 8.209 92.905

.240 3.427 96.332

.134 1.921 98.2529.E-02 1.221 99.4734.E-02 .527 100.000

Component1234567

Total% of

VarianceCumulative

%

Initial Eigenvalues

Extraction Method: Principal Component Analysis. Se observă că din ultima coloană se citeşte direct cât din varianţa totală se

explică prin reţinerea unui număr de componente. Pentru ajutor în stabilirea numărul de componente se poate cere afişarea

diagramei valorilor (diagrama dată de exemplu conduce la reţinerea a două sau trei componente, decizia finală fiind influenţată şi de proporţia cumulată a varianţei explicate):

Scree Plot

Component Number

7654321

Eige

nval

ue

3.5

3.0

2.5

2.0

1.5

1.0

.5

0.0

Tabloul Component Matrix, esenţial în analiză, conţine încărcările factorilor,

factor loadings. Matricea este referită şi prin loading matrix sau factor pattern matrix. Elementele matricei, încărcările, sunt corelaţiile dintre componente (coloane) şi variabilele iniţiale (linii). Datorită proprietăţilor componentelor (sunt ortogonale), încărcările au şi interpretarea de coeficienţi standardizaţi din regresia multiplă, cu alte cuvinte arată cu câte abateri standard sX se modifică X dacă factorul respectiv se modifică cu o abatere standard sF.

Component Matrixa

.760 -.576

.736 -.614-.735 -.071.710 -.646.550 .734.632 .699.667 .675

COLORAROMAREPUTATTASTECOSTALCOHOLSIZE

1 2Component

Extraction Method: Principal Component Analysis.

2 components extracted.a.

Structura mai utilă pentru interpretare este, totuşi, cea obţinută după rotirea factorilor, care oferă o "viziune" mai bună. Matricea de încărcare este afişată şi după ce s-au rotit factorii, interpretarea fiind cea dată mai sus.

Page 15: Lucrarea nr. 11 — Analiza în componente principale - SPSS

Rotated Component Matrixa

.960 -.028

.958 1.E-02

.952 6.E-027.E-02 .9472.E-02 .942

-.061 .916-.512 -.533

TASTEAROMACOLORSIZEALCOHOLCOSTREPUTAT

1 2Component

Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization.

Rotation converged in 3 iterations.a.

Se observă că sunt evidenţiate mai bine diferenţele de încărcare ale factorilor. Observaţie. Încărcările factorilor constituie baza denumirii factorilor,

problemă importantă în analiza factorială. Un factor, ca variabilă latentă, ar trebui să poarte un nume pentru a fi înţeles, utilizat, referit etc. Structura de încărcare a unui factor poate oferi sugestii în acest sens, încărcările mai mari ca 0,6 sunt considerate ca importante, cele sub 0,4 sunt scăzute. Variabilele cu încărcări mari constituie combinaţia de variabile iniţiale care determină factorul, deci şi denumirea lui (creată evident de specialiştii din domeniu, nu de statistician).

Dacă s-a cerut o rotaţie a factorilor, SPSS afişează şi varianţa explicată de fiecare componentă după rotaţie. Varianţa explicată este egală cu suma încărcărilor la pătrat.

Acest tabel ajută să se decidă câte componente ar trebui reţinute, suma

pătratelor încărcărilor (SSL, sum of squared loadings) după rotaţie este oarecum similară unei valori proprii. Se pot, drept urmare, păstra acele componente cu SSL post-rotaţie mai mari ca 1.

Încărcările post-rotaţie arată cum sunt definite componentele. Dacă o singură variabilă are o încărcare mare la o componentă, componenta nu este bine definită. Dacă doar două variabile au încărcări puternice cu o componentă, componenta este corectă dacă variabilele sunt corelate între ele dar nu sunt corelate cu celelalte variabile.

Se numeşte comunalitate (communality) proporţia explicată de factori din varianţa unei variabilei. Deoarece încărcările sunt corelaţiile dintre variabile şi componente şi cum componentele sunt ortogonale, comunalitatea unei variabile reprezintă coeficientul de determinare, R2, dacă variabila este prognozată de componente. Se poate calcula comunalitatea unei variabile ca suma pătratelor încărcărilor după factori.

Comunalităţile iniţiale sunt 1 fiind calculate înainte de reducerea dimensiunii.

Page 16: Lucrarea nr. 11 — Analiza în componente principale - SPSS

C. Lucrarea practică 1) Un studiu din 1979 a urmărit în diferite ţări europene modul de încadrare a forţei

de muncă în diferite ramuri industriale. Datele sunt sub formă de procentaje şi se găsesc în fişierul www.infoiasi.ro/~val/statistica/EuropeanJobs.txt. Variabilele sunt Country – numele ţării, Agr – procentajul de muncitori din agrucultură, Min – procentajul de muncitori din minerit, Man – procentajul de muncitori din industria prelucrătoare, PS – procentajul de muncitori din industria energetică, Con – procentajul de muncitori din construcţii, SI – procentajul de muncitori din servicii, Fin – procentajul de muncitori din finanţe, SPS – procentajul de muncitori din servicii sociale, TC – procentajul de muncitori din transporturi şi comunicaţii.

a) Să se realizeze o analiză în componente principale.

b) Să se deducă grupurile principale de state omogene ca structură a muncii.

2) Datele necesare acestul exerciţiu sunt la adresa web www.infoiasi.ro/~val/statistica/boston.sav. Datele au fost utilizate şi în lucrarea 8 în scopul prognozei preţului de vânzare a unei case din regiunea Boston în funcţie de caracteristici diverse ale locuinţei şi ale localizării ei. Reamintim că variabilele sunt, în ordine, CRIM – rata criminalităţii, ZN – proporţia teritoriului zonat în loturi de peste 25,000 sq.ft., INDUS proporţia terirorială a zonei industriale, CHAS – indicator de învecinare cu râul din zonă (= 1 da, 0 nu), NOX – concentraţia de oxizi nitrici, RM – numărul mediu de camere, AGE – proporţia de locuinţe construite înainte de 1940 şi ocupate de proprietar, DIS – distanţa ponderată la cinci centre productive din Boston, RAD – indicele de accesibilitate la reţeaua de autostrăzi, TAX – rata de impozit (procent la 10000$), PTRATIO – raportul copii-profesori în zonă, B – 1000(Bk−0.63)2 unde Bk este procentajul populaţiei de culoare în zonă, LSTAT – procentajul populaţiei sărace, MEDV – valoarea medie a caselor (în mii de dolari).

a) Să se realizeze o analiză în componente principale a variabilelor dintre care s-au exclus CHAS şi MEDV.

b) Să se analizeze dacă apar diferenţe în rezultate atunci când se consideră separat grupurile definite de CHAS.