Tecniche di Analisi Multidimensionale L’analisi delle ... · che di analisi fattoriale il cui obiettivo generale e quello di eliminare le informazioni ridondanti nei dati e ricorrere

Statistica per l’Impresa

a.a. 2017/2018

Tecniche di Analisi Multidimensionale

L’analisi delle componenti principali

14 maggio 2018

Introduzione

L’Obiettivo dell’ACP

L’Analisi delle Componenti Principali (ACP) rientra nelle tecni-

che di analisi fattoriale il cui obiettivo generale e quello di eliminare

le informazioni ridondanti nei dati e ricorrere a metodi di riduzione

e di sintesi delle variabili.

Il punto di partenza e l’analisi della struttura di relazione tra p varia-

bili quantitative osservate, tra loro correlate, che talvolta forniscono

lo stesso contributo informativo.

L’analisi delle componenti principali consente di sintetizzare p va-

riabili quantitative attraverso l’identificazione di un numero ridotto

q < p di combinazioni lineari delle variabili originarie che ‘spieghino’

gran parte della varianza (ovvero del contenuto informativo) delle

variabili stesse.

Introduzione 1

Caratteristiche delle componenti principali

Partendo da una matrice dei dati n×p con variabili tutte quantitative

(tra loro correlate), l’ACP consente di sostituire alle p variabili un

nuovo insieme di variabili–le componenti principali (CP)–che godono

delle seguenti proprieta:

• sono tra loro incorrelate (ortogonali);

• sono determinate in ordine decrescente della loro varianza.

Se le p variabili sono fortemente correlate, ci si puo limitare a consi-

derare le prime q (q < p) componenti principali per rappresentare il

fenomeno osservato, mentre le restanti (p−q) risultano trascurabili.

Introduzione 2

Impiego dell’ACP

L’ACP puo essere utilmente impiegata:

• nelle ricerche di mercato basate su indagini presso i consumatori

volte ad acquisire le opinioni sulle caratteristiche di un prodotto

o servizio, ove siano rilevate molte variabili concernenti aspetti

diversi ma tra loro collegati e concettualmente sovrapposti;

• per la sintesi delle varie caratteristiche dei prodotti di un certo

tipo allo scopo di individuare il loro posizionamento nel mercato;

• come valido supporto per individuare quegli indici di bilan-

cio maggiormente responsabili delle differenze nelle prestazioni

economico-finanziarie delle imprese;

• per la valutazione della qualita della vita nei comuni di una

regione sulla base di un insieme di indicatori economici, am-

bientali, di dotazione di servizi, etc.

Introduzione 3

Derivazione delle componenti

principali

La matrice delle covarianze

Sia X (n× p) la matrice dei dati, in cui il generico elemento xij

rappresenta la modalita che il j-mo carattere Xj assume in

corrispondenza dell’i-esima unita. La matrice delle covarianze e

S =

Var(X1) Cov(X1, X2) . . . Cov(X1, Xp)

Cov(X2, X1) Var(X2) . . . Cov(X2, Xp)

. . . . . . . . . . . .

Cov(Xp, X1) Cov(Xp, X2) . . . Var(Xp)

dove, per la generica coppia di variabili h e j la covarianza e:

Cov(Xh, Xj) =

∑ni=1(xih − xh)(xij − xj)

n

e la diagonale principale contiene le varianza di ciascuna variabile:

Cov(Xj , Xj) = σ2j =

∑ni=1(xij − xj)2

nDerivazione delle componenti principali 4

Definizione delle CP (I)

La derivazione delle componenti principali puo essere effettuata usan-

do le variabili originali o le variabili standardizzate.

Sia X (n × p) la matrice delle variabili espresse in termini di sco-

stamenti dalle loro medie con xj = xj − xj vettore colonna di n

elementi relativo al j-esimo carattere. La prima CP, y1 (n× 1), e

definita dalla seguente combinazione lineare delle p variabili

y1 = v11x1 + v12x2 + · · ·+ v1pxp = Xv1

dove v1 = [v11, v12, . . . , v1p]′

e il vettore colonna p−dimensionale

dei coefficienti della prima CP.

Derivazione delle componenti principali 5

Definizione delle CP (II)

La prima CP e, per definizione, la combinazione lineare di massima

varianza, e quindi si tratta di calcolare v1 tale che

Var(y1) = max

sotto la condizione di normalizzazione v′1v1 =

∑pj=1 v

21j = 1.

In assenza di un vincolo analogo la varianza potrebbe essere aumen-

tata in misura arbitraria. Si ottiene cosı il problema di massimizza-

zione vincolata

maxv1

Var(Xv1)= maxv1

v′1Sv1

v′1v1= 1

(1)

dove S (p× p) e la matrice delle covarianze di X.


Definizione delle CP (III)

NOTA: Se si considera la matrice Z degli scostamenti standardizzati

(le variabili hanno media 0 e varianza 1) allora S coincide con la

matrice di correlazione R = [rhj ] in quanto

rhj =Cov(Zh, Zj)√

Var(Zh)Var(Zj)= Cov(Zh, Zj), h, j = 1, . . . , p

dove rhj ∈ [−1, 1] e il coefficiente di correlazione lineare tra le

variabili h-esima e j-esima. In questo caso si ha

S = R =

1 r12 . . . r1pr21 1 . . . r2p. . . . . . . . . . . .

rp1 rp2 . . . 1

ricordando che la matrice e simmetrica: rhj = rjh, per ogni h, j.


Definizione delle CP (IV)

Per risolvere (1) si applica il metodo dei moltiplicatori di Lagrange,

cioe si massimizza la funzione

L = v′1Sv1 − λ1(v

′1v1 − 1)

dove λ1 e un moltiplicatore di Lagrange. Si ottiene il sistema di

derivate parziali ∂L∂v1

= 2Sv1 − 2λ1v1 = 0

∂L∂λ1

= 1− v′1v1 = 0,

da cui si ottiene

Sv1 = λ1v1 ⇒ (S− λ1Ip)v1 = 0

dove 0 e un vettore di p elementi tutti uguali a 0 e Ip e la matrice

identita di dimensioni p× p (o ordine p).


Definizione delle CP (V)

In particolare λ1 e quel valore tale che

det(S− λ1Ip) = 0

da cui si trovano p soluzioni chiamate autovalori (tutti non

negativi). Avendosi poi Sv1 = λ1v1

Var(y1) = Var(Xv1) = v′1Sv1 = λ1v

′1v1 = λ1

per cui volendo massimizzare la varianza della prima CP si

scegliera come λ1 il massimo degli autovalori, indicato con λ(1).

Quindi la varianza della prima componente e uguale al primo

autovalore di S: λ1 = λ(1). Il vettore v1 che rende massima la

varianza della prima CP e il primo autovettore della matrice S.Derivazione delle componenti principali 9

Definizione delle CP (VI)

La seconda componente

y2 = v21x1 + v22x2 + · · ·+ v2pxp = Xv2

si trova risolvendo rispetto ad v2 = [v21, v22, . . . , v2p]′

maxv2

Var(Xv2)

v′2v2 = 1 (2)

v′2v1 = 0

dove il secondo vincolo serve a garantire la non correlazione con la

prima componente principale: Cov(y1,y2) = 0.


Definizione delle CP (VII)

Procedendo analogamente mediante moltiplicatori di Lagrange si

ottiene:

(S− λ2Ip)v2 = 0

per cui si ha λ2 = Var(y2) e si sceglie il secondo autovalore in

ordine decrescente della matrice delle covarianze: λ2 := λ(2).

Definizione

Si dice i-esima componente principale di p variabili, espresse in

termini di scostamenti dalla media, la combinazione lineare

yi = Xvi i = 1, . . . , q ≤ p

in cui vi e l’autovettore associato all’i-esimo autovalore λi, in

ordine descrescente della matrice delle covarianze.


La matrice delle CP

Alla fine del procedimento di estrazione si hanno p componenti

principali corrispondenti ai p autovalori λ1 ≥ λ2 ≥ . . . ≥ λp.

In particolare, si ottiene la matrice (n× p) delle CP: Y = XV

• V = [v1, . . . ,vp] e la matrice (p× p) le cui colonne sono gli

autovettori (loadings);

• la k-esima colonna di Y e la k-esima CP yk con media 0 e

varianza Var(yk) = λk, il relativo autovalore;

• essendo le CP incorrelate tra loro (Cov(yi,yk) = 0 per ogni

i, k) la matrice delle covarianze di Y e la matrice diagonale

degli autovalori

L =

λ1 0 . . . 0

0 λ2 . . . 0

. . . . . . . . . . . .

0 0 . . . λp


Proprieta delle CP

• Il coefficiente di correlazione lineare tra la k-esima CP e la

j-esima variabile e

cor(Yk, Xj) =vkj√λk√

Var(Xj)

S=R−→ cor(Yk, Xj) = vkj√λk

• La somma degli autovalori e uguale alla varianza totale delle

CP (pari alla varianza totale delle variabili originali)

p∑k=1

λk = tr(S) = Var(X1) + · · ·+ Var(Xp)S=R−→

p∑k=1

λk = p

Il rapporto λ1/tr(S) fornisce la quota di varianza totale spiegata

dalla prima CP, λ2/tr(S) e la quota estratta dalla seconda, e

cosı via.


I ‘punteggi’ delle componenti principali (I)

Si e visto che ogni componente principale e espressa come com-

binazione lineare degli scostamenti dalla media delle p variabili o

degli scostamenti standardizzati (che equivale a condurre l’analisi a

partire dalla matrice di correlazione). Si consideri il secondo caso.

Il punteggio (score) della prima CP, y1 = Zv1, per la i-esima unita

statistica e

yi1 = v11zi1 + · · ·+ v1szis + · · ·+ v1pzip i = 1, . . . , n

dove

zis = (xis − xs)/σs, s = 1, . . . , p

v1s = coeff. della prima CP e della s-esima variabile (cioe l’elemen-

to s-esimo del primo autovettore v1) e indica in quale misura tale

variabile concorre alla determinazione dei punteggi della prima CP.


I ‘punteggi’ delle componenti principali (II)

Analogamente, il punteggio della seconda CP, y2 = Zv2, per la

i-esima unita statistica e

yi2 = v21zi1 + · · ·+ v2szis + · · ·+ v2pzip i = 1, . . . , n

• I punteggi cosı definiti hanno media nulla e varianza pari a λ1

(cio vale anche considerando gli scostamenti dalla media)

• Gli scores normalizzati si ottengono dividendo i punteggi per la

radice quadrata del rispettivo autovalore

• I punteggi delle componenti estratte possono essere trattati co-

me nuove variabili, sulle quali effettuare ulteriori elaborazio-

ni (e utile ottenere il diagramma degli scores delle CP come

nell’esempio che segue).


Il caso di due variabili (I)

Consideriamo il caso piu semplice (poco realistico) di due variabili.

Nel caso p = 2 le CP sono rappresentate da rette.

Assi originari Assi delle componenti principali


Il caso di due variabili (II)

• La prima CP, quella con la varianza piu grande, e la retta che

si dispone il piu possibile vicina ai punti (minimizza la somma

dei quadrati delle distanze perpendicolari dei punti dalla retta)

e nella direzione della massima variabilita dei dati.

• La seconda CP e una retta perpendicolare alla prima, essendo

le CP ortogonali; le due rette si incontrano nel punto (0, 0).

• Se consideriamo la rappresentazione mediante le componenti

principali come nuovi assi, si osserva che la posizione del

punto P sul piano (e della maggior parte dei punti) e

determinata in misura decisamente maggiore dall’asse delle

ascisse, cioe dalla prima CP.


Derivazione delle CP: Esempio

Supponiamo di voler confrontare 5 imprese con l’impresa di interesse

U∗1 sulla base di due indici della situazione finanziaria (n = 6, p = 2).

• Indice di indebitamento: Totale Debiti/Patrimonio netto (X1)

• Current Ratio: Attivo circolante/Passivita correnti (X2)

Imprese x1 x2

U∗1 1.502 1.617

U2 2.953 0.673

U3 0.957 1.693

U4 1.631 0.584

U5 2.205 0.586

U6 2.016 0.508

Media 1.877 0.944

Varianza 0.389 0.256

Tabella 1: Dati per lo svolgimento dell’ACPDerivazione delle componenti principali 18


• Cov(X1, X2) =1

6((1.502−1.877)(1.617−0.944)+. . .+(2.016−

1.877)(0.508− 0.944)) ≈ −0.220

• cor(X1, X2) =Cov(X1, X2)√

Var(X1)Var(X2)≈ −0.697

Si deduce che sui dati in esame, a valori piu grandi dell’indice di

indebitamento X1 (maggiore esposizione verso terzi) tendono a

corrispondere valori piu bassi di X2 (current ratio).

Si noti anche che X1 ha varianza piu elevata di quella di X2, e

avra quindi peso maggiore nella determinazione della componente

principale.



Per ricavare la prima componente principale y1 e necessario deter-

minare il vettore dei coefficienti v1 = [v11, v12] tale che maxv11,v12

Var(y1) = maxv11,v12

Var(v11x1 + v12x2)

sotto il vincolo v211 + v212 = 1.

dove xi1 = (xi1− x1) sono gli scarti dalla media del primo indice di

bilancio (x1 = 1.877), e xi2 = (xi2− x2) sono gli scarti dalla media

del secondo indice di bilancio (x2 = 0.944), per l’unita (impresa)

i = 1, . . . , 6.

La soluzione si trova dall’uguaglianza a 0 del determinante

det(S− λI2) = 0

dove S e la matrice di covarianza fra le variabili.Derivazione delle componenti principali 20


(S− λI2) =

[σ21 Cov(X1, X2)

Cov(X2, X1) σ22

]− λ

[1 0

0 1

]

=

[0.389− λ −0.22

−0.22 0.256− λ

]

Ricordando che se A =

[a b

c d

]⇒ det(A) = ad− bc, si ha

det(S− λI2) = (0.389− λ)(0.256− λ)− 0.222

= λ2 − 0.645λ+ 0.0512 = 0

cioe si ottiene una equazione di secondo grado in λ le cui soluzioni

(autovalori) sono

0.645±√

0.6452 − 4(0.0512)

2=

0.552

0.093Derivazione delle componenti principali 21


Quindi si sceglie λ1 = 0.552 come primo autovalore, e λ2 = 0.093

(λ1 > λ2). Si verifica immediatamente che

• la somma degli autovalori e uguale alla varianza totale:

0.552 + 0.093 = σ21 + σ22 = 0.645;

• la quota di varianza spiegata dalla prima componente

principale e λ1/(λ1 + λ2) = 0.856.

Il primo autovettore, v1, si trova sostituendo i valori numerici nel-

l’espressione

(S− λ1I2)v1 = 0

cioe [0.389− λ1 −0.22

−0.22 0.256− λ1

][v11

v12

]=

[0

0

]Derivazione delle componenti principali 22


Posto λ1 = 0.552, si ottiene il sistema(0.389− 0.552)v11 − 0.22v12 = 0

−0.22v11 + (0.256− 0.552)v12 = 0

che fornisce infinite soluzioni proporzionali

v12 = 0.389−0.5520.22 = −0.74v11. Imponendo il vincolo di

normalizzazione v211 + v212 = 1 si ottiene poi:

v12 = −0.74√

1− v212 ⇒ v212 = 0.742(1− v212)

⇒ v12 ≈ 0.596, v11 ≈ −0.803

Scegliendo la soluzione positiva di v12, il primo autovettore e

v1 = [−0.803, 0.596].



Procedendo analogamente e imponendo i vincoli v221 + v222 = 1,

v21v11 + v22v12 = 0, si perviene al secondo autovettore (il corri-

spondente autovalore e λ2)

v2 = [−0.596,−0.803]

i cui elementi sono, in valore assoluto, gli stessi della prima CP, ma

scambiati. Cio si verifica perche stiamo considerando il caso banale

di due sole variabili (nel caso poi che le variabili siano standardizzate

si ha v11 = v21 = 1/√

2 e v12 = −v22 = 1/√

2).

La prima CP e quindi definita da

yi1 = −0.803 xi1 + 0.596 xi2 i = 1, . . . , 6 (3)

dove xi1, xi2 sono gli scostamenti dalla media delle due variabili

dell’i-esima impresa.Derivazione delle componenti principali 24

Valutazione dell’ACP

Riduzione delle variabili

La capacita dell’ACP nella riduzione delle variabili e influenzata da

due elementi.

a. La varianza delle variabili originarie. Le variabili con varian-

ze piu elevate assumeranno maggior peso e quindi maggiore

importanza nel calcolo delle componenti principali; e quindi op-

portuno valutare di operare la standardizzazione quando sono

presenti variabili con varianza molto diversa.

b. La correlazione fra le variabili originarie. Quando le variabili

sono molto correlate (positivamente o negativamente), l’ACP

potra realizzare una considerevole parsimonia nella descrizione

della matrice dei dati originari.

Valutazione dell’ACP 25

La quota di varianza spiegata

La riduzione del numero di variabili si ottiene considerando solo le

prime q con q < p, poiche come si e detto le CP hanno importanza

(varianza) decrescente. Si e visto che

Pk =λk∑pi=1 λi

(=λkp

per dati standardizzati

)e la percentuale di varianza (quota di informazione) riassunta dalla

k-esima CP; pertanto le prime q spiegano una percentuale (quota

cumulata) pari a

P ∗q =

q∑k=1

Pk

La percentuale di varianza spiegata dalle CP considerate fornisce

una valutazione globale della validita dell’analisi.


Criteri per la scelta del numero di CP

• Criterio della percentuale di varianza spiegata. Si scelgono le

prime q componenti principali in modo tale che queste, insie-

me, catturino almeno una prefissata percentuale, generalmente

dell’ordine di 70, 80%.

• Criterio della varianza media. Si scelgono le prime q componenti

principali che hanno una varianza superiore al valore della va-

rianza media, c = (1/p)∑

i λi, dove c = 1 nel caso di variabili

standardizzate.

• Si sceglie esaminando il diagramma scree, cioe la rappresenta-

zione, sul piano cartesiano, di (i, λi): si sceglie q in corrispon-

denza a un gomito del grafico, cioe un punto tale per cui gli

autovalori precedenti sono ‘grandi’ e quelli successivi ‘piccoli’.


Interpretazione dell’ACP

La correlazione tra le variabili e le CP (I)

In genere, si procede all’interpretazione delle CP esaminando segno

e ordine di grandezza della correlazione tra queste e ognuna delle

variabili originarie. I coefficienti di correlazione lineare tra le variabili

e le prime q CP forniscono informazioni fondamentali:

• il segno di tali coefficienti indica il tipo di relazione lineare,

diretta o inversa, tra la componente e la variabile;

• il valore numerico, in modulo, indica l’entita del legame.

Va comunque tenuto presente che non e per nulla garantito che a

partire da un dataset si ottengano componenti principali dotate di

interpretazione fisica.

Interpretazione dell’ACP 28

La correlazione tra le variabili e le CP (II)

Partendo dalla matrice degli scostamenti standardizzati, sia T la

matrice (n× q) di elementi tjk = cor(Yk, Xj) = vkj√λk

CP1 CPk CPq

T =

z1...

zj...

zp

t11 . . . t1k . . . t1q...

......

tj1 . . . tjk . . . tjq...

......

tp1 . . . tpk . . . tpq

→ h21 =

∑k t

21k

...

→ h2j =∑

k t2jk

...

→ h2p =∑

k t2pk

• la somma dei quadrati dei valori per riga da le comunalita h2j ,

per ogni variabile j = 1, . . . , p, pari alla quota di varianza di

ciascuna variabile spiegata in complesso dalle CP estratte.

• la somma per colonna dei quadrati degli elementi di T e pari

ai corrispondenti autovalori:∑

j t2jk = t21k + · · ·+ t2pk = λk


Esempio: Confronto tra imprese

Nel caso in esame, le correlazioni della prima CP con X1 (indice di

indebitamento) e X2 (current ratio) sono:

cor(Y1, X1) =v11√λ1√

Var(X1)=−0.803

√0.552√

0.389= −0.957

cor(Y1, X2) =v12√λ2√

Var(X2)=

0.596√

0.093√0.256

= 0.876

Cio significa che Y1 varia in modo discorde con X1 e concorde

con X2: all’aumentare di X1 il valore della CP tende a diminuire,

mentre all’aumentare di X2 tende a crescere.

Possiamo allora considerare la prima CP come una misura di

struttura e di equilibrio finanziario: le imprese comparativamente

migliori avranno valori della prima CP piu elevati.Interpretazione dell’ACP 30


Dalla (3) si calcolano i punteggi della prima CP. Ad esempio,

per la prima unita, l’impresa U∗1 si ottiene

y11 =− 0.803 x11 + 0.596 x12

=− 0.803(1.502− 1.877) + 0.596(1.617− 0.944) = 0.703

Analogamente si calcolano i punteggi della seconda CP. Per la

prima unita, l’impresa U∗1 si ha

y12 =− 0.596 x11 − 0.803 x12

=− 0.596(1.502− 1.877)− 0.803(1.617− 0.944) = −0.317

Tutti i punteggi cosı ottenuti sono riportati di seguito.



Imprese CP1 CP2

U∗1 0.703 -0.317

U2 -1.025 -0.424

U3 1.186 -0.053

U4 -0.017 0.436

U5 -0.476 0.092

U6 -0.371 0.267

Tabella 2: Punteggi della prima e seconda CP



0.0 0.5 1.0 1.5 2.0 2.5 3.0

0.0

0.5

1.0

1.5

2.0

x1

x 2

U1*

U2

U3

U4 U5U6

−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5−

1.5

−1.

0−

0.5

0.0

0.5

1.0

1.5

CP1

CP

2

U1*U2

U3

U4

U5

U6

Variabili originarie (Tabella 1) Componenti principali (Tabella 2)



• Dalla rappresentazione delle unita rispetto alle componenti

principali si deduce la posizione delle sei imprese rispetto al

punteggio della prima componente principale.

• Si nota che l’impresa d’interesse U∗1 si posiziona al secondo

posto rispetto alle altre aziende; U3 presenta, infatti, il valore

piu alto tra i punteggi della prima CP, mentre U2 appare la

peggiore.

• Si noti che l’ACP fornisce indicazioni in merito alla posizione

comparativa di una unita rispetto alle altre; ricorrendo ai dati

originari sara possibile capire il significato della posizione

individuata attraverso le componenti principali.


Bibliografia

Bracalente, B., Cossignani, M., Mulas, A. (2009) Statistica

aziendale. McGraw-Hill Education.

Biggeri, L., Bini, M., Coli, A., Grassini, L., Maltagliati, M.

(2012) Statistica per le decisioni aziendali, Pearson, Milano.


Documents

Tecniche di Analisi Multidimensionale L’analisi delle ... · che di analisi fattoriale il cui obiettivo generale e quello di eliminare le informazioni ridondanti nei dati e ricorrere