Upload
hoangquynh
View
219
Download
0
Embed Size (px)
Citation preview
Statistica per l’Impresa
a.a. 2017/2018
Tecniche di Analisi Multidimensionale
L’analisi delle componenti principali
14 maggio 2018
Introduzione
L’Obiettivo dell’ACP
L’Analisi delle Componenti Principali (ACP) rientra nelle tecni-
che di analisi fattoriale il cui obiettivo generale e quello di eliminare
le informazioni ridondanti nei dati e ricorrere a metodi di riduzione
e di sintesi delle variabili.
Il punto di partenza e l’analisi della struttura di relazione tra p varia-
bili quantitative osservate, tra loro correlate, che talvolta forniscono
lo stesso contributo informativo.
L’analisi delle componenti principali consente di sintetizzare p va-
riabili quantitative attraverso l’identificazione di un numero ridotto
q < p di combinazioni lineari delle variabili originarie che ‘spieghino’
gran parte della varianza (ovvero del contenuto informativo) delle
variabili stesse.
Introduzione 1
Caratteristiche delle componenti principali
Partendo da una matrice dei dati n×p con variabili tutte quantitative
(tra loro correlate), l’ACP consente di sostituire alle p variabili un
nuovo insieme di variabili–le componenti principali (CP)–che godono
delle seguenti proprieta:
• sono tra loro incorrelate (ortogonali);
• sono determinate in ordine decrescente della loro varianza.
Se le p variabili sono fortemente correlate, ci si puo limitare a consi-
derare le prime q (q < p) componenti principali per rappresentare il
fenomeno osservato, mentre le restanti (p−q) risultano trascurabili.
Introduzione 2
Impiego dell’ACP
L’ACP puo essere utilmente impiegata:
• nelle ricerche di mercato basate su indagini presso i consumatori
volte ad acquisire le opinioni sulle caratteristiche di un prodotto
o servizio, ove siano rilevate molte variabili concernenti aspetti
diversi ma tra loro collegati e concettualmente sovrapposti;
• per la sintesi delle varie caratteristiche dei prodotti di un certo
tipo allo scopo di individuare il loro posizionamento nel mercato;
• come valido supporto per individuare quegli indici di bilan-
cio maggiormente responsabili delle differenze nelle prestazioni
economico-finanziarie delle imprese;
• per la valutazione della qualita della vita nei comuni di una
regione sulla base di un insieme di indicatori economici, am-
bientali, di dotazione di servizi, etc.
Introduzione 3
Derivazione delle componenti
principali
La matrice delle covarianze
Sia X (n× p) la matrice dei dati, in cui il generico elemento xij
rappresenta la modalita che il j-mo carattere Xj assume in
corrispondenza dell’i-esima unita. La matrice delle covarianze e
S =
Var(X1) Cov(X1, X2) . . . Cov(X1, Xp)
Cov(X2, X1) Var(X2) . . . Cov(X2, Xp)
. . . . . . . . . . . .
Cov(Xp, X1) Cov(Xp, X2) . . . Var(Xp)
dove, per la generica coppia di variabili h e j la covarianza e:
Cov(Xh, Xj) =
∑ni=1(xih − xh)(xij − xj)
n
e la diagonale principale contiene le varianza di ciascuna variabile:
Cov(Xj , Xj) = σ2j =
∑ni=1(xij − xj)2
nDerivazione delle componenti principali 4
Definizione delle CP (I)
La derivazione delle componenti principali puo essere effettuata usan-
do le variabili originali o le variabili standardizzate.
Sia X (n × p) la matrice delle variabili espresse in termini di sco-
stamenti dalle loro medie con xj = xj − xj vettore colonna di n
elementi relativo al j-esimo carattere. La prima CP, y1 (n× 1), e
definita dalla seguente combinazione lineare delle p variabili
y1 = v11x1 + v12x2 + · · ·+ v1pxp = Xv1
dove v1 = [v11, v12, . . . , v1p]′
e il vettore colonna p−dimensionale
dei coefficienti della prima CP.
Derivazione delle componenti principali 5
Definizione delle CP (II)
La prima CP e, per definizione, la combinazione lineare di massima
varianza, e quindi si tratta di calcolare v1 tale che
Var(y1) = max
sotto la condizione di normalizzazione v′1v1 =
∑pj=1 v
21j = 1.
In assenza di un vincolo analogo la varianza potrebbe essere aumen-
tata in misura arbitraria. Si ottiene cosı il problema di massimizza-
zione vincolata
maxv1
Var(Xv1)= maxv1
v′1Sv1
v′1v1= 1
(1)
dove S (p× p) e la matrice delle covarianze di X.
Derivazione delle componenti principali 6
Definizione delle CP (III)
NOTA: Se si considera la matrice Z degli scostamenti standardizzati
(le variabili hanno media 0 e varianza 1) allora S coincide con la
matrice di correlazione R = [rhj ] in quanto
rhj =Cov(Zh, Zj)√
Var(Zh)Var(Zj)= Cov(Zh, Zj), h, j = 1, . . . , p
dove rhj ∈ [−1, 1] e il coefficiente di correlazione lineare tra le
variabili h-esima e j-esima. In questo caso si ha
S = R =
1 r12 . . . r1pr21 1 . . . r2p. . . . . . . . . . . .
rp1 rp2 . . . 1
ricordando che la matrice e simmetrica: rhj = rjh, per ogni h, j.
Derivazione delle componenti principali 7
Definizione delle CP (IV)
Per risolvere (1) si applica il metodo dei moltiplicatori di Lagrange,
cioe si massimizza la funzione
L = v′1Sv1 − λ1(v
′1v1 − 1)
dove λ1 e un moltiplicatore di Lagrange. Si ottiene il sistema di
derivate parziali ∂L∂v1
= 2Sv1 − 2λ1v1 = 0
∂L∂λ1
= 1− v′1v1 = 0,
da cui si ottiene
Sv1 = λ1v1 ⇒ (S− λ1Ip)v1 = 0
dove 0 e un vettore di p elementi tutti uguali a 0 e Ip e la matrice
identita di dimensioni p× p (o ordine p).
Derivazione delle componenti principali 8
Definizione delle CP (V)
In particolare λ1 e quel valore tale che
det(S− λ1Ip) = 0
da cui si trovano p soluzioni chiamate autovalori (tutti non
negativi). Avendosi poi Sv1 = λ1v1
Var(y1) = Var(Xv1) = v′1Sv1 = λ1v
′1v1 = λ1
per cui volendo massimizzare la varianza della prima CP si
scegliera come λ1 il massimo degli autovalori, indicato con λ(1).
Quindi la varianza della prima componente e uguale al primo
autovalore di S: λ1 = λ(1). Il vettore v1 che rende massima la
varianza della prima CP e il primo autovettore della matrice S.Derivazione delle componenti principali 9
Definizione delle CP (VI)
La seconda componente
y2 = v21x1 + v22x2 + · · ·+ v2pxp = Xv2
si trova risolvendo rispetto ad v2 = [v21, v22, . . . , v2p]′
maxv2
Var(Xv2)
v′2v2 = 1 (2)
v′2v1 = 0
dove il secondo vincolo serve a garantire la non correlazione con la
prima componente principale: Cov(y1,y2) = 0.
Derivazione delle componenti principali 10
Definizione delle CP (VII)
Procedendo analogamente mediante moltiplicatori di Lagrange si
ottiene:
(S− λ2Ip)v2 = 0
per cui si ha λ2 = Var(y2) e si sceglie il secondo autovalore in
ordine decrescente della matrice delle covarianze: λ2 := λ(2).
Definizione
Si dice i-esima componente principale di p variabili, espresse in
termini di scostamenti dalla media, la combinazione lineare
yi = Xvi i = 1, . . . , q ≤ p
in cui vi e l’autovettore associato all’i-esimo autovalore λi, in
ordine descrescente della matrice delle covarianze.
Derivazione delle componenti principali 11
La matrice delle CP
Alla fine del procedimento di estrazione si hanno p componenti
principali corrispondenti ai p autovalori λ1 ≥ λ2 ≥ . . . ≥ λp.
In particolare, si ottiene la matrice (n× p) delle CP: Y = XV
• V = [v1, . . . ,vp] e la matrice (p× p) le cui colonne sono gli
autovettori (loadings);
• la k-esima colonna di Y e la k-esima CP yk con media 0 e
varianza Var(yk) = λk, il relativo autovalore;
• essendo le CP incorrelate tra loro (Cov(yi,yk) = 0 per ogni
i, k) la matrice delle covarianze di Y e la matrice diagonale
degli autovalori
L =
λ1 0 . . . 0
0 λ2 . . . 0
. . . . . . . . . . . .
0 0 . . . λp
Derivazione delle componenti principali 12
Proprieta delle CP
• Il coefficiente di correlazione lineare tra la k-esima CP e la
j-esima variabile e
cor(Yk, Xj) =vkj√λk√
Var(Xj)
S=R−→ cor(Yk, Xj) = vkj√λk
• La somma degli autovalori e uguale alla varianza totale delle
CP (pari alla varianza totale delle variabili originali)
p∑k=1
λk = tr(S) = Var(X1) + · · ·+ Var(Xp)S=R−→
p∑k=1
λk = p
Il rapporto λ1/tr(S) fornisce la quota di varianza totale spiegata
dalla prima CP, λ2/tr(S) e la quota estratta dalla seconda, e
cosı via.
Derivazione delle componenti principali 13
I ‘punteggi’ delle componenti principali (I)
Si e visto che ogni componente principale e espressa come com-
binazione lineare degli scostamenti dalla media delle p variabili o
degli scostamenti standardizzati (che equivale a condurre l’analisi a
partire dalla matrice di correlazione). Si consideri il secondo caso.
Il punteggio (score) della prima CP, y1 = Zv1, per la i-esima unita
statistica e
yi1 = v11zi1 + · · ·+ v1szis + · · ·+ v1pzip i = 1, . . . , n
dove
zis = (xis − xs)/σs, s = 1, . . . , p
v1s = coeff. della prima CP e della s-esima variabile (cioe l’elemen-
to s-esimo del primo autovettore v1) e indica in quale misura tale
variabile concorre alla determinazione dei punteggi della prima CP.
Derivazione delle componenti principali 14
I ‘punteggi’ delle componenti principali (II)
Analogamente, il punteggio della seconda CP, y2 = Zv2, per la
i-esima unita statistica e
yi2 = v21zi1 + · · ·+ v2szis + · · ·+ v2pzip i = 1, . . . , n
• I punteggi cosı definiti hanno media nulla e varianza pari a λ1
(cio vale anche considerando gli scostamenti dalla media)
• Gli scores normalizzati si ottengono dividendo i punteggi per la
radice quadrata del rispettivo autovalore
• I punteggi delle componenti estratte possono essere trattati co-
me nuove variabili, sulle quali effettuare ulteriori elaborazio-
ni (e utile ottenere il diagramma degli scores delle CP come
nell’esempio che segue).
Derivazione delle componenti principali 15
Il caso di due variabili (I)
Consideriamo il caso piu semplice (poco realistico) di due variabili.
Nel caso p = 2 le CP sono rappresentate da rette.
Assi originari Assi delle componenti principali
Derivazione delle componenti principali 16
Il caso di due variabili (II)
• La prima CP, quella con la varianza piu grande, e la retta che
si dispone il piu possibile vicina ai punti (minimizza la somma
dei quadrati delle distanze perpendicolari dei punti dalla retta)
e nella direzione della massima variabilita dei dati.
• La seconda CP e una retta perpendicolare alla prima, essendo
le CP ortogonali; le due rette si incontrano nel punto (0, 0).
• Se consideriamo la rappresentazione mediante le componenti
principali come nuovi assi, si osserva che la posizione del
punto P sul piano (e della maggior parte dei punti) e
determinata in misura decisamente maggiore dall’asse delle
ascisse, cioe dalla prima CP.
Derivazione delle componenti principali 17
Derivazione delle CP: Esempio
Supponiamo di voler confrontare 5 imprese con l’impresa di interesse
U∗1 sulla base di due indici della situazione finanziaria (n = 6, p = 2).
• Indice di indebitamento: Totale Debiti/Patrimonio netto (X1)
• Current Ratio: Attivo circolante/Passivita correnti (X2)
Imprese x1 x2
U∗1 1.502 1.617
U2 2.953 0.673
U3 0.957 1.693
U4 1.631 0.584
U5 2.205 0.586
U6 2.016 0.508
Media 1.877 0.944
Varianza 0.389 0.256
Tabella 1: Dati per lo svolgimento dell’ACPDerivazione delle componenti principali 18
Derivazione delle CP: Esempio
• Cov(X1, X2) =1
6((1.502−1.877)(1.617−0.944)+. . .+(2.016−
1.877)(0.508− 0.944)) ≈ −0.220
• cor(X1, X2) =Cov(X1, X2)√
Var(X1)Var(X2)≈ −0.697
Si deduce che sui dati in esame, a valori piu grandi dell’indice di
indebitamento X1 (maggiore esposizione verso terzi) tendono a
corrispondere valori piu bassi di X2 (current ratio).
Si noti anche che X1 ha varianza piu elevata di quella di X2, e
avra quindi peso maggiore nella determinazione della componente
principale.
Derivazione delle componenti principali 19
Derivazione delle CP: Esempio
Per ricavare la prima componente principale y1 e necessario deter-
minare il vettore dei coefficienti v1 = [v11, v12] tale che maxv11,v12
Var(y1) = maxv11,v12
Var(v11x1 + v12x2)
sotto il vincolo v211 + v212 = 1.
dove xi1 = (xi1− x1) sono gli scarti dalla media del primo indice di
bilancio (x1 = 1.877), e xi2 = (xi2− x2) sono gli scarti dalla media
del secondo indice di bilancio (x2 = 0.944), per l’unita (impresa)
i = 1, . . . , 6.
La soluzione si trova dall’uguaglianza a 0 del determinante
det(S− λI2) = 0
dove S e la matrice di covarianza fra le variabili.Derivazione delle componenti principali 20
Derivazione delle CP: Esempio
(S− λI2) =
[σ21 Cov(X1, X2)
Cov(X2, X1) σ22
]− λ
[1 0
0 1
]
=
[0.389− λ −0.22
−0.22 0.256− λ
]
Ricordando che se A =
[a b
c d
]⇒ det(A) = ad− bc, si ha
det(S− λI2) = (0.389− λ)(0.256− λ)− 0.222
= λ2 − 0.645λ+ 0.0512 = 0
cioe si ottiene una equazione di secondo grado in λ le cui soluzioni
(autovalori) sono
0.645±√
0.6452 − 4(0.0512)
2=
0.552
0.093Derivazione delle componenti principali 21
Derivazione delle CP: Esempio
Quindi si sceglie λ1 = 0.552 come primo autovalore, e λ2 = 0.093
(λ1 > λ2). Si verifica immediatamente che
• la somma degli autovalori e uguale alla varianza totale:
0.552 + 0.093 = σ21 + σ22 = 0.645;
• la quota di varianza spiegata dalla prima componente
principale e λ1/(λ1 + λ2) = 0.856.
Il primo autovettore, v1, si trova sostituendo i valori numerici nel-
l’espressione
(S− λ1I2)v1 = 0
cioe [0.389− λ1 −0.22
−0.22 0.256− λ1
][v11
v12
]=
[0
0
]Derivazione delle componenti principali 22
Derivazione delle CP: Esempio
Posto λ1 = 0.552, si ottiene il sistema(0.389− 0.552)v11 − 0.22v12 = 0
−0.22v11 + (0.256− 0.552)v12 = 0
che fornisce infinite soluzioni proporzionali
v12 = 0.389−0.5520.22 = −0.74v11. Imponendo il vincolo di
normalizzazione v211 + v212 = 1 si ottiene poi:
v12 = −0.74√
1− v212 ⇒ v212 = 0.742(1− v212)
⇒ v12 ≈ 0.596, v11 ≈ −0.803
Scegliendo la soluzione positiva di v12, il primo autovettore e
v1 = [−0.803, 0.596].
Derivazione delle componenti principali 23
Derivazione delle CP: Esempio
Procedendo analogamente e imponendo i vincoli v221 + v222 = 1,
v21v11 + v22v12 = 0, si perviene al secondo autovettore (il corri-
spondente autovalore e λ2)
v2 = [−0.596,−0.803]
i cui elementi sono, in valore assoluto, gli stessi della prima CP, ma
scambiati. Cio si verifica perche stiamo considerando il caso banale
di due sole variabili (nel caso poi che le variabili siano standardizzate
si ha v11 = v21 = 1/√
2 e v12 = −v22 = 1/√
2).
La prima CP e quindi definita da
yi1 = −0.803 xi1 + 0.596 xi2 i = 1, . . . , 6 (3)
dove xi1, xi2 sono gli scostamenti dalla media delle due variabili
dell’i-esima impresa.Derivazione delle componenti principali 24
Valutazione dell’ACP
Riduzione delle variabili
La capacita dell’ACP nella riduzione delle variabili e influenzata da
due elementi.
a. La varianza delle variabili originarie. Le variabili con varian-
ze piu elevate assumeranno maggior peso e quindi maggiore
importanza nel calcolo delle componenti principali; e quindi op-
portuno valutare di operare la standardizzazione quando sono
presenti variabili con varianza molto diversa.
b. La correlazione fra le variabili originarie. Quando le variabili
sono molto correlate (positivamente o negativamente), l’ACP
potra realizzare una considerevole parsimonia nella descrizione
della matrice dei dati originari.
Valutazione dell’ACP 25
La quota di varianza spiegata
La riduzione del numero di variabili si ottiene considerando solo le
prime q con q < p, poiche come si e detto le CP hanno importanza
(varianza) decrescente. Si e visto che
Pk =λk∑pi=1 λi
(=λkp
per dati standardizzati
)e la percentuale di varianza (quota di informazione) riassunta dalla
k-esima CP; pertanto le prime q spiegano una percentuale (quota
cumulata) pari a
P ∗q =
q∑k=1
Pk
La percentuale di varianza spiegata dalle CP considerate fornisce
una valutazione globale della validita dell’analisi.
Valutazione dell’ACP 26
Criteri per la scelta del numero di CP
• Criterio della percentuale di varianza spiegata. Si scelgono le
prime q componenti principali in modo tale che queste, insie-
me, catturino almeno una prefissata percentuale, generalmente
dell’ordine di 70, 80%.
• Criterio della varianza media. Si scelgono le prime q componenti
principali che hanno una varianza superiore al valore della va-
rianza media, c = (1/p)∑
i λi, dove c = 1 nel caso di variabili
standardizzate.
• Si sceglie esaminando il diagramma scree, cioe la rappresenta-
zione, sul piano cartesiano, di (i, λi): si sceglie q in corrispon-
denza a un gomito del grafico, cioe un punto tale per cui gli
autovalori precedenti sono ‘grandi’ e quelli successivi ‘piccoli’.
Valutazione dell’ACP 27
Interpretazione dell’ACP
La correlazione tra le variabili e le CP (I)
In genere, si procede all’interpretazione delle CP esaminando segno
e ordine di grandezza della correlazione tra queste e ognuna delle
variabili originarie. I coefficienti di correlazione lineare tra le variabili
e le prime q CP forniscono informazioni fondamentali:
• il segno di tali coefficienti indica il tipo di relazione lineare,
diretta o inversa, tra la componente e la variabile;
• il valore numerico, in modulo, indica l’entita del legame.
Va comunque tenuto presente che non e per nulla garantito che a
partire da un dataset si ottengano componenti principali dotate di
interpretazione fisica.
Interpretazione dell’ACP 28
La correlazione tra le variabili e le CP (II)
Partendo dalla matrice degli scostamenti standardizzati, sia T la
matrice (n× q) di elementi tjk = cor(Yk, Xj) = vkj√λk
CP1 CPk CPq
T =
z1...
zj...
zp
t11 . . . t1k . . . t1q...
......
tj1 . . . tjk . . . tjq...
......
tp1 . . . tpk . . . tpq
→ h21 =
∑k t
21k
...
→ h2j =∑
k t2jk
...
→ h2p =∑
k t2pk
• la somma dei quadrati dei valori per riga da le comunalita h2j ,
per ogni variabile j = 1, . . . , p, pari alla quota di varianza di
ciascuna variabile spiegata in complesso dalle CP estratte.
• la somma per colonna dei quadrati degli elementi di T e pari
ai corrispondenti autovalori:∑
j t2jk = t21k + · · ·+ t2pk = λk
Interpretazione dell’ACP 29
Esempio: Confronto tra imprese
Nel caso in esame, le correlazioni della prima CP con X1 (indice di
indebitamento) e X2 (current ratio) sono:
cor(Y1, X1) =v11√λ1√
Var(X1)=−0.803
√0.552√
0.389= −0.957
cor(Y1, X2) =v12√λ2√
Var(X2)=
0.596√
0.093√0.256
= 0.876
Cio significa che Y1 varia in modo discorde con X1 e concorde
con X2: all’aumentare di X1 il valore della CP tende a diminuire,
mentre all’aumentare di X2 tende a crescere.
Possiamo allora considerare la prima CP come una misura di
struttura e di equilibrio finanziario: le imprese comparativamente
migliori avranno valori della prima CP piu elevati.Interpretazione dell’ACP 30
Esempio: Confronto tra imprese
Dalla (3) si calcolano i punteggi della prima CP. Ad esempio,
per la prima unita, l’impresa U∗1 si ottiene
y11 =− 0.803 x11 + 0.596 x12
=− 0.803(1.502− 1.877) + 0.596(1.617− 0.944) = 0.703
Analogamente si calcolano i punteggi della seconda CP. Per la
prima unita, l’impresa U∗1 si ha
y12 =− 0.596 x11 − 0.803 x12
=− 0.596(1.502− 1.877)− 0.803(1.617− 0.944) = −0.317
Tutti i punteggi cosı ottenuti sono riportati di seguito.
Interpretazione dell’ACP 31
Esempio: Confronto tra imprese
Imprese CP1 CP2
U∗1 0.703 -0.317
U2 -1.025 -0.424
U3 1.186 -0.053
U4 -0.017 0.436
U5 -0.476 0.092
U6 -0.371 0.267
Tabella 2: Punteggi della prima e seconda CP
Interpretazione dell’ACP 32
Esempio: Confronto tra imprese
0.0 0.5 1.0 1.5 2.0 2.5 3.0
0.0
0.5
1.0
1.5
2.0
x1
x 2
U1*
U2
U3
U4 U5U6
−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5−
1.5
−1.
0−
0.5
0.0
0.5
1.0
1.5
CP1
CP
2
U1*U2
U3
U4
U5
U6
Variabili originarie (Tabella 1) Componenti principali (Tabella 2)
Interpretazione dell’ACP 33
Esempio: Confronto tra imprese
• Dalla rappresentazione delle unita rispetto alle componenti
principali si deduce la posizione delle sei imprese rispetto al
punteggio della prima componente principale.
• Si nota che l’impresa d’interesse U∗1 si posiziona al secondo
posto rispetto alle altre aziende; U3 presenta, infatti, il valore
piu alto tra i punteggi della prima CP, mentre U2 appare la
peggiore.
• Si noti che l’ACP fornisce indicazioni in merito alla posizione
comparativa di una unita rispetto alle altre; ricorrendo ai dati
originari sara possibile capire il significato della posizione
individuata attraverso le componenti principali.
Interpretazione dell’ACP 34
Bibliografia
Bracalente, B., Cossignani, M., Mulas, A. (2009) Statistica
aziendale. McGraw-Hill Education.
Biggeri, L., Bini, M., Coli, A., Grassini, L., Maltagliati, M.
(2012) Statistica per le decisioni aziendali, Pearson, Milano.
Interpretazione dell’ACP 35