View
3
Download
0
Category
Preview:
Citation preview
1
UPF, Anàlisi Multivariant, Examen Final,
11 de desembre de 2012, De 15.00 a 17.00,Aula 40.152 Professor: Albert Satorra
Instruccions: Aquest examen consta de tres apartats. El primer són 10 preguntes breus sobre temes diversos. El segon i el tercer són dos exercicis. Sigueu concisos en la resposta.
1- Preguntes breus (resposta correcta del apartat són 0.5 punts. Total de punts, 5 sobre 10). Feu un comentari breu (de màxim 4 ratlles de text) dels següents punts. Alerta que en alguns dels punts hi han afirmacions errònies. 1− En una anàlisi de Components Principals, la suma dels valors
propis és sempre igual al nombre de variables implicades en l’anàlisi.
2- Els valors propis d’una matriu de correlacions sempre són més petits o igual que 1.
3- En una análisi de components principals normat, totes les components principals tenen variància igual a 1 de manera que no cal estandarditzarles.
4- Suposeu tres variables incorrelaciondes (totes les correlacions són zero) X1, X2 i X3. Suposeu que X2 té variància doble de les altres dues que tenen la mateixa variància. En aquest cas, X2 coincideix amb la primera component principal.
5- En una Anàlisi de Coordenades Principals (MDS mètric) on no hi ha cap valor propi negatiu, no cal fer una anàlisi MDS no-mètrica.
6- Suposeu la matriu A següent A= [,1] [,2] [1,] 4 1 [2,] 1 4 Els valors i vector propis d’aquesta matriu són > eigen(A) $values [1] 5 3 $vectors [,1] [,2] [1,] 0.7071068 -0.7071068 [2,] 0.7071068 0.7071068 Considereu l’arrel quadrada B de la matriu A (producte de matrius); és a dir, BB = A. La matriu B és
eigen(A)$vectors %*%diag(eigen(A)$values)%*% t( eigen(A)$vectors)
7- En el biplot de les variables, les coordenades dels punts del
gràfic són les dues primeres components principals sense estandarditzar. En el biplot dels individus, les coordenades
2
dels punts del gràfic són les dues components principals estandarditzades.
8- Un economista mostra el següent gràfic, que diu és la grepresentació dels individus en les dues primeres components principals. Comenta’l
9- Suposem X és una matriu de dades i Y és la corresponent matriu de components principals. Aleshores, la suma de tots els elements de la matriu Y és igual a zero.
10- Suposeu X és una matriu de dades. Aleshores la matriu de variàncies i covariances de les dades estandarditzades scale(X) és la matriu de correlacions de X.
Exercici 1 (2.5 punts /10) En un congres de cata de vins, es considera una matriu de dades X de dimensions 178 per 5 (les variables V7,V8,V9,V10, V13 de la matriu de dades inicial). La matriu X correspon a 5 atributs (de percepció) observats en 178 vins diferents. A fi i efecte d’investigar aquests vins, fem una anàlisi de components principals. Les instruccions en programari R amb els corresponents resultats són les següents: Lectura de dades:
d = read.table("http://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data", sep=",")
attach(d) Creació de la matriu X: > X = cbind(V7,V8,V9,V10, V13) Valors i vector propis:
Component Principal 1
Com
pone
nt P
rinci
pal 2
3
> lambda=eigen(cov(scale(X)))$values > V=eigen(cov(scale(X)))$vectors *> round(lambda,2) [1] 3.44 0.67 0.48 0.29 0.11 **> round(V[,1:3],2) [,1] [,2] [,3] [1,] -0.48 -0.22 0.24 [2,] -0.51 -0.10 0.19 [3,] 0.36 -0.87 0.31 [4,] -0.41 -0.43 -0.77 [5,] -0.46 0.04 0.46 Valors estandarditzats dels primers 3 vins **> round(head(scale(X)),2) V7 V8 V9 V10 V13 [1,] 0.81 1.03 -0.66 1.22 1.84 [2,] 0.57 0.73 -0.82 -0.54 1.11 [3,] 0.81 1.21 -0.50 2.13 0.79 ----**+ biplot(princomp(scale(X)), cex=c(0.6,1))
Es demana:
-0.2 -0.1 0.0 0.1 0.2
-0.2
-0.1
0.0
0.1
0.2
Comp.1
Comp.2
1
2
3
4
5 6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22 23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
3839
40
41
42
43
4445
46
47
48
4950
51
52
5354
55
56
5758
59
60
61
62
63
64
65
66
67
68
69
70
7172
73
74
75
76
77
78
79
80
8182
83
84
8586
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108 109
110
111
112
113
114
115
116
117
118119
120 121
122
123
124125
126
127
128
129
130
131132133
134
135136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151152
153
154
155
156
157
158
159
160
161
162
163
164165
166
167
168
169
170
171
172
173
174
175176
177
178
-10 -5 0 5 10
-10
-50
510
V7V8
V9
V10
V13
4
1. Percentatge de variació explicada per cada una de les dues primeres components principals.
2. Equació que expressa la primera component principal en funció dels valors estandarditzats de les variables
3. Puntuació del vi 3 en la primera component principal. Els valors estandarditzats del vi 3 en les 5 variables són els es mostren en (-***)
4. Mirant el biplot, quines són les variables que defineixen la primera component principal?. En el biplot que presentem, la representació dels individus s’ha efectuat emprant les components principals estandarditzades?
5. Calculem les distancies de Manhattan (Eixample) entre els tres primers vins, i obtenim els següents valors emprant la funció dist de R dist(scale(X)[1:3,], method="manhattan", diag=T, upper=T, p=1) 1 2 3 1 0.00 xxx 2.31 2 xxx 0.00 4.04 3 2.31 4.04 0.00 Malhauradament, la distància corresponent als vins 2 i 3 l’hem perduda (en la matriu és el xxx). Calculeu aquesta número xxx que falta. Empreu els valors de les dades estandarditzades que es mostren en **>
Exercici 2 (2.5 punts /10) En relació a la matriu de dades X de l’exercici anterior, efectuem una anàlisi d’agrupaments, i obtenim els següents resultats emprant les funcions dist i també la funció hclust. plot(hclust(dist(scale(X), method="minkowski", diag=T, upper=T, p=5), method="average"), cex=0.6
5
Es demana 1. Descriu el mètode emprat en aquesta anàlisi d’agrupaments. Comenta sobre el tipus de distància així com el tipus de criteri de distància entre grups. 2. Podem dir que hi ha dos tipus de vins? Quins són els més atípics en el primer i en el segon tipus? 3. Continuem l’ anàlisi d’agrupaments, i definim la variable cluster cluster = cutree(hc,2) Fem > table(cluster) cluster 1 2 110 68 i veiem que tenim la classificació en el cluster 1: 110 vins, i en cluster 2: 68 vins. Ens asomen que la base dades conté la variable V1 que classifica els vins en tres grups: > table(V1) V1 1 2 3
122
111
5115 125
14 100
79 9670
75 95 6459 99
4 531
8552
8222 947 30
4336
20 5532 72
5674
1021 40 45
47 5748
11 6741 50 6 19
31 493
110
18 127
5 54 26 80 29
121
9 17124
4413 98
3716 58
66123
109
33 129
6824
23 2527 126
2 468
103 88 90
105
117107
118
120
7728 112 38 3981 86
35 4212 101
34 115
116
128
104
114
8789
83 130
154
113
84 9392
91 108 169
173
146
176
149
167
175
166
157
155
177
137
172
147
171
165
164
168
119
65 78141
143 144
174
148
162
156
135
178 136
138
158
139
163
62 16161
69 140
76 170
102
63 7360 142
132
133
151
152 131 134
150
71 145
97 153
106
159
160
0.0
0.5
1.0
1.5
2.0
2.5
Cluster Dendrogram
hclust (*, "average")dist(scale(X), method = "minkowski", diag = T, upper = T, p = 5)
Height
6
59 71 48 Aquesta classificació segons V1 la veiem en el gràfic de vins en les dues primeres components principals.
plot(princomp(scale(X))$scores[,1:2], col=V1, xlim=c(mi,ma),ylim=c(mi,ma), cex=0.5, main="Vins en les dues primeres CP (nombre indica group segons V1)", type ="n", axes=F) axis(1); axis(2) text(princomp(scale(X))$scores[,1:2], as.character(V1), cex=0.8, col=V1 ) abline(v=0, lty=3, col="blue"); abline(h=0, lty=3, col="blue")
Creuant la classificació de V1 i la nova de cluster, obtenim la taula següent: > table(cluster, V1) V1 cluster 1 2 3 1 59 51 0 2 0 20 48
Vins en les dues primeres CP (nombre indica group segons V1)
Comp.1
Comp.2
-3 -2 -1 0 1 2 3
-3-2
-10
12
3
1
1
1
1
1 1
1
1
1
1
1
1
1
1
1
1
1
11
1
11 1
1
1
1
1
1
1
1
1
1
11
11
1
11
1
1
11
11
1
1
1
11
11
11
1
111
1
2
2
2
2
2
2
2
2
2
2
2
2 2
2
2
2
2
2
2
22
2 2
2
2
22
2
2
2
2
22
2
2
2
2
2
22
2
22
22
2
2
2
2 22
2
2
2
22
2
2
22
2 2
2
2
22
2
2
2
2
2
333
3
33
3
3
33
3
3
3
3
3
3
3
33
3
33
3
3
3
3
3
3
3
3
3
3
3
33
33
3
3
3
3
33
333
33
7
Atenent al gràfic i a la taula de classificació, comenteu la relació entre les dues classificacions dels vins, la antiga de V1 i la nova de cluster. 4. Comenteu breument quin paper podria jugar en aquest context de problema l’anàlisi discriminant.
Recommended