Upload
oswaldo-menendez
View
212
Download
0
Embed Size (px)
Citation preview
Tarea Nro 1
IPD-440: Aprendizaje de Máquinas
Oswaldo Aníbal Menéndez Granizo
02 de Abril de 2015
Problema 1.1 Encontrar una expresón general para el cálculo del gradiente de:
∇x
(xTAx
)(1)
xTAx =[x1 x2 . . . xn
]a11 a12 . . . a1n
a21 a22 . . . a2n...
.... . .
...
an1 an2 . . . ann
x1
x2
...
xn
(2)
Resolviendo la multiplicación de matrices se tiene:
xTAx = (a11x1 + a21x2 + · · ·+ an1xn)x1 + (a12x1 + a22x2 + · · ·+ an2xn)x2 + . . . (3)
+(a1nx1 + a2nx2 + · · ·+ annxn)xn
Aplicando la de�nición de Gradiente se obtiene:
∇x
(xTAx
)=
2a11x1 + (a21 + a12)x2 + · · ·+ (an1 + a1n)xn
(a21 + a12)x1 + 2a22x2 + · · ·+ (an2 + a2n)xn
...
(an1 + a1n)x1 + (an2 + a2n)x2 + · · ·+ 2annxn
(4)
De donde se nota que la matriz anterior puede ser representada como:
∇x
(xTAx
)=
a11 a12 . . . a1n
a21 a22 . . . a2n...
.... . .
...
an1 an2 . . . ann
+
a11 a21 . . . an1
a12 a22 . . . an2...
.... . .
...
a1n a2n . . . ann
x1
x2
...
xn
(5)
De donde se tiene �nalmente la siguiente expresión:
∇x
(xTAx
)=(A+AT
)x (6)
Para una matriz simétrica se tiene que se cumple que A = AT de donde se tiene:
∇x
(xTAx
)= 2Ax (7)
1
Problema 1.2 Encontrar una expresón general para el Hessiano de:
∇x2(xTAx
)(8)
Aplicando la de�nición de Hessiano a la expresión (3) se tiene:
∂2f (x)
∂x12
=∂
∂x1(2a11x1 + (a21 + a12)x2 + · · ·+ (a1n + an1)xn) = 2a11 (9)
∂2f (x)
∂x1∂x2=
∂
∂x1((a21 + a12)x1 + 2a22x2 + · · ·+ (a2n + an2)xn) = a21 + a12 (10)
∂2f (x)
∂x2∂x1=
∂
∂x2(2a11x1 + (a21 + a12)x2 + · · ·+ (a1n + an1)xn) = a21 + a12 (11)
∂2f (x)
∂x22
=∂
∂x2((a21 + a12)x1 + 2a22x2 + · · ·+ (a2n + an2)xn) = 2a22 (12)
De manera general derivando para el término xn se tiene las siguientes expresiones:
∂2f (x)
∂xn2
=∂
∂xn((an1 + a1n)x1 + (a2n + an2)x2 + · · ·+ 2annxn) = 2ann (13)
∂2f (x)
∂x1∂xn=
∂
∂x1((an1 + a1n)x1 + (a2n + an2)x2 + · · ·+ 2annxn) = an1 + a1n (14)
∂2f (x)
∂xn∂x1=
∂
∂xn(2a11x1 + (a21 + a12)x2 + · · ·+ (a1n + an1)xn) = an1 + a1n (15)
De donde se obtiene que el Hessiano viene dado por:
∇x2(xTAx
)=
2a11 a21 + a12 . . . an1 + a1n
a21 + a12 2a22 . . . an2 + a2n...
.... . .
...
an1 + a1n an2 + a2n . . . 2ann
(16)
La expresión anterior puede ser escrita de la siguiente manera:
∇x2(xTAx
)=
a11 a12 . . . a1n
a21 a22 . . . a2n...
.... . .
...
an1 an2 . . . ann
+
a11 a21 . . . an1
a12 a22 . . . an2...
.... . .
...
a1n a2n . . . ann
(17)
De donde se tiene �nalmente la siguiete expresión:
∇x2(xTAx
)= A+AT (18)
Para una matriz simétrica se tiene que se cumple que A = AT de donde se tiene:
∇x2(xTAx
)= 2A (19)
2
Problema 1.3.- De acuerdo a la ecuación caracterísitica obtenida en clases relacionada con los
vectores propios de la matriz de convarianza, obtenga una expresión para la proyección de los
datos X en un espacio de orden menor generado por los vectores propios donde este la mayor
parte de la varianza.
El objetivo de PCA es reducir el número de variables de los datos de entrada consevando la mayor cantidad de
información posible. El funcionamiento de PCA está enfocado a encontrar, a partir de un conjunto de datos de
entrada X con m variables, un vector de pesos u1 capaz de proyectar este conjunto de datos sobre la dirección
de máxima varianza de X, una vez que se encuentra u1, se busca encontrar un vector u2 que sea ortogonal a
u1 que retenga la máxima varianza posible, se continua así hasta encontrar el p-esimo elemento up ortogonales
entre sí. La matriz de covarianzas por de�nición es una matriz simétrica por el teorema espectral se garantiza
que cualquier matriz cuadrada simétrica con coe�cientes reales es ortogonalmente diagonalizable por lo que
todos sus autovectores son linealmente independientes y ortogonales entre sí, lo que garantiza que la proyección
de los datos sobre el espacio generado por lo p autovectores sea la suma de la proyección sobre cada vector de
la base dada en otras palabras:
Sea V un espacio vectorial de dimensión n <∞ y S = {s1, . . . , sk} un subconjuto l.i de dicho espacio, donde si
son los autovectores de la matriz de convarianza. Dado un vector v ∈ V , la proyección de v sobre el (sub)espacio
generado por S es igual a la suma de sus proyecciones sobre los elementos de S si y solo si los vectores de S son
ortogonales, es decir:
proySpan Sv = proys1v + · · ·+ proyskv (20)
Demostración Necesidad ⇒: Se puede expresar la condicón planteada de la siguiente manera
A ≡{s1 s2 . . . sn
}(21)
El Span de S es el espacio columnas de A (C (A)), además S genera el subespacio y todos sus elementos deben
ser l.i por lo que es una base. Se obtiene la proyección de v en el Span de S dado por:
proySpan Sv =[s1 s2 . . . sn
]
s1
T
s2T
...
s2T
[s1 s2 . . . sn
]
−1 s1
T
s2T
...
snT
v (22)
proySpan Sv =[s1 s2 . . . sn
]
s1T s1 s1
T s2 · · · s1T sn
s2T s1 s2
T s2 · · · s2T sn
......
. . ....
snT s1 sn
T s2 · · · snT sn
−1 s1
T
s2T
...
snT
v (23)
Ya que todos los vectores de S son ortogonales entre sí se tiene que:
〈si, sj〉 = siT sj = 0 i 6= j (24)
3
Aplicando este principio a (23) se tiene:
proySpan Sv =[s1 s2 . . . sn
]
s1T s1 0 · · · 0
0 s2T s2 · · · 0
......
. . ....
0 0 · · · snT sn
−1 s1
T
s2T
...
snT
v (25)
proySpan Sv =[s1 s2 . . . sn
]
(s1
T s1)−1
0 · · · 0
0(s2
T s2)−1 · · · 0
......
. . ....
0 0 · · ·(sn
T sn)−1
s1
T
s2T
...
snT
(26)
proySpan Sv = s1(s1
T s1)−1
s1T + s2
(s2
T s2)−1
s2T + · · ·+ sn
(sn
T sn)−1
snT (27)
proySpan Sv = proys1v + proys2v + · · ·+ proyskv (28)
Demostración Su�ciencia⇐: Se puede expresar a la condición planteada de la siguiente manera:
proySpan Sv − proys1v = proys2v + · · ·+ proyskv (29)
De�niendo a Ps1 ≡ proySpan Sv − proys1v se tiene:
Ps1 = proys2v + proys3v + · · ·+ proyskv (30)
Si nosotros analizamos a la proyección de v como un nuevo vector a que queremos proyectar en un subespacio
más pequeño se puede observa que Ps1 = Span{s1}⊥ pues represemta la parte del vector que no pertenece a s1.
De manera similar si se realiza el mismo procedimiento con los otros vectores se puede observar que para cada
vector Psi donde i = 1, 2, ..., k viene a ser el complemento ortogonal del Span de s1, por lo que se determina
que cada para de vectores de S son ortogonales entre sí.
4