Upload
dinhtuyen
View
225
Download
0
Embed Size (px)
Citation preview
2.Métodos de Descomposición Lineal de las Observaciones
2.1. IntroducciónEl avance tecnológico en los mecanismos de obtención de datos en multitud de materias ha provocado que la base de datos disponible sea muy extensa y contenga una mayor información que podría desembocar en la resolución del problema en estudio. Dicha información se encuentra latente esperada a ser descubierta pero dada la magnitud de la información, el análisis y la extracción de características se hace cada vez más difícil.
La descomposición de estos datos originales en un nuevo conjunto, sin necesidad de pérdida de información relevante y sacando a la luz la información latente, parece de vital importancia. En este capítulo se estudiarán las técnicas de reducción de dimensión a través de la transformación de los datos originales en un nuevo conjunto o seleccionando un subconjunto de los mismos: Análisis de Componentes Principales (PCA), Descomposición en Valores Singulares (SVD) y Descomposición No Negativa de Matrices (NMF).
Este capítulo está organizado de la siguiente forma: en la sección 2.2 se lleva a cabo el estudio del Análisis de Componentes Principales. Para tal fin se plantea el problema que supone PCA, se lleva a cabo la búsqueda de las Componentes Principales y se finaliza con un ejemplo que corrobora los resultados teóricos. En la sección 2.3 pasamos a estudiar la Descomposición en Valores Singulares empleada en la resolución del problema PCA. Tras un estudio de la descomposición y descomposición truncada de una matriz genérica se lleva a cabo un ejemplo numérico. En la sección 2.4 pasamos a estudiar el modelo básico de la Factorización No Negativa de Matrices. Acto seguido analizamos brevemente la NMF simétrica, semiortogonal, tri-NMF, multicapa y convolutiva, versiones particulares de la NMF básica. En los apartados siguientes se plantea un método para obtener la mejor solución posible de la NMF y se estudian algunos criterios de parada en los algoritmos iterativos empleados en el cálculo de la NMF. La sección 2.5 se corresponde con una revisión del capítulos y extracción de conclusiones.
13
2.2. Análisis de Componentes PrincipalesEl principal objetivo del Análisis de Componentes Principales (PCA) [Jolliffe] [Hyvärinen] es reducir la dimensión de un conjunto de variables aleatorias manteniendo la mayor cantidad información posible. La utilidad del PCA radica en eliminar la redundancia de información existente, poder identificar las posibles variables latentes que se encuentran ocultas en la información original y el transformar las variables originales, normalmente correladas, en variables incorreladas para una mejor interpretación de los datos. Si las variables originales son independientes, el análisis PCA es irrelevante.
Esta reducción de la dimensión se logra a través de la transformación de dichas variables a través del álgebra lineal en un nuevo conjunto de variables denominadas Componentes Principales (Principal Components, PC). Estos Componentes o Factores Principales se corresponden con las direcciones en las que los datos tienen la máxima varianza. Además, dichos PC serán una combinación lineal de las variables originales, estarán incorrelados y ordenados de modo que los primeros contendrán la mayor parte de la información de los datos originales.
2.2.1. Planteamiento del Problema
Supongamos un vector X compuesto por p variables aleatorias:
X =[X
1,...,X
p]
t ,
donde cada variable Xi está compuesta por n observaciones Xi=[Xi,1,..., Xi,n] y existiendo la restricción n !p. A partir de este vector se pretende obtener otro
conjunto Y de variables aleatorias:
Y =[Y
1,..., Y
q]
t , donde q ! p
de forma que sean incorreladas entre sí y cuyas varianzas vayan decreciendo progresivamente. El error que se comete al transformar X en Y es menor cuanto mayor es el valor de q, siendo el error nulo en la igualdad q=p.
2.2.2. Obtención de las Componentes Principales
Una vez tenemos definido el problema vamos a ver la forma de llegar a la solución que nos ofrece la reducción de las dimensiones del problema y nos extrae características inherentes en el conjunto de datos originales.
En PCA, la matriz de datos originales X es centrada a partir de la extracción de la media de sus componentes:
X
c
i= X
i! E{X
i} ,
por lo que E{X} = 0 .
Sea RX=E{XXt} la matriz de correlaciones de la matriz X centrada. Puesto que RX es una matriz simétrica y definida positiva se puede demostrar que posee p autovalores reales y diferentes que garantizan que RX sea diagonalizable. Es decir,
se puede encontrar una matriz T invertible tal que:
2. Métodos de Descomposición Lineal de las Observaciones
14
(2.1)
(2.2)
(2.3)
R
X= T!T
"1
,
donde T=[T1,...,Tp]t es una matriz formada por los autovectores RX y
! = diag ["
1,...,"
p]una matriz diagonal formada por sus autovalores.
A continuación normalizamos los autovectores de la matriz T, redistribuimos los
valores !
i de la matriz ! de acuerdo con su magnitud, de forma que
!
i> !
j para
todo i < j , y rotamos de la misma manera las columnas de T.
Una vez tenemos preparada la matriz T estamos en disposición de obtener las
Componentes Principales. Si seleccionamos las q primeras columnas de la matriz T
y multiplicamos por la matriz de datos originales centrada X obtenemos la matriz
Y:
Y = T
(q)
tX =[Y
1,..., Y
q]
t,
denominada Variable de Componentes Principales. Cada Yi se denomina
Componente Principal y es una combinación lineal de las variables originales X.
2.2.3. Ejemplo de PCA
Para ver el procedimiento de forma numérica, consideremos el siguiente ejemplo
donde se tienen p=2 vectores de observaciones, X1 y X2, procedentes de dos
señales de voz.
Figura 2.1 Señales originales X1 (eje horizontal) y X2 (eje vertical).
La matriz de correlaciones para estas dos señales es:
Rx=
0.0901 0.0137
0.0137 0.2058
!
"#
$
%& .
Las matrices ! y T, obtenidas de la descomposición en autovalores y autovectores
de la matriz de correlaciones RX, son:
2.2 Análisis de Componentes Principales
15
(2.4)
(2.5)
! =0.2074 0.0000
0.0000 0.0885
"
#$
%
&' y
T =-0.1162 -0.9932
-0.9932 0.1162
!
"#
$
%& , respectivamente.
La Variable de Componentes Principales Y obtenida de la aplicación del método de descomposición PCA es:
Figura 2.2 Señales obtenidas al aplicar el método de descomposición PCA. Y1 (eje horizontal) y Y2 (eje vertical).
Los vectores directores obtenidos en las nuevas componentes se obtienen a partir de las dos primeras columnas de la matriz T, es decir, son los autovectores correspondientes a los autovalores de mayor magnitud.
PCA pude verse como la rotación de los ejes originales, donde la variabilidad de los datos se conserva pero las nuevas componentes permanecen incorreladas. Como comprobación podemos observar que la matriz de correlación de la Variable de Componentes Principales es:
RY=
0.2074 0.0000
0.0000 0.0885
!
"#
$
%& ,
por lo que las componentes Yi son incorreladas y tienen varianza decreciente como cabía esperar.
2.3. Descomposición en Valores SingularesLa Descomposición en Valores Singulares (Singular Value Decomposition, SVD) es uno de los métodos de factorización más conocidos y empleados.
En el apartado anterior correspondiente al Análisis de Componentes Principales (PCA) hace uso de este método de descomposición en la búsqueda de los PC. La ecuación (2.4) descompone la matriz cuadrada RX en un producto de tres matrices de la misma forma que haría la SVD [Wall] [Janecek]. Dada una matriz Y de dimensiones IxT (T>I) y rango r, su descomposición en valores singulares viene dada por:
2. Métodos de Descomposición Lineal de las Observaciones
16
Y = U! Vt= "
jU
jV
j
t
j=1
J
! ,
donde la matriz U=[U1,...,UI]t de dimensiones IxI está compuesta por los I vectores singulares izquierdos, la matriz V=[V1,...,VT]t de dimensiones TxT está
compuesta por los T vectores singulares derechos, ! = diag ["
1,...,"
T] es una
matriz diagonal de dimensiones IxT cuyos elementos de la diagonal principal
representan a los valores singulares. Dichos valores son no negativos y están
ordenados de forma decreciente:
!
1" !
2" ... " !
J> !
J+1= !
J+2= ... = !
I= 0
y se obtienen como las raíces cuadradas de los autovalores de la matriz de
covarianza (1/T)YYt de dimensiones IxI.
El producto U
jV
j
t es una matriz IxT de rango unidad conocida como la autoimagen
j-éisma de Y. Además, los vectores singulares derechos e izquierdos son vectores
ortogonales ( U
i
tUj= !
ij y
V
i
tVj= !
ij), cumpliéndose UtU=VtV=I.
Figura 2.3 Descomposición en Valores Singulares (SVD). Los elementos no representados de la matriz diagonal ! son cero.
En multitud de aplicaciones es más práctico trabajar con una forma truncada de la
SVD donde únicamente se toman los P<J primeros valores singulares, por lo que:
Y ! U(P)
"(P)
V(P)
t= #
jU
jV
j
t
j=1
P
" ,
donde U(p)=[U1,...,Up]t tiene dimensiones IxP, V(p)=[V1,...,Vp]t tiene dimensiones
TxP y !
(P)= diag ["
1,...,"
P].
Esta descomposición no es una descomposición exacta de la matriz Y pero, según
el teorema de Eckart-Young es la mejor aproximación de rango P en términos del
error cuadrático medio.
Aunque esta descomposición es muy empleada su uso está limitado a
representaciones de datos en dos dimensiones por lo que en situaciones donde la
estructura de datos se compone de matrices de orden superior puede ser
insuficiente. Es necesario así utilizar descomposiciones de matrices o tensores con
el fin de mantener el significado físico de todas las componentes. Por ejemplo, en
estudios que engloban el estudio de múltiples sujetos los datos se agrupan en
2.3 Descomposición en Valores Singulares
17
(2.6)
(2.7)
(2.8)
estructuras de bloques de tres dimensiones. Si se analizara cada individuo por separado a partir de una cara del bloque multidimensional se perdería la información de la covarianza entre todos los sujetos en estudio, siendo la descomposición o factorización de matrices/tensores la solución natural al problema.
2.3.1. Ejemplo de SVD
En este apartado vamos a ver un ejemplo numérico de la descomposición SVD y de la reducción de la dimensión a través de la misma.
Partiendo de una matriz A de dimensiones [5,3], su Descomposición en Valores Singulares viene dada por:
Figura 2.4 SVD de la matriz A. La matriz U está compuesta por los 5 vectores singulares izquierdos; la matriz V por los 3 vectores singulares derechos; la matriz ! es diagonal y está formada por los
valores singulares.
Como era de esperar, las matrices U y V tienen dimensiones [5,5] y [3,3] respectivamente y están formadas a partir de los vectores singulares. Por otro lado, la matriz diagonal ! contiene en su diagonal principal los valores singulares
dispuestos en orden decreciente.
Si en vez de tomar los tres valores singulares nos quedamos con los dos mayores y eliminamos el de menor valor estamos ante la mejor aproximación de rango 2 en términos del error cuadrático medio:
Figura 2.5 SVD truncada de la matriz A. La matriz Up está compuesta por los 4 vectores singulares izquierdos; la matriz Vp por los 2 vectores singulares derechos; la matriz ! es diagonal y está
formada por los 2 valores singulares de mayor tamaño.
2.4. Factorización No Negativa de MatricesUno de los principales problemas de los mecanismos hasta ahora estudiados, PCA y SVD, radica en la interpretación de los datos obtenidos. La Factorización No Negativa de Matrices (NMF) mejora la interpretación y visualización de los mismos sin necesidad de perder sentido físico.
2. Métodos de Descomposición Lineal de las Observaciones
18
Así pues, la NMF permite reducir las dimensiones de los datos a la vez que hace
visibles ciertas características de los mismos que en un principio no podían ser
observadas.
La Factorización No Negativa de Matrices nace en 1999 a partir de los trabajos de
Lee y Seung [Lee] sobre la descomposición de imágenes a partir de elementos
reconocibles. La principal diferencia entre este método desarrollado y otros
métodos de factorización clásica se basa en la limitación de la no negatividad
impuesta al modelo. Esta condición que a priori parece muy restrictiva no es tal
para un gran número de campos de trabajo. Gracias a esta peculiaridad, se lleva a
cabo la representación de los datos a partir de combinaciones aditivas y nunca
substractivas, lo que se traduce en que cada una de las partes que conforman la
suma pueda ser considerado como parte de los datos originales. Otras técnicas de
factorización descomponen la matriz en una serie de matrices de cualquier signo
que lleva a una interpretación poco intuitiva y difícil.
2.4.1. El Modelo Básico NMF
El problema de la Factorización No Negativa de Matrices (NMF) puede describirse tal
que, dada una matriz Y de dimensiones IxT definida positiva (Y ! 0 o Yi,j! 0) y de
rango J (J !min(I,T)), se busca un par de matrices no negativas A=[A1,...,AJ] y
X=Bt=[B1,...,BJ]t que permitan factorizar Y de la mejor manera posible:
Y = AX +E = ABt+E ,
donde la matriz E representa el error cometido durante la factorización1. En caso de
obtenerse una descomposición exacta (E=0), la NMF pasa a denominarse
Factorización No Negativa de Rango (Nonnegative Rank Factorization, NRF).
Las matrices A y X tienen diferente sentido físico en las diferentes aplicaciones.
Para BSS A tiene el papel de matriz de mezcla mientras que X representa las
fuentes. En problemas de clustering A representa la matriz base mientras que X
denota la matriz de pesos. En el análisis acústico, A representa los parámetros
base, siendo cada columna de X las posiciones en las que el sonido está activo
[Cichocki02].
Por otro lado, podemos expresar el problema NMF a través de la suma del producto
externo de dos vectores:
Y = Aj
j=1
J
! !Bj+E = A
jj=1
J
! Bj
t+E ,
de forma que la matriz Y es construida a partir de la suma de matrices no
negativas de rango unidad A
jB
j
t.
2.4 Factorización No Negativa de Matrices
19
1 Dado que la notación que se está siguiendo a la hora definir una matriz es por columnas, con el fin de evitar una mayor complejidad en las expresiones resulta conveniente utilizar la
matriz B=Xt en lugar de la matriz X.
(2.9)
(2.10)
Figura 2.6 Modelo Bilineal de la NMF. La matriz Y es representada como una combinación lineal de matrices no negativas de rango unidad más un error desconocido.
De entre todas las posibles representaciones de la matriz Y, el menor número de matrices no negativas de rango unidad que reproducen la matriz Y se define como su rango no negativo, denotado como ran+(Y), cumpliéndose que:
ran(Y) ! ran
+(Y) ! min(I, T)
2.4.2. NMF: Casos Particulares
A parir del modelo básico NMF se pueden definir diferentes casos particulares según las propiedades que presenten las diferentes matrices implicadas [Cichocki02]:
! NMF simétrica. En el caso particular en el que A=B, la descomposición pasa a denominarse NMF-simétrica y cumple que:
Y = AAt+E
En caso de existir completa simetría (E=0) se dice que Y (IxI) es completamente positiva (CP) y el menor número de columnas de A (IxJ) que satisfacen Y=AAt se denomina rango-cp de la matriz Y, rancp(Y).
! NMF semiortogonal. La NMF semiortogonal se define del mismo modo que la NMF básica, con la particularidad de que alguna de las matrices A o X cumple la restricción:
AtA = I o XX
t= I
! Tri-NMF. La NMF de tres factores se define como:
Y = ASX +E ,
donde A tiene un tamaño IxJ, S tiene dimensiones JxR y X tiene dimensiones JxT.
Si no se impone restricción alguna a los factores (aparte de la no negatividad) estamos ante el caso de la NMF estándar si consideramos alguna de las transformaciones:
A ! AS o X ! SX .
Sin embargo, si aplicamos restricciones adicionales o nos encontramos ante situaciones particulares se pueden obtener mejores resultados que los que se podrían obtener mediante la NMF básica dado la estructura distribuida de este método. Por ejemplo, con este método de descomposición se disminuye el riesgo de converger hacia un mínimo local de la función de coste.
2. Métodos de Descomposición Lineal de las Observaciones
20
(2.11)
(2.12)
(2.13)
(2.14)
(2.15)
Figura 2.7 NMF de tres factores (Tri-NMF). El objetivo es, dada la matriz S, estimar las matrices A y X.
! NMF multicapa. La NMF multicapa puede verse como una generalización
de la Tri-NMF en la que la matriz A se reemplaza por un conjunto de
matrices (factores) dispuestas en cascada. Este modelo puede describirse
como:
Y = A(1)
A(2)!A
(L)X +E.
Dado que el modelo es lineal, todas los factores pueden reagruparse en
una única matriz A, sin embargo, la estructura distribuida de este modo
de descomposición sirve para mejorar las prestaciones de algunos
algoritmos NMF y mejorar el problema de los mínimos locales.
Figura 2.8 NMF multicapa. En este modelo la matriz A se encuentra distribuida a lo largo de las matrices factor A(i).
! NMF convolutiva. La NMF convolutiva (CNMF) es una extensión natural de
la NMF estándar. En este modelo se dispone de un conjunto de matrices
no negativas {A1,A2,...,AP-1} las cuales se relacionan con versiones
desplazadas de la matriz X:
Y = Yp+E =
p=0
P!1
" ApX
[p]+E
p=0
P!1
" ,
donde X[p]
representa la versión de X desplazada p columnas.
2.4 Factorización No Negativa de Matrices
21
(2.16)
(2.17)
Figura 2.9 NMF Convolutiva (CNMF). El objetivo es estimar las matriz X y el sistema convolutivo a través de las matrices no negativas Ap (p=1,...,P). Cada operador T indica un desplazamiento de las columnas de la matriz X.
2.4.3. Búsqueda de la Mejor Solución
A la hora de obtener las matrices A y X en la NMF estándar necesitamos una medida de similitud que nos permita medir la diferencia entre la matriz original Y y
la aproximación obtenida por el modelo NMF Y = AX . La medida más simple y utilizada se basa en la norma de Frobenius:
D
F(Y AX) =
1
2Y ! AX
F
2
,
Mediante esta función de coste no es posible la convergencia hacia una solución adecuada si intentamos optimizar ambas matrices a la vez. Por el contrario, esta función de coste es convergente de forma separada para la matriz A y X. Así pues, para minimizar el coste total se puede emplear el algoritmo ALS (Alternating Least Squares) que describimos a continuación:
1. Inicializamos A de forma aleatoria o mediante alguna estrategia determinista. El éxito de la solución alcanzada tras la aplicación del algoritmo NMF depende en gran medida de las condiciones iniciales que se impongan. Una mala elección de la matriz inicial da lugar a lentitud en la convergencia e incluso a incorrectas o que no aportan información alguna.
2. Estimamos X de la ecuación AtY = A
tAX de forma que:
min
X
DF(Y AX) =
1
2Y ! AX
F
2
, estando fijada la matriz A.
3. Imponemos un valor ! próximo a cero (típicamente 10-16) a todos los
elementos de la matriz X obtenida que sean menores que cero.
4. Estimamos A de la ecuación XYt= XX
tA
t de forma que:
2. Métodos de Descomposición Lineal de las Observaciones
22
(2.18)
min
A
DF(Y AX) =
1
2Y
t! X
tA
t
F
2
, estando fijada la X.
5. Imponemos un valor ! próximo a cero (típicamente 10-16) a todos los
elementos de la matriz A obtenida que sean menores que cero.
Este algoritmo no garantiza la convergencia hacia un mínimo global o hacia un
punto estacionario, sino que garantiza que la función de coste deja de decrecer.
2.4.4. Criterios de Parada
Existen multitud de criterios de parada para los algoritmos iterativos empleados en
la Factorización No Negativa de Matrices:
! La función de coste llega a un valor próximo a cero o por debajo de un
umbral establecido ! :
D
F(Y Y
(k)) = Y ! Y(k)
F
2
" #
! No se consigue mejora en la función de coste (o es muy pequeña) entre
varias iteraciones sucesivas:
DF
(k)!D
F
(k!1)
DF
(k)" #
! No se producen cambios (o son muy pequeños) en las matrices X y A.
! El número de iteraciones empleadas supera el límite preestablecido.
En la práctica, las iteraciones continúan hasta que se cumplen varios de los criterios
anteriormente mencionados.
2.5. Conclusiones
En este capítulo se abordaron los mecanismos de descomposición lineales más empleados a la hora de mejorar la visualización de los datos.
En un primer lugar analizamos cómo PCA consigue obtener una combinación lineal de las variables originales a través de la rotación de los ejes de coordenadas.
Posteriormente se analizó la SVD, herramienta empleada en la búsqueda de los PC, y ejecutamos un ejemplo donde se comprobó la mejor aproximación en términos del error cuadrático medio de la SVD truncada.
Para concluir con los mecanismos de descomposición lineales analizamos la NMF,
tanto básica como algunas de sus versiones. En algunas aplicaciones, la reducción de la dimensión es útil únicamente si la interpretación de los datos originales se sigue manteniendo en los datos obtenidos. En contraste con PCA o SVD, la NMF mejora la interpretación y visualización de los datos sin necesidad de perder el sentido físico de los mismos.
El problema de la Separación Ciega de Fuentes puede ser atacado desde diversos
frentes y en este capítulo se han introducido algunos de los mecanismos empleados
en el método ICA para la solución de este problema.
2.5 Conclusiones
23
(2.19)
(2.20)