Upload
others
View
5
Download
0
Embed Size (px)
Citation preview
Manifold Learning
Mateo Dulce Rubio
Mayo 2017
Mateo Dulce Rubio
Manifold Learning
Referencia principal:
Semi-Supervised Learning on Riemmanian Manifolds,Mikhail Belkin & Partha Niyogi, 2004.
Mateo Dulce Rubio
Manifold Learning
Problema de clasificacion
Supongamos que tenemos un espacio X , cuyos elementos debemosclasificar entre las dos clases C1, C2. El modelo probabilistico paraeste problema es la funcion de densidad de probabilidad p(x), y lasdensidades de cada clase {p(C1|x ∈ X )}, {p(C2|x ∈ X )}.
Es decir, necesitamos conocer como se distribuyen los datos, ycomo se asignan a cada una de las clases.
Mateo Dulce Rubio
Manifold Learning
Motivacion
Los datos no etiquetados (unlabeled data) por sı mismos no danmucha inforamacion sobre las reglas de asignacion a las clases,justamente por no tener etiqueta.
Sin embargo, es difıcil (costoso) conseguir datos etiquetados (labeldata).
Mateo Dulce Rubio
Manifold Learning
Motivacion
¿Como con relativamente pocos datos etiquetados podemosclasificar muchos datos no etiquetados?
→ Semi-Supervised Machine Learning
Mateo Dulce Rubio
Manifold Learning
Aproximacion
Explotar la estructura intrınseca de los datos para mejorar laclasificacion de datos no etiquetados, bajo el supuesto de que losdatos residen en una variedad de baja dimension dentro de unespacio de representacion de alta dimension.
Mateo Dulce Rubio
Manifold Learning
Aproximacion
Por ejemplo, en clasificacion de texto, los documentos serepresentan usualmente por vectores cuyos elementos soncontadores de palabras en el documento. Aunque no esta claro porque el espacio de documentos deberıa ser una variedad, sı se puedever que tiene una estructura compleja y que solo ocupa unapequena parte dentro del gigantesco espacio de representacion.
Mateo Dulce Rubio
Manifold Learning
Aproximacion
Los datos no etiquetados no dan informacion sobre la regla deasignacion, pero sı sobre la distribucion (p(x)) de los datos en elespacio.
Por su parte, los datos etiquetados sı nos permiten estimar como seclasifican los datos en el espacio, {p(C1|x ∈ X )}, {p(C2|x ∈ X )}.
Mateo Dulce Rubio
Manifold Learning
Ejemplo
Labeled data Unlabeled data Underlying manifold
Mateo Dulce Rubio
Manifold Learning
Ejemplo
No siempre se puede clasificar ? solo con los datosetiquetados.
Los datos no etiquetados no dan informacion sobre las reglasde clasificacion, pero sı del espacio de representacion, queasumimos es una variedad.
Mateo Dulce Rubio
Manifold Learning
Ejemplo
No siempre se puede clasificar ? solo con los datosetiquetados.
Los datos no etiquetados no dan informacion sobre las reglasde clasificacion, pero sı del espacio de representacion, queasumimos es una variedad.
Mateo Dulce Rubio
Manifold Learning
Ejemplo
Es mas importante la distancia (geodesica) sobre la variedadsubyacente, que la distancia Euclideana del plano.
Puntos que inicialmente parecen muy cercanos en el plano,estan a lados opuestos de nuestra variedad.
Es por esto que se deben crear los clasificadores sobre lavariedad subyacente, y no sobre el espacio de representacioncompleto.
Mateo Dulce Rubio
Manifold Learning
Ejemplo
Es mas importante la distancia (geodesica) sobre la variedadsubyacente, que la distancia Euclideana del plano.
Puntos que inicialmente parecen muy cercanos en el plano,estan a lados opuestos de nuestra variedad.
Es por esto que se deben crear los clasificadores sobre lavariedad subyacente, y no sobre el espacio de representacioncompleto.
Mateo Dulce Rubio
Manifold Learning
Ejemplo
Es mas importante la distancia (geodesica) sobre la variedadsubyacente, que la distancia Euclideana del plano.
Puntos que inicialmente parecen muy cercanos en el plano,estan a lados opuestos de nuestra variedad.
Es por esto que se deben crear los clasificadores sobre lavariedad subyacente, y no sobre el espacio de representacioncompleto.
Mateo Dulce Rubio
Manifold Learning
Ejemplo
Aunque los datos sugieren una variedad subyacente, elproblema no es completamente trivial dado que dos partes dela curva se acercan demasiado, y puede causar confusion
Muchas formas de representar la misma variedad(homeomorfismos, bajo cambio de coordenadas).
Mateo Dulce Rubio
Manifold Learning
Ejemplo
Aunque los datos sugieren una variedad subyacente, elproblema no es completamente trivial dado que dos partes dela curva se acercan demasiado, y puede causar confusion
Muchas formas de representar la misma variedad(homeomorfismos, bajo cambio de coordenadas).
Mateo Dulce Rubio
Manifold Learning
Problema de Clasificacion
Recapitulando:
Recuperar la variedad en la que viven los datos, y desarrollarclasificadores sobre esta nos da una ventaja en el Problema deClasificacion inicial.
Los datos no etiquetados nos sirven para recuperar lavariedad, mientras con los datos etiquetados desarrollamosclasificadores sobre dicha variedad.
Mateo Dulce Rubio
Manifold Learning
Problema de Clasificacion
Recapitulando:
Recuperar la variedad en la que viven los datos, y desarrollarclasificadores sobre esta nos da una ventaja en el Problema deClasificacion inicial.
Los datos no etiquetados nos sirven para recuperar lavariedad, mientras con los datos etiquetados desarrollamosclasificadores sobre dicha variedad.
Mateo Dulce Rubio
Manifold Learning
Problema de Clasificacion
Mas formalmente:
Dado un conjunto de datos etiquetados((xi, yi) : xi ∈ Rk, yi ∈ Y ), y un conjunto de datos no etiquetados(xj ∈ Rk), queremos encontrar un clasificador
f : Rk → Y.
Como k puede ser demasiado grande, nos enfrentamos con ”thecurse of dimensionality”.
Mateo Dulce Rubio
Manifold Learning
Problema de Clasificacion
Pero, si aprovechamos el hecho que los datos viven en unasubvariedad M del espacio de representacion Rk, de menordimension, reducimos el problema a encontrar un clasificador
f :M→ Y, xk ∈M ⊂ Rk, dim(M) < k.
Mateo Dulce Rubio
Manifold Learning
Aproximacion
1. Representar los datos como una variedad:
Tomando los datos como vertices, contruımos una grafoponderado.
Dos puntos (datos) estan conectados si, y solo si, sonadjacentes en algun sentido (e.g. estan a distancia menor quealgun ε, o pertenecen al conjunto de n vecinos mas cercanos).
A cada arco se le asocia una distancia entre los dos verticesque relaciona.
Mateo Dulce Rubio
Manifold Learning
Aproximacion
1. Representar los datos como una variedad:
Tomando los datos como vertices, contruımos una grafoponderado.
Dos puntos (datos) estan conectados si, y solo si, sonadjacentes en algun sentido (e.g. estan a distancia menor quealgun ε, o pertenecen al conjunto de n vecinos mas cercanos).
A cada arco se le asocia una distancia entre los dos verticesque relaciona.
Mateo Dulce Rubio
Manifold Learning
Aproximacion
1. Representar los datos como una variedad:
Tomando los datos como vertices, contruımos una grafoponderado.
Dos puntos (datos) estan conectados si, y solo si, sonadjacentes en algun sentido (e.g. estan a distancia menor quealgun ε, o pertenecen al conjunto de n vecinos mas cercanos).
A cada arco se le asocia una distancia entre los dos verticesque relaciona.
Mateo Dulce Rubio
Manifold Learning
Aproximacion
1. Representar los datos como una variedad:
A cada par de datos se les puede asociar ”distanciageodesica”, definida como la longitud del camino mas cortoque los une.
La distancia geodesica puede variar respecto a la distancianatural del espacio ambiente.
Pero se puede mostrar que si los datos se ditribuyen con unadistribucion de probabilidad con soporte sobre toda lavariedad de representacion, la distancia geodesica estimadatiende a la distancia geodesica actual de la variedad ambiente,cuando el numero de datos tiende a infinito.
Mateo Dulce Rubio
Manifold Learning
Aproximacion
1. Representar los datos como una variedad:
A cada par de datos se les puede asociar ”distanciageodesica”, definida como la longitud del camino mas cortoque los une.
La distancia geodesica puede variar respecto a la distancianatural del espacio ambiente.
Pero se puede mostrar que si los datos se ditribuyen con unadistribucion de probabilidad con soporte sobre toda lavariedad de representacion, la distancia geodesica estimadatiende a la distancia geodesica actual de la variedad ambiente,cuando el numero de datos tiende a infinito.
Mateo Dulce Rubio
Manifold Learning
Aproximacion
1. Representar los datos como una variedad:
A cada par de datos se les puede asociar ”distanciageodesica”, definida como la longitud del camino mas cortoque los une.
La distancia geodesica puede variar respecto a la distancianatural del espacio ambiente.
Pero se puede mostrar que si los datos se ditribuyen con unadistribucion de probabilidad con soporte sobre toda lavariedad de representacion, la distancia geodesica estimadatiende a la distancia geodesica actual de la variedad ambiente,cuando el numero de datos tiende a infinito.
Mateo Dulce Rubio
Manifold Learning
Aproximacion
2. Estimacion funcion de clasificacion:
Un proceso natural serıa usar la distancia geodesica definidasobre la variedad, para construir ”vecinos geodesicos mascercanos”.
Si para un punto no etiquetado u, se tiene que el puntoetiquetado l es su vecino geodesico mas cercano (la distanciasobre los arcos es la menor posible), entonces la etiqueta de lse le asigna a u.
Solucion inestable, y sensible a ruido o valores atıpicos.
Mateo Dulce Rubio
Manifold Learning
Aproximacion
2. Estimacion funcion de clasificacion:
Un proceso natural serıa usar la distancia geodesica definidasobre la variedad, para construir ”vecinos geodesicos mascercanos”.
Si para un punto no etiquetado u, se tiene que el puntoetiquetado l es su vecino geodesico mas cercano (la distanciasobre los arcos es la menor posible), entonces la etiqueta de lse le asigna a u.
Solucion inestable, y sensible a ruido o valores atıpicos.
Mateo Dulce Rubio
Manifold Learning
Aproximacion
2. Estimacion funcion de clasificacion:
Un proceso natural serıa usar la distancia geodesica definidasobre la variedad, para construir ”vecinos geodesicos mascercanos”.
Si para un punto no etiquetado u, se tiene que el puntoetiquetado l es su vecino geodesico mas cercano (la distanciasobre los arcos es la menor posible), entonces la etiqueta de lse le asigna a u.
Solucion inestable, y sensible a ruido o valores atıpicos.
Mateo Dulce Rubio
Manifold Learning
Aproximacion
2. Estimacion funcion de clasificacion:
Basada en el operador de Laplace-Baltrami sobre la variedad,∆.
Si M es una variedad compacta, ∆ tiene un espectrodiscreto, y las funciones propias de ∆ son una base ortogonalpara el espacio de Hilbert L2(M).
Por lo tanto, toda funcion f ∈ L2(M) puede escribirse como
f(x) =∞∑i=0
aiei(x),
con ei son funciones propias: ∆ei = λiei.
Mateo Dulce Rubio
Manifold Learning
Aproximacion
2. Estimacion funcion de clasificacion:
Basada en el operador de Laplace-Baltrami sobre la variedad,∆.
Si M es una variedad compacta, ∆ tiene un espectrodiscreto, y las funciones propias de ∆ son una base ortogonalpara el espacio de Hilbert L2(M).
Por lo tanto, toda funcion f ∈ L2(M) puede escribirse como
f(x) =∞∑i=0
aiei(x),
con ei son funciones propias: ∆ei = λiei.
Mateo Dulce Rubio
Manifold Learning
Aproximacion
2. Estimacion funcion de clasificacion:
Basada en el operador de Laplace-Baltrami sobre la variedad,∆.
Si M es una variedad compacta, ∆ tiene un espectrodiscreto, y las funciones propias de ∆ son una base ortogonalpara el espacio de Hilbert L2(M).
Por lo tanto, toda funcion f ∈ L2(M) puede escribirse como
f(x) =∞∑i=0
aiei(x),
con ei son funciones propias: ∆ei = λiei.
Mateo Dulce Rubio
Manifold Learning
Aproximacion
2. Estimacion funcion de clasificacion:
De esta manera, asumiendo que los datos viven en unavariedad compacta M, la funcion de clasificacion puede serrepresentada por una funcion cuadrado-integrable
m :M→ {−1, 1}.
Solo neceistamos que m(x) sea una funcion medible.
Mateo Dulce Rubio
Manifold Learning
Aproximacion
2. Estimacion funcion de clasificacion:
Podemos interpretar el Problema de Clasificacion como unproblema de interpolacion de una funcion sobre una variedad.
Como toda funcion se puede escribir en terminos de lasfunciones propias del Laplaciano, solo debemos ajustar loscoeficientes para que concuerden con los datos etiquetados.
m(x) ≈N∑i=0
aiei(x).
Las funciones propias del Laplaciano no son solo una basenatural a considerar, sino que ademas satisfacen unacondicion de optimalidad, en el sentido que proveen laaproximacion mas suave.
Mateo Dulce Rubio
Manifold Learning
Aproximacion
2. Estimacion funcion de clasificacion:
Podemos interpretar el Problema de Clasificacion como unproblema de interpolacion de una funcion sobre una variedad.
Como toda funcion se puede escribir en terminos de lasfunciones propias del Laplaciano, solo debemos ajustar loscoeficientes para que concuerden con los datos etiquetados.
m(x) ≈N∑i=0
aiei(x).
Las funciones propias del Laplaciano no son solo una basenatural a considerar, sino que ademas satisfacen unacondicion de optimalidad, en el sentido que proveen laaproximacion mas suave.
Mateo Dulce Rubio
Manifold Learning
Aproximacion
2. Estimacion funcion de clasificacion:
Podemos interpretar el Problema de Clasificacion como unproblema de interpolacion de una funcion sobre una variedad.
Como toda funcion se puede escribir en terminos de lasfunciones propias del Laplaciano, solo debemos ajustar loscoeficientes para que concuerden con los datos etiquetados.
m(x) ≈N∑i=0
aiei(x).
Las funciones propias del Laplaciano no son solo una basenatural a considerar, sino que ademas satisfacen unacondicion de optimalidad, en el sentido que proveen laaproximacion mas suave.
Mateo Dulce Rubio
Manifold Learning