36
Manifold Learning Mateo Dulce Rubio Mayo 2017 Mateo Dulce Rubio Manifold Learning

Manifold Learning

  • Upload
    others

  • View
    5

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Manifold Learning

Manifold Learning

Mateo Dulce Rubio

Mayo 2017

Mateo Dulce Rubio

Manifold Learning

Page 2: Manifold Learning

Referencia principal:

Semi-Supervised Learning on Riemmanian Manifolds,Mikhail Belkin & Partha Niyogi, 2004.

Mateo Dulce Rubio

Manifold Learning

Page 3: Manifold Learning

Problema de clasificacion

Supongamos que tenemos un espacio X , cuyos elementos debemosclasificar entre las dos clases C1, C2. El modelo probabilistico paraeste problema es la funcion de densidad de probabilidad p(x), y lasdensidades de cada clase {p(C1|x ∈ X )}, {p(C2|x ∈ X )}.

Es decir, necesitamos conocer como se distribuyen los datos, ycomo se asignan a cada una de las clases.

Mateo Dulce Rubio

Manifold Learning

Page 4: Manifold Learning

Motivacion

Los datos no etiquetados (unlabeled data) por sı mismos no danmucha inforamacion sobre las reglas de asignacion a las clases,justamente por no tener etiqueta.

Sin embargo, es difıcil (costoso) conseguir datos etiquetados (labeldata).

Mateo Dulce Rubio

Manifold Learning

Page 5: Manifold Learning

Motivacion

¿Como con relativamente pocos datos etiquetados podemosclasificar muchos datos no etiquetados?

→ Semi-Supervised Machine Learning

Mateo Dulce Rubio

Manifold Learning

Page 6: Manifold Learning

Aproximacion

Explotar la estructura intrınseca de los datos para mejorar laclasificacion de datos no etiquetados, bajo el supuesto de que losdatos residen en una variedad de baja dimension dentro de unespacio de representacion de alta dimension.

Mateo Dulce Rubio

Manifold Learning

Page 7: Manifold Learning

Aproximacion

Por ejemplo, en clasificacion de texto, los documentos serepresentan usualmente por vectores cuyos elementos soncontadores de palabras en el documento. Aunque no esta claro porque el espacio de documentos deberıa ser una variedad, sı se puedever que tiene una estructura compleja y que solo ocupa unapequena parte dentro del gigantesco espacio de representacion.

Mateo Dulce Rubio

Manifold Learning

Page 8: Manifold Learning

Aproximacion

Los datos no etiquetados no dan informacion sobre la regla deasignacion, pero sı sobre la distribucion (p(x)) de los datos en elespacio.

Por su parte, los datos etiquetados sı nos permiten estimar como seclasifican los datos en el espacio, {p(C1|x ∈ X )}, {p(C2|x ∈ X )}.

Mateo Dulce Rubio

Manifold Learning

Page 9: Manifold Learning

Ejemplo

Labeled data Unlabeled data Underlying manifold

Mateo Dulce Rubio

Manifold Learning

Page 10: Manifold Learning

Ejemplo

No siempre se puede clasificar ? solo con los datosetiquetados.

Los datos no etiquetados no dan informacion sobre las reglasde clasificacion, pero sı del espacio de representacion, queasumimos es una variedad.

Mateo Dulce Rubio

Manifold Learning

Page 11: Manifold Learning

Ejemplo

No siempre se puede clasificar ? solo con los datosetiquetados.

Los datos no etiquetados no dan informacion sobre las reglasde clasificacion, pero sı del espacio de representacion, queasumimos es una variedad.

Mateo Dulce Rubio

Manifold Learning

Page 12: Manifold Learning

Ejemplo

Es mas importante la distancia (geodesica) sobre la variedadsubyacente, que la distancia Euclideana del plano.

Puntos que inicialmente parecen muy cercanos en el plano,estan a lados opuestos de nuestra variedad.

Es por esto que se deben crear los clasificadores sobre lavariedad subyacente, y no sobre el espacio de representacioncompleto.

Mateo Dulce Rubio

Manifold Learning

Page 13: Manifold Learning

Ejemplo

Es mas importante la distancia (geodesica) sobre la variedadsubyacente, que la distancia Euclideana del plano.

Puntos que inicialmente parecen muy cercanos en el plano,estan a lados opuestos de nuestra variedad.

Es por esto que se deben crear los clasificadores sobre lavariedad subyacente, y no sobre el espacio de representacioncompleto.

Mateo Dulce Rubio

Manifold Learning

Page 14: Manifold Learning

Ejemplo

Es mas importante la distancia (geodesica) sobre la variedadsubyacente, que la distancia Euclideana del plano.

Puntos que inicialmente parecen muy cercanos en el plano,estan a lados opuestos de nuestra variedad.

Es por esto que se deben crear los clasificadores sobre lavariedad subyacente, y no sobre el espacio de representacioncompleto.

Mateo Dulce Rubio

Manifold Learning

Page 15: Manifold Learning

Ejemplo

Aunque los datos sugieren una variedad subyacente, elproblema no es completamente trivial dado que dos partes dela curva se acercan demasiado, y puede causar confusion

Muchas formas de representar la misma variedad(homeomorfismos, bajo cambio de coordenadas).

Mateo Dulce Rubio

Manifold Learning

Page 16: Manifold Learning

Ejemplo

Aunque los datos sugieren una variedad subyacente, elproblema no es completamente trivial dado que dos partes dela curva se acercan demasiado, y puede causar confusion

Muchas formas de representar la misma variedad(homeomorfismos, bajo cambio de coordenadas).

Mateo Dulce Rubio

Manifold Learning

Page 17: Manifold Learning

Problema de Clasificacion

Recapitulando:

Recuperar la variedad en la que viven los datos, y desarrollarclasificadores sobre esta nos da una ventaja en el Problema deClasificacion inicial.

Los datos no etiquetados nos sirven para recuperar lavariedad, mientras con los datos etiquetados desarrollamosclasificadores sobre dicha variedad.

Mateo Dulce Rubio

Manifold Learning

Page 18: Manifold Learning

Problema de Clasificacion

Recapitulando:

Recuperar la variedad en la que viven los datos, y desarrollarclasificadores sobre esta nos da una ventaja en el Problema deClasificacion inicial.

Los datos no etiquetados nos sirven para recuperar lavariedad, mientras con los datos etiquetados desarrollamosclasificadores sobre dicha variedad.

Mateo Dulce Rubio

Manifold Learning

Page 19: Manifold Learning

Problema de Clasificacion

Mas formalmente:

Dado un conjunto de datos etiquetados((xi, yi) : xi ∈ Rk, yi ∈ Y ), y un conjunto de datos no etiquetados(xj ∈ Rk), queremos encontrar un clasificador

f : Rk → Y.

Como k puede ser demasiado grande, nos enfrentamos con ”thecurse of dimensionality”.

Mateo Dulce Rubio

Manifold Learning

Page 20: Manifold Learning

Problema de Clasificacion

Pero, si aprovechamos el hecho que los datos viven en unasubvariedad M del espacio de representacion Rk, de menordimension, reducimos el problema a encontrar un clasificador

f :M→ Y, xk ∈M ⊂ Rk, dim(M) < k.

Mateo Dulce Rubio

Manifold Learning

Page 21: Manifold Learning

Aproximacion

1. Representar los datos como una variedad:

Tomando los datos como vertices, contruımos una grafoponderado.

Dos puntos (datos) estan conectados si, y solo si, sonadjacentes en algun sentido (e.g. estan a distancia menor quealgun ε, o pertenecen al conjunto de n vecinos mas cercanos).

A cada arco se le asocia una distancia entre los dos verticesque relaciona.

Mateo Dulce Rubio

Manifold Learning

Page 22: Manifold Learning

Aproximacion

1. Representar los datos como una variedad:

Tomando los datos como vertices, contruımos una grafoponderado.

Dos puntos (datos) estan conectados si, y solo si, sonadjacentes en algun sentido (e.g. estan a distancia menor quealgun ε, o pertenecen al conjunto de n vecinos mas cercanos).

A cada arco se le asocia una distancia entre los dos verticesque relaciona.

Mateo Dulce Rubio

Manifold Learning

Page 23: Manifold Learning

Aproximacion

1. Representar los datos como una variedad:

Tomando los datos como vertices, contruımos una grafoponderado.

Dos puntos (datos) estan conectados si, y solo si, sonadjacentes en algun sentido (e.g. estan a distancia menor quealgun ε, o pertenecen al conjunto de n vecinos mas cercanos).

A cada arco se le asocia una distancia entre los dos verticesque relaciona.

Mateo Dulce Rubio

Manifold Learning

Page 24: Manifold Learning

Aproximacion

1. Representar los datos como una variedad:

A cada par de datos se les puede asociar ”distanciageodesica”, definida como la longitud del camino mas cortoque los une.

La distancia geodesica puede variar respecto a la distancianatural del espacio ambiente.

Pero se puede mostrar que si los datos se ditribuyen con unadistribucion de probabilidad con soporte sobre toda lavariedad de representacion, la distancia geodesica estimadatiende a la distancia geodesica actual de la variedad ambiente,cuando el numero de datos tiende a infinito.

Mateo Dulce Rubio

Manifold Learning

Page 25: Manifold Learning

Aproximacion

1. Representar los datos como una variedad:

A cada par de datos se les puede asociar ”distanciageodesica”, definida como la longitud del camino mas cortoque los une.

La distancia geodesica puede variar respecto a la distancianatural del espacio ambiente.

Pero se puede mostrar que si los datos se ditribuyen con unadistribucion de probabilidad con soporte sobre toda lavariedad de representacion, la distancia geodesica estimadatiende a la distancia geodesica actual de la variedad ambiente,cuando el numero de datos tiende a infinito.

Mateo Dulce Rubio

Manifold Learning

Page 26: Manifold Learning

Aproximacion

1. Representar los datos como una variedad:

A cada par de datos se les puede asociar ”distanciageodesica”, definida como la longitud del camino mas cortoque los une.

La distancia geodesica puede variar respecto a la distancianatural del espacio ambiente.

Pero se puede mostrar que si los datos se ditribuyen con unadistribucion de probabilidad con soporte sobre toda lavariedad de representacion, la distancia geodesica estimadatiende a la distancia geodesica actual de la variedad ambiente,cuando el numero de datos tiende a infinito.

Mateo Dulce Rubio

Manifold Learning

Page 27: Manifold Learning

Aproximacion

2. Estimacion funcion de clasificacion:

Un proceso natural serıa usar la distancia geodesica definidasobre la variedad, para construir ”vecinos geodesicos mascercanos”.

Si para un punto no etiquetado u, se tiene que el puntoetiquetado l es su vecino geodesico mas cercano (la distanciasobre los arcos es la menor posible), entonces la etiqueta de lse le asigna a u.

Solucion inestable, y sensible a ruido o valores atıpicos.

Mateo Dulce Rubio

Manifold Learning

Page 28: Manifold Learning

Aproximacion

2. Estimacion funcion de clasificacion:

Un proceso natural serıa usar la distancia geodesica definidasobre la variedad, para construir ”vecinos geodesicos mascercanos”.

Si para un punto no etiquetado u, se tiene que el puntoetiquetado l es su vecino geodesico mas cercano (la distanciasobre los arcos es la menor posible), entonces la etiqueta de lse le asigna a u.

Solucion inestable, y sensible a ruido o valores atıpicos.

Mateo Dulce Rubio

Manifold Learning

Page 29: Manifold Learning

Aproximacion

2. Estimacion funcion de clasificacion:

Un proceso natural serıa usar la distancia geodesica definidasobre la variedad, para construir ”vecinos geodesicos mascercanos”.

Si para un punto no etiquetado u, se tiene que el puntoetiquetado l es su vecino geodesico mas cercano (la distanciasobre los arcos es la menor posible), entonces la etiqueta de lse le asigna a u.

Solucion inestable, y sensible a ruido o valores atıpicos.

Mateo Dulce Rubio

Manifold Learning

Page 30: Manifold Learning

Aproximacion

2. Estimacion funcion de clasificacion:

Basada en el operador de Laplace-Baltrami sobre la variedad,∆.

Si M es una variedad compacta, ∆ tiene un espectrodiscreto, y las funciones propias de ∆ son una base ortogonalpara el espacio de Hilbert L2(M).

Por lo tanto, toda funcion f ∈ L2(M) puede escribirse como

f(x) =∞∑i=0

aiei(x),

con ei son funciones propias: ∆ei = λiei.

Mateo Dulce Rubio

Manifold Learning

Page 31: Manifold Learning

Aproximacion

2. Estimacion funcion de clasificacion:

Basada en el operador de Laplace-Baltrami sobre la variedad,∆.

Si M es una variedad compacta, ∆ tiene un espectrodiscreto, y las funciones propias de ∆ son una base ortogonalpara el espacio de Hilbert L2(M).

Por lo tanto, toda funcion f ∈ L2(M) puede escribirse como

f(x) =∞∑i=0

aiei(x),

con ei son funciones propias: ∆ei = λiei.

Mateo Dulce Rubio

Manifold Learning

Page 32: Manifold Learning

Aproximacion

2. Estimacion funcion de clasificacion:

Basada en el operador de Laplace-Baltrami sobre la variedad,∆.

Si M es una variedad compacta, ∆ tiene un espectrodiscreto, y las funciones propias de ∆ son una base ortogonalpara el espacio de Hilbert L2(M).

Por lo tanto, toda funcion f ∈ L2(M) puede escribirse como

f(x) =∞∑i=0

aiei(x),

con ei son funciones propias: ∆ei = λiei.

Mateo Dulce Rubio

Manifold Learning

Page 33: Manifold Learning

Aproximacion

2. Estimacion funcion de clasificacion:

De esta manera, asumiendo que los datos viven en unavariedad compacta M, la funcion de clasificacion puede serrepresentada por una funcion cuadrado-integrable

m :M→ {−1, 1}.

Solo neceistamos que m(x) sea una funcion medible.

Mateo Dulce Rubio

Manifold Learning

Page 34: Manifold Learning

Aproximacion

2. Estimacion funcion de clasificacion:

Podemos interpretar el Problema de Clasificacion como unproblema de interpolacion de una funcion sobre una variedad.

Como toda funcion se puede escribir en terminos de lasfunciones propias del Laplaciano, solo debemos ajustar loscoeficientes para que concuerden con los datos etiquetados.

m(x) ≈N∑i=0

aiei(x).

Las funciones propias del Laplaciano no son solo una basenatural a considerar, sino que ademas satisfacen unacondicion de optimalidad, en el sentido que proveen laaproximacion mas suave.

Mateo Dulce Rubio

Manifold Learning

Page 35: Manifold Learning

Aproximacion

2. Estimacion funcion de clasificacion:

Podemos interpretar el Problema de Clasificacion como unproblema de interpolacion de una funcion sobre una variedad.

Como toda funcion se puede escribir en terminos de lasfunciones propias del Laplaciano, solo debemos ajustar loscoeficientes para que concuerden con los datos etiquetados.

m(x) ≈N∑i=0

aiei(x).

Las funciones propias del Laplaciano no son solo una basenatural a considerar, sino que ademas satisfacen unacondicion de optimalidad, en el sentido que proveen laaproximacion mas suave.

Mateo Dulce Rubio

Manifold Learning

Page 36: Manifold Learning

Aproximacion

2. Estimacion funcion de clasificacion:

Podemos interpretar el Problema de Clasificacion como unproblema de interpolacion de una funcion sobre una variedad.

Como toda funcion se puede escribir en terminos de lasfunciones propias del Laplaciano, solo debemos ajustar loscoeficientes para que concuerden con los datos etiquetados.

m(x) ≈N∑i=0

aiei(x).

Las funciones propias del Laplaciano no son solo una basenatural a considerar, sino que ademas satisfacen unacondicion de optimalidad, en el sentido que proveen laaproximacion mas suave.

Mateo Dulce Rubio

Manifold Learning