Upload
dinhkhanh
View
215
Download
0
Embed Size (px)
Citation preview
Aprendizaje de Conceptos Visuales Basado en
Múltiples Clasificadores
por
Dulce Jazmín Navarrete Arias
Tesis sometida como requisito parcial para obtener el grado de
Maestro en Ciencias en el Área de Ciencias Computacionales en el
Instituto Nacional de Astrofísica, Óptica y Electrónica
Supervisada por:
Dr. Eduardo F. Morales Manzanares,
INAOE
©INAOE 2012
El autor otorga al INAOE el permiso de reproducir y distribuir copias
en su totalidad o en partes de esta tesis
Aprendizaje de Conceptos VisualesBasado en Multiples Clasificadores
Tesis de Maestrıa
por
Dulce Jazmın Navarrete Arias
Asesor:
Dr. Eduardo F. Morales Manzanares
Instituto Nacional de Astrofısica, Optica y ElectronicaCoordinacion de Ciencias Computacionales
Tonantzintla, PueblaMexico
Noviembre de 2012
Dedicado amis padres
ii
Agradecimientos
Agradezco a mi asesor el Dr. Eduardo Morales Manzanares, por todo el apoyo, guıa yconsejos brindados para el desarrollo de esta tesis.
A mis sinodales Dr. Jose Enrique Munoz de Cote Flores Luna, Dr. Carlos AlbertoReyes Gacıa y Dr. Leopoldo Altamirano Robles por sus observaciones y sugerenciasque ayudaron a mejorar la calidad de esta tesis.
A mis padres, por toda la sabidurıa, educacion, consejos y carino que me han brindado.
A mi hermano, por ser mi mejor amigo.
A Elıas por todo el carino, la paciencia y apoyo brindado. Porque contigo soy feliz.
Al Instituto Nacional de Astrofısica Optica y Electronica (INAOE), por ofrecerme unespacio para estudiar.
Al Consejo Nacional de Ciencia y Tecnologıa (CONACYT), por el apoyo proporcionadoa traves de la beca numero 243952.
Dulce Jazmin Navarrete Arias.Tonantzintla, Puebla. 2 de Noviembre de 2010.
iii
Resumen
El reconocimiento de objetos tradicionalmente esta basado en realizar aprendizaje so-
bre un gran conjunto de entrenamiento de imagenes previamente seleccionadas, sin
embargo, no todos los objetos cuentan con un conjunto de datos asociado. Hoy en dıa
es posible encontrar en Web imagenes de practicamente cualquier objeto, unicamente
basta con lanzar una consulta con el nombre del objeto en un motor de busqueda para
obtener un conjunto de entrenamiento. Esta estrategia, sin embargo, introduce retos
computacionales a resolver: (i) el nombre del objeto puede tener mas de un significado,
(ii) el objeto puede tener diferentes presentaciones y (iii) sin tener conocimiento previo
del objeto es difıcil identificar que caracterısticas visuales usar en un clasificador.
Esta tesis propone un nuevo metodo que ataca la anterior problematica. El metodo
incorpora un esquema de ensamble de clasificadores que construyen varios modelos
del objeto permitiendo tratar la variabilidad intraclase, las respuestas de los clasifi-
cadores son combinadas para determinar la presencia o ausencia del objeto. Parte de
un pequeno conjunto de entrenamiento obtenido en Web, al cual se le aplica una se-
rie de transformaciones, para identificar caracterısticas invariantes. La contribucion de
caracterısticas locales y globales que describen al objeto es optimizada, con el fin de
reconocer diferentes tipos de categorıas. Tambien desarrollamos un algoritmo basado
en ventanas que identifica la posicion del objeto dentro de una imagen.
Evaluamos nuestro metodo sobre imagenes de Web, la base de datos Caltech-7
y en entornos reales. Nos comparamos contra trabajos reportados en el estado del
arte, obteniendo resultados que muestran porcentajes de clasificacion competitivos en
iv
v
el reconocimiento de objetos especıficos y generales.
Abstract
Object recognition is usually based on learning from a large dataset of previously se-
lected training images; however, not all objects have one associated dataset. Nowadays
it is possible to find images on Internet of virtually any object, only by launching a
query with the object’s name in a search engine. Nevertheless, this strategy introduces
computational challenges: (i) the object’s name can have more than one meaning; (ii)
the object can have different appearances, and (iii) without prior knowledge of the
object it is hard to identify which visual features to use in order to train a classifier.
In this thesis a method to tackle the above problem is proposed. The method incor-
porates an ensemble of classifiers that builds several object models treating intraclass
variability. Responses of every classifier are combined to determine the presence or
absence of the object. The method begins with a small training set obtained via Web,
and a series of image transformations is applied in order to identify invariant features.
The weight of the local and global features is optimized, in order to recognize different
category types.
We also develop an algorithm based on sliding windows to identify the object’s
position within an image. We evaluated our method on images from the Web, the
Caltech-7 dataset and real environments. We compared our method against related
work, obtaining competitive classification performance in the recognition of general
and specific objects.
vi
Indice general
Resumen iv
Abstract vi
1 Introduccion 11.1 Descripcion del Problema . . . . . . . . . . . . . . . . . . . . . . . . . 11.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.3 Solucion Propuesta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.4 Organizacion de la Tesis . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2 Transformaciones a Imagenes 62.1 Ruido en Imagenes Digitales . . . . . . . . . . . . . . . . . . . . . . . . 62.2 Transformaciones Afines 2D . . . . . . . . . . . . . . . . . . . . . . . . 92.3 Transformacion de Intensidad . . . . . . . . . . . . . . . . . . . . . . . 112.4 Transformaciones en el Reconocimiento . . . . . . . . . . . . . . . . . . 132.5 Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3 Representacion de Objetos 163.1 Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163.2 Espacios de Color . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173.3 Tratamiento de Texturas . . . . . . . . . . . . . . . . . . . . . . . . . . 223.4 Descriptor de Regiones . . . . . . . . . . . . . . . . . . . . . . . . . . . 253.5 Trabajos Relacionados con Representacion de Objetos . . . . . . . . . . 303.6 Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4 Categorizacion de Objetos 354.1 Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354.2 Metodos para la Categorizacion de Objetos . . . . . . . . . . . . . . . . 354.3 Aprendizaje de Modelos desde Internet . . . . . . . . . . . . . . . . . . 394.4 Clasificador Naıve Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . 444.5 Ensamble de Clasificadores . . . . . . . . . . . . . . . . . . . . . . . . . 454.6 Discusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 494.7 Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
vii
viii INDICE GENERAL
5 Metodo Propuesto 525.1 Esquema Propuesto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 525.2 Generacion Automatica de Ejemplos . . . . . . . . . . . . . . . . . . . 54
5.2.1 Transformaciones a Imagenes . . . . . . . . . . . . . . . . . . . 545.3 Representacion del Objeto . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.3.1 Extraccion de Caracterısticas Globales . . . . . . . . . . . . . . 565.3.2 Extraccion de Caracterısticas Locales . . . . . . . . . . . . . . . 58
5.4 Clasificadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 595.4.1 Clasificador Global . . . . . . . . . . . . . . . . . . . . . . . . . 605.4.2 Clasificador Local . . . . . . . . . . . . . . . . . . . . . . . . . . 605.4.3 Combinacion de Clasificadores . . . . . . . . . . . . . . . . . . . 61
5.5 Obtencion de los Parametros del Modelo . . . . . . . . . . . . . . . . . 625.6 Reconocimiento del Objeto en una Imagen de Prueba . . . . . . . . . . 635.7 Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
6 Experimentos 666.1 Configuracion de los Experimentos . . . . . . . . . . . . . . . . . . . . 666.2 Medidas de Evaluacion . . . . . . . . . . . . . . . . . . . . . . . . . . . 686.3 Desarrollo de los Experimentos . . . . . . . . . . . . . . . . . . . . . . 69
6.3.1 Clasificacion con Imagenes de Google Images . . . . . . . . . . . 696.3.2 Clasificacion con Imagenes de Google Downloads . . . . . . . . . 756.3.3 Reconocimiento de Objetos en Entornos Reales . . . . . . . . . 81
6.4 Discusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 856.5 Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
7 Conclusiones y Trabajo Futuro 877.1 Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 877.2 Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 887.3 Contribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 897.4 Trabajo Futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 897.5 Publicaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
Referencias 96
Indice de figuras
1.1 Estas imagenes ejemplifican los diferentes grados de relevancia . . . . . 2
2.1 Curvas gaussianas con diferentes parametros. . . . . . . . . . . . . . . 7
2.2 Imagen contaminada con ruido gaussiano . . . . . . . . . . . . . . . . . 8
2.3 Imagen contaminada con ruido sal y pimienta . . . . . . . . . . . . . . 8
2.4 Imagen con trasformaciones de intensidad. (a) Original, (b) incrementode contraste, (c) cambio de brillo +50. . . . . . . . . . . . . . . . . . . 13
2.5 Modificacion del contraste. . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.1 Cubo unitario de color para el modelo RGB. . . . . . . . . . . . . . . . 18
3.2 Espacio de color CIE L*a*b. . . . . . . . . . . . . . . . . . . . . . . . 20
3.3 Modelo de color HSV. . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.4 Ejemplos de una familia de filtros de Gabor. . . . . . . . . . . . . . . 25
3.5 Ejemplo del uso de SIFT para localizar un objeto dentro de una escena 26
3.6 Obtencion de restas de imagenes de gaussianas . . . . . . . . . . . . . . 28
3.7 Obtencion de restas de imagenes de gaussianas . . . . . . . . . . . . . . 29
3.8 Gradientes de la imagen: Se muestra una region de 8×8 pıxeles alrededorde un punto caracterıstico ubicado en el centro. . . . . . . . . . . . . . 30
3.9 Representaciones de forma usadas por Rui Pereira y Luis Seabra Lopes[PS09]: (a) contexto de forma global, (b) basada en tangentes. . . . . . 32
4.1 Construccion de un modelo volumetrico a partir de objetos. . . . . . . 36
4.2 Cuadrıculas de elipsoides . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.3 Esquema general de un motor de busqueda de imagenes. . . . . . . . . 40
4.4 Resumen del metodo propuesto por [VG08]. . . . . . . . . . . . . . . . 41
4.5 Caracterısticas utilizadas en [FPZ04]. . . . . . . . . . . . . . . . . . . . 43
4.6 Ejemplo de arquitectura horizontal o paralela. . . . . . . . . . . . . . 46
4.7 Mezcla de componentes de Yi ji [JIB09]. . . . . . . . . . . . . . . . . . 48
4.8 Modelo multicapa de Zhang [ZYZS05]. . . . . . . . . . . . . . . . . . . 49
5.1 Arquitectura general del metodo propuesto. . . . . . . . . . . . . . . . 53
5.2 Generacion automatica de ejemplos de entrenamiento. . . . . . . . . . . 55
5.3 Deteccion de keypoints. . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
ix
x INDICE DE FIGURAS
5.4 Los keypoints son obtenidos de la imagen original y de las imagenes de-formadas bajo las diferentes transformaciones (escala, ruidos, intensidad,etc.). La frecuencia de cada punto es recolectada en una matriz de fre-cuencia y aquellos puntos con alta frecuencia son seleccionados comoPinvariantes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
5.5 Para cada imagen de prueba se estima su probabilidad local y global . 625.6 La imagen muestra Fventanas. . . . . . . . . . . . . . . . . . . . . . . . . 64
6.1 Curvas tonales utilizadas en los experimentos para modificar el contrasteen las imagenes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
6.2 Un ejemplo del conjunto de transformaciones generadas de una imagenmodelo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
6.3 Imagenes de conceptos especıficos y generales, obtenidas de Internet. . 706.4 Imagenes regresadas por el buscador Google Images usando el concepto
“Platano”. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 716.5 Conjunto de datos GSS. . . . . . . . . . . . . . . . . . . . . . . . . . . 726.6 Esquema del experimento. . . . . . . . . . . . . . . . . . . . . . . . . . 736.7 Clasificadores base comparados con el metodo propuesto. . . . . . . . . 746.8 Imagenes modelo (12 primeras) obtenidas de Google Downloads para
cada categorıa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 786.9 Tamanos de ventanas. El recuadro rojo muestra el tamano de la ventana
y las lıneas negras el desplazamiento en ancho y alto. . . . . . . . . . . 826.10 Ejemplos de los resultados del experimento de localizacion del objeto . 83
Indice de tablas
4.1 Resumen de trabajos relacionados. Se presentan las caracterısticas masrelevantes de los trabajos analizados, resumiendose en 5 columnas: si re-alizan aprendizaje con imagenes de la Web, si consideran caracterısticasglobales y locales, si utilizan varios clasificadores, si incorporan la local-izacion de los objetos dentro de una imagen de prueba y que esquema desupervision emplean. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
6.1 Matriz de confusion binaria. . . . . . . . . . . . . . . . . . . . . . . . . 686.2 Resultados del experimento con seleccion automatica (conjunto de datos
GSA). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 756.3 Resultados del experimento con seleccion semi-supervisada (conjunto de
datos GSS). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 766.4 Experimentos con los mismos objetos reportados en [VG08, FFFPZ05,
SCZ07] a un recuerdo del 15% (primera parte), con un recuerdo variable(segunda parte) y F-measure (tercera parte). . . . . . . . . . . . . . . . 79
6.5 Ranqueo de los resultados de precision del metodo propuesto y traba-jos existentes. Los porcentajes de precision son obtenidos de los resul-tados del aprendizaje de parametros (segunda parte de la Tabla 6.4),ordenandose del mayor resultado al menor. . . . . . . . . . . . . . . . . 80
6.6 Desempeno del metodo en el reconocimiento de objetos en secuencias deimagenes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
6.7 Costo computacional para las etapas de entrenamiento y prueba delmetodo propuesto. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
xi
Capıtulo 1
Introduccion
1.1 Descripcion del Problema
El reconocimiento es una de las funciones mas utiles de nuestro sistema visual. Recono-
cemos materiales (plastico, la piel de una naranja), escenas (una oficina, la cocina),
tambien cosas individuales (mi libro, mis zapatos) y categorıas (un peinado de los 60’s,
una rana). A medida que aprendemos, organizamos todos los objetos y categorıas en
utiles e informativas taxonomıas que relacionamos con el lenguaje. toti Replicar estas
habilidades en las maquinas que nos rodean impactarıan profundamente en los aspec-
tos practicos de nuestra vida. Los investigadores en esta area se enfrentan a tres retos
principales. Representacion: ¿como debemos modelar los objetos y categorıas?, Apren-
dizaje: ¿como podemos adquirir estos modelos?, Deteccion / reconocimiento: dada una
nueva imagen, ¿como detectar la presencia de un objeto conocido o categorıa, entre el
desorden y a pesar de oclusion, cambios de iluminacion y puntos de vista? [FfFP06].
Existe un amplio consenso sobre el hecho de que los modelos necesitan capturar una
gran diversidad de formas y apariencias de los objetos que nos rodean. El aprendizaje
de una categorıa de objetos normalmente requiere procesar un gran conjunto de ejem-
plos de entrenamiento previamente etiquetados. Desafortunadamente, la exactitud de
algunos enfoques depende en gran medida de la disponibilidad de ejemplos de entre-
1
2 CAPITULO 1. INTRODUCCION
namiento etiquetados para las clases de interes, lo cual limita los enfoques existentes a
pocas categorıas de objetos.
El recolectar ejemplos de imagenes manualmente es una tarea costosa (anotaciones,
segmentacion, recorte, etc.), y teniendo a un humano en el proceso inevitablemente
introduce prejuicios en el tipo de imagenes seleccionadas.
La Web es un atractivo recurso de datos de imagenes para la investigacion en vision,
debido a la gran cantidad de imagenes disponibles. Una consulta de una palabra clave en
este caso el nombre del concepto1 en un motor de busqueda regresa imagenes con difer-
entes grados de relevancia: solo una porcion contiene el objeto deseado, otras pueden
contener instancias homonimas2, otras mas presentan oclusion, cambios de iluminacion,
diferentes puntos de vista o con algun tipo de ruido. Lo anterior significa tener, dentro
de una misma categorıa, una alta variabilidad entre los miembros (ver Figura 1.1) y no
es evidente que atributos utilizar para construir un modelo del concepto.
Figura 1.1: Estas imagenes ejemplifican los diferentes grados de relevancia que se puedenencontrar en imagenes regresadas por Google Images con la consulta “manzana”.
1Para efectos de esta tesis definimos concepto como una palabra que representa a una categorıa deobjetos visuales.
2Una instancia homonima es aquella que tiene dos o mas acepciones visuales, por ejemplo, Banco:institucion financiera, objeto de madera u otro material para sentarse y agrupamiento de peces.
1.2. OBJETIVOS 3
1.2 Objetivos
El objetivo general de esta tesis es disenar e implementar un algoritmo para el apren-
dizaje de conceptos visuales robusto a variantes de un mismo objeto basado en multiples
clasificadores.
Como objetivos especıficos se plantean los siguientes:
1. Disenar un algoritmo que genere automaticamente imagenes de entrenamiento
utilizando transformaciones para obtener caracterısticas invariantes y que tenga
como base imagenes de la Web.
2. Disenar una combinacion de descriptores globales y descriptores locales que re-
presenten a las imagenes de entrenamiento.
3. Desarrollar un algoritmo que combine informacion de varios modelos visuales para
reconocer las variantes de un objeto.
4. Disenar un algoritmo que reconozca y localice un objeto en una imagen de prueba.
5. Realizar pruebas con conceptos especıficos y generales basadas en imagenes de la
Web.
1.3 Solucion Propuesta
Algunos trabajos [CDF+04, FPZ03, LHB04, LLS06, TMF04] recolectan manualmente
un gran conjunto de buenos ejemplos de la categorıa de objeto deseada.
Este trabajo de investigacion propone un metodo que utilice pocas imagenes en su
entrenamiento obtenidas desde un motor de busqueda, lo cual conlleva a manipular
imagenes en condiciones difıciles. Por otra parte cabe senalar que el metodo puede
obtener imagenes sin la interaccion del usuario.
Al realizar una consulta en Google Images nos podemos encontrar que las imagenes
de respuesta tienen una variedad de representaciones, como lo es una imagen ruidosa,
4 CAPITULO 1. INTRODUCCION
el objeto esta girado o la iluminacion no es muy buena. Es por ello que el metodo es
capaz de expandir automaticamente (generacion de ejemplos sinteticos) la informacion
proveniente de la Web, debido a que no se sabe como se muestra el objeto en estas
imagenes. Nosotros queremos que nuestros modelos visuales sean robustos a cambios
de escala, iluminacion y ruido, para esto aplicamos una serie de transformaciones a las
imagenes, creando ası nuestro conjunto de entrenamiento automaticamente.
Como no se sabe si el concepto pertenece a una categorıa general o especıfica se
extraen atributos globales y locales de imagenes, ademas encontramos como combinar
automaticamente estas caracterısticas dependiendo del objeto de interes.
Debido a que un concepto puede tener mas de una interpretacion (ambiguedad del
concepto), suelen ocurrir discrepancias que aparecen entre los elementos de una misma
clase, por ejemplo en la Figura 1.1 vemos representado el concepto manzana por ocho
imagenes, presentando al objeto en diferente color (rojo, verde, amarillo), la mitad de
el o algun dibujo o una animacion. Creamos varios modelos del concepto visual que
permiten incluir informacion de las diferentes instancias de una misma clase y despues
los combinamos para clasificar permitiendonos ası tener un modelo mas robusto.
Los experimentos realizados muestran empıricamente que se obtienen resultados
competitivos al darle un peso ajustado automaticamente a los atributos globales y
locales. Los resultados y el analisis de los mismos concluyeron que se alcanzo tanto el
objetivo principal como los particulares mencionados en la seccion 1.2.
1.4 Organizacion de la Tesis
A continuacion se describe la distribucion del material contenido en este documento:
• En el capıtulo 2 se presenta la teorıa basica de las transformaciones a imagenes.
• En el capıtulo 3 son expuestos los fundamentos necesarios para el reconocimiento
de objetos.
1.4. ORGANIZACION DE LA TESIS 5
• En el capıtulo 4 se presentan y analizan los trabajos mas relacionados con la tesis
sobre categorizacion de objetos.
• El capıtulo 5 describe de manera detallada el metodo propuesto y la estrategia
utilizada para lograr el aprendizaje de conceptos visuales.
• En el capıtulo 6 se presentan los experimentos realizados y los resultados obtenidos
al aplicar el algoritmo elaborado en este trabajo en imagenes de la Web.
• En el capıtulo 7 se muestran las conclusiones del trabajo de investigacion y algunas
ideas a seguir para posibles extensiones de lo presentado en este trabajo.
Capıtulo 2
Transformaciones a Imagenes
La teorıa que veremos a continuacion modifica las caracterısticas de las imagenes. Fun-
damentalmente se aplica en la reconstruccion de imagenes deformadas, ajuste de las
mismas o la deformacion intencionada de ciertos rasgos para su posterior analisis.
En esta tesis empleamos trasformaciones para generar automaticamente conjuntos
de imagenes de entrenamiento, ayudando a construir modelos de objetos visuales ro-
bustos ante las diferentes caracterısticas que presentan los miembros de una misma
clase.
A continuacion se describe la teorıa de las transformaciones que seran usadas para
desarrollar parte del algoritmo propuesto.
2.1 Ruido en Imagenes Digitales
Todas las imagenes tienen cierta cantidad de ruido, la cual se puede deber a la camara
o al medio de transmision de la senal. Generalmente el ruido se manifiesta como pıxeles
aislados que toman un nivel de gris diferente al de sus vecinos. De esta forma enten-
demos por ruido en imagenes digitales cualquier valor de un pıxel de una imagen que
no corresponde exactamente con la realidad. Existen diferentes tipos de ruido, en esta
tesis solo utilizamos dos de ellos, ruido gaussiano y ruido sal y pimienta [GW01].
6
2.1. RUIDO EN IMAGENES DIGITALES 7
Figura 2.1: Curvas gaussianas con diferentes parametros.
Ruido gaussiano
Se caracteriza por modificar cada frecuencia (valor del pıxel) de acuerdo a una
variable aleatoria gaussiana. Cuando se presenta este problema, el valor exacto de
cualquier pıxel es diferente cada vez que se captura la misma imagen. Este ruido anade
o disminuye un determinado valor al nivel de gris real y es independientemente de
los valores que toma la imagen. En el ruido gaussiano la intensidad de cada pıxel de
la imagen se ve alterada en cierta medida con respecto a la intensidad en la imagen
original. Este ruido tiene el comportamiento de la funcion de Gauss o campana de
Gauss, que se expresa en la ecuacion 2.1
f (x) =1√
2πσ2exp
[− 1
2σ2(x− µ)2
](2.1)
Donde µ es la media y σ es la desviacion estandar que determina la amplitud de la
curva. Cuanto mayor sea el valor de σ, mas se dispersaran los datos en torno a la media
y la curva sera mas plana. Un valor pequeno de este parametro indica, por tanto, una
gran probabilidad de obtener datos cercanos al valor medio de la distribucion como se
muestra en la Figura 2.1. Como se muestra en la Figura 2.2 al aplicar ruido gaussiano
a mayor varianza, la imagen resultante se aleja mas de la imagen original.
8 CAPITULO 2. TRANSFORMACIONES A IMAGENES
Figura 2.2: Imagen contaminada con ruido gaussiano: (a) sin ruido, (b) resultado deaplicar ruido gaussiano con varianza de 0.1, (c) resultado de aplicar ruido gaussianocon varianza de 0.3.
Figura 2.3: Imagen contaminada con ruido sal y pimienta: (a) sin ruido, (b) resultadode aplicar 10% de ruido, (c) resultado de aplicar 40% de ruido.
Ruido sal y pimienta
En el ruido sal y pimienta existen solo dos posibles valores de pıxel que se conside-
ran como ruido. Usualmente estos valores son negro y blanco, aunque puede variar
involucrando pıxeles a color. La probabilidad de aparicion de cada valor es tıpicamente
menos que el 10% del total de pıxeles en la imagen, con valores mayores el ruido puede
dominar. Para una imagen de 256 niveles de gris el valor tıpico de pimienta es 0 (ne-
gro) y de sal 255 (blanco). En la Figura 2.3 se muestra el efecto de aplicar diferentes
porcentajes de ruido sal y pimienta a una imagen.
2.2. TRANSFORMACIONES AFINES 2D 9
2.2 Transformaciones Afines 2D
En geometrıa, una transformacion afın o aplicacion afın entre dos espacios vectoriales
(dos espacios afines) consiste en una transformacion lineal seguida de una traslacion.
Analogamente, en imagenes, una transformacion afın modifica las relaciones espaciales
entre pıxeles (que pertenecen al espacio euclidiano). En este trabajo se usan dos trans-
formaciones afines: escala y rotacion [Sze10].
Escala
En imagenes, la transformacion de escala reduce o amplıa las dimensiones de la
imagen. Para realizar dicha transformacion se utilizan coordenadas homogeneas. Las
coordenadas de cada pıxel son llevadas a una nueva posicion (ecuacion 2.2). Es re-
querido interpolar la nueva posicion (xf , yf ) a fin de que la transformacion sea correcta.
xf
yf
1
=
Ex 0 dx
0 Ey dy
0 0 1
xi
yi
1
(2.2)
Donde Ex, Ey son los factores de conversion para escalar la imagen y dx, dy son los
factores para desplazar la imagen en los ejes x,y. La imagen se reduce cuando 0 < Ex,
Ey < 1 y aumenta cuando Ex, Ey > 1.
El proceso de transformacion se fundamenta en : determinar las nuevas coordenadas
de cada pıxel(i, j) en la rejilla transformada, (i′, j′). Estas nuevas coordenadas (i′, j′)
generalmente, no seran valores enteros. Una vez obtenidos (i′, j′) hay que calcular
los valores de los (xf , yf ) en la rejilla destino. Este proceso es comun a todas las
transformaciones y se denomina interpolacion. Los tres algoritmos mas comunes de
interpolacion son:
• Vecino mas cercano: asigna el pıxel que le corresponda en la transformacion al
pıxel interpolado.
10 CAPITULO 2. TRANSFORMACIONES A IMAGENES
• Interpolacion bilineal: el valor del pıxel interpolado es el promedio ponderado de
los pıxeles en la vecindad 2 × 2.
• Interpolacion bicubica: el valor del pıxel interpolado es el promedio ponderado
de los pıxeles en la vecindad 4 × 4.
En esta tesis se utilizo la interpolacion bilineal [Sze10]. Dicha interpolacion esta definida
por:
P (xi, yi) =[
(1− a) a] f(bxic, byic) f(bxic, byic+ 1)
f(bxic+ 1, byic) f(bxic+ 1, byic+ 1)
(1− b)
b
(2.3)
donde a = xi − bxic, b = yi − byic. Cada una de las f(xi, yi) representan a los cuatro
pıxeles mas cercanos al punto xi, yi de la imagen a ser interpolada. Usamos la notacion
bxic, bxic+ 1 para representar las coordenadas en el eje x mas cercanas a la izquierda
y derecha, respectivamente del punto xi, yi a interpolar.
Rotacion
La rotacion es una transformacion afın que permite modificar las relaciones espa-
ciales entre los pıxeles. La funcion de transformacion se define por:
xf
yf
1
=
cos θ − sin θ 0
sin θ cos θ 0
0 0 1
xi
yi
1
(2.4)
En casos donde se requiera rotar con respecto a un centro (xc, yc), la funcion se
define por:
2.3. TRANSFORMACION DE INTENSIDAD 11
xf
yf
1
=
1 0 xc
0 1 yc
0 0 1
cos θ − sin θ 0
sin θ cos θ 0
0 0 1
1 0 −xc0 1 −yc0 0 1
xi
yi
1
(2.5)
La rotacion, al igual que la escala requiere de la interpolacion a fın de tener una
mejor asignacion del pıxel a su nueva coordenada. Dado que las transformaciones
afines son transformaciones lineales, se pueden combinar. En esta tesis se consideran
transformaciones por separado (rotacion o escala, pero no ambas).
2.3 Transformacion de Intensidad
El histograma es una funcion discreta que contabiliza el numero de ocurrencias de cada
nivel de gris presente en una imagen. Se representa en un diagrama donde en el eje
de abscisa esta el nivel de gris y en el de ordenadas la frecuencia de cada nivel de gris
en la imagen. Si al histograma se le divide por el numero de pıxeles de la imagen se
obtendra la funcion de probabilidad muestreal de cada nivel de gris en la imagen:
h(i) = numero de ocurrencia del nivel de i en la imagen
p(i) = h(i)M ·N
(2.6)
siendo M y N el numero de filas y columnas de la imagen, h(i) es la funcion histograma
y p(i) su probabilidad.
El histograma proporciona informacion estadıstica de la imagen. Esta informacion
es bastante util para conocer como se ha producido el proceso de formacion de la imagen.
Ası, se define el brillo de la imagen como el valor medio de la imagen que coincide con
el valor medio del histograma:
12 CAPITULO 2. TRANSFORMACIONES A IMAGENES
Brillo = µ =1
M ·N
M∑x=1
N∑y=1
f(x, y) =I−1∑i=0
i · p(i) (2.7)
donde f(x, y) retorna el nivel de gris del pıxel situado en las coordenadas (x, y), I es el
numero de grises que se ha empleado en el proceso de cuantificacion de la imagen. A
medida que la imagen aparece mas clara, el histograma se mueve hacia valores mas altos
de los niveles de grises. La variacion del brillo se efectua con la operacion aritmetica
de suma o resta a cada pıxel de una cantidad determinada.
La varianza del histograma tambien es asociada al contraste de la imagen:
Contraste = σ2 = 1M ·N
M∑x=1
N∑y=1
(f(x, y)− µ)2 =
1M ·N
I−1∑i=0
(i− µ)2 · h(i) =I−1∑i=0
(i− µ)2 · p(i)(2.8)
El contraste indica la dispersion de los niveles de grises en la imagen. Aunque
se pueden encontrar otras definiciones matematicas del contraste, todas son medidas
de dispersion. En todo caso, una imagen con poco contraste indica que hay poca
variabilidad de los niveles de grises en la imagen. Su efecto se muestra en un histograma
muy concentrado, con un rango dinamico pequeno. El rango dinamico es la variacion
de niveles de grises en la imagen.
Se dice que una imagen esta saturada cuando su histograma presenta valores muy
altos en sus extremos del rango dinamico; el histograma tiene una forma en “U”.
Las imagenes con bajo contraste o saturadas tienen perdidas de informacion en su
adquisicion. La solucion esta en una nueva formacion de la escena con valores diferen-
tes de los parametros de la captura. Las tecnicas de preprocesado digital no aumentan
el nivel de informacion, aunque acondicionan la imagen para las siguientes etapas de
interpretacion de las imagenes. Para aumentar el contraste se emplean las funciones de
transferencias del histograma.
La idea es realizar una trasformacion matematica que permita asociar un nivel de
2.4. TRANSFORMACIONES EN EL RECONOCIMIENTO 13
gris de salida a cada nivel de gris de entrada.
Sea u ∈ [0, I] que representa el valor de pıxel de entrada y v ∈ [0, I] que representa el
valor de pıxel de salida, donde I representa el valor maximo de nivel de gris. Definimos
la funcion de transformacion que permite hacer las modificaciones de contraste como
[Pun11] :
v =
vauau, 0 6 u < ua
vb−vaub−ua
(u− ua) + va, ua 6 u < ub
I−vbI−ub
(u− ub) + vb, ub 6 u < I
(2.9)
donde ua, ub son constantes asociadas a la entrada de nivel de gris y va, vb son constantes
que definen la salida deseada de nivel de gris para dichos valores de entrada.
Una visualizacion de esta funcion de transformacion se ilustra en la Figura 2.5.
Ejemplos de cambios de brillo y contraste se presentan en la Figura 2.4.
2.4 Transformaciones en el Reconocimiento
Con base en el trabajo de Ozuysal et al. 2010 [OCLP10] nos hemos inspirado para
incluir ciertas trasformaciones en esta tesis. El objetivo de hacer estas transformaciones
(vistas en secciones anteriores), consiste en ayudar a crear ejemplos sinteticos para el
Figura 2.4: Imagen con trasformaciones de intensidad. (a) Original, (b) incremento decontraste, (c) cambio de brillo +50.
14 CAPITULO 2. TRANSFORMACIONES A IMAGENES
Figura 2.5: Modificacion del contraste. La grafica permite mapear valores del pixel deentrada a otros valores de gris.
entrenamiento del modelo. A continuacion se describe de manera breve el trabajo de
Ozuysal para dar una idea de como aplican las trasformaciones a parches extraıdos de
imagenes de entrenamiento.
El trabajo de Ozuysal et al. 2010 presenta un metodo para el reconocimiento de
parches de imagenes1. Realizan su entrenamiento detectando puntos clave y seleccionan
un subconjunto de ellos, esto lo hacen aplicando una serie de transformaciones a parches
de las imagenes, y manteniendo la informacion del numero de veces que el mismo punto
de interes es detectado. El conjunto de entrenamiento es deformado para cada clase
generando 10,000 parches de ejemplo. Este trabajo al considerar variaciones y trans-
formaciones a las regiones de interes detectadas, consigue ganar cierta robustez. Sin
embargo, si deseamos realizar trabajos de reconocimiento de objetos, este trabajo debe
ser extendido y adaptado a un entorno o modelo que considere aspectos de validacion
y clasificacion.
Ya que nosotros nos enfocamos en utilizar informacion invariante proveniente de
caracterısticas globales y locales, las transformaciones se aplican a toda la imagen.
1Los parches son regiones de interes local sobresalientes de la imagen que contienen informacionlocal acerca de la imagen, lo cuales son detectados automaticamente por varios detectores [MS04] yrepresentados por descriptores [MS05].
2.5. RESUMEN 15
Esta informacion sirve de entrada a los clasificadores de nuestro modelo a fin de hacer
reconocimiento. En cambio el trabajo de Ozuysal unicamente buscan una descripcion
alternativa para los puntos de interes local, obteniendo resultados aceptables al com-
pararse con otros descriptores locales.
2.5 Resumen
En este capıtulo se abordo la teorıa basica para aplicar transformaciones a imagenes.
Las transformaciones seran utilizadas para anadir ruido y cambios de iluminacion,
tambien cambios de escala y rotacion con el fin de generar conjuntos de imagenes de
entrenamiento que ayuden a enfrentar la variabilidad intraclase. Hasta este momento
tenemos definido de manera conceptual las transformaciones, en el siguiente capıtulo
veremos como caracterizar las imagenes resultantes de estas transformaciones.
Capıtulo 3
Representacion de Objetos
En este capıtulo se describe la teorıa para representar a un objeto. En particular
presentamos espacios de color y descriptores de textura para representar caracterısticas
globales, en cuanto a las caracterısticas locales nos hemos enfocado en el descriptor
SIFT. Estas caracterısticas son utilizadas para representar las imagenes en el metodo
propuesto. Posteriormente se mencionan los trabajos mas distintivos en cuanto al uso
de la combinacion de diferentes representaciones para la categorizacion de objetos.
3.1 Introduccion
La representacion de un objeto se refiere a la manera de expresar el objeto en terminos
numericos procesables por una computadora. En 3.1 se expresa de manera generica la
representacion de un objeto:
θ = (x1,...,xn) (3.1)
donde las variables xi son caracterısticas que pueden de diversos tipos tales como me-
didas geometricas, estadısticas o caracterısticas de color del objeto. En el caso de que
los modelos sean modelos estadısticos, θ sera una variable o vector aleatorio, al cual
se le asocia una distribucion de probabilidad. Existen otras formas de describir la
16
3.2. ESPACIOS DE COLOR 17
representacion de un objeto como las representaciones estructurales que agregan rela-
ciones entre los elementos que componen la representacion teniendo como resultado una
estructura.
Los sistemas de vision basados en conocimiento utilizan reglas a partir de datos
para su representacion. Tienen una coleccion de regas o proposiciones que representan
conocimiento sobre los objetos y sus relaciones. El reconocimiento se realiza mediante
un proceso de inferencia. A partir de los datos de la imagen y el conocimiento del
dominio se infiere la identidad de los objetos en la imagen [SG11].
El proposito de la representacion es que la computadora sea capaz de obtener infor-
macion a partir de una imagen para analizar e interpretar sus caracterısticas.
3.2 Espacios de Color
Un espacio de color es un modelo matematico que representa la informacion de color
en terminos de valores de intensidad de manera multidimensional en donde cada di-
mension o componente es conocido como un canal de color. Existen distintos espacios
de color: los basicos (RGB, RGB normalizado, CIEXYZ ), los perceptuales (HSI, HSV,
HSL, TSL), los ortogonales (YCbCr, YIQ, YUV, YES ) y los perceptualmente unifor-
mes (CIE L*a*b*, CIE Luv) [KMB07]. A continuacion describiremos la teorıa de los
espacios de color utilizados en esta tesis.
Espacio de color RGB
El modelo RGB es el modelo basico que utiliza las componentes primarias rojo,
verde y azul, normalizadas. De esta forma los colores se representan en coordenadas
cartesianas dentro de un cubo unitario (Figura 3.1).
La escala de grises se representa por puntos presentes en la diagonal principal del
cubo unitario. En este modelo se basan las camaras y receptores de television.
18 CAPITULO 3. REPRESENTACION DE OBJETOS
Figura 3.1: Cubo unitario de color para el modelo RGB.
Espacio de color CIE L*a*b*
En 1976, la Commission Internationale de L’Eclairage (CIE) desarrollo el modelo
de espacio de color CIE L*a*b*. Este modelo fue disenado para ser un espacio de
color perceptualmente uniforme. El termino perceptual se refiere a la forma en que los
seres humanos perciben los colores, y uniforme implica que la diferencia de percepcion
entre dos coordenadas (dos colores) esta relacionada con una medida de distancia, que
comunmente es la distancia euclidiana. Por tanto, las diferencias de color se pueden
medir de una manera relacionada a la percepcion humana de colores [LVBV05]. Como
el conjunto de datos de las imagenes fueron adquiridas originalmente en el espacio de
color RGB, una conversion al espacio CIE L*a*b* es necesaria. Esta conversion se
realiza utilizando una transformacion lineal del espacio RGB a un sistema intermedio
conocido como el espacio CIE XYZ de la siguiente manera [Pas01]:
3.2. ESPACIOS DE COLOR 19
X
Y
Z
=
0.412453 0.357580 0.180423
0.212671 0.715160 0.072169
0.019334 0.119193 0.950227
R
G
B
(3.2)
Basado en la definicion del espacio CIE XYZ, el espacio de color CIE L*a*b* es
formulado como:
L∗ = 116 ∗ f(Y
Yw
)− 16
a∗ = 500 ∗(f
(X
Xw
)− f
(Y
Yw
))(3.3)
b∗ = 200 ∗(f
(Y
Yw
)− f
(Z
Zw
))
en donde:
f (t) = t13 , para t >
(24
116
)3
f (t) =
(841
108
)∗ t+
16
116, en caso contrario (3.4)
Xw,Yw,Zw son las componentes del blanco de referencia obtenido a partir de la ecuacion
3.2 con Rw = Gw = Bw = 255.
El espacio de color CIE L*a*b* incluye todos los colores visibles para el ojo hu-
mano, los cuales estan representados en un modelo tridimensional que contiene tres
ejes primarios: el eje de luminosidad L* y los ejes a* y b* que forman el color.
La Figura 3.2 muestra el modelo en 3D del espacio de color CIE L*a*b*. El eje de
luminosidad L* simboliza la reflexion del color con variacion de 0 a 100, en correspon-
dencia a la no reflexion (color negro) y alta reflexion (color blanco), respectivamente.
20 CAPITULO 3. REPRESENTACION DE OBJETOS
Figura 3.2: Espacio de color CIE L*a*b.
Los ejes a* y b* contienen 256 niveles de graduacion (de -128 a +127) para describir
distintos colores. El eje a* incluye las tonalidades del verde (-a) al rojo (+a) mientras
que el eje b* comprende la gama de colores que va del azul (-b) al amarillo (+b) [Kla05].
Espacio de color HSV
El modelo HSV (Hue, Saturation, Value) se obtiene deformando el cubo RGB de
forma que se convierte en una piramide hexagonal invertida. En el vertice se tiene el
negro, en las esquinas del hexagono los 3 colores primarios y secundarios y en su centro
el blanco. El modelo HSV se ilustra en forma geometrica en la Figura 3.3.
De esta forma el eje vertical representa la brillantez o valor (V ), el eje horizontal la
saturacion (S ) y el angulo de la proyeccion horizontal el matiz (H). La conversion de
RGB a HSV se logra mediante las siguientes ecuaciones:
V = M (3.5)
3.2. ESPACIOS DE COLOR 21
S =
0, M = m
M−mm
, en otro caso
(3.6)
H =
120(G−m)R+G−2m
, m = B
120(B−m)B+G−2m
, m = R
120(R−m)R+B−2m
, m = G
(3.7)
donde m = Min(R,G,B) y M = Max(R,G,B). La brillantez (V ) y saturacion (S ) estan
normalizadas (entre cero y uno) y el croma (H ) esta entre 0 y 360 grados.
Figura 3.3: Modelo de color HSV.
En esta seccion se presentaron los conceptos relacionados con los espacios de color
que se utilizaran en este trabajo de investigacion. En el siguiente apartado se presentan
los fundamentos teoricos del modelo de textura que se empleara conjuntamente con las
caracterısticas de color en el diseno de un algoritmo para el reconocimiento de objetos.
22 CAPITULO 3. REPRESENTACION DE OBJETOS
3.3 Tratamiento de Texturas
En analisis de imagenes, la textura es un atributo que representa el orden espacial de
los niveles de gris de los pıxeles en una region local. Las propiedades de textura cuan-
tifican las variaciones del nivel de intensidad dentro de un objeto. Normalmente estas
mediciones son independiente de la posicion, orientacion, tamano, forma, y el promedio
de brillo del objeto [WMC08]. En el presente trabajo de investigacion se incorporan
dos formas de representacion de textura: matriz de co-ocurrencia de niveles de gris y
filtro Gabor, las cuales se detallan a continuacion.
Matriz de co-ocurrencia de niveles de gris
La matriz de co-ocurrencia de niveles de gris (GLCM) proporciona un numero de
estadısticas de segundo orden del nivel de gris de un pıxel relacionado con su vecino.
El calculo de las estadısticas de la GLCM es un proceso de dos pasos. El primer paso
consiste en crear la matriz GLCM, para luego calcular las estadısticas de textura a
partir de esta.
La matriz GLCM denotada como Pd, es un histograma 2D que especifica que tan a
menudo ocurren dos niveles de gris en pares de pıxeles separados por cierta distancia.
En primer lugar, se establece un desplazamiento de distancia y direccion. Luego a cada
entrada (i, j), en Pd le corresponde un numero de ocurrencias en los niveles de gris i
y j, en pares de pıxeles que estan separados en la imagen por la distancia y direccion
elegida. Una vez que la matriz Pd esta formada, se calculan los valores estadısticos que
describen la textura. Seleccionar un desplazamiento de distancia y direccion diferentes
genera una nueva matriz GLMC.
Las caracterısticas que describen la textura de manera estadıstica a traves del uso
de la GLMC Pd son [WMC08, Par96, HS85]:
Entropıa: Mide la suavidad de la imagen en terminos de los valores de los niveles
3.3. TRATAMIENTO DE TEXTURAS 23
de gris. Entre mas alto sea el nivel de entropıa existen mas niveles de gris en la imagen.
La entropıa puede ser calculada como:
Entropıa = −∑i,j
Pd (i, j) log2 (Pd (i, j)) (3.8)
Energıa: Tambien conocida como segundo momento angular, es otra medida que
muestra como los valores del nivel de gris se distribuyen dentro de la imagen. La energıa
tiene una relacion inversa a la entropıa. La energıa de una imagen es la mas alta si
tiene solo un valor de nivel de gris; entre mas niveles de gris haya en un objeto, menor
sera la energıa. La energıa esta definida por:
Energıa =∑i,j
[Pd (i, j)]2 (3.9)
Correlacion: Mide la probabilidad conjunta de ocurrencia para pares de pıxeles
especificados. La correlacion esta dada por:
Correlacion =1
σiσj
∑i,j
(i− µi) (j − µj)Pd (i, j) (3.10)
Contraste: La medida de constraste de un objeto es la diferencia de brillo entre el
objeto y el fondo que lo rodea. El contraste mide las variaciones locales de los niveles
de gris en la matriz de co-ocurrencia y es formulado como:
Constraste =∑i,j
(i, j)2 Pd (i, j) (3.11)
Homogeneidad: Mide la cercanıa de la distribucion de los elementos en la matriz
de co-ocurrencia hacia la diagonal de la misma y es calculada como:
Homogeneidad =∑i,j
1
1 + (i, j)2Pd (i, j) (3.12)
24 CAPITULO 3. REPRESENTACION DE OBJETOS
Filtro Gabor
Los filtros de Gabor son un caso particular de los filtros de cuadratura o pares de
cuadratura, los cuales se detallan en [Jah91]. Los kernels de los filtros de Gabor se
ven como elementos base de Fourier que son multiplicados por gaussianas; con esto se
puede decir que los filtros de Gabor responden en puntos de la imagen donde hay com-
ponentes que localmente tienen una frecuencia espacial particular en cierta orientacion
[Jah91]. Estos filtros vienen en parejas, un elemento de la pareja recupera compo-
nentes simetricos en una direccion particular y la otra parte recupera los componentes
asimetricos. Los filtros de Gabor matematicamente se representan de la siguiente forma:
G(x, y) = e−( xσx
)2+(yσy
)2
2 eix (3.13)
Con la ecuacion 3.13 se puede construir un banco de filtros Bx,y,s,α que se puede ver
graficamente en la Figura 3.4 Cada elemento de dicho banco sera expresado y calculado
por:
Bx,y,s,α(x′, y′) =G( x
s, ys)
s2(3.14)
donde:
x = (x′ − x) cosα− (y′ − y) sinα (3.15)
y = (x′ − x) sinα + (y′ − y) cosα (3.16)
s sera la escala a aplicar, α la orientacion del filtro expresada en radianes, σ es un
valor de amplitud asociado a la escala s, (x′ − x, y′ − y) son valores dependientes del
tamano del filtro y eix representa la forma abreviada de a formula de Euler para numeros
complejos. En la implementacion de este algoritmo solo se utilizo la parte real.
3.4. DESCRIPTOR DE REGIONES 25
Figura 3.4: Ejemplos de una familia de filtros de Gabor.
3.4 Descriptor de Regiones
Las caracterısticas locales estan teniendo auge debido a los buenos resultados que han
tenido en tareas de reconocimiento de objetos especıficos. En esta seccion se detallara
el algoritmo mas conocido de la literatura y que sera utilizado dentro del metodo pro-
puesto para esta tesis.
Caracterısticas Locales
La idea es que las caracterısticas sean razonablemente invariantes a cambios de ilumi-
nacion, ruido, cambios en rotacion, escala y cambios menores a modificacion del punto
de vista del objeto (ubicacion distinta desde donde se observa al objeto). Dentro de
otros objetivos, tambien se busca usar las caracterısticas locales para hacer correspon-
dencia, ello puede resultar util en tareas de seguimiento y reconstruccion de escenarios
tridimensionales. Finalmente se busca que estas caracterısticas sean altamente distin-
tivas entre si (descripciones distintas para muchos puntos que entre sı tengan poco en
comun).
De esta manera el metodo de Scale Invariant Feature Tansform (SIFT) [Low04], pro-
pone un esquema que razonablemente abarca todos estos requerimientos. Este metodo
26 CAPITULO 3. REPRESENTACION DE OBJETOS
Figura 3.5: Ejemplo del uso de SIFT para localizar un objeto dentro de una escena. (a)muestra el objeto (derecha) y la escena (izquierda). De ambas imagenes son extraıdossus puntos claves y sus respectivos descriptores usando el algoritmo SIFT, estos puntosse muestran en (b). Luego, son halladas las semejanzas entre los descriptores paralocalizar los puntos correspondientes, los cuales se senalan en (c).
trata de detectar puntos claves (regiones de interes) que sean similares en cada una de
las imagenes y describir estos puntos a traves de un vector el cual es independiente del
tamano de la imagen y su orientacion. Por lo tanto, puntos claves correspondientes en
diferentes vistas de un mismo objeto deben tener similares vectores de descripcion. De
ser satisfactorio este proceso, usando un simple algoritmo para comparar dichos descrip-
tores extraıdos de cada imagen, se podrıan obtener los puntos claves correspondientes
en cada imagen. En la Figura 3.5 se muestra un ejemplo tıpico del uso de SIFT para
localizar una imagen de prueba dentro de una escena.
Este algoritmo se construye a partir de cuatro etapas:
3.4. DESCRIPTOR DE REGIONES 27
1. Deteccion de puntos sobre el espacio de escalas.
2. Localizacion de los puntos caracterısticos.
3. Asignacion de una orientacion.
4. Generacion de la descripcion del punto caracterıstico.
Se describen a continuacion con mas detalles cada uno de estos cuatro pasos:
Deteccion sobre el espacio de escalas: Esta etapa tiene como objetivo detectar
potenciales puntos de interes que sean invariantes a rotacion y escala. Para llevarlo a
cabo utilizan una diferencia de gaussianas, dadas por el filtro gaussiano.
Las diferencias de gaussianas se calculan como:
D(x, y, σ) = L(x, y, k, σ)− L(x, y, σ) (3.17)
donde L se define por:
L(x, y, σ) = G(x, y, σ) ∗ I(x, y) (3.18)
donde ∗ es la convolucion sobre x, y entre el filtro y la imagen. El filtro gaussiano G se
define por:
G(x, y, σ) =1
2πσ2e−(x2+y2)
2σ2 (3.19)
La idea es tener familias de diferencias de gaussianas. El proceso debe repetirse a
lo largo de octavas, una octava hace un submuestreo de la imagen para obtener otra
imagen, pero de menor resolucion. El objetivo de esta etapa es obtener invariancia a
escala. Un diagrama de esto se ilustra en la Figura 3.6.
Posteriormente, cada pıxel en las imagenes DoG es evaluado con su vecindario
3 × 3 × 3 para ver si es un maximo o mınimo local entre sus 26 vecinos (los 8 pıxeles
28 CAPITULO 3. REPRESENTACION DE OBJETOS
Figura 3.6: Obtencion de restas de imagenes de gaussianas. Para cada octava, la imageninicial es repetidamente convolucionada con Gaussianas para producir el conjunto deimagenes como se muestra a la izquierda. Cada octava es una imagen submuestradade la anterior. Las imagenes adyacentes son restadas para producir las imagenes dediferencia de Gaussianas mostradas a la derecha. Luego, de cada octava, la imagenGaussiana es escalada a la mitad y el proceso es repetido.
circundantes y los 9 vecinos en las escalas adyacentes (ver Figura 3.7). En caso afirma-
tivo, ese pıxel se etiqueta para ser un candidato a punto caracterıstico.
Localizacion de puntos caracterısticos: De la etapa anterior, el pıxel puede
ser determinado en posicion. Inicialmente se coloca al centro del punto muestra, sin
embargo una mejor adaptacion a partir de funciones cuadraticas, propuesta por Brown
[BL02] permite mejorar la posicion y dar mayor estabilidad a la localizacion del punto.
Posteriormente se rechazan aquellos puntos con bajo contraste.
Asignacion de una orientacion: Ahora al pıxel se le determina una orientacion
dominante. Si las propiedades del punto caracterıstico se miden en funcion de esta
orientacion dominante, se puede obtener invariancia a rotacion. Para una imagen L,
se obtienen la magnitud del gradiente m y la orientacion θ a partir de caracterısticas a
nivel pıxel:
3.4. DESCRIPTOR DE REGIONES 29
Figura 3.7: Un pıxel (senalado con X) es seleccionado como un punto de interes si esun maximo o un mınimo respecto a sus 26 vecinos (marcados con cırculos) en su escalay en las escalas adyacentes.
m(x, y) =√
(L(x+ 1, y)− L(x− 1, y))2 + (L(x, y + 1)− L(x, y − 1))2 (3.20)
θ(x, y) = arctanL(x, y + 1)− L(x, y − 1)
L(x+ 1, y)− L(x− 1, y)(3.21)
donde x, y son los puntos de la imagen.
Se crea un histograma de 36 bins cubriendo los 360 grados de las orientaciones
posibles y se anaden las muestras de acuerdo al peso de la magnitud de su gradiente.
Los picos en el histograma corresponden a la orientacion dominante. Se utiliza esta
orientacion dominante para a partir de ahı hacer una descripcion relativa del punto,
logrando la invariancia a la rotacion.
Describiendo el punto caracterıstico: Una vez definido el punto caracterıstico
este se describe a partir de un conjunto de histogramas de orientacion a partir de vecin-
darios de 4 × 4 pıxeles del punto caracterıstico. Como se menciono anteriormente, los
datos son relativos a la orientacion dominante del punto, de modo que se logra la invari-
ancia a orientacion. Cada uno de los pıxeles del vecindario contribuye a la formacion
del histograma mediante una esquema de pesado por la magnitud del gradiente m. Un
30 CAPITULO 3. REPRESENTACION DE OBJETOS
Figura 3.8: Gradientes de la imagen: Se muestra una region de 8×8 pıxeles alrededorde un punto caracterıstico ubicado en el centro. Descriptor: se muestra la concen-tracion de los histogramas en 4 regiones (2×2). En el trabajo de [Low04] se usaron 16concentraciones de histogramas (4×4) a partir de regiones de 16×16 pıxeles.
ejemplo de este vecindario se ilustra en la Figura 3.8. Dado que los histogramas utiliza-
dos son de 8 bins y se concentran los datos en 4×4 histogramas, da como resultado que
el punto se ha descrito en un vector de 8×4×4, es decir, 128 elementos. Finalmente,
para lograr invariancia a cambios de iluminacion este vector es normalizado.
Correspondencia entre puntos SIFT
La manera mas sencilla de establecer correspondencias entre puntos descritos medi-
ante SIFT, es utilizando algun algoritmo de distancia euclidiana entre las caracterısticas,
tal como vecinos mas cercanos. Otros enfoques tambien son aplicables. En esta tesis
se usa el enfoque de vecinos mas cercanos como medida de similitud y un umbral fijo
para podar los puntos que se hayan obtenido como semejantes.
3.5 Trabajos Relacionados con Representacion de
Objetos
Las caracterısticas globales describen a la imagen como un todo y las caracterısticas
locales representan a la imagen en regiones que suelen denominarse parches.
3.5. TRABAJOS RELACIONADOS CON REPRESENTACION DE OBJETOS 31
Las caracterısticas globales tienen la utilidad de generalizar el objeto con un sim-
ple vector. Por consiguiente, su uso en tecnicas de clasificacion es sencillo. En esta
caracterizacion, un poco de cambios de iluminacion, desorden en el fondo u oclusion
del objeto puede causar un decremento en el desempeno de la clasificacion. Sin em-
bargo, los clasificadores basados en estas caracterısticas usualmente pueden capturar el
contexto de una imagen, haciendo la localizacion del objeto una tarea facil.
Por otra parte, las caracterısticas locales, son calculadas por multiples puntos en la
imagen que distinguen unicamente al objeto, usualmente algunos tienen invariancia a
transformaciones afines y cambios de iluminacion, por lo tanto son robustos a oclusion
y desorden del entorno. Las caracteristicas locales y globales juegan diferentes roles en
la percepcion de objetos.
Investigaciones recientes han combinado estas dos caracterısticas, tal es el caso de
Lisin et al. 2005 [LMB+05] que presentan dos metodos. El primero usa stacking (tecnica
de ensamble de clasificadores) y el segundo usa un sistema de clasificacion jerarquica
para la categorizacion de objetos marinos. Utilizan una segmentacion para separar el
plancton del fondo de la imagen, despues de la segmentacion de cada imagen calculan
tres simples descriptores de forma: area, perımetro y compacidad (perımetro cuadrado
sobre el area). Tambien usan dos tipos de caracterısticas de textura: patrones locales
binarios (LBP) y forma de la curvatura de la intensidad de la superficie. Para las
caracterısticas locales hacen uso de SIFT [Low04]. Las caracterısticas locales de un par
de imagenes son comparadas para producir una lista de puntos correspondientes, para
medir esta correspondencia ellos emplean un clasificador de maxima verosimilitud. Con
respecto al primer metodo stacking tiene dos variaciones. En la Primera, la entrada
al meta-clasificador es una concatenacion de las etiquetas de las clases producidas por
cada uno de los clasificadores individuales. En la Segunda, cada clasificador individual
emite una distribucion a posteriori sobre las etiquetas de la clase. En la clasificacion
jerarquica se proponen 2 niveles, en el primero caracterısticas globales y posteriormente
locales para el segundo nivel. Si bien este trabajo aborda estrategias interesantes para la
tarea de reconocimiento, ası como la fusion de informacion global y local, el modelo esta
32 CAPITULO 3. REPRESENTACION DE OBJETOS
orientado a reconocimiento sobre imagenes especıficas, en este caso animales marinos
y nosotros queremos realizar pruebas sobre objetos especıficos y generales orientados a
ambientes domesticos.
Rui Pereira y Luis Seabra Lopes [PS09] exploran multiples representaciones y meca-
nismos de clasificacion para abordar dominios donde diferentes tipos de categorıas deben
ser procesadas. Una de las representaciones usadas en este trabajo es un histograma
polar de pıxeles de borde llamada contexto de forma global, los bordes de un objeto
son usualmente representativos de esta forma. Un esquema de referencias polares se
encuentra en el centro del objeto. Entonces, el espacio de alrededor, del centro hasta
el pıxel mas excentrico, esta dividido en rebanadas y capas. De la interseccion de
las rebanadas y capas resulta una matriz polar que es mapeada a un histograma 2D
contabilizando el numero de pıxeles de borde en cada celda (ver Figura 3.9).
Figura 3.9: Representaciones de forma usadas por Rui Pereira y Luis Seabra Lopes[PS09]: (a) contexto de forma global, (b) basada en tangentes.
Una segunda representacion es basada en tangentes de los bordes de los objetos. En-
tonces, para todos los pares de pıxeles de bordes, las distancias entre ellos y las angulos
entre las respectivas tangentes son calculados. Toda esta informacion es resumida en
un histograma bidimensional. El histograma cuenta el numero de pares de pıxeles de
borde en la correspondiente distancia y angulo. La tercera representacion esta dada en
3.5. TRABAJOS RELACIONADOS CON REPRESENTACION DE OBJETOS 33
terminos de caracterısticas SIFT. La clasificacion es compuesta por tres clasificadores
basicos y un meta clasificador. La primera crea un clasificador de vecinos mas cercanos
al igual que la segunda representacion. La tercera representacion es representada por la
concatenacion de la lista de puntos clave SIFT. El meta-clasificador recibe las repuestas
de los clasificadores basicos, de donde se selecciona la categorıa con mas votos.
El trabajo de [PS09] utiliza la base de datos LANGG [SC08] para objetos generales
pero las imagenes no tienen ruido en el fondo, no presentan oclusion o deformaciones, sin
embargo mencionan que tienen cambios de iluminacion. Para las categorıas especıficas
utilizan imagenes recolectadas manualmente y las proporcionadas por SRCV [SRV11].
A diferencia de ellos, nuestro objetivo es poder manipular la informacion existente en
Internet, es por ello que no recurrimos a bases de datos establecidas. Tambien estas
imagenes presentan varias dificultades (oclusion, cambios de iluminacion, ruido, etc.), y
deseamos manipularlas sin ningun preprocesamiento de mejora. En particular nosotros
no usamos la caracterıstica de forma para evitar el proceso de segmentacion.
Por otra parte Manshor et al. 2009 [MRR09] exploran los descriptores de Fourier
(caracterısticas globales de contorno) para representar la forma del objeto junto con
descriptores locales. El numero de descriptores seleccionados es 40. Este numero es
determinado empıricamente para los Descriptores Fourier (FD). El detector Harris es
aplicado para identificar puntos de interes. Entonces, los descriptores SIFT son ex-
traıdos para cada punto detectado obteniendo un vector de dimension 128. Para los
descriptores SIFT se calculan bolsas de puntos de interes obteniendo un vector de pa-
labras visuales de 250 elementos para cada clase de objetos. Esta bolsa de palabras se
obtiene mediante un algoritmo de clusterizacion. El total de caracterısticas combinadas
es de una dimension de 290 como se ve a continuacion.
F1 = [SIFT1, SIFT2, ..., SIFT250, FD1, ..., FD40] (3.22)
Estas caracterısticas se normalizan y se validan usando el algoritmo de clusterizacion
K-Means, para la clasificacion de objetos. Este trabajo se prueba con 4 clases: carro,
34 CAPITULO 3. REPRESENTACION DE OBJETOS
caballo, vaca y bicicleta. El aprendizaje dispone de 30 imagenes para cada clase y
nosotros proponemos un metodo donde se utilicen pocas imagenes de entrenamiento y
probarlo con mas clases.
3.6 Resumen
En este capıtulo se abordo de manera breve la teorıa basica para la representacion
de un objeto. En general los trabajos mencionados anteriormente usan un conjunto
predefinido de imagenes, ademas involucran diferentes tipos de representaciones de un
objeto en una union de peso fijo.
En nuestro caso partimos de imagenes obtenidas de Internet, incluyendo una re-
presentacion de caracterısticas globales que describen al objeto por su color y textura,
ademas de caracterısticas locales describiendo al objeto por sus puntos claves. Nosotros
proponemos un mecanismo de combinacion de caracterısticas mediante un ajuste de
acuerdo al tipo de objeto que se este tratando.
En el siguiente capıtulo se analizan algunos de los metodos para la categorizacion
de objetos.
Capıtulo 4
Categorizacion de Objetos
4.1 Introduccion
La tarea de categorizacion de objetos en el proceso de vision consiste en, a partir de
una imagen obtenida previamente, reconocer los distintos objetos que aparecen en la
escena capturada, clasificandolos en diferentes categorıas predefinidas (auto, persona,
etc).
Antes de poder iniciar el proceso de categorizacion es necesario preprocesar la ima-
gen, a manera de obtener una abstraccion de la misma que sea mas sencilla de procesar.
La idea detras de la categorizacion de objetos es capturar la consistencia de apariencia,
textura y forma de los diferentes objetos pertenecientes a la misma clase. A continuacion
trataremos de manera breve algunos de los metodos utilizados en la categorizacion de
objetos.
4.2 Metodos para la Categorizacion de Objetos
Existen diversos metodos para la categorizacion de objetos, cada uno tiene sus ventajas
y desventajas [Dic09]. Siendo estos:
• Metodos basados en forma.
35
36 CAPITULO 4. CATEGORIZACION DE OBJETOS
• Metodos estructuales.
• Metodos de caracterısticas globales.
• Metodos de caracterısticas locales.
A continuacion se hace una breve descripcion de cada uno de ellos:
Metodos Basados en Forma
Los metodos basados en forma fueron de las primeras estrategias desarrolladas para
hacer representaciones abstractas de los objetos que sirvieran para realizar tareas de
reconocimiento. Basicamente la idea es crear un modelo de tipo geometrico (construido
a partir de lıneas, cırculos, o incluso modelos volumetricos, como cilindros) de un objeto
en particular, digamos un avion (ver Figura 4.1). No obstante, para poder construir
estos modelos, el objeto tenıa que cumplir una serie de restricciones, como tener un eje
de simetrıa, a fin de poder construir el modelo geometrico [Bin71, AB76, Bro81, UN93,
PC88].
Figura 4.1: Construccion de un modelo volumetrico a partir de objetos. (a) Entrada dela imagen, (b) modelo 3-D compuesto de cilindros generalizados. una vez construido elmodelo, este se trata de reconocer en otras imagenes. imagen tomada de [Bro81].
Con el tiempo, pudieron considerarse elementos geometricos mas complejos, que
involucraban deformaciones o incluso formas 3D a partir de una nube de puntos en el
espacio (un ejemplo se ilustra en la Figura 4.2) [Bar81, SB90, FLW93, DMP97]. No
4.2. METODOS PARA LA CATEGORIZACION DE OBJETOS 37
Figura 4.2: Cuadrıculas de elipsoides. Estas formas volumetricas son construidas apartir de una nube de puntos 3D (puntos en color gris y blanco en la imagen). Elobjetivo es construir modelos 3D de objetos para su reconocimiento en entornos reales.La imagen fue tomada de [LJS97].
obstante, emparejar estos modelos con objetos del mundo real fue una tarea cada vez
mas complicada, debido a que difıcilmente el modelo construido se podıa mapear a
objetos reales. Esto motivo a abandonar estos modelos de reconocimiento a partir de
formas.
Posteriormente se intento manejar este problema mediante la abstraccion de las for-
mas, que dio lugar a la agrupacion de contornos, lıneas o cırculos [RM93, SP95, BL08].
Algunos de estos trabajos dieron lugar a los enfoques jerarquicos, que trataron de mo-
delarse de manera estructurada. Estos son los modelos que se trataran a continuacion.
Metodos Estructuales
Los modelos estructurales surgen cuando se desea modelar distintas configuraciones
con que puede aparecer un objeto determinado. Por ejemplo, el concepto silla, puede
aparecer con una pata o cuatro patas. La idea consiste en construir un modelo que
abstraiga la estructura de los objetos, a pesar de la variabilidad que pueden presentar.
38 CAPITULO 4. CATEGORIZACION DE OBJETOS
Algunos trabajos utilizan gramaticas para modelar esto [ZM06, JG06, LSD05], aquı
la idea es modelar los elementos simples que componen al objeto, (usando formas como
cuadrados, cırculos o polıgonos) y tambien otras posibles configuraciones del objeto
(como el caso de la silla). Una de las ventajas de esto es que provee una abstraccion
estructural del objeto que lo descompone en elementos cada vez mas sencillos. Sin
embargo, un problema asociado es que un objeto puede tener muchas maneras de des-
componerse, habiendo dificultad en encontrar la estructura mas adecuada.
Metodos de Caracterısticas Globales
Muchos sistemas de reconocimiento de objetos usan caracterısticas globales para
describir una imagen completa [YSR05]. Una de las ventajas de estos modelos es
que permiten representar de manera compacta la informacion en un vector de carac-
terısticas. De esta manera se puede usar cualquier tipo de clasificador. No obstante,
estos modelos pueden verse afectados cuando las imagenes involucran cierto ruido u
oclusion. En general estos modelos usan descriptores que pueden verse afectados o no
por estas condiciones, tales como histogramas de color, area de regiones, informacion
de bordes, textura, etc. Normalmente si se desea agregar informacion de tipo espa-
cial, se considera algun tipo de segmentacion simple como segmentacion en recuadros.
Actualmente los modelos basados en caracterısticas globales estan siendo desplazados
por aquellos basados en caracterısticas locales, o una combinacion de estos.
Metodos de Caracterısticas Locales
Los modelos basados en caracterısticas locales parten de la idea de describir regiones
pequenas alrededor de un punto de interes. Los puntos de interes por lo regular son
esquinas, bordes, o zonas donde hay una variacion importante en la intensidad de
los pıxeles de la imagen. Existen diversos detectores de puntos de interes [MS04],
los cuales posteriormente son descritos por diversos algoritmos como SIFT [Low04] o
4.3. APRENDIZAJE DE MODELOS DESDE INTERNET 39
SURF [BETVG08]. Estos modelos han resultado adecuados para construir modelos
de objetos especıficos, aun en condiciones de oclusion. Asimismo, se evita en buena
medida el uso de estrategias de segmentacion. Sin embargo, es necesario considerar
otras estrategias en combinacion con estos modelos cuando se desea aprender categorıas
de objetos generales, como por ejemplo manzanas.
4.3 Aprendizaje de Modelos desde Internet
El primer paso para la identificacion y clasificacion de objetos es la adquisicion de
imagenes. Investigaciones en el area emplean conjuntos de datos que contienen imagenes
con dos principales caracterısticas, una es que los objetos de interes son separados de un
fondo y por otra parte que esten bien etiquetados. La tarea de etiquetamiento manual
consiste en que un humano por simple inspeccion identifica a que clase pertenece cada
imagen del conjunto de datos; sin embargo, esto suele ser subjetivo y muy costoso.
En este trabajo de investigacion planteamos aprender modelos de objetos visuales,
los cuales son construidos por medio de imagenes de la Web. Esto surge porque los
conjuntos de imagenes establecidos carecen de elementos para cualquier objeto, ademas
de no contar con las caracterısticas particulares que requerimos.
Pongamos el ejemplo de un robot de actividades domesticas al que le pedimos que
vaya por nuestras pastillas. El robot puede no tener informacion sobre este objeto,
entonces debe aprenderlo mediante imagenes. Siendo aquı donde la Web se convierte
en una fuente de apoyo, ya que es un recurso de imagenes donde podemos encontrar
una infinidad de categorıas de objetos. Adquirir ejemplos de entrenamiento a traves de
la Web puede ayudar a seleccionar imagenes mediante un mecanismo no supervisado,
aunque por otra parte conduce a recuperar imagenes no relevantes para nuestros ob-
jetivos. La figura 4.3 muestra el esquema general que sigue un motor de busqueda de
imagenes. Primero, el sistema recibe una consulta (descripcion textual). Segundo, el
motor busca dentro de la coleccion de imagenes las que, de acuerdo con alguna medida
de similitud definida por el propio motor de busqueda, resulten mas relevantes a la con-
40 CAPITULO 4. CATEGORIZACION DE OBJETOS
Figura 4.3: Esquema general de un motor de busqueda de imagenes.
sulta dada. Por ultimo, el sistema muestra en orden de relevancia, la lista de imagenes
recuperadas.
Dentro de esta lınea, Vijayanarasimhan et al. 2008 [VG08] proponen un metodo para
un aprendizaje discriminativo de categorıas de imagenes asociadas con palabras claves.
Introducen un esquema no supervisado para el aprendizaje de categorıas visuales multi-
instancias basados en el trabajo de Bunescu y Mooney [BM07]. En este metodo [VG08]
parten de una lista que contiene el nombre de diferentes categorıas, donde reunen grupos
de imagenes que estan altamente asociadas a cada categorıa. El conjunto de imagenes
es obtenido por una consulta (nombre de la categorıa), la cual es traducida a diferentes
idiomas y luego se somete a multiples motores de busqueda. De lo anterior obtienen
multiples bolsas de ejemplos positivos. La bolsa de imagenes negativas es recolectada al
azar de un conjunto de datos ya etiquetados o desde Internet de solo aquellas categorıas
que tienen un nombre diferente a la categorıa de interes. En este trabajo se basan en
la idea de saber que al menos un miembro de cualquier bolsa de ejemplos positivos es
verdaderamente positivo, mientras que cada elemento de cualquier bolsa de ejemplos
negativos se garantiza que es negativo. Realizan varias iteraciones automaticamente
para darle un peso bajo a aquellos ejemplos de las bolsas positivas que no sean tan
relevantes. Un esquema general de este modelo se ilustra en la Figura 4.4. Si bien este
trabajo es novedoso desde el punto de vista de la recoleccion y manejo de datos de la
4.3. APRENDIZAJE DE MODELOS DESDE INTERNET 41
Figura 4.4: Resumen del metodo propuesto por [VG08]. (a) Dado el nombre de unacategorıa, el metodo colecciona automaticamente “bolsas positivas” de instancias rui-dosas a traves de varios motores de busqueda de imagenes en multiples lenguajes. Lasbolsas negativas son construidas desde imagenes etiquetadas o Internet. El metododiscrimina las instancias positivas de las negativas, incluso si la dispersion (ejemplospositivos y negativos dentro de las bolsas positivas) del entrenamiento es alta. (b) Apartir de una solucion inicial del algoritmo el clasificador realiza mejoras a traves de laactualizacion de las bolsas positivas de entrenamiento. Instancias fuertemente positivastienen mas impacto que aquellas que posiblemente sean falsos positivos (descritas aquıcomo imagenes mas pequenas).
Web, pudiera extenderse al empleo de diversos clasificadores para ayudar en la tarea
de reconocimiento.
En este otro trabajo [SCZ07] plantean contruir un modelo para recuperar imagenes
de la Web a partir de informacion diversa como texto, caracterısticas visuales y meta
datos (etiquetas html). Primeramente, las imagenes candidatas se obtienen a partir
de una busqueda Web, estas imagenes se reordenan a partir de caracterısticas basadas
en texto provenientes de los sitios donde se encontraron. La idea es eliminar imagenes
irrelevantes por medio del texto no asociado al concepto. Posteriormente se eliminan
algunas imagenes irrelevantes por sus caracterısticas visuales. Al final el modelo puede
42 CAPITULO 4. CATEGORIZACION DE OBJETOS
probarse con diversos repositorios. Ellos reportan resultados sobre el conjunto de datos
de Google Downloads. Uno de los aspectos a mejorar en este trabajo es el manejo de
la polisemia, ya que mencionan que este problema afecta a sus resultados.
Fergus et al. 2005 [FFFPZ05] proponen un metodo que aprende categorıas de
objetos con solo el nombre, utilizando un conjunto de imagenes D recuperadas desde
motores de busqueda. Para la clasificacion utilizan un esquema de categorizacion de
textos. Cada imagen contiene puntos de interes cuya aparicion se ha cuantificado en
un vector W de palabras visuales [SZ03]. El corpus se representa por una matriz de
co-ocurrencia de tamano W ×D. Las preguntas concernientes a este trabajo se centran
en si es suficiente el uso de caracterısticas consideradas, o si es requerido emplear algun
sistema de clasificacion mas robusto.
En el trabajo de Fergus et al. 2004 [FPZ04] explican que el modelo de un objeto
consta de un numero de partes y una parte puede ser un parche de pixeles o un seg-
mento de curva. En cualquier caso, una parte esta representada por su descripcion
intrınseca (la apariencia o la geometrıa) y la probabilidad de oclusion. La forma ge-
neral del modelo se representa por la posicion mutua de las partes. La descripcion de
las partes, la escala, la forma y la oclusion estan modelados por funciones de densidad
de probabilidad gaussianas. El proceso de aprendizaje de una categorıa de objetos es
dado por caracterısticas, despues, el modelo da una descripcion de maxima verosimi-
litud de los datos de entrenamiento (ver fig. 4.5). Las caracterısticas usadas en este
trabajo son dos, la primera consiste en regiones de pixeles; la segunda en segmentos de
curva. El reconocimiento se realiza por una imagen de consulta, primero se detectan
las caracterısticas y luego se valoran de una manera bayesiana, usando los parametros
estimados por el modelo de aprendizaje.
La competencia de Semantic Robot Vision Challange Competition (SRVC) [SRV11]
es disenada para mejorar el estado del arte para el reconocimiento de objeto en imagenes
y la adquisicion automatica de conocimiento a partir de grandes bases de datos no
estructurados de imagenes, como las que generalmente se encuentran en la Web. Este
concurso busca fusionar la robotica con vision computacional. En esta competencia
4.3. APRENDIZAJE DE MODELOS DESDE INTERNET 43
Figura 4.5: Caracterısticas utilizadas en [FPZ04]. (a) Muestra la salida del detector deregion. (b) Un segmento de la curva larga se descompone en sus puntos bitangentes.(c) y (d) muestran la curva de segmentos. Las marcas verdes y rojas indican el inicioy el fin de la curva respectivamente.
a los robots se les proporciona una lista textual de los objetos fısicos que se esperan
encontrar en un entorno. Los nombres de la lista no son rigurosos para describir al
objeto por lo tanto se tiene un problema de ambiguedad. Una vez dada la lista a los
robots, estos se conectan a Internet para realizar una busqueda autonoma de ejemplos
visuales de cada uno de los elementos de la lista. Pasado un determinado tiempo, los
robots son colocados en el ambiente disenado para la competencia. Deben buscar de
forma autonoma y encontrar tantos objetos como sea posible. Cuando ha transcurrido
el tiempo que se especifico para la busqueda de objetos , los robots deben generar un
conjunto de imagenes de salida, en donde se etiqueta cada imagen con el nombre del
objeto. Para recibir un puntaje por cada imagen, el objeto real debe estar presente en
la imagen y un recuadro debe contener al objeto.
Varios desafıos surgen al querer aplicar un sistema de reconocimiento de objetos en
una plataforma fısica. Dentro de esta competencia destaca el trabajo de David Meger
44 CAPITULO 4. CATEGORIZACION DE OBJETOS
et al. 2010 [MMH+10] que han aplicado un sistema de reconocimiento de objetos
dentro del mundo real, un robot capaz de extraer ejemplos de entrenamiento de la
Web, navegar y explorar su entorno. Los ejemplos que utilizan para el entrenamiento
son extraıdos por medio de consultas de la Web pero tambien de conjuntos de imagenes
etiquetadas. Para los objetos especıficos utilizan descriptores SIFT aplicados a las
imagenes [Low04]. Empatan las caracterısticas de una nueva imagen con su modelo.
En cuanto a los objetos generales describen a una imagen basandose en la deteccion de
bordes. Finalmente incluyen un clasificador basado en un modelo de piezas deformables.
Otro trabajo es el de Vijayanarasimhan et al. 2008 [VG08] el cual ya se ha mencionado
antes.
En esta tesis adoptamos la idea de aprender modelos de categorıas mediante imagenes
obtenidas de la Web. Buscando que las imagenes sean recolectadas sin supervision, evi-
tando ası el uso de conjuntos de datos etiquetados. Esto es con el fin de poder explotar
la informacion que existe en Internet y tener a nuestro alcance informacion de cualquier
tipo de categorıa sin tener que limitarnos solo a datos establecidos.
Nosotros usamos un enfoque diferente con respecto de los anteriores trabajos. A
diferencia de ellos usamos un ensamble de clasificadores, cada clasificador es alimen-
tado con distintos datos. Se busca que cada clasificador sea entrenado con diferente
informacion, para crear varios modelos del objeto, a fin de tratar la variabilidad de los
elementos de la clase.
El ensamble de clasificadores que proponemos esta compuesto por varios clasifi-
cadores bayesianos. A continuacion describimos los conceptos basicos pertinentes a
este tema.
4.4 Clasificador Naıve Bayes
Este algoritmo se basa en la hipotesis de que las variables que describen a las instancias
son estadısticamente independientes entre sı dada la clase C. A partir del conjunto
de entrenamiento se calcula la probabilidad a priori de que una instancia cualquiera
4.5. ENSAMBLE DE CLASIFICADORES 45
pertenezca a una clase, tambien se calcula la probabilidad condicional de que un atribu-
to Ai tome un valor si la instancia pertenece a una determinada clase. Luego con estos
datos se puede calcular, utilizando la formula de Bayes y asumiendo independencia
entre las variables, la probabilidad de que una instancia pertenezca a una clase si sus
atributos toman determinados valores. La clasificacion de la instancia dada sera la que
haga maxima esta probabilidad [DH73] como se puede ver en la ecuacion 4.1. Se ha
descrito este clasificador ya que es utilizado para construir el metodo propuesto.
Clasificador(A1 = a1, ..., An = an) = arg maxc
p(C = c)n∏i=1
p(Ai = ai|C = c) (4.1)
4.5 Ensamble de Clasificadores
Los ensambles de clasificadores, a diferencia de las tecnicas de clasificacion tradi-
cional, estan teniendo un amplio auge en el ambito cientıfico, debido a que tienden
a obtener mejores resultados al combinar los resultados de varios clasificadores. El uso
de los ensambles se ha incrementado debido a que son menos vulnerables a sobreajuste
(overfitting) y es posible obtener buenos resultados con pocos datos de entrenamiento.
Asimismo, un problema complejo puede ser descompuesto en multiples sub-problemas
que sean mas faciles de entender y resolver, incluso los errores no-correlacionados de los
clasificadores individuales pueden eliminarse por medio de la combinacion [KHDM98].
Los ensambles son conjuntos de clasificadores diferentes que realizan predicciones que
se fusionan y se obtiene como resultado la combinacion de cada una de ellas.
A continuacion se describe el esquema de clasificadores en una arquitectura paralela
empleando un voto mayoritario, utilizado en este trabajo de tesis.
Arquitectura
Disponiendo de un conjunto de L clasificadores, la arquitectura depende de la forma
46 CAPITULO 4. CATEGORIZACION DE OBJETOS
en que se desea integrar al conjunto para generar una toma de decision, ya sea indepen-
diente unos de otros, por eliminacion de hipotesis (decisiones dependientes) o a traves
de la cooperacion de clasificadores (cada uno soluciona un problema) [LBK02, RF03].
De acuerdo a ello el ensamble de clasificadores pueden adoptar distintas arquitecturas:
secuencial, en serie o vertical, paralela u horizontal e hıbrida (mezcla de la arquitectura
secuencial con la paralela, con interaccion, etc.) [SM06]. En esta tesis utilizaremos el
enfoque horizontal.
Figura 4.6: Ejemplo de arquitectura horizontal o paralela.
Arquitectura horizontal o paralela: En la arquitectura paralela los clasifi-
cadores operan independientemente unos de otros, luego se fusionan sus respectivas
respuestas y se busca un consenso entre los clasificadores para llegar a una unica de-
cision, vease la Figura 4.6. Este esquema es muy facil de aplicar, no requiere de una
reparametrizacion de los otros clasificadores en caso de que existan modificaciones en
el conjunto.
Estrategia de combinacion
Existen diferentes estrategias para fusionar las salidas de los clasificadores, siendo
la mas sencilla el voto mayoritario simple, donde cada clasificador tiene un voto que
tiene igual valor. En esencia, la clasificacion mas popular es la que resulta elegida por
el conjunto como decision final.
4.5. ENSAMBLE DE CLASIFICADORES 47
Ensambles en la Categorizacion de Objetos
Con el paso de los anos, muchos trabajos han usado clasificadores individuales.
Recientemente varias maneras han sido sugeridas para combinar los resultados de difer-
entes clasificadores con el fin de aumentar el desempeno de los sistemas. En esta seccion
se analizaran un par de trabajos relacionados en el area de incorporar multiples clasi-
ficadores.
En el trabajo de Yi et al. 2009 [JIB09] proponen un metodo inspirados en un
proceso jerarquico Dirichlet (HDP) para generar mezclas de componentes intermedios
para el reconocimiento y categorizacion. Consideran que una categorıa incluye multiples
imagenes M y cada imagen la modelan como una combinacion con diferentes propor-
ciones (palabras visuales) W de mezcla usando K componentes. Cada componente
es una mezcla de palabras visuales con diferentes proporciones de mezclas (ver Figura
4.7). Los componentes y el numero de componentes son inferidos desde los ejemplos
de entrenamiento. Basados en un proceso jerarquico Dirichlet (HDP), el cual es un
algoritmo desarrollado para capturar incertidumbre con respecto al numero de com-
ponentes en el modelado, utiliza un muestreo de Gibbs directo en cadenas de Markov
Monte Carlo (MCMC). Este algoritmo permite hacer un muestreo posterior para apren-
der los parametros de mezcla del modelo. Utiliza el conjunto de datos Caltech con las
categorıas avion, cara, leopardo, motocicleta y los resultados que obtienen son 94%,
74%, 92% y 88%, respectivamente. Se entrenan con 50 imagenes positivas y 50 negati-
vas, notese que las imagenes que ellos utilizan son de un conjunto de datos establecido.
Prueban el modelo con 50 imagenes.
Otro enfoque es propuesto por Zhang et al. 2005 [ZYZS05] donde se combinan
tres metodos: textura local, forma, y caracterısticas de pares de relaciones espaciales
(PSR), dentro de un Adaboost multi capa. La funcion de la primer capa es seleccionar
el conjunto de caracterısticas locales y globales que mejor describen al objeto de la
clase. Seleccionan PCA-SIFT para representar caracterısticas locales y el contexto
de la forma para representar caracterısticas globales. La segunda capa se basa en
48 CAPITULO 4. CATEGORIZACION DE OBJETOS
Figura 4.7: Mezcla de componentes de Yi ji [JIB09].
las distancias entre las caracterısticas locales mas discriminantes seleccionados por la
capa 1, para localizar las mejores caracterısticas de cada muestra . El resultado es
un sistema de reconocimiento en cascada como el que se ilustra en el diagrama de la
Figura 4.8. Este metodo utiliza los conjuntos de datos Caltech y [FFFPZ05] siendo las
clases motocicleta, carro, avion, gato y cara. Cada conjunto de datos es dividido en
2 conjuntos de igual tamano. El modelo es entrenado con el primero y probado con
el segundo. En resultados presentan un buen desempeno en verdaderos positivos pero
hay que resaltar que en promedio utilizan 300 imagenes de entrenamiento para cada
categorıa.
Los anteriores trabajos descritos tienen dos limitantes. La primera, construyen un
modelo del objeto, lo que restringe a solo reconocer ciertas caracterısticas de las difer-
entes instancias de una misma clase. La segunda, la combinacion de las caracterısticas
no se ajustan dependiendo del objeto que se esta tratando.
Como ya se habıa mencionado anteriormente, el metodo propuesto incluye un en-
samble de clasificadores. Se busca que cada clasificador sea entrenado con diferente
informacion, por lo tanto se crean varios modelos del objeto, cubriendo ası la variabi-
lidad de los elementos de la clase. Las categorıas son representadas con caracterısticas
globales y locales. Posteriormente los resultados de los clasificadores son combinados,
ajustando el peso de las caracerısticas globales y locales automaticamente, dependiendo
4.6. DISCUSION 49
Figura 4.8: Modelo multicapa de Zhang [ZYZS05]. La primera capa acepta un ejemplosi pasa el clasificador compuesto de caracterısticas locales y globales. La segunda capase acepta si el ejemplo pasa la clasificacion con PSR. Debe pasar el ejemplo ambasetapas para ser aceptado como positivo.
del objeto a clasificar.
4.6 Discusion
Dentro de los trabajos analizados, hemos resumido las principales caracterısticas en la
Tabla 4.1. En esta tabla se busca resaltar las diferencias de trabajos previos con este
trabajo de investigacion. Nosotros vemos como una ventaja el poder realizar entre-
namiento con imagenes de la Web, esto para evitarnos el etiquetamiento de imagenes o
de usar un conjunto de datos previamente etiquetados, ademas de poder tener en nue-
stro alcance informacion de cualquier tipo de categorıa; sin embargo, dentro de estas
imagenes se pueden presentar algunas inconsistencias con el objeto de interes deseado,
como se ha mencionado antes.
Para tratar algunas de estas inconsistencias (oclusion, cambios de iluminacion, dife-
rentes puntos de vista o con algun tipo de ruido) en el metodo propuesto se han incluido
dos representaciones, una global y otra local que describen a la categorıa. Estas dos
representaciones se han combinado para poder abarcar objetos tanto generales como
especıficos, la combinacion se realiza dependiendo del objeto tratado, en cambio otros
50 CAPITULO 4. CATEGORIZACION DE OBJETOS
Tabla 4.1: Resumen de trabajos relacionados. Se presentan las caracterısticas mas re-levantes de los trabajos analizados, resumiendose en 5 columnas: si realizan aprendizajecon imagenes de la Web, si consideran caracterısticas globales y locales, si utilizan va-rios clasificadores, si incorporan la localizacion de los objetos dentro de una imagen deprueba y que esquema de supervision emplean.
Autor (es) Imagen
esW
eb
Cara
cter
ısti
-ca
slo
cale
sy
glo
bale
s
Vari
os
clasi
-fi
cad
ores
Loca
liza
cion
del
ob
jeto
Su
per
vis
ad
o
Vijayanarasimhan et al. 2008 si locales no no noFergus et al. 2005 si locales no no noFergus et al. 2004 si locales no no si/no
David Meger et al. 2010 si/etiquetados ambas no si noYi et al. 2009 no ambas jerarquico no si
Zhang et al. 2005 no ambas si no noMetodo propuesto si ambas si si no
trabajos le asignan un mismo peso a sus diferentes caracterısticas.
Los trabajos antes descritos se caracterizan por entrenar a sus clasificadores con
la misma informacion, en cambio nosotros empleamos informacion de entrenamiento
diferente para cada clasificador pudiendo de esta manera hacer frente a las variantes
de una misma clase. Cabe mencionar que solo el trabajo de David Meger et al. 2010
realiza localizacion del objeto dentro de la imagen de prueba, la ventaja de tener esta
tarea en nuestro modelo radica en poder realizar una localizacion del objeto tal como
la realizada en trabajos orientados a robots de servicio.
En cuanto al grado de supervision, casi todos los trabajos que utilizan imagenes
de la Web cuentan con un esquema no supervisado. El objetivo de esto es evitar la
intervencion del usuario en este tipo de modelos. En un experimento empleamos un
esquema con supervision limitada, solo con el fin de comparar los resultados contra el
esquema no supervisado.
4.7. RESUMEN 51
4.7 Resumen
En este capıtulo se presento la teorıa de algunos clasificadores y tambien se mencionaron
algunos trabajos previos en relacion a la categorizacion de objetos.
Muchos sistemas de categorizacion trabajan con conjuntos de imagenes predefinidos,
limitandose a realizar pruebas poco realistas. Otros mas utilizan imagenes de Internet
empleando algun tipo de algoritmo que les permite reducir las dispersion de la respuesta
de los buscadores de imagenes. No obstante, en general las imagenes recuperadas
presentan ciertos problemas de iluminacion, ruido, etc., ademas de que muchas de ellas
pueden no ser relevantes al objeto deseado.
Algunos de los metodos anteriormente analizados obtienen imagenes de Internet,
pero hasta ahora construyen un solo modelo visual de la categorıa, lo que representa
no tomar en cuenta las multiples presentaciones de un solo objeto o varios significados.
Por otra parte, se presentaron trabajos que al utilizar varios clasificadores, tienen fija
la contribucion de caracterısticas globales y locales, que puede perjudicar a un objeto
en general.
Debido a la alta variabilidad en las categorıas de objetos, se necesita construir un
esquema mas flexible. En el siguiente capıtulo se describe el algoritmo propuesto el cual
construye varios modelos que capturan las diferentes instancias de la clase, considerando
el uso de informacion tanto global como local.
Capıtulo 5
Metodo Propuesto
El problema que se quiere resolver es aprender conceptos visuales a partir de imagenes
de la Web. Estas imagenes presentan ciertas condiciones que dificultan su catego-
rizacion tales como cambios de iluminacion, oclusion, la imagen puede ser un dibujo o
una caricatura del concepto; por otra parte, tambien podemos encontrar imagenes que
ilustran una relacion con el objeto mas no al objeto. En este capıtulo se describe una
solucion a este problema, organizandose de la siguiente forma: primero se presenta el
esquema general del metodo propuesto, despues se describe la generacion automatica
de ejemplos para el entrenamiento, posteriormente se presenta el algoritmo encargado
de realizar una representacion del concepto y la estructura del clasificador propuesto,
y por ultimo se define el procedimiento para localizar al objeto dentro de una imagen.
5.1 Esquema Propuesto
Debido a la problematica presentada necesitamos un clasificador que sea robusto a las
diferentes instancias existentes en un mismo concepto. Para obtener este clasificador
usamos varias instancias representativas del concepto, incluimos para cada instancia
diferentes variantes, ademas mezclamos informacion global y local definiendo el peso
de cada caracterıstica con respecto al tipo de concepto tratado. Todo esto con el fin de
clasificar un concepto en un nueva imagen.
52
5.1. ESQUEMA PROPUESTO 53
Figura 5.1: Arquitectura general del metodo propuesto. A cada imagen modelo se aplicauna serie de transformaciones creando un conjunto de ejemplos de entrenamiento dondeestas se describen por medio de caracterısticas de color, textura y regiones locales quedespues alimentan a cada uno de los clasificadores. Para decir que un objeto se hareconocido se realiza un consenso entre todos los clasificadores.
El procedimiento general para resolver el problema (ver fig. 5.1) consiste en:
1. Extraer un conjunto C de imagenes de entrenamiento para el aprendizaje del
concepto desde la Web usando Google Images, lo cual nos libera de depender de
conjuntos de imagenes predefinidos.
2. Aplicar una serie de transformaciones a cada una de las imagenes extraıdas de la
Web, creando automaticamente conjuntos para el entrenamiento, con la finalidad
de manejar varias presentaciones de un objeto.
3. Extraer caracterısticas globales (color y textura) y locales (keypoints SIFT) del
conjunto de imagenes generadas por las transformaciones, para poder abarcar
diferentes tipos de objetos.
4. Inducir dos clasificadores basicos que usan diferentes representaciones (informacion
54 CAPITULO 5. METODO PROPUESTO
global y local, respectivamente). Se crean clasificadores globales (CG) y locales
(CL) con cada conjunto de entrenamiento de las imagenes modelo.
5. Integrar el clasificador global y local por medio de una combinacion lineal pesada
(CGL - clasificador de combinacion global y local).
6. Combinar el conjunto de clasificadores CGL a traves de un esquema de votado.
7. Determinar los parametros del modelo: umbral de cada clasificador, el pesado
para la combinacion de caracterısticas globales y locales, y el umbral para la
combinacion de los clasificadores, mediante validacion cruzada para cada objeto;
evitando ası ajustes manuales del modelo.
5.2 Generacion Automatica de Ejemplos
Muchas investigaciones han probado sus metodos sobre imagenes etiquetadas [CDF+04,
FPZ03, LHB04, LLS06], requiriendo de un gran numero de imagenes para el entre-
namiento. Dado que los buscadores con facilidad recuperan imagenes no relevantes y
considerando que las imagenes mas relevantes tienden a ser las primeras recuperadas,
en esta tesis se plantea un metodo que requiera de pocas imagenes, proponiendo que a
partir de un pequeno conjunto de imagenes extraıdas de la Web se generen imagenes
las cuales serviran para el entrenamiento del modelo propuesto.
El generar ejemplos de una manera automatica define la primer etapa del metodo
propuesto. En la Figura 5.1 se muestra esta primer etapa delimitada por un recuadro
llamado generacion automatica de ejemplos.
5.2.1 Transformaciones a Imagenes
La busqueda de una palabra clave (nombre del concepto) en Google Images regresa
una coleccion de imagenes, dentro de la cual se asume que los primeros N elementos
(imagenes modelo) describen al objeto. Una desventaja de obtener las imagenes modelo
5.2. GENERACION AUTOMATICA DE EJEMPLOS 55
de esta manera es permitir el paso de imagenes poco representativas al objeto, ya que
es posible encontrar dibujos del concepto, objetos ocluidos, con poca iluminacion o
bien instancias homonimas. Como ventaja tenemos la poca supervision que requiere el
metodo.
Inspirados por [OCLP10], se generan varias imagenes de cada imagen modelo me-
diante una serie de transformaciones (ver Figura 5.2). Lo anterior provee un conjunto
de entrenamiento generado automaticamente que sera utilizado para construir un clasi-
ficador por cada imagen modelo, de esta forma abarcamos la incertidumbre de una
imagen de prueba, al tener el objeto mas de una presentacion y mas de una inter-
pretacion (no se sabe si es ruidosa, con poca iluminacion, imagenes de un raton -animal
o articulo de computo-, etc.).
Las transformaciones aplicadas son:
• Ruido gaussiano y ruido sal y pimienta.
• Transformaciones afines: rotaciones y cambios en escala.
• Cambios en intensidad.
Se han utilizado 5 diferentes niveles para cada transformacion, siendo en total 5
transformaciones × 5 niveles = 25 imagenes generadas.
Figura 5.2: Generacion automatica de ejemplos de entrenamiento.
56 CAPITULO 5. METODO PROPUESTO
5.3 Representacion del Objeto
Dadas las diferentes caracterısticas de las categorıas de objetos, diferentes representa-
ciones pueden ser mas adecuadas para unas categorıas que para otras. Las categorıas de
objetos visuales son divididas en dos principales grupos [PS09]: si la categorıa muestra
una alta variacion entre sus miembros, entonces es general ; por otra parte, si la catego-
rıa muestra pequenas variaciones entre sus miembros y comparten un alto numero de
caracterısticas locales se dice que es especıfica.
Este trabajo explora dos representaciones para hacer frente a los diferentes tipos de
categorıas que pueden ser procesadas, una basada en caracterısticas globales y otra en
caracterısticas locales. Esta fase es ilustrada por el recuadro llamado representacion del
objeto en la Figura 5.1.
5.3.1 Extraccion de Caracterısticas Globales
Las caracterısticas globales son comunmente usadas para generalizar la idea de un ob-
jeto. Dentro de esta caracterizacion incluimos informacion de color y de textura. Para
evitar el uso de una segmentacion sobre el objeto, en este trabajo no se considero la
forma.
Representacion de Color. La imagen modelo definida por I y su conjunto de
deformaciones definido por D se describen mediante la concatenacion de tres diferentes
modelos de color: RGB, HSV y CIE L*a*b*. Se han utilizado estos espacios de color por
su amplia mencion en la literatura. Para cada canal de cada espacio de color, se cons-
truye un histograma normalizado de frecuencias dividido en un numero determinado
de segmentos (Nbins).
Dado h(k) como el numero de ocurrencia del nivel de gris k en un canal (por ejemplo
canal G en RGB) de la imagen, ya sea I o perteneciente a D, se obtiene su histograma
normalizado Hnorm(i) dado por:
5.3. REPRESENTACION DEL OBJETO 57
Hnorm(i) =h(i)
Nbins∑i=1
h(i)
(5.1)
h(i) =
256Nbins
i∑k= 256
Nbins(i−1)
h(k) (5.2)
Representacion de Textura. Una segunda representacion usada en este trabajo
es conformada por la matriz de coocurrencia de niveles de gris (GLCM) [WMC08, Par96,
HS85] y un banco de filtros Gabor [Jah91]. Las propiedades estadısticas de contraste,
correlacion, energıa y homogeneidad son dadas por la matriz GLCM tomando en cuenta
cuatro orientaciones. Las formulas de los descriptores estadısticos son explicadas en la
seccion 3.3. Empleamos las mismas 4 orientaciones que la matriz GLCM y 2 diferentes
amplitudes, para crear un banco compuesto por 8 filtros Gabor. Una imagen despues
de aplicarle cada filtro es descrita por su varianza y su media definidas como:
µ =
∑x
∑y
Img(x, y)
xy(5.3)
σ2 =
∑x
∑y
(Img(x, y)− µ)2
xy(5.4)
siendo x y y el numero de filas y columnas de Img, donde Img es una imagen que
pertenece a I o D.
Las caracterısticas de color proveen un total de 180 atributos (3 espacios de color ×
3 canales × 20 bins) para el aprendizaje. Las caracterısticas generadas por la matriz
GLCM estan compuestas por 16 atributos (4 propiedades estadısticas × 4 orientaciones)
y el filtro Gabor contiene 16 atributos (8 filtros × 2 variables estadısticas). Los an-
teriores atributos conforman un vector z de 212 elementos que sirven como datos de
entrada a un clasificador Bayesiano.
58 CAPITULO 5. METODO PROPUESTO
5.3.2 Extraccion de Caracterısticas Locales
Una imagen tiene puntos de interes local o keypoints que se definen como puntos coor-
denados asociados a pequenas regiones (parches) de una imagen que contienen mucha
informacion local. Mostrados estos parches en la Figura 5.3, los keypoints usualmente
estan alrededor de las esquinas y bordes de los objetos. En esta tesis se ha usado SIFT
para detectar y describir los keypoints de las imagenes. Las caracterısticas SIFT son
obtenidas de la imagen I y del conjunto de transformaciones D.
Figura 5.3: Deteccion de keypoints.
Las imagenes pueden ser representadas por conjuntos de descriptores de puntos
de interes, pero los conjuntos varıan en la cardinalidad y ordenamiento. Esto crea
dificultades para el aprendizaje que requiere vectores de caracterısticas de dimensiones
fijas como entrada. Ante este problema nosotros fijamos la cardinalidad tomando en
cuenta los puntos mas frecuentes.
Dentro del conjunto D existen 5 imagenes que sufrieron transformaciones de escala
y otras 5 las cuales presentan diferentes angulos de rotacion. Por lo anterior es necesario
transformar los keypoints detectados a sus coordenadas originales, para ello se les aplica
la inversa de escala y de rotacion (segun el caso), ver ecuacion 2.2 y 2.4, respectivamente.
Por cada punto SIFT contamos el numero de aparicion en I y D, se seleccionan
aquellos que son preservados en al menos v imagenes transformadas. Cada modelo del
objeto tendra diferentes cantidades de puntos invariantes que denominamos Pinvariantes,
y cada punto invariante es descrito por un vector de 128 elementos proporcionados por
SIFT.
5.4. CLASIFICADORES 59
Pinvariantes(i) = [SIFT1, SIFT2..., SIFT128] (5.5)
En la Figura 5.4 se muestra el proceso de seleccion de puntos.
Figura 5.4: Los keypoints son obtenidos de la imagen original y de las imagenes de-formadas bajo las diferentes transformaciones (escala, ruidos, intensidad, etc.). Lafrecuencia de cada punto es recolectada en una matriz de frecuencia y aquellos puntoscon alta frecuencia son seleccionados como Pinvariantes.
5.4 Clasificadores
La meta de la clasificacion es categorizar objetos dentro de un contexto. Este modulo
es compuesto por dos clasificadores basicos (uno local y otro global), cada uno basado
en las representaciones presentadas anteriormente. Estos clasificadores son integrados
mediante una combinacion de pesado lineal. La combinacion de caracterısticas provee
al modelo robustez ante los diferentes objetos (especıficos y generales), ya que medi-
ante esta union se le puede dar prioridad a unas o a otras caracterısticas presentes en
el objeto. En estos clasificadores basicos, la categorizacion se realiza calculando una
representacion del objeto de interes y comparandola con el modelo de los objetos. La
60 CAPITULO 5. METODO PROPUESTO
similaridad entre el objeto de interes y la categorıa es dada por la combinacion lineal de
las respuestas de los clasificadores base. Esta fase es ilustrada por el recuadro llamado
clasificadores en la Figura 5.1.
5.4.1 Clasificador Global
Este clasificador requiere de las caracterısticas globales para ser integradas mediante
un clasificador Naıve Bayes (NB):
PGlobal(Vi, Cj) = P (Cj)z∏
k=1
P (Fik = fik|Cj) (5.6)
donde Fik es la k-esima caracterıstica de la imagen Vi. PGlobal(Vi, Cj) recibe la proba-
bilidad posterior del concepto Cj en la imagen Vi dadas las z caracterısticas globales.
Hemos decidido incorporar el clasificador NB por su simplicidad, bajo costo computa-
cional y ha mostrado ser eficiente [Lew98, Sah96]. Ademas NB entrega un valor de
probabilidad para cada ejemplo de prueba, el cual resulta util para nuestros propositos.
5.4.2 Clasificador Local
En este caso, una categorıa es representada por la concatenacion de la lista de los
puntos SIFT del conjunto de imagenes de entrenamiento que definimos como puntos
de interes invariantes (ver ecuacion 5.5). Cuando comparamos dos objetos, las carac-
terısticas (keypoints) son relacionadas de acuerdo a un criterio de similardad, en este
caso determinada por el algoritmo de SIFT. En este trabajo, buscamos esa similaridad
entre los Pinvariantes (definidos en la seccion 5.3.2) y los puntos identificados en la ima-
gen de prueba. Con esta informacion, se calcula la probabilidad del concepto Cj en la
imagen Vi basada en la correspondencia de los keypoints entre el modelo y las imagenes
de prueba (#matches). Esta probabilidad PLocal(Vi, Cj) es estimada como:
5.4. CLASIFICADORES 61
PLocal(Vi, Cj) =
1− 1#matches+1
, #matches > 0
0.001, #matches = 0
(5.7)
A mayor numero de #matches encontrados, la probabilidad de PLocal tiende a uno.
Si el numero de #matches es cero, entonces se le da un valor bajo de probabilidad
(0.001), para evitar tener valores nulos.
5.4.3 Combinacion de Clasificadores
Como se muestra en la Figura 5.5, el metodo de multiples clasificadores consiste en un
ensamble de dos capas: el ensamble del resultado de todos los clasificadores (EC), y el
ensamble del clasificador global con el clasificador local (CGL). En la primer capa, la
probabilidad local y global son combinadas (CGL) mediante una suma pesada:
Pfusion(Vi, Cj) = λPGlobal(Vi, Cj) + (1− λ)PLocal(Vi, Cj) (5.8)
donde λ ∈ [0...1] es un parametro que determina diferentes pesados para las carac-
terısticas globales o locales. Esta combinacion de probabilidades es obtenida para
cada uno de las | C | imagenes modelo. Para una imagen de prueba Vi, se ob-
tiene Pfusion(Vi, Cj) j = 1.. | C |. Un clasificador j obtiene una decision positiva si
Pfusion(Vi, Cj) > η ∈ [0...1]:
Cdecision(Vi, Cj) =
1, Pfusion(Vi, Cj) > η
0, en otro caso
(5.9)
Este proceso es mostrado en la Figura 5.5.
En la segunda capa, el ensamble de los resultados de todos los clasificadores es
obtenido por la combinacion de N clasificadores CGL. Un objeto es reconocido si al
menos ϕ clasificadores dan una calificacion positiva:
62 CAPITULO 5. METODO PROPUESTO
Robjeto(Vi) =
1,
|C|∑j=1
Cdecision(Vi, Cj) > ϕ
0, en otro caso
(5.10)
Figura 5.5: Para cada imagen de prueba se estima su probabilidad local y global basadaen el clasificador correspondiente y son combinadas. Esto es repetido para cada una delas imagenes modelo, obteniendo |C| probabilidades.
Al combinarse diferentes clasificadores, se construyen diferentes modelos del con-
cepto, enfrentando las diferentes variantes (ej. manzana roja, amarilla, verde) que
pueda presentar el objeto.
5.5 Obtencion de los Parametros del Modelo
El modelo tiene tres principales parametros:
1. Pesado Global-Local (λ : 0..1) determina el pesado de las caracterısticas glo-
bales contra las caracterısticas locales para cada uno de los | C | clasificadores.
5.6. RECONOCIMIENTO DEL OBJETO EN UNA IMAGEN DE PRUEBA 63
2. Umbral de Clasificacion (η : 0..1) este parametro ajusta el umbral de probabi-
lidad de modo que cada clasificador da un resultado positivo si Pfusion(Vi, Cj) > η.
3. Umbral de Reconocimiento (ϕ : 1..|C|) umbral global para combinar los
C clasificadores, un objeto es reconocido si al menos ϕ clasificadores dan una
clasificacion positiva.
Los valores de estos parametros se obtienen automaticamente mediante una va-
lidacion cruzada aplicada a un conjunto de imagenes recuperadas de la Web. Los
tres parametros asumen valores discretos, λ y η presentan intervalos de 0.02 y 0.01
respectivamente, en un rango de 0 a 1. ϕ es un variable discreta con intervalo de
1, comprendida en el rango 1 a |C|. Se evaluan los resultados con todas las posibles
combinaciones de valores entre los tres parametros, al final se selecciona aquella tripleta
que maximice la exactitud de dicho conjunto. En caso de empate se selecciona la primer
tripleta.
5.6 Reconocimiento del Objeto en una Imagen de
Prueba
El reconocimiento de objetos se lleva a cabo realizando el proceso de evaluacion de la
decision de los multiples clasificadores. En este trabajo nos interesa conocer la posicion
del objeto dentro de una imagen. Para ello primero definimos la presencia o ausencia
del objeto por medio de un conjunto S de subimagenes de la imagen de entrada I. Cada
subimagen la denotamos como S(i), donde 1 6 i 6 |S|.
Cada subimagen se obtiene a partir de una ventana deslizante aplicada sobre la
imagen. La union de las subimagenes produce la imagen I, mientras que la interseccion
no es vacıa puesto que dichas subimagenes se traslapan. Cada una de estas subimagenes
es evaluada por el algoritmo como imagen de prueba, de modo que cada subimagen es
clasificada como positiva o negativa:
64 CAPITULO 5. METODO PROPUESTO
Clasif(S(i))S(i)∈S
=
M1 ∩ S(i) siRobjeto(S(i)) = 1
M0 ∩ S(i) siRobjeto(S(i)) = 0
(5.11)
donde M1 es la matriz de unos del tamano de I y M0 es la matriz de ceros del tamano
de I.
Para obtener la posicion del objeto se utiliza una matriz de frecuencia (Fventanas) del
tamano de la imagen I, que contabiliza la presencia o ausencia del objeto en la imagen
a nivel pıxel a partir de las subimagenes del conjunto S.
Fventanas =
|S|∑i=1
Clasif(S(i)) (5.12)
Finalmente, la region que contenga al objeto se define como aquellas coordenadas
de la imagen donde el valor de Fventanas es maximo:
PosicionObjeto = arg maxx,y
(Fventanas(x, y)) (5.13)
donde x, y son las coordenadas para cada pixel de la matriz de frecuencia.
Figura 5.6: La imagen muestra Fventanas. PosicionObjeto devolverıa una region muypequena (compuesta solo por nueves), la expansion permite considerar a los pıxelesvecinos con frecuencias cercanas a la mas alta. Dado que la region que determinala union de ventanas suele ser de menor tamano que la ventana, el resultado de laexpansion es un rectangulo de mayor tamano a fin de abarcar al objeto.
Una vez que se ha obtenido la posicion del objeto a partir de la frecuencia mas alta
5.7. RESUMEN 65
(ecuacion 5.13), es posible que esta frecuencia de lugar a regiones muy pequenas, por
tal motivo se expande esta region a un rectangulo que incluya las k frecuencias vecinas
mas altas, pudiendo de esta manera abarcar una mayor area en la imagen (Figura 5.6).
Se asume un solo objeto de cada tipo en la imagen.
5.7 Resumen
En este capıtulo se definio de manera general el metodo propuesto y se han descrito
cada uno de los parametros necesarios.
Primero se buscan imagenes del concepto deseado en Internet mediante un buscador
(Google Images) para evitar la necesidad de etiquetar manualmente. A estas imagenes
se les aplica una serie de transformaciones con la finalidad de aprender distintas repre-
sentaciones del objeto (diferente tamano o iluminacion). Estas imagenes son expresadas
en terminos de caracterısticas globales y locales, con esto se busca incrementar la ro-
bustez para detectar diferentes tipos de objetos (generales y especıficos).
Tambien se describio la estructura de cada uno de los clasificadores propuestos ası
como la estrategia de combinacion, para manejar las diferentes interpretaciones de un
objeto (por ejemplo, platano amarillo, verde, etc.).
Por ultimo se presento un esquema basado en ventanas para localizar los objetos en
imagenes de prueba, con la idea de integrarlo en el futuro a un robot movil.
En el capıtulo siguiente se muestran los experimentos realizados con el metodo
propuesto, ası como tambien las especificaciones con que se realizaron estas pruebas.
Capıtulo 6
Experimentos
En este capıtulo, se definen los experimentos realizados para evaluar el metodo descrito
en el capıtulo anterior y las medidas de evaluacion para valorar su desempeno. Pos-
teriormente, se describe cada uno de los experimentos; para ello se menciona en que
consiste el experimento, con que objetivo se hizo y cuales son los resultados obtenidos.
Finalmente se presenta una discusion sobre los resultados.
6.1 Configuracion de los Experimentos
Se llevaron a cabo tres experimentos. El primero fue utilizando el modelo propuesto con
imagenes crudas de Google Images con una seleccion automatica y semi-supervisada.
En el segundo, el modelo utiliza un esquema sin supervision sobre el conjunto de datos
Google Downloads [FFFPZ05] provenientes de Internet. En el ultimo experimento el
modelo incluye la localizacion de los objetos en escenas reales.
Los valores de las variables en las siguientes etapas se mantuvieron constantes en
los 3 experimentos.
Generacion Automatica de Ejemplos. Cinco transformaciones son aplicadas a
las imagenes modelo, donde cada una adopta la siguiente distribucion (ver fig. 6.2):
• Grados de varianza para el ruido gaussiano:, 0.01, 0.03, 0.5, 0.8 y 1.
66
6.1. CONFIGURACION DE LOS EXPERIMENTOS 67
• Porcentaje de ruido sal y pimienta: 10, 20, 30, 40, 50.
• Angulos de rotacion: 180◦, 135◦, 225◦, 45◦, 250◦.
• Las imagenes fueron escaladas a un 80%, 60%, 30% y 200%, tambien a la mitad
de alto y doble de largo.
• Intensidad: Los cambios de brillo aplicados fueron +70, +120, -80. Los cambios
de contraste se aplicaron modificando la curva tonal de la imagen modelo (ver
Figura 6.1).
Figura 6.1: Curvas tonales utilizadas en los experimentos para modificar el contrasteen las imagenes.
Figura 6.2: Un ejemplo del conjunto de transformaciones generadas de una imagenmodelo.
68 CAPITULO 6. EXPERIMENTOS
Caracterısticas Globales. En la representacion de color se usaron los 3 espacios
de color descritos en la seccion 5.3 con un valor de Nbins = 20, mientras que en la re-
presentacion de textura se han determinado cuatro orientaciones, tanto para la matriz
GLCM como el filtro Gabor con los siguientes valores: 0, π/4, π/2 y 3π/4. En cuanto
a la amplitud del filtro Gabor se usaron dos valores: λ = 5 y λ = 16.
Caracterısticas Locales. Se seleccionaron como keypoints candidatos para ser
puntos invariantes aquellos puntos que presentaron una frecuencia de aparicion v > 5
a lo largo de las imagenes transformadas.
6.2 Medidas de Evaluacion
En esta seccion se describen las tecnicas de evaluacion utilizadas para medir la precision,
recuerdo, exactitud y confiabilidad del modelo de clasificacion propuesto en esta tesis.
El modelo es evaluado mediante la comparacion de la clase real con la clase asignada.
Matriz de confusion binaria
La matriz de confusion binaria (Tabla 6.1) considera que los problemas de clasifi-
cacion utilizan unicamente dos clases, si objeto y no objeto. Por tanto, existen cuatro
distintas formas de predecir la clase perteneciente a una instancia determinada.
Tabla 6.1: Matriz de confusion binaria.
clase verdaderaV N
clase V VP FPasignada N FN VN
En la matriz de confusion binaria, los verdaderos positivos (VP) y los verdaderos
negativos (VN) son clasificaciones correctas. Mientras que los falsos positivos (FP) y
6.3. DESARROLLO DE LOS EXPERIMENTOS 69
los falsos negativos (FN) son clasificaciones erroneas. Un FP es cuando el clasificador
asigna una clase como positiva cuando en realidad no lo es, mientras que un FN es
cuando el clasificador predice la clase como negativa cuando en realidad es positiva.
Algunas metricas para evaluar los resultados de la clasificacion pueden ser calculadas
a partir de la matriz de confusion binaria [Ara06], tales como:
Precision =V P
V P + FP(6.1)
Recuerdo =V P
V P + FN(6.2)
Exactitud =V P + V N
V P + V N + FP + FN(6.3)
F −measure =2(V P · V N)
V P + FP(6.4)
6.3 Desarrollo de los Experimentos
En las siguientes secciones se describen los tres experimentos realizados y los resultados
de los mismos. Tambien se definen las bases de datos empleadas y el esquema de
comparacion aplicado en cada caso.
6.3.1 Clasificacion con Imagenes de Google Images
El primer experimento consiste en reconocer algunos objetos generales y especıficos
usando el algoritmo propuesto. Se han considerado 10 objetos de los utilizados en la
competencia de SRVC (ver Figura 6.3):
• 5 especıficos: colgate total, botella de pepsi, lata de coca cola, DVD Shrek y ritz
crackers.
70 CAPITULO 6. EXPERIMENTOS
• 5 genericos: manzana, platano, sarten, pelota blanca y lentes.
Figura 6.3: Imagenes de conceptos especıficos y generales, obtenidas de Internet.
El objetivo de este experimento es ver el desempeno del metodo cuando se utilizan
categorıas de objetos especıficos y generales (usadas en SRVC), empleando conjuntos
de entrenamiento con cero grado de supervision o un bajo grado de supervision (al
seleccionar las imagenes) y una combinacion de clasificadores globales y locales mediante
un peso variable.
Se han utilizado dos conjuntos de entrenamiento para esta prueba, los cuales se
detallan a continuacion.
Google Seleccion Automatica (GSA): Conjunto formado por 12 imagenes ex-
traıdas desde Google Images (a este conjunto de datos lo denominaremos GSA) medi-
ante una seleccion automatica, es decir, cuando se realiza la consulta del concepto en
el motor de busqueda, este arroja una coleccion de imagenes, de ellas se seleccionan
solo las primeras 12. Cabe mencionar que algunas imagenes son dibujos del objeto de
interes o fotografıas de cosas que tienen un vınculo con el objeto buscado pero no es lo
que deseamos (ver fig. 6.4).
Google Seleccion Semi-supervisada (GSS): Conjunto de 12 imagenes selec-
cionadas a traves de un usuario de los 50 primeros elementos regresados por la busqueda
en Google Images (ver fig. 6.5). Es un esquema de semi-supervision, ya que un usuario
6.3. DESARROLLO DE LOS EXPERIMENTOS 71
Figura 6.4: Imagenes regresadas por el buscador Google Images usando el concepto“Platano”. Esto es un ejemplo representativo de nuestros datos de entrenamiento.Notar la presencia de imagenes con poca relevancia y las variaciones de pose.
elige las imagenes de las regresadas por Google Images y no se les aplica ninguna mejora.
Las imagenes son procesadas en su forma original, sin aplicar alguna herramienta
que mejore la deteccion del objeto y sin emplear algun tipo de informacion que indique
la relevancia de la imagen dada la categorıa.
Para construir el modelo primero se aplican las deformaciones, con ello creamos
ejemplos positivos de cada imagen modelo que seran utilizadas para el aprendizaje de
cada clasificador global y local. Los ejemplos negativos (GEN) son seleccionados a partir
de una busqueda en la Web de objetos que no tienen ninguna relacion con el concepto.
Estos ejemplos negativos son imagenes de entornos de interiores considerando que un
robot buscara los objetos en este tipo de escenarios. Algunos ejemplos de conceptos
negativos usados en estas pruebas son cocina, sala y dormitorio. En cada categorıa se
72 CAPITULO 6. EXPERIMENTOS
Figura 6.5: Conjunto de datos GSS. Datos para el entrenamiento seleccionadas por unusuario a partir de las primeras 50 imagenes regresadas por el buscador.
usan 12 ejemplos positivos para el entrenamiento (GSA o GSS) obtenidas desde Google
Images y 26 ejemplos negativos (GEN).
En vista de que se tienen que aprender automaticamente los parametros de pesado
Global-Local λ, umbral de clasificacion η y el umbral de reconocimiento ϕ, es vital
tener un conjunto de imagenes que serviran para la validacion cruzada (GV) donde se
fijan los valores a estos parametros. El conjunto de validacion se define por 6 ejemplos
positivos del objeto de interes (ninguna es igual al conjunto GSA o GSS), y otras 6
imagenes para ejemplos negativos (son diferentes a GEN y personifican a una escena de
interiores). Los elementos positivos de este conjunto son obtenidos mediante la Web por
una selccion automatica (las siguientes 6 imagenes de las primeras 12) y los negativos
son imagenes de interiores.
La prueba se realiza sobre 40 imagenes (20 positivas y 20 negativas seleccionadas
manualmente). En la Figura 6.6 se puede apreciar el esquema del experimento.
6.3. DESARROLLO DE LOS EXPERIMENTOS 73
Figura 6.6: Esquema del experimento.
En este experimento los resultados son comparados contra tres clasificadores basicos.
El primer clasificador contiene solamente informacion global (G). Este clasificador se
construye a partir de caracterısticas globales tales como color y textura, donde a partir
de 12 imagenes positivas y a otras 12 negativas se entrena un clasificador Naıve Bayes.
El segundo es un clasificador con solamente informacion local (L). En este caso el
algoritmo mide la similitud promedio entre las correspondencias SIFT de cada par de
imagenes de entrenamiento (medida de similitud para un nuevo ejemplo). El tercero,
es una combinacion de informacion global y local (GL) con el mismo peso para ambas
caracterısticas, donde las probabilidades son dadas por los anteriores clasificadores.
Estos tres clasificadores (G, L y GL) se han entrenado y probado con las mismas
imagenes que el metodo propuesto 1 (ver fig. 6.7), realizando esto para cada categorıa.
Los resultados de los experimentos anteriores se resumen en la Tabla 6.2 y 6.3. En
esta prueba el enfoque propuesto supera a los clasificadores basicos en terminos de
precision y exactitud. Adicionalmente, se ha encontrado con estos experimentos que
la combinacion de caracterısticas globales y locales con un ajuste en el pesado y la
generacion de imagenes artificiales, proveen un beneficio significativo.
En cuanto a recuerdo, nuestro metodo presenta bajos resultados en comparacion con
los otros clasifiadores; sin embargo, notese que esto se debe a que algunos resultados
de otros clasificadores son cercanos a 100% pero tienen una precision de 50%, lo cual
1El entrenamiento de los clasificadores basicos G, L y GL no contemplan las imagenes transformadas.
74 CAPITULO 6. EXPERIMENTOS
Figura 6.7: Clasificadores base comparados con el metodo propuesto. (a) Proceso declasificacion global, (b) proceso de clasificacion local, (c) el clasificador GL combina lasprobabilidades dadas por G y L.
significa que clasifican a todas las imagenes de prueba como positivas.
El clasificador global (G) tiende a aceptar a cualquier objeto dentro de la categorıa,
debido a que las imagenes de entrenamiento son pocas. SIFT se ha disenado para
reconocer objetos especıficos en diferentes escenas, por lo tanto, los resultados de L en
las diferentes categorıas son mas bajos que el metodo propuesto, pero mas alto que el
clasificador global (G). Del clasificador GL se puede decir que no mejora los resultados
de G y L, aunque hay que recordar que la combinacion se realiza con el mismo peso
para ambas caracterısticas.
Los resultados del metodo propuesto para objetos especıficos son mas altos (89.5% en
exactitud) que para los objetos generales (78% en exactitud); la poca ambiguedad entre
las instancias favorece a los conceptos especıficos. Las categorıas generales puntualizan
una alta variabilidad intra-clase, llevando a obtener mejores resultados con datos semi-
supervisados (GSS - 86.5%) que con datos seleccionados automaticamente (GSA - 81%).
Es necesario recalcar que en este trabajo se planeo realizar una clasificacion a partir
de imagenes de la Web. Se podrıa decir que estos resultados (promedio de exactitud
global de 83.75%) son muy prometedores, ya que los datos son conjuntos crudos de la
6.3. DESARROLLO DE LOS EXPERIMENTOS 75
Tabla 6.2: Resultados del experimento con seleccion automatica (conjunto de datosGSA). Clasificadores: usando solo informacion global (G), usando solo informacion local(L), combinando el enfoque global y el local con un mismo pesado (GL), y el metodopropuesto (MGL).
Categorıas Generales
Manzana Platano LentesG L GL MGL G L GL MGL G L GL MGL
Precision 57 60 52 64 70 57 57 69 59 51 58 89Recuerdo 100 90 55 55 70 20 75 80 95 90 100 80Exactitud 63 65 52 63 70 53 60 72 65 52 65 85
Sarten Pelota blanca PromedioG L GL MGL G L GL MGL G L GL MGL
Precision 53 46 52 71 60 51 52 80 60 53 54 75Recuerdo 100 80 100 75 85 76 100 80 90 71 86 74Exactitud 55 43 55 73 65 51 55 80 64 53 57 75
Categorıas Especıficas
lata Coca Cola Colgate Total DVD ShrekG L GL MGL G L GL MGL G L GL MGL
Precision 54 88 62 89 51 78 74 100 63 76 60 93Recuerdo 100 75 100 85 100 90 100 90 100 95 100 70Exactitud 58 82 70 88 53 82 82 95 70 83 67 83
Botella Pepsi Ritz crackers PromedioG L GL MGL G L GL MGL G L GL MGL
Precision 54 64 60 80 54 85 64 100 55 78 64 92Recuerdo 100 55 100 60 100 85 100 90 100 80 100 79Exactitud 58 62 67 73 58 85 72 95 59 79 72 87
Web (con una posible seleccion de imagenes relevantes por parte del usuario) y puede
reconocer una instancia desconocida de un objeto en nuevas imagenes.
6.3.2 Clasificacion con Imagenes de Google Downloads
En este experimento se utilizan 7 categorıas establecidas en el conjunto de datos Google
Downloads y usadas por algunos trabajos previos, siendo las clases: avion, guitarra,
leopardo, motocicleta, reloj, carro y cara. El objetivo es poder realizar una clasificacion
con pocas imagenes de entrenamiento y compararse con otros metodos.
Los resultados se comparan contra los trabajos de Vijayanarasimhan et al. 2008
[VG08], Fergus et al. 2005 [FFFPZ05] y Schoroff et al. 2007 [SCZ07]. Se han elegido
estos trabajos como base de comparacion por dos razones. La primera es porque utilizan
76 CAPITULO 6. EXPERIMENTOS
Tabla 6.3: Resultados del experimento con seleccion semi-supervisada (conjunto dedatos GSS). Clasificadores: usando solo informacion global (G), usando solo informacionlocal (L), combinando el enfoque global y el local con un mismo pesado (GL), y elmetodo propuesto (MGL).
Categorıas Generales
Manzana Platano LentesG L GL MGL G L GL MGL G L GL MGL
Precision 50 57 52 77 54 48 54 71 51 75 55 100Recuerdo 85 100 100 85 100 85 100 100 100 75 100 80Exactitud 50 63 55 80 58 47 57 80 53 75 60 90
Sarten Pelota blanca PromedioG L GL MGL G L GL MGL G L GL MGL
Precision 53 57 54 74 50 55 51 81 52 58 53 81Recuerdo 100 100 100 70 95 90 100 86 96 90 100 84Exactitud 55 63 57 72 50 58 52 83 53 61 56 81
Categorıas Especıficas
lata Coca Cola Colgate Total DVD ShrekG L GL MGL G L GL MGL G L GL MGL
Precision 51 76 66 100 54 75 83 100 56 83 76 89Recuerdo 100 80 100 80 100 90 100 95 100 95 95 85Exactitud 53 77 75 90 58 80 90 98 60 88 82 88
Botella Pepsi Ritz crackers PromedioG L GL MGL G L GL MGL G L GL MGL
Precision 57 61 62 89 54 86 68 95 54 76 71 95Recuerdo 100 40 100 80 100 95 100 100 100 80 99 88Exactitud 63 57 70 85 57 90 78 98 58 78 79 92
una base de datos establecida como Google Downloads para el aprendizaje y otra de
prueba como Caltech2, esta ultima es muy utilizada en sistemas de vision. La segunda
es con respecto a la cantidad de ejemplos de entrenamiento. Dejamos de lado a los
otros trabajos presentados en el estado del arte por algunas cuestiones tales como no
utilizar imagenes de la Web, experimentos con otras categorıas de objetos y realizar
pruebas sobre vıdeo.
En [VG08] se definen varias bolsas cada una cuenta con 25 imagenes, que contienen
diversos ejemplos de entrenamiento positivos y el mismo numero de ejemplos negativos,
superando la cantidad que en este trabajo se ha especificado (12 positivas y 26 nega-
tivas). En [FFFPZ05] utilizan en promedio 580 imagenes de entrenamiento para cada
categorıa. Con respecto del trabajo de [SCZ07] ellos utilizan informacion visual y tex-
2http://www.vision.caltech.edu/
6.3. DESARROLLO DE LOS EXPERIMENTOS 77
tual para reordenar las imagenes y ası obtener un buen numero de imagenes para su
entrenamiento (250 ejemplos positivos y 500 ejemplos negativos). Estos dos primeros
trabajos tienen la misma finalidad, disminuir la dispersion presente en la respuesta de
un motor de busqueda.
El metodo propuesto es entrenado con el conjunto de datos Google Downloads
[FFFPZ05] usado en [VG08]. Este conjunto contiene en promedio 600 ejemplos para
cada una de las 7 categorıas antes mencionadas. Las imagenes fueron recolectadas me-
diante una busqueda en Google Images a partir del nombre de la categorıa, el numero
de ejemplos relevantes para cada clase es disperso: un promedio de 30% contiene una
“buena” vista de la clase de interes, 20% son de calidad “aceptable” (los objetos pre-
sentan oclusion, ruido en la imagen, dibujos, etc.), y un 50% no tienen relacion con la
categorıa, siendo “basura” segun se juzga en [FFFPZ05]. En la Figura 6.8 se mues-
tran las 12 primeras imagenes de cada categorıa obtenidas de Google Downloads. Estas
imagenes conforman el conjunto de ejemplos positivos (GD), con lo que respecta a las
instancias negativas son las mismas 26 imagenes (GEN) del experimento anterior.
Se utilizan 12 imagenes para la validacion. Del conjunto de datos Google Downloads
se toman 6 elementos automaticamente (diferentes a las 12 imagenes de entrenamiento)
como ejemplos positivos y las 6 instancias negativas son las mismas del experimento
anterior (GV). El metodo es evaluado con 100 imagenes de prueba, tomadas de Caltech.
En el metodo de Vijayanarasimhan et al. 2008 [VG08], Fergus et al. 2005 [FFFPZ05]
se realiza un re-posicionamiento para eliminar aquellas imagenes no relevantes, mientras
que en el metodo de Schoroff et al. 2007 [SCZ07] utilizan informacion visual (carac-
terısticas propias de la imagen) y textual (informacion que aparece en la etiqueta de
cada imagen de la Web). Recalcamos lo anterior para senalar que aun sin un pre-
procesamiento o el uso de informacion textual el metodo propuesto es competitivo con
estos trabajos. En la Tabla 6.4 se muestran los resultados obtenidos en las 7 categorıas
por los 4 metodos.
En los resultados de la primera parte de la Tabla 6.4 (resultados de precision con
un recuerdo de 15%) se observa que el metodo propuesto MGL no supera en general a
78 CAPITULO 6. EXPERIMENTOS
Figura 6.8: Imagenes modelo (12 primeras) obtenidas de Google Downloads para cadacategorıa.
6.3. DESARROLLO DE LOS EXPERIMENTOS 79
Tabla 6.4: Experimentos con los mismos objetos reportados en [VG08, FFFPZ05,SCZ07] a un recuerdo del 15% (primera parte), con un recuerdo variable (segundaparte) y F-measure (tercera parte). sMIL es el metodo reportado en [VG08], TSI es elmetodo reportado en [FFFPZ05] y Schoroff es el metodo reportado en [SCZ07].
Resultados de precision con un recuerdo de 15%
Avion Guitarra LeopardoMGL sMIL Schoroff TSI MGL sMIL Schoroff TSI MGL sMIL Schoroff TSI
Precision 67 100 48 55 51 52 72 48 60 65 70 56Motocicleta Reloj Carro
Precision MGL sMIL Schoroff TSI MGL sMIL Schoroff TSI MGL sMIL Schoroff TSI76 79 80 72 72 95 97 96 86 80 n.a. 75
Cara PromedioPrecision MGL sMIL Schoroff TSI MGL sMIL Schoroff TSI
63 58 n.a. 81 68 76 73 69
Resultados de precision con aprendizaje de parametros
Avion Guitarra LeopardoMGL sMIL Schoroff TSI MGL sMIL Schoroff TSI MGL sMIL Schoroff TSI
Precision 65 100 48 55 52 52 72 48 74 65 70 56Recuerdo 30 15 15 15 51 15 15 15 38 15 15 15
Motocicleta Reloj CarroMGL sMIL Schoroff TSI MGL sMIL Schoroff TSI MGL sMIL Schoroff TSI
Precision 80 79 80 72 52 95 97 96 78 80 n.a. 75Recuerdo 66 15 15 15 70 15 15 15 39 15 n.a. 15
Cara PromedioMGL sMIL Schoroff TSI MGL sMIL Schoroff TSI
Precision 76 58 n.a. 81 69 76 73 69Recuerdo 39 15 n.a. 15 48 15 15 15
Resultados de F-measure
Avion Guitarra LeopardoMGL sMIL Schoroff TSI MGL sMIL Schoroff TSI MGL sMIL Schoroff TSI
F-measure 41 26 23 24 51 23 25 23 50 24 25 24Motocicleta Reloj Carro
MGL sMIL Schoroff TSI MGL sMIL Schoroff TSI MGL sMIL Schoroff TSIF-measure 72 25 25 25 60 26 25 26 52 25 n.a. 25
Cara PromedioMGL sMIL Schoroff TSI MGL sMIL Schoroff TSI
F-measure 52 23 n.a. 25 54 25 25 24
80 CAPITULO 6. EXPERIMENTOS
Tabla 6.5: Ranqueo de los resultados de precision del metodo propuesto y trabajosexistentes. Los porcentajes de precision son obtenidos de los resultados del aprendizajede parametros (segunda parte de la Tabla 6.4), ordenandose del mayor resultado almenor. XXXXXXXXXXXXCategorıa
MetodoMGL sMIL Schoroff TSI
Avion 2 1 4 3Guitarra 2 2 1 3Leopardo 1 3 2 4
Motocicleta 1 2 1 3Reloj 4 3 1 2Carro 2 1 4 3Cara 2 3 4 1
Suma de ranqueo 14 15 17 19Promedio de ranqueo 2 2.14 2.41 2.71
los otros metodos; sin embargo se puede decir que es competitivo, ya que esta prueba
se realizo sin el aprendizaje de parametros de nuestro modelo. Esto fue ası dado que
los metodos [VG08], [FFFPZ05] y [SCZ07] fijan el recuerdo a un 15%, por lo tanto
MGL tambien fija el recuerdo a 15%, para hacer una justa comparacion. En la segunda
parte de la tabla se muestran los resultados en porcentajes de precision y recuerdo del
metodo. En esta ocasion los parametros son aprendidos automaticamente, los cuales
establecen una relacion entre precision y recuerdo que ayudan a maximizar la exactitud.
Con ello nuestro modelo mejoro el recuerdo manteniendo un compromiso ente este y la
precision. Si realizamos un ranqueo de estos resultados de precision, como se muestra
en la Tabla 6.5, podemos ver que MGL tiene el promedio mas bajo de los 4, ya que
en general el resultado de su precision se posiciona dentro de los resultados mas altos.
La tercer parte de la Tabla 6.4 correspondiente a F-measure es obtenida a partir de los
resultados de precision con aprendizaje de parametros. MGL supera claramente a los
otros metodos. En conclusion el aprendizaje de parametros ayuda a obtener mejores
resultados.
6.3. DESARROLLO DE LOS EXPERIMENTOS 81
6.3.3 Reconocimiento de Objetos en Entornos Reales
Dentro de este tercer experimento buscamos la posicion de los objetos dentro de una
imagen de prueba, ası que se han seleccionado las mismas 9 categorıas que en el primer
experimento descrito en la seccion 6.3.1 (la categorıa lentes no se incluye, debido a
que no se tiene una secuencia de imagenes donde aparezca el objeto). Recordemos
que estas categorıas fueron empleadas en la competencia de SRVC. El objetivo de este
experimento es la busqueda de objetos en ambientes de interiores.
Incluimos como entrenamiento positivo los datos semi-supervisados GSS y los ejem-
plos negativos estan dados por GEN, para la validacion utilizamos el conjunto de datos
GV. El metodo propuesto es probado con una secuencia de imagenes capturadas por
un robot, disponibles en la pagina de la competencia SRVC [SRV11].
El esquema que sigue esta competencia para calificar a los equipos es que cuando
un objeto es identificado se pone un recuadro sobre el mismo. La calificacion adquirida
por el robot depende del adecuado posicionamiento de este recuadro, es decir, i) si el
recuadro abarca perfectamente el objeto, ii) si solo esta posicionado en la mitad, iii) si
abarca mas de los lımites del objeto, incluyendo a otros objetos de la escena, iv) si el
recuadro solo abarca un pequeno pedazo del objeto, v) si se pinta el recuadro donde
no esta presente el objeto. Estas son las reglas para dar puntos a los competidores;
sin embargo, en los trabajos publicados no se especifican los puntajes obtenidos, ni las
imagenes donde se identifico al objeto, es por ello que la comparacion se realiza a traves
de la cantidad de categorıas reconocidas.
Se utilizaron tres tamanos de ventanas. El primer tamano esta dado por el ancho/2,
alto/2 (ancho y alto de la imagen de prueba) con un desplazamiento de ancho/8, alto/8.
El segundo caso por ancho/3, alto/3 y un deslizamiento de ancho/9, alto/9. En el
tercero ancho/4, alto/4 con un desplazamiento de ancho/3, alto/3. En la imagen 6.9 se
muestra este proceso.
Despues de procesar todas las ventanas se identificaron aquellas que detectaron al
objeto dentro de la imagen y debido al traslape de las mismas existen algunas ventanas
82 CAPITULO 6. EXPERIMENTOS
Figura 6.9: Tamanos de ventanas. El recuadro rojo muestra el tamano de la ventana ylas lıneas negras el desplazamiento en ancho y alto.
clasificadas como positivas cuando solo presentan la mitad del objeto, mas posibles falsos
positivos. Por esta razon se construyo una matriz (seccion 5.6 del metodo propuesto)
que reduce la incidencia de falsos positivos y define la posicion objeto. Esta matriz
considera la union de ventanas mas alta, dejando de lado aquellas ventanas que dieron
un resultado positivo al concepto (posiblemente un falso positivo) y que se encuentran
dispersas por la imagen de prueba.
En la Figura 6.10 se muestran algunos ejemplos de este experimento y en la Tabla
6.6, se resumen los resultados. Solo reportamos los resultados con el tamano de ven-
tana uno, ya que al realizar las pruebas con los otros dos se incrementaba el costo
computacional.
En general los resultados de reconocimiento para las categorıas son aceptables, ya
que con el metodo propuesto se lograron identificar 8 categorıas de 9 (pelota blanca no se
logro detectar). En cambio en el trabajo [MMH+10] mencionan que solo identificaron
tres (“frying pan”, “bottle” y “orange”) de ocho categorıas. Aunque no todas las
categorıas son las mismas, queremos recalcar que se obtuvo una mejora en el numero
de categorıas reconocidas.
Tambien podemos decir, de acuerdo a los resultados obtenidos, que el recuadro que
senala al objeto no es preciso, en ocasiones tiende a ser mas grande que el objeto de
interes. Siendo esto causado al expandir la region de mayor probabilidad (descrita en la
seccion 5.6 del metodo propuesto), la region es expandida a un rectangulo que incluye
6.3. DESARROLLO DE LOS EXPERIMENTOS 83
Figura 6.10: Ejemplos de los resultados del experimento para las categorıas (a) man-zana, (b) platano, (c) ritz crackers, (d) lata de coca cola, (e) sarten, (f) colgate total,(g) DVD Shrek, (h) botella de pepsi, (i) pelota blanca (no detectada). En algunos casosel recuadro suele ser mas grande que el objeto a detectar, por ejemplo (e) y (h).
Tabla 6.6: Desempeno del metodo en el reconocimiento de objetos en secuencias deimagenes.
Categorıa VP FP VN FN Exactitud
Colgate total 1 0 7 0 1Botella de pepsi 1 2 4 2 0.56
Lata de coca cola 2 2 6 0 0.8DVD Shrek 2 7 0 1 0.2
Ritz crackers 5 3 2 0 0.7Manzana 6 4 0 0 0.6Platano 2 8 0 0 0.2Sarten 2 5 0 0 0.5
Pelota blanca 0 2 3 1 0.29Promedio 0.54
84 CAPITULO 6. EXPERIMENTOS
Tabla 6.7: Costo computacional para las etapas de entrenamiento y prueba del metodopropuesto.
Etapa Tiempo
Entrenamiento 527sPrueba (imagen completa) 7.14s
Prueba (ventanas deslizantes) 204s
las k = 3 frecuencias vecinas mas altas.
Los resultados de la categorıa “pelota blanca” son nulos, y en las demas categorıas se
presentan algunos casos de falsos positivos, pero nos interesa demostrar que el metodo
propuesto sı puede localizar algunas instancias de los objetos.
Costo computacional
El costo computacional de nuestro modelo se ilustra en la Tabla 6.7, se realizo un
promedio sobre varias corridas de entrenamiento y prueba. El tiempo especificado en
la Tabla 6.7 de entrenamiento es por concepto. La primer prueba es realizada sobre
una imagen de la Web (ver Figura 6.8). En la segunda prueba se utilizaron algunas
imagenes tomadas por un robot, disponibles en la competencia de SRVC (ver Figura
6.10), el tiempo esta dado por el procesamiento de las 25 ventanas que se crean a partir
de una imagen. Notemos que:
• Ni la etapa de entrenamiento, ni la etapa de prueba han sido optimizadas. El
modelo se implemento en Matlab R2010a, el equipo usado fue un core i5-2430M
con 4 GB en RAM.
• El proceso fue secuencial. No se utilizo ninguna estrategia de paralelizacion aun
cuando el modelo es completamente paralelizable tanto en los clasificadores como
en las ventanas deslizantes.
6.4. DISCUSION 85
6.4 Discusion
Los resultados obtenidos por el metodo propuesto son prometedores. El metodo es
mejor en precision y exactitud que los clasificadores basicos G, L y GL. Con respecto a
otros trabajos que usan imagenes de Internet, nuestro metodo es superior en porcentajes
de F −measure utilizando menos imagenes de entrenamiento que ellos.
Esta competitividad es importante debido a que se tiene un menor numero de
ejemplos de entrenamiento haciendo que el modelo requiera un conjunto pequeno para
el aprendizaje. Suponemos que las primeras pocas imagenes regresadas en la primer
pagina de Google Images tienden a contener buenas imagenes que las regresadas de-
spues. La idea es que suponemos que las primeras imagenes son ejemplos positivos, ya
que si se incluyeran muchas mas imagenes es posible anadir ruido al concepto deseado.
Es por ello que ha resultado conveniente incluir varios clasificadores y transformaciones
a la imagenes positivas que permiten entrenar el modelo a partir de pocos ejemplos.
El hecho de combinar informacion global y local, ayudo a mejorar la deteccion, ya que
dependiendo del objeto (general o especıfico) las caracterısticas ajustan su relevancia.
Adicionalmente, las caracterısticas de color aportan mas informacion para categorıas
generales que para las especificas, por ejemplo es comun encontrar imagenes de platanos
de color amarillo o verde pero es inusual que se nos presente un platano azul. La ventaja
de tener varios clasificadores en el metodo nos permitio crear varios modelos visuales
de la categorıa, por tanto, logramos detectar variantes de la clase.
Por otra parte, al incorporar transformaciones a las imagenes del objeto, nos per-
mitio ampliar automaticamente el conjunto de entrenamiento que ayudo a lidiar con
las diferentes vistas que puede mostrar el objeto. Con estas trasformaciones, pudimos
identificar caracterısticas invariantes del objeto.
En cuanto a la localizacion del objeto dentro de una imagen, los resultados mostraron
que con este metodo es posible alcanzar en promedio el 54% de exactitud, sin embargo,
en algunos casos la senalizacion del objeto no es tan concreta, debiendose a que en
entornos reales aun se tienen falsos positivos.
86 CAPITULO 6. EXPERIMENTOS
6.5 Resumen
En este capıtulo se presentaron varios experimentos para medir el comportamiento del
algoritmo desarrollado. Estos experimentos fueron los siguientes:
• Usando imagenes de la Web: Un primer conjunto con seleccion automatica y
un segundo conjunto con seleccion semi-supervisada dada por un usuario. Se
presentaron los resultados y se compararon contra tres clasificadores basicos, con
el proposito de medir el desempeno al utilizar categorıas generales y especıficas,
y una combinacion de caracterısticas globales y locales. Los resultados muestran
una mejora sobre los clasificadores basicos.
• En el segundo experimento se realizo con una base de datos llamada Google Down-
loads. El objetivo fue compararse contra otros metodos, obteniendo resultados
sobresalientes en F-measure con respecto de los trabajos [VG08] y [SCZ07].
• El tercer experimento fue buscar objetos en ambientes de interiores, usando el
metodo propuesto y un esquema de ventanas. Se logro detectar la mayorıa de las
categorıas, pero en ocasiones la posicion de los objetos no estuvo bien delimitada.
En los experimentos se observaron resultados competitivos comparados con los
metodos [VG08] y [SCZ07], y mejores que los clasificadores basicos. Resulta impor-
tante destacar que la categorizacion de objetos se realizo con los retos que presentan
las imagenes obtenidas de la Web.
Capıtulo 7
Conclusiones y Trabajo Futuro
7.1 Resumen
Esta tesis plantea el problema de aprender conceptos visuales y localizar el objeto en
una imagen, teniendo como conocimiento previo unicamente el nombre del concepto,
bajo un esquema no supervisado. Los objetos dentro de las categorıas generales pueden
describirse mejor por color o textura (caracterısticas globales), este tipo de categorıas
presentan una alta variabilidad entre sus miembros; en cambio los objetos de las cate-
gorıas especıficas mantienen una similaridad entre ellos, por lo cual se pueden describir
por sus caracterısticas locales.
En este trabajo de tesis se presento un metodo que utiliza imagenes de la Web, usan-
do pocas imagenes de entrenamiento y un nivel bajo de supervision. Este metodo integra
informacion global y local proveniente de las imagenes de entrenamiento obtenidas
por un motor de busqueda, este pequeno conjunto de imagenes de entrenamiento es
expandido aplicando una serie de transformaciones. Se crea un clasificador por cada
imagen extraıda de la Web y se combina la respuesta de los clasificadores, todo esto con
el fin de poder crear varios modelos visuales de la misma categorıa para hacer frente a
la variabilidad intra-clase.
Se experimento con dos conjuntos de imagenes recopiladas desde la Web. Un primer
87
88 CAPITULO 7. CONCLUSIONES Y TRABAJO FUTURO
conjunto, el cual contiene categorıas generales y especıficas de objetos. Usando este
conjunto se observo que los resultados fueron favorables al compararse con algunos
clasificadores basicos, lo cual mostro que el combinar caracterısticas globales y locales,
ası como el aprendizaje de parametros segun el tipo de objeto, implica una mejorıa
significativa en la precision de la clasificacion. El segundo conjunto es empleado en el
trabajo de Vijayanarasimhan et al. 2008 [VG08]. Al compararse con otros trabajos
relacionados, nuestro modelo los supera en F-measure al optimizar los parametros de
nuestro modelo.
Mediante el metodo propuesto se logran construir conceptos visuales sin supervision
usando informacion de la Web. Ademas, puede usarse como base para que un robot de
servicio busque objetos en ambientes tipo oficina o domesticos.
7.2 Conclusiones
Se pudo observar que el metodo de aprendizaje de conceptos visuales basado en multiples
clasificadores tiene resultados satisfactorios en categorıas generales y especıficas sobre
entornos reales. Por otra parte, se logro construir modelos de objetos usando solo el
nombre del concepto. Se mostro que a partir de pocas imagenes obtenidas de la Web
es posible realizar una clasificacion con resultados competitivos.
En todos los experimentos el pesado de las caracterısticas se ajustan respecto al
objeto. Cuando es un objeto especıfico, las caracterısticas locales tienen un peso mayor,
y cuando es un objeto general las caracterısticas globales incrementan su peso. Lo
anterior se verifico en el experimento de clasificacion con imagenes de Google Images.
El segundo experimento de clasificacion con imagenes de Google Downloads, muestra
que el algoritmo propuesto compite con trabajos del estado del arte sin un aprendizaje
de parametros, y con este muestra mejores resultados bajo F −measure.
El experimento de localizacion del objeto dentro de una imagen mostro que consi-
derar la union de ventanas, en vez de utilizarlas por separado reduce falsos positivos.
7.3. CONTRIBUCIONES 89
7.3 Contribuciones
La contribucion principal de esta tesis es un algoritmo para el aprendizaje de conceptos
visuales basado en multiples clasificadores. De ella se desprenden dos contribuciones
mas:
• Una representacion del objeto mediante caracterısticas globales y locales, cada
una con diferente pesado, dependiendo del objeto (general o especıfico).
• Un modelo de aprendizaje basado en multiples clasificadores, los cuales son en-
trenados con ejemplos generados automaticamente, obtenidos a traves de aplicar
una serie de transformaciones a imagenes obtenidas de la Web. El usar varios
clasificadores ayuda a enfrentar el problema de la variabilidad intra-clase.
7.4 Trabajo Futuro
A continuacion se proponen algunas ideas para extender el presente trabajo:
• En la parte de recoleccion de imagenes se sugiere considerar algun metodo que
descarte la ambiguedad del nombre del objeto.
• En la representacion del objeto, se podrıan integrar caracterısticas a partir de
informacion de contorno que pueda caracterizar mejor el contenido visual de las
imagenes.
• Tambien, resulta de interes la idea de cambiar el clasificador global, en esta tesis
se ha utilizado NB. Serıa interesante probar con otro tipo de clasificadores o una
mezcla de ellos.
• Aunque los resultados obtenidos de localizacion del objeto fueron prometedores,
es posible explorar otras ideas donde el tiempo de procesamiento sea menor, tal
como la paralelizacion de los N clasificadores. Se logro detectar el objeto dentro
90 CAPITULO 7. CONCLUSIONES Y TRABAJO FUTURO
de un recuadro donde a veces este es grande para efectos de tomar el objeto, por
lo que sugerimos anadir algun metodo que delimite mejor el area del objeto.
• El metodo propuesto puede modificarse para desarrollar tareas afines a la vision
de un robot de servicio, por ejemplo, la identificacion de objetos dentro de escenas
de interiores. Dada una lista de conceptos (nombre del objeto), el robot pueda
aprender un nuevo concepto a partir de informacion de la Web , ademas de navegar
para logar identificar y tomar el objeto dentro de ese ambiente.
7.5 Publicaciones
Parte de los resultados de esta tesis fueron reportados en el trabajo: Dulce J. Navarrete,
Eduardo F. Morales and L. Enrique Sucar. Unsupervised Learning of Visual Object
Recognition Models. In Proceedings of the 13th Ibero-American Conference on AI,
IBERAMIA 2012, Lecture Notes in Computer Science - LNAI, Springer. [Aceptado]
Referencias
[AB76] G. J. Agin and T. O. Binford. Computer description of curved objects.IEEE Trans. Comput., 25(4):439–449, April 1976. [Citada en p. 36]
[Ara06] B.S. Araujo. Aprendizaje automatico: Conceptos basicos y avanzados:aspectos practicos utilizando el software Weka. Pearson Prentice Hall,2006. [Citada en p. 69]
[Bar81] A. Barr. Superquadrics and angle-preserving transformations. IEEE Com-puter Graphics and Applications, 1(1):11–23, 1981. [Citada en p. 36]
[BETVG08] H. Bay, A. Ess, T. Tuytelaars, and L. Van Gool. Speeded-up robustfeatures (surf). Comput. Vis. Image Underst., 110(3):346–359, June 2008.[Citada en p. 39]
[Bin71] T. Binford. Visual perception by computer. In Proceedings of the IEEEConference on Systems and Control (Miami, FL), 1971. [Citada en p. 36]
[BL02] M. Brown and D. Lowe. Invariant features from interest point groups. InIn British Machine Vision Conference, pages 656–665, 2002. [Citada en p. 28]
[BL08] X. Bai and L. J. Latecki. Path Similarity Skeleton Graph Matching. IEEETransactions on Pattern Analysis and Machine Intelligence, 30(7):1282–1292, July 2008. [Citada en p. 37]
[BM07] R. Bunescu and R. Mooney. Multiple instance learning for sparse posi-tive bags. In Proceedings of the 24th international conference on Machinelearning, ICML ’07, pages 105–112, New York, NY, USA, 2007. ACM.[Citada en p. 40]
[Bro81] R. Brooks. Model-based three dimensional interpretations of two dimen-sional images. In Proceedings of the 7th international joint conference onArtificial intelligence - Volume 2, IJCAI’81, pages 619–624, San Francisco,CA, USA, 1981. Morgan Kaufmann Publishers Inc. [Citada en p. 36]
[CDF+04] G. Csurka, C. Dance, L. Fan, J. Willamowski, and C. Bray. Visual cate-gorization with bags of keypoints. In In Workshop on Statistical Learningin Computer Vision, ECCV, pages 1–22, 2004. [Citada en p. 3, 54]
91
92 REFERENCIAS
[DH73] R. O. Duda and P. E. Hart. Pattern Classification and Scene Analysis.John Willey & Sons, New Yotk, 1973. [Citada en p. 45]
[Dic09] S. Dickinson. The Evolution of Object Categorization and the Challenge ofImage Abstraction. In S. Dickinson, A. Leonardis, B. Schiele, and M. Tarr,editors, Object Categorization: Computer and Human Vision Perspectives,pages 1–37. Cambridge University Press, 2009. [Citada en p. 35]
[DMP97] S. Dickinson, D. Metaxas, and A. Pentland. The role of model-based segmentation in the recovery of volumetric parts from range data.IEEE Trans. Pattern Anal. Mach. Intell., 19(3):259–267, March 1997.[Citada en p. 36]
[FfFP06] L. Fei-fei, R. Fergus, and P. Perona. One-shot learning of object cate-gories. IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MA-CHINE INTELLIGENCE, 28:2006, 2006. [Citada en p. 1]
[FFFPZ05] R. Fergus, L. Fei-Fei, P. Perona, and A. Zisserman. Learning object cat-egories from google”s image search. In Proceedings of the Tenth IEEEInternational Conference on Computer Vision - Volume 2, ICCV ’05,pages 1816–1823, Washington, DC, USA, 2005. IEEE Computer Society.[Citada en p. xi, 42, 48, 66, 75, 76, 77, 79, 80]
[FLW93] F. P. Ferrie, J. Lagarde, and P. Whaite. Darboux frames, snakes, andsuper-quadrics: Geometry from the bottom up. IEEE Trans. PatternAnal. Mach. Intell., 15(8):771–784, August 1993. [Citada en p. 36]
[FPZ03] R. Fergus, P. Perona, and A. Zisserman. Object class recognition by unsu-pervised scale-invariant learning. In Proceedings of the IEEE Conferenceon Computer Vision and Pattern Recognition, volume 2, pages 264–271,Madison, Wisconsin, June 2003. [Citada en p. 3, 54]
[FPZ04] R. Fergus, P. Perona, and A. Zisserman. A visual category filter for googleimages. In Proceedings of the 8th European Conference on Computer Vi-sion, Prague, Czech Republic, pages 242–256, May 2004. [Citada en p. ix, 42,
43]
[GW01] R. Gonzalez and R. Woods. Digital Image Processing. Addison-WesleyLongman Publishing Co., Inc., Boston, MA, USA, 2nd edition, 2001.[Citada en p. 6]
[HS85] R. Haralick and L. Shapiro. Image segmentation techniques. ComputerVision Graphics and Image Processing, 29(1):100–132, 1985. [Citada en p. 22,
57]
[Jah91] B. Jahne. Digital Image Processing: Concepts, Algorithms, and ScientificApplications. Number 216487. Springer-Verlag, 1991. [Citada en p. 24, 57]
REFERENCIAS 93
[JG06] Y. Jin and S. Geman. Context and hierarchy in a probabilistic imagemodel. In Proceedings of the 2006 IEEE Computer Society Conferenceon Computer Vision and Pattern Recognition - Volume 2, CVPR ’06,pages 2145–2152, Washington, DC, USA, 2006. IEEE Computer Society.[Citada en p. 38]
[JIB09] Y. Ji, K. Idrissi, and A. Baskurt. Object categorization using boostingwithin hierarchical bayesian model. In Proceedings of the 16th IEEE in-ternational conference on Image processing, ICIP’09, pages 317–320, Pis-cataway, NJ, USA, 2009. IEEE Press. [Citada en p. ix, 47, 48]
[KHDM98] J. Kittler, M. Hatef, R. Duin, and J. Matas. On combining classifiers.IEEE Transactions on Pattern Analysis and Machine Intelligence, 20:226–239, 1998. [Citada en p. 45]
[Kla05] D. Klaveness. Photography in limnology: documentation of lake colorusing a ccd camera. Limnology, 6:131–136, 2005. 10.1007/s10201-005-0147-8. [Citada en p. 20]
[KMB07] P. Kakumanu, S. Makrogiannis, and N. Bourbakis. A survey of skin-color modeling and detection methods. Pattern Recogn., 40(3):1106–1122,March 2007. [Citada en p. 17]
[LBK02] M. Last, H. Bunke, and A. Kandel. A feature-based serial approach to clas-sifier combination. Pattern Anal. Appl., 5(4):385–398, 2002. [Citada en p. 46]
[Lew98] David D. Lewis. Naive (bayes) at forty: The independence assumption ininformation retrieval. pages 4–15. Springer Verlag, 1998. [Citada en p. 60]
[LHB04] Y. LeCun, F. Huang, and L. Bottou. Learning methods for generic objectrecognition with invariance to pose and lighting. In Proceedings of the2004 IEEE computer society conference on Computer vision and patternrecognition, CVPR’04, pages 97–104, Washington, DC, USA, 2004. IEEEComputer Society. [Citada en p. 3, 54]
[LJS97] A. Leonardis, A. Jaklic, and F. Solina. Superquadrics for segmentingand modeling range data. IEEE Transactions on Pattern Analysis andMachine Intelligence, 19:1289–1295, 1997. [Citada en p. 37]
[LLS06] B. Leibe, A. Leonardis, and B. Schiele. An implicit shape model forcombined object categorization and segmentation. In Jean Ponce, Mar-tial Hebert, Cordelia Schmid, and Andrew Zisserman, editors, TowardCategory-Level Object Recognition, volume 4170 of Lecture Notes in Com-puter Science, pages 508–524. Springer, 2006. [Citada en p. 3, 54]
94 REFERENCIAS
[LMB+05] D. Lisin, M. Mattar, M.. Blaschko, E.. Learned-Miller, and M. Benfield.Combining local and global image features for object class recognition. InProceedings of the 2005 IEEE Computer Society Conference on ComputerVision and Pattern Recognition (CVPR’05) - Workshops - Volume 03,CVPR ’05, pages 47–55, Washington, DC, USA, 2005. IEEE ComputerSociety. [Citada en p. 31]
[Low04] D. Lowe. Distinctive image features from scale-invariant keypoints. Int.J. Comput. Vision, 60(2):91–110, November 2004. [Citada en p. 25, 30, 31, 38, 44]
[LSD05] A. Levinshtein, C. Sminchisescu, and S. Dickinson. Learning hierarchi-cal shape models from examples. In Proceedings of the 5th internationalconference on Energy Minimization Methods in Computer Vision and Pat-tern Recognition, EMMCVPR’05, pages 251–267, Berlin, Heidelberg, 2005.Springer-Verlag. [Citada en p. 38]
[LVBV05] F. Lopez, J. Valiente, R. Baldrich, and M. Vanrell. Fast surface grad-ing using color statistics in the cielab space. In Lecture Notes in Com-puter Science, Iberian Conference, Pattern Recognition and image Anal-ysis (IBPRIA’05), pages 666–673, Storil (Portugal), Jun 2005. Springer-Verlag. [Citada en p. 18]
[MMH+10] D. Meger, M. Muja, S. Helmer, A. Gupta, C. Gamroth, T. Hoffman,M. Baumann, T. Southey, P. Fazli, W. Wohlkinger, P. Viswanathan, J. Lit-tle, D. Lowe, and J. Orwell. Curious george: An integrated visual searchplatform. In CRV, pages 107–114. IEEE, 2010. [Citada en p. 44, 82]
[MRR09] N. Manshor, M. Rajeswari, and D. Ramachandram. Multi-feature basedobject class recognition. In Proceedings of the International Conferenceon Digital Image Processing, ICDIP ’09, pages 324–329, Washington, DC,USA, 2009. IEEE Computer Society. [Citada en p. 33]
[MS04] K. Mikolajczyk and C. Schmid. Scale & affine invariant interest pointdetectors. Int. J. Comput. Vision, 60(1):63–86, October 2004. [Citada en p. 14,
38]
[MS05] Krystian Mikolajczyk and Cordelia Schmid. A performance evaluation oflocal descriptors. IEEE Trans. Pattern Anal. Mach. Intell., 27(10):1615–1630, October 2005. [Citada en p. 14]
[OCLP10] M. Ozuysal, M. Calonder, V. Lepetit, and Pascal P. Fast keypoint recog-nition using random ferns. IEEE Trans. Pattern Anal. Mach. Intell.,32(3):448–461, March 2010. [Citada en p. 13, 55]
[Par96] J. R. Parker. Algorithms for Image Processing and Computer Vision. JohnWiley & Sons, Inc., New York, NY, USA, 1st edition, 1996. [Citada en p. 22,
57]
REFERENCIAS 95
[Pas01] G. Paschos. Perceptually uniform color spaces for color texture analy-sis: an empirical evaluation. IEEE Transactions on Image Processing,10(6):932–937, June 2001. [Citada en p. 18]
[PC88] J. Ponce and D. Chelberg. Finding the limbs and cusps of generalizedcylinders. International Journal of Computer Vision, 1(3):195–210, 1988.[Citada en p. 36]
[PS09] R. Pereira and L. Seabra. Learning visual object categories with globaldescriptors and local features. In EPIA, pages 225–236, 2009. [Citada en p. ix,
32, 33, 56]
[Pun11] Operaciones Puntuales. http://www.tsc.uc3m.es/imagine/curso proce-sadobasico/contenido/operacionespuntuales/operacionespuntuales.html.fecha de consulta: 15 Octubre, 2011. [Citada en p. 13]
[RF03] A. Rezaur and M. Fairhurst. Multiple classifier decision combinationstrategies for character recognition: A review. IJDAR, 5(4):166–194, 2003.[Citada en p. 46]
[RM93] H. Rom and G. Medioni. Hierarchical decomposition and axial shapedescription. IEEE Trans. Pattern Anal. Mach. Intell., 15(10):973–981,October 1993. [Citada en p. 37]
[Sah96] Mehran Sahami. Learning limited dependence bayesian classifiers. In InKDD-96: Proceedings of the Second International Conference on Knowl-edge Discovery and Data Mining, pages 335–338. AAAI Press, 1996.[Citada en p. 60]
[SB90] F. Solina and R. Bajcsy. Recovery of parametric models from range im-ages: The case for superquadrics with global deformations. IEEE Trans-actions on Pattern Analysis and Machine Intelligence, 12:131–147, 1990.[Citada en p. 36]
[SC08] L. Seabra and A. Chauhan. Open-ended category learning for languageacquisition. Connect. Sci, 20(4):277–297, December 2008. [Citada en p. 33]
[SCZ07] F. Schroff, A. Criminisi, and A. Zisserman. Harvesting image databasesfrom the web. In ICCV, pages 1–8. IEEE, 2007. [Citada en p. xi, 41, 75, 76, 77, 79,
80, 86]
[SG11] L. E. Sucar and G. Gomez. Vision computacionalhttp://ccc.inaoep.mx/vesucar/libros/vision-sucar-gomez.pdf. fechade consulta: 8 Septiembre, 2011. [Citada en p. 17]
[SM06] S. Segrera and M.N. Moreno. Multiclasificadores: Metodos y arquitec-turas. Technical report, Universidad de Salamanca, 2006. [Citada en p. 46]
96 REFERENCIAS
[SP95] S. Sclaroff and A. Pentland. Modal matching for correspondence andrecognition. IEEE Trans. Pattern Anal. Mach. Intell., 17(6):545–561, June1995. [Citada en p. 37]
[SRV11] SRVC. Semantic robot vision challenge. http://www.semantic-robot-vision-challenge.org/. fecha de consulta: 10 Agosto, 2011. [Citada en p. 33,
42, 81]
[SZ03] J. Sivic and A. Zisserman. Video google: A text retrieval approach toobject matching in videos. In Proceedings of the Ninth IEEE Interna-tional Conference on Computer Vision - Volume 2, ICCV ’03, pages 1470–,Washington, DC, USA, 2003. IEEE Computer Society. [Citada en p. 42]
[Sze10] R. Szeliski. Computer Vision: Algorithms and Applications. Online, 2010.[Citada en p. 9, 10]
[TMF04] A. Torralba, K. P. Murphy, and W. T. Freeman. Sharing features: efficientboosting procedures for multiclass object detection. In Proceedings of theIEEE Conference on Computer Vision and Pattern Recognition, volume 2,pages 762–769, Washington, DC, June 2004. [Citada en p. 3]
[UN93] F. Ulupinar and R. Nevatia. Perception of 3-d surfaces from 2-d con-tours. IEEE Trans. Pattern Anal. Mach. Intell., 15(1):3–18, January 1993.[Citada en p. 36]
[VG08] S. Vijayanarasimhan and K. Grauman. Keywords to Visual Categories:Multiple-Instance Learning for Weakly Supervised Object Categorization.In CVPR, 2008. [Citada en p. ix, xi, 40, 41, 44, 75, 76, 77, 79, 80, 86, 88]
[WMC08] Q. Wu, F. Merchant, and K.R. Castleman. Microscope Image Processing.Academic Press. Elsevier/Academic Press, 2008. [Citada en p. 22, 57]
[YSR05] A. Yavlinsky, E. Schofield, and S. Ruger. Automated image annota-tion using global features and robust nonparametric density estimation.In Proceedings of the 4th international conference on Image and VideoRetrieval, CIVR’05, pages 507–517, Berlin, Heidelberg, 2005. Springer-Verlag. [Citada en p. 38]
[ZM06] S. Zhu and D. Mumford. A stochastic grammar of images. Found. Trends.Comput. Graph. Vis., 2(4):259–362, January 2006. [Citada en p. 38]
[ZYZS05] W. Zhang, B. Yu, G. J. Zelinsky, and D. Samaras. Object class recogni-tion using multiple layer boosting with heterogeneous features. In Proceed-ings of the 2005 IEEE Computer Society Conference on Computer Visionand Pattern Recognition (CVPR’05) - Volume 2 - Volume 02, CVPR ’05,pages 323–330, Washington, DC, USA, 2005. IEEE Computer Society.[Citada en p. ix, 47, 49]