Aprendizaje de Conceptos Visuales Basado en Múltiples ... · Agradecimientos Agradezco a mi asesor el Dr. Eduardo Morales Manzanares, por todo el apoyo, gu a y consejos brindados

Aprendizaje de Conceptos Visuales Basado en

Múltiples Clasificadores

por

Dulce Jazmín Navarrete Arias

Tesis sometida como requisito parcial para obtener el grado de

Maestro en Ciencias en el Área de Ciencias Computacionales en el

Instituto Nacional de Astrofísica, Óptica y Electrónica

Supervisada por:

Dr. Eduardo F. Morales Manzanares,

INAOE

©INAOE 2012

El autor otorga al INAOE el permiso de reproducir y distribuir copias

en su totalidad o en partes de esta tesis

Aprendizaje de Conceptos VisualesBasado en Multiples Clasificadores

Tesis de Maestrıa

por

Dulce Jazmın Navarrete Arias

Asesor:

Dr. Eduardo F. Morales Manzanares

Instituto Nacional de Astrofısica, Optica y ElectronicaCoordinacion de Ciencias Computacionales

Tonantzintla, PueblaMexico

Noviembre de 2012

Dedicado amis padres

ii

Agradecimientos

Agradezco a mi asesor el Dr. Eduardo Morales Manzanares, por todo el apoyo, guıa yconsejos brindados para el desarrollo de esta tesis.

A mis sinodales Dr. Jose Enrique Munoz de Cote Flores Luna, Dr. Carlos AlbertoReyes Gacıa y Dr. Leopoldo Altamirano Robles por sus observaciones y sugerenciasque ayudaron a mejorar la calidad de esta tesis.

A mis padres, por toda la sabidurıa, educacion, consejos y carino que me han brindado.

A mi hermano, por ser mi mejor amigo.

A Elıas por todo el carino, la paciencia y apoyo brindado. Porque contigo soy feliz.

Al Instituto Nacional de Astrofısica Optica y Electronica (INAOE), por ofrecerme unespacio para estudiar.

Al Consejo Nacional de Ciencia y Tecnologıa (CONACYT), por el apoyo proporcionadoa traves de la beca numero 243952.

Dulce Jazmin Navarrete Arias.Tonantzintla, Puebla. 2 de Noviembre de 2010.

iii

Resumen

El reconocimiento de objetos tradicionalmente esta basado en realizar aprendizaje so-

bre un gran conjunto de entrenamiento de imagenes previamente seleccionadas, sin

embargo, no todos los objetos cuentan con un conjunto de datos asociado. Hoy en dıa

es posible encontrar en Web imagenes de practicamente cualquier objeto, unicamente

basta con lanzar una consulta con el nombre del objeto en un motor de busqueda para

obtener un conjunto de entrenamiento. Esta estrategia, sin embargo, introduce retos

computacionales a resolver: (i) el nombre del objeto puede tener mas de un significado,

(ii) el objeto puede tener diferentes presentaciones y (iii) sin tener conocimiento previo

del objeto es difıcil identificar que caracterısticas visuales usar en un clasificador.

Esta tesis propone un nuevo metodo que ataca la anterior problematica. El metodo

incorpora un esquema de ensamble de clasificadores que construyen varios modelos

del objeto permitiendo tratar la variabilidad intraclase, las respuestas de los clasifi-

cadores son combinadas para determinar la presencia o ausencia del objeto. Parte de

un pequeno conjunto de entrenamiento obtenido en Web, al cual se le aplica una se-

rie de transformaciones, para identificar caracterısticas invariantes. La contribucion de

caracterısticas locales y globales que describen al objeto es optimizada, con el fin de

reconocer diferentes tipos de categorıas. Tambien desarrollamos un algoritmo basado

en ventanas que identifica la posicion del objeto dentro de una imagen.

Evaluamos nuestro metodo sobre imagenes de Web, la base de datos Caltech-7

y en entornos reales. Nos comparamos contra trabajos reportados en el estado del

arte, obteniendo resultados que muestran porcentajes de clasificacion competitivos en

iv

v

el reconocimiento de objetos especıficos y generales.

Abstract

Object recognition is usually based on learning from a large dataset of previously se-

lected training images; however, not all objects have one associated dataset. Nowadays

it is possible to find images on Internet of virtually any object, only by launching a

query with the object’s name in a search engine. Nevertheless, this strategy introduces

computational challenges: (i) the object’s name can have more than one meaning; (ii)

the object can have different appearances, and (iii) without prior knowledge of the

object it is hard to identify which visual features to use in order to train a classifier.

In this thesis a method to tackle the above problem is proposed. The method incor-

porates an ensemble of classifiers that builds several object models treating intraclass

variability. Responses of every classifier are combined to determine the presence or

absence of the object. The method begins with a small training set obtained via Web,

and a series of image transformations is applied in order to identify invariant features.

The weight of the local and global features is optimized, in order to recognize different

category types.

We also develop an algorithm based on sliding windows to identify the object’s

position within an image. We evaluated our method on images from the Web, the

Caltech-7 dataset and real environments. We compared our method against related

work, obtaining competitive classification performance in the recognition of general

and specific objects.

vi

Indice general

Resumen iv

Abstract vi

1 Introduccion 11.1 Descripcion del Problema . . . . . . . . . . . . . . . . . . . . . . . . . 11.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.3 Solucion Propuesta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.4 Organizacion de la Tesis . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2 Transformaciones a Imagenes 62.1 Ruido en Imagenes Digitales . . . . . . . . . . . . . . . . . . . . . . . . 62.2 Transformaciones Afines 2D . . . . . . . . . . . . . . . . . . . . . . . . 92.3 Transformacion de Intensidad . . . . . . . . . . . . . . . . . . . . . . . 112.4 Transformaciones en el Reconocimiento . . . . . . . . . . . . . . . . . . 132.5 Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

3 Representacion de Objetos 163.1 Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163.2 Espacios de Color . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173.3 Tratamiento de Texturas . . . . . . . . . . . . . . . . . . . . . . . . . . 223.4 Descriptor de Regiones . . . . . . . . . . . . . . . . . . . . . . . . . . . 253.5 Trabajos Relacionados con Representacion de Objetos . . . . . . . . . . 303.6 Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

4 Categorizacion de Objetos 354.1 Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354.2 Metodos para la Categorizacion de Objetos . . . . . . . . . . . . . . . . 354.3 Aprendizaje de Modelos desde Internet . . . . . . . . . . . . . . . . . . 394.4 Clasificador Naıve Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . 444.5 Ensamble de Clasificadores . . . . . . . . . . . . . . . . . . . . . . . . . 454.6 Discusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 494.7 Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

vii

viii INDICE GENERAL

5 Metodo Propuesto 525.1 Esquema Propuesto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 525.2 Generacion Automatica de Ejemplos . . . . . . . . . . . . . . . . . . . 54

5.2.1 Transformaciones a Imagenes . . . . . . . . . . . . . . . . . . . 545.3 Representacion del Objeto . . . . . . . . . . . . . . . . . . . . . . . . . 56

5.3.1 Extraccion de Caracterısticas Globales . . . . . . . . . . . . . . 565.3.2 Extraccion de Caracterısticas Locales . . . . . . . . . . . . . . . 58

5.4 Clasificadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 595.4.1 Clasificador Global . . . . . . . . . . . . . . . . . . . . . . . . . 605.4.2 Clasificador Local . . . . . . . . . . . . . . . . . . . . . . . . . . 605.4.3 Combinacion de Clasificadores . . . . . . . . . . . . . . . . . . . 61

5.5 Obtencion de los Parametros del Modelo . . . . . . . . . . . . . . . . . 625.6 Reconocimiento del Objeto en una Imagen de Prueba . . . . . . . . . . 635.7 Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

6 Experimentos 666.1 Configuracion de los Experimentos . . . . . . . . . . . . . . . . . . . . 666.2 Medidas de Evaluacion . . . . . . . . . . . . . . . . . . . . . . . . . . . 686.3 Desarrollo de los Experimentos . . . . . . . . . . . . . . . . . . . . . . 69

6.3.1 Clasificacion con Imagenes de Google Images . . . . . . . . . . . 696.3.2 Clasificacion con Imagenes de Google Downloads . . . . . . . . . 756.3.3 Reconocimiento de Objetos en Entornos Reales . . . . . . . . . 81

6.4 Discusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 856.5 Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

7 Conclusiones y Trabajo Futuro 877.1 Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 877.2 Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 887.3 Contribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 897.4 Trabajo Futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 897.5 Publicaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

Referencias 96

Indice de figuras

1.1 Estas imagenes ejemplifican los diferentes grados de relevancia . . . . . 2

2.1 Curvas gaussianas con diferentes parametros. . . . . . . . . . . . . . . 7

2.2 Imagen contaminada con ruido gaussiano . . . . . . . . . . . . . . . . . 8

2.3 Imagen contaminada con ruido sal y pimienta . . . . . . . . . . . . . . 8

2.4 Imagen con trasformaciones de intensidad. (a) Original, (b) incrementode contraste, (c) cambio de brillo +50. . . . . . . . . . . . . . . . . . . 13

2.5 Modificacion del contraste. . . . . . . . . . . . . . . . . . . . . . . . . . 14

3.1 Cubo unitario de color para el modelo RGB. . . . . . . . . . . . . . . . 18

3.2 Espacio de color CIE L*a*b. . . . . . . . . . . . . . . . . . . . . . . . 20

3.3 Modelo de color HSV. . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

3.4 Ejemplos de una familia de filtros de Gabor. . . . . . . . . . . . . . . 25

3.5 Ejemplo del uso de SIFT para localizar un objeto dentro de una escena 26

3.6 Obtencion de restas de imagenes de gaussianas . . . . . . . . . . . . . . 28

3.7 Obtencion de restas de imagenes de gaussianas . . . . . . . . . . . . . . 29

3.8 Gradientes de la imagen: Se muestra una region de 8×8 pıxeles alrededorde un punto caracterıstico ubicado en el centro. . . . . . . . . . . . . . 30

3.9 Representaciones de forma usadas por Rui Pereira y Luis Seabra Lopes[PS09]: (a) contexto de forma global, (b) basada en tangentes. . . . . . 32

4.1 Construccion de un modelo volumetrico a partir de objetos. . . . . . . 36

4.2 Cuadrıculas de elipsoides . . . . . . . . . . . . . . . . . . . . . . . . . . 37

4.3 Esquema general de un motor de busqueda de imagenes. . . . . . . . . 40

4.4 Resumen del metodo propuesto por [VG08]. . . . . . . . . . . . . . . . 41

4.5 Caracterısticas utilizadas en [FPZ04]. . . . . . . . . . . . . . . . . . . . 43

4.6 Ejemplo de arquitectura horizontal o paralela. . . . . . . . . . . . . . 46

4.7 Mezcla de componentes de Yi ji [JIB09]. . . . . . . . . . . . . . . . . . 48

4.8 Modelo multicapa de Zhang [ZYZS05]. . . . . . . . . . . . . . . . . . . 49

5.1 Arquitectura general del metodo propuesto. . . . . . . . . . . . . . . . 53

5.2 Generacion automatica de ejemplos de entrenamiento. . . . . . . . . . . 55

5.3 Deteccion de keypoints. . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

ix

x INDICE DE FIGURAS

5.4 Los keypoints son obtenidos de la imagen original y de las imagenes de-formadas bajo las diferentes transformaciones (escala, ruidos, intensidad,etc.). La frecuencia de cada punto es recolectada en una matriz de fre-cuencia y aquellos puntos con alta frecuencia son seleccionados comoPinvariantes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

5.5 Para cada imagen de prueba se estima su probabilidad local y global . 625.6 La imagen muestra Fventanas. . . . . . . . . . . . . . . . . . . . . . . . . 64

6.1 Curvas tonales utilizadas en los experimentos para modificar el contrasteen las imagenes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

6.2 Un ejemplo del conjunto de transformaciones generadas de una imagenmodelo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

6.3 Imagenes de conceptos especıficos y generales, obtenidas de Internet. . 706.4 Imagenes regresadas por el buscador Google Images usando el concepto

“Platano”. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 716.5 Conjunto de datos GSS. . . . . . . . . . . . . . . . . . . . . . . . . . . 726.6 Esquema del experimento. . . . . . . . . . . . . . . . . . . . . . . . . . 736.7 Clasificadores base comparados con el metodo propuesto. . . . . . . . . 746.8 Imagenes modelo (12 primeras) obtenidas de Google Downloads para

cada categorıa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 786.9 Tamanos de ventanas. El recuadro rojo muestra el tamano de la ventana

y las lıneas negras el desplazamiento en ancho y alto. . . . . . . . . . . 826.10 Ejemplos de los resultados del experimento de localizacion del objeto . 83

Indice de tablas

4.1 Resumen de trabajos relacionados. Se presentan las caracterısticas masrelevantes de los trabajos analizados, resumiendose en 5 columnas: si re-alizan aprendizaje con imagenes de la Web, si consideran caracterısticasglobales y locales, si utilizan varios clasificadores, si incorporan la local-izacion de los objetos dentro de una imagen de prueba y que esquema desupervision emplean. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

6.1 Matriz de confusion binaria. . . . . . . . . . . . . . . . . . . . . . . . . 686.2 Resultados del experimento con seleccion automatica (conjunto de datos

GSA). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 756.3 Resultados del experimento con seleccion semi-supervisada (conjunto de

datos GSS). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 766.4 Experimentos con los mismos objetos reportados en [VG08, FFFPZ05,

SCZ07] a un recuerdo del 15% (primera parte), con un recuerdo variable(segunda parte) y F-measure (tercera parte). . . . . . . . . . . . . . . . 79

6.5 Ranqueo de los resultados de precision del metodo propuesto y traba-jos existentes. Los porcentajes de precision son obtenidos de los resul-tados del aprendizaje de parametros (segunda parte de la Tabla 6.4),ordenandose del mayor resultado al menor. . . . . . . . . . . . . . . . . 80

6.6 Desempeno del metodo en el reconocimiento de objetos en secuencias deimagenes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

6.7 Costo computacional para las etapas de entrenamiento y prueba delmetodo propuesto. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

xi

Capıtulo 1

Introduccion

1.1 Descripcion del Problema

El reconocimiento es una de las funciones mas utiles de nuestro sistema visual. Recono-

cemos materiales (plastico, la piel de una naranja), escenas (una oficina, la cocina),

tambien cosas individuales (mi libro, mis zapatos) y categorıas (un peinado de los 60’s,

una rana). A medida que aprendemos, organizamos todos los objetos y categorıas en

utiles e informativas taxonomıas que relacionamos con el lenguaje. toti Replicar estas

habilidades en las maquinas que nos rodean impactarıan profundamente en los aspec-

tos practicos de nuestra vida. Los investigadores en esta area se enfrentan a tres retos

principales. Representacion: ¿como debemos modelar los objetos y categorıas?, Apren-

dizaje: ¿como podemos adquirir estos modelos?, Deteccion / reconocimiento: dada una

nueva imagen, ¿como detectar la presencia de un objeto conocido o categorıa, entre el

desorden y a pesar de oclusion, cambios de iluminacion y puntos de vista? [FfFP06].

Existe un amplio consenso sobre el hecho de que los modelos necesitan capturar una

gran diversidad de formas y apariencias de los objetos que nos rodean. El aprendizaje

de una categorıa de objetos normalmente requiere procesar un gran conjunto de ejem-

plos de entrenamiento previamente etiquetados. Desafortunadamente, la exactitud de

algunos enfoques depende en gran medida de la disponibilidad de ejemplos de entre-

1

2 CAPITULO 1. INTRODUCCION

namiento etiquetados para las clases de interes, lo cual limita los enfoques existentes a

pocas categorıas de objetos.

El recolectar ejemplos de imagenes manualmente es una tarea costosa (anotaciones,

segmentacion, recorte, etc.), y teniendo a un humano en el proceso inevitablemente

introduce prejuicios en el tipo de imagenes seleccionadas.

La Web es un atractivo recurso de datos de imagenes para la investigacion en vision,

debido a la gran cantidad de imagenes disponibles. Una consulta de una palabra clave en

este caso el nombre del concepto1 en un motor de busqueda regresa imagenes con difer-

entes grados de relevancia: solo una porcion contiene el objeto deseado, otras pueden

contener instancias homonimas2, otras mas presentan oclusion, cambios de iluminacion,

diferentes puntos de vista o con algun tipo de ruido. Lo anterior significa tener, dentro

de una misma categorıa, una alta variabilidad entre los miembros (ver Figura 1.1) y no

es evidente que atributos utilizar para construir un modelo del concepto.

Figura 1.1: Estas imagenes ejemplifican los diferentes grados de relevancia que se puedenencontrar en imagenes regresadas por Google Images con la consulta “manzana”.

1Para efectos de esta tesis definimos concepto como una palabra que representa a una categorıa deobjetos visuales.

2Una instancia homonima es aquella que tiene dos o mas acepciones visuales, por ejemplo, Banco:institucion financiera, objeto de madera u otro material para sentarse y agrupamiento de peces.

1.2. OBJETIVOS 3

1.2 Objetivos

El objetivo general de esta tesis es disenar e implementar un algoritmo para el apren-

dizaje de conceptos visuales robusto a variantes de un mismo objeto basado en multiples

clasificadores.

Como objetivos especıficos se plantean los siguientes:

1. Disenar un algoritmo que genere automaticamente imagenes de entrenamiento

utilizando transformaciones para obtener caracterısticas invariantes y que tenga

como base imagenes de la Web.

2. Disenar una combinacion de descriptores globales y descriptores locales que re-

presenten a las imagenes de entrenamiento.

3. Desarrollar un algoritmo que combine informacion de varios modelos visuales para

reconocer las variantes de un objeto.

4. Disenar un algoritmo que reconozca y localice un objeto en una imagen de prueba.

5. Realizar pruebas con conceptos especıficos y generales basadas en imagenes de la

Web.

1.3 Solucion Propuesta

Algunos trabajos [CDF+04, FPZ03, LHB04, LLS06, TMF04] recolectan manualmente

un gran conjunto de buenos ejemplos de la categorıa de objeto deseada.

Este trabajo de investigacion propone un metodo que utilice pocas imagenes en su

entrenamiento obtenidas desde un motor de busqueda, lo cual conlleva a manipular

imagenes en condiciones difıciles. Por otra parte cabe senalar que el metodo puede

obtener imagenes sin la interaccion del usuario.

Al realizar una consulta en Google Images nos podemos encontrar que las imagenes

de respuesta tienen una variedad de representaciones, como lo es una imagen ruidosa,

4 CAPITULO 1. INTRODUCCION

el objeto esta girado o la iluminacion no es muy buena. Es por ello que el metodo es

capaz de expandir automaticamente (generacion de ejemplos sinteticos) la informacion

proveniente de la Web, debido a que no se sabe como se muestra el objeto en estas

imagenes. Nosotros queremos que nuestros modelos visuales sean robustos a cambios

de escala, iluminacion y ruido, para esto aplicamos una serie de transformaciones a las

imagenes, creando ası nuestro conjunto de entrenamiento automaticamente.

Como no se sabe si el concepto pertenece a una categorıa general o especıfica se

extraen atributos globales y locales de imagenes, ademas encontramos como combinar

automaticamente estas caracterısticas dependiendo del objeto de interes.

Debido a que un concepto puede tener mas de una interpretacion (ambiguedad del

concepto), suelen ocurrir discrepancias que aparecen entre los elementos de una misma

clase, por ejemplo en la Figura 1.1 vemos representado el concepto manzana por ocho

imagenes, presentando al objeto en diferente color (rojo, verde, amarillo), la mitad de

el o algun dibujo o una animacion. Creamos varios modelos del concepto visual que

permiten incluir informacion de las diferentes instancias de una misma clase y despues

los combinamos para clasificar permitiendonos ası tener un modelo mas robusto.

Los experimentos realizados muestran empıricamente que se obtienen resultados

competitivos al darle un peso ajustado automaticamente a los atributos globales y

locales. Los resultados y el analisis de los mismos concluyeron que se alcanzo tanto el

objetivo principal como los particulares mencionados en la seccion 1.2.

1.4 Organizacion de la Tesis

A continuacion se describe la distribucion del material contenido en este documento:

• En el capıtulo 2 se presenta la teorıa basica de las transformaciones a imagenes.

• En el capıtulo 3 son expuestos los fundamentos necesarios para el reconocimiento

de objetos.

1.4. ORGANIZACION DE LA TESIS 5

• En el capıtulo 4 se presentan y analizan los trabajos mas relacionados con la tesis

sobre categorizacion de objetos.

• El capıtulo 5 describe de manera detallada el metodo propuesto y la estrategia

utilizada para lograr el aprendizaje de conceptos visuales.

• En el capıtulo 6 se presentan los experimentos realizados y los resultados obtenidos

al aplicar el algoritmo elaborado en este trabajo en imagenes de la Web.

• En el capıtulo 7 se muestran las conclusiones del trabajo de investigacion y algunas

ideas a seguir para posibles extensiones de lo presentado en este trabajo.

Capıtulo 2

Transformaciones a Imagenes

La teorıa que veremos a continuacion modifica las caracterısticas de las imagenes. Fun-

damentalmente se aplica en la reconstruccion de imagenes deformadas, ajuste de las

mismas o la deformacion intencionada de ciertos rasgos para su posterior analisis.

En esta tesis empleamos trasformaciones para generar automaticamente conjuntos

de imagenes de entrenamiento, ayudando a construir modelos de objetos visuales ro-

bustos ante las diferentes caracterısticas que presentan los miembros de una misma

clase.

A continuacion se describe la teorıa de las transformaciones que seran usadas para

desarrollar parte del algoritmo propuesto.

2.1 Ruido en Imagenes Digitales

Todas las imagenes tienen cierta cantidad de ruido, la cual se puede deber a la camara

o al medio de transmision de la senal. Generalmente el ruido se manifiesta como pıxeles

aislados que toman un nivel de gris diferente al de sus vecinos. De esta forma enten-

demos por ruido en imagenes digitales cualquier valor de un pıxel de una imagen que

no corresponde exactamente con la realidad. Existen diferentes tipos de ruido, en esta

tesis solo utilizamos dos de ellos, ruido gaussiano y ruido sal y pimienta [GW01].

6

2.1. RUIDO EN IMAGENES DIGITALES 7

Figura 2.1: Curvas gaussianas con diferentes parametros.

Ruido gaussiano

Se caracteriza por modificar cada frecuencia (valor del pıxel) de acuerdo a una

variable aleatoria gaussiana. Cuando se presenta este problema, el valor exacto de

cualquier pıxel es diferente cada vez que se captura la misma imagen. Este ruido anade

o disminuye un determinado valor al nivel de gris real y es independientemente de

los valores que toma la imagen. En el ruido gaussiano la intensidad de cada pıxel de

la imagen se ve alterada en cierta medida con respecto a la intensidad en la imagen

original. Este ruido tiene el comportamiento de la funcion de Gauss o campana de

Gauss, que se expresa en la ecuacion 2.1

f (x) =1√

2πσ2exp

[− 1

2σ2(x− µ)2

](2.1)

Donde µ es la media y σ es la desviacion estandar que determina la amplitud de la

curva. Cuanto mayor sea el valor de σ, mas se dispersaran los datos en torno a la media

y la curva sera mas plana. Un valor pequeno de este parametro indica, por tanto, una

gran probabilidad de obtener datos cercanos al valor medio de la distribucion como se

muestra en la Figura 2.1. Como se muestra en la Figura 2.2 al aplicar ruido gaussiano

a mayor varianza, la imagen resultante se aleja mas de la imagen original.

8 CAPITULO 2. TRANSFORMACIONES A IMAGENES

Figura 2.2: Imagen contaminada con ruido gaussiano: (a) sin ruido, (b) resultado deaplicar ruido gaussiano con varianza de 0.1, (c) resultado de aplicar ruido gaussianocon varianza de 0.3.

Figura 2.3: Imagen contaminada con ruido sal y pimienta: (a) sin ruido, (b) resultadode aplicar 10% de ruido, (c) resultado de aplicar 40% de ruido.

Ruido sal y pimienta

En el ruido sal y pimienta existen solo dos posibles valores de pıxel que se conside-

ran como ruido. Usualmente estos valores son negro y blanco, aunque puede variar

involucrando pıxeles a color. La probabilidad de aparicion de cada valor es tıpicamente

menos que el 10% del total de pıxeles en la imagen, con valores mayores el ruido puede

dominar. Para una imagen de 256 niveles de gris el valor tıpico de pimienta es 0 (ne-

gro) y de sal 255 (blanco). En la Figura 2.3 se muestra el efecto de aplicar diferentes

porcentajes de ruido sal y pimienta a una imagen.

2.2. TRANSFORMACIONES AFINES 2D 9

2.2 Transformaciones Afines 2D

En geometrıa, una transformacion afın o aplicacion afın entre dos espacios vectoriales

(dos espacios afines) consiste en una transformacion lineal seguida de una traslacion.

Analogamente, en imagenes, una transformacion afın modifica las relaciones espaciales

entre pıxeles (que pertenecen al espacio euclidiano). En este trabajo se usan dos trans-

formaciones afines: escala y rotacion [Sze10].

Escala

En imagenes, la transformacion de escala reduce o amplıa las dimensiones de la

imagen. Para realizar dicha transformacion se utilizan coordenadas homogeneas. Las

coordenadas de cada pıxel son llevadas a una nueva posicion (ecuacion 2.2). Es re-

querido interpolar la nueva posicion (xf , yf ) a fin de que la transformacion sea correcta.

xf

yf

1

=

Ex 0 dx

0 Ey dy

0 0 1

xi

yi

1

(2.2)

Donde Ex, Ey son los factores de conversion para escalar la imagen y dx, dy son los

factores para desplazar la imagen en los ejes x,y. La imagen se reduce cuando 0 < Ex,

Ey < 1 y aumenta cuando Ex, Ey > 1.

El proceso de transformacion se fundamenta en : determinar las nuevas coordenadas

de cada pıxel(i, j) en la rejilla transformada, (i′, j′). Estas nuevas coordenadas (i′, j′)

generalmente, no seran valores enteros. Una vez obtenidos (i′, j′) hay que calcular

los valores de los (xf , yf ) en la rejilla destino. Este proceso es comun a todas las

transformaciones y se denomina interpolacion. Los tres algoritmos mas comunes de

interpolacion son:

• Vecino mas cercano: asigna el pıxel que le corresponda en la transformacion al

pıxel interpolado.


• Interpolacion bilineal: el valor del pıxel interpolado es el promedio ponderado de

los pıxeles en la vecindad 2 × 2.

• Interpolacion bicubica: el valor del pıxel interpolado es el promedio ponderado

de los pıxeles en la vecindad 4 × 4.

En esta tesis se utilizo la interpolacion bilineal [Sze10]. Dicha interpolacion esta definida

por:

P (xi, yi) =[

(1− a) a] f(bxic, byic) f(bxic, byic+ 1)

f(bxic+ 1, byic) f(bxic+ 1, byic+ 1)

(1− b)

b

(2.3)

donde a = xi − bxic, b = yi − byic. Cada una de las f(xi, yi) representan a los cuatro

pıxeles mas cercanos al punto xi, yi de la imagen a ser interpolada. Usamos la notacion

bxic, bxic+ 1 para representar las coordenadas en el eje x mas cercanas a la izquierda

y derecha, respectivamente del punto xi, yi a interpolar.

Rotacion

La rotacion es una transformacion afın que permite modificar las relaciones espa-

ciales entre los pıxeles. La funcion de transformacion se define por:

xf

yf

1

=

cos θ − sin θ 0

sin θ cos θ 0

0 0 1

xi

yi

1

(2.4)

En casos donde se requiera rotar con respecto a un centro (xc, yc), la funcion se

define por:

2.3. TRANSFORMACION DE INTENSIDAD 11

xf

yf

1

=

1 0 xc

0 1 yc

0 0 1

cos θ − sin θ 0

sin θ cos θ 0

0 0 1

1 0 −xc0 1 −yc0 0 1

xi

yi

1

(2.5)

La rotacion, al igual que la escala requiere de la interpolacion a fın de tener una

mejor asignacion del pıxel a su nueva coordenada. Dado que las transformaciones

afines son transformaciones lineales, se pueden combinar. En esta tesis se consideran

transformaciones por separado (rotacion o escala, pero no ambas).

2.3 Transformacion de Intensidad

El histograma es una funcion discreta que contabiliza el numero de ocurrencias de cada

nivel de gris presente en una imagen. Se representa en un diagrama donde en el eje

de abscisa esta el nivel de gris y en el de ordenadas la frecuencia de cada nivel de gris

en la imagen. Si al histograma se le divide por el numero de pıxeles de la imagen se

obtendra la funcion de probabilidad muestreal de cada nivel de gris en la imagen:

h(i) = numero de ocurrencia del nivel de i en la imagen

p(i) = h(i)M ·N

(2.6)

siendo M y N el numero de filas y columnas de la imagen, h(i) es la funcion histograma

y p(i) su probabilidad.

El histograma proporciona informacion estadıstica de la imagen. Esta informacion

es bastante util para conocer como se ha producido el proceso de formacion de la imagen.

Ası, se define el brillo de la imagen como el valor medio de la imagen que coincide con

el valor medio del histograma:


Brillo = µ =1

M ·N

M∑x=1

N∑y=1

f(x, y) =I−1∑i=0

i · p(i) (2.7)

donde f(x, y) retorna el nivel de gris del pıxel situado en las coordenadas (x, y), I es el

numero de grises que se ha empleado en el proceso de cuantificacion de la imagen. A

medida que la imagen aparece mas clara, el histograma se mueve hacia valores mas altos

de los niveles de grises. La variacion del brillo se efectua con la operacion aritmetica

de suma o resta a cada pıxel de una cantidad determinada.

La varianza del histograma tambien es asociada al contraste de la imagen:

Contraste = σ2 = 1M ·N

M∑x=1

N∑y=1

(f(x, y)− µ)2 =

1M ·N

I−1∑i=0

(i− µ)2 · h(i) =I−1∑i=0

(i− µ)2 · p(i)(2.8)

El contraste indica la dispersion de los niveles de grises en la imagen. Aunque

se pueden encontrar otras definiciones matematicas del contraste, todas son medidas

de dispersion. En todo caso, una imagen con poco contraste indica que hay poca

variabilidad de los niveles de grises en la imagen. Su efecto se muestra en un histograma

muy concentrado, con un rango dinamico pequeno. El rango dinamico es la variacion

de niveles de grises en la imagen.

Se dice que una imagen esta saturada cuando su histograma presenta valores muy

altos en sus extremos del rango dinamico; el histograma tiene una forma en “U”.

Las imagenes con bajo contraste o saturadas tienen perdidas de informacion en su

adquisicion. La solucion esta en una nueva formacion de la escena con valores diferen-

tes de los parametros de la captura. Las tecnicas de preprocesado digital no aumentan

el nivel de informacion, aunque acondicionan la imagen para las siguientes etapas de

interpretacion de las imagenes. Para aumentar el contraste se emplean las funciones de

transferencias del histograma.

La idea es realizar una trasformacion matematica que permita asociar un nivel de

2.4. TRANSFORMACIONES EN EL RECONOCIMIENTO 13

gris de salida a cada nivel de gris de entrada.

Sea u ∈ [0, I] que representa el valor de pıxel de entrada y v ∈ [0, I] que representa el

valor de pıxel de salida, donde I representa el valor maximo de nivel de gris. Definimos

la funcion de transformacion que permite hacer las modificaciones de contraste como

[Pun11] :

v =

vauau, 0 6 u < ua

vb−vaub−ua

(u− ua) + va, ua 6 u < ub

I−vbI−ub

(u− ub) + vb, ub 6 u < I

(2.9)

donde ua, ub son constantes asociadas a la entrada de nivel de gris y va, vb son constantes

que definen la salida deseada de nivel de gris para dichos valores de entrada.

Una visualizacion de esta funcion de transformacion se ilustra en la Figura 2.5.

Ejemplos de cambios de brillo y contraste se presentan en la Figura 2.4.

2.4 Transformaciones en el Reconocimiento

Con base en el trabajo de Ozuysal et al. 2010 [OCLP10] nos hemos inspirado para

incluir ciertas trasformaciones en esta tesis. El objetivo de hacer estas transformaciones

(vistas en secciones anteriores), consiste en ayudar a crear ejemplos sinteticos para el

Figura 2.4: Imagen con trasformaciones de intensidad. (a) Original, (b) incremento decontraste, (c) cambio de brillo +50.


Figura 2.5: Modificacion del contraste. La grafica permite mapear valores del pixel deentrada a otros valores de gris.

entrenamiento del modelo. A continuacion se describe de manera breve el trabajo de

Ozuysal para dar una idea de como aplican las trasformaciones a parches extraıdos de

imagenes de entrenamiento.

El trabajo de Ozuysal et al. 2010 presenta un metodo para el reconocimiento de

parches de imagenes1. Realizan su entrenamiento detectando puntos clave y seleccionan

un subconjunto de ellos, esto lo hacen aplicando una serie de transformaciones a parches

de las imagenes, y manteniendo la informacion del numero de veces que el mismo punto

de interes es detectado. El conjunto de entrenamiento es deformado para cada clase

generando 10,000 parches de ejemplo. Este trabajo al considerar variaciones y trans-

formaciones a las regiones de interes detectadas, consigue ganar cierta robustez. Sin

embargo, si deseamos realizar trabajos de reconocimiento de objetos, este trabajo debe

ser extendido y adaptado a un entorno o modelo que considere aspectos de validacion

y clasificacion.

Ya que nosotros nos enfocamos en utilizar informacion invariante proveniente de

caracterısticas globales y locales, las transformaciones se aplican a toda la imagen.

1Los parches son regiones de interes local sobresalientes de la imagen que contienen informacionlocal acerca de la imagen, lo cuales son detectados automaticamente por varios detectores [MS04] yrepresentados por descriptores [MS05].

2.5. RESUMEN 15

Esta informacion sirve de entrada a los clasificadores de nuestro modelo a fin de hacer

reconocimiento. En cambio el trabajo de Ozuysal unicamente buscan una descripcion

alternativa para los puntos de interes local, obteniendo resultados aceptables al com-

pararse con otros descriptores locales.

2.5 Resumen

En este capıtulo se abordo la teorıa basica para aplicar transformaciones a imagenes.

Las transformaciones seran utilizadas para anadir ruido y cambios de iluminacion,

tambien cambios de escala y rotacion con el fin de generar conjuntos de imagenes de

entrenamiento que ayuden a enfrentar la variabilidad intraclase. Hasta este momento

tenemos definido de manera conceptual las transformaciones, en el siguiente capıtulo

veremos como caracterizar las imagenes resultantes de estas transformaciones.

Capıtulo 3

Representacion de Objetos

En este capıtulo se describe la teorıa para representar a un objeto. En particular

presentamos espacios de color y descriptores de textura para representar caracterısticas

globales, en cuanto a las caracterısticas locales nos hemos enfocado en el descriptor

SIFT. Estas caracterısticas son utilizadas para representar las imagenes en el metodo

propuesto. Posteriormente se mencionan los trabajos mas distintivos en cuanto al uso

de la combinacion de diferentes representaciones para la categorizacion de objetos.

3.1 Introduccion

La representacion de un objeto se refiere a la manera de expresar el objeto en terminos

numericos procesables por una computadora. En 3.1 se expresa de manera generica la

representacion de un objeto:

θ = (x1,...,xn) (3.1)

donde las variables xi son caracterısticas que pueden de diversos tipos tales como me-

didas geometricas, estadısticas o caracterısticas de color del objeto. En el caso de que

los modelos sean modelos estadısticos, θ sera una variable o vector aleatorio, al cual

se le asocia una distribucion de probabilidad. Existen otras formas de describir la

16

3.2. ESPACIOS DE COLOR 17

representacion de un objeto como las representaciones estructurales que agregan rela-

ciones entre los elementos que componen la representacion teniendo como resultado una

estructura.

Los sistemas de vision basados en conocimiento utilizan reglas a partir de datos

para su representacion. Tienen una coleccion de regas o proposiciones que representan

conocimiento sobre los objetos y sus relaciones. El reconocimiento se realiza mediante

un proceso de inferencia. A partir de los datos de la imagen y el conocimiento del

dominio se infiere la identidad de los objetos en la imagen [SG11].

El proposito de la representacion es que la computadora sea capaz de obtener infor-

macion a partir de una imagen para analizar e interpretar sus caracterısticas.

3.2 Espacios de Color

Un espacio de color es un modelo matematico que representa la informacion de color

en terminos de valores de intensidad de manera multidimensional en donde cada di-

mension o componente es conocido como un canal de color. Existen distintos espacios

de color: los basicos (RGB, RGB normalizado, CIEXYZ ), los perceptuales (HSI, HSV,

HSL, TSL), los ortogonales (YCbCr, YIQ, YUV, YES ) y los perceptualmente unifor-

mes (CIE L*a*b*, CIE Luv) [KMB07]. A continuacion describiremos la teorıa de los

espacios de color utilizados en esta tesis.

Espacio de color RGB

El modelo RGB es el modelo basico que utiliza las componentes primarias rojo,

verde y azul, normalizadas. De esta forma los colores se representan en coordenadas

cartesianas dentro de un cubo unitario (Figura 3.1).

La escala de grises se representa por puntos presentes en la diagonal principal del

cubo unitario. En este modelo se basan las camaras y receptores de television.

18 CAPITULO 3. REPRESENTACION DE OBJETOS

Figura 3.1: Cubo unitario de color para el modelo RGB.

Espacio de color CIE L*a*b*

En 1976, la Commission Internationale de L’Eclairage (CIE) desarrollo el modelo

de espacio de color CIE L*a*b*. Este modelo fue disenado para ser un espacio de

color perceptualmente uniforme. El termino perceptual se refiere a la forma en que los

seres humanos perciben los colores, y uniforme implica que la diferencia de percepcion

entre dos coordenadas (dos colores) esta relacionada con una medida de distancia, que

comunmente es la distancia euclidiana. Por tanto, las diferencias de color se pueden

medir de una manera relacionada a la percepcion humana de colores [LVBV05]. Como

el conjunto de datos de las imagenes fueron adquiridas originalmente en el espacio de

color RGB, una conversion al espacio CIE L*a*b* es necesaria. Esta conversion se

realiza utilizando una transformacion lineal del espacio RGB a un sistema intermedio

conocido como el espacio CIE XYZ de la siguiente manera [Pas01]:


X

Y

Z

=

0.412453 0.357580 0.180423

0.212671 0.715160 0.072169

0.019334 0.119193 0.950227

R

G

B

(3.2)

Basado en la definicion del espacio CIE XYZ, el espacio de color CIE L*a*b* es

formulado como:

L∗ = 116 ∗ f(Y

Yw

)− 16

a∗ = 500 ∗(f

(X

Xw

)− f

(Y

Yw

))(3.3)

b∗ = 200 ∗(f

(Y

Yw

)− f

(Z

Zw

))

en donde:

f (t) = t13 , para t >

(24

116

)3

f (t) =

(841

108

)∗ t+

16

116, en caso contrario (3.4)

Xw,Yw,Zw son las componentes del blanco de referencia obtenido a partir de la ecuacion

3.2 con Rw = Gw = Bw = 255.

El espacio de color CIE L*a*b* incluye todos los colores visibles para el ojo hu-

mano, los cuales estan representados en un modelo tridimensional que contiene tres

ejes primarios: el eje de luminosidad L* y los ejes a* y b* que forman el color.

La Figura 3.2 muestra el modelo en 3D del espacio de color CIE L*a*b*. El eje de

luminosidad L* simboliza la reflexion del color con variacion de 0 a 100, en correspon-

dencia a la no reflexion (color negro) y alta reflexion (color blanco), respectivamente.


Figura 3.2: Espacio de color CIE L*a*b.

Los ejes a* y b* contienen 256 niveles de graduacion (de -128 a +127) para describir

distintos colores. El eje a* incluye las tonalidades del verde (-a) al rojo (+a) mientras

que el eje b* comprende la gama de colores que va del azul (-b) al amarillo (+b) [Kla05].

Espacio de color HSV

El modelo HSV (Hue, Saturation, Value) se obtiene deformando el cubo RGB de

forma que se convierte en una piramide hexagonal invertida. En el vertice se tiene el

negro, en las esquinas del hexagono los 3 colores primarios y secundarios y en su centro

el blanco. El modelo HSV se ilustra en forma geometrica en la Figura 3.3.

De esta forma el eje vertical representa la brillantez o valor (V ), el eje horizontal la

saturacion (S ) y el angulo de la proyeccion horizontal el matiz (H). La conversion de

RGB a HSV se logra mediante las siguientes ecuaciones:

V = M (3.5)


S =

0, M = m

M−mm

, en otro caso

(3.6)

H =

120(G−m)R+G−2m

, m = B

120(B−m)B+G−2m

, m = R

120(R−m)R+B−2m

, m = G

(3.7)

donde m = Min(R,G,B) y M = Max(R,G,B). La brillantez (V ) y saturacion (S ) estan

normalizadas (entre cero y uno) y el croma (H ) esta entre 0 y 360 grados.

Figura 3.3: Modelo de color HSV.

En esta seccion se presentaron los conceptos relacionados con los espacios de color

que se utilizaran en este trabajo de investigacion. En el siguiente apartado se presentan

los fundamentos teoricos del modelo de textura que se empleara conjuntamente con las

caracterısticas de color en el diseno de un algoritmo para el reconocimiento de objetos.


3.3 Tratamiento de Texturas

En analisis de imagenes, la textura es un atributo que representa el orden espacial de

los niveles de gris de los pıxeles en una region local. Las propiedades de textura cuan-

tifican las variaciones del nivel de intensidad dentro de un objeto. Normalmente estas

mediciones son independiente de la posicion, orientacion, tamano, forma, y el promedio

de brillo del objeto [WMC08]. En el presente trabajo de investigacion se incorporan

dos formas de representacion de textura: matriz de co-ocurrencia de niveles de gris y

filtro Gabor, las cuales se detallan a continuacion.

Matriz de co-ocurrencia de niveles de gris

La matriz de co-ocurrencia de niveles de gris (GLCM) proporciona un numero de

estadısticas de segundo orden del nivel de gris de un pıxel relacionado con su vecino.

El calculo de las estadısticas de la GLCM es un proceso de dos pasos. El primer paso

consiste en crear la matriz GLCM, para luego calcular las estadısticas de textura a

partir de esta.

La matriz GLCM denotada como Pd, es un histograma 2D que especifica que tan a

menudo ocurren dos niveles de gris en pares de pıxeles separados por cierta distancia.

En primer lugar, se establece un desplazamiento de distancia y direccion. Luego a cada

entrada (i, j), en Pd le corresponde un numero de ocurrencias en los niveles de gris i

y j, en pares de pıxeles que estan separados en la imagen por la distancia y direccion

elegida. Una vez que la matriz Pd esta formada, se calculan los valores estadısticos que

describen la textura. Seleccionar un desplazamiento de distancia y direccion diferentes

genera una nueva matriz GLMC.

Las caracterısticas que describen la textura de manera estadıstica a traves del uso

de la GLMC Pd son [WMC08, Par96, HS85]:

Entropıa: Mide la suavidad de la imagen en terminos de los valores de los niveles

3.3. TRATAMIENTO DE TEXTURAS 23

de gris. Entre mas alto sea el nivel de entropıa existen mas niveles de gris en la imagen.

La entropıa puede ser calculada como:

Entropıa = −∑i,j

Pd (i, j) log2 (Pd (i, j)) (3.8)

Energıa: Tambien conocida como segundo momento angular, es otra medida que

muestra como los valores del nivel de gris se distribuyen dentro de la imagen. La energıa

tiene una relacion inversa a la entropıa. La energıa de una imagen es la mas alta si

tiene solo un valor de nivel de gris; entre mas niveles de gris haya en un objeto, menor

sera la energıa. La energıa esta definida por:

Energıa =∑i,j

[Pd (i, j)]2 (3.9)

Correlacion: Mide la probabilidad conjunta de ocurrencia para pares de pıxeles

especificados. La correlacion esta dada por:

Correlacion =1

σiσj

∑i,j

(i− µi) (j − µj)Pd (i, j) (3.10)

Contraste: La medida de constraste de un objeto es la diferencia de brillo entre el

objeto y el fondo que lo rodea. El contraste mide las variaciones locales de los niveles

de gris en la matriz de co-ocurrencia y es formulado como:

Constraste =∑i,j

(i, j)2 Pd (i, j) (3.11)

Homogeneidad: Mide la cercanıa de la distribucion de los elementos en la matriz

de co-ocurrencia hacia la diagonal de la misma y es calculada como:

Homogeneidad =∑i,j

1

1 + (i, j)2Pd (i, j) (3.12)


Filtro Gabor

Los filtros de Gabor son un caso particular de los filtros de cuadratura o pares de

cuadratura, los cuales se detallan en [Jah91]. Los kernels de los filtros de Gabor se

ven como elementos base de Fourier que son multiplicados por gaussianas; con esto se

puede decir que los filtros de Gabor responden en puntos de la imagen donde hay com-

ponentes que localmente tienen una frecuencia espacial particular en cierta orientacion

[Jah91]. Estos filtros vienen en parejas, un elemento de la pareja recupera compo-

nentes simetricos en una direccion particular y la otra parte recupera los componentes

asimetricos. Los filtros de Gabor matematicamente se representan de la siguiente forma:

G(x, y) = e−( xσx

)2+(yσy

)2

2 eix (3.13)

Con la ecuacion 3.13 se puede construir un banco de filtros Bx,y,s,α que se puede ver

graficamente en la Figura 3.4 Cada elemento de dicho banco sera expresado y calculado

por:

Bx,y,s,α(x′, y′) =G( x

s, ys)

s2(3.14)

donde:

x = (x′ − x) cosα− (y′ − y) sinα (3.15)

y = (x′ − x) sinα + (y′ − y) cosα (3.16)

s sera la escala a aplicar, α la orientacion del filtro expresada en radianes, σ es un

valor de amplitud asociado a la escala s, (x′ − x, y′ − y) son valores dependientes del

tamano del filtro y eix representa la forma abreviada de a formula de Euler para numeros

complejos. En la implementacion de este algoritmo solo se utilizo la parte real.

3.4. DESCRIPTOR DE REGIONES 25

Figura 3.4: Ejemplos de una familia de filtros de Gabor.

3.4 Descriptor de Regiones

Las caracterısticas locales estan teniendo auge debido a los buenos resultados que han

tenido en tareas de reconocimiento de objetos especıficos. En esta seccion se detallara

el algoritmo mas conocido de la literatura y que sera utilizado dentro del metodo pro-

puesto para esta tesis.

Caracterısticas Locales

La idea es que las caracterısticas sean razonablemente invariantes a cambios de ilumi-

nacion, ruido, cambios en rotacion, escala y cambios menores a modificacion del punto

de vista del objeto (ubicacion distinta desde donde se observa al objeto). Dentro de

otros objetivos, tambien se busca usar las caracterısticas locales para hacer correspon-

dencia, ello puede resultar util en tareas de seguimiento y reconstruccion de escenarios

tridimensionales. Finalmente se busca que estas caracterısticas sean altamente distin-

tivas entre si (descripciones distintas para muchos puntos que entre sı tengan poco en

comun).

De esta manera el metodo de Scale Invariant Feature Tansform (SIFT) [Low04], pro-

pone un esquema que razonablemente abarca todos estos requerimientos. Este metodo


Figura 3.5: Ejemplo del uso de SIFT para localizar un objeto dentro de una escena. (a)muestra el objeto (derecha) y la escena (izquierda). De ambas imagenes son extraıdossus puntos claves y sus respectivos descriptores usando el algoritmo SIFT, estos puntosse muestran en (b). Luego, son halladas las semejanzas entre los descriptores paralocalizar los puntos correspondientes, los cuales se senalan en (c).

trata de detectar puntos claves (regiones de interes) que sean similares en cada una de

las imagenes y describir estos puntos a traves de un vector el cual es independiente del

tamano de la imagen y su orientacion. Por lo tanto, puntos claves correspondientes en

diferentes vistas de un mismo objeto deben tener similares vectores de descripcion. De

ser satisfactorio este proceso, usando un simple algoritmo para comparar dichos descrip-

tores extraıdos de cada imagen, se podrıan obtener los puntos claves correspondientes

en cada imagen. En la Figura 3.5 se muestra un ejemplo tıpico del uso de SIFT para

localizar una imagen de prueba dentro de una escena.

Este algoritmo se construye a partir de cuatro etapas:


1. Deteccion de puntos sobre el espacio de escalas.

2. Localizacion de los puntos caracterısticos.

3. Asignacion de una orientacion.

4. Generacion de la descripcion del punto caracterıstico.

Se describen a continuacion con mas detalles cada uno de estos cuatro pasos:

Deteccion sobre el espacio de escalas: Esta etapa tiene como objetivo detectar

potenciales puntos de interes que sean invariantes a rotacion y escala. Para llevarlo a

cabo utilizan una diferencia de gaussianas, dadas por el filtro gaussiano.

Las diferencias de gaussianas se calculan como:

D(x, y, σ) = L(x, y, k, σ)− L(x, y, σ) (3.17)

donde L se define por:

L(x, y, σ) = G(x, y, σ) ∗ I(x, y) (3.18)

donde ∗ es la convolucion sobre x, y entre el filtro y la imagen. El filtro gaussiano G se

define por:

G(x, y, σ) =1

2πσ2e−(x2+y2)

2σ2 (3.19)

La idea es tener familias de diferencias de gaussianas. El proceso debe repetirse a

lo largo de octavas, una octava hace un submuestreo de la imagen para obtener otra

imagen, pero de menor resolucion. El objetivo de esta etapa es obtener invariancia a

escala. Un diagrama de esto se ilustra en la Figura 3.6.

Posteriormente, cada pıxel en las imagenes DoG es evaluado con su vecindario

3 × 3 × 3 para ver si es un maximo o mınimo local entre sus 26 vecinos (los 8 pıxeles


Figura 3.6: Obtencion de restas de imagenes de gaussianas. Para cada octava, la imageninicial es repetidamente convolucionada con Gaussianas para producir el conjunto deimagenes como se muestra a la izquierda. Cada octava es una imagen submuestradade la anterior. Las imagenes adyacentes son restadas para producir las imagenes dediferencia de Gaussianas mostradas a la derecha. Luego, de cada octava, la imagenGaussiana es escalada a la mitad y el proceso es repetido.

circundantes y los 9 vecinos en las escalas adyacentes (ver Figura 3.7). En caso afirma-

tivo, ese pıxel se etiqueta para ser un candidato a punto caracterıstico.

Localizacion de puntos caracterısticos: De la etapa anterior, el pıxel puede

ser determinado en posicion. Inicialmente se coloca al centro del punto muestra, sin

embargo una mejor adaptacion a partir de funciones cuadraticas, propuesta por Brown

[BL02] permite mejorar la posicion y dar mayor estabilidad a la localizacion del punto.

Posteriormente se rechazan aquellos puntos con bajo contraste.

Asignacion de una orientacion: Ahora al pıxel se le determina una orientacion

dominante. Si las propiedades del punto caracterıstico se miden en funcion de esta

orientacion dominante, se puede obtener invariancia a rotacion. Para una imagen L,

se obtienen la magnitud del gradiente m y la orientacion θ a partir de caracterısticas a

nivel pıxel:


Figura 3.7: Un pıxel (senalado con X) es seleccionado como un punto de interes si esun maximo o un mınimo respecto a sus 26 vecinos (marcados con cırculos) en su escalay en las escalas adyacentes.

m(x, y) =√

(L(x+ 1, y)− L(x− 1, y))2 + (L(x, y + 1)− L(x, y − 1))2 (3.20)

θ(x, y) = arctanL(x, y + 1)− L(x, y − 1)

L(x+ 1, y)− L(x− 1, y)(3.21)

donde x, y son los puntos de la imagen.

Se crea un histograma de 36 bins cubriendo los 360 grados de las orientaciones

posibles y se anaden las muestras de acuerdo al peso de la magnitud de su gradiente.

Los picos en el histograma corresponden a la orientacion dominante. Se utiliza esta

orientacion dominante para a partir de ahı hacer una descripcion relativa del punto,

logrando la invariancia a la rotacion.

Describiendo el punto caracterıstico: Una vez definido el punto caracterıstico

este se describe a partir de un conjunto de histogramas de orientacion a partir de vecin-

darios de 4 × 4 pıxeles del punto caracterıstico. Como se menciono anteriormente, los

datos son relativos a la orientacion dominante del punto, de modo que se logra la invari-

ancia a orientacion. Cada uno de los pıxeles del vecindario contribuye a la formacion

del histograma mediante una esquema de pesado por la magnitud del gradiente m. Un


Figura 3.8: Gradientes de la imagen: Se muestra una region de 8×8 pıxeles alrededorde un punto caracterıstico ubicado en el centro. Descriptor: se muestra la concen-tracion de los histogramas en 4 regiones (2×2). En el trabajo de [Low04] se usaron 16concentraciones de histogramas (4×4) a partir de regiones de 16×16 pıxeles.

ejemplo de este vecindario se ilustra en la Figura 3.8. Dado que los histogramas utiliza-

dos son de 8 bins y se concentran los datos en 4×4 histogramas, da como resultado que

el punto se ha descrito en un vector de 8×4×4, es decir, 128 elementos. Finalmente,

para lograr invariancia a cambios de iluminacion este vector es normalizado.

Correspondencia entre puntos SIFT

La manera mas sencilla de establecer correspondencias entre puntos descritos medi-

ante SIFT, es utilizando algun algoritmo de distancia euclidiana entre las caracterısticas,

tal como vecinos mas cercanos. Otros enfoques tambien son aplicables. En esta tesis

se usa el enfoque de vecinos mas cercanos como medida de similitud y un umbral fijo

para podar los puntos que se hayan obtenido como semejantes.

3.5 Trabajos Relacionados con Representacion de

Objetos

Las caracterısticas globales describen a la imagen como un todo y las caracterısticas

locales representan a la imagen en regiones que suelen denominarse parches.

3.5. TRABAJOS RELACIONADOS CON REPRESENTACION DE OBJETOS 31

Las caracterısticas globales tienen la utilidad de generalizar el objeto con un sim-

ple vector. Por consiguiente, su uso en tecnicas de clasificacion es sencillo. En esta

caracterizacion, un poco de cambios de iluminacion, desorden en el fondo u oclusion

del objeto puede causar un decremento en el desempeno de la clasificacion. Sin em-

bargo, los clasificadores basados en estas caracterısticas usualmente pueden capturar el

contexto de una imagen, haciendo la localizacion del objeto una tarea facil.

Por otra parte, las caracterısticas locales, son calculadas por multiples puntos en la

imagen que distinguen unicamente al objeto, usualmente algunos tienen invariancia a

transformaciones afines y cambios de iluminacion, por lo tanto son robustos a oclusion

y desorden del entorno. Las caracteristicas locales y globales juegan diferentes roles en

la percepcion de objetos.

Investigaciones recientes han combinado estas dos caracterısticas, tal es el caso de

Lisin et al. 2005 [LMB+05] que presentan dos metodos. El primero usa stacking (tecnica

de ensamble de clasificadores) y el segundo usa un sistema de clasificacion jerarquica

para la categorizacion de objetos marinos. Utilizan una segmentacion para separar el

plancton del fondo de la imagen, despues de la segmentacion de cada imagen calculan

tres simples descriptores de forma: area, perımetro y compacidad (perımetro cuadrado

sobre el area). Tambien usan dos tipos de caracterısticas de textura: patrones locales

binarios (LBP) y forma de la curvatura de la intensidad de la superficie. Para las

caracterısticas locales hacen uso de SIFT [Low04]. Las caracterısticas locales de un par

de imagenes son comparadas para producir una lista de puntos correspondientes, para

medir esta correspondencia ellos emplean un clasificador de maxima verosimilitud. Con

respecto al primer metodo stacking tiene dos variaciones. En la Primera, la entrada

al meta-clasificador es una concatenacion de las etiquetas de las clases producidas por

cada uno de los clasificadores individuales. En la Segunda, cada clasificador individual

emite una distribucion a posteriori sobre las etiquetas de la clase. En la clasificacion

jerarquica se proponen 2 niveles, en el primero caracterısticas globales y posteriormente

locales para el segundo nivel. Si bien este trabajo aborda estrategias interesantes para la

tarea de reconocimiento, ası como la fusion de informacion global y local, el modelo esta


orientado a reconocimiento sobre imagenes especıficas, en este caso animales marinos

y nosotros queremos realizar pruebas sobre objetos especıficos y generales orientados a

ambientes domesticos.

Rui Pereira y Luis Seabra Lopes [PS09] exploran multiples representaciones y meca-

nismos de clasificacion para abordar dominios donde diferentes tipos de categorıas deben

ser procesadas. Una de las representaciones usadas en este trabajo es un histograma

polar de pıxeles de borde llamada contexto de forma global, los bordes de un objeto

son usualmente representativos de esta forma. Un esquema de referencias polares se

encuentra en el centro del objeto. Entonces, el espacio de alrededor, del centro hasta

el pıxel mas excentrico, esta dividido en rebanadas y capas. De la interseccion de

las rebanadas y capas resulta una matriz polar que es mapeada a un histograma 2D

contabilizando el numero de pıxeles de borde en cada celda (ver Figura 3.9).

Figura 3.9: Representaciones de forma usadas por Rui Pereira y Luis Seabra Lopes[PS09]: (a) contexto de forma global, (b) basada en tangentes.

Una segunda representacion es basada en tangentes de los bordes de los objetos. En-

tonces, para todos los pares de pıxeles de bordes, las distancias entre ellos y las angulos

entre las respectivas tangentes son calculados. Toda esta informacion es resumida en

un histograma bidimensional. El histograma cuenta el numero de pares de pıxeles de

borde en la correspondiente distancia y angulo. La tercera representacion esta dada en

3.5. TRABAJOS RELACIONADOS CON REPRESENTACION DE OBJETOS 33

terminos de caracterısticas SIFT. La clasificacion es compuesta por tres clasificadores

basicos y un meta clasificador. La primera crea un clasificador de vecinos mas cercanos

al igual que la segunda representacion. La tercera representacion es representada por la

concatenacion de la lista de puntos clave SIFT. El meta-clasificador recibe las repuestas

de los clasificadores basicos, de donde se selecciona la categorıa con mas votos.

El trabajo de [PS09] utiliza la base de datos LANGG [SC08] para objetos generales

pero las imagenes no tienen ruido en el fondo, no presentan oclusion o deformaciones, sin

embargo mencionan que tienen cambios de iluminacion. Para las categorıas especıficas

utilizan imagenes recolectadas manualmente y las proporcionadas por SRCV [SRV11].

A diferencia de ellos, nuestro objetivo es poder manipular la informacion existente en

Internet, es por ello que no recurrimos a bases de datos establecidas. Tambien estas

imagenes presentan varias dificultades (oclusion, cambios de iluminacion, ruido, etc.), y

deseamos manipularlas sin ningun preprocesamiento de mejora. En particular nosotros

no usamos la caracterıstica de forma para evitar el proceso de segmentacion.

Por otra parte Manshor et al. 2009 [MRR09] exploran los descriptores de Fourier

(caracterısticas globales de contorno) para representar la forma del objeto junto con

descriptores locales. El numero de descriptores seleccionados es 40. Este numero es

determinado empıricamente para los Descriptores Fourier (FD). El detector Harris es

aplicado para identificar puntos de interes. Entonces, los descriptores SIFT son ex-

traıdos para cada punto detectado obteniendo un vector de dimension 128. Para los

descriptores SIFT se calculan bolsas de puntos de interes obteniendo un vector de pa-

labras visuales de 250 elementos para cada clase de objetos. Esta bolsa de palabras se

obtiene mediante un algoritmo de clusterizacion. El total de caracterısticas combinadas

es de una dimension de 290 como se ve a continuacion.

F1 = [SIFT1, SIFT2, ..., SIFT250, FD1, ..., FD40] (3.22)

Estas caracterısticas se normalizan y se validan usando el algoritmo de clusterizacion

K-Means, para la clasificacion de objetos. Este trabajo se prueba con 4 clases: carro,


caballo, vaca y bicicleta. El aprendizaje dispone de 30 imagenes para cada clase y

nosotros proponemos un metodo donde se utilicen pocas imagenes de entrenamiento y

probarlo con mas clases.

3.6 Resumen

En este capıtulo se abordo de manera breve la teorıa basica para la representacion

de un objeto. En general los trabajos mencionados anteriormente usan un conjunto

predefinido de imagenes, ademas involucran diferentes tipos de representaciones de un

objeto en una union de peso fijo.

En nuestro caso partimos de imagenes obtenidas de Internet, incluyendo una re-

presentacion de caracterısticas globales que describen al objeto por su color y textura,

ademas de caracterısticas locales describiendo al objeto por sus puntos claves. Nosotros

proponemos un mecanismo de combinacion de caracterısticas mediante un ajuste de

acuerdo al tipo de objeto que se este tratando.

En el siguiente capıtulo se analizan algunos de los metodos para la categorizacion

de objetos.

Capıtulo 4

Categorizacion de Objetos

4.1 Introduccion

La tarea de categorizacion de objetos en el proceso de vision consiste en, a partir de

una imagen obtenida previamente, reconocer los distintos objetos que aparecen en la

escena capturada, clasificandolos en diferentes categorıas predefinidas (auto, persona,

etc).

Antes de poder iniciar el proceso de categorizacion es necesario preprocesar la ima-

gen, a manera de obtener una abstraccion de la misma que sea mas sencilla de procesar.

La idea detras de la categorizacion de objetos es capturar la consistencia de apariencia,

textura y forma de los diferentes objetos pertenecientes a la misma clase. A continuacion

trataremos de manera breve algunos de los metodos utilizados en la categorizacion de

objetos.

4.2 Metodos para la Categorizacion de Objetos

Existen diversos metodos para la categorizacion de objetos, cada uno tiene sus ventajas

y desventajas [Dic09]. Siendo estos:

• Metodos basados en forma.

35

36 CAPITULO 4. CATEGORIZACION DE OBJETOS

• Metodos estructuales.

• Metodos de caracterısticas globales.

• Metodos de caracterısticas locales.

A continuacion se hace una breve descripcion de cada uno de ellos:

Metodos Basados en Forma

Los metodos basados en forma fueron de las primeras estrategias desarrolladas para

hacer representaciones abstractas de los objetos que sirvieran para realizar tareas de

reconocimiento. Basicamente la idea es crear un modelo de tipo geometrico (construido

a partir de lıneas, cırculos, o incluso modelos volumetricos, como cilindros) de un objeto

en particular, digamos un avion (ver Figura 4.1). No obstante, para poder construir

estos modelos, el objeto tenıa que cumplir una serie de restricciones, como tener un eje

de simetrıa, a fin de poder construir el modelo geometrico [Bin71, AB76, Bro81, UN93,

PC88].

Figura 4.1: Construccion de un modelo volumetrico a partir de objetos. (a) Entrada dela imagen, (b) modelo 3-D compuesto de cilindros generalizados. una vez construido elmodelo, este se trata de reconocer en otras imagenes. imagen tomada de [Bro81].

Con el tiempo, pudieron considerarse elementos geometricos mas complejos, que

involucraban deformaciones o incluso formas 3D a partir de una nube de puntos en el

espacio (un ejemplo se ilustra en la Figura 4.2) [Bar81, SB90, FLW93, DMP97]. No

4.2. METODOS PARA LA CATEGORIZACION DE OBJETOS 37

Figura 4.2: Cuadrıculas de elipsoides. Estas formas volumetricas son construidas apartir de una nube de puntos 3D (puntos en color gris y blanco en la imagen). Elobjetivo es construir modelos 3D de objetos para su reconocimiento en entornos reales.La imagen fue tomada de [LJS97].

obstante, emparejar estos modelos con objetos del mundo real fue una tarea cada vez

mas complicada, debido a que difıcilmente el modelo construido se podıa mapear a

objetos reales. Esto motivo a abandonar estos modelos de reconocimiento a partir de

formas.

Posteriormente se intento manejar este problema mediante la abstraccion de las for-

mas, que dio lugar a la agrupacion de contornos, lıneas o cırculos [RM93, SP95, BL08].

Algunos de estos trabajos dieron lugar a los enfoques jerarquicos, que trataron de mo-

delarse de manera estructurada. Estos son los modelos que se trataran a continuacion.

Metodos Estructuales

Los modelos estructurales surgen cuando se desea modelar distintas configuraciones

con que puede aparecer un objeto determinado. Por ejemplo, el concepto silla, puede

aparecer con una pata o cuatro patas. La idea consiste en construir un modelo que

abstraiga la estructura de los objetos, a pesar de la variabilidad que pueden presentar.


Algunos trabajos utilizan gramaticas para modelar esto [ZM06, JG06, LSD05], aquı

la idea es modelar los elementos simples que componen al objeto, (usando formas como

cuadrados, cırculos o polıgonos) y tambien otras posibles configuraciones del objeto

(como el caso de la silla). Una de las ventajas de esto es que provee una abstraccion

estructural del objeto que lo descompone en elementos cada vez mas sencillos. Sin

embargo, un problema asociado es que un objeto puede tener muchas maneras de des-

componerse, habiendo dificultad en encontrar la estructura mas adecuada.

Metodos de Caracterısticas Globales

Muchos sistemas de reconocimiento de objetos usan caracterısticas globales para

describir una imagen completa [YSR05]. Una de las ventajas de estos modelos es

que permiten representar de manera compacta la informacion en un vector de carac-

terısticas. De esta manera se puede usar cualquier tipo de clasificador. No obstante,

estos modelos pueden verse afectados cuando las imagenes involucran cierto ruido u

oclusion. En general estos modelos usan descriptores que pueden verse afectados o no

por estas condiciones, tales como histogramas de color, area de regiones, informacion

de bordes, textura, etc. Normalmente si se desea agregar informacion de tipo espa-

cial, se considera algun tipo de segmentacion simple como segmentacion en recuadros.

Actualmente los modelos basados en caracterısticas globales estan siendo desplazados

por aquellos basados en caracterısticas locales, o una combinacion de estos.

Metodos de Caracterısticas Locales

Los modelos basados en caracterısticas locales parten de la idea de describir regiones

pequenas alrededor de un punto de interes. Los puntos de interes por lo regular son

esquinas, bordes, o zonas donde hay una variacion importante en la intensidad de

los pıxeles de la imagen. Existen diversos detectores de puntos de interes [MS04],

los cuales posteriormente son descritos por diversos algoritmos como SIFT [Low04] o

4.3. APRENDIZAJE DE MODELOS DESDE INTERNET 39

SURF [BETVG08]. Estos modelos han resultado adecuados para construir modelos

de objetos especıficos, aun en condiciones de oclusion. Asimismo, se evita en buena

medida el uso de estrategias de segmentacion. Sin embargo, es necesario considerar

otras estrategias en combinacion con estos modelos cuando se desea aprender categorıas

de objetos generales, como por ejemplo manzanas.

4.3 Aprendizaje de Modelos desde Internet

El primer paso para la identificacion y clasificacion de objetos es la adquisicion de

imagenes. Investigaciones en el area emplean conjuntos de datos que contienen imagenes

con dos principales caracterısticas, una es que los objetos de interes son separados de un

fondo y por otra parte que esten bien etiquetados. La tarea de etiquetamiento manual

consiste en que un humano por simple inspeccion identifica a que clase pertenece cada

imagen del conjunto de datos; sin embargo, esto suele ser subjetivo y muy costoso.

En este trabajo de investigacion planteamos aprender modelos de objetos visuales,

los cuales son construidos por medio de imagenes de la Web. Esto surge porque los

conjuntos de imagenes establecidos carecen de elementos para cualquier objeto, ademas

de no contar con las caracterısticas particulares que requerimos.

Pongamos el ejemplo de un robot de actividades domesticas al que le pedimos que

vaya por nuestras pastillas. El robot puede no tener informacion sobre este objeto,

entonces debe aprenderlo mediante imagenes. Siendo aquı donde la Web se convierte

en una fuente de apoyo, ya que es un recurso de imagenes donde podemos encontrar

una infinidad de categorıas de objetos. Adquirir ejemplos de entrenamiento a traves de

la Web puede ayudar a seleccionar imagenes mediante un mecanismo no supervisado,

aunque por otra parte conduce a recuperar imagenes no relevantes para nuestros ob-

jetivos. La figura 4.3 muestra el esquema general que sigue un motor de busqueda de

imagenes. Primero, el sistema recibe una consulta (descripcion textual). Segundo, el

motor busca dentro de la coleccion de imagenes las que, de acuerdo con alguna medida

de similitud definida por el propio motor de busqueda, resulten mas relevantes a la con-


Figura 4.3: Esquema general de un motor de busqueda de imagenes.

sulta dada. Por ultimo, el sistema muestra en orden de relevancia, la lista de imagenes

recuperadas.

Dentro de esta lınea, Vijayanarasimhan et al. 2008 [VG08] proponen un metodo para

un aprendizaje discriminativo de categorıas de imagenes asociadas con palabras claves.

Introducen un esquema no supervisado para el aprendizaje de categorıas visuales multi-

instancias basados en el trabajo de Bunescu y Mooney [BM07]. En este metodo [VG08]

parten de una lista que contiene el nombre de diferentes categorıas, donde reunen grupos

de imagenes que estan altamente asociadas a cada categorıa. El conjunto de imagenes

es obtenido por una consulta (nombre de la categorıa), la cual es traducida a diferentes

idiomas y luego se somete a multiples motores de busqueda. De lo anterior obtienen

multiples bolsas de ejemplos positivos. La bolsa de imagenes negativas es recolectada al

azar de un conjunto de datos ya etiquetados o desde Internet de solo aquellas categorıas

que tienen un nombre diferente a la categorıa de interes. En este trabajo se basan en

la idea de saber que al menos un miembro de cualquier bolsa de ejemplos positivos es

verdaderamente positivo, mientras que cada elemento de cualquier bolsa de ejemplos

negativos se garantiza que es negativo. Realizan varias iteraciones automaticamente

para darle un peso bajo a aquellos ejemplos de las bolsas positivas que no sean tan

relevantes. Un esquema general de este modelo se ilustra en la Figura 4.4. Si bien este

trabajo es novedoso desde el punto de vista de la recoleccion y manejo de datos de la


Figura 4.4: Resumen del metodo propuesto por [VG08]. (a) Dado el nombre de unacategorıa, el metodo colecciona automaticamente “bolsas positivas” de instancias rui-dosas a traves de varios motores de busqueda de imagenes en multiples lenguajes. Lasbolsas negativas son construidas desde imagenes etiquetadas o Internet. El metododiscrimina las instancias positivas de las negativas, incluso si la dispersion (ejemplospositivos y negativos dentro de las bolsas positivas) del entrenamiento es alta. (b) Apartir de una solucion inicial del algoritmo el clasificador realiza mejoras a traves de laactualizacion de las bolsas positivas de entrenamiento. Instancias fuertemente positivastienen mas impacto que aquellas que posiblemente sean falsos positivos (descritas aquıcomo imagenes mas pequenas).

Web, pudiera extenderse al empleo de diversos clasificadores para ayudar en la tarea

de reconocimiento.

En este otro trabajo [SCZ07] plantean contruir un modelo para recuperar imagenes

de la Web a partir de informacion diversa como texto, caracterısticas visuales y meta

datos (etiquetas html). Primeramente, las imagenes candidatas se obtienen a partir

de una busqueda Web, estas imagenes se reordenan a partir de caracterısticas basadas

en texto provenientes de los sitios donde se encontraron. La idea es eliminar imagenes

irrelevantes por medio del texto no asociado al concepto. Posteriormente se eliminan

algunas imagenes irrelevantes por sus caracterısticas visuales. Al final el modelo puede


probarse con diversos repositorios. Ellos reportan resultados sobre el conjunto de datos

de Google Downloads. Uno de los aspectos a mejorar en este trabajo es el manejo de

la polisemia, ya que mencionan que este problema afecta a sus resultados.

Fergus et al. 2005 [FFFPZ05] proponen un metodo que aprende categorıas de

objetos con solo el nombre, utilizando un conjunto de imagenes D recuperadas desde

motores de busqueda. Para la clasificacion utilizan un esquema de categorizacion de

textos. Cada imagen contiene puntos de interes cuya aparicion se ha cuantificado en

un vector W de palabras visuales [SZ03]. El corpus se representa por una matriz de

co-ocurrencia de tamano W ×D. Las preguntas concernientes a este trabajo se centran

en si es suficiente el uso de caracterısticas consideradas, o si es requerido emplear algun

sistema de clasificacion mas robusto.

En el trabajo de Fergus et al. 2004 [FPZ04] explican que el modelo de un objeto

consta de un numero de partes y una parte puede ser un parche de pixeles o un seg-

mento de curva. En cualquier caso, una parte esta representada por su descripcion

intrınseca (la apariencia o la geometrıa) y la probabilidad de oclusion. La forma ge-

neral del modelo se representa por la posicion mutua de las partes. La descripcion de

las partes, la escala, la forma y la oclusion estan modelados por funciones de densidad

de probabilidad gaussianas. El proceso de aprendizaje de una categorıa de objetos es

dado por caracterısticas, despues, el modelo da una descripcion de maxima verosimi-

litud de los datos de entrenamiento (ver fig. 4.5). Las caracterısticas usadas en este

trabajo son dos, la primera consiste en regiones de pixeles; la segunda en segmentos de

curva. El reconocimiento se realiza por una imagen de consulta, primero se detectan

las caracterısticas y luego se valoran de una manera bayesiana, usando los parametros

estimados por el modelo de aprendizaje.

La competencia de Semantic Robot Vision Challange Competition (SRVC) [SRV11]

es disenada para mejorar el estado del arte para el reconocimiento de objeto en imagenes

y la adquisicion automatica de conocimiento a partir de grandes bases de datos no

estructurados de imagenes, como las que generalmente se encuentran en la Web. Este

concurso busca fusionar la robotica con vision computacional. En esta competencia


Figura 4.5: Caracterısticas utilizadas en [FPZ04]. (a) Muestra la salida del detector deregion. (b) Un segmento de la curva larga se descompone en sus puntos bitangentes.(c) y (d) muestran la curva de segmentos. Las marcas verdes y rojas indican el inicioy el fin de la curva respectivamente.

a los robots se les proporciona una lista textual de los objetos fısicos que se esperan

encontrar en un entorno. Los nombres de la lista no son rigurosos para describir al

objeto por lo tanto se tiene un problema de ambiguedad. Una vez dada la lista a los

robots, estos se conectan a Internet para realizar una busqueda autonoma de ejemplos

visuales de cada uno de los elementos de la lista. Pasado un determinado tiempo, los

robots son colocados en el ambiente disenado para la competencia. Deben buscar de

forma autonoma y encontrar tantos objetos como sea posible. Cuando ha transcurrido

el tiempo que se especifico para la busqueda de objetos , los robots deben generar un

conjunto de imagenes de salida, en donde se etiqueta cada imagen con el nombre del

objeto. Para recibir un puntaje por cada imagen, el objeto real debe estar presente en

la imagen y un recuadro debe contener al objeto.

Varios desafıos surgen al querer aplicar un sistema de reconocimiento de objetos en

una plataforma fısica. Dentro de esta competencia destaca el trabajo de David Meger


et al. 2010 [MMH+10] que han aplicado un sistema de reconocimiento de objetos

dentro del mundo real, un robot capaz de extraer ejemplos de entrenamiento de la

Web, navegar y explorar su entorno. Los ejemplos que utilizan para el entrenamiento

son extraıdos por medio de consultas de la Web pero tambien de conjuntos de imagenes

etiquetadas. Para los objetos especıficos utilizan descriptores SIFT aplicados a las

imagenes [Low04]. Empatan las caracterısticas de una nueva imagen con su modelo.

En cuanto a los objetos generales describen a una imagen basandose en la deteccion de

bordes. Finalmente incluyen un clasificador basado en un modelo de piezas deformables.

Otro trabajo es el de Vijayanarasimhan et al. 2008 [VG08] el cual ya se ha mencionado

antes.

En esta tesis adoptamos la idea de aprender modelos de categorıas mediante imagenes

obtenidas de la Web. Buscando que las imagenes sean recolectadas sin supervision, evi-

tando ası el uso de conjuntos de datos etiquetados. Esto es con el fin de poder explotar

la informacion que existe en Internet y tener a nuestro alcance informacion de cualquier

tipo de categorıa sin tener que limitarnos solo a datos establecidos.

Nosotros usamos un enfoque diferente con respecto de los anteriores trabajos. A

diferencia de ellos usamos un ensamble de clasificadores, cada clasificador es alimen-

tado con distintos datos. Se busca que cada clasificador sea entrenado con diferente

informacion, para crear varios modelos del objeto, a fin de tratar la variabilidad de los

elementos de la clase.

El ensamble de clasificadores que proponemos esta compuesto por varios clasifi-

cadores bayesianos. A continuacion describimos los conceptos basicos pertinentes a

este tema.

4.4 Clasificador Naıve Bayes

Este algoritmo se basa en la hipotesis de que las variables que describen a las instancias

son estadısticamente independientes entre sı dada la clase C. A partir del conjunto

de entrenamiento se calcula la probabilidad a priori de que una instancia cualquiera

4.5. ENSAMBLE DE CLASIFICADORES 45

pertenezca a una clase, tambien se calcula la probabilidad condicional de que un atribu-

to Ai tome un valor si la instancia pertenece a una determinada clase. Luego con estos

datos se puede calcular, utilizando la formula de Bayes y asumiendo independencia

entre las variables, la probabilidad de que una instancia pertenezca a una clase si sus

atributos toman determinados valores. La clasificacion de la instancia dada sera la que

haga maxima esta probabilidad [DH73] como se puede ver en la ecuacion 4.1. Se ha

descrito este clasificador ya que es utilizado para construir el metodo propuesto.

Clasificador(A1 = a1, ..., An = an) = arg maxc

p(C = c)n∏i=1

p(Ai = ai|C = c) (4.1)

4.5 Ensamble de Clasificadores

Los ensambles de clasificadores, a diferencia de las tecnicas de clasificacion tradi-

cional, estan teniendo un amplio auge en el ambito cientıfico, debido a que tienden

a obtener mejores resultados al combinar los resultados de varios clasificadores. El uso

de los ensambles se ha incrementado debido a que son menos vulnerables a sobreajuste

(overfitting) y es posible obtener buenos resultados con pocos datos de entrenamiento.

Asimismo, un problema complejo puede ser descompuesto en multiples sub-problemas

que sean mas faciles de entender y resolver, incluso los errores no-correlacionados de los

clasificadores individuales pueden eliminarse por medio de la combinacion [KHDM98].

Los ensambles son conjuntos de clasificadores diferentes que realizan predicciones que

se fusionan y se obtiene como resultado la combinacion de cada una de ellas.

A continuacion se describe el esquema de clasificadores en una arquitectura paralela

empleando un voto mayoritario, utilizado en este trabajo de tesis.

Arquitectura

Disponiendo de un conjunto de L clasificadores, la arquitectura depende de la forma


en que se desea integrar al conjunto para generar una toma de decision, ya sea indepen-

diente unos de otros, por eliminacion de hipotesis (decisiones dependientes) o a traves

de la cooperacion de clasificadores (cada uno soluciona un problema) [LBK02, RF03].

De acuerdo a ello el ensamble de clasificadores pueden adoptar distintas arquitecturas:

secuencial, en serie o vertical, paralela u horizontal e hıbrida (mezcla de la arquitectura

secuencial con la paralela, con interaccion, etc.) [SM06]. En esta tesis utilizaremos el

enfoque horizontal.

Figura 4.6: Ejemplo de arquitectura horizontal o paralela.

Arquitectura horizontal o paralela: En la arquitectura paralela los clasifi-

cadores operan independientemente unos de otros, luego se fusionan sus respectivas

respuestas y se busca un consenso entre los clasificadores para llegar a una unica de-

cision, vease la Figura 4.6. Este esquema es muy facil de aplicar, no requiere de una

reparametrizacion de los otros clasificadores en caso de que existan modificaciones en

el conjunto.

Estrategia de combinacion

Existen diferentes estrategias para fusionar las salidas de los clasificadores, siendo

la mas sencilla el voto mayoritario simple, donde cada clasificador tiene un voto que

tiene igual valor. En esencia, la clasificacion mas popular es la que resulta elegida por

el conjunto como decision final.

4.5. ENSAMBLE DE CLASIFICADORES 47

Ensambles en la Categorizacion de Objetos

Con el paso de los anos, muchos trabajos han usado clasificadores individuales.

Recientemente varias maneras han sido sugeridas para combinar los resultados de difer-

entes clasificadores con el fin de aumentar el desempeno de los sistemas. En esta seccion

se analizaran un par de trabajos relacionados en el area de incorporar multiples clasi-

ficadores.

En el trabajo de Yi et al. 2009 [JIB09] proponen un metodo inspirados en un

proceso jerarquico Dirichlet (HDP) para generar mezclas de componentes intermedios

para el reconocimiento y categorizacion. Consideran que una categorıa incluye multiples

imagenes M y cada imagen la modelan como una combinacion con diferentes propor-

ciones (palabras visuales) W de mezcla usando K componentes. Cada componente

es una mezcla de palabras visuales con diferentes proporciones de mezclas (ver Figura

4.7). Los componentes y el numero de componentes son inferidos desde los ejemplos

de entrenamiento. Basados en un proceso jerarquico Dirichlet (HDP), el cual es un

algoritmo desarrollado para capturar incertidumbre con respecto al numero de com-

ponentes en el modelado, utiliza un muestreo de Gibbs directo en cadenas de Markov

Monte Carlo (MCMC). Este algoritmo permite hacer un muestreo posterior para apren-

der los parametros de mezcla del modelo. Utiliza el conjunto de datos Caltech con las

categorıas avion, cara, leopardo, motocicleta y los resultados que obtienen son 94%,

74%, 92% y 88%, respectivamente. Se entrenan con 50 imagenes positivas y 50 negati-

vas, notese que las imagenes que ellos utilizan son de un conjunto de datos establecido.

Prueban el modelo con 50 imagenes.

Otro enfoque es propuesto por Zhang et al. 2005 [ZYZS05] donde se combinan

tres metodos: textura local, forma, y caracterısticas de pares de relaciones espaciales

(PSR), dentro de un Adaboost multi capa. La funcion de la primer capa es seleccionar

el conjunto de caracterısticas locales y globales que mejor describen al objeto de la

clase. Seleccionan PCA-SIFT para representar caracterısticas locales y el contexto

de la forma para representar caracterısticas globales. La segunda capa se basa en


Figura 4.7: Mezcla de componentes de Yi ji [JIB09].

las distancias entre las caracterısticas locales mas discriminantes seleccionados por la

capa 1, para localizar las mejores caracterısticas de cada muestra . El resultado es

un sistema de reconocimiento en cascada como el que se ilustra en el diagrama de la

Figura 4.8. Este metodo utiliza los conjuntos de datos Caltech y [FFFPZ05] siendo las

clases motocicleta, carro, avion, gato y cara. Cada conjunto de datos es dividido en

2 conjuntos de igual tamano. El modelo es entrenado con el primero y probado con

el segundo. En resultados presentan un buen desempeno en verdaderos positivos pero

hay que resaltar que en promedio utilizan 300 imagenes de entrenamiento para cada

categorıa.

Los anteriores trabajos descritos tienen dos limitantes. La primera, construyen un

modelo del objeto, lo que restringe a solo reconocer ciertas caracterısticas de las difer-

entes instancias de una misma clase. La segunda, la combinacion de las caracterısticas

no se ajustan dependiendo del objeto que se esta tratando.

Como ya se habıa mencionado anteriormente, el metodo propuesto incluye un en-

samble de clasificadores. Se busca que cada clasificador sea entrenado con diferente

informacion, por lo tanto se crean varios modelos del objeto, cubriendo ası la variabi-

lidad de los elementos de la clase. Las categorıas son representadas con caracterısticas

globales y locales. Posteriormente los resultados de los clasificadores son combinados,

ajustando el peso de las caracerısticas globales y locales automaticamente, dependiendo

4.6. DISCUSION 49

Figura 4.8: Modelo multicapa de Zhang [ZYZS05]. La primera capa acepta un ejemplosi pasa el clasificador compuesto de caracterısticas locales y globales. La segunda capase acepta si el ejemplo pasa la clasificacion con PSR. Debe pasar el ejemplo ambasetapas para ser aceptado como positivo.

del objeto a clasificar.

4.6 Discusion

Dentro de los trabajos analizados, hemos resumido las principales caracterısticas en la

Tabla 4.1. En esta tabla se busca resaltar las diferencias de trabajos previos con este

trabajo de investigacion. Nosotros vemos como una ventaja el poder realizar entre-

namiento con imagenes de la Web, esto para evitarnos el etiquetamiento de imagenes o

de usar un conjunto de datos previamente etiquetados, ademas de poder tener en nue-

stro alcance informacion de cualquier tipo de categorıa; sin embargo, dentro de estas

imagenes se pueden presentar algunas inconsistencias con el objeto de interes deseado,

como se ha mencionado antes.

Para tratar algunas de estas inconsistencias (oclusion, cambios de iluminacion, dife-

rentes puntos de vista o con algun tipo de ruido) en el metodo propuesto se han incluido

dos representaciones, una global y otra local que describen a la categorıa. Estas dos

representaciones se han combinado para poder abarcar objetos tanto generales como

especıficos, la combinacion se realiza dependiendo del objeto tratado, en cambio otros


Tabla 4.1: Resumen de trabajos relacionados. Se presentan las caracterısticas mas re-levantes de los trabajos analizados, resumiendose en 5 columnas: si realizan aprendizajecon imagenes de la Web, si consideran caracterısticas globales y locales, si utilizan va-rios clasificadores, si incorporan la localizacion de los objetos dentro de una imagen deprueba y que esquema de supervision emplean.

Autor (es) Imagen

esW

eb

Cara

cter

ısti

-ca

slo

cale

sy

glo

bale

s

Vari

os

clasi

-fi

cad

ores

Loca

liza

cion

del

ob

jeto

Su

per

vis

ad

o

Vijayanarasimhan et al. 2008 si locales no no noFergus et al. 2005 si locales no no noFergus et al. 2004 si locales no no si/no

David Meger et al. 2010 si/etiquetados ambas no si noYi et al. 2009 no ambas jerarquico no si

Zhang et al. 2005 no ambas si no noMetodo propuesto si ambas si si no

trabajos le asignan un mismo peso a sus diferentes caracterısticas.

Los trabajos antes descritos se caracterizan por entrenar a sus clasificadores con

la misma informacion, en cambio nosotros empleamos informacion de entrenamiento

diferente para cada clasificador pudiendo de esta manera hacer frente a las variantes

de una misma clase. Cabe mencionar que solo el trabajo de David Meger et al. 2010

realiza localizacion del objeto dentro de la imagen de prueba, la ventaja de tener esta

tarea en nuestro modelo radica en poder realizar una localizacion del objeto tal como

la realizada en trabajos orientados a robots de servicio.

En cuanto al grado de supervision, casi todos los trabajos que utilizan imagenes

de la Web cuentan con un esquema no supervisado. El objetivo de esto es evitar la

intervencion del usuario en este tipo de modelos. En un experimento empleamos un

esquema con supervision limitada, solo con el fin de comparar los resultados contra el

esquema no supervisado.

4.7. RESUMEN 51

4.7 Resumen

En este capıtulo se presento la teorıa de algunos clasificadores y tambien se mencionaron

algunos trabajos previos en relacion a la categorizacion de objetos.

Muchos sistemas de categorizacion trabajan con conjuntos de imagenes predefinidos,

limitandose a realizar pruebas poco realistas. Otros mas utilizan imagenes de Internet

empleando algun tipo de algoritmo que les permite reducir las dispersion de la respuesta

de los buscadores de imagenes. No obstante, en general las imagenes recuperadas

presentan ciertos problemas de iluminacion, ruido, etc., ademas de que muchas de ellas

pueden no ser relevantes al objeto deseado.

Algunos de los metodos anteriormente analizados obtienen imagenes de Internet,

pero hasta ahora construyen un solo modelo visual de la categorıa, lo que representa

no tomar en cuenta las multiples presentaciones de un solo objeto o varios significados.

Por otra parte, se presentaron trabajos que al utilizar varios clasificadores, tienen fija

la contribucion de caracterısticas globales y locales, que puede perjudicar a un objeto

en general.

Debido a la alta variabilidad en las categorıas de objetos, se necesita construir un

esquema mas flexible. En el siguiente capıtulo se describe el algoritmo propuesto el cual

construye varios modelos que capturan las diferentes instancias de la clase, considerando

el uso de informacion tanto global como local.

Capıtulo 5

Metodo Propuesto

El problema que se quiere resolver es aprender conceptos visuales a partir de imagenes

de la Web. Estas imagenes presentan ciertas condiciones que dificultan su catego-

rizacion tales como cambios de iluminacion, oclusion, la imagen puede ser un dibujo o

una caricatura del concepto; por otra parte, tambien podemos encontrar imagenes que

ilustran una relacion con el objeto mas no al objeto. En este capıtulo se describe una

solucion a este problema, organizandose de la siguiente forma: primero se presenta el

esquema general del metodo propuesto, despues se describe la generacion automatica

de ejemplos para el entrenamiento, posteriormente se presenta el algoritmo encargado

de realizar una representacion del concepto y la estructura del clasificador propuesto,

y por ultimo se define el procedimiento para localizar al objeto dentro de una imagen.

5.1 Esquema Propuesto

Debido a la problematica presentada necesitamos un clasificador que sea robusto a las

diferentes instancias existentes en un mismo concepto. Para obtener este clasificador

usamos varias instancias representativas del concepto, incluimos para cada instancia

diferentes variantes, ademas mezclamos informacion global y local definiendo el peso

de cada caracterıstica con respecto al tipo de concepto tratado. Todo esto con el fin de

clasificar un concepto en un nueva imagen.

52

5.1. ESQUEMA PROPUESTO 53

Figura 5.1: Arquitectura general del metodo propuesto. A cada imagen modelo se aplicauna serie de transformaciones creando un conjunto de ejemplos de entrenamiento dondeestas se describen por medio de caracterısticas de color, textura y regiones locales quedespues alimentan a cada uno de los clasificadores. Para decir que un objeto se hareconocido se realiza un consenso entre todos los clasificadores.

El procedimiento general para resolver el problema (ver fig. 5.1) consiste en:

1. Extraer un conjunto C de imagenes de entrenamiento para el aprendizaje del

concepto desde la Web usando Google Images, lo cual nos libera de depender de

conjuntos de imagenes predefinidos.

2. Aplicar una serie de transformaciones a cada una de las imagenes extraıdas de la

Web, creando automaticamente conjuntos para el entrenamiento, con la finalidad

de manejar varias presentaciones de un objeto.

3. Extraer caracterısticas globales (color y textura) y locales (keypoints SIFT) del

conjunto de imagenes generadas por las transformaciones, para poder abarcar

diferentes tipos de objetos.

4. Inducir dos clasificadores basicos que usan diferentes representaciones (informacion

54 CAPITULO 5. METODO PROPUESTO

global y local, respectivamente). Se crean clasificadores globales (CG) y locales

(CL) con cada conjunto de entrenamiento de las imagenes modelo.

5. Integrar el clasificador global y local por medio de una combinacion lineal pesada

(CGL - clasificador de combinacion global y local).

6. Combinar el conjunto de clasificadores CGL a traves de un esquema de votado.

7. Determinar los parametros del modelo: umbral de cada clasificador, el pesado

para la combinacion de caracterısticas globales y locales, y el umbral para la

combinacion de los clasificadores, mediante validacion cruzada para cada objeto;

evitando ası ajustes manuales del modelo.

5.2 Generacion Automatica de Ejemplos

Muchas investigaciones han probado sus metodos sobre imagenes etiquetadas [CDF+04,

FPZ03, LHB04, LLS06], requiriendo de un gran numero de imagenes para el entre-

namiento. Dado que los buscadores con facilidad recuperan imagenes no relevantes y

considerando que las imagenes mas relevantes tienden a ser las primeras recuperadas,

en esta tesis se plantea un metodo que requiera de pocas imagenes, proponiendo que a

partir de un pequeno conjunto de imagenes extraıdas de la Web se generen imagenes

las cuales serviran para el entrenamiento del modelo propuesto.

El generar ejemplos de una manera automatica define la primer etapa del metodo

propuesto. En la Figura 5.1 se muestra esta primer etapa delimitada por un recuadro

llamado generacion automatica de ejemplos.

5.2.1 Transformaciones a Imagenes

La busqueda de una palabra clave (nombre del concepto) en Google Images regresa

una coleccion de imagenes, dentro de la cual se asume que los primeros N elementos

(imagenes modelo) describen al objeto. Una desventaja de obtener las imagenes modelo

5.2. GENERACION AUTOMATICA DE EJEMPLOS 55

de esta manera es permitir el paso de imagenes poco representativas al objeto, ya que

es posible encontrar dibujos del concepto, objetos ocluidos, con poca iluminacion o

bien instancias homonimas. Como ventaja tenemos la poca supervision que requiere el

metodo.

Inspirados por [OCLP10], se generan varias imagenes de cada imagen modelo me-

diante una serie de transformaciones (ver Figura 5.2). Lo anterior provee un conjunto

de entrenamiento generado automaticamente que sera utilizado para construir un clasi-

ficador por cada imagen modelo, de esta forma abarcamos la incertidumbre de una

imagen de prueba, al tener el objeto mas de una presentacion y mas de una inter-

pretacion (no se sabe si es ruidosa, con poca iluminacion, imagenes de un raton -animal

o articulo de computo-, etc.).

Las transformaciones aplicadas son:

• Ruido gaussiano y ruido sal y pimienta.

• Transformaciones afines: rotaciones y cambios en escala.

• Cambios en intensidad.

Se han utilizado 5 diferentes niveles para cada transformacion, siendo en total 5

transformaciones × 5 niveles = 25 imagenes generadas.

Figura 5.2: Generacion automatica de ejemplos de entrenamiento.


5.3 Representacion del Objeto

Dadas las diferentes caracterısticas de las categorıas de objetos, diferentes representa-

ciones pueden ser mas adecuadas para unas categorıas que para otras. Las categorıas de

objetos visuales son divididas en dos principales grupos [PS09]: si la categorıa muestra

una alta variacion entre sus miembros, entonces es general ; por otra parte, si la catego-

rıa muestra pequenas variaciones entre sus miembros y comparten un alto numero de

caracterısticas locales se dice que es especıfica.

Este trabajo explora dos representaciones para hacer frente a los diferentes tipos de

categorıas que pueden ser procesadas, una basada en caracterısticas globales y otra en

caracterısticas locales. Esta fase es ilustrada por el recuadro llamado representacion del

objeto en la Figura 5.1.

5.3.1 Extraccion de Caracterısticas Globales

Las caracterısticas globales son comunmente usadas para generalizar la idea de un ob-

jeto. Dentro de esta caracterizacion incluimos informacion de color y de textura. Para

evitar el uso de una segmentacion sobre el objeto, en este trabajo no se considero la

forma.

Representacion de Color. La imagen modelo definida por I y su conjunto de

deformaciones definido por D se describen mediante la concatenacion de tres diferentes

modelos de color: RGB, HSV y CIE L*a*b*. Se han utilizado estos espacios de color por

su amplia mencion en la literatura. Para cada canal de cada espacio de color, se cons-

truye un histograma normalizado de frecuencias dividido en un numero determinado

de segmentos (Nbins).

Dado h(k) como el numero de ocurrencia del nivel de gris k en un canal (por ejemplo

canal G en RGB) de la imagen, ya sea I o perteneciente a D, se obtiene su histograma

normalizado Hnorm(i) dado por:

5.3. REPRESENTACION DEL OBJETO 57

Hnorm(i) =h(i)

Nbins∑i=1

h(i)

(5.1)

h(i) =

256Nbins

i∑k= 256

Nbins(i−1)

h(k) (5.2)

Representacion de Textura. Una segunda representacion usada en este trabajo

es conformada por la matriz de coocurrencia de niveles de gris (GLCM) [WMC08, Par96,

HS85] y un banco de filtros Gabor [Jah91]. Las propiedades estadısticas de contraste,

correlacion, energıa y homogeneidad son dadas por la matriz GLCM tomando en cuenta

cuatro orientaciones. Las formulas de los descriptores estadısticos son explicadas en la

seccion 3.3. Empleamos las mismas 4 orientaciones que la matriz GLCM y 2 diferentes

amplitudes, para crear un banco compuesto por 8 filtros Gabor. Una imagen despues

de aplicarle cada filtro es descrita por su varianza y su media definidas como:

µ =

∑x

∑y

Img(x, y)

xy(5.3)

σ2 =

∑x

∑y

(Img(x, y)− µ)2

xy(5.4)

siendo x y y el numero de filas y columnas de Img, donde Img es una imagen que

pertenece a I o D.

Las caracterısticas de color proveen un total de 180 atributos (3 espacios de color ×

3 canales × 20 bins) para el aprendizaje. Las caracterısticas generadas por la matriz

GLCM estan compuestas por 16 atributos (4 propiedades estadısticas × 4 orientaciones)

y el filtro Gabor contiene 16 atributos (8 filtros × 2 variables estadısticas). Los an-

teriores atributos conforman un vector z de 212 elementos que sirven como datos de

entrada a un clasificador Bayesiano.


5.3.2 Extraccion de Caracterısticas Locales

Una imagen tiene puntos de interes local o keypoints que se definen como puntos coor-

denados asociados a pequenas regiones (parches) de una imagen que contienen mucha

informacion local. Mostrados estos parches en la Figura 5.3, los keypoints usualmente

estan alrededor de las esquinas y bordes de los objetos. En esta tesis se ha usado SIFT

para detectar y describir los keypoints de las imagenes. Las caracterısticas SIFT son

obtenidas de la imagen I y del conjunto de transformaciones D.

Figura 5.3: Deteccion de keypoints.

Las imagenes pueden ser representadas por conjuntos de descriptores de puntos

de interes, pero los conjuntos varıan en la cardinalidad y ordenamiento. Esto crea

dificultades para el aprendizaje que requiere vectores de caracterısticas de dimensiones

fijas como entrada. Ante este problema nosotros fijamos la cardinalidad tomando en

cuenta los puntos mas frecuentes.

Dentro del conjunto D existen 5 imagenes que sufrieron transformaciones de escala

y otras 5 las cuales presentan diferentes angulos de rotacion. Por lo anterior es necesario

transformar los keypoints detectados a sus coordenadas originales, para ello se les aplica

la inversa de escala y de rotacion (segun el caso), ver ecuacion 2.2 y 2.4, respectivamente.

Por cada punto SIFT contamos el numero de aparicion en I y D, se seleccionan

aquellos que son preservados en al menos v imagenes transformadas. Cada modelo del

objeto tendra diferentes cantidades de puntos invariantes que denominamos Pinvariantes,

y cada punto invariante es descrito por un vector de 128 elementos proporcionados por

SIFT.

5.4. CLASIFICADORES 59

Pinvariantes(i) = [SIFT1, SIFT2..., SIFT128] (5.5)

En la Figura 5.4 se muestra el proceso de seleccion de puntos.

Figura 5.4: Los keypoints son obtenidos de la imagen original y de las imagenes de-formadas bajo las diferentes transformaciones (escala, ruidos, intensidad, etc.). Lafrecuencia de cada punto es recolectada en una matriz de frecuencia y aquellos puntoscon alta frecuencia son seleccionados como Pinvariantes.

5.4 Clasificadores

La meta de la clasificacion es categorizar objetos dentro de un contexto. Este modulo

es compuesto por dos clasificadores basicos (uno local y otro global), cada uno basado

en las representaciones presentadas anteriormente. Estos clasificadores son integrados

mediante una combinacion de pesado lineal. La combinacion de caracterısticas provee

al modelo robustez ante los diferentes objetos (especıficos y generales), ya que medi-

ante esta union se le puede dar prioridad a unas o a otras caracterısticas presentes en

el objeto. En estos clasificadores basicos, la categorizacion se realiza calculando una

representacion del objeto de interes y comparandola con el modelo de los objetos. La


similaridad entre el objeto de interes y la categorıa es dada por la combinacion lineal de

las respuestas de los clasificadores base. Esta fase es ilustrada por el recuadro llamado

clasificadores en la Figura 5.1.

5.4.1 Clasificador Global

Este clasificador requiere de las caracterısticas globales para ser integradas mediante

un clasificador Naıve Bayes (NB):

PGlobal(Vi, Cj) = P (Cj)z∏

k=1

P (Fik = fik|Cj) (5.6)

donde Fik es la k-esima caracterıstica de la imagen Vi. PGlobal(Vi, Cj) recibe la proba-

bilidad posterior del concepto Cj en la imagen Vi dadas las z caracterısticas globales.

Hemos decidido incorporar el clasificador NB por su simplicidad, bajo costo computa-

cional y ha mostrado ser eficiente [Lew98, Sah96]. Ademas NB entrega un valor de

probabilidad para cada ejemplo de prueba, el cual resulta util para nuestros propositos.

5.4.2 Clasificador Local

En este caso, una categorıa es representada por la concatenacion de la lista de los

puntos SIFT del conjunto de imagenes de entrenamiento que definimos como puntos

de interes invariantes (ver ecuacion 5.5). Cuando comparamos dos objetos, las carac-

terısticas (keypoints) son relacionadas de acuerdo a un criterio de similardad, en este

caso determinada por el algoritmo de SIFT. En este trabajo, buscamos esa similaridad

entre los Pinvariantes (definidos en la seccion 5.3.2) y los puntos identificados en la ima-

gen de prueba. Con esta informacion, se calcula la probabilidad del concepto Cj en la

imagen Vi basada en la correspondencia de los keypoints entre el modelo y las imagenes

de prueba (#matches). Esta probabilidad PLocal(Vi, Cj) es estimada como:

5.4. CLASIFICADORES 61

PLocal(Vi, Cj) =

1− 1#matches+1

, #matches > 0

0.001, #matches = 0

(5.7)

A mayor numero de #matches encontrados, la probabilidad de PLocal tiende a uno.

Si el numero de #matches es cero, entonces se le da un valor bajo de probabilidad

(0.001), para evitar tener valores nulos.

5.4.3 Combinacion de Clasificadores

Como se muestra en la Figura 5.5, el metodo de multiples clasificadores consiste en un

ensamble de dos capas: el ensamble del resultado de todos los clasificadores (EC), y el

ensamble del clasificador global con el clasificador local (CGL). En la primer capa, la

probabilidad local y global son combinadas (CGL) mediante una suma pesada:

Pfusion(Vi, Cj) = λPGlobal(Vi, Cj) + (1− λ)PLocal(Vi, Cj) (5.8)

donde λ ∈ [0...1] es un parametro que determina diferentes pesados para las carac-

terısticas globales o locales. Esta combinacion de probabilidades es obtenida para

cada uno de las | C | imagenes modelo. Para una imagen de prueba Vi, se ob-

tiene Pfusion(Vi, Cj) j = 1.. | C |. Un clasificador j obtiene una decision positiva si

Pfusion(Vi, Cj) > η ∈ [0...1]:

Cdecision(Vi, Cj) =

1, Pfusion(Vi, Cj) > η

0, en otro caso

(5.9)

Este proceso es mostrado en la Figura 5.5.

En la segunda capa, el ensamble de los resultados de todos los clasificadores es

obtenido por la combinacion de N clasificadores CGL. Un objeto es reconocido si al

menos ϕ clasificadores dan una calificacion positiva:


Robjeto(Vi) =

1,

|C|∑j=1

Cdecision(Vi, Cj) > ϕ

0, en otro caso

(5.10)

Figura 5.5: Para cada imagen de prueba se estima su probabilidad local y global basadaen el clasificador correspondiente y son combinadas. Esto es repetido para cada una delas imagenes modelo, obteniendo |C| probabilidades.

Al combinarse diferentes clasificadores, se construyen diferentes modelos del con-

cepto, enfrentando las diferentes variantes (ej. manzana roja, amarilla, verde) que

pueda presentar el objeto.

5.5 Obtencion de los Parametros del Modelo

El modelo tiene tres principales parametros:

1. Pesado Global-Local (λ : 0..1) determina el pesado de las caracterısticas glo-

bales contra las caracterısticas locales para cada uno de los | C | clasificadores.

5.6. RECONOCIMIENTO DEL OBJETO EN UNA IMAGEN DE PRUEBA 63

2. Umbral de Clasificacion (η : 0..1) este parametro ajusta el umbral de probabi-

lidad de modo que cada clasificador da un resultado positivo si Pfusion(Vi, Cj) > η.

3. Umbral de Reconocimiento (ϕ : 1..|C|) umbral global para combinar los

C clasificadores, un objeto es reconocido si al menos ϕ clasificadores dan una

clasificacion positiva.

Los valores de estos parametros se obtienen automaticamente mediante una va-

lidacion cruzada aplicada a un conjunto de imagenes recuperadas de la Web. Los

tres parametros asumen valores discretos, λ y η presentan intervalos de 0.02 y 0.01

respectivamente, en un rango de 0 a 1. ϕ es un variable discreta con intervalo de

1, comprendida en el rango 1 a |C|. Se evaluan los resultados con todas las posibles

combinaciones de valores entre los tres parametros, al final se selecciona aquella tripleta

que maximice la exactitud de dicho conjunto. En caso de empate se selecciona la primer

tripleta.

5.6 Reconocimiento del Objeto en una Imagen de

Prueba

El reconocimiento de objetos se lleva a cabo realizando el proceso de evaluacion de la

decision de los multiples clasificadores. En este trabajo nos interesa conocer la posicion

del objeto dentro de una imagen. Para ello primero definimos la presencia o ausencia

del objeto por medio de un conjunto S de subimagenes de la imagen de entrada I. Cada

subimagen la denotamos como S(i), donde 1 6 i 6 |S|.

Cada subimagen se obtiene a partir de una ventana deslizante aplicada sobre la

imagen. La union de las subimagenes produce la imagen I, mientras que la interseccion

no es vacıa puesto que dichas subimagenes se traslapan. Cada una de estas subimagenes

es evaluada por el algoritmo como imagen de prueba, de modo que cada subimagen es

clasificada como positiva o negativa:


Clasif(S(i))S(i)∈S

=

M1 ∩ S(i) siRobjeto(S(i)) = 1

M0 ∩ S(i) siRobjeto(S(i)) = 0

(5.11)

donde M1 es la matriz de unos del tamano de I y M0 es la matriz de ceros del tamano

de I.

Para obtener la posicion del objeto se utiliza una matriz de frecuencia (Fventanas) del

tamano de la imagen I, que contabiliza la presencia o ausencia del objeto en la imagen

a nivel pıxel a partir de las subimagenes del conjunto S.

Fventanas =

|S|∑i=1

Clasif(S(i)) (5.12)

Finalmente, la region que contenga al objeto se define como aquellas coordenadas

de la imagen donde el valor de Fventanas es maximo:

PosicionObjeto = arg maxx,y

(Fventanas(x, y)) (5.13)

donde x, y son las coordenadas para cada pixel de la matriz de frecuencia.

Figura 5.6: La imagen muestra Fventanas. PosicionObjeto devolverıa una region muypequena (compuesta solo por nueves), la expansion permite considerar a los pıxelesvecinos con frecuencias cercanas a la mas alta. Dado que la region que determinala union de ventanas suele ser de menor tamano que la ventana, el resultado de laexpansion es un rectangulo de mayor tamano a fin de abarcar al objeto.

Una vez que se ha obtenido la posicion del objeto a partir de la frecuencia mas alta

5.7. RESUMEN 65

(ecuacion 5.13), es posible que esta frecuencia de lugar a regiones muy pequenas, por

tal motivo se expande esta region a un rectangulo que incluya las k frecuencias vecinas

mas altas, pudiendo de esta manera abarcar una mayor area en la imagen (Figura 5.6).

Se asume un solo objeto de cada tipo en la imagen.

5.7 Resumen

En este capıtulo se definio de manera general el metodo propuesto y se han descrito

cada uno de los parametros necesarios.

Primero se buscan imagenes del concepto deseado en Internet mediante un buscador

(Google Images) para evitar la necesidad de etiquetar manualmente. A estas imagenes

se les aplica una serie de transformaciones con la finalidad de aprender distintas repre-

sentaciones del objeto (diferente tamano o iluminacion). Estas imagenes son expresadas

en terminos de caracterısticas globales y locales, con esto se busca incrementar la ro-

bustez para detectar diferentes tipos de objetos (generales y especıficos).

Tambien se describio la estructura de cada uno de los clasificadores propuestos ası

como la estrategia de combinacion, para manejar las diferentes interpretaciones de un

objeto (por ejemplo, platano amarillo, verde, etc.).

Por ultimo se presento un esquema basado en ventanas para localizar los objetos en

imagenes de prueba, con la idea de integrarlo en el futuro a un robot movil.

En el capıtulo siguiente se muestran los experimentos realizados con el metodo

propuesto, ası como tambien las especificaciones con que se realizaron estas pruebas.

Capıtulo 6

Experimentos

En este capıtulo, se definen los experimentos realizados para evaluar el metodo descrito

en el capıtulo anterior y las medidas de evaluacion para valorar su desempeno. Pos-

teriormente, se describe cada uno de los experimentos; para ello se menciona en que

consiste el experimento, con que objetivo se hizo y cuales son los resultados obtenidos.

Finalmente se presenta una discusion sobre los resultados.

6.1 Configuracion de los Experimentos

Se llevaron a cabo tres experimentos. El primero fue utilizando el modelo propuesto con

imagenes crudas de Google Images con una seleccion automatica y semi-supervisada.

En el segundo, el modelo utiliza un esquema sin supervision sobre el conjunto de datos

Google Downloads [FFFPZ05] provenientes de Internet. En el ultimo experimento el

modelo incluye la localizacion de los objetos en escenas reales.

Los valores de las variables en las siguientes etapas se mantuvieron constantes en

los 3 experimentos.

Generacion Automatica de Ejemplos. Cinco transformaciones son aplicadas a

las imagenes modelo, donde cada una adopta la siguiente distribucion (ver fig. 6.2):

• Grados de varianza para el ruido gaussiano:, 0.01, 0.03, 0.5, 0.8 y 1.

66

6.1. CONFIGURACION DE LOS EXPERIMENTOS 67

• Porcentaje de ruido sal y pimienta: 10, 20, 30, 40, 50.

• Angulos de rotacion: 180◦, 135◦, 225◦, 45◦, 250◦.

• Las imagenes fueron escaladas a un 80%, 60%, 30% y 200%, tambien a la mitad

de alto y doble de largo.

• Intensidad: Los cambios de brillo aplicados fueron +70, +120, -80. Los cambios

de contraste se aplicaron modificando la curva tonal de la imagen modelo (ver

Figura 6.1).

Figura 6.1: Curvas tonales utilizadas en los experimentos para modificar el contrasteen las imagenes.

Figura 6.2: Un ejemplo del conjunto de transformaciones generadas de una imagenmodelo.

68 CAPITULO 6. EXPERIMENTOS

Caracterısticas Globales. En la representacion de color se usaron los 3 espacios

de color descritos en la seccion 5.3 con un valor de Nbins = 20, mientras que en la re-

presentacion de textura se han determinado cuatro orientaciones, tanto para la matriz

GLCM como el filtro Gabor con los siguientes valores: 0, π/4, π/2 y 3π/4. En cuanto

a la amplitud del filtro Gabor se usaron dos valores: λ = 5 y λ = 16.

Caracterısticas Locales. Se seleccionaron como keypoints candidatos para ser

puntos invariantes aquellos puntos que presentaron una frecuencia de aparicion v > 5

a lo largo de las imagenes transformadas.

6.2 Medidas de Evaluacion

En esta seccion se describen las tecnicas de evaluacion utilizadas para medir la precision,

recuerdo, exactitud y confiabilidad del modelo de clasificacion propuesto en esta tesis.

El modelo es evaluado mediante la comparacion de la clase real con la clase asignada.

Matriz de confusion binaria

La matriz de confusion binaria (Tabla 6.1) considera que los problemas de clasifi-

cacion utilizan unicamente dos clases, si objeto y no objeto. Por tanto, existen cuatro

distintas formas de predecir la clase perteneciente a una instancia determinada.

Tabla 6.1: Matriz de confusion binaria.

clase verdaderaV N

clase V VP FPasignada N FN VN

En la matriz de confusion binaria, los verdaderos positivos (VP) y los verdaderos

negativos (VN) son clasificaciones correctas. Mientras que los falsos positivos (FP) y

6.3. DESARROLLO DE LOS EXPERIMENTOS 69

los falsos negativos (FN) son clasificaciones erroneas. Un FP es cuando el clasificador

asigna una clase como positiva cuando en realidad no lo es, mientras que un FN es

cuando el clasificador predice la clase como negativa cuando en realidad es positiva.

Algunas metricas para evaluar los resultados de la clasificacion pueden ser calculadas

a partir de la matriz de confusion binaria [Ara06], tales como:

Precision =V P

V P + FP(6.1)

Recuerdo =V P

V P + FN(6.2)

Exactitud =V P + V N

V P + V N + FP + FN(6.3)

F −measure =2(V P · V N)

V P + FP(6.4)

6.3 Desarrollo de los Experimentos

En las siguientes secciones se describen los tres experimentos realizados y los resultados

de los mismos. Tambien se definen las bases de datos empleadas y el esquema de

comparacion aplicado en cada caso.

6.3.1 Clasificacion con Imagenes de Google Images

El primer experimento consiste en reconocer algunos objetos generales y especıficos

usando el algoritmo propuesto. Se han considerado 10 objetos de los utilizados en la

competencia de SRVC (ver Figura 6.3):

• 5 especıficos: colgate total, botella de pepsi, lata de coca cola, DVD Shrek y ritz

crackers.


• 5 genericos: manzana, platano, sarten, pelota blanca y lentes.

Figura 6.3: Imagenes de conceptos especıficos y generales, obtenidas de Internet.

El objetivo de este experimento es ver el desempeno del metodo cuando se utilizan

categorıas de objetos especıficos y generales (usadas en SRVC), empleando conjuntos

de entrenamiento con cero grado de supervision o un bajo grado de supervision (al

seleccionar las imagenes) y una combinacion de clasificadores globales y locales mediante

un peso variable.

Se han utilizado dos conjuntos de entrenamiento para esta prueba, los cuales se

detallan a continuacion.

Google Seleccion Automatica (GSA): Conjunto formado por 12 imagenes ex-

traıdas desde Google Images (a este conjunto de datos lo denominaremos GSA) medi-

ante una seleccion automatica, es decir, cuando se realiza la consulta del concepto en

el motor de busqueda, este arroja una coleccion de imagenes, de ellas se seleccionan

solo las primeras 12. Cabe mencionar que algunas imagenes son dibujos del objeto de

interes o fotografıas de cosas que tienen un vınculo con el objeto buscado pero no es lo

que deseamos (ver fig. 6.4).

Google Seleccion Semi-supervisada (GSS): Conjunto de 12 imagenes selec-

cionadas a traves de un usuario de los 50 primeros elementos regresados por la busqueda

en Google Images (ver fig. 6.5). Es un esquema de semi-supervision, ya que un usuario


Figura 6.4: Imagenes regresadas por el buscador Google Images usando el concepto“Platano”. Esto es un ejemplo representativo de nuestros datos de entrenamiento.Notar la presencia de imagenes con poca relevancia y las variaciones de pose.

elige las imagenes de las regresadas por Google Images y no se les aplica ninguna mejora.

Las imagenes son procesadas en su forma original, sin aplicar alguna herramienta

que mejore la deteccion del objeto y sin emplear algun tipo de informacion que indique

la relevancia de la imagen dada la categorıa.

Para construir el modelo primero se aplican las deformaciones, con ello creamos

ejemplos positivos de cada imagen modelo que seran utilizadas para el aprendizaje de

cada clasificador global y local. Los ejemplos negativos (GEN) son seleccionados a partir

de una busqueda en la Web de objetos que no tienen ninguna relacion con el concepto.

Estos ejemplos negativos son imagenes de entornos de interiores considerando que un

robot buscara los objetos en este tipo de escenarios. Algunos ejemplos de conceptos

negativos usados en estas pruebas son cocina, sala y dormitorio. En cada categorıa se


Figura 6.5: Conjunto de datos GSS. Datos para el entrenamiento seleccionadas por unusuario a partir de las primeras 50 imagenes regresadas por el buscador.

usan 12 ejemplos positivos para el entrenamiento (GSA o GSS) obtenidas desde Google

Images y 26 ejemplos negativos (GEN).

En vista de que se tienen que aprender automaticamente los parametros de pesado

Global-Local λ, umbral de clasificacion η y el umbral de reconocimiento ϕ, es vital

tener un conjunto de imagenes que serviran para la validacion cruzada (GV) donde se

fijan los valores a estos parametros. El conjunto de validacion se define por 6 ejemplos

positivos del objeto de interes (ninguna es igual al conjunto GSA o GSS), y otras 6

imagenes para ejemplos negativos (son diferentes a GEN y personifican a una escena de

interiores). Los elementos positivos de este conjunto son obtenidos mediante la Web por

una selccion automatica (las siguientes 6 imagenes de las primeras 12) y los negativos

son imagenes de interiores.

La prueba se realiza sobre 40 imagenes (20 positivas y 20 negativas seleccionadas

manualmente). En la Figura 6.6 se puede apreciar el esquema del experimento.


Figura 6.6: Esquema del experimento.

En este experimento los resultados son comparados contra tres clasificadores basicos.

El primer clasificador contiene solamente informacion global (G). Este clasificador se

construye a partir de caracterısticas globales tales como color y textura, donde a partir

de 12 imagenes positivas y a otras 12 negativas se entrena un clasificador Naıve Bayes.

El segundo es un clasificador con solamente informacion local (L). En este caso el

algoritmo mide la similitud promedio entre las correspondencias SIFT de cada par de

imagenes de entrenamiento (medida de similitud para un nuevo ejemplo). El tercero,

es una combinacion de informacion global y local (GL) con el mismo peso para ambas

caracterısticas, donde las probabilidades son dadas por los anteriores clasificadores.

Estos tres clasificadores (G, L y GL) se han entrenado y probado con las mismas

imagenes que el metodo propuesto 1 (ver fig. 6.7), realizando esto para cada categorıa.

Los resultados de los experimentos anteriores se resumen en la Tabla 6.2 y 6.3. En

esta prueba el enfoque propuesto supera a los clasificadores basicos en terminos de

precision y exactitud. Adicionalmente, se ha encontrado con estos experimentos que

la combinacion de caracterısticas globales y locales con un ajuste en el pesado y la

generacion de imagenes artificiales, proveen un beneficio significativo.

En cuanto a recuerdo, nuestro metodo presenta bajos resultados en comparacion con

los otros clasifiadores; sin embargo, notese que esto se debe a que algunos resultados

de otros clasificadores son cercanos a 100% pero tienen una precision de 50%, lo cual

1El entrenamiento de los clasificadores basicos G, L y GL no contemplan las imagenes transformadas.


Figura 6.7: Clasificadores base comparados con el metodo propuesto. (a) Proceso declasificacion global, (b) proceso de clasificacion local, (c) el clasificador GL combina lasprobabilidades dadas por G y L.

significa que clasifican a todas las imagenes de prueba como positivas.

El clasificador global (G) tiende a aceptar a cualquier objeto dentro de la categorıa,

debido a que las imagenes de entrenamiento son pocas. SIFT se ha disenado para

reconocer objetos especıficos en diferentes escenas, por lo tanto, los resultados de L en

las diferentes categorıas son mas bajos que el metodo propuesto, pero mas alto que el

clasificador global (G). Del clasificador GL se puede decir que no mejora los resultados

de G y L, aunque hay que recordar que la combinacion se realiza con el mismo peso

para ambas caracterısticas.

Los resultados del metodo propuesto para objetos especıficos son mas altos (89.5% en

exactitud) que para los objetos generales (78% en exactitud); la poca ambiguedad entre

las instancias favorece a los conceptos especıficos. Las categorıas generales puntualizan

una alta variabilidad intra-clase, llevando a obtener mejores resultados con datos semi-

supervisados (GSS - 86.5%) que con datos seleccionados automaticamente (GSA - 81%).

Es necesario recalcar que en este trabajo se planeo realizar una clasificacion a partir

de imagenes de la Web. Se podrıa decir que estos resultados (promedio de exactitud

global de 83.75%) son muy prometedores, ya que los datos son conjuntos crudos de la


Tabla 6.2: Resultados del experimento con seleccion automatica (conjunto de datosGSA). Clasificadores: usando solo informacion global (G), usando solo informacion local(L), combinando el enfoque global y el local con un mismo pesado (GL), y el metodopropuesto (MGL).

Categorıas Generales

Manzana Platano LentesG L GL MGL G L GL MGL G L GL MGL

Precision 57 60 52 64 70 57 57 69 59 51 58 89Recuerdo 100 90 55 55 70 20 75 80 95 90 100 80Exactitud 63 65 52 63 70 53 60 72 65 52 65 85

Sarten Pelota blanca PromedioG L GL MGL G L GL MGL G L GL MGL


Categorıas Especıficas

lata Coca Cola Colgate Total DVD ShrekG L GL MGL G L GL MGL G L GL MGL


Botella Pepsi Ritz crackers PromedioG L GL MGL G L GL MGL G L GL MGL


Web (con una posible seleccion de imagenes relevantes por parte del usuario) y puede

reconocer una instancia desconocida de un objeto en nuevas imagenes.

6.3.2 Clasificacion con Imagenes de Google Downloads

En este experimento se utilizan 7 categorıas establecidas en el conjunto de datos Google

Downloads y usadas por algunos trabajos previos, siendo las clases: avion, guitarra,

leopardo, motocicleta, reloj, carro y cara. El objetivo es poder realizar una clasificacion

con pocas imagenes de entrenamiento y compararse con otros metodos.

Los resultados se comparan contra los trabajos de Vijayanarasimhan et al. 2008

[VG08], Fergus et al. 2005 [FFFPZ05] y Schoroff et al. 2007 [SCZ07]. Se han elegido

estos trabajos como base de comparacion por dos razones. La primera es porque utilizan


Tabla 6.3: Resultados del experimento con seleccion semi-supervisada (conjunto dedatos GSS). Clasificadores: usando solo informacion global (G), usando solo informacionlocal (L), combinando el enfoque global y el local con un mismo pesado (GL), y elmetodo propuesto (MGL).

Categorıas Generales

Manzana Platano LentesG L GL MGL G L GL MGL G L GL MGL


Sarten Pelota blanca PromedioG L GL MGL G L GL MGL G L GL MGL


Categorıas Especıficas

lata Coca Cola Colgate Total DVD ShrekG L GL MGL G L GL MGL G L GL MGL


Botella Pepsi Ritz crackers PromedioG L GL MGL G L GL MGL G L GL MGL


una base de datos establecida como Google Downloads para el aprendizaje y otra de

prueba como Caltech2, esta ultima es muy utilizada en sistemas de vision. La segunda

es con respecto a la cantidad de ejemplos de entrenamiento. Dejamos de lado a los

otros trabajos presentados en el estado del arte por algunas cuestiones tales como no

utilizar imagenes de la Web, experimentos con otras categorıas de objetos y realizar

pruebas sobre vıdeo.

En [VG08] se definen varias bolsas cada una cuenta con 25 imagenes, que contienen

diversos ejemplos de entrenamiento positivos y el mismo numero de ejemplos negativos,

superando la cantidad que en este trabajo se ha especificado (12 positivas y 26 nega-

tivas). En [FFFPZ05] utilizan en promedio 580 imagenes de entrenamiento para cada

categorıa. Con respecto del trabajo de [SCZ07] ellos utilizan informacion visual y tex-

2http://www.vision.caltech.edu/


tual para reordenar las imagenes y ası obtener un buen numero de imagenes para su

entrenamiento (250 ejemplos positivos y 500 ejemplos negativos). Estos dos primeros

trabajos tienen la misma finalidad, disminuir la dispersion presente en la respuesta de

un motor de busqueda.

El metodo propuesto es entrenado con el conjunto de datos Google Downloads

[FFFPZ05] usado en [VG08]. Este conjunto contiene en promedio 600 ejemplos para

cada una de las 7 categorıas antes mencionadas. Las imagenes fueron recolectadas me-

diante una busqueda en Google Images a partir del nombre de la categorıa, el numero

de ejemplos relevantes para cada clase es disperso: un promedio de 30% contiene una

“buena” vista de la clase de interes, 20% son de calidad “aceptable” (los objetos pre-

sentan oclusion, ruido en la imagen, dibujos, etc.), y un 50% no tienen relacion con la

categorıa, siendo “basura” segun se juzga en [FFFPZ05]. En la Figura 6.8 se mues-

tran las 12 primeras imagenes de cada categorıa obtenidas de Google Downloads. Estas

imagenes conforman el conjunto de ejemplos positivos (GD), con lo que respecta a las

instancias negativas son las mismas 26 imagenes (GEN) del experimento anterior.

Se utilizan 12 imagenes para la validacion. Del conjunto de datos Google Downloads

se toman 6 elementos automaticamente (diferentes a las 12 imagenes de entrenamiento)

como ejemplos positivos y las 6 instancias negativas son las mismas del experimento

anterior (GV). El metodo es evaluado con 100 imagenes de prueba, tomadas de Caltech.

En el metodo de Vijayanarasimhan et al. 2008 [VG08], Fergus et al. 2005 [FFFPZ05]

se realiza un re-posicionamiento para eliminar aquellas imagenes no relevantes, mientras

que en el metodo de Schoroff et al. 2007 [SCZ07] utilizan informacion visual (carac-

terısticas propias de la imagen) y textual (informacion que aparece en la etiqueta de

cada imagen de la Web). Recalcamos lo anterior para senalar que aun sin un pre-

procesamiento o el uso de informacion textual el metodo propuesto es competitivo con

estos trabajos. En la Tabla 6.4 se muestran los resultados obtenidos en las 7 categorıas

por los 4 metodos.

En los resultados de la primera parte de la Tabla 6.4 (resultados de precision con

un recuerdo de 15%) se observa que el metodo propuesto MGL no supera en general a


Figura 6.8: Imagenes modelo (12 primeras) obtenidas de Google Downloads para cadacategorıa.


Tabla 6.4: Experimentos con los mismos objetos reportados en [VG08, FFFPZ05,SCZ07] a un recuerdo del 15% (primera parte), con un recuerdo variable (segundaparte) y F-measure (tercera parte). sMIL es el metodo reportado en [VG08], TSI es elmetodo reportado en [FFFPZ05] y Schoroff es el metodo reportado en [SCZ07].

Resultados de precision con un recuerdo de 15%

Avion Guitarra LeopardoMGL sMIL Schoroff TSI MGL sMIL Schoroff TSI MGL sMIL Schoroff TSI

Precision 67 100 48 55 51 52 72 48 60 65 70 56Motocicleta Reloj Carro

Precision MGL sMIL Schoroff TSI MGL sMIL Schoroff TSI MGL sMIL Schoroff TSI76 79 80 72 72 95 97 96 86 80 n.a. 75

Cara PromedioPrecision MGL sMIL Schoroff TSI MGL sMIL Schoroff TSI

63 58 n.a. 81 68 76 73 69

Resultados de precision con aprendizaje de parametros


Precision 65 100 48 55 52 52 72 48 74 65 70 56Recuerdo 30 15 15 15 51 15 15 15 38 15 15 15

Motocicleta Reloj CarroMGL sMIL Schoroff TSI MGL sMIL Schoroff TSI MGL sMIL Schoroff TSI

Precision 80 79 80 72 52 95 97 96 78 80 n.a. 75Recuerdo 66 15 15 15 70 15 15 15 39 15 n.a. 15

Cara PromedioMGL sMIL Schoroff TSI MGL sMIL Schoroff TSI

Precision 76 58 n.a. 81 69 76 73 69Recuerdo 39 15 n.a. 15 48 15 15 15

Resultados de F-measure


F-measure 41 26 23 24 51 23 25 23 50 24 25 24Motocicleta Reloj Carro

MGL sMIL Schoroff TSI MGL sMIL Schoroff TSI MGL sMIL Schoroff TSIF-measure 72 25 25 25 60 26 25 26 52 25 n.a. 25

Cara PromedioMGL sMIL Schoroff TSI MGL sMIL Schoroff TSI

F-measure 52 23 n.a. 25 54 25 25 24


Tabla 6.5: Ranqueo de los resultados de precision del metodo propuesto y trabajosexistentes. Los porcentajes de precision son obtenidos de los resultados del aprendizajede parametros (segunda parte de la Tabla 6.4), ordenandose del mayor resultado almenor. XXXXXXXXXXXXCategorıa

MetodoMGL sMIL Schoroff TSI

Avion 2 1 4 3Guitarra 2 2 1 3Leopardo 1 3 2 4

Motocicleta 1 2 1 3Reloj 4 3 1 2Carro 2 1 4 3Cara 2 3 4 1

Suma de ranqueo 14 15 17 19Promedio de ranqueo 2 2.14 2.41 2.71

los otros metodos; sin embargo se puede decir que es competitivo, ya que esta prueba

se realizo sin el aprendizaje de parametros de nuestro modelo. Esto fue ası dado que

los metodos [VG08], [FFFPZ05] y [SCZ07] fijan el recuerdo a un 15%, por lo tanto

MGL tambien fija el recuerdo a 15%, para hacer una justa comparacion. En la segunda

parte de la tabla se muestran los resultados en porcentajes de precision y recuerdo del

metodo. En esta ocasion los parametros son aprendidos automaticamente, los cuales

establecen una relacion entre precision y recuerdo que ayudan a maximizar la exactitud.

Con ello nuestro modelo mejoro el recuerdo manteniendo un compromiso ente este y la

precision. Si realizamos un ranqueo de estos resultados de precision, como se muestra

en la Tabla 6.5, podemos ver que MGL tiene el promedio mas bajo de los 4, ya que

en general el resultado de su precision se posiciona dentro de los resultados mas altos.

La tercer parte de la Tabla 6.4 correspondiente a F-measure es obtenida a partir de los

resultados de precision con aprendizaje de parametros. MGL supera claramente a los

otros metodos. En conclusion el aprendizaje de parametros ayuda a obtener mejores

resultados.


6.3.3 Reconocimiento de Objetos en Entornos Reales

Dentro de este tercer experimento buscamos la posicion de los objetos dentro de una

imagen de prueba, ası que se han seleccionado las mismas 9 categorıas que en el primer

experimento descrito en la seccion 6.3.1 (la categorıa lentes no se incluye, debido a

que no se tiene una secuencia de imagenes donde aparezca el objeto). Recordemos

que estas categorıas fueron empleadas en la competencia de SRVC. El objetivo de este

experimento es la busqueda de objetos en ambientes de interiores.

Incluimos como entrenamiento positivo los datos semi-supervisados GSS y los ejem-

plos negativos estan dados por GEN, para la validacion utilizamos el conjunto de datos

GV. El metodo propuesto es probado con una secuencia de imagenes capturadas por

un robot, disponibles en la pagina de la competencia SRVC [SRV11].

El esquema que sigue esta competencia para calificar a los equipos es que cuando

un objeto es identificado se pone un recuadro sobre el mismo. La calificacion adquirida

por el robot depende del adecuado posicionamiento de este recuadro, es decir, i) si el

recuadro abarca perfectamente el objeto, ii) si solo esta posicionado en la mitad, iii) si

abarca mas de los lımites del objeto, incluyendo a otros objetos de la escena, iv) si el

recuadro solo abarca un pequeno pedazo del objeto, v) si se pinta el recuadro donde

no esta presente el objeto. Estas son las reglas para dar puntos a los competidores;

sin embargo, en los trabajos publicados no se especifican los puntajes obtenidos, ni las

imagenes donde se identifico al objeto, es por ello que la comparacion se realiza a traves

de la cantidad de categorıas reconocidas.

Se utilizaron tres tamanos de ventanas. El primer tamano esta dado por el ancho/2,

alto/2 (ancho y alto de la imagen de prueba) con un desplazamiento de ancho/8, alto/8.

El segundo caso por ancho/3, alto/3 y un deslizamiento de ancho/9, alto/9. En el

tercero ancho/4, alto/4 con un desplazamiento de ancho/3, alto/3. En la imagen 6.9 se

muestra este proceso.

Despues de procesar todas las ventanas se identificaron aquellas que detectaron al

objeto dentro de la imagen y debido al traslape de las mismas existen algunas ventanas


Figura 6.9: Tamanos de ventanas. El recuadro rojo muestra el tamano de la ventana ylas lıneas negras el desplazamiento en ancho y alto.

clasificadas como positivas cuando solo presentan la mitad del objeto, mas posibles falsos

positivos. Por esta razon se construyo una matriz (seccion 5.6 del metodo propuesto)

que reduce la incidencia de falsos positivos y define la posicion objeto. Esta matriz

considera la union de ventanas mas alta, dejando de lado aquellas ventanas que dieron

un resultado positivo al concepto (posiblemente un falso positivo) y que se encuentran

dispersas por la imagen de prueba.

En la Figura 6.10 se muestran algunos ejemplos de este experimento y en la Tabla

6.6, se resumen los resultados. Solo reportamos los resultados con el tamano de ven-

tana uno, ya que al realizar las pruebas con los otros dos se incrementaba el costo

computacional.

En general los resultados de reconocimiento para las categorıas son aceptables, ya

que con el metodo propuesto se lograron identificar 8 categorıas de 9 (pelota blanca no se

logro detectar). En cambio en el trabajo [MMH+10] mencionan que solo identificaron

tres (“frying pan”, “bottle” y “orange”) de ocho categorıas. Aunque no todas las

categorıas son las mismas, queremos recalcar que se obtuvo una mejora en el numero

de categorıas reconocidas.

Tambien podemos decir, de acuerdo a los resultados obtenidos, que el recuadro que

senala al objeto no es preciso, en ocasiones tiende a ser mas grande que el objeto de

interes. Siendo esto causado al expandir la region de mayor probabilidad (descrita en la

seccion 5.6 del metodo propuesto), la region es expandida a un rectangulo que incluye


Figura 6.10: Ejemplos de los resultados del experimento para las categorıas (a) man-zana, (b) platano, (c) ritz crackers, (d) lata de coca cola, (e) sarten, (f) colgate total,(g) DVD Shrek, (h) botella de pepsi, (i) pelota blanca (no detectada). En algunos casosel recuadro suele ser mas grande que el objeto a detectar, por ejemplo (e) y (h).

Tabla 6.6: Desempeno del metodo en el reconocimiento de objetos en secuencias deimagenes.

Categorıa VP FP VN FN Exactitud

Colgate total 1 0 7 0 1Botella de pepsi 1 2 4 2 0.56

Lata de coca cola 2 2 6 0 0.8DVD Shrek 2 7 0 1 0.2

Ritz crackers 5 3 2 0 0.7Manzana 6 4 0 0 0.6Platano 2 8 0 0 0.2Sarten 2 5 0 0 0.5

Pelota blanca 0 2 3 1 0.29Promedio 0.54


Tabla 6.7: Costo computacional para las etapas de entrenamiento y prueba del metodopropuesto.

Etapa Tiempo

Entrenamiento 527sPrueba (imagen completa) 7.14s

Prueba (ventanas deslizantes) 204s

las k = 3 frecuencias vecinas mas altas.

Los resultados de la categorıa “pelota blanca” son nulos, y en las demas categorıas se

presentan algunos casos de falsos positivos, pero nos interesa demostrar que el metodo

propuesto sı puede localizar algunas instancias de los objetos.

Costo computacional

El costo computacional de nuestro modelo se ilustra en la Tabla 6.7, se realizo un

promedio sobre varias corridas de entrenamiento y prueba. El tiempo especificado en

la Tabla 6.7 de entrenamiento es por concepto. La primer prueba es realizada sobre

una imagen de la Web (ver Figura 6.8). En la segunda prueba se utilizaron algunas

imagenes tomadas por un robot, disponibles en la competencia de SRVC (ver Figura

6.10), el tiempo esta dado por el procesamiento de las 25 ventanas que se crean a partir

de una imagen. Notemos que:

• Ni la etapa de entrenamiento, ni la etapa de prueba han sido optimizadas. El

modelo se implemento en Matlab R2010a, el equipo usado fue un core i5-2430M

con 4 GB en RAM.

• El proceso fue secuencial. No se utilizo ninguna estrategia de paralelizacion aun

cuando el modelo es completamente paralelizable tanto en los clasificadores como

en las ventanas deslizantes.

6.4. DISCUSION 85

6.4 Discusion

Los resultados obtenidos por el metodo propuesto son prometedores. El metodo es

mejor en precision y exactitud que los clasificadores basicos G, L y GL. Con respecto a

otros trabajos que usan imagenes de Internet, nuestro metodo es superior en porcentajes

de F −measure utilizando menos imagenes de entrenamiento que ellos.

Esta competitividad es importante debido a que se tiene un menor numero de

ejemplos de entrenamiento haciendo que el modelo requiera un conjunto pequeno para

el aprendizaje. Suponemos que las primeras pocas imagenes regresadas en la primer

pagina de Google Images tienden a contener buenas imagenes que las regresadas de-

spues. La idea es que suponemos que las primeras imagenes son ejemplos positivos, ya

que si se incluyeran muchas mas imagenes es posible anadir ruido al concepto deseado.

Es por ello que ha resultado conveniente incluir varios clasificadores y transformaciones

a la imagenes positivas que permiten entrenar el modelo a partir de pocos ejemplos.

El hecho de combinar informacion global y local, ayudo a mejorar la deteccion, ya que

dependiendo del objeto (general o especıfico) las caracterısticas ajustan su relevancia.

Adicionalmente, las caracterısticas de color aportan mas informacion para categorıas

generales que para las especificas, por ejemplo es comun encontrar imagenes de platanos

de color amarillo o verde pero es inusual que se nos presente un platano azul. La ventaja

de tener varios clasificadores en el metodo nos permitio crear varios modelos visuales

de la categorıa, por tanto, logramos detectar variantes de la clase.

Por otra parte, al incorporar transformaciones a las imagenes del objeto, nos per-

mitio ampliar automaticamente el conjunto de entrenamiento que ayudo a lidiar con

las diferentes vistas que puede mostrar el objeto. Con estas trasformaciones, pudimos

identificar caracterısticas invariantes del objeto.

En cuanto a la localizacion del objeto dentro de una imagen, los resultados mostraron

que con este metodo es posible alcanzar en promedio el 54% de exactitud, sin embargo,

en algunos casos la senalizacion del objeto no es tan concreta, debiendose a que en

entornos reales aun se tienen falsos positivos.


6.5 Resumen

En este capıtulo se presentaron varios experimentos para medir el comportamiento del

algoritmo desarrollado. Estos experimentos fueron los siguientes:

• Usando imagenes de la Web: Un primer conjunto con seleccion automatica y

un segundo conjunto con seleccion semi-supervisada dada por un usuario. Se

presentaron los resultados y se compararon contra tres clasificadores basicos, con

el proposito de medir el desempeno al utilizar categorıas generales y especıficas,

y una combinacion de caracterısticas globales y locales. Los resultados muestran

una mejora sobre los clasificadores basicos.

• En el segundo experimento se realizo con una base de datos llamada Google Down-

loads. El objetivo fue compararse contra otros metodos, obteniendo resultados

sobresalientes en F-measure con respecto de los trabajos [VG08] y [SCZ07].

• El tercer experimento fue buscar objetos en ambientes de interiores, usando el

metodo propuesto y un esquema de ventanas. Se logro detectar la mayorıa de las

categorıas, pero en ocasiones la posicion de los objetos no estuvo bien delimitada.

En los experimentos se observaron resultados competitivos comparados con los

metodos [VG08] y [SCZ07], y mejores que los clasificadores basicos. Resulta impor-

tante destacar que la categorizacion de objetos se realizo con los retos que presentan

las imagenes obtenidas de la Web.

Capıtulo 7

Conclusiones y Trabajo Futuro

7.1 Resumen

Esta tesis plantea el problema de aprender conceptos visuales y localizar el objeto en

una imagen, teniendo como conocimiento previo unicamente el nombre del concepto,

bajo un esquema no supervisado. Los objetos dentro de las categorıas generales pueden

describirse mejor por color o textura (caracterısticas globales), este tipo de categorıas

presentan una alta variabilidad entre sus miembros; en cambio los objetos de las cate-

gorıas especıficas mantienen una similaridad entre ellos, por lo cual se pueden describir

por sus caracterısticas locales.

En este trabajo de tesis se presento un metodo que utiliza imagenes de la Web, usan-

do pocas imagenes de entrenamiento y un nivel bajo de supervision. Este metodo integra

informacion global y local proveniente de las imagenes de entrenamiento obtenidas

por un motor de busqueda, este pequeno conjunto de imagenes de entrenamiento es

expandido aplicando una serie de transformaciones. Se crea un clasificador por cada

imagen extraıda de la Web y se combina la respuesta de los clasificadores, todo esto con

el fin de poder crear varios modelos visuales de la misma categorıa para hacer frente a

la variabilidad intra-clase.

Se experimento con dos conjuntos de imagenes recopiladas desde la Web. Un primer

87

88 CAPITULO 7. CONCLUSIONES Y TRABAJO FUTURO

conjunto, el cual contiene categorıas generales y especıficas de objetos. Usando este

conjunto se observo que los resultados fueron favorables al compararse con algunos

clasificadores basicos, lo cual mostro que el combinar caracterısticas globales y locales,

ası como el aprendizaje de parametros segun el tipo de objeto, implica una mejorıa

significativa en la precision de la clasificacion. El segundo conjunto es empleado en el

trabajo de Vijayanarasimhan et al. 2008 [VG08]. Al compararse con otros trabajos

relacionados, nuestro modelo los supera en F-measure al optimizar los parametros de

nuestro modelo.

Mediante el metodo propuesto se logran construir conceptos visuales sin supervision

usando informacion de la Web. Ademas, puede usarse como base para que un robot de

servicio busque objetos en ambientes tipo oficina o domesticos.

7.2 Conclusiones

Se pudo observar que el metodo de aprendizaje de conceptos visuales basado en multiples

clasificadores tiene resultados satisfactorios en categorıas generales y especıficas sobre

entornos reales. Por otra parte, se logro construir modelos de objetos usando solo el

nombre del concepto. Se mostro que a partir de pocas imagenes obtenidas de la Web

es posible realizar una clasificacion con resultados competitivos.

En todos los experimentos el pesado de las caracterısticas se ajustan respecto al

objeto. Cuando es un objeto especıfico, las caracterısticas locales tienen un peso mayor,

y cuando es un objeto general las caracterısticas globales incrementan su peso. Lo

anterior se verifico en el experimento de clasificacion con imagenes de Google Images.

El segundo experimento de clasificacion con imagenes de Google Downloads, muestra

que el algoritmo propuesto compite con trabajos del estado del arte sin un aprendizaje

de parametros, y con este muestra mejores resultados bajo F −measure.

El experimento de localizacion del objeto dentro de una imagen mostro que consi-

derar la union de ventanas, en vez de utilizarlas por separado reduce falsos positivos.

7.3. CONTRIBUCIONES 89

7.3 Contribuciones

La contribucion principal de esta tesis es un algoritmo para el aprendizaje de conceptos

visuales basado en multiples clasificadores. De ella se desprenden dos contribuciones

mas:

• Una representacion del objeto mediante caracterısticas globales y locales, cada

una con diferente pesado, dependiendo del objeto (general o especıfico).

• Un modelo de aprendizaje basado en multiples clasificadores, los cuales son en-

trenados con ejemplos generados automaticamente, obtenidos a traves de aplicar

una serie de transformaciones a imagenes obtenidas de la Web. El usar varios

clasificadores ayuda a enfrentar el problema de la variabilidad intra-clase.

7.4 Trabajo Futuro

A continuacion se proponen algunas ideas para extender el presente trabajo:

• En la parte de recoleccion de imagenes se sugiere considerar algun metodo que

descarte la ambiguedad del nombre del objeto.

• En la representacion del objeto, se podrıan integrar caracterısticas a partir de

informacion de contorno que pueda caracterizar mejor el contenido visual de las

imagenes.

• Tambien, resulta de interes la idea de cambiar el clasificador global, en esta tesis

se ha utilizado NB. Serıa interesante probar con otro tipo de clasificadores o una

mezcla de ellos.

• Aunque los resultados obtenidos de localizacion del objeto fueron prometedores,

es posible explorar otras ideas donde el tiempo de procesamiento sea menor, tal

como la paralelizacion de los N clasificadores. Se logro detectar el objeto dentro

90 CAPITULO 7. CONCLUSIONES Y TRABAJO FUTURO

de un recuadro donde a veces este es grande para efectos de tomar el objeto, por

lo que sugerimos anadir algun metodo que delimite mejor el area del objeto.

• El metodo propuesto puede modificarse para desarrollar tareas afines a la vision

de un robot de servicio, por ejemplo, la identificacion de objetos dentro de escenas

de interiores. Dada una lista de conceptos (nombre del objeto), el robot pueda

aprender un nuevo concepto a partir de informacion de la Web , ademas de navegar

para logar identificar y tomar el objeto dentro de ese ambiente.

7.5 Publicaciones

Parte de los resultados de esta tesis fueron reportados en el trabajo: Dulce J. Navarrete,

Eduardo F. Morales and L. Enrique Sucar. Unsupervised Learning of Visual Object

Recognition Models. In Proceedings of the 13th Ibero-American Conference on AI,

IBERAMIA 2012, Lecture Notes in Computer Science - LNAI, Springer. [Aceptado]

Referencias

[AB76] G. J. Agin and T. O. Binford. Computer description of curved objects.IEEE Trans. Comput., 25(4):439–449, April 1976. [Citada en p. 36]

[Ara06] B.S. Araujo. Aprendizaje automatico: Conceptos basicos y avanzados:aspectos practicos utilizando el software Weka. Pearson Prentice Hall,2006. [Citada en p. 69]

[Bar81] A. Barr. Superquadrics and angle-preserving transformations. IEEE Com-puter Graphics and Applications, 1(1):11–23, 1981. [Citada en p. 36]

[BETVG08] H. Bay, A. Ess, T. Tuytelaars, and L. Van Gool. Speeded-up robustfeatures (surf). Comput. Vis. Image Underst., 110(3):346–359, June 2008.[Citada en p. 39]

[Bin71] T. Binford. Visual perception by computer. In Proceedings of the IEEEConference on Systems and Control (Miami, FL), 1971. [Citada en p. 36]

[BL02] M. Brown and D. Lowe. Invariant features from interest point groups. InIn British Machine Vision Conference, pages 656–665, 2002. [Citada en p. 28]

[BL08] X. Bai and L. J. Latecki. Path Similarity Skeleton Graph Matching. IEEETransactions on Pattern Analysis and Machine Intelligence, 30(7):1282–1292, July 2008. [Citada en p. 37]

[BM07] R. Bunescu and R. Mooney. Multiple instance learning for sparse posi-tive bags. In Proceedings of the 24th international conference on Machinelearning, ICML ’07, pages 105–112, New York, NY, USA, 2007. ACM.[Citada en p. 40]

[Bro81] R. Brooks. Model-based three dimensional interpretations of two dimen-sional images. In Proceedings of the 7th international joint conference onArtificial intelligence - Volume 2, IJCAI’81, pages 619–624, San Francisco,CA, USA, 1981. Morgan Kaufmann Publishers Inc. [Citada en p. 36]

[CDF+04] G. Csurka, C. Dance, L. Fan, J. Willamowski, and C. Bray. Visual cate-gorization with bags of keypoints. In In Workshop on Statistical Learningin Computer Vision, ECCV, pages 1–22, 2004. [Citada en p. 3, 54]

91

92 REFERENCIAS

[DH73] R. O. Duda and P. E. Hart. Pattern Classification and Scene Analysis.John Willey & Sons, New Yotk, 1973. [Citada en p. 45]

[Dic09] S. Dickinson. The Evolution of Object Categorization and the Challenge ofImage Abstraction. In S. Dickinson, A. Leonardis, B. Schiele, and M. Tarr,editors, Object Categorization: Computer and Human Vision Perspectives,pages 1–37. Cambridge University Press, 2009. [Citada en p. 35]

[DMP97] S. Dickinson, D. Metaxas, and A. Pentland. The role of model-based segmentation in the recovery of volumetric parts from range data.IEEE Trans. Pattern Anal. Mach. Intell., 19(3):259–267, March 1997.[Citada en p. 36]

[FfFP06] L. Fei-fei, R. Fergus, and P. Perona. One-shot learning of object cate-gories. IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MA-CHINE INTELLIGENCE, 28:2006, 2006. [Citada en p. 1]

[FFFPZ05] R. Fergus, L. Fei-Fei, P. Perona, and A. Zisserman. Learning object cat-egories from google”s image search. In Proceedings of the Tenth IEEEInternational Conference on Computer Vision - Volume 2, ICCV ’05,pages 1816–1823, Washington, DC, USA, 2005. IEEE Computer Society.[Citada en p. xi, 42, 48, 66, 75, 76, 77, 79, 80]

[FLW93] F. P. Ferrie, J. Lagarde, and P. Whaite. Darboux frames, snakes, andsuper-quadrics: Geometry from the bottom up. IEEE Trans. PatternAnal. Mach. Intell., 15(8):771–784, August 1993. [Citada en p. 36]

[FPZ03] R. Fergus, P. Perona, and A. Zisserman. Object class recognition by unsu-pervised scale-invariant learning. In Proceedings of the IEEE Conferenceon Computer Vision and Pattern Recognition, volume 2, pages 264–271,Madison, Wisconsin, June 2003. [Citada en p. 3, 54]

[FPZ04] R. Fergus, P. Perona, and A. Zisserman. A visual category filter for googleimages. In Proceedings of the 8th European Conference on Computer Vi-sion, Prague, Czech Republic, pages 242–256, May 2004. [Citada en p. ix, 42,

43]

[GW01] R. Gonzalez and R. Woods. Digital Image Processing. Addison-WesleyLongman Publishing Co., Inc., Boston, MA, USA, 2nd edition, 2001.[Citada en p. 6]

[HS85] R. Haralick and L. Shapiro. Image segmentation techniques. ComputerVision Graphics and Image Processing, 29(1):100–132, 1985. [Citada en p. 22,

57]

[Jah91] B. Jahne. Digital Image Processing: Concepts, Algorithms, and ScientificApplications. Number 216487. Springer-Verlag, 1991. [Citada en p. 24, 57]

REFERENCIAS 93

[JG06] Y. Jin and S. Geman. Context and hierarchy in a probabilistic imagemodel. In Proceedings of the 2006 IEEE Computer Society Conferenceon Computer Vision and Pattern Recognition - Volume 2, CVPR ’06,pages 2145–2152, Washington, DC, USA, 2006. IEEE Computer Society.[Citada en p. 38]

[JIB09] Y. Ji, K. Idrissi, and A. Baskurt. Object categorization using boostingwithin hierarchical bayesian model. In Proceedings of the 16th IEEE in-ternational conference on Image processing, ICIP’09, pages 317–320, Pis-cataway, NJ, USA, 2009. IEEE Press. [Citada en p. ix, 47, 48]

[KHDM98] J. Kittler, M. Hatef, R. Duin, and J. Matas. On combining classifiers.IEEE Transactions on Pattern Analysis and Machine Intelligence, 20:226–239, 1998. [Citada en p. 45]

[Kla05] D. Klaveness. Photography in limnology: documentation of lake colorusing a ccd camera. Limnology, 6:131–136, 2005. 10.1007/s10201-005-0147-8. [Citada en p. 20]

[KMB07] P. Kakumanu, S. Makrogiannis, and N. Bourbakis. A survey of skin-color modeling and detection methods. Pattern Recogn., 40(3):1106–1122,March 2007. [Citada en p. 17]

[LBK02] M. Last, H. Bunke, and A. Kandel. A feature-based serial approach to clas-sifier combination. Pattern Anal. Appl., 5(4):385–398, 2002. [Citada en p. 46]

[Lew98] David D. Lewis. Naive (bayes) at forty: The independence assumption ininformation retrieval. pages 4–15. Springer Verlag, 1998. [Citada en p. 60]

[LHB04] Y. LeCun, F. Huang, and L. Bottou. Learning methods for generic objectrecognition with invariance to pose and lighting. In Proceedings of the2004 IEEE computer society conference on Computer vision and patternrecognition, CVPR’04, pages 97–104, Washington, DC, USA, 2004. IEEEComputer Society. [Citada en p. 3, 54]

[LJS97] A. Leonardis, A. Jaklic, and F. Solina. Superquadrics for segmentingand modeling range data. IEEE Transactions on Pattern Analysis andMachine Intelligence, 19:1289–1295, 1997. [Citada en p. 37]

[LLS06] B. Leibe, A. Leonardis, and B. Schiele. An implicit shape model forcombined object categorization and segmentation. In Jean Ponce, Mar-tial Hebert, Cordelia Schmid, and Andrew Zisserman, editors, TowardCategory-Level Object Recognition, volume 4170 of Lecture Notes in Com-puter Science, pages 508–524. Springer, 2006. [Citada en p. 3, 54]

94 REFERENCIAS

[LMB+05] D. Lisin, M. Mattar, M.. Blaschko, E.. Learned-Miller, and M. Benfield.Combining local and global image features for object class recognition. InProceedings of the 2005 IEEE Computer Society Conference on ComputerVision and Pattern Recognition (CVPR’05) - Workshops - Volume 03,CVPR ’05, pages 47–55, Washington, DC, USA, 2005. IEEE ComputerSociety. [Citada en p. 31]

[Low04] D. Lowe. Distinctive image features from scale-invariant keypoints. Int.J. Comput. Vision, 60(2):91–110, November 2004. [Citada en p. 25, 30, 31, 38, 44]

[LSD05] A. Levinshtein, C. Sminchisescu, and S. Dickinson. Learning hierarchi-cal shape models from examples. In Proceedings of the 5th internationalconference on Energy Minimization Methods in Computer Vision and Pat-tern Recognition, EMMCVPR’05, pages 251–267, Berlin, Heidelberg, 2005.Springer-Verlag. [Citada en p. 38]

[LVBV05] F. Lopez, J. Valiente, R. Baldrich, and M. Vanrell. Fast surface grad-ing using color statistics in the cielab space. In Lecture Notes in Com-puter Science, Iberian Conference, Pattern Recognition and image Anal-ysis (IBPRIA’05), pages 666–673, Storil (Portugal), Jun 2005. Springer-Verlag. [Citada en p. 18]

[MMH+10] D. Meger, M. Muja, S. Helmer, A. Gupta, C. Gamroth, T. Hoffman,M. Baumann, T. Southey, P. Fazli, W. Wohlkinger, P. Viswanathan, J. Lit-tle, D. Lowe, and J. Orwell. Curious george: An integrated visual searchplatform. In CRV, pages 107–114. IEEE, 2010. [Citada en p. 44, 82]

[MRR09] N. Manshor, M. Rajeswari, and D. Ramachandram. Multi-feature basedobject class recognition. In Proceedings of the International Conferenceon Digital Image Processing, ICDIP ’09, pages 324–329, Washington, DC,USA, 2009. IEEE Computer Society. [Citada en p. 33]

[MS04] K. Mikolajczyk and C. Schmid. Scale & affine invariant interest pointdetectors. Int. J. Comput. Vision, 60(1):63–86, October 2004. [Citada en p. 14,

38]

[MS05] Krystian Mikolajczyk and Cordelia Schmid. A performance evaluation oflocal descriptors. IEEE Trans. Pattern Anal. Mach. Intell., 27(10):1615–1630, October 2005. [Citada en p. 14]

[OCLP10] M. Ozuysal, M. Calonder, V. Lepetit, and Pascal P. Fast keypoint recog-nition using random ferns. IEEE Trans. Pattern Anal. Mach. Intell.,32(3):448–461, March 2010. [Citada en p. 13, 55]

[Par96] J. R. Parker. Algorithms for Image Processing and Computer Vision. JohnWiley & Sons, Inc., New York, NY, USA, 1st edition, 1996. [Citada en p. 22,

57]

REFERENCIAS 95

[Pas01] G. Paschos. Perceptually uniform color spaces for color texture analy-sis: an empirical evaluation. IEEE Transactions on Image Processing,10(6):932–937, June 2001. [Citada en p. 18]

[PC88] J. Ponce and D. Chelberg. Finding the limbs and cusps of generalizedcylinders. International Journal of Computer Vision, 1(3):195–210, 1988.[Citada en p. 36]

[PS09] R. Pereira and L. Seabra. Learning visual object categories with globaldescriptors and local features. In EPIA, pages 225–236, 2009. [Citada en p. ix,

32, 33, 56]

[Pun11] Operaciones Puntuales. http://www.tsc.uc3m.es/imagine/curso proce-sadobasico/contenido/operacionespuntuales/operacionespuntuales.html.fecha de consulta: 15 Octubre, 2011. [Citada en p. 13]

[RF03] A. Rezaur and M. Fairhurst. Multiple classifier decision combinationstrategies for character recognition: A review. IJDAR, 5(4):166–194, 2003.[Citada en p. 46]

[RM93] H. Rom and G. Medioni. Hierarchical decomposition and axial shapedescription. IEEE Trans. Pattern Anal. Mach. Intell., 15(10):973–981,October 1993. [Citada en p. 37]

[Sah96] Mehran Sahami. Learning limited dependence bayesian classifiers. In InKDD-96: Proceedings of the Second International Conference on Knowl-edge Discovery and Data Mining, pages 335–338. AAAI Press, 1996.[Citada en p. 60]

[SB90] F. Solina and R. Bajcsy. Recovery of parametric models from range im-ages: The case for superquadrics with global deformations. IEEE Trans-actions on Pattern Analysis and Machine Intelligence, 12:131–147, 1990.[Citada en p. 36]

[SC08] L. Seabra and A. Chauhan. Open-ended category learning for languageacquisition. Connect. Sci, 20(4):277–297, December 2008. [Citada en p. 33]

[SCZ07] F. Schroff, A. Criminisi, and A. Zisserman. Harvesting image databasesfrom the web. In ICCV, pages 1–8. IEEE, 2007. [Citada en p. xi, 41, 75, 76, 77, 79,

80, 86]

[SG11] L. E. Sucar and G. Gomez. Vision computacionalhttp://ccc.inaoep.mx/vesucar/libros/vision-sucar-gomez.pdf. fechade consulta: 8 Septiembre, 2011. [Citada en p. 17]

[SM06] S. Segrera and M.N. Moreno. Multiclasificadores: Metodos y arquitec-turas. Technical report, Universidad de Salamanca, 2006. [Citada en p. 46]

96 REFERENCIAS

[SP95] S. Sclaroff and A. Pentland. Modal matching for correspondence andrecognition. IEEE Trans. Pattern Anal. Mach. Intell., 17(6):545–561, June1995. [Citada en p. 37]

[SRV11] SRVC. Semantic robot vision challenge. http://www.semantic-robot-vision-challenge.org/. fecha de consulta: 10 Agosto, 2011. [Citada en p. 33,

42, 81]

[SZ03] J. Sivic and A. Zisserman. Video google: A text retrieval approach toobject matching in videos. In Proceedings of the Ninth IEEE Interna-tional Conference on Computer Vision - Volume 2, ICCV ’03, pages 1470–,Washington, DC, USA, 2003. IEEE Computer Society. [Citada en p. 42]

[Sze10] R. Szeliski. Computer Vision: Algorithms and Applications. Online, 2010.[Citada en p. 9, 10]

[TMF04] A. Torralba, K. P. Murphy, and W. T. Freeman. Sharing features: efficientboosting procedures for multiclass object detection. In Proceedings of theIEEE Conference on Computer Vision and Pattern Recognition, volume 2,pages 762–769, Washington, DC, June 2004. [Citada en p. 3]

[UN93] F. Ulupinar and R. Nevatia. Perception of 3-d surfaces from 2-d con-tours. IEEE Trans. Pattern Anal. Mach. Intell., 15(1):3–18, January 1993.[Citada en p. 36]

[VG08] S. Vijayanarasimhan and K. Grauman. Keywords to Visual Categories:Multiple-Instance Learning for Weakly Supervised Object Categorization.In CVPR, 2008. [Citada en p. ix, xi, 40, 41, 44, 75, 76, 77, 79, 80, 86, 88]

[WMC08] Q. Wu, F. Merchant, and K.R. Castleman. Microscope Image Processing.Academic Press. Elsevier/Academic Press, 2008. [Citada en p. 22, 57]

[YSR05] A. Yavlinsky, E. Schofield, and S. Ruger. Automated image annota-tion using global features and robust nonparametric density estimation.In Proceedings of the 4th international conference on Image and VideoRetrieval, CIVR’05, pages 507–517, Berlin, Heidelberg, 2005. Springer-Verlag. [Citada en p. 38]

[ZM06] S. Zhu and D. Mumford. A stochastic grammar of images. Found. Trends.Comput. Graph. Vis., 2(4):259–362, January 2006. [Citada en p. 38]

[ZYZS05] W. Zhang, B. Yu, G. J. Zelinsky, and D. Samaras. Object class recogni-tion using multiple layer boosting with heterogeneous features. In Proceed-ings of the 2005 IEEE Computer Society Conference on Computer Visionand Pattern Recognition (CVPR’05) - Volume 2 - Volume 02, CVPR ’05,pages 323–330, Washington, DC, USA, 2005. IEEE Computer Society.[Citada en p. ix, 47, 49]

Documents

Aprendizaje de Conceptos Visuales Basado en Múltiples ... · Agradecimientos Agradezco a mi asesor el Dr. Eduardo Morales Manzanares, por todo el apoyo, gu a y consejos brindados