86
Tesis de Licenciatura “An´ alisis de los momentos complejos de Zernike como descriptores de im´ agenes” Alumno: Ezequiel Adri´ an Cura Directores: MSc. Mariano H. Tepper y Dra. Marta E. Mejail Febrero de 2010 UNIVERSIDAD DE BUENOS AIRES Facultad de Ciencias Exactas y Naturales Departamento de Computaci´ on

Tesis de Licenciatura

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Tesis de Licenciatura

Tesis de Licenciatura

“Analisis de los momentos complejos de Zernike como descriptores deimagenes”

Alumno: Ezequiel Adrian Cura

Directores: MSc. Mariano H. Tepper y Dra. Marta E. Mejail

Febrero de 2010

UNIVERSIDAD DE BUENOS AIRESFacultad de Ciencias Exactas y Naturales

Departamento de Computacion

Page 2: Tesis de Licenciatura

Resumen

Uno de los problemas mas importantes en el analisis de patrones es el reconocimiento de objetos sinimportar su posicion, tamano u orientacion. Fruto de las posibilidades que brinda la nueva tecnologıa, elavance del contenido multimedia y la expansion de internet, se han presentado diversas situaciones en lascuales una herramienta capaz de encontrar todas las imagenes similares a una dada (query) serıa de granutilidad. Algunos de los casos son : inspeccion y embalaje de partes industriales, identificacion de rostrosy el reconocimiento automatico de logos de marcas registradas. Este ultimo es una necesidad legalimportante, siendo sobre el cual se inspira este trabajo. Los momentos complejos de Zernike se presentancomo una posibilidad valida para la generacion de descriptores globales de una imagen [KH90]. Estosmomentos presentan diversas propiedades de invarianza interesantes para la caracterizacion de unaimagen. En este trabajo, se realiza un analisis en profundidad de los mismos, para luego proponeruna serie de nuevas metricas buscando capturar la nocion intuitiva de semejanza entre imagenes,mejorando los resultados de metricas existentes. Adicionalmente, se presentan una serie de variantes alos momentos complejos de Zernike para reducir los tiempos de ejecucion.

Page 3: Tesis de Licenciatura

Abstract

Object recognition despites position, size and orientation is one of the most important areas ofimage processing. The massive use of new technologies, Internet and multimedia contents has createdthe need of a tool that can find similar images to a given one. Some particular cases where such tool willbe useful are industrial packaging inspection, face recognition and automatic recognition of trademarklogos. This work addresses the last case, which is a important legal issue.

Using Zernike’s complex moments, we can obtain a global image descriptor. This descriptor hassome valuable properties that allow us to characterize an image from it [KH90]. In this work, weanalyze Zernike’s complex moments in order to propose different metrics that can capture the intuitivenotion of “look-alike” in trademark logos. Our results show better marks than other methods usedin the object recognition literature. In addition, we present some variants for the Zernike’s complexmoments that report improvements in the execution times.

Page 4: Tesis de Licenciatura

Agradecimientos

Un especial agradecimiento a Mariano H. Tepper y Marta E. Mejail, pues ellos recorrieron junto amı este camino, abriendo paso y marcando el sendero. Por responder a mis innumerables consultas ysoportar mis inagotables falencias. Gracias!

A ambos jurados, Daniel Acevedo y Julio C. Jacobo-Berlles, ya que en lugar de remojar sus piernasen las aguas dulces del rıo de la Plata decidieron sumergir sus cabezas en los complicados pasillos demi tesis. Gracias!

A mis companeros de cuartito en el “Image processing and Computer Vision Group”, Marıa Elena,Pachi, Alexandra y Marcelo. Gracias!

A lo que algunos han dado en llamar Voley en exactas, exacta-voley o el grupo de espasmodicosanonimos de martes y viernes. Como fuere, muchos pasaron, algunos quedaron, pocos sonrıen cor-dialmente al cruzarme en un pasillo y aun menos me dirigen la palabra. (Ceci, Cele, Maru, Sole, Lu,Caro, Vicky, Junior, Andre, Cyn, Fer, Flor, ¿Bereniz?, Dardo, Rodes, Michan, Juancito, Diego(s), Sasa,Eze(s), Ema, Leo, Yoshi, Lipper, Oscar, Carballo, etc) Gracias!

A los sres. miembros de la cofradıa TPSH, en especial a los socios plenarios co-fundadores y a losperdidos en cumplimiento del deber. (Por orden de aparicion: Alejandro “sabi” Deymmonaz, Pedro“piter” Varangot, Federico “roquein” Raimondo, Tomas “Topa” Scally, Marcos “Aurelio” Chicote,Luis “Alberto” Mastrangelo, Jorge “Jotinha” Lucangeli Obes, Pablo “not Pichito” Barembaum, Pablo“Bada-bin” Rodrıguez Zivic, Lautaro “lata” Dolberg, Pablo “jipi” Heiber, Francisco “Droopy” o (Soytan feliz) Soulignac, Matias “LyR” Lopez&Rosenfeld, Pancho “Francisco” Roslan y Guido “De” Caso)Son sus discusiones bananales, sus apologıas de linux, sus distribuciones de cerveza y su peligrosaafeccion a lo permitido lo que a mellado mi destino para forjar mi carrera. Debo a este singularconglomerado de mentes afiladas media carrera y mas de un asado. Gracias!

Hay muchos que deberıa mencionar, algunos que mencione y deberıa resaltar por sobre otros. Hayotros que sencillamente se perdieron, se olvidaron de existir en este pequeno mundo academico. Atodos ellos, soldados anonimos que esperan con un mate en el bar del 1, una cerveza en deportes ocon porciones inconmesurables de bondiola. Esos que invertıan su tiempo perdiendo en el metegol ydilapidaban las horas en la noriega. (roman, facu, guille, lea, manix, fran, diego, pocho, marine, loch,german, hernan, martin, dario, tavo, joaco, etc.) Gracias!

A tu vieja, por esas tardes de gloria. Que buen nombre!Al senor Juan A. Knebel, nunca comprendı como forjamos una amistad tras solo compartir una

materia. Gracias!

A mi familia toda (abuela, primos, tıos, tıas, padrino, madrina, sus hijos y los hijos de sus hijos),por todo, aunque no hacıa falta nada. Gracias!

A dos hermanos que me dio la vida, Sebastian Bronico y Julian M. Picollini. Gracias!

Padre, madre y hermana, cerca o lejos siempre pienso en ustedes.

Dani, es cuando estoy estancado que surgıs para empujarme.

A los senores Jorge Cura y Alejandro Nisan Braslavsky Avenburg, la vida no parece ser justa cuandolos recuerdos se nublan.

Page 5: Tesis de Licenciatura

Indice general

1. Introduccion 11.1. Objetivo y organizacion del trabajo . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2. Descriptores basados en momentos de Zernike 52.1. Introduccion: Momentos de una funcion . . . . . . . . . . . . . . . . . . . . . . . . 62.2. Definicion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.3. Propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.3.1. Invarianza ante rotaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.3.2. Invarianza ante traslaciones y escalamientos . . . . . . . . . . . . . . . . . . 10

2.4. Estudios sobre los momentos de Zernike . . . . . . . . . . . . . . . . . . . . . . . . 102.4.1. Analisis de los polinomios complejos de Zernike . . . . . . . . . . . . . . . . 112.4.2. Comparacion entre momentos de Zernike de diversas imagenes . . . . . . . 12

2.5. Extraccion de los momentos complejos de Zernike de una imagen . . . . . . . . . . 192.5.1. Centrado y escalamiento: invarianza ante traslaciones y escalamientos . . . 192.5.2. Calculo de los momentos complejos de Zernike . . . . . . . . . . . . . . . . 212.5.3. Correccion de fase de los momentos complejos de Zernike . . . . . . . . . . 212.5.4. Construccion de los descriptores de momentos de Zernike . . . . . . . . . . 22

3. Metricas propuestas 253.1. Metrica de referencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263.2. Primera aproximacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273.3. Segunda aproximacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

3.3.1. Ponderacion de los momentos complejos de Zernike . . . . . . . . . . . . . . 343.3.2. Metodo propuesto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

3.4. Tercer aproximacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373.4.1. Analisis de componentes principales (PCA) . . . . . . . . . . . . . . . . . . 373.4.2. Distancia de Mahalanobis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 383.4.3. Metodo propuesto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

4. Estudios sobre los algoritmos de clasificacion propuestos 434.1. Colecciones de imagenes utilizadas en los estudios . . . . . . . . . . . . . . . . . . . 454.2. Metodologıa: Bulls-eye Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

4.2.1. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

5. Conclusiones 725.1. Contribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 735.2. Trabajo futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

A. Algebra de numeros complejos 75

iv

Page 6: Tesis de Licenciatura

INDICE GENERAL

B. Implementacion 76B.1. MATLAB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

B.1.1. Generacion de descriptores de momentos complejos de Zernike . . . . . . . 76B.1.2. Clasificadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76B.1.3. Estudios realizados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78B.1.4. Bases precalculadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

v

Page 7: Tesis de Licenciatura

Capıtulo 1

Introduccion

La vista es uno de nuestros sentidos mas explotados por la tecnologıa hoy dıa. Muchos disposi-tivos centran su operabilidad en la estetica visual (touchscreen), la creciente inclusion de contenidomultimedia y el incremento en el uso de camaras digitales son ejemplos de ello. El uso cotidianode estos dispositivos genera en sus operarios necesidades basicas que esperan sean satisfechas,generando nuevas demandas en areas como procesamiento de imagenes y vision por computadora.Como respuestas a estas demandas podemos observar la inclusion de software en camaras digitalespara lograr autoenfoque, deteccion de sonrisas, deteccion de rostros, reconocimiento de personas,filtrado de ruido, el seguimiento de objetivos en sistemas de seguridad, seleccion de elementos endiferentes procesos industriales, etc. Ası el procesamiento de imagenes y la vision por computadorase erigen como la contraparte computacional de las ciencias que se dedican a la interpretacion delas imagenes y videos. Mas precisamente, el procesamiento de imagenes se centra en problematicasde bajo nivel como deteccion de bordes, extraccion de contornos, filtros, etc., mientras que la visionpor computadora se dedica a tareas relacionadas con el video, la reconstruccion de mapas 3D, elanalisis de patrones, etc.

En particular, uno de los problemas mas importantes en el analisis de patrones es el recono-cimiento de objetos sin importar su posicion, tamano u orientacion. Existen diversas situacionesdonde una herramienta capaz de clasificar las imagenes por un grado de similaritud a una da-da (query) serıa de gran utilidad. Algunos de los casos son : inspeccion y embalaje de partesindustriales, identificacion de rostros[TP91], reconocimiento de caracteres manuscritos (OCR) yel reconocimiento automatico de logos de marcas registradas. Este ultimo es una necesidad legalimportante, se centra en imagenes en escala de grises y sera sobre el cual se inspira esta tesis.

No es una tarea sencilla discernir que tan parecida es una imagen o si una imagen es masparecida a otra. En primer lugar no es facil conseguir un acuerdo entre humanos sobre el grado desimilaridad de dos imagenes aun en aspectos legales, tal como se muestra en el ejemplo de la Figura1.1. Menos aun es trasladar este difuso concepto a la informatica y conseguir la conformidad deaquellos interesados en esta herramienta.

Figura 1.1: Dos logos cuya similaridad es discutible : The Art of Peace Foundation(http://www.artofpeacefoundation.org/) vs. Vivir Mejor (Programa de apoyo alimentario paralas comunidades rurales, Mexico).

1

Page 8: Tesis de Licenciatura

Introduccion

Sobre este punto F. Brooks define un dificultad esencial en lo referente al desarrollo de software,conformidad, en su trabajo “ No silver bullet ”[Bro01] :

“Conformity. Software people are not alone in facing complexity. Physics deals withterribly complex objects even at the “fundamental particle level”. The physicist laborson, however, in a firm faith that there are unifying principles to be found, whether inquarks or in unifiedfield theories. Einstein argued that there must be simplified expla-nations of nature, because God is not capricious or arbitrary.

No such faith comforts the software engineer. Much of the complexity that he mustmaster is arbitrary complexity, forced without rhyme or reason by the many humaninstitutions and systems to which his interfaces must conform. These differ from in-terface to interface, and from time to time, not because of necessity but only becausethey were designed by different people, rather than by God.

In many cases, the software must conform because it is the most recent arrival onthe scene. In others, it must conform because it is perceived as the most conformable.But in all cases, much complexity comes from conformation to other interfaces; thiscomplexity cannot be simplified out by any redesign of the software alone.”

Si bien la cita hace incapie en la necesidad de conformar a otros sistemas que interactuen con eldesarrollado, la necesidad de conformar a las personas que intaractuan con el sistema es evidentey una dificultad intrınseca, mas aun cuando incluso la persona que utilizara el software no tieneuna definicion precisa sobre el concepto de similaritud pasado el punto de imagenes iguales.

Pero esta dificultad crece en complejidad a medida que intentamos avanzar en busca de unsistema de comparacion general. Al intentar conformar al ser humano, surge la necesidad deinterpretar las imagenes como lo hace el. Saber como un ser humano interpreta los estımulosvisuales que recibe es algo que escapa a las ciencias de la computacion. Diferentes ramas de lapsicologıa, filosofıa y la medicina se han avocado a interpretar cual es la respuesta humana anteestımulos visuales. Como un ejemplo, la psicologıa de la Gestalt enumera diversas leyes y principiossobre la interpretacion de los estımulos visuales. Los mismos intentan resumir una serie de procesosque realiza nuestra mente al interpretar una imagen, algunas de las leyes son:

Ley de cierre: Nuestra mente completa las figuras en base a su experiencia, para obtener image-nes lo mas simples posible.

Ley de continuidad: La mente continua un patron, aun despues de que el mismo desaparezca.

Ley de la proximidad: El agrupamiento parcial o secuencial de elementos segun su distancia.

Ley de simetrıa: Las imagenes simetricas son percibidas como iguales.

Ley de la semejanza: Los elementos similares son agrupados en una entidad. La semejanzadepende de la forma, el tamano, el color y el brillo de los elementos.

Ademas, el hombre cuenta con dos herramientas a su disposicion : experiencias previas einformacion de contexto. Eliminando alguna de ellas es posible confundir a la mente al momentode interpretar figuras (Fig. 1.2) .

Finalmente, podemos considerar otra de las mayores limitaciones propias de la era digital, ladiscretizacion de las funciones. Es decir, existen diferentes formas de representar una imagen ydurante el desarrollo teorico podemos asumir las imagenes son funciones continuas. Sin embargo, enla computadora siempre se trata de arreglos n dimensionales, en donde habitualmente n vale 2 o 3.Durante el trabajo, al tratarse de imagenes blanco y negro o en escala de grises, podemos asegurarque se tratara siempre de arreglos de 2 dimensiones. Esta discretizacion tiene como consecuenciala perdida de informacion, dependiendo el grado de la misma se volvera imposible tratar ciertasimagenes.

2

Page 9: Tesis de Licenciatura

Introduccion

Figura 1.2: ¿ Dos caras o una copa ?

1.1. Objetivo y organizacion del trabajo

Ciertos grupos de investigacion han avanzando en el reconocimiento de formas bidimensionalesutilizando descriptores de imagenes. Los descriptores de imagenes son uno, o varios, vectores ex-traıdos de una imagen a traves de diversos metodos. Estos descriptores capturan cierta informacioncaracterıstica y suelen contar con ciertas propiedades que lo tornan interesante para identificaruna imagen. Ejemplo de ellos son los extraıdos a partir de momentos regulares, los descriptoresde Fourier[RPAK88], los utilizados por MPEG-7[LLE00], los obtenidos por SIFT[Low03] o losgenerados utilizando Shape Context[BMP02].

Entre las diversas posibilidades, los momentos complejos de Zernike se presentan como unaposibilidad valida para la generacion de descriptores globales de una imagen [KH90]. Estos mo-mentos presentan diversas propiedades de invarianza interesantes para la caracterizacion de unaimagen. Existen varios trabajos recientes sobre los momentos de Zernike siempre centrandose enimagenes en escala de grises [LLP09, RLB09].

El objetivo de esta tesis es proponer posibles metricas para los momentos de Zernike. Enparticular, se busca una metrica que capture la nocion intuitiva de semejanza. A lo largo deltrabajo se estudiaran los momentos de Zernike en la caracterizacion de imagenes, se propondrandiferentes metricas, y se intentara determinar las metricas mas adecuadas de forma empırica.

La tesis esta organizada del siguiente modo.

Capıtulo 2 : Descriptores basados en momentos de Zernike Este capıtulo provee al lec-tor con toda la informacion necesaria sobre momentos de Zernike. En particular, a lo largodel mismo se define el concepto de momento de una imagen, se presentan los momentosde Zernike, sus propiedades y el por que de su utilizacion en este area. De forma conjuntase realizan algunos estudios sobre el comportamiento de los mismos para diferentes image-nes, intentando dilucidar como cambian sus valores de acuerdo a la imagen de la cual sonextraıdos.

Capıtulo 3 : Metricas propuestas Nuestro trabajo busca proponer una serie de nuevas metri-cas para la comparacion de descriptores de Zernike. En el capıtulo 3 se presentan tres deestas metricas, de forma conjunta con una metrica de referencia. Ademas se presentan losmotivos que llevaron a la construccion de estas metricas y por que se eligio estas por sobreotras.

Capıtulo 4 : Estudios sobre los algoritmos de clasificacion propuestos Aquı comparare-mos diferentes variaciones de las metricas propuestas buscando encontrar las ventajas ydesventajas de utilizar cada una de estas. Para realizar estas comparaciones se utilizarandiferentes bases de datos y mecanismos de comparacion normalizados.

Capıtulo 5 : Conclusiones En el capıtulo 5 encontramos las conclusiones de nuestro trabajo y

3

Page 10: Tesis de Licenciatura

Introduccion

los posibles trabajos futuros que surgen del mismo.

4

Page 11: Tesis de Licenciatura

Capıtulo 2

Descriptores basados enmomentos de Zernike

Trabajar con imagenes de forma computacional nos fuerza a conseguir representaciones fi-nitas de las imagenes que capturen cierta informacion caracterıstica y las vuelvan tratables eneste entorno. Como una representacion posible, los descriptores de imagenes son colecciones devalores extraıdos de una imagen a traves de diversos metodos, su finalidad es identificar a unaimagen y facilitar procesos de comparacion, almacenamiento, transformacion, etc. Algunos ejem-plos de descriptores son los extraıdos a partir de una funcion de momentos, los descriptores deFourier[RPAK88], los utilizados por MPEG-7[LLE00], los obtenidos por SIFT[Low03] o los gene-rados utilizando Shape Context[BMP02].

Las funciones de momentos, a partir de las cuales se obtienen los descriptores de una imagen,son de la forma φpq donde p y q determinan el orden del momento. La idea de las funcionesde momentos es, dado un valor para pq, evaluar la imagen ponderando algunos de sus pıxeles,obteniendo un numero resultante. Este numero suele poseer ciertas propiedades que lo tornaninteresante para la identificacion de la imagen. En este trabajo nos centramos en los descriptoresgenerados a partir de los momentos complejos de Zernike para una imagen. Es decir, nuestrodescriptor basado en momentos de Zernike sera una coleccion de valores complejos, resultado deevaluar a la imagen en momentos de Zernike de diverso orden.

En este capıtulo se presenta un estudio de los descriptores basados en momentos de Zernike.Veremos la definicion, propiedades, algunas caracterısticas particulares y la metodologıa a seguirpara extraer los momentos complejos de Zernike a partir de una imagen cualquiera.

5

Page 12: Tesis de Licenciatura

Descriptores basados en momentos de Zernike

2.1. Introduccion: Momentos de una funcion

Los momentos son un concepto derivado de la fısica. En esta existen diversas definiciones paramomentos (momento de una fuerza o torque, momento angular, momento de inercia, momentomagnetico, etc.), aunque siempre representan una magnitud que relaciona vectores y un punto,una recta o un plano. Como contraparte, tambien existen diferentes definiciones de momentosen matematica. En particular, las areas dedicadas al procesamiento de imagenes entienden pormomento a aquellas funciones encargadas de extraer de una imagen cierta informacion, otorgandoa sus pıxeles cierto peso. Ademas estas funciones suelen presentar ciertas propiedades y permitenrealizar interpretaciones que no se derivan directamente de la imagen y son utiles para el trabajoen el area.

Definimos una imagen como una funcion continua f : R2 → C. En general, se puede expresaruna funcion de momentos cualquiera φpq del siguiente modo [FM05]

φpq =∫ ∞−∞

∫ ∞−∞

ψpq(x, y) f(x, y) dx dy (2.1)

donde:

ψpq es la funcion encargada de realizar la ponderacion de la imagen.

Dentro de las funciones que cumplen con esta expresion existen diversos tipos de momentos.Los llamados momentos regulares (mpq) son uno de los mas utilizados dentro de lo que se definecomo momentos geometricos. Estos se definen como

mpq =∫ ∞−∞

∫ ∞−∞

xpyqf(x, y) dx dy . (2.2)

Los momentos regulares de una imagen tienen ciertas propiedades singulares que pueden seraprovechadas para realizar ciertas transformaciones en una imagen. A lo largo del trabajo se puedenobservar diversos lugares en los que hacemos uso de estas particularidades. Ademas existen muchosotros momentos que pueden ser extraıdos de una imagen [KA05]. Entre los que podemos discernirtres grandes grupos:

Momentos ortogonales: Obtienen esta categorıa aquellos momentos cuya funcion ψpq (Ec. 2.1)describe un conjunto de polinomios que conforman una base ortogonal completa[Tea80]. Exis-ten varios momentos de este tipo, entre los que se puede considerar los de Legendre[FZL+07],Tchebichef[ZSX+07] y, sobre los que versa este trabajo, los momentos de Zernike.

Momentos geometricos: Dentro se incluyen los momentos regulares, momentos centrales, mo-mentos invariantes de Hu[Hu62],etc. Al no ser ortogonales entre sı, existe una redundanciaen la informacion devuelta por los momentos de diverso orden.

Momentos complejos: Los momentos complejos fueron introducidos por Abu-Mostafa y Plais[AP85].Presentan algunas ventajas frente a los momentos geometricos. Sin embargo presentan unadesventaja similar a la de los momentos geometricos, no son ortogonales. Por esto se consi-dera que la reconstruccion de una imagen a partir de los momentos complejos de la mismaes algo tedioso.

6

Page 13: Tesis de Licenciatura

Descriptores basados en momentos de Zernike

2.2. Definicion

F. Zernike definio [Zer34] un conjunto de polinomios complejos que conforman una base ortogo-nal completa circunscripta en el cırculo unitario1. A continuacion las definiciones correspondientes.

Definicion 1. Se definen los polinomios complejos de Zernike Vnm como:

Vnm : R2 → C (2.3)

Vnm(x, y) = Vnm(ρ, θ) = Rnm(ρ) exp(imθ) (2.4)

Rnm(ρ) =

n−|m|2∑s=0

(−1)s(n− s)!

s!(n+|m|2 − s)! (n−|m|2 − s)!

ρn−2s (2.5)

donde se cumple:

0 ≤ n.

| m | ≤ n, n− | m | es par.

ρ es la magnitud del vector formado desde el origen al punto (x, y).

θ es el argumento del vector formado desde el origen al punto (x, y).

A partir de los polinomios de Zernike se pueden definir los momentos de Zernike de una imagen.

Definicion 2. Se define un momento de Zernike (MZ) como

Anm =n+ 1π

∫∫x2+y2≤1

f(x, y)V ∗nm(x, y) dx dy (2.6)

donde:

V ∗nm(x, y) es el conjugado complejo del polinomio de Zernike Vnm evaluado en (x, y).

La funcion continua f : R2 → C representa a la imagen segun lo mencionado con anteriori-dad.

2.3. Propiedades

A continuacion las propiedades que tornan interesante la utilizacion de los MZ en el recono-cimiento de patrones. Se analizan las invarianzas propias de los MZ y se introducen mecanismospara completarlas.

2.3.1. Invarianza ante rotaciones

El modulo de los momentos de Zernike cuenta con la propiedad de ser invariante ante rotacionesde f . Por tanto, los MZ de una imagen se preservan sin importar la rotacion de la misma. Alanalizar esta propiedad se debe tener en cuenta que los MZ tienen valores complejos. La fase deun MZ particular no es invariante a rotaciones. Sin embargo es posible aplicar algun mecanismopara conseguir que la fase sea tambien invariante a rotaciones.

A continuacion se detallan la variante y las demostraciones que corroboran la invarianza. Enbusca de una mayor claridad se trata al modulo y la fase por separado, de forma adicional seasume la funcion f en coordenadas polares, esto no afecta en nada los resultados expuestos.

1Se entiende por cırculo unitario a los puntos (x, y) dentro del area descripta por x2 + y2 ≤ 1

7

Page 14: Tesis de Licenciatura

Descriptores basados en momentos de Zernike

Invarianza del modulo ante rotaciones

De la observacion de los polinomios de Zernike (Ec. 2.4) se deduce que el modulo resultantede un MZ particular depende del valor de Rnm(Ec. 2.5) . Es decir, Rnm valdra igual para aquellos(x, y) que compartan el mismo valor de modulo ρ. Como ρ se mantiene constante ante rotaciones,no parece extrano que el modulo de los MZ se mantenga constante ante rotaciones tambien.

Lema 1. El modulo de los momentos de Zernike es invariante a rotaciones en f [KH90].

Demostracion. Los momentos de Zernike dada una funcion f particular son de la forma(Ec. 2.6) :

Afnm =n+ 1π

∫ 2π

0

∫ 1

0

f(ρ, θ)Vnm(x, y)∗ dρ dθ, (2.7)

si extendemos Vnm reemplazandolo por su definicion (Ec. 2.4) , obtenemos:

Afnm =n+ 1π

∫ 2π

0

∫ 1

0

f(ρ, θ)Rnm(ρ) exp(imθ)∗ dρ dθ

donde Rnm(ρ) exp(imθ)∗ = Rnm(ρ) exp(−imθ),2 finalmente nos queda algo de la forma:

Afnm =n+ 1π

∫ 2π

0

∫ 1

0

f(ρ, θ)Rnm(ρ) exp(−imθ) dρ dθ . (2.8)

Ahora definamos fα como una rotacion en α de la funcion f , esta se puede expresar como:

fα(ρ, θ) = f(ρ, θ − α). (2.9)

Los MZ de fα se pueden ver, siguiendo el resultado (Ec. 2.8) , de la siguiente manera:

Afα

nm =n+ 1π

∫ 2π

0

∫ 1

0

fα(ρ, θ)Rnm(ρ) exp(−imθ) dρ dθ,

si ahora reemplazamos fα por su expresion equivalente en base a f (Ec. 2.9) :

Afα

nm =n+ 1π

∫ 2π

0

∫ 1

0

f(ρ, θ − α)Rnm(ρ) exp(imθ) dρ dθ

y haciendo un cambio de variables donde θα = θ − α, obtenemos :

Afα

nm =n+ 1π

∫ 2π

0

∫ 1

0

f(ρ, θα)Rnm(ρ) exp(−im(θα + α)) dρ dθα.

Al ser exp(−im(θα + α)) equivalente a exp(−imα) exp(−imθα), donde exp(−imα) es unaconstante dada una f ′ particular, se puede notar Af

α

nm como:

Afα

nm = exp(−imα)n+ 1π

∫ 2π

0

∫ 1

0

f(ρ, θα)Rnm(ρ) exp(−imθα) dρ dθα.

Juntando esto con lo descripto en (Ec. 2.8) , obtenemos:

Afα

nm = Afnm exp(−imα). (2.10)

Si pedimos el modulo a ambos lados de la igualdad:

|Afα

nm| = |Afnm exp(−imα)|sabemos que | exp(−imα)| = 1 entonces

|Afα

nm| = |Afnm|por tanto, el modulo de los momentos complejos de Zernike es invariante a rotaciones.

2Por definicion de conjugado complejo se invierte el angulo del numero.

8

Page 15: Tesis de Licenciatura

Descriptores basados en momentos de Zernike

Invarianza de la fase ante rotaciones

Observando la seccion anterior, podemos notar que la fase de los momentos complejos deZernike no es invariante ante rotaciones (Ec. 2.10) . De hecho, todos los MZ aparecen desplazadosen su fase por una constante, exp(−imα), que depende de la rotacion de la funcion respecto ala original y el orden del momento particular. Sin embargo, segun resultados presentados en untrabajo reciente [LLP09], es posible realizar una pequena variante para conseguir la invarianzaante rotaciones en la fase de los momentos complejos de Zernike. La correccion presentada en eltrabajo es la siguiente:

A′nm = Anm exp(−imθn0,1), (2.11)

donde θn0,1 es la fase sin corregir del momento An0 1, para algun n0 valido. Este n0 puede sercualquiera, pero se debe utilizar uno fijo al realizar la correccion para comparar entre MZ pro-venientes de distintas funciones (imagenes). Ademas, si observamos en detalle, esta correccion noafecta para nada el modulo de los An m, unicamente se centra en la fase.

A continuacion presentamos la demostracion por la cual esto provee invariancia ante rotacionespara la fase de los momentos complejos de Zernike.

Lema 2. Los momentos complejos de Zernike corregidos, A′nm son invariantes a rotaciones enf [LLP09].

Demostracion. Segun vimos en la seccion anterior 2.3.1 la relacion entre los MZ de una funcionrotada y la original sin realizar la correccion es de la forma (Ec. 2.10) :

Afα

nm = Afnm exp(−imα).

Si nos centramos en la fase de los MZ, θnm, podemos deducir la siguiente relacion entre ambas:

θfα

nm = θfnm −mα (2.12)

si restamos a ambos lados de la igualdad mθfα

n0,1obtenemos:

θfα

nm −mθfα

n0,1= θfnm −mθ

n0,1−mα

donde el lado izquierdo de la igualdad se corresponde con el resultado de aplicar la variante de(Ec. 2.11) . Dado que mθf

α

n0,1es la fase sin corregir del MZ Af

α

n01rotado, podemos expresarlo en

funcion de las fases de f (Ec. 2.12) :

θfα

n0,1= θfn0,1

− 1 ∗ α.

Entonces reemplazando a mθfα

n0,1en la ecuacion original:

θfα

nm −mθfα

n0,1= θfnm −m(θfn0,1

− 1 ∗ α)−mα

θfα

nm −mθfα

n0,1= θfnm −mθ

fn0,1

+mα−mα

realizando la resta obtenemos la igualdad:

θf′

nm −mθf ′

n0,1= θfnm −mθ

fn0,1

.

Se observa que θf′

nm − mθf′

n0,1es la fase resultante de aplicar la correccion a los MZ de f ′,

mientras que el lado derecho, θfnm −mθfn0,1

, es el resultado de corregir los MZ de f . Es decir, lafase es invariante a rotaciones una vez realizada la correccion.

El modulo tambien se mantiene invariante respecto a rotaciones. Partiendo de resultados an-teriores (seccion 2.3.1), tenemos

9

Page 16: Tesis de Licenciatura

Descriptores basados en momentos de Zernike

|Afα

nm| = |Afnm exp(−imα)|reemplazando los MZ por los corregidos obtenemos:

|Afα

nm exp(−imθαn0,1)| = |Afnm exp(−imθn0,1) exp(−imα)|.

Sabemos por teorıa de numeros complejos que | exp(ix)| = 1 dado un x cualquiera, por tanto,podemos reescribir la ecuacion anterior como:

|Afα

nm| = |Afnm|,esto se debe a que la correccion solo influye sobre la fase de los MZ. Se concluye que los

momentos complejos de Zernike son invariantes a rotaciones una vez aplicada la variante propuestapor Shan Li et al.

2.3.2. Invarianza ante traslaciones y escalamientos

Los momentos complejos de Zernike no son invariantes ante traslaciones ni escalamientos de lafuncion f . Mas adelante se vera que es posible conseguir invarianza ante traslaciones o escalamien-tos en el caso particular en el que la funcion f es una imagen de ciertas caracterısticas mediantela aplicacion de normalizaciones.

A continuacion presentamos tres imagenes de las cuales extrajimos los MZ de orden A0 0 yA1 1. Primero se puede ver la imagen original, luego una trasladada y finalmente una escalada(reducida).Se observa que los valores obtenidos por MZ son muy distintos entre sı.

Imagen A0 0 A1 1

4019,1 −68,07 + 122,47i

3832,2 −812,96 + 894,93i

1042,1 −33,878− 30,685i

Tabla 2.1: Cambio de los momentos complejos de Zernike frente a traslaciones y escalamientos deuna imagen fija.

2.4. Estudios sobre los momentos de Zernike

A continuacion se realizan algunos estudios sobre los polinomios y momentos complejos deZernike. El objetivo de los mismos es comprender el comportamiento que estos poseen frentea diversas imagenes para facilitar luego la introduccion de nuevas metricas que aprovechen lascaracterısticas aquı encontradas.

10

Page 17: Tesis de Licenciatura

Descriptores basados en momentos de Zernike

2.4.1. Analisis de los polinomios complejos de Zernike

Un primer paso en este trabajo consistio en analizar cuales son las caracterısticas de los poli-nomios complejos de Zernike (Ec. 2.4) de diversos ordenes. Para este primer estudio definimos ftal que:

f(x, y) =

{1, si x2 + y2 ≤ 10, sino

.

Con esto observamos la ponderacion particular de un Vnm dentro del cırculo unitario. Estosvalores reflejan la influencia que tendran los diversos valores de la funcion f a la hora de calcular losMZ de una imagen. Para poder observar y comprender el comportamiento de los MZ se realizaronuna serie de pruebas: partiendo de la funcion f se calcularon los valores tomados, en fase y modulo,por distintos polinomios de Zernike, Vn m. A continuacion, los resultados para los polinomios deZernike V1 m,V2 m y V7 m incluyendo todos los valores de m validos.

N: 1 | M: 1

(a) |V11|

N: 1 | M: 1

(b) arg(V11)

Figura 2.1: Ponderacion dada por el polinomio complejo de Zernike V11 dentro del cırculo unitario:(a) valores tomados por el modulo ; (b) valores tomados por la fase.

N: 2 | M: 0

(a) |V20|

N: 2 | M: 2

(b) |V22|

N: 2 | M: 0

(c) arg(V20)

N: 2 | M: 2

(d) arg(V22)

Figura 2.2: Ponderacion dada por los polinomios complejos de Zernike de la forma V2m, para losm validos, dentro del cırculo unitario: (a)(b) valores tomados por los modulos ; (c)(d) valorestomados por las fases.

Tras ver las imagenes (Figuras 2.1, 2.2 y 2.3) se observa la presencia de anillos concentricoscuyo centro coincide con el del cırculo unitario. La cantidad de anillos y su ancho varıa segun elpolinomio que se este examinando, aunque siempre aumenta el ancho conforme nos aproximamosal centro del cırculo. A continuacion se realiza un analisis exhaustivo de las caracterısticas de lospolinomios.

En un primer lugar, se presta especial atencion a las imagenes que involucran los valores delos modulos (Figuras 2.1a, 2.2 (a)(b) y 2.3(a)(b)(e)(f)):

11

Page 18: Tesis de Licenciatura

Descriptores basados en momentos de Zernike

N: 7 | M: 1

(a) |V71|

N: 7 | M: 3

(b) |V73|

N: 7 | M: 1

(c) arg(V71)

N: 7 | M: 3

(d) arg(V73)

N: 7 | M: 5

(e) |V75|

N: 7 | M: 7

(f) |V77|

N: 7 | M: 5

(g) arg(V75)

N: 7 | M: 7

(h) arg(V77)

Figura 2.3: Ponderacion dada por los polinomios complejos de Zernike de la forma V7m, para los mvalidos, dentro del cırculo unitario: (a)(b)(e)(f) valores tomados por el modulo; (c)(d)(g)(h) valorestomados por la fase.

n y m determinan la cantidad de anillos. En particular, la cantidad de anillos es igual an−m

2 + 1.

Los valores impares de n (n mod 2 = 1) no tienen en cuenta el centroide de la figura.

Al crecer n los anillos se vuelven mas finos. Al ser mas delgados los MZ otorgaran mayor pesoa ciertas porciones reducidas de la funcion que se encuentren caracterizando. En particular,estos momentos con n mayor seran facilmente perturbados ante el ruido.

A continuacion nos centramos en las imagenes abocadas a ver el comportamiento de la fase(Figuras 2.1b, 2.2(c)(d) y 2.3(c)(d)(g)(h)) :

Los distribucion de los ciclos3 de la fase siempre es con sentido horario y comienza en unmismo lugar.

La cantidad de ciclos de la fase en el cırculo unitario es igual a m. Esto se desprende deforma directa de la ecuacion Vnm que determina la fase (exp(imθ)).

2.4.2. Comparacion entre momentos de Zernike de diversas imagenes

Por ultimo compararemos visualmente los valores tomados por los MZ para diferentes image-nes. Para llevar adelante este proceso seleccionamos diferentes imagenes de una base de datos, losestudios incluıdos aquı se realizaron sobre las figuras incluıdas en Fig.2.4.

Tomamos la imagen 2.4c como la imagen de referencia, nuestra query. Desearıamos que elresultado del proceso nos entregue como correspondencias validas las tres imagenes 2.4a, 2.4b y2.4d. Finalmente buscaremos que nuestro metodo no nos devuelva imagenes muy distintas a laquery 2.4e.

Para el desarrollo de las pruebas se utilizaron los MZ hasta el A30 30. A cada MZ valido se leotorgo un numero de orden respetando la siguiente forma :

3Se considera un ciclo de fase cuando se toman los valores desde 0 a 2π.

12

Page 19: Tesis de Licenciatura

Descriptores basados en momentos de Zernike

(a) (b)

(c)

(d) (e)

Figura 2.4: Imagenes referencia sobre las que se realizaran los estudios de esta seccion.(a) query reducida; (b) query trasladada; (c) imagen referencia(query); (d) imagen con carac-terısticas similares a la query; (e) imagen muy distinta a la query.

Orden Momento complejo de Zernike0 A0 0

1 A1 0

2 A1 1

3 A2 0

4 A2 2

. . . . . .256 A30 30

Tabla 2.2: Numero de orden asignado a los MZ validos.

Comparacion de momentos complejos de Zernike por parte compleja y real

A continuacion se incluyen dos graficos comparando los valores tomados por los MZ de diversosordenes de las imagenes referencia (Fig. 2.4) , para su componente real y compleja. Intentamosobservar a los MZ como puntos en el espacio R3. Aunque sabemos que esto no es exactamente ası,pues en el orden de los momentos se trata de numeros discretos y acotados. De todos modos loque se busca en estos graficos es encontrar similaridades entre las distribuciones de los diferentesvalores de los MZ. De esta manera se intenta avanzar en el entendimiento del comportamiento delos MZ lo cual permitira proponer metricas en los capıtulos siguientes.

Ambos graficos utilizan como eje de comparacion, imagen query, la imagen llamada normal(Fig. 2.4c) . El primer grafico(Fig. 2.5) analiza dos imagenes iguales mencionadas anteriormen-te(Figs. 2.4a y 2.4b). Mientras que el segundo(Fig. 2.6) se avoca al analisis de otras dos imagenesuna similar y otra completamente distinta(Figs. 2.4d y 2.4e).

Durante el desarrollo del trabajo aprovecharemos varias conclusiones que se desprenden deestos graficos. Algunas de las conclusiones que se extraen son:

Imagenes similares poseen una distribucion de MZ similar. En las graficas se observa como lasdistancias intra-MZ se asemejan conforme las imagenes se parecen. Por ejemplo, la imagen

13

Page 20: Tesis de Licenciatura

Descriptores basados en momentos de Zernike

Figura 2.5: Se observa como los puntos de cada nube respetan una misma distribucion, ejemplo deello son los rodeados por una elipse. Los MZ pertenecen a tres figuras iguales(normal(Fig. 2.4c) ,reducida(Fig. 2.4a) , trasladada(Fig. 2.4b) ) dibujados en el espacio num. orden×real×complejo.

Figura 2.6: Se observa como la distribucion de los puntos se aleja segun difieren las imagenes,por ejemplo existen tres puntos de una nube muy alejados del resto.MZ pertenecientes a tresfiguras distintas(normal(Fig. 2.4c) , similar(Fig. 2.4d) , distinta(Fig. 2.4e) ) dibujados en el espacionum. orden× real × complejo.

14

Page 21: Tesis de Licenciatura

Descriptores basados en momentos de Zernike

diferente (Fig. 2.4e) tiene a sus puntos distribuıdos de una manera completamente distintaal resto (Fig. 2.6) .

Imagenes similares toman valores similares en sus MZ. Si bien esta propiedad es logica, puedeno ser necesariamente cierta. En los estudios se pudo observar como para imagenes parecidaslas distancias inter-MZ se reducen.

No sucede que dado dos imagenes similares una tiene los valores de MZ desplazados en unorden superior o inferior. Con esto queremos decir que no parece util, a partir de estos estu-dios, reordenar los MZ para favorecer una comparacion. Por el contrario, cada MZ deberıaser comparado con el recıproco de la otra imagen.

Comparacion de momentos complejos de Zernike por parte fase y modulo

Otra forma, complementaria a la anterior, de comparar los valores tomados por los MZ dediversos ordenes es comparando los valores tomados por su fase y modulo. Observamos ahoratambien a los MZ como puntos en el espacio R3. Aunque esta vez no solo contamos con la dimensioncorrespondiente a los ordenes de los MZ discreta y acotada, sino que tambien tenemos la limitacionde la fase. La dimension correspondiente a la fase tomara valores entre −π y π. Aun ası se cumpleel objetivo de estos graficos que es encontrar similaridades en el comportamiento de los diferentesvalores de los MZ para diversas imagenes.

El procedimiento fue identico al realizado con los graficos anteriores(Figs. 2.5 y 2.6). Ambosgraficos utilizan como imagen query la imagen 2.4c. El primer grafico(Fig. 2.7) analiza las imagenesiguales (Figs. 2.4a y 2.4b). Y el segundo(Fig. 2.8) se avoca al analisis de las otras dos imagenes(Figs. 2.4d y 2.4e).

Figura 2.7: Se observa como MZ de igual orden respeta valores similares en fase y modulo. MZ enel espacio num. orden×modulo×fase, pertenecientes a tres figuras iguales (Fig. 2.4c) (Fig. 2.4a)(Fig. 2.4b) .

15

Page 22: Tesis de Licenciatura

Descriptores basados en momentos de Zernike

Figura 2.8: Se observa como MZ de igual orden toman valores muy distintos en modulo principal-mente.MZ en el espacio num. orden×modulo× fase, pertenecientes a tres figuras distintas (Fig.2.4c) (Fig. 2.4d) (Fig. 2.4e) .

En este caso no se pudo sacar ninguna conclusion directa sobre el comportamiento de la fase.Finalmente se opto por realizar el mecanismo ya mencionado (ver sec. 2.3.1 ) . Sobre el comporta-miento del modulo, sucede algo similar a lo que sucedıa con la parte compleja y real en la seccionanterior(ver sec. 2.4.2 ) . Es decir, las imagenes similares respetan una distancias intra-MZ simi-lar mientras que la imagen diferente (Fig. 2.4e) tiene a sus puntos distribuıdos de una maneracompletamente distinta al resto.

16

Page 23: Tesis de Licenciatura

Descriptores basados en momentos de Zernike

Registrado de las nubes de puntos

Como una alternativa interesante tras los analisis anteriores surge la idea de realizar unaregistracion entre los MZ de las diferentes imagenes como si de nubes de puntos se tratase. Unavez hecho esto, se podrıa plantear una funcion de distancia acorde a las transformaciones necesariaspara realizar la registracion. Se procedio a realizar ciertos estudios sobre esta posibilidad utilizandoel algoritmo ICP(iterative closest point) para registrar las nubes de puntos utilizando el criterio demınimo error cuadratico en busca de la mejor aproximacion[BM92]. El resultado de aplicar ICPa un modelo, m, y una muestra d es una matriz de rotacion, R, y un vector de traslacion, T demanera que Rd+ T nos da la nube de puntos registrada.

Sin embargo, encontrar la transformacion que realiza la registracion de puntos consume untiempo de ejecucion considerable y, aunque esto puede no ser determinante, en este trabajo inten-tamos encontrar una metrica eficaz y veloz. Ademas la registracion no disminuye la complejidaddel problema, sino que la traslada. Pues ahora deberemos calcular la distancia entre dos imagenesa partir de las matrices R y T , resultantes del ICP, ademas de expresar nuestros MZ como puntosen un espacio. En la figura 2.9, se muestra un resultado para una distancia definida de la forma

d(R, T ) =∑i

R(i, i)×∑j

T (j).

Donde R y T son las matrices resultantes de aplicar ICP y los MZ fueron considerados enel espacio num. orden × real × complejo (Fig. 2.5) . Entre los resultados se puede observar lodistanciado que aparecen las imagenes similares a la referencia(cırculo verde). La conjuncion deestas causas, y el buen desempeno de las metricas presentadas a contnuacion, nos motivaron adeshechar esta rama de la investigacion quizas tempranamente.

17

Page 24: Tesis de Licenciatura

Descriptores basados en momentos de Zernike

Figura 2.9: Resultados arrojados tras realizar un ordenamiento utilizando un distancia sobre R yT . La imagen referencia (query) se encuentra resaltada con un cırculo verde y, con un cırculo rojo,se resalto tambien la imagen igual mas lejana en el ranking. Se devuelven 7 de las 16 imagenescon diferencias mınimas existentes en la base de datos.

18

Page 25: Tesis de Licenciatura

Descriptores basados en momentos de Zernike

2.5. Extraccion de los momentos complejos de Zernike deuna imagen

La extraccion de los momentos complejos de Zernike de una imagen plantea ciertas dificultades.Algunas de ellas son : la discretizacion de las diferentes ecuaciones, la normalizacion de las image-nes, etc. El siguiente grafico da una idea del proceso de extraccion de los momentos complejos deZernike de una imagen.

Figura 2.10: Proceso de extraccion de MZ

La primer etapa forma parte de la interpretacion de una imagen como una funcion discreta.La segunda y tercera son parte de un proceso de normalizacion para lograr la invarianza de losmomentos de Zernike ante traslaciones y escalamientos (ver sec. 2.5.1 ) . Luego se extraen losmomentos de Zernike, ahora discretizados. Finalmente, tras la extraccion de los momentos sedefiniran los descripores de momentos complejos de Zernike para una imagen.

Como novedad, incluımos en esta seccion del trabajo una metodologıa para la seleccion delangulo utilizado en la correccion de fase. Se la explicara en detalle de forma conjunta con el restode las etapas.

2.5.1. Centrado y escalamiento: invarianza ante traslaciones y escala-mientos

Para conseguir que los momentos de Zernike (Ec. 2.6) sean invariantes tanto a la traslacioncomo la escala de imagenes se recurre a un preprocesamiento de la imagen antes de extraer susmomentos. Durante el mismo se realiza un centrado y un escalamiento de la imagen para que lasmismas sean uniformes.

La invarianza ante traslaciones se consigue trasladando la imagen de manera tal que el centroidede la/s figura/s coincida con el centro de la imagen. Para obtener esto alcanza con transformarla imagen en una cuyos momentos regulares (Ec. 2.2) m10 y m01 sean ambos iguales a 0 (cero).Recordemos f es la imagen en escala de grises y los momentos regulares, ahora discretos, m00 ,m01 y m10 se corresponden con las siguientes ecuaciones:

m00 =∞∑−∞

∞∑−∞

f(x, y) (2.13)

19

Page 26: Tesis de Licenciatura

Descriptores basados en momentos de Zernike

m01 =∞∑−∞

∞∑−∞

yf(x, y) (2.14)

m10 =∞∑−∞

∞∑−∞

xf(x, y) (2.15)

La transformacion a aplicar es tal que cumple la siguiente ecuacion:

g′(x, y) = f(x+m10

m00, y +

m01

m00) (2.16)

La invarianza ante escalamientos se alcanza agrandando o achicando la imagen hasta llevara su momento m00 a un numero fijo preestablecido. Este numero lo llamaremos β, acorde a labibliografıa, y esta intimamente ligado a la cantidad de pıxeles que puede tener la imagen. Sise trata de una imagen binaria es exactamente eso. Se puede mostrar que dada a =

√βm00

, latransformacion correspondiente para conseguir m00 = β es:

g′(x, y) = f(x

a,y

a), (2.17)

de la combinacion de (Ec. 2.16) y (Ec. 2.17) , se obtiene una unica transformacion a la cualllamaremos normalizacion de la imagen. La misma es:

g′(x, y) = f(x

a+m10

m00,y

a+m01

m00). (2.18)

Luego de este proceso de normalizacion podemos decir que los momentos de Zernike son inva-riantes frente a traslaciones, escalamientos y rotaciones, dado un β adecuado. Algunos ejemplosde imagenes normalizadas:

Imagen original Imagen normalizada

Tabla 2.3: Imagenes normalizadas segun la ecuacion 2.18.

20

Page 27: Tesis de Licenciatura

Descriptores basados en momentos de Zernike

2.5.2. Calculo de los momentos complejos de Zernike

Al abordar el problema de extraer los momentos complejos de Zernike aparecen dos inconve-nientes. Consideramos una imagen como una funcion f : R2 → C, el origen esta en el centro de laimagen i. Ademas, consideraremos a fi : [−1, 1]× [−1, 1]→ C. Donde, al tratarse de una funciondiscreta el dominio de fi esta limitado por la definicion de la imagen. Los momentos complejos deZernike, ahora discretos, siguen la ecuacion:

Anm =n+ 1π

∑ ∑x2+y2≤1

f(x, y)Vnm(x, y)∗ (2.19)

Limitaciones en el calculo de los momentos de Zernike

Existen algunas dificultades que surgen a la hora de calcular los MZ y no son propias de losmismos. La primera es consecuencia directa del metodo escogido para centrar la imagen, segunlo mencionado anteriormente(ver sec. 2.5.1 ) . Un ejemplo claro donde esta eleccion perjudica elcalculo de momentos de una imagen es el incluido en la figura 2.11. La diferencia entre ambasimagenes es la recta que aparece como una extension del cırculo en la imagen 2.11a. Esta recta eslo suficientemente larga como para desplazar el centroide de la imagen y cambiar el valor de losMZ, alejando las imagenes. Ası, un punto debil en la adaptacion actual es que la incorporacionen la imagen de cualquier elemento que desplace el centroide de la imagen cambiara de maneraradical el valor de los MZ de la misma. Que tan similares deberıan ser estas figuras es, en principio,una discusion subjetiva.

(a) (b)

Figura 2.11: Se observan dos figuras donde 2.11a es 2.11b con una recta agregada. Segun sediscutio en la introduccion (ver sec. 1 ) nuestra mente tiende a agrupar estas imagenes, ¿deberıanasemejarse sus MZ ?

La segunda limitacion surge tras el abandono de un formalismo continuo (integrales) por lasaproximaciones discretas (sumatorias). Aunque estas sumatorias siempre van entre −1 y 1, lacantidad de terminos podrıa variar segun la cantidad de pıxeles de las imagenes. El aumentoo disminucion en la cantidad de terminos de la sumatoria introduce variaciones en los valoresdevueltos por los MZ. Si bien, tras realizar el escalamiento (ver sec. 2.5.1 ) , imagenes similaresdeberıan tomar tamanos(cantidades de pıxeles) similares, esto puede no ser siempre cierto(Fig.2.12) . Segun mencionamos en la introduccion nuestra mente tiende a completar las imagenes paraconseguir lo que considera formas simples, si los momentos de estas imagenes difieren en demasıano sera trivial detectar estas semejanzas de manera computacional.

A lo largo del trabajo nuestros metodos intentaran apalear parte de estas limitaciones. Sinembargo, muchas soluciones son parciales, por ejemplo si se acota el diametro del cırculo unitarioa una cantidad fija de pıxeles, existiran imagenes cuya distribucion fuerce a ciertas partes de lamisma a escapar del area de analisis, lo cual tendra como consecuencia que los MZ sean ciegos aesa parte de la imagen.

2.5.3. Correccion de fase de los momentos complejos de Zernike

En busca de conseguir la invarianza ante rotaciones en la fase de los MZ es necesario aplicaruna transformacion a los MZ una vez extraıdos, segun se menciono en la seccion anterior 2.3.1.

21

Page 28: Tesis de Licenciatura

Descriptores basados en momentos de Zernike

(a) (b)

Figura 2.12: Siguiendo lo que algunos denominan ley de cierre nuestro cerebro tiende a completarlos espacios vacıos de 2.12a para acercarlo a 2.12b, ¿deberıan asemejarse sus MZ ?

Aquı incluımos la misma (Ec. 2.11) :

A′nm = Anm exp(−imθn0,1). (2.20)

La correccion requiere se seleccione una fase, θn0,1, perteneciente a un momento, An0 1, y debeser el mismo para todas las imagenes.

De las posibles fases para realizar la correccion parece ser conveniente escoger aquella cu-yo MZ es de menor orden(n0 lo mas chico posible), segun lo mencionado en un trabajo ante-rior [LLP09]. En la practica, el primer MZ util es A3 1 y es el sugerido en [LLP09]. Sin embargo,esta eleccion presenta un inconveniente, fruto de la posibilidad de que exp(−imθn0,1) tienda a0 y las limitaciones propias de la aritmetica finita tanto en la correccion, como en la busquedasposteriores. Dependiendo de la plataforma sobre la que se desarrolle el sistema, los MZ de unaimagen pueden tomar valores tales como: inf,-inf o NaN, al aplicarse la correccion por algun valorparticular de fase. Esto representa un inconveniente pues muchas imagenes relevantes o inclusola misma query pueden resultar en un vector no numerico, imposibilitando su comparacion. Porello, no es adecuado fijar un MZ para realizar las correcciones.

2.5.4. Construccion de los descriptores de momentos de Zernike

A continuacion damos una definicion para los descriptores de momentos complejos de Zerni-ke(dMZ ). Sobre la misma versa el desarrollo presentado en el trabajo. Comencemos definiendo lafuncion #dmz tal que dado un n nos dice cantidad de MZ validos de orden menor o igual a An n.

Definicion 3. Sea #dmz : N0 → N una funcion tal que

#dmz(0) = 1 (2.21)

#dmz(n) = bn2c+ 1 + #dmz(n− 1). (2.22)

Lema 3. Dado n ∈ N0, #dmz(n) es igual a la cantidad de MZ validos de orden menor o igual aAn n.

Demostracion. Demostraremos esta propiedad por induccion sobre n.

Supongamos n = 0,

Sabemos los polinomios de Zernike validos con n ≤ 0 son los Vnm tal que

0 ≤ n, | m | ≤ n, n− | m | es par

por definicion (Def. 1 pag. 7) . Entonces existe un unico Vn m tal que se cumplen las con-diciones dadas y es V0 0. Por tanto existe un unico MZ y es A0 0. Ademas sabemos que#dmz(0) = 1 por definicion. Entonces, vale la igualdad para n = 0.

22

Page 29: Tesis de Licenciatura

Descriptores basados en momentos de Zernike

Valiendo la propiedad para n queremos ver que se cumpla para n+ 1,

Por hipotesis inductiva, sabemos que #dmz(n) es la cantidad de MZ tal que el orden esmenor o igual a An n. Para cumplir la propiedad, debemos sumar la cantidad de MZ validosque son de la forma An+1 m con m tal que 0 ≤ n+1, | m | ≤ n+1, n+1− | m | es par.Entonces:

� Si n+1 es par,m puede tomar todos los valores pares entre 0 y el mismo n, incluyendolos.Son entonces n+1

2 +1 posibles valores. O como n es par, esto es equivalente a : bn+12 c+1.

� Si n + 1 es impar, m puede tomar todos los valores impares entre 1 y el mismo n,incluyendolos a ambos. Entonces bn+1

2 c+ 1 posibles valores.

O lo que es equivalente, la cantidad de MZ menores o iguales a n + 1 es equivalente abn+1

2 c+ 1 + #dmz(n+ 1− 1), como querıamos demostrar.

Extendemos a la funcion #dmz, para que ahora nos devuelva la cantidad de MZ de ordenmenor o igual a un n y m dados.

Definicion 4. Sea #dmz : N0 × N0 → N una funcion tal que:

#dmz(n,m) = #dmz(n)− n−m2

(2.23)

donde n y m cumplen con 0 ≤ n, | m | ≤ n, n− | m | es par (Def. 1 pag. 7) .4

A continuacion presentamos los descriptores de momentos complejos de Zernike(dMZ ).

Definicion 5. Definimos un descriptor de momentos complejos de Zernike(dMZ) para una imagen

I, como un vector−→ZIN , tal que

−→ZIN ∈ C#dmz(N)

(∀n,m ∈ N0, n ≤ N, | m | ≤ n, n− | m | mod 2 = 0)−→ZIN (#dmz(n,m)) = AIn m

Finalmente en la seccion anterior se presento una problematica (ver sec. 2.5.3 ) , esta verso sobrela imposibilidad de utilizar cualquier MZ para realizar la correccion de fase planteada en [LLP09].Como solucion al dilema planteado por la indefinicion de algunos dMZ tras la correccion de fase,optamos por conservar por imagen una coleccion de descriptores de momentos de Zernike. LosdMZ que forman parte de la coleccion de descriptores de una imagen se distribuyen de la siguienteforma:

Se conserva el−→ZIN original, sin realizar ninguna correccion.

Ademas, por cada AIn 1 ∈−→ZIN , se conserva una copia realizando la correccion de fase por

An 1.

Esto nos da un total de dN2 e+ 1 descriptores por imagen. Por ejemplo supongamos N = 30, el

descriptor−→ZI30 tiene 13 MZ que cumplen lo pedido para realizar realizar la correccion por fase, son

de la forma An 1. Por tanto, en este caso se conservaran 14 dMZ por imagen: uno sin corregir(parautilizar si el resto cuenta con valores indefinidos) y el resto, corregidos cada uno por una de lasfases posibles.

4Es posible escribir #dmz(n,m) de manera equivalente como #dmz(n,m) =n(n+1)

2 −dn2 e2

+ n + 1 − n−m2

. Seeligio la representacion recursiva por parecer mas intuitiva.

23

Page 30: Tesis de Licenciatura

Descriptores basados en momentos de Zernike

Si bien conservamos una coleccion de dMZ por imagen, las comparaciones se haran escogiendoun unico dMZ por imagen. El dMZ a utilizar por imagen(o, de manera equivalente, el MZ porel cual se realizara la correccion de fase) sera aquel que cumpla las siguientes condiciones para laimagen referencia de busqueda:

1. No tome valores indefinidos.

2. Haya sido corregido por el An 1 de menor n valido.

3. Si no existe fase para la cual no se indefina ningun valor, utilizaremos el dMZ sin corregir.

4. (opcional) Arroje resultados de interes o una cantidad de resultados mınima.5

De esta forma determinamos el descriptor a utilizar por las imagenes, una vez escogida laimagen referencia. Por ejemplo, si el dMZ de nuestra imagen de referencia se indefine cuandorealizamos la correccion de fase por A3 1 y no sucede esto cuando corregidos con A5 1. Entoncesutilizaremos los dMZ corregidos con A5 1 a la hora de comparar entre la imagen referencia y elresto.

5Fue ideado para sistemas que interactuan con operarios especializados. No se utilizo en los casos de pruebas.

24

Page 31: Tesis de Licenciatura

Capıtulo 3

Metricas propuestas

Perceptualmente nos es muy simple decidir si una imagen es igual a otra. Incluso si unaimagen es levemente distinta (por ej. : tiene los bordes redondeados) aun coincidimos en que escasi igual. Sin embargo, cuando las imagenes dejan de ser tan parecidas nos suele ser imposibleaunar criterios (Fig. 3.1) . Por esto nos es muy difıcil caracterizar el parecido de las imagenes deun modo matematico. Recurrimos, entonces, a diversas aproximaciones que nos permitan obtenerresultados que se ajusten a nuestra percepcion de parecidos.

(a) (b) (c)

Figura 3.1: No es sencillo distinguir grados de similaridad entre imagenes, ¿ Cual de las dosimagenes es “mas parecida” a la query (a)?

En la literatura existen dos tipos de metodologıas propuestas para hallar las imagenes similaresa una dada utilizando dMZ : las basadas en la aplicacion de una distancia a la reconstruccion delas imagenes [KH90] y aquellas que proponen directamente una distancia sobre los dMZ [LLP09,RLB09]. El proceso de reconstruccion de una imagen a partir de sus MZ es un proceso costosoque introduce aun mas errores numericos, en consecuencia las soluciones presentadas a lo largo deeste trabajo tienen como objetivo encontrar una medida de distancia entre los MZ y no sobre lareconstruccion de una imagen a partir de los mismos. A lo largo de este capıtulo buscamos definiruna distancia, d : CN × CN → R, tal que al comparar dMZ de dos imagenes distintas se cumplaque :

Si se trata de imagenes perceptualmente iguales sean cercanas para d (cercana a 0).

Si, por el contrario, se trata de imagenes muy diferentes sean lejanas para d.

Finalmente, las imagenes intermedias deberıan seguir un ranking perceptualmente coherente.

Por tanto comenzamos presentando un conjunto de metricas diferentes para luego realizarcomparaciones entre ellas. Nos vamos a valer de una base de datos de 8000 imagenes, subconjuntode una base de datos real de elementos figurativos de marcas(logos). Para cada una de estasimagenes se generaron sus dMZ segun lo dicho en el capıtulo anterior (ver sec. 2.5.4 ) .

25

Page 32: Tesis de Licenciatura

Metricas propuestas

3.1. Metrica de referencia

Nos resulta interesante contar con una metrica que nos sirva de referencia para compararnuestros resultados. Si bien existen varias metricas en la actualidad sobre los MZ [KH90, LLP09,RLB09], nos compararemos con una de las metricas con mejores resultados y mas recientes en elarea, para tener resultados equiparables con el estado del arte actual. La metrica de referenciaes la propuesta en un trabajo de Shan li et al. [LLP09]. Ademas de ser reciente(Abril 2009), sumetodologıa es similar a las de las metricas propuestas por nosotros y posee una implementacionsencilla.

La medida de similaridad propuesta en [LLP09] se basa en comparar los dMZ por fase y modulode manera separada para luego alcanzar un numero final, ponderando estos dos resultados.

Distancia angular

Con la siguiente definicion se obtiene un numero representativo de la distancia angular entredescriptores de MZ.

Definicion 6. Definimos la distancia angular (Dφ) entre dos descriptores de MZ, −→xN y −→yN , dela siguiente forma:

Primero se define−→dφ

1 como el vector de diferencias angulares entre componentes, tal que,

−→dφ(i) =

(−→xφN (i)−

−→yφN (i)) mod π

π∀i ≤ #dmz(N)

Donde−→xφN (i) es la componente angular del numero complejo −→xN (i) y lo mismo para

−→yφN (i).

Definimos la distancia angular total, Dφ, como :

Dφ =1

#dmz(N)

√√√√#dmz(N)∑i=1

−→dφ2(i) (3.1)

Distancia de modulos

A continuacion definimos la distancia entre modulos segun [LLP09].

Definicion 7. Para clarificar la notacion, primero se define−→dρ como el vector de diferencias entre

componentes de dos descriptores de MZ, −→xN y −→yN , tal que,

−→dρ(i) =

−→xρN (i)−

−→yρN (i)

max(−→xρN (i),

−→yρN (i))

∀i ≤ #dmz(N)

Donde−→xρN (i) es el modulo del numero complejo −→xN (i), lo mismo corre para

−→yρN (i).

Se define, entonces, la distancia total entre modulos (Dρ) como :

Dρ =1

#dmz(N)

√√√√#dmz(N)∑i=1

−→dρ2(i) (3.2)

1toma valores entre [0,1]

26

Page 33: Tesis de Licenciatura

Metricas propuestas

Distancia total

Finalmente dados dos descriptores de MZ la distancia propuesta en el trabajo [LLP09] se definede la siguiente manera.

Definicion 8. Definimos la distancia de Shan Li (Dα) entre dos descriptores de MZ, −→xN y −→yN ,como una suma ponderada de las funciones antedichas (Ec. 3.1) (Ec. 3.2) :

Dα = αDρ + (α− 1)Dφ (3.3)

Donde α es un parametro que debe ser definido posteriormente.

En [LLP09] se sugiere utilizar α = 12 , quedando la distancia de Shan Li expresada como,

D 12

=Dρ +Dφ

2(3.4)

A lo largo del trabajo utilizamos esta ultima version de la distancia de Shan Li et al..

3.2. Primera aproximacion

Definimos a los descriptores de MZ (dMZ ) como vectores complejos (ver sec. 2.5.4 ) . Ademas,pudimos ver que imagenes similares respetan una distribucion similar en los valores de sus MZ (versec. 2.4.2 ) . Entonces, intentando capturar esta similaridad debemos prestar atencion a dos fac-tores: la cercanıa de los valores de cada dMZ (distancias intraMZ ) y las distancias relativas entrelos dMZ (distancias intraMZ ).

Imaginemos que contamos con dMZ de la forma−→Zi1 para una serie de imagenes, ası cada

descriptor tendra unicamente 2 valores2 y sera un segmento sobre el plano (Fig. 3.2) . La distanciapropuesta debe obtener los segmentos que mas se asemejan a uno dado, prestando atencion a ladistancia intra e inter dMZ. Para la primera, mirando el ejemplo de la figura (Fig. 3.2) , surgela idea de utilizar la norma 2 del vector. Para la segunda, se puede pensar en alguna funcion dedistancia entre vectores complejos. Parece acertada la idea intuitiva de que dos segmentos cuyosmodulos difieren pertenecen a imagenes distintas y, a su vez, dos imagenes cuyos valores de MZ sonmuy distintos tambien deberıan ser diferentes.

Siguiendo esta lınea se propuso utilizar dos funciones para la comparacion de descriptores deMZ, las mismas son :

d‖·‖ : Dados descriptores de MZ u y v, se define la diferencia entre sus normas como,

d‖·‖(u, v) = |‖u‖ − ‖v‖| (3.5)

Donde ‖· ‖ es la norma euclidiana de los vectores (ver apendice A pag. 75) .

deucl : Dados dos descriptores de MZ, u y v, se define la distancia euclidiana como (ver apendiceA pag. 75) ,

deucl(u, v) = ‖u− v‖ (3.6)

Tras esto surge una serie de incognitas :

¿ Es posible prescindir de alguna de d‖·‖ o deucl?

La respuesta a esta pregunta surge de analizar los resultados obtenidos tras la ejecucionde algunas consultas sencillas sobre la base de datos de dMZ (ver sec. 3 ) . En particular,mostramos dos consultas que tomaron como query la misma imagen(Fig. 3.3) resaltada con

2#dmz(1) = 2

27

Page 34: Tesis de Licenciatura

Metricas propuestas

(a)

Figura 3.2: Representacion de descriptores de momentos de Zernike de dos dimensiones comosegmentos en el plano. Se diferencia entre los dMZ pertenecientes a imagenes potencialmentesimilares y aquellos pertenecientes a imagenes distintas.

un cırculo verde en las graficas. La primera de estas dos consultas busco a las 100 imagenesmas proximas a la query segun d‖·‖ (Fig. 3.4) . Mientras que la segunda hizo lo mismo pero,esta vez, comparando con deucl (Fig. 3.5) . En ambas consultas los resultados arrojan a laimagen query como la mas cercana a sı misma, primer posicion. Sin embargo muchas otrasimagenes, casi identicas, han quedado demasiado lejos, se resalto con un cırculo rojo a lamas lejana en cada caso. Estas imagenes no son necesariamente las mismas en ambos casos,sin embargo deberıan quedar siempre en posiciones mas bajas, cercanas a la query. Ademashay casos en los que ni siquiera se incluyen todas las imagenes “iguales” a la query entre losresultados.

Figura 3.3: Utilizaremos esta imagen a lo largo de la seccion como imagen referencia en lasdiferentes busquedas(query). Notar el parecido con el logo de una gaseosa lıder del mercado.

Por tanto, parece que no es posible trabajar unicamente con una de estas funciones, al menosno en estas condiciones.

¿ Es posible sumar estas metricas para conseguir una tercera como hace Shan Li et al.(Ec.3.3) ? Lo que debemos constatar para responder este interrogante es si sirve plantear unafuncion de distancia sobre los dMZ que sea de la forma:

Dα = α d‖·‖ + (α− 1) deucl α 6= 0 ∧ α 6= 1 (3.7)

Con d‖·‖, deucl ∈ [0, 1]. En busca de comprobar el buen desenvolvimiento de esta posi-bilidad realizamos varias pruebas con diferentes valores de α, utilizando una funcion en

28

Page 35: Tesis de Licenciatura

Metricas propuestas

Figura 3.4: 100 primeras imagenes tras ordenarlas segun la diferencia de la normaeuclidiana(d‖·‖). Se puede observar la imagen referencia resaltada con un cırculo verde(Fig.3.3) . Con un cırculo rojo se resalto la imagen igual mas lejana. Aparecen 11 de las 16imagenes con diferencias mınimas respecto de la query en la base de datos.

29

Page 36: Tesis de Licenciatura

Metricas propuestas

Figura 3.5: Ranking obtenido ordenando las imagenes por la norma de la diferencia(deucl).Seresalto la la imagen referencia resaltada con un cırculo verde(Fig. 3.3) . Mientras que la ima-gen igual mas alejada en el ranking aparece marcada con un cırculo rojo. En contraposicioncon la figura 3.4, aquı aparecen las 16 imagenes iguales a la referencia.

30

Page 37: Tesis de Licenciatura

Metricas propuestas

(a) (b) (c)

Figura 3.6: Representacion de los dMZ de dos dimensiones como segmentos en el plano. Sefiltran sacando los dMZ mas lejanos a la query, segmento rojo, primero por d‖·‖ y luego pordeucl. (a) Universo inicial de dMZ como segmentos en el plano; (b) dMZ sin aquellos quedifieren en d‖·‖; (c) dMZ resultantes de extraer los mas lejanos segun deucl.

MATLAB(ver apendice B.1.2 pag. 76) similar a la utilizada para generar los graficos de lasfiguras 3.4 y 3.5. Lamentablemente no se pudo conseguir resultados que superen a los conse-guidos anteriormente, incluso hubo muy pocos casos en los que se obtuvo entre las primeras100 imagenes todas las iguales a la query.

¿ Existe alguna combinacion algorıtmica que nos permita conseguir buenos resultados?

Esta es la lınea que sigue gran parte del trabajo, a continuacion detallaremos lo que sera unprimer intento de proponer una metrica de este modo.

La idea por la que sugerimos estas metricas fue la nocion de distancias inter e intra MZ.Deseamos obtener aquellas imagenes cuyos MZ tengan una distribucion similar a los de la queryy, ademas, sean cercanos en el espacio. Entonces que sucede si realizamos un algoritmo en dospasos de la siguiente forma :

1. Tomamos el β% de la imagenes en la base de datos cuyos descriptores de MZ son los mascercanos en funcion de d‖·‖. A modo ilustrativo, en la figura 3.6b podemos ver que sucederıade aplicar este paso a la figura de los segmentos (Fig. 3.6a) .

2. Luego, sobre ese β%, nos quedamos con las n imagenes mas cercanas segun deucl. En lafigura 3.6c se ve que sucede al aplicar este paso a la figura anterior (Fig. 3.6b) .

Este es el primer metodo propuesto, el cual tiene su reflejo en una funcion de MATLAB (verapendice B.1.2 pag. 77) . Podemos ver los resultados entregados dada una query (Fig. 3.3) parala base de datos con β = 10 y n = 100 (Fig. 3.7) . Como se puede apreciar en la figura, de las16 imagenes casi identicas a la query que figuran en la base de datos, podemos encontrar a lamas lejana en la posicion 28 (resaltada con un cırculo rojo). Esto se contrapone con los resultadosanteriores, en los que no aparecıan todas estas imagenes, rondaban posiciones mucho mas altasy/o no se agrupaban.

Un aspecto computacionalmente interesante de este metodo es la posibilidad de reducir elespacio de imagenes con que se trabaja de un modo rapido(orden de complejidad sublineal o lineal).

31

Page 38: Tesis de Licenciatura

Metricas propuestas

Figura 3.7: Resultados arrojados tras ordenar por d‖·‖ y tomar el 10 % mas cercano a la query(Fig. 3.3) . Luego se conformo el ranking final ordenando este 10 % por deucl. Se indica la query conun cırculo verde y, con un cırculo rojo, se resalto la imagen igual mas lejana en el ranking. Las 16imagenes con diferencias mınima estan ahora mas cerca de la query que en resultados anteriores,por ejemplo al utilizar unicamente deucl (Fig. 3.5) .

32

Page 39: Tesis de Licenciatura

Metricas propuestas

Esto se debe a que la norma euclidiana de un dMZ puede ser precalculada pues no depende deningun factor ajeno al mismo. Entonces manteniendo ordenandos los dMZ por su norma euclidianaes muy sencillo obtener un n% de la base de datos segun su cercanıa con la query. Es decir, realizarel paso correspondiente a d‖·‖ con un orden de complejidad sublineal respecto a la cantidad dedMZ.

33

Page 40: Tesis de Licenciatura

Metricas propuestas

3.3. Segunda aproximacion

Utilizar los MZ de una imagen de orden alto, por ejemplo A20 20, trae consigo ciertas difi-cultades. En un primer lugar existe una complejidad computacional, no es trivial calcular estosmomentos con una precision adecuada. Sin embargo es posible sortear las dificultades referentes acalculos, existen diferentes trabajos al respecto [AEBN05].

La segunda dificultad, es fruto de la definicion misma de los MZ. Hemos visto, como unapropiedad, a medida que avanza el orden de los MZ estos se ven cada vez mas afectados por losdetalles de las imagenes y como consecuencia, por el posible ruido que pueda contener una imagen(ver sec. 2.4.1 ) . Para atacar este problema se incorpora a la metrica anterior(ver sec. 3.2 ) unnuevo proceso que busca balancear la importancia de los momentos segun su orden.

3.3.1. Ponderacion de los momentos complejos de Zernike

Segun vimos es posible observar como a medida que aumenta el orden de los MZ estos sonmas afectados por el ruido en una imagen (ver sec. 2.4.1 ) [KH90]. Y si bien los momentos demayor orden son importantes, uno quisiera restarle importancia frente a los momentos de ordeninferior, aquellos que toman en cuenta de manera general a la imagen. Recordemos la distribucionque tienen los MZ, An m, que conforman nuestros dMZ :

∗ 0 1 2 3 · · · m0 A0 0 − − − · · · −1 − A1 1 − − · · · −2 A2 0 − A2 2 − · · · −3 − A3 1 − A3 3 · · · −...

......

......

. . ....

n An 0 − An 2 − · · · An n

Podemos observar como los momentos validos se encuentran por debajo de la diagonal, in-cluyendola. Ademas, de secciones anteriores(ver sec. 2.4.1 ) , conocemos los siguientes factores:

n− | m | es par , | m | ≤ n.

La cantidad de anillos es igual a n−m2 +1. Los anillos determinan que puntos seran analizados

y a medida que sumamos anillos nos concentramos unicamente en ciertas franjas del cırculounitario.

La cantidad de ciclos de la fase en el cırculo unitario es igual a m.

Dado un n fijo, parece ser m quien determina cuan afectado por el ruido se vera un momentoparticular. Como conclusion intentamos conseguir una ponderacion de los MZ proponiendo unnuevo proceso de adaptacion para los mismos. Este consiste en aplicar una funcion heurıstica queasigna un peso a los modulos conforme el orden del momento, prestando especial atencion a m.La adaptacion propuesta es la siguiente :

A′nm = Anm exp(−#dmz(n,m)m| sin(θn0 1)|) (3.8)

Donde:

#dmz es (Ec. 2.23) :

#dmz(n,m) =n(n+1)

2 − dn2 e2

+ n+ 1− n−m2

#dmz tambien es equivalente a listar los momentos utiles ordenados primero por n y luegopor m ({A0 0, A1 1, A2 0, A2 2, · · · , An n}) y devolver la posicion que ocupan en esta listaordenada.

34

Page 41: Tesis de Licenciatura

Metricas propuestas

θ es el angulo utilizado para la correccion de fases (ver sec. 2.5.3 ) .

3.3.2. Metodo propuesto

Es posible incorporar la ponderacion al momento de calcular el descriptor de MZ de una imagenparticular. Por tanto, podemos decir que la metrica sigue siendo aquella propuesta en la seccionanterior 3.2. Sin embargo, esta vez, sera alimentada con descriptores de MZ a los cuales se los hacalculado utilizando esta nueva adaptacion. Considerando estos cambios el proceso de extraccionde MZ (Fig. 2.10) se extiende, tomando la siguiente forma :

Figura 3.8: Proceso de extraccion de MZ con la ponderacion propuesta.

Para evaluar los resultados de esta mejora al proceso de busqueda se implementaron una seriede funciones de MATLAB (ver apendice B.1.2 pag. 77) . Gracias a ello, podemos ver los resultadosentregados dada una query (Fig. 3.3) para la misma base de datos de 8000 imagenes, tambiencon β = 10 y n = 100. El resultado (Fig. 3.9) presenta algunas caracterısticas que lo destacan porsobre los resultados anteriores (ver Figuras 3.7, 3.4 y 3.5). A diferencia de los casos anteriores, sepuede apreciar en la figura :

Las 16 imagenes casi identicas a la query, que figuran en la base de datos, se encuentranagrupadas en las primeras posiciones. De hecho, podemos encontrar la mas lejana en laposicion 16 (resaltada con un cırculo rojo).

Entre las 100 imagenes mas parecidas segun la metrica se puede encontrar imagenes consi-deradas similares(no iguales). Se indica una dentro de un cuadrado de fondo celeste.

Podemos concluir que darle un mas peso a los momentos de orden menor ofrece una mayorinvarianza ante cambios perceptualmente sutiles de las imagenes.

35

Page 42: Tesis de Licenciatura

Metricas propuestas

Figura 3.9: Partiendo de dMZ ponderados segun se propuso en la seccion 3.3.1, se ordenaronlos mismos por d‖·‖ y se tomo el 10 % mas cercano a la query (Fig. 3.3) . Se continuo formandoun ranking ordenando el 10 % extraıdo por deucl. Se procedio a indicar: la query con un cırculoverde, con un cırculo rojo la imagen igual mas lejana y dentro de un cuadrado celeste una de lasimagenes similares.

36

Page 43: Tesis de Licenciatura

Metricas propuestas

3.4. Tercer aproximacion

Recordemos hemos definido a nuestros descriptores de MZ como puntos en el espacio−→ZiN ∈

C#dmz(N)(Def. 5) . Tomemos los dMZ por imagen tal que−→ZiN ∈ C1, tendremos entonces puntos en

el plano complejo. Al aplicar los metodos de las aproximaciones anteriores, estamos descartandoaquellos puntos lejanos primero por d‖·‖(franja verde) y luego por deucl (cırculo rojo)(Fig. 3.10) .Sin embargo, es valido preguntarse si es correcto suponer, cuando las dimensiones crecen, la nocionde cercanıa sigue valiendo. Ademas el crecimiento en las dimensiones trae como consecuencia unaumento considerable en la cantidad de calculos.

Figura 3.10: Representacion de los dMZ en una dimension en el plano. Se diferencia entre losdMZ pertenecientes a imagenes potencialmente similares(puntos verdes) y aquellos pertenecientesa imagenes distintas(puntos negros). Se indica el resultado de filtrar los dMZ por d‖·‖(cırculoverde) y luego por deucl(cırculo rojo).

Por ello, es valido preguntarse si todos los MZ tienen la misma relevancia a la hora de comparardescriptores de Zernike. En la seccion anterior (ver sec. 3.3 ) establecemos que las variaciones enlos MZ de mayor orden son menos importantes. Sin embargo esta aproximacion no nos permitereducir las dimensiones de nuestro problema. Tampoco responde a la pregunta sobre si existeo no interdependencia entre los MZ, es decir, si dos MZ estan correlacionados de algun modo.En esta aproximacion intentaremos eliminar la correlacion lineal entre los MZ aplicando unatecnica muy utilizada en diferentes areas, conocida como descorrelacion de dimensiones (whiteningprocess) [Fuk90].

3.4.1. Analisis de componentes principales (PCA)

Se trata de una tecnica introducida por Kenneth Pearson [Pea01] en busca de describir ladispersion de una nube de puntos proyectandola en un subespacio elegido cuidadosamente. Estesubespacio captura la maxima varianza de nuestras muestras en cada una de sus dimensiones,descorrelacionandolas linealmente. El proceso de whitening es un proceso habitual para conseguirmuestras distribuıdas de forma normal, logrando que la matriz de covarianza de las muestras seala matriz identidad. Dado un vector, v, la transformacion queda dada por la siguiente ecuacion:

v = (ΦΛ−12 )T v (3.9)

Donde se cumple, dada Σ matriz de covarianza de n× n:

Φ es una matriz formada por los autovectores [φ1...φn] de Σ.

Λ es una matriz de ceros con los autovalores λ1 · · ·λn en la diagonal.

Existen resultados que generalizan PCA para trabajar con numeros complejos(CPCA[Hor84]),en los cuales se muestra que no es necesario ningun cambio al formulamiento original.

37

Page 44: Tesis de Licenciatura

Metricas propuestas

Calculo de la matriz de covarianza (Σ)

Parte fundamental de PCA es aproximar Σ de la manera mas precisa posible. Dado un conjuntode muestras γ0, γ2, · · · , γn (descriptores de MZ ) definimos la distancia, φi, al descriptor promediocomo

φi = γi − ψ (3.10)

donde ψ es la muestra promedio tal que ψ = 1n

∑ni=0 γi. Entonces se utiliza como matriz de

covarianza la resultante de [TP91]:

Σ =1n

n∑i=0

φiφTi (3.11)

3.4.2. Distancia de Mahalanobis

La distancia de Mahalanobis se presenta como una opcion para comparar dos muestras teniendoen cuenta la correlacion entre las dimensiones de las mismas.

Definicion 9. Dadas dos variables aleatorias con misma distribucion, u y v, y con matriz decovarianza Σ se define la distancia de Mahalanobis,

dM (u, v) =√

(u− v)TΣ−1(u− v) (3.12)

Veamos que, tras realizar PCA, la distancia euclidiana (ver sec. 3.3 ) , deucl, es similar a ladistancia de Mahalanobis con la matriz de covarianza Σ perteneciente a los dMZ sin aplicar PCA.

Lema 4. Dados dos dMZ, −→xN y −→yN , queremos mostrar que :

√((ΦΛ

−12 )T−→xN − (ΦΛ

−12 )T−→yN )T ((ΦΛ

−12 )T−→xN − (ΦΛ

−12 )T−→yN ) =

√(−→xN −−→yN )TΣ−1(−→xN −−→yN )

Demostracion. Partiremos de la distancia euclidiana para llegar al otro lado de la igualdad plan-teada. √

((ΦΛ−12 )T−→xN − (ΦΛ

−12 )T−→yN )T ((ΦΛ

−12 )T−→xN − (ΦΛ

−12 )T−→yN ) (3.13)

Miremos ((ΦΛ−12 )T−→xN − (ΦΛ

−12 )T−→yN )T , podemos sacar factor comun (ΦΛ

−12 )T y luego distri-

buir T :

((ΦΛ−12 )T−→xN − (ΦΛ

−12 )T−→yN )T = ((ΦΛ

−12 )T (−→xN −−→yN ))T

((ΦΛ−12 )T (−→xN −−→yN ))T = (−→xN −−→yN )TΦΛ

−12 (3.14)

Ahora podemos realizar algo similar con ((ΦΛ−12 )T−→xN − (ΦΛ

−12 )T−→yN )

(ΦΛ−12 )T−→xN − (ΦΛ

−12 )T−→yN = (ΦΛ

−12 )T (−→xN −−→yN ) (3.15)

Volviendo a la ecuacion original(Ec. 3.13) , utilizando los resultados anteriores (Ec. 3.14) (Ec.3.15) : √

(−→xN −−→yN )TΦΛ−12 Λ

−T2 ΦT (−→xN −−→yN )

Por otro lado sabemos que la matriz Φ es ortogonal y Λ es diagonal, de lo cual se deduceΦT = Φ−1 y Λ

−T2 = Λ

−12 : √

(−→xN −−→yN )TΦΛ−12 Λ

−12 Φ−1(−→xN −−→yN )

38

Page 45: Tesis de Licenciatura

Metricas propuestas

Sabemos que Λ−12 Λ

−12 es equivalente a Λ−1 :√

(−→xN −−→yN )TΦΛ−1Φ−1(−→xN −−→yN ) (3.16)

Por otro lado, la definicion de Φ y Λ asegura que Σ = ΦΛΦ−1, o lo que es equivalente :

Σ−1 = (ΦΛΦ−1)−1 = (Φ−1)−1Λ−1Φ−1 = ΦΛ−1Φ−1

De este resultado y el anterior (Ec. 3.16) obtenemos :√(−→xN −−→yN )TΦΛ−1Φ−1(−→xN −−→yN ) =

√(−→xN −−→yN )TΣ(−→xN −−→yN )

En este nuevo espacio la distancia euclidiana sera equivalente a la distancia de Mahalanobisen el anterior, como querıamos demostrar.

A continuacion, extendemos la distancia de Mahalanobis para utilizarla con numeros complejos.

Definicion 10. Se define la distancia de Mahalanobis para numeros complejos como :

dM (u, v) =√

((u− v)∗)TΣ−1(u− v)

Ademas es sabido que si reemplazamos Σ por una matriz diagonal obtenemos,

dM (u, v) =

√∑i

(ui − vi)∗(ui − vi)λi

(3.17)

Donde λi es el elemento de la columna i sobre la diagonal (Σ(i, i) = λi).Si en el lugar de Σ colocamos la matriz con el desvıo standard de cada una de las variables

aleatorias(dimensiones de nuestro espacio) obtenemos una funcion de distancia normalizada porla varianza de cada dimension. Parece adecuado obtener valores ponderados segun la varianza decada dimension, pues en principio no todas varıan igual y un desplazamiento en una de ellas puedeno significar un cambio perceptual en las imagenes originales. Ademas contamos con esta matrizdiagonal, pues fue calculada cuando se realizo el proceso de PCA, Λ.

3.4.3. Metodo propuesto

Presentamos en esta seccion una extension al metodo anterior incorporando PCA. Pareceacertado incluir el proceso de PCA luego de la realizacion de la ponderacion de la seccion anterior3.3 pues nuestra finalidad es conseguir una reduccion en las dimensiones a utilizar.

Como se puede observar en la imagen(Fig. 3.11) luego de realizar la correccion de fase segunlo propuesto por Shan Li et al. aparecen n descriptores de MZ por cada imagen. Por tanto senecesitaran calcular n matrices de covarianza, algo no trivial si tenemos en cuenta que contamoscon una base de datos que supera las 8000 imagenes.

Se incorporaron en MATLAB una serie de funciones que integran las mejoras propuestas enesta seccion, PCA y la distancia de Mahalanobis (ver apendice B.1.2 pag. 77) . Se incluye unresultado entregado dada una query (Fig. 3.3) para la misma base de datos de 8000 imagenes,tambien con β = 10 y n = 100. El resultado se consiguio utilizando las dimensiones tales quesus autovalores contengan un valor relativo mayor al 0,01 % comparado con el resto, alrededor de208 dimensiones contra las 256 que se utilizaron anteriormente. Ademas se elimino del proceso laetapa de comparacion por d‖·‖. Todo esto colabora a que el metodo sea aun mas veloz que losanteriores y conserva las caracterısticas de los resultados anteriores(Fig. 3.9) . Se puede apreciaren la figura (Fig. 3.12) :

Las 16 imagenes iguales a la query ocupan las primeras 16 posiciones, la mas lejana esta enla posicion 16 (resaltada con un cırculo rojo).

39

Page 46: Tesis de Licenciatura

Metricas propuestas

Imagen

Centrado

Escalamiento

Corrección fase

Cálculo MZ

Ponderación

PCA

X1

.

.

X1

.

.

X1

.

.

X1

.

.

. . .

X1

.

.

X1

.

.

X1

.

.

. . .

X1

.

.

X1

.

.

X1

.

.

. . .

Figura 3.11: Proceso de extraccion de MZ + PCA.

40

Page 47: Tesis de Licenciatura

Metricas propuestas

Imagenes consideradas similares(no iguales), una resaltada por un cuadrado celeste, entrelas 100 imagenes devueltas por el metodo.

41

Page 48: Tesis de Licenciatura

Metricas propuestas

Figura 3.12: Luego de aplicar PCA sobre los dMZ ponderados, se ordenaron unicamente por ladistancia euclideana normalizada por la desviacion standard de cada dimension(dM ) y se sustra-jeron las 100 imagenes mas cercanas a la query (Fig. 3.3) . Al igual que en resultados anteriores(Fig. 3.9) , se conserva la cercanıa de las imagenes iguales a la query y, de forma complementaria,se acercan aun mas algunas imagenes similares. Se procedio a indicar: la query con un cırculoverde, con un cırculo rojo la imagen igual mas lejana y dentro de un cuadrado celeste una de lasimagenes similares.

42

Page 49: Tesis de Licenciatura

Capıtulo 4

Estudios sobre los algoritmos declasificacion propuestos

En el capıtulo 3, presentamos tres metodos diferentes para la busqueda de imagenes similaresbasados en descriptores de momentos complejos de Zernike(dMZ ). En cada uno de estos metodosse presenta una posible variante para los dMZ y se sugiere una funcion distancia a aplicar sobrelos mismos. Las metricas presentadas se pueden resumir como:

dshanli, propuesta por Shan Li et al. consiste, dados dos dMZ cualesquiera, realizar una sumaponderada de las distancias promedio entre los modulos y las fases de ambos vectores (Ec.3.4 pag. 27)

dshanli = βDρ + (β − 1)Dφ =Dρ +Dφ

2,

recordemos que se eligio fijar un parametro β = 0,5 para obtener esta funcion.

Aunque no se incluyen en el trabajo, se hicieron pruebas variando este β sin obtener mejorassignificativas en el rendimiento de la metrica. Sin embargo, si se consiguieron resultadossignificativamente peores para algunos valores de β.

Finalmente debe notarse que el parametro aquı llamado β es indicado como α en la literatura,incluso en la definicion dada anteriormente (Def. 8 pag. 27) .

d‖·‖+eucl, es la distancia resultante de aplicar un filtro buscando los dMZ mas cercanos de acuerdoa la norma euclidiana y luego armar un ranking siguiendo la distancia euclidiana (ver sec.3.2 ) .

dstd, resulta de aplicar la distancia de Mahalanobis para numeros complejos, donde Σ es la matrizdiagonal con el desvıo standard de cada MZ (Def. 10 pag. 39) . La estimacion de Σ se hacea partir de todos los dMZ disponibles en la base de datos utilizada. Suponiendo λi el desvıostandard para el MZ correspondiente, dstd queda de la forma

dstd(u, v) =

√∑i

(ui − vi)∗(ui − vi)λi

,

donde (ui − vi)∗ es el conjugado complejo de (ui − vi) (Def. 11 pag. 75) .

En los estudios realizados se extendio la metrica dstd incluyendo una reduccion de la basede datos utilizando d‖·‖ con una metodologıa similar a la definida para d‖·‖+eucl. Comoresultado, se obtuvo una nueva metrica, d‖·‖+std, la cual primero aplica un filtro buscandolos dMZ mas cercanos de acuerdo a la norma euclidiana y luego arma un ranking siguiendola distancia dstd.

43

Page 50: Tesis de Licenciatura

Estudios sobre los algoritmos de clasificacion propuestos

Complementariamente, se pueden resumir a dos las variantes presentadas en el capıtulo 3. Unaes ponderar los diferentes MZ, dandoles mayor peso a los de menor orden(ver sec. 3.3.1 ) . Lasiguiente consistıa en aplicar el metodo conocido como PCA a los MZ ponderados(ver sec. 3.4.1 ). De la combinacion de estas 3 distancias(dshanli,d‖·‖+eucly d‖·‖+std) con las 2 variantes, surgen 9metricas diferentes(Tabla 4.1) sobre las cuales se experimenta.

Distancias / variantes Correccion de fase Ponderacion Ponderacion + PCAdshanli ◦ ◦ ◦

d‖·‖ + deucl ◦ ◦ ◦d‖·‖ + dstd ◦ ◦ ◦

Tabla 4.1: Se reflejan de manera breve las posibles combinaciones de variantes sobre los dMZ yfunciones de distancia que nos daran las metricas a ser probadas.

Ademas de las metricas, tambien es necesario tener en cuenta ciertos factores que hacen alentorno de evaluacion. Uno de estos factores influyentes, a ser tenidos en cuenta, esta conformadopor la coleccion de imagenes a utilizar en las pruebas. La variacion entre las imagenes de unacoleccion determina el rendimiento de las metricas en cada experimento. Estas pueden hacerhincapie en diferentes aspectos de lo que consideramos similar (basarse unicamente en su forma,informacion de contexto, tratarse de letras iguales, etc.). Si bien uno esperarıa que el desempenode una metrica superior no se vea afectado segun el tipo de imagenes a analizar, es una realidadque la variacion en la efectividad sufrida para colecciones de imagenes distintas varıa en todas lasmetricas. Por ello, en la seccion siguiente se introducen una serie de bases de datos que fueronutilizada a lo largo de los experimentos (ver sec. 4.1 ) .

Finalmente, otro factor determinante versa en la cantidad de MZ que conforman un dMZ o,de forma equivalente, el numero de dimensiones de los dMZ. Si bien, teoricamente, una mayorcantidad de MZ nos provee aun mas informacion sobre la imagen en cuestion, hay dos motivosque tornan engorroso el uso de dMZ con grandes cantidades de dimensiones. En un primer lugar,el aumento en la cantidad de MZ utilizados trae como consecuencia inmediata un aumento enlos costos computacionales. Por tanto, es valioso poder establecer una cantidad de MZ mınima apartir de la cual cada metrica nos provee resultados aceptables. Por otro lado, los MZ de mayororden son mas afectados por el posible ruido en las imagenes y no es sencillo calcularlos [AEBN05].Fruto de estas problematicas se realizaron pruebas con dMZ de diversas dimensiones.

44

Page 51: Tesis de Licenciatura

Estudios sobre los algoritmos de clasificacion propuestos

4.1. Colecciones de imagenes utilizadas en los estudios

Debido a que este capıtulo versa en examinar el desenvolvimiento de diferentes variantes ymetricas propuestas en el capıtulo 3, es esencial escoger una, o varias, colecciones de imagenes quesean representativas del universo para el cual se idearon estas metricas. Debido a que los resultadosde las pruebas estaran estrechamente ligados a la coleccion de imagenes utilizadas, para realizarestos experimentos nos valemos de cuatro bibliotecas de imagenes distintas. Cada una de estasbases de datos fue disenada con una finalidad distinta y busca explotar un costado diferente delas metricas. A continuacion se incluyen algunas de las caracterısticas principales de cada una delas bases utilizadas.

MPEG-7 CE Shape 1[LLE00] : Consiste en una coleccion de 1400 imagenes divididas en 70 clasesde 20 imagenes consideradas similares entre ellas. Esta biblioteca de imagenes fue especial-mente formada para permitir comparar la performance de los diferentes algoritmos basadosen devolucion por similaridad. Se incluye una pequena muestra de la base de datos, la cualconsiste en 16 imagenes pertenecientes a 4 clases distintas (Fig. 4.1) .

ALOI [GBS05] : Se tomo un subconjunto de la base de datos “Amsterdam Library of ObjectImages”, conformando una coleccion de 1480 imagenes divididas en 20 clases de 74 imagenescada una. Cada clase es el resultado de tomar una serie de fotografıas a un objeto girandoalrededor del mismo. Esto nos da una nocion de la performance brindada por estos metodospara devolver imagenes de interes acerca de un objeto particular. A continuacion puedenobservarse algunos de los objetos fotografiados junto con algunas de sus contrapartes en labase de datos (Fig. 4.2) .

MNIST[LC04] : El nombre completo es “THE MNIST DATABASE of handwritten digits”, consisteen una base de datos con algo mas de 50 mil imagenes de dıgitos decimales manuscritos.Se extrajo un subconjunto de 10 mil imagenes, mil por dıgito y se trabajo sobre estas. Laidea de esta biblioteca es proveer una fuente standard para realizar pruebas en deteccion dedıgitos(Fig. 4.3) .

TRADEMARK’S LOGOS : Consiste en una coleccion de 8 mil imagenes que pertenecen a logos demarcas reales (Fig. 4.4) . Esta base de datos fue cedida para el desarrollo del trabajo yconstituye un subconjunto representativo de una base mayor. Aunque al tratarse de unabase de datos real no esta dividida en clases, ni presenta casos de test que la acompanen, sepueden observar resultados interesantes sobre esta que se distinguen de los encontrados enlas otras bases de datos presentadas.

45

Page 52: Tesis de Licenciatura

Estudios sobre los algoritmos de clasificacion propuestos

Figura 4.1: Ubicadas por fila se encuentran algunas muestras de las siguientes clases, en ordendescendente: apple, beetle, camel y device 2. Notar como las imagenes no son siempre similaresentre sı, a priori, uno se vale de informacion de contexto para clasificarlas.

Figura 4.2: Podemos observar por fila una fotografıa correspondiente al objeto original y luego enblanco y negro, por orden de aparicion, una rotada 0°, 90°, 180° y 270°. Al igual que con la base dedatos anterior, uno se basa en informacion de contexto para encontrar similitudes en las imagenespertenecientes a una misma clase, por ejemplo las imagenes de una zapatilla sin rotar y rotandola90° son muy diferentes.

46

Page 53: Tesis de Licenciatura

Estudios sobre los algoritmos de clasificacion propuestos

Figura 4.3: Se observa una pequena muestra de cada uno de los dıgitos decimales que aparecen enla MNIST database[LC04].

47

Page 54: Tesis de Licenciatura

Estudios sobre los algoritmos de clasificacion propuestos

Figura 4.4: Este es un pequeno subconjunto de las imagenes presentes en la base de datos delogos de marcas. Mientras que algunas de ellas son conocidas por todos, otras nos son ajenas.Es importante notar lo diverso de las imagenes presentes en esta base y lo difıcil que se tornaclasificarlas en funcion de su similaridad, incluso para un humano.

4.2. Metodologıa: Bulls-eye Test

Se trata de una de las pruebas mas significativas para comparar metricas distintas y el procedi-miento para llevarla a cabo es sencillo. Dada una base de datos Bcn, donde c se corresponde con lacantidad de clases existentes en la base y n es la cantidad de imagenes por clase, para cada imageni ∈ Bcn se construye un ranking segun el metodo propuesto. Luego se establece la efectividad delmetodo de acuerdo a la cantidad de imagenes pertenecientes a la clase de i entre las 2n image-nes mas cercanas en el ranking. Ası, el 100 % de efectividad es alcanzado por un metodo cuandoal finalizar la prueba con todas las imagenes se detectaron n2c casos positivos. Este metodo decomparacion entre metricas es bastante popular y se considera acertado creer superior a aquellametrica que tiene un mayor porcentaje de efectividad. Sin embargo, se distinguen en esta pruebados falencias inmediatas:

No asigna peso al orden en el cual son devueltos los 2n resultados. Por ejemplo, podrıa existirun k tal que una metrica devolviera n − k elementos de la misma clase, ubicando a todosellos delante en el ranking. Esta clasificarıa peor que otra metrica cuyos resultados incluyann− k + 1 imagenes de la misma clase, pero distribuıdos sobre el fin del ranking (Fig. 4.5) .

Unicamente se puede tener nocion de efectividad con bases clasificadas. Estas tienden a serpequenas en cantidad de clases e imagenes totales si se las compara con las bases de datosexitentes por fuera del mundo academico.

De todas maneras, sigue siendo una de las mejores formas para comparar el rendimiento dedos o mas metricas diferentes y es por este motivo que realizamos diversas pruebas utilizando estemetodo.

En busca de facilitar la lectura, y el entendimiento, de las pruebas realizadas dividiremos losresultados por la variante aplicada a los dMZ antes de comparar las metricas.

48

Page 55: Tesis de Licenciatura

Estudios sobre los algoritmos de clasificacion propuestos

Figura 4.5: Se exponen dos casos en los que la metodologıa bulls-eye test parece no ser deltodo acertada. Supongamos dada una base de datos de dıgitos manuscritos B10

9 y metricasm1,m2 y m3. Cada fila de imagenes, fi, se corresponde con los resultados arrojados trasevaluar la metrica mi, la query es la primer imagen desde la izquierda (siendo la misma enlas 3 filas). Segun la metodologıa bulls-eye test, la efectividad de m2 y m3 es la misma, a pesarde que m3 pone primeros a todas las imagenes de la misma clase. Ademas, la efectividad dem1 es menor a la de m2, unicamente por que m2 devuelve un 0 mas.

49

Page 56: Tesis de Licenciatura

Estudios sobre los algoritmos de clasificacion propuestos

4.2.1. Resultados

Analizaremos ahora puntualmente los resultados obtenidos tras comparar las metricas (Ta-bla 4.1) utilizando las diferentes bases de datos MPEG-7 CE Shape 1, ALOI y MNIST, descriptas enla seccion 4.1. Con MPEG-7 CE Shape 1 se realizaron dos pruebas, una considerando las imagenestal cual estaban en la coleccion original y otra conservando unicamente los bordes de las mismas.Para extraer los bordes de las imagenes pertenecientes a MPEG-7 CE Shape 1 se utilizo el operadorde Sobel.

Resultados utilizando unicamente la correccion de fase

Biblioteca Distancia−→ZI30(256)

−→ZI25(182)

−→ZI15(72)

−→ZI10(30)

β res.( %) β res.( %) β res.( %) β res.( %)

MPEG-7dshanli .5 36.82 .5 38.02 .5 39.02 .5 36.09d‖·‖+eucl 100 61.71 100 61.21 100 60.43 80 56.96d‖·‖+std 40 42.96 40 44.8 40 48.95 40 49.16

MPEG-7(bordes)dshanli .5 42.13 .5 44.12 .5 46.88 .5 43.2d‖·‖+eucl 90 56.41 100 57.1 60 56.95 80 57.07d‖·‖+std 30 40.53 30 42.35 30 46.18 30 48.09

ALOIdshanli .5 64.81 .5 65.45 .5 65.94 .5 63.24d‖·‖+eucl 40 70.34 40 70.6 40 69.98 30 68.16d‖·‖+std 30 60.1 30 60.92 40 62.77 30 65.83

MNISTdshanli .5 36.81 .5 36.08 .5 36.66 .5 38.32d‖·‖+eucl 90 53.32 80 55.02 90 55.81 100 56.78d‖·‖+std 60 32.33 20 33.08 40 33.74 70 37.26

Tabla 4.2: Bulls-eye test sobre las distintas bibliotecas de imagenes (ver sec. 4.1 pag. 45) . Secoloreo el fondo para los mejores resultados obtenidos por fila. β hace referencia a β(0,5) en ladistancia propuesta por Shan Li et al.En las otras funciones de distancia, β hace referencia alporcentaje de imagenes extraıdas luego de ordenar por d‖·‖. Se debe notar como los resultados ded‖·‖+euclson superiores al resto. Mientras que d‖·‖+std toma valores similares a dshanlien la mayorıade los casos.

En la tabla 4.2, se observa como d‖·‖+eucl prevalece por sobre las otras dos metricas rondando el60 % de efectividad, consiguiendo casi un 20 % mas que dshanli en tres de las cuatro colecciones deimagenes aquı utilizadas. Por otro lado, a diferencia de las otras dos metricas, en la mayorıa de loscasos esta aumenta su desempeno a medida que crece la cantidad de momentos. Esto nos inducea pensar que la metrica d‖·‖+eucl se ve afectada en menor medida por el ruido introducido en elcalculo de los MZ de mayor orden posibilitando el incremento en su rendimiento. Ademas, se puedenotar como el rendimiento de dshanli mejora notablemente al cambiar las imagenes por aquellas queunicamente contienen bordes, emparejando el rendimiento de d‖·‖+std(MPEG-7 vs MPEG-7(bordes)).

Si bien no se incluyeron las mediciones de tiempo en esta parte del trabajo, estas se llevarona cabo y es importante resaltar el principal de sus resultados. Mientras que el tiempo promediopara realizar una busqueda utilizando d‖·‖+eucl o dshanli ronda los 200ms, para d‖·‖+std se tieneun tiempo de respuesta de 100ms teniendo en cuenta los parametros con los que se obtienen losmejores resultados en la tabla 4.2. De esto se desprende que el filtro por d‖·‖ reduce los tiemposde ejecucion en gran medida, en este caso a la mitad.

En un analisis mas detallado se compararon los resultados obtenidos por clase (Fig. 4.6) . Lointeresante de este resultado es notar que si bien la mayorıa de las clases difıciles(en las que sedevuelve un bajo porcentaje) son coincidentes, las normas propuestas en este trabajo mejoranel rendimiento para algunas de esas clases. En particular al comparar la figura 4.6b con 4.6a, se

50

Page 57: Tesis de Licenciatura

Estudios sobre los algoritmos de clasificacion propuestos

observa como se ha producido una mejora notoria en las primeras clases que figuran (por ejemplo,HCircle mejoro un 80 %). Por otro lado, no empeoran las clases que tenıan ya buenos resultados,incluso mejoran un poco(Fig. 4.6) . En la coleccion MNIST sucede lo mismo aunque de un modomas sutil, podemos observar como se nivelan los aciertos por clase a medida que se aumentanla cantidad de MZ en consideracion. Ademas, al comparar las figuras 4.7b con 4.7a, no se vendiferencias tan notorias como en el caso anterior.

Finalmente, en las tablas se incluyo el porcentaje a filtrar por d‖·‖ que hacıa mayor al rendi-miento obtenido. Sin embargo, durante las pruebas se fue cambiando este porcentaje hasta obtenerel mejor rendimiento (Fig. 4.8) . Aunque en algunas oportunidades el mejor resultado se obtuvosin utilizar a d‖·‖, se puede ver como el crecimiento de los porcentajes de efectividad disminuyenotablemente al superar el 20 %. Habitualmente escoger entre el 30−50 % es una buena idea, puesla efectividad se ve reducida muy poco y los tiempos mejoran notablemente, reduciendose a lamitad en la mayorıa de los casos.

Resultados utilizando ponderacion

Observando la tabla 4.3 la ponderacion no parece tener grandes efectos, por sı sola, sobre lasmetricas d‖·‖+eucl y d‖·‖+std. Sin embargo, al comparar con los resultados anteriores (Tabla 4.2) ,deben notarse dos cosas:

Afecta el rendimiento de dshanli notablemente, haciendo que esta no alcance siquiera la mitadde los resultados obtenidos sin ponderar.

En las colecciones de imagenes ALOI y MNIST, la ponderacion trae un pequeno efecto positivo,incrementando los mejores resultados en un poco menos de un 1 %.

Biblioteca Distancia−→ZI30(256)

−→ZI25(182)

−→ZI15(72)

−→ZI10(30)

β res.( %) β res.( %) β res.( %) β res.( %)

MPEG-7dshanli .5 3.91 .5 4.23 .5 8.67 .5 17.13d‖·‖+eucl 100 61.71 100 61.21 100 60.43 80 56.96d‖·‖+std 40 42.96 40 44.8 40 48.95 40 49.16

MPEG-7(bordes)dshanli .5 3.72 .5 4.5 .5 8.81 .5 21.04d‖·‖+eucl 90 56.41 100 57.1 60 56.95 80 57.07d‖·‖+std 30 40.53 30 42.35 30 46.18 30 48.09

ALOIdshanli .5 10.41 .5 10.27 .5 12.93 .5 30.78d‖·‖+eucl 40 70.34 40 70.67 40 69.98 30 68.16d‖·‖+std 30 60.1 30 60.95 40 62.77 30 65.83

MNISTdshanli .5 20.52 .5 20.43 .5 23.39 .5 27.65d‖·‖+eucl 90 53.56 80 55.6 90 55.26 100 57.2d‖·‖+std 20 31.79 20 32.51 40 33.78 70 36.87

Tabla 4.3: Resultados tras realizar el Bulls-eye test sobre las distintas bibliotecas de imagenes (versec. 4.1 pag. 45) con los correspondientes dMZ ponderados. Sobre fondo gris se encuentran losmejores resultados obtenidos por fila. β hace referencia a β(0,5) en la distancia propuesta por ShanLi et al. o el porcentaje de la base de datos utilizado luego de ordenar por d‖·‖. Se debe notarcomo los resultados de d‖·‖+eucl son superiores al resto.

51

Page 58: Tesis de Licenciatura

Estudios sobre los algoritmos de clasificacion propuestos

Bone Comma Glas HCircle Heart car carriage cattle cellular_phone chicken children stef teddy tree truck turtle0

10

20

30

40

50

60

70

80

90

100

30

72

182

256

(a) Resultados por clase para dshanli teniendo en cuenta diferentescantidades de MZ.

Bone Comma Glas HCircle Heart car carriage cattle cellular_phone chicken children stef teddy tree truck turtle0

10

20

30

40

50

60

70

80

90

100

30

72

182

256

(b) Resultados por clase para d‖·‖+eucl teniendo en cuenta diferentescantidades de MZ.

Bone Comma Glas HCircle Heart car carriage cattle cellular_phone chicken children stef teddy tree truck turtle0

10

20

30

40

50

60

70

80

90

100

30

72

182

256

(c) Resultados por clase para d‖·‖+std teniendo en cuenta diferentescantidades de MZ.

Figura 4.6: Resultados individualizados por clase, para unas 16 clases de MPEG-7 CE Shape 1

52

Page 59: Tesis de Licenciatura

Estudios sobre los algoritmos de clasificacion propuestos

0 1 2 3 4 5 6 7 8 90

10

20

30

40

50

60

70

80

90

100

3072182256

(a) Resultados por clase para dshanli teniendo en cuenta diferentescantidades de MZ.

0 1 2 3 4 5 6 7 8 90

10

20

30

40

50

60

70

80

90

100

3072182256

(b) Resultados por clase para d‖·‖+eucl teniendo en cuenta diferentescantidades de MZ.

0 1 2 3 4 5 6 7 8 90

10

20

30

40

50

60

70

80

90

100

3072182256

(c) Resultados por clase para d‖·‖+std teniendo en cuenta diferentescantidades de MZ.

Figura 4.7: Resultados individualizados por clase, para las 10 clases de MNIST

53

Page 60: Tesis de Licenciatura

Estudios sobre los algoritmos de clasificacion propuestos

0 10 20 30 40 50 60 70 80 90 1000

10

20

30

40

50

60

70

80

90

100

3072182256

(a) Efectividad alcanzada por d‖·‖+eucl para distintos % de imagenes luego deordenar por d‖·‖.

0 10 20 30 40 50 60 70 80 90 1000

10

20

30

40

50

60

70

80

90

100

3072182256

(b) Efectividad alcanzada por d‖·‖+std para distintos % de imagenes luego deordenar por d‖·‖.

Figura 4.8: Resultados referentes a MPEG-7 CE Shape 1, alcanzados variando el porcentaje filtradoutilizando d‖·‖ y las dimensiones de los dMZ. En el eje x se ve el porcentaje restante luego deaplicar d‖·‖, mientras que el eje y es el correspondiente resultado en el bulls-eye test.

54

Page 61: Tesis de Licenciatura

Estudios sobre los algoritmos de clasificacion propuestos

0 10 20 30 40 50 60 70 80 90 1000

10

20

30

40

50

60

70

80

90

100

3072182256

(a) Efectividad alcanzada por d‖·‖+eucl para distintos % de imagenes luego deordenar por d‖·‖.

0 10 20 30 40 50 60 70 80 90 1000

10

20

30

40

50

60

70

80

90

100

3072182256

(b) Efectividad alcanzada por d‖·‖+std para distintos % de imagenes luego deordenar por d‖·‖.

Figura 4.9: Resultados alcanzados variando el porcentaje de filtrado utilizando d‖·‖ y las dimen-siones de los dMZ para la coleccion ALOI. El eje x es el porcentaje de imagenes restantes luego deaplicar d‖·‖. En el eje y vemos el correspondiente resultado en el bulls-eye test.

55

Page 62: Tesis de Licenciatura

Estudios sobre los algoritmos de clasificacion propuestos

Resultados utilizando ponderacion + PCA

Esta adaptacion(PCA) es otra de las realizadas en direccion a disminuir los tiempos de eje-cucion por imagen. Surge de observar los resultados anteriores(Tablas 4.3 y 4.2), sobre todo enlo referente a d‖·‖+euclvs d‖·‖+std. Al verlos podemos comenzar a pensar que MZ con una va-rianza mayor contienen mayor informacion, o son mas influyentes, sin ser esto una coincidencia.Esto fundamento la eleccion de utilizar PCA como una metodologıa para reducir las dimensiones.PCA, segun vimos en la seccion 3.4.1, nos permite obtener las dimensiones en las cuales el desvıostandard es mayor, ahora consideradas de mayor interes para las metricas propuestas. Por eso, lapregunta que se apunta a responder con este estudio es

¿ Cual serıa una cantidad mınima de dimensiones a utilizar luego de realizar PCA tal que seobtengan resultados comparables con los anteriores?

Es por esto que se cambio la metodologıa en esta seccion respecto de las anteriores. En lugar derealizar las pruebas variando la cantidad de MZ por dMZ , en esta oportunidad se fijo en 256(

−→ZI30.

Aplicando PCA se obtuvo un nuevo vector, con sus dimensiones ordenadas segun su varianza,y se lo trunco en diferentes dimensiones tomando siempre las de mayor varianza. Se incluyen losresultados obtenidos para los vectores de longitud 20,15,10 y 5(Tabla 4.4) .

Biblioteca Distancia (20) (15) (10) (5)β res.( %) β res.( %) β res.( %) β res.( %)

MPEG-7d‖·‖+eucl 100 61.19 100 61.35 100 60.12 80 56.89d‖·‖+std 40 44.27 40 46.71 40 48.38 40 51.02

MPEG-7(bordes) d‖·‖+eucl 90 56.3 100 55.94 60 54.96 80 49.74d‖·‖+std 30 40.42 30 41.73 30 42.31 30 40.83

ALOId‖·‖+eucl 60 64.91 60 66.32 70 70.46 100 66.35d‖·‖+std 50 60.2 50 59.72 50 64.42 100 64.39

Tabla 4.4: Resultados tras realizar el Bulls-eye test sobre las distintas bibliotecas de imagenes(ver sec. 4.1 pag. 45) variando la cantidad de dimensiones utilizadas luego de aplicar PCA. Seresaltan con fondo gris los mejores resultados por fila. β hace referencia al porcentaje de la basede datos utilizado luego de ordenar por d‖·‖. Se debe notar como se alcanzan resultados similaresa los vistos en las tablas 4.3 y 4.2 con menor cantidad de dimensiones.

Los dos resultados importantes que se desprenden de la Tabla 4.4 son : para diferentes colec-ciones de imagenes con diferentes metricas se encuentra el mejor resultado con diferente cantidadde dimensiones y los mejores resultados estan cerca(+/− 2 %) de los mejores resultados obtenidossin PCA(Tabla 4.3) . La ultima de estas conclusiones es realmente importante pues indica quePCA resulta util en este contexto. Para analizar en mayor profundidad este punto se presentanlas figuras 4.10, 4.11 y 4.12. En cada una de ellas se puede observar el desvıo de cada dimensionexpresado como un porcentaje de la suma total. Ademas se indico el acumulado en el punto en elcual la tabla 4.4 refleja el mejor resultado para d‖·‖+eucl.

Mirando las figuras 4.10, 4.11 y 4.12, podemos concluir que los mejores resultados se alcanzancuando se excluyen las dimensiones que son menores a un 1−ε%, con un ε chico. De hecho, aunqueno suceda esto en el caso particular de MPEG-7(bordes), el resultado en la tabla incluyendo hasta25 dimensiones esta muy cerca del optimo obtenido (Fig. 4.11) (Tabla 4.4) . Como conclusion delos experimentos realizados, y a modo de heurıstica, se propone fijar ε = 0,1 y escoger aquellasdimensiones cuyo desvıo standard porcentual, respecto a la suma de todos, es mayor o igual al0,9 %. Notar que con este metodo reducimos las dimensiones de nuestros dMZ de 256 a un promediode 15.

56

Page 63: Tesis de Licenciatura

Estudios sobre los algoritmos de clasificacion propuestos

5 10 15 20 25 30 35 400

1

2

3

4

5

6

7

8

9

10

(84.28 %)

(%) 

de

svío

 / im

po

rta

nci

a

dimensión

Figura 4.10: Se ve en la figura el desvıo standard de cada dimension una vez realizado PCA en labase de datos MPEG-7. En este caso el mejor resultado se obtuvo con las primeras 15 dimensionescuyo desvıo acumulado suma un 84,28 %. Notar que la ultima dimension tomada esta apenasdebajo del 1 %.

Resultados utilizando una base de datos real (TRADEMARK’S LOGOS)

TRADEMARK’S LOGOS es un subconjunto de aproximadamente 8 mil imagenes pertenecientes auna base de datos mayor, compuesta de logotipos de marcas registrados (ver sec. 4.1 pag. 45) . Alno encontrarse dividida en clases, ni presentar de forma clara una posible division, es imposiblerealizar el bulls-eye test sobre esta. Unicamente podemos evaluar los resultados de forma visual. Porello, incluımos a continuacion una serie de resultados arrojados por las metricas dshanli, d‖·‖+eucl yd‖·‖+stdpara 4 imagenes de referencia distintas. Para cada metrica se tomaron los dMZ de la

forma−→ZI30(256 dimensiones). En el caso particular de d‖·‖+eucl y d‖·‖+std, primero se pondero a los

dMZ (ver sec. 3.3.1 pag. 34) . Despues se aplico la variante PCA, reduciendo las dimensiones de256 a 15. Luego se procedio a filtrar la base de datos por d‖·‖, sacando las imagenes mas lejanasy dejando un 25 % de la cantidad de imagenes original. Es decir, el parametro β se fijo en 0,25.

De la comparacion entre los 12 casos incluıdos (ver Figuras 4.13, 4.14, 4.15, 4.16, 4.17, 4.18,4.19, 4.20, 4.21, 4.22, 4.23 y 4.24) se desprede que las imagenes iguales se acumulan al principiodel ranking con las metricas d‖·‖+eucl y d‖·‖+std, lo cual no sucede con dshanli. Por otro lado, si bienes subjetivo, tambien aparecen mas imagenes similares, con esas dos metricas, dentro del ranking.

57

Page 64: Tesis de Licenciatura

Estudios sobre los algoritmos de clasificacion propuestos

5 10 15 20 25 30 35 400

1

2

3

4

5

6

7

8

9

10

(73.48 %)

(%) 

de

svío

 / im

po

rta

nci

a

dimensión

Figura 4.11: La figura representa el desvıo standard (porcentual) de cada dimension una vezrealizado PCA en la base de datos MPEG-7(bordes), es decir, la coleccion de dMZ extraıdos de losbordes de las imagenes pertenecientes a MPEG-7. El mejor resultado se encuentra recuadrado y esla suma de las dimensiones hasta la 20, sumando un desvıo del 73,48 %. A diferencia de la figura4.10, la ultima dimension incluıda esta apenas por encima del 1 %.

58

Page 65: Tesis de Licenciatura

Estudios sobre los algoritmos de clasificacion propuestos

5 10 15 20 25 30 35 400

1

2

3

4

5

6

7

8

9

10

(96.00 %)

(%) 

de

svío

 / im

po

rta

nci

a

dimensión

Figura 4.12: Se observa el desvıo standard (porcentual) de cada dimension una vez realizado PCApara los dMZ extraıdos de ALOI. Recuadrado esta la ultima dimension incluıda, apenas por debajodel 1 %, para obtener el mejor resultado. El desvıo acumulado es del 96 %.

A lo largo de este capıtulo hemos fundamentado la presentacion de las diferentes variantes ymetricas. Tras observar los resultados a los estudios podemos concluir que:

La metrica d‖·‖+eucl presenta siempre resultados superiores al resto.

dshanli es sumamente afectada por cambios en los valores de los dMZ, sobre todo al utilizarvariantes de los mismos.

El rendimiento de d‖·‖+std es intermedio entre dshanli y d‖·‖+eucl, pero no varıa su rendimientopor las variantes.

La variante de ponderacion tiene influencia en algunas bases de datos, parece ser en las masextensas.

PCA es en extremo util para reducir las dimensiones de los dMZ, reduciendo de 256 a 15 enpromedio.

59

Page 66: Tesis de Licenciatura

Estudios sobre los algoritmos de clasificacion propuestos

Figura 4.13: Partiendo de dMZ con su fase corregida, se ordenaron los mismos por dshanli y setomaron las 100 primeras posiciones. Se indica la query con un cırculo verde y con un cırculo rojola imagen igual mas lejana dentro del ranking.

60

Page 67: Tesis de Licenciatura

Estudios sobre los algoritmos de clasificacion propuestos

Figura 4.14: Dados los dMZ de las imagenes en TRADEMARK’S LOGOS, se aplicaron la ponderaciony, luego, PCA, recortando a 15 las dimensiones. Luego se ordenaron los dMZ por d‖·‖+eucly seconformo el ranking con los 100 mas cercanos. Al filtrar por d‖·‖ se conservo el 25 % del total delas imagenes, tomando las mas cercanas. Se resalto la query con un cırculo verde mientras que conun cırculo rojo se resalto la imagen igual mas lejana dentro del ranking.

61

Page 68: Tesis de Licenciatura

Estudios sobre los algoritmos de clasificacion propuestos

Figura 4.15: Dados los dMZ de las imagenes en TRADEMARK’S LOGOS, se aplico la ponderaciony luego PCA, recortando a 15 las dimensiones. Luego se ordenaron los dMZ por d‖·‖+eucly seconformo el ranking con los 100 mas cercanos. Al filtrar por d‖·‖ se conservo el 25 % del total delas imagenes, tomando las mas cercanas. Se resalto la query con un cırculo verde mientras que conun cırculo rojo se resalto la imagen igual mas lejana dentro del ranking.

62

Page 69: Tesis de Licenciatura

Estudios sobre los algoritmos de clasificacion propuestos

Figura 4.16: Ranking generado por dshanli, sin aplicar variantes a los dMZ. Se indica la query conun cırculo verde y con un cırculo rojo la imagen igual mas lejana dentro del ranking.

63

Page 70: Tesis de Licenciatura

Estudios sobre los algoritmos de clasificacion propuestos

Figura 4.17: Ranking obtenido utilizando d‖·‖+eucl, utilizando ponderacion, PCA y β = 0,25. Seresalto la query con un cırculo verde mientras que con un cırculo rojo se resalto la imagen igualmas lejana dentro del ranking.

64

Page 71: Tesis de Licenciatura

Estudios sobre los algoritmos de clasificacion propuestos

Figura 4.18: Ranking obtenido utilizando d‖·‖+std, utilizando ponderacion, PCA y β = 0,25. Sobreun cırculo verde se ve la query y con un cırculo rojo se indica la imagen igual mas lejana dentrodel ranking.

65

Page 72: Tesis de Licenciatura

Estudios sobre los algoritmos de clasificacion propuestos

Figura 4.19: Partiendo de dMZ con su fase corregida, se ordenaron los mismos por dshanli y setomaron las 100 primeras posiciones. Se indica la query con un cırculo verde y con un cırculo rojola imagen igual mas lejana dentro del ranking.

66

Page 73: Tesis de Licenciatura

Estudios sobre los algoritmos de clasificacion propuestos

Figura 4.20: Dados los dMZ de las imagenes en TRADEMARK’S LOGOS, se aplicaron la ponderaciony, luego, PCA, recortando a 15 las dimensiones. Luego se ordenaron los dMZ por d‖·‖+eucly seconformo el ranking con los 100 mas cercanos. Al filtrar por d‖·‖ se conservo el 25 % del total delas imagenes, tomando las mas cercanas. Se resalto la query con un cırculo verde mientras que conun cırculo rojo se resalto la imagen igual mas lejana dentro del ranking.

67

Page 74: Tesis de Licenciatura

Estudios sobre los algoritmos de clasificacion propuestos

Figura 4.21: Dados los dMZ de las imagenes en TRADEMARK’S LOGOS, se aplico la ponderaciony luego PCA, recortando a 15 las dimensiones. Luego se ordenaron los dMZ por d‖·‖+eucly seconformo el ranking con los 100 mas cercanos. Al filtrar por d‖·‖ se conservo el 25 % del total delas imagenes, tomando las mas cercanas. Se resalto la query con un cırculo verde mientras que conun cırculo rojo se resalto la imagen igual mas lejana dentro del ranking.

68

Page 75: Tesis de Licenciatura

Estudios sobre los algoritmos de clasificacion propuestos

Figura 4.22: Partiendo de dMZ con su fase corregida, se ordenaron los mismos por dshanli y setomaron las 100 primeras posiciones. Se indica la query con un cırculo verde y con un cırculo rojola imagen igual mas lejana dentro del ranking.

69

Page 76: Tesis de Licenciatura

Estudios sobre los algoritmos de clasificacion propuestos

Figura 4.23: Dados los dMZ de las imagenes en TRADEMARK’S LOGOS, se aplicaron la ponderaciony, luego, PCA, recortando a 15 las dimensiones. Luego se ordenaron los dMZ por d‖·‖+eucly seconformo el ranking con los 100 mas cercanos. Al filtrar por d‖·‖ se conservo el 25 % del total delas imagenes, tomando las mas cercanas. Se resalto la query con un cırculo verde mientras que conun cırculo rojo se resalto la imagen igual mas lejana dentro del ranking.

70

Page 77: Tesis de Licenciatura

Estudios sobre los algoritmos de clasificacion propuestos

Figura 4.24: Dados los dMZ de las imagenes en TRADEMARK’S LOGOS, se aplico la ponderaciony luego PCA, recortando a 15 las dimensiones. Luego se ordenaron los dMZ por d‖·‖+eucly seconformo el ranking con los 100 mas cercanos. Al filtrar por d‖·‖ se conservo el 25 % del total delas imagenes, tomando las mas cercanas. Se resalto la query con un cırculo verde mientras que conun cırculo rojo se resalto la imagen igual mas lejana dentro del ranking.

71

Page 78: Tesis de Licenciatura

Capıtulo 5

Conclusiones

Una metrica adecuada para los momentos complejos de Zernike(MZ ) es de gran interes en elmundo academico y presenta diversas aplicaciones practicas en la industria. El trabajo se centro,entonces, en analizar los MZ y evaluar los metodos actuales, teniendo por objeto el proponernuevas metricas. Estas metricas tendrıan el ambicioso objetivo de superar a las existentes y poderdesempenarse de manera acorde en un contexto comercial. Para lo primero se intentarıa aprovecharcaracterısticas propias de estos tipos de momentos, mientras que lo segundo involucra a la velocidadde respuesta del algoritmo junto con las colecciones de imagenes para las que serıa ideada.

El trabajo partio de un analisis en profundidad sobre el comportamiento de los polinomioscomplejos de Zernike[Zer34] sobre el cırculo unitario con una funcion constante en 1. Tambien seanalizo el comportamiento de los momentos complejos de Zernike, sin aplicar ninguna variante a losmismos, para una serie de imagenes referencia. Ademas, en el capıtulo 2, se formalizo el conceptode descriptores de momentos complejos de Zernike(dMZ ) en busca de facilitar la definicion denuevas metodologıas de extraccion y seleccion de los dMZ. Tras esto se procedio a examinar lasmetricas existentes y se tomo como referencia la introducida en 2009 por Shan li et al.[LLP09].En el capıtulo 3, como resultado del analisis de los estudios sobre los MZ, surge una metrica(d‖·‖ + deucl) que posee las caracterısticas buscadas: reduce el espectro de busqueda de un modoacelerado y sus resultados son muy superiores a los de la metrica referencia. Ademas, como unmodo de mejorar aun mas los resultados se incluyo una ponderacion de los MZ que demostro tenerefectos positivos en la practica. Luego se incorporo a la metodologıa propuesta la utilizacion deanalisis de componentes principales(PCA) como un metodo que permitirıa reducir las dimensionesde los dMZ, disminuyendo la cantidad de operaciones necesarias en la ejecucion de las metricas.Finalmente, a lo largo del capıtulo 4 se compararon las metricas y se expusieron los resultados masrelevantes obtenidos, dejando constancia de la mejora conseguida con las metodologıas propuestasen el trabajo.

72

Page 79: Tesis de Licenciatura

Conclusiones

5.1. Contribuciones

Las contribuciones en este trabajo son fruto de los objetivos autoimpuestos en un principio,conseguir una metrica eficaz y rapida, para conseguir imagenes globalmente similares. Como apor-tes principales se distinguen:

Se incluyo la nocion de colecciones de descriptores de momentos complejos de Zernike porimagen y formas de escoger entre los dMZ disponibles. En el capıtulo 3, se definieron una seriede metodologıas enfocadas en la extraccion y eleccion de los dMZ . Finalmente, se estable-cio un ultimo metodo de extraccion de dMZ, respaldado luego por los estudios realizados, quepresentaba un balance entre cantidad de dimensiones de los dMZ e informacion contenida,ver la Figura 3.11(pag. 40). El nuevo metodo utiliza las nuevas variantes de dMZ expuestasen este trabajo.

En el capıtulo 3 se presentaron una serie de metricas. Entre ellas se distinguieron dos:d‖·‖+eucl y d‖·‖+std. Ambas tuvieron un desempeno positivo , sin embargo d‖·‖+eucl tuvoresultados un 20 % superiores a los del resto.

Se definio una funcion heurıstica para ponderar los momentos complejos de Zernike. Lamisma otorga un peso a los MZ de menor orden de acuerdo a lo analizado en el capıtulo2,(ver sec. 2.4.1 pag. 11) . El mejor desempeno de esta variante se obtuvo con las bases dedatos mas extensas. Se definio del siguiente modo,(ver sec. 3.3.1 pag. 34)

A′nm = Anm exp(−#dmz(n,m)m| sin(θn0 1)|).

Se introdujo el analisis de componentes principales como una herramienta para la reduccionde dimensiones de los dMZ. Se logro reducir la dimensiones de los dMZ a un 5 % de lasdimensiones originales y conservar los altos resultados de las metricas d‖·‖+eucl yd‖·‖+std. Deforma conjunta, se presento una heurıstica de corte para la reduccion de dimensiones de losdMZ tras realizar PCA.

73

Page 80: Tesis de Licenciatura

Conclusiones

5.2. Trabajo futuro

A partir de los resultados obtenidos en este trabajo cabe preguntarse si es posible encontrarmetricas que superen a las aquı planteadas y que tornen a los dMZ en una herramienta todavıa masutil. Ademas de esta lınea de trabajo futuro obvia, durante el desarrollo del mismo se plantearonnumerosas opciones de investigacion en las que se prefirio no ahondar en pos de continuar endireccion al objetivo principal del trabajo. Algunas de las posibles ramas de investigacion que seplantearon fueron:

Durante el desarrollo del trabajo se propuso transformar las imagenes originales para con-seguir imagenes que sean invariantes a traslaciones y escalamientos antes de extraer los MZ,a pesar de los problemas que esto conlleva(ver sec. 2.5.1 pag. 19) . Sin embargo, en el ca-so particular del escalamiento pareciera posible aplicar un factor a los MZ extraıdos paraconseguir esta invarianza. Como una continuacion a este trabajo se pueden encontrar lasequivalencias matematicas para conseguir estas invarianzas sin necesidad de perder infor-macion transformando las imagenes originales. Entre las ventajas que esto presentarıa, seencuentra la posibilidad de cambiar los coeficientes de escala sin necesidad de recalcular losMZ, ni contar con las imagenes originales.

Otra posibilidad es la de intentar extraer los MZ de una imagen sin necesidad de discretizara nivel pıxel. Es posible realizar alguna interpolacion a las imagenes originales para obte-ner valores a nivel subpixel, por ejemplo. Ademas si se consigue una interpolacion que nospermita calcular de forma analıtica los MZ de una imagen dada serıa optimo.

En lo referente a la invarianza ante traslaciones, actualmente se centra a las figuras en unaimagen respecto al centroide. Existen varias formas de centrar las imagenes, muchas de ellasguardan una relacion directa con la comprension humana de las figuras. En particular, unacontinuacion viable es la inclusion y prueba de diversos metodos de centrado.

En este trabajo asumimos que todos los MZ validos eran utiles. Ademas, si bien indicamoscomo los MZ de menor orden se basan en caracterısticas globales, nunca se distinguio conpropiedades especıficas a MZ particulares. Una posible continuacion al trabajo serıa analizarlos diferentes MZ buscando aquellos que se condicen con alguna propiedad particular sobrelas imagenes o, por el contrario, aquellos que no tienen ninguna utilidad.

Si bien se examinaron diversas metricas a lo largo del trabajo algunas fueron desestimadastempranamente por su complejidad temporal. El caso de la registracion de nubes de puntosutilizando ICP es uno de ellos (ver sec. 2.4.2 pag. 17) . Aunque en un primer momentolos resultados no fueron lo suficientemente buenos, consideramos que un analisis en mayorprofundidad puede reportar resultados positivos.

74

Page 81: Tesis de Licenciatura

Apendice A

Algebra de numeros complejos

A continuacion se definen algunas operaciones basicas sobre vectores complejos, Cn. Las mismasson utilizadas a lo largo del trabajo en diferentes ocasiones.

Definicion 11. Dados un numero z ∈ C, z = r + ci, se define el conjugado complejo, z∗ ,como:

z∗ = r − ci (A.1)

Definicion 12. Dados dos vectores u y v pertenecientes a Cn se define el producto internoeuclidiano, · , como:

u· v = u1v∗1 + u2v

∗2 + . . .+ un−1v

∗n−1 + unv

∗n (A.2)

Donde v∗ es el conjugado complejo de v.

Definicion 13. Se define la norma euclidiana, ‖· ‖ , de un vector u, u ∈ Cn, como la raızcuadrada del producto interno de u consigo:

‖u‖ =√u·u (A.3)

Definicion 14. La distancia euclidiana entre dos vectores u y v pertenecientes a Cn, se definecomo:

deucl(u, v) = ‖u− v‖ (A.4)

75

Page 82: Tesis de Licenciatura

Apendice B

Implementacion

Durante el desarrollo de este trabajo se realizaron diversas implementaciones en C++ y MATLAB.La aplicacion realizada en C++ fue implementada dentro del contexto de un proyecto UBACyTpara el que se desarrollo tan solo una parte inicial de este trabajo. Las versiones implementadasen MATLAB son la contraparte de todo el desarrollo expuesto a lo largo del trabajo.

B.1. MATLAB

A continuacion se enumeran las diferentes funciones/librerıas implementadas en MATLAB. Seencuentran distribuıdas en diferentes carpetas agrupadas por funcionalidad permitiendo realizarlas diferentes pruebas que figuran en el documento.

B.1.1. Generacion de descriptores de momentos complejos de Zernike

Agrupados en la carpeta generatepack se encuentran las funciones que hacen posible generarlos dMZ de un conjunto de imagenes. Las funciones principales son :

zmoment getAllMoments: Devuelve los dMZ de todas las imagenes en formato PNG en eldirectorio recibido como parametro.

zmoment matrix getAllMoments: Devuelve los dMZ de todas las imagenes contenidas en lamatriz recibida como parametro. Cada fila de la matriz representa una imagen cuadrada.

run: Ejemplo de generacion y guardado de los dMZ pertenecientes a las imagenes en un directoriodado.

testBeta: Nos muestra como quedarıa una imagen normalizada para un β dado. Recibe el pathde una imagen, un β de normalizacion (segun lo visto en [LLP09]) y un tamano final parala imagen dada.

B.1.2. Clasificadores

Los clasificadores son un conjunto de funciones dedicadas a realizar la busqueda de una query enla base de datos y devolver listadas en orden de proximidad una cantidad de imagenes mas cercanassegun se indique. A lo largo del trabajo estos clasificadores fueron utilizados para realizar losdiferentes pruebas utilizando la implementacion de diferentes metricas. A continuacion se incluyeuna breve descripcion de las rutinas incluıdas, su nombre en el codigo fuente es similar al quefigura sumando el prefijo zmoment classifier y con una extension de archivo .m:

ShanLi: Implementacion del clasificador presentado en [LLP09].

76

Page 83: Tesis de Licenciatura

Implementacion

normalizada: Realiza una busqueda utilizando como funcion de comparacion entre descriptoresde MZ :

Dα = α d‖·‖ + (α− 1) deucl (B.1)

Notese que de ser α = 0 compara unicamente por deucl y de ser α = 1 compara solo por d‖·‖.

ne: Realiza una busqueda filtrando los descriptores de MZ primero por d‖·‖. Luego selecciona lask imagenes mas cercanas por deucl.

nestd: Realiza una busqueda filtrando los descriptores de MZ primero por d‖·‖. Luego seleccionalas k imagenes mas cercanas por

dstd(u, v) =

√∑i

(ui − vi)∗(ui − vi)λi

donde λi representa el desvıo standard de los MZ de ese orden.

maha: Filtra los dMZ por d‖·‖ para luego selecciona las k imagenes mas cercanas de acuerdo ala distancia de Mahalanobis. Recibe como parametro la matriz utilizar.

icp: Construye un ranking utilizando la funcion distancia definida como

d(R, T ) =∑i

R(i, i)×∑j

T (j).

Donde la matriz de rotacion, R, y el vector de traslacion, T son el resultado de aplicar ICPentre el modelo descripto por el dMZ de la imagen query y otro dMZ,d, de manera queRd+ T nos da la nube de puntos registrada.

De forma complementaria, se incluyen rutinas para preprocesar los dMZ acorde a lo descriptoa lo largo del trabajo. Estas rutinas tienen como prefijo makeBD y se pueden dividir en trescategorıas principales:

Shanli: Realiza la correccion de fase segun se vio en el trabajo 2.5.3 [LLP09].

ponderada: Incorpora la ponderacion de los An m segun (ver sec. 3.3.1 ) ,

A′nm = Anm exp(−Xnmm sin(θ)) (B.2)

con:

Xnm es igual a:Xnm = bn

2c(bn

2c+ 1) + bm

2c (B.3)

θ es el angulo utilizado para la correccion de fases 2.5.3.

PCA(whitenning): Suma el analisis de componentes principales al preprocesamiento segun lovisto (ver sec. 3.4.1 ) .

77

Page 84: Tesis de Licenciatura

Implementacion

B.1.3. Estudios realizados

Dentro de la carpeta testpack se encuentra una coleccion de directorios cada uno conteniendodiferentes estudios realizados. A continuacion se describen las funciones principales dentro de cadauno de ellos.

bullseye: dentro de esta carpeta encontramos todos los archivos referentes al bulls-eye test.

run: Ejemplo de ejecucion del bulls-eye test. Ejecuta

zmoment matrix getAllMoments: Devuelve los dMZ de todas las imagenes contenidasen la matriz recibida como parametro. Cada fila de la matriz representa una imagencuadrada.

run: Ejemplo de generacion y guardado de los dMZ pertenecientes a las imagenes en undirectorio dado.

testBeta: Nos muestra como quedarıa una imagen normalizada para un β dado. Recibe elpath de una imagen, un β de normalizacion (segun lo visto en [LLP09]) y un tamanofinal para la imagen dada.

B.1.4. Bases precalculadas

Se incluyen las bases de datos utilizadas en los test dentro de la carpeta bases. Ademaas sepueden encontrar dentro d la misma una serie de bases de datos utilizadas en diversas pruebas quefueron excluıdas del trabajo. Las diferentes bases con los dMZ precalculados estan en formatosmat y csv, para ambos existen funciones nativas de MATLAB que permiten la lectura.

mpeg7: Existen una serie de colecciones de dMZ asociadas a la biblioteca MPEG-7 CE Shape1[LLE00]. Entre ellas:

sinflip: dMZ extraıdos de las imagenes originales.

allsinflip: dMZ extraıdos de las imagenes originales, sin informacion de pertenencia y enuna gran matriz.

flipH: dMZ extraıdos de las imagenes originales luego de voltear(flip) horizontalmente.

flipV: dMZ extraıdos de las imagenes originales luego de voltear(flip) verticalmente.

flipHV: dMZ extraıdos de las imagenes originales luego de voltear(flip) horizontal y verti-calmente.

edges: dMZ extraıdos luego de procesar las imagenes originales para dejar unicamente losbordes.

digits: 10000 dMZ pertenecientes a una base de datos sobre dıgitos decimales escritos a mano[LC04]. El archivo mindigits incluye 50000 dMZ.

aloi: Amsterdam Library of Object Images [GBS05]). Incluımos varios archivos (por ej. aloi.mat)conteniendo los dMZ de esta biblioteca y ademas se incluye un directorio con las imagenespertenecientes a la misma.

marcas: Subconjunto de dMZ para imagenes pertenecientes a una base de datos de logos empre-sariales (marcas.mat).

78

Page 85: Tesis de Licenciatura

Bibliografıa

[AEBN05] G. Amayeh, A. Erol, G.N. Bebis, and M.Nicolescu. Accurate and efficient computationof high order zernike moments. pages 462–469, 2005.

[AP85] Y.S. Abu Mostafa and D. Psaltis. Image normalization by complex moments. 7(1):46–55, January 1985.

[BM92] P.J. Besl and N.D. McKay. A method for registration of 3-d shapes. IEEE Transactionson Pattern Analysis and Machine Intelligence, 14(2):239–256, 1992.

[BMP02] S. Belongie, J. Malik, and J. Puzicha. Shape matching and object recognition usingshape contexts. Pattern Analysis and Machine Intelligence, IEEE Transactions on,24(4):509–522, 2002.

[Bro01] Frederick P. Brooks. The Mythical Man-Month, chapter No Silver Bullet - Essence andAccident in Software Engineering, pages 177–203. Addison Wesley Longman Inc., NewYork, 15., aufl. edition, 2001.

[FM05] Stephane Derrode� Sami Dhahbi Faouzi Ghorbel and Rim Mezhoud. Reconstructingwith geometric moments. 2005.

[Fuk90] K. Fukunaga. Introduction to Statistical Pattern Recognition. Academic Press, 2ndedition, 1990.

[FZL+07] B. Fu, J.Z. Zhou, Y.H. Li, G.J. Zhang, and C. Wang. Image analysis by modifiedlegendre moments. 40(2):691–704, February 2007.

[GBS05] J. M. Geusebroek, G. J. Burghouts, and A. W. M. Smeulders. The amsterdam libraryof object images. Int. J. Comput. Vision, 1(61):103–112, January 2005.

[Hor84] J. D. Horel. Complex principal component analysis : Theory and examples. Journalof Climate and Applied Meteorology, 23:1660–1673, December 1984.

[Hu62] M.K. Hu. Visual pattern recognition by moment invariants. 8(2):179–187, February1962.

[KA05] L. Kotoulas and I. Andreadis. Image analysis using moments. Thessaloniki, Greece,2005. Alexander Technological Educational Institute (ATEI) of Thessaloniki.

[KH90] A. Khotanzad and Y. H. Hong. Invariant image recognition by zernike moments. Pat-tern Analysis and Machine Intelligence, IEEE Transactions on, 12(5):489–497, 1990.

[LC04] Yann Lecun and Corinna Cortes. The mnist database of handwritten digits. 2004.

[LLE00] L. Latecki, R. Lakamper, and U. Eckhardt. Shape descriptors for non-rigid shapes witha single closed contour. In Proc. IEEE Conf. Computer Vision and Pattern Recognition,volume 2000, pages 424–429, 2000.

79

Page 86: Tesis de Licenciatura

BIBLIOGRAFIA

[LLP09] S. Li, M. C. Lee, and C. M. Pun. Complex zernike moments features for shape-basedimage retrieval. 39(1):227–237, 2009.

[Low03] D. Lowe. Distinctive image features from scale-invariant keypoints, 2003.

[Pea01] Kenneth H. Pearson. On lines and planes of closest fit to systems of points in space.Philosophical Magazine, 2:559–572, 1901.

[RLB09] J. Revaud, G. Lavoue, and A. Baskurt. Improving zernike moments comparison foroptimal similarity and rotation angle retrieval. IEEE Transactions on Pattern Analysisand Machine Intelligence, 31(4):627–636, 2009.

[RPAK88] A.P. Reeves, R.J. Prokop, S.E. Andrews, and F.P. Kuhl. Three-dimensional shapeanalysis using moments and fourier descriptors. IEEE Transactions on Pattern Analy-sis and Machine Intelligence, 10(6):937–943, 1988.

[Tea80] M.R. Teague. Image analysis via the general theory of moments. 70(8):920–930, August1980.

[TP91] M. A. Turk and A. P. Pentland. Face recognition using eigenfaces. In ComputerVision and Pattern Recognition, 1991. Proceedings CVPR ’91., IEEE Computer SocietyConference on, pages 586–591, 1991.

[Zer34] Frits Zernike. Physica, volume 1. 1934.

[ZSX+07] H.Q. Zhu, H.Z. Shu, T. Xia, L.M. Luo, and J.L. Coatrieux. Translation and scaleinvariants of tchebichef moments. 40(9):2530–2542, September 2007.

80