reconocimiento de imagenes

8/4/2019 reconocimiento de imagenes

http://slidepdf.com/reader/full/reconocimiento-de-imagenes 1/5



La señal capturada se somete a un proceso de pre-énfasis [1] definida por la siguiente expresión:

(1)

Un factor importante a tener en cuenta en elmomento de la grabación es poder diferenciar y recortar silencios o zumbidos de fondo previos y posteriores a la

palabra pronunciada. Esta forma de discriminación es posible de realizar cuando el archivo de sonido ha sidograbado en un ambiente no extremadamente ruidoso.Cuando esta última condición se cumple, se puedeaplicar un sencillo algoritmo que logra este objetivo, yque fue propuesto por Rabiner y Sambur [2]. Elresultado del algoritmo es conformado por los puntosextremos de inicio y finalización de secuencia de vozefectiva (ver Fig. 2).

Figura 2. Detección de actividad por energía y cruce por ceros.

Una vez que se tiene la señal efectiva, se divide en bloques y se le aplica la ventana de Hamming. Esto sehace con el objetivo de minimizar los efectos dediscontinuidad al principio y al final de la señal en cada

bloque.

Figura 3. Segmento de la señal con ventana deHamming.

, (2)

Se calcula la autocorrelación para cada bloque:

[ ] [ ] [ ]nm xm xnCxx

n N

m

+= ∑−−

=

1

0

m=0,1,…,p (3)

Siguiendo el algoritmo de Levinson-Durbin seobtienen los coeficientes LPC [1].

End

Para este aso se utilizaron 20 coeficientes deautocorrelación para obtener 19 coeficientes de perfil

espectral.

III. ENTRENAMIENTO Y RECONOCIMIENTODE LA SEÑAL DE VOZ.

Los vectores de autocorrelación se usaron paragenerar el libro código para cada palabra (tornillo,rondana, armella, alcayata, cola de milano) utilizando elalgoritmo de bipartición para encontrar un centroideoptimo y biparticionarlo en dos centroides no óptimos yoptimizarlos mediante el algoritmo de Lloyd hasta tener 128 regiones de cada libro código.

Una vez que se tiene el libro código por palabra, sereconoce utilizando el algoritmo del vecino más

próximo, comparando la señal de voz capturada concada uno de los libros códigos de cada palabra. La quetenga la menor medida de distorsión es la palabrareconocida. [3]

Figura 4. Diagrama de flujo para el entrenamiento yreconocimiento de señales de voz.

IV. ETIQUETADO DE REGIONES YEXTRACCIÓN DE RASGOSCARACTERÍSTICOS DE UNA IMAGENDIGITAL.

Para el reconocimiento de formas en una imagendigital se utilizaron imágenes en escala de grises, conuna resolución de 320x240 píxeles, en formato BMP.



Antes de etiquetar la imagen se pasa por un procesamiento digital para eliminar ruidos, ajustar el brillo o contraste y finalmente se umbrala, en estetrabajo se hizo un umbralado manual, utilizando un

umbral de 128, una vez que ya se pasó por esta serie de procesos ya se pueden etiquetar sus componentesconectadas. Los píxeles en una región conectada formanuna región que puede representar un objeto dado areconocer. Para el etiquetado de componentesconectadas se utilizó el algoritmo de dos pasos que usauna tabla de equivalencias con conectividad 8 [4].

1 1 1 1

1 1 1 1

1 1 2 2 2

1 1 2 2 2 2

2 2 2

3 3

3 3

3 3 3

3 3 3

3 3 3

Figura 5. Imagen binaria etiquetada.

Posteriormente se calculan los momentosgeométricos hasta de orden 2 (p+q≤3) para cada objetoetiquetado [4].

(5)

Donde el momento de orden cero representa elárea geométrica del objeto.

Los momentos de orden uno se usaron para encontrar las coordenadas del centro del objeto [4].

(6)

A partir de esos momentos se calculan losmomentos invariantes a traslaciones, rotaciones ycambios de escala [4].

Momentos centrales: para que los momentos

se conserven constantes ante cambios de posición delobjeto sin rotaciones y cambios de escala se usan lassiguientes ecuaciones [4]:

Invariantes de Hu: para que los momentos se

conserven constantes ante rotaciones se usan lassiguientes ecuaciones[4]:

Momentos centrales normalizados: para que losmomentos se conserven constantes ante cambios

de escala se usa la siguiente ecuación [4]:

, ,

Invariantes a traslaciones, rotaciones y cambiosde escala: Al reemplazar los momentos centrales en lasexpresiones para invariantes a rotaciones por losinvariantes a escala , resultan los conocidos 7

invariantes a traslaciones, rotaciones y cambios deescala de Hu [4].



De esta forma, a cada objeto contenido en la imagense le extraen estos momentos invariantes de Hu, loscuales se utilizan para clasificar.

V. ENTRENAMIENTO Y RECONOCIMIENTO.

En este artículo se reconocerán objetos de tipoferretería, como tornillo, rondana, armella, alcayata ycola de milano.

Para poder clasificar, como es sabido se requiere de

dos etapas para poner en operación el clasificador, unaetapa de entrenamiento y una etapa de prueba. Acontinuación se muestra una metodología para resolver el problema de la clasificación de objetos aisladoscontra fondo contrastado y homogéneo.

Figura 6. Metodología para clasificación de objetos [4].

Para realizar el entrenamiento únicamente se usaronlos primeros dos momentos de Hu , los cuales

se introdujeron a una RNA tipo Perceptrón multicapacon la siguiente arquitectura:

Figura 7. Arquitectura de una RNA tipo Perceptrónmulticapa.

VI. INTERACCIÓN ENTRE EL SARH Y EL

SRAO.

Para que interactúe el SARH y el SRAO, primero senecesita hacer la clasificación de los objetos que hay enla imagen digital, con este proceso de clasificación seconocerá el número total de objetos existentes en laimagen y el número de objetos de cada clase, generandoun arreglo con índice i correspondiente a cada clase delobjeto y con n número de objetos de esa clase.

Posteriormente se reconoce la palabra pronunciada,la cual entrega una etiqueta que servirá como índice delarreglo generado con el SARO, y de esta forma seindicará cuantos objetos de esa clase existen.

VII. PRUEBAS Y RESULTADOS.

Para el reconocimiento de voz, las pruebas serealizaron con un corpus de voz de 350 palabras(tornillo, rondana, armella, alcayata, cola de milano) deuna sola persona, de las cuales se utilizaron 20 muestras

para el entrenamiento y 50 muestras para elreconocimiento de cada palabra.

Para el reconocimiento de imágenes se utilizó unconjunto de 220 imágenes con una resolución de 320 x240, en escala de gris, las cuales contienen las formasgeométricas correspondientes a tornillo, rondana,

armella, alcayata y cola de milano, contrastadas con unfondo negro. Se utilizaron 20 imágenes de cada forma para el entrenamiento y 120 imágenes para elreconocimiento.

Como se observa en la tabla 1, los resultados dereconocimiento de voz alcanzaron un 100% para todoslos casos.

Tabla 1. Matriz de confusión para reconocimiento devoz.

Tornillo Rondana Armella AlcayataCola demilano Total

Tornillo 50 0 0 0 0 100%

Rondana 0 50 0 0 0 100%

Armella 0 0 50 0 0 100%Alcayata 0 0 0 50 0 100%Cola demilano 0 0 0 0 50 100%

Los resultados obtenidos para el reconocimiento de

imágenes fueron los siguientes:

Para los objetos de rondana, alcayata y cola demilano, se obtuvo un 100% de reconocimiento, mientrasque en los objetos de tornillo y armella se equivocó 3veces confundiéndolo con rondana, obteniendo uneficiencia de 97.83 y 97.81 respectivamente, ver tabla 2.



Tabla 2. Matriz de confusión para reconocimientode imágenes.

Total Tornillo Rondana Armella AlcayataCola demilano

%

Tornillo 138 135 3 0 0 0 97.83

Rondana 176 0 176 0 0 0 100

Armella 137 0 3 134 0 0 97.81

Alcayata 133 0 0 0 133 0 100

Cola demilano

160 0 0 0 0 160 100

VIII. CONCLUSIONES.

Para el caso en particular de un solo locutor, se puede comprobar que los coeficientes del perfilespectral son eficientes cuando se tiene un diccionarioreducido de comandos e interactuando con lametodología para reconocimiento de imágenes

utilizando los momentos de Hu invariantes atraslaciones, rotaciones y cambios de escala se puedehacer un sistema de reconocimiento de formasgeométricas con un alto porcentaje de eficiencia.

Trabajos futuros.

En un siguiente experimento se propone utilizar unalista de comandos con frases acotadas, realizar pruebascon múltiples locutores, utilizar los modelos ocultos deMarkov para el reconocimiento de voz, reconocer objetos traslapados, reconocer objetos de color.

Referencias bibliográficas.

[1] L.R. Rabiner & B.H. Juang, “Fundamentals of Speech Recognition” , Prentice-Hall, New Jersey,1993.

[2] RABINER, Lawrence y SAMBUR, M. R.“An Algorithm for Determinng the Endpoints of

Isolated Utterances” . Bell Syst. Tech. Journal, Vol. 54, No. 2, pp. 297-315, February 1975.

[3] Oropeza Rodríguez, José Luis. “Algoritmos y

métodos para el reconocimiento de voz en español mediante sílabas” , México : [s.n.] Tesis (D. en C. de laComputación) -- Instituto Politécnico Nacional. Centro

de Investigación en Computación.

[4] Juan Humberto Sossa Azuela, “Rasgos Descriptores para el Reconocimiento de Objetos” ,Centro de Investigación en computación - InstitutoPolitécnico Nacional, México, 2006.

Documents

reconocimiento de imagenes