5
PLATAFORMA GRAFICA PARA EL RECONOCIMIENTO DE IMÁGENES DE OBJETOS AISLADOS MEDIANTE COMANDOS DE VOZ Hómer Alberto Lara Luis, José Luis Oropeza Rodríguez Centro de Investigación en Computación, Instituto Politécnico Nacional Juan de Dios Bátiz esq. Miguel Othón de Mendizábal s/n, C.P. 07038, México  [email protected], [email protected] Resumen. En este artículo se muestra el resultado de una serie de técnicas utilizadas para el reconocimiento de imágenes de objetos aislados mediante comandos de voz. Las técnicas utilizadas para el reconocimiento de voz fueron los Coeficientes de Predicción Lineal (LPC) combinados con el modelo de cuantificación vectorial. En cuanto al reconocimiento de imágenes se utilizó la técnica de etiquetado mediante el algoritmo de dos  pasos que usa una tabla de equivalencias y para la extracción de rasgos característicos de los objetos contenidos en la imagen, se usaron los momentos invariantes de Hu, los cuales se emplearon para entrenar una red neuronal (RNA) tipo Perceptrón multicapa para la clasificación de los objetos. El resultado obtenido fue una metodología que permite interactuar entre el reconocimiento de voz con el reconocimiento de imágenes para realizar una tarea específica. Las pruebas se realizaron para reconocer objetos sencillos tipo ferretería (tornillo, rondana, armella, alcayata y cola de milano) en imágenes de escala de grises de 8 bits, contrastados con un fondo negro. Obteniendo un reconocimiento de hasta un 100% en voz y 95% en imágenes. Palabras clave: reconocimiento de voz, reconocimiento de imagen, LPC, momentos de Hu, cuantificación vectorial. I. INTRODUCCIÓN En los últimos años se ha avanzado en gran medida el desarrollo de sistemas que simplifiquen la interacción entre el hombre y la máquina. Uno de estos desarrollos es proporcionarle a la máquina los sentidos de la vista y oído. Ejemplos de sistemas controlados por voz, son: el marcado telefónico, el control de elementos mecánicos o robóticos, la selección de servicios mediante palabras, etc. Para proporcionar el sentido del oído se utilizará un Sistema automático de reconocimiento de habla (SARH), este sistema es una herramienta capaz de  procesar la información contenida en una señal de voz  para extraer patrones o parámetros característicos de esta señal, para finalmente realizar una clasificación y el reconocimiento. En cuanto al sentido de la vista se utilizará un Sistema para el reconocimiento automatizado de objetos que permite a una máquina encontrar objetos en el mundo real a partir de una o más imágenes. La organización del artículo es la siguiente: en la sección 2, se explica la etapa de captura, procesamiento y extracción de patrones o parámetros característicos de una señal de voz (LPC). En la sección 3 se describe el modelo para el entrenamiento y reconocimiento de los comandos de voz. En la sección 4, muestra la técnica de etiquetado de objetos en una imagen digital y la extracción de rasgos característicos obtenidos a partir de los momentos geométricos. En la sección 5, se detalla la arquitectura de la RNA de tipo Perceptrón multicapa  para la clasificación y reconocimiento de objetos. En la sección 6, se integra el reconocedor de voz con el reconocedor de imágenes para que interactúen en conjunto. En la sección 7, se muestran las pruebas y resultados, así como el sistema de cómputo desarrollado empleando las técnicas mencionadas. Finalmente, en la sección 8, se presentan las conclusiones y se mencionan los trabajos a futuro. II. ANÁLISIS DE LA SEÑAL DE VOZ. Para desarrollar el sistema de reconocimiento de voz, se generó un corpus de voces con las palabras que identifican a los objetos en las imágenes a reconocer,  para esto se grabaron 20 muestras de cada palabra en formato wav con las siguientes características:  Frecuencia de muestreo: 11025 Kbps.  Resolución de muestreo: 8 bits por muestra.  Canal de audio: monoaural. Para extraer los perfiles espectrales se emplea el método sugerido por Rabiner [1], para lo cual se necesita pasar por una serie de procesos (ver Fig. 1), los cuales se muestran en el siguiente diagrama de flujo: Figura 1. Extracción de los coeficientes LPC.

reconocimiento de imagenes

Embed Size (px)

Citation preview

Page 1: reconocimiento de imagenes

8/4/2019 reconocimiento de imagenes

http://slidepdf.com/reader/full/reconocimiento-de-imagenes 1/5

Page 2: reconocimiento de imagenes

8/4/2019 reconocimiento de imagenes

http://slidepdf.com/reader/full/reconocimiento-de-imagenes 2/5

La señal capturada se somete a un proceso de pre-énfasis [1] definida por la siguiente expresión:

(1)

Un factor importante a tener en cuenta en elmomento de la grabación es poder diferenciar y recortar silencios o zumbidos de fondo previos y posteriores a la

  palabra pronunciada. Esta forma de discriminación es posible de realizar cuando el archivo de sonido ha sidograbado en un ambiente no extremadamente ruidoso.Cuando esta última condición se cumple, se puedeaplicar un sencillo algoritmo que logra este objetivo, yque fue propuesto por Rabiner y Sambur [2]. Elresultado del algoritmo es conformado por los puntosextremos de inicio y finalización de secuencia de vozefectiva (ver Fig. 2).

Figura 2. Detección de actividad por energía y cruce por ceros.

Una vez que se tiene la señal efectiva, se divide en bloques y se le aplica la ventana de Hamming. Esto sehace con el objetivo de minimizar los efectos dediscontinuidad al principio y al final de la señal en cada

 bloque.

Figura 3. Segmento de la señal con ventana deHamming.

,   (2)

Se calcula la autocorrelación para cada bloque:

[ ] [ ] [ ]nm xm xnCxx

n N 

m

+= ∑−−

=

1

0

m=0,1,…,p (3)

Siguiendo el algoritmo de Levinson-Durbin seobtienen los coeficientes LPC [1].

End

Para este aso se utilizaron 20 coeficientes deautocorrelación para obtener 19 coeficientes de perfil

espectral.

III. ENTRENAMIENTO Y RECONOCIMIENTODE LA SEÑAL DE VOZ.

Los vectores de autocorrelación se usaron paragenerar el libro código para cada palabra (tornillo,rondana, armella, alcayata, cola de milano) utilizando elalgoritmo de bipartición para encontrar un centroideoptimo y biparticionarlo en dos centroides no óptimos yoptimizarlos mediante el algoritmo de Lloyd hasta tener 128 regiones de cada libro código.

Una vez que se tiene el libro código por palabra, sereconoce utilizando el algoritmo del vecino más

  próximo, comparando la señal de voz capturada concada uno de los libros códigos de cada palabra. La quetenga la menor medida de distorsión es la palabrareconocida. [3]

Figura 4. Diagrama de flujo para el entrenamiento yreconocimiento de señales de voz.

IV. ETIQUETADO DE REGIONES YEXTRACCIÓN DE RASGOSCARACTERÍSTICOS DE UNA IMAGENDIGITAL.

Para el reconocimiento de formas en una imagendigital se utilizaron imágenes en escala de grises, conuna resolución de 320x240 píxeles, en formato BMP.

Page 3: reconocimiento de imagenes

8/4/2019 reconocimiento de imagenes

http://slidepdf.com/reader/full/reconocimiento-de-imagenes 3/5

Antes de etiquetar la imagen se pasa por un  procesamiento digital para eliminar ruidos, ajustar el  brillo o contraste y finalmente se umbrala, en estetrabajo se hizo un umbralado manual, utilizando un

umbral de 128, una vez que ya se pasó por esta serie de  procesos ya se pueden etiquetar sus componentesconectadas. Los píxeles en una región conectada formanuna región que puede representar un objeto dado areconocer. Para el etiquetado de componentesconectadas se utilizó el algoritmo de dos pasos que usauna tabla de equivalencias con conectividad 8 [4].

1 1 1 1

1 1 1 1

1 1 2 2 2

1 1 2 2 2 2

2 2 2

3 3

3 3

3 3 3

3 3 3

3 3 3

Figura 5. Imagen binaria etiquetada.

Posteriormente se calculan los momentosgeométricos hasta de orden 2 (p+q≤3) para cada objetoetiquetado [4].

(5)

Donde el momento de orden cero representa elárea geométrica del objeto.

Los momentos de orden uno se usaron para encontrar las coordenadas del centro del objeto [4].

(6)

A partir de esos momentos se calculan losmomentos invariantes a traslaciones, rotaciones ycambios de escala [4].

Momentos centrales:  para que los momentos

se conserven constantes ante cambios de posición delobjeto sin rotaciones y cambios de escala se usan lassiguientes ecuaciones [4]:

Invariantes de Hu: para que los momentos se

conserven constantes ante rotaciones se usan lassiguientes ecuaciones[4]:

Momentos centrales normalizados:   para que losmomentos se conserven constantes ante cambios

de escala se usa la siguiente ecuación [4]:

, ,

Invariantes a traslaciones, rotaciones y cambiosde escala: Al reemplazar los momentos centrales en lasexpresiones para invariantes a rotaciones por losinvariantes a escala , resultan los conocidos 7

invariantes a traslaciones, rotaciones y cambios deescala de Hu [4].

Page 4: reconocimiento de imagenes

8/4/2019 reconocimiento de imagenes

http://slidepdf.com/reader/full/reconocimiento-de-imagenes 4/5

 

De esta forma, a cada objeto contenido en la imagense le extraen estos momentos invariantes de Hu, loscuales se utilizan para clasificar.

V.  ENTRENAMIENTO Y RECONOCIMIENTO.

En este artículo se reconocerán objetos de tipoferretería, como tornillo, rondana, armella, alcayata ycola de milano.

Para poder clasificar, como es sabido se requiere de

dos etapas para poner en operación el clasificador, unaetapa de entrenamiento y una etapa de prueba. Acontinuación se muestra una metodología para resolver el problema de la clasificación de objetos aisladoscontra fondo contrastado y homogéneo.

Figura 6. Metodología para clasificación de objetos [4].

Para realizar el entrenamiento únicamente se usaronlos primeros dos momentos de Hu , los cuales

se introdujeron a una RNA tipo Perceptrón multicapacon la siguiente arquitectura:

Figura 7. Arquitectura de una RNA tipo Perceptrónmulticapa.

VI. INTERACCIÓN ENTRE EL SARH Y EL

SRAO.

Para que interactúe el SARH y el SRAO, primero senecesita hacer la clasificación de los objetos que hay enla imagen digital, con este proceso de clasificación seconocerá el número total de objetos existentes en laimagen y el número de objetos de cada clase, generandoun arreglo con índice i correspondiente a cada clase delobjeto y con n número de objetos de esa clase.

Posteriormente se reconoce la palabra pronunciada,la cual entrega una etiqueta que servirá como índice delarreglo generado con el SARO, y de esta forma seindicará cuantos objetos de esa clase existen.

VII.  PRUEBAS Y RESULTADOS.

Para el reconocimiento de voz, las pruebas serealizaron con un corpus de voz de 350 palabras(tornillo, rondana, armella, alcayata, cola de milano) deuna sola persona, de las cuales se utilizaron 20 muestras

  para el entrenamiento y 50 muestras para elreconocimiento de cada palabra.

Para el reconocimiento de imágenes se utilizó unconjunto de 220 imágenes con una resolución de 320 x240, en escala de gris, las cuales contienen las formasgeométricas correspondientes a tornillo, rondana,

armella, alcayata y cola de milano, contrastadas con unfondo negro. Se utilizaron 20 imágenes de cada forma  para el entrenamiento y 120 imágenes para elreconocimiento.

Como se observa en la tabla 1, los resultados dereconocimiento de voz alcanzaron un 100% para todoslos casos.

Tabla 1. Matriz de confusión para reconocimiento devoz.

Tornillo Rondana Armella AlcayataCola demilano Total

Tornillo 50 0 0 0 0 100%

Rondana 0 50 0 0 0 100%

Armella 0 0 50 0 0 100%Alcayata 0 0 0 50 0 100%Cola demilano 0 0 0 0 50 100%

 Los resultados obtenidos para el reconocimiento de

imágenes fueron los siguientes:

Para los objetos de rondana, alcayata y cola demilano, se obtuvo un 100% de reconocimiento, mientrasque en los objetos de tornillo y armella se equivocó 3veces confundiéndolo con rondana, obteniendo uneficiencia de 97.83 y 97.81 respectivamente, ver tabla 2.

Page 5: reconocimiento de imagenes

8/4/2019 reconocimiento de imagenes

http://slidepdf.com/reader/full/reconocimiento-de-imagenes 5/5

Tabla 2. Matriz de confusión para reconocimientode imágenes.

Total Tornillo Rondana Armella AlcayataCola demilano

%

Tornillo 138 135 3 0 0 0 97.83

Rondana 176 0 176 0 0 0 100

Armella 137 0 3 134 0 0 97.81

Alcayata 133 0 0 0 133 0 100

Cola demilano

160 0 0 0 0 160 100

VIII. CONCLUSIONES.

Para el caso en particular de un solo locutor, se  puede comprobar que los coeficientes del perfilespectral son eficientes cuando se tiene un diccionarioreducido de comandos e interactuando con lametodología para reconocimiento de imágenes

utilizando los momentos de Hu invariantes atraslaciones, rotaciones y cambios de escala se puedehacer un sistema de reconocimiento de formasgeométricas con un alto porcentaje de eficiencia.

Trabajos futuros.

En un siguiente experimento se propone utilizar unalista de comandos con frases acotadas, realizar pruebascon múltiples locutores, utilizar los modelos ocultos deMarkov para el reconocimiento de voz, reconocer objetos traslapados, reconocer objetos de color.

Referencias bibliográficas.

[1] L.R. Rabiner & B.H. Juang, “Fundamentals  of Speech Recognition” , Prentice-Hall, New Jersey,1993.

[2] RABINER, Lawrence y SAMBUR, M. R.“An Algorithm for Determinng the Endpoints of 

  Isolated Utterances” . Bell Syst. Tech. Journal, Vol. 54, No. 2, pp. 297-315, February 1975.

[3] Oropeza Rodríguez, José Luis. “Algoritmos y

  métodos para el reconocimiento de voz en español  mediante sílabas”  , México : [s.n.] Tesis (D. en C. de laComputación) -- Instituto Politécnico Nacional. Centro

de Investigación en Computación.

[4] Juan Humberto Sossa Azuela, “Rasgos  Descriptores para el Reconocimiento de Objetos” ,Centro de Investigación en computación - InstitutoPolitécnico Nacional, México, 2006.