Informe Final Tesis 3

EVALUACION AUTOMATICA DE METRICAS ACUSTICAS PARA LA DETECCION DE HIPERNASALIDAD

JONNY ALEXANDER URIBE

UNIVERSIDAD DE ANTIOQUIA FACULTAD DE INGENIERA DEPARTAMENTO DE INGENIERA ELECTRNICA MEDELLN 2009

1

EVALUACION AUTOMATICA DE METRICAS ACUSTICAS PARA LA DETECCION DE HIPERNASALIDAD

JONNY ALEXANDER URIBE

Trabajo de tesis para optar al ttulo de Ingeniero Electrnico

Asesor: NATALIA GAVIRIA GOMEZ Ph.D.

UNIVERSIDAD DE ANTIOQUIA FACULTAD DE INGENIERA DEPARTAMENTO DE INGENIERA ELECTRNICA MEDELLN 2009

2

Nota de aceptacin

________________ ________________ ________________

________________ Presidente del Jurado

________________ Jurado

________________ Jurado

Medelln 23 de marzo de 2009

3

AGRADECIMIENTOS

Quiero agradecer a la asesora de este trabajo, la Prof. Natalia Gaviria, por su continuo apoyo y soporte. Sus comentarios e indicaciones fueron siempre certeros y no hubiera terminado este trabajo sin su invaluable ayuda. Al Prof. Carlos Henry Mendoza por sus valiosos consejos y apreciaciones. Su capacidad para observar los problemas de manera clara y razonada, asi como su ayuda continua y desinteresada, lo convirtieron en un invaluable gua a lo largo de todo el trabajo. Al Prof. Germn Castellanos quien generosamente accedi a compartir la base de datos necesaria para cumplir los objetivos de esta tesis. Su trabajo incansable en el tema de deteccin de hipernasalidad es un ejemplo de constancia y tenacidad. Al Ingeniero Franklin Seplveda por su amabilidad y ayuda desinteresada. Quisiera agradecer especialmente al Comit para el Desarrollo de la Investigacin, CODI, por los recursos fsicos que me concedieron. Para mi fue una grata noticia saber que mi trabajo inspiraba la colaboracin de esta entidad. El apoyo brindado por ellos a la investigacin ennoblece su labor y los ubica como gestores de progreso en la Universidad de Antioquia. Por ltimo agradezco a todos aquellos que con sus aportes y consejos me ayudaron a completar este trabajo. Les pido me perdonen por no recordar sus nombres pero quiero que sepan que este logro tambin es suyo.

4

CONTENIDOLISTA DE TABLAS ..................................................................................................................7 LISTA DE FIGURAS ................................................................................................................8 RESUMEN...............................................................................................................................10 1 INTRODUCCION ................................................................................................................11 1.1. PLANTEAMIENTO DEL PROBLEMA ..................................................................................11 1.2. OBJETIVO GENERAL.......................................................................................................11 1.3. ORGANIZACIN DE LA TESIS ...........................................................................................11 2 MARCO TEORICO Y ESTADO DEL ARTE.....................................................................12 2.1. LABIO Y/O PALADAR HENDIDO (LPH)............................................................................12 2.2. IMPLICACIONES EN EL HABLA DEL LPH..........................................................................12 2.3. TRATAMIENTO FONOAUDIOLOGICO DEL LPH..................................................................14 2.4. PRODUCCIN DE VOZ ....................................................................................................15 2.5. RASTREADORES DE FORMANTES ..................................................................................16 2.6. HIPERNASALIDAD Y SU MEDIDA .....................................................................................17 2.7. PARMETROS FRECUENCIALES INDICATIVOS DE NASALIZACIN ...................................17 2.8. REVISIN BIBLIOGRFICA ..............................................................................................18 3 HERRAMIENTAS Y METODOLOGIA ..............................................................................22 3.1. SOFTWARE PARA EL PROCESAMIENTO SEALES DE VOZ..............................................22 3.2. BASE DE DATOS DE VOZ SANA Y VOZ HIPERNASAL ......................................................24 3.2.1. Preliminares .......................................................................................................24 3.2.2. Recurso Disponible ..........................................................................................25 3.2.3 Extraccin de Vocales Usando Grabaciones de Palabras..........................25 3.2.4. Descripcin de la Base de datos con Sonidos Voclicos .........................27 4 PARAMETROS ACUSTICOS SELECCIONADOS .........................................................29 4.1. SUSTENTACION Y METODOLOGA ...................................................................................29 4.1.1 Rastreador de Formantes ..................................................................................29 4.1.2. Detector de Picos...............................................................................................32 4.1.3. Disminucin de la Amplitud del Primer Formante ......................................32 4.1.3.1 A1 H1 .........................................................................................................32 4.1.4. Polos Extras a Bajas Frecuencias..................................................................35 4.1.4.1 A1 P0 y A1 P1........................................................................................35 4.1.4.2. CTEO............................................................................................................38 4.1.4.3 P250v y P250m ............................................................................................45 4.1.5. Incremento en el Ancho de Banda del Primer Formante ...........................53 4.1.5.1. F1BW............................................................................................................53 5 RESULTADOS....................................................................................................................54 5.1. DESCRIPCIN DEL TRATAMIENTO ESTADSTICO ............................................................54 5.2. RESULTADOS MTRICA A1 H1...................................................................................55 5.3. RESULTADOS MTRICA A1 P0 ...................................................................................60 5.4. RESULTADOS MTRICA A1 P1 ..................................................................................63 5.5. RESULTADOS MTRICA P250V ......................................................................................67 5.6. RESULTADOS MTRICA P250M .....................................................................................69 5.7. RESULTADOS MTRICA CTEO .....................................................................................72 5.8. RESULTADOS MTRICA F1BW......................................................................................75 5.9. COMPARACIN DE MTRICAS ........................................................................................78 6 CONCLUSIONES Y TRABAJO FUTURO........................................................................81 APENDICES............................................................................................................................83 A. PRAAT: SOFTWARE PARA EL ANLISIS DE SEALES DE VOZ...........................................83

5

B. SCRIPTS Y FUNCIONES IMPLEMENTADOS EN MATLAB ......................................................87 C. SCRIPTS IMPLEMENTADOS EN PRAAT ............................................................................105 BIBLIOGRAFIA ....................................................................................................................109

6

LISTA DE TABLASTabla 2.1 Autores y mtricas propuestas ..................................................... 21 Tabla 3.1 Estructura de la base de datos a nivel de directorio................... 27 Tabla 3.2 Calificacin subjetiva de la base de datos segn nio............... 28 Tabla 3.3 Ejemplo de los nombres de las grabaciones disponibles .......... 28 Tabla 4.1 Mtricas acsticas seleccionadas ................................................. 29 Tabla 4.2. Seleccin de alfa y gama como equilibrio entre intereses opuestos........................................................................................................... 50 Tabla 5.1. ANOVA mtrica A1 H1 toda la base de datos ........................ 57 Tabla 5.2. Interpretacin de medias e intervalos de confianza A1 H1 ... 58 Tabla 5.3. Evaluacin mtrica A1 H1 segn nio..................................... 58 Tabla 5.4. ANOVA mtrica A1 P0 toda la base de datos ........................ 61 Tabla 5.5. ANOVA mtrica A1 P0 solo vocal o ...................................... 63 Tabla 5.6. ANOVA mtrica A1 P1 .............................................................. 65 Tabla 5.7. ANOVA para A1 P1 solo vocal e ........................................... 66 Tabla 5.8. ANOVA para P250v...................................................................... 68 Tabla 5.9. ANOVA para P250m..................................................................... 70 Tabla 5.10. ANOVA para P250m sin considerar la vocal i....................... 71 Tabla 5.11. ANOVA para CTEO.................................................................... 74 Tabla 5.12. ANOVA para CTEO slo vocales e y o ............................... 75 Tabla 5.13. ANOVA para F1BW .................................................................... 77 Tabla 5.14. Comparacin de mtricas .......................................................... 78 Tabla 7.1. Conjunto de operaciones para calcular el TEO ......................... 86

7

LISTA DE FIGURASFig. 2.1 Diferentes grados de labio y paladar hendido ................................. 12 Fig. 2.2 Posicin del velo dentro del sistema fonador................................... 13 Fig. 2.3 Modelo simplificado del sistema fonador humano........................... 15 Fig. 2.4 Modulacin o filtrado de la seal fundamental desde la glotis........ 15 Fig. 2.5 Espectro LPC de la vocal /a/ y sus formantes ................................. 16 Fig. 3.1 Extraccin manual de un tramo voclico ........................................ 26 Fig. 4.1 Respuesta del rastreador de formantes en Praat para A9_F1_N.. 30 Fig. 4.2 Respuesta del rastreador de formantes en Praat para A3_F2_H 30 Fig. 4.3 Diagrama LPC y ubicacin de F1 y F2 para un frame de A10_F1_H (stereo).......................................................................................... 31 Fig. 4.4 Diagrama LPC y ubicacin de F1 y F2 para un frame de A10_F1_H (monofnico) ................................................................................ 31 Fig. 4.5 Prueba del detector de picos ........................................................... 32 Fig. 4.6 Espectro sin aplicar prenfasis y diagrama LPC ........................... 33 Fig. 4.7 Espectro luego de aplicar prenfasis y diagrama LPC.................. 33 Fig. 4.8 Espectro antes y despus de aplicar enventanado ....................... 34 Fig. 4.9 Deteccin del primer armnico ........................................................ 35 Fig. 4.10. A1 H1 para las grabaciones A10_F1_N y A10_F1_H............. 35 Fig. 4.11. Deteccin de P0 y P1 en un frame de voz hipernasal ............... 37 Fig. 4.12. Deteccin de P0 y P1 en un frame de voz sana......................... 37 Fig. 4.13. Mtrica A1 P0 para las grabaciones A10_F1_N y A10_F1_H37 Fig. 4.14. Mtrica A1 P1 para las grabaciones A10_F1_N y A10_F1_H38 Fig. 4.15. Perfil Teager de seales sinusoidales puras............................... 42 Fig. 4.16. Perfil Teager de seales sinusoidales contaminadas con ruido42 Fig. 4.17. Perfil Teager de seales sinusoidales contaminadas con ruido filtrado a 3khz .................................................................................................. 42 Fig. 4.18. Perfil Teager de seales sinusoidales contaminadas con ruido filtrado a 1khz .................................................................................................. 43 Fig. 4.19. Perfil TEO, ventana a 30 ms, Sound A10_F1_N a los 68ms, filtro perfil 0-100Hz (izq), 0-500Hz (centro), 0-1000Hz (der). ..................... 43 Fig. 4.20. Consistencia perfil TEO a lo largo de una grabacin ................. 43 Fig. 4.21. Perfiles Teager para seales pasabajas y pasabanda .............. 44 Fig. 4.22. CTEO para grabaciones A10_F1_N y A10F1_H ........................ 44 Fig. 4.23. MDF en un frame de una vocal sinttica ..................................... 47 Fig. 4.24. MDF en un frame de A2_M2_N y A3_M1_H............................... 47 Fig. 4.25 MDF a lo largo de A_13_M1_N ..................................................... 47 Fig. 4.26 Gama = 0.9 Alfa = 0.7 0. 8 0.9 0.98 -> (negro, rojo, verde, azul) (A11_F2_H)............................................................................................ 48 Fig. 4.27 Gama = 0.9 Alfa = 0.7 0. 6 0.5 0.4 -> (negro, rojo, verde, azul) (A11_F2_H)............................................................................................ 48 Fig. 4.28. Gama = 0.9 Alfa = 0.7 0. 8 0.9 0.98 -> (negro, rojo, verde, azul) (A10_F1_N)............................................................................................ 49 Fig. 4.29. Gama = 0.9 Alfa = 0.6 0.5 0.4 -> (negro, rojo, verde)(A10_F1_N) .......................................................................................... 50 Fig. 4.30. MDF frame de A10_F1_N y A11_F2_H....................................... 51 Fig. 4.31. MDF a lo largo de las grabaciones A10_F1N y A11_F2_H....... 51 Fig. 4.32. Mtrica P250v a lo largo de A11_F2_H y A10_F1_N ................ 52 8

Fig. 5.1 Hiptesis de normalidad A1 H1 .................................................... 56 Fig. 5.2 Contraste entre vocales A1 H1 voz normal ................................. 56 Fig. 5.3 Contraste entre vocales A1 H1 voz hipernasal........................... 56 Fig. 5.4 Mtrica A1 H1 en toda la base de datos...................................... 57 Fig. 5.5 Comaracin grfica de medias e intervalo de confianza A1 H1 58 Fig. 5.6 Mtrica A1 H1 luego de retiriar grabaciones de mala calidad ... 59 Fig. 5.7 Mtrica A1 H1 vocales a,e y o .............................................. 59 Fig. 5.8 ANOVA de A1 H1 sobre subespacio ........................................... 59 Fig. 5.9 Hiptesis de normalidad A1 P0 .................................................... 60 Fig. 5.10. Contraste entre vocales A1 P0 voz normal .............................. 60 Fig. 5.11. Contraste entre vocales A1 P0 voz hipernasal........................ 61 Fig. 5.12. Mtrica A1 P0 en toda la base de datos................................... 61 Fig. 5.13. Comparacin grfica de medias A1P0 ...................................... 62 Fig. 5.14. A1 P0 solo vocal o.................................................................... 62 Fig. 5.15. Comparacin grafica de medias A1 P0 solo vocal o ............ 63 Fig. 5.16. Hiptesis de normalidad A1 P1 ................................................. 63 Fig. 5.17. Contraste entre vocales A1 P1 voz normal .............................. 64 Fig. 5.18. Contraste entre vocales A1 P0 voz hipernasal........................ 64 Fig. 5.19. Diagrama de cajas y bigotes mtrica A1 P1 ............................ 65 Fig. 5.20. Comparacin grafica de Medias A1 P1 .................................... 65 Fig. 5.21. Diagrama cajas y bigotes A1 P1 solo la voal e ..................... 66 Fig. 5.22. Comparacin grafica de Medias e intervalo de confianza A1 P1 solo vocal e.............................................................................................. 66 Fig. 5.23. Hiptesis normalidad mtrica P25v.............................................. 67 Fig. 5.24. Hiptesis distribucin exponencial mtrica P250v...................... 67 Fig. 5.25. Diagrama cajas y bigotes P250v .................................................. 68 Fig. 5.26. Comparacin grafica de medias P250v....................................... 68 Fig. 5.27. Hiptesis de normalidad P250m................................................... 69 Fig. 5.28. Hiptesis distribucin exponencial mtrica P250m .................... 69 Fig. 5.29. Contraste entre vocales voz sana e hipernasal mtrica P250m70 Fig. 5.30. Diagrama de cajas y bigotes mtrica P250m.............................. 70 Fig. 5.31 Comparacin grafica de medias P250m....................................... 71 Fig. 5.32. Diagrama cajas y bigotes para P250m sin la vocal i ............... 71 Fig. 5.33. Comparacin grafica de medias P20m sin considerar vocal i 72 Fig. 5.34. Hiptesis de normalidad CTEO todos los datos ......................... 72 Fig. 5.35. Hiptesis de normalidad CTEO sin datos nulos ......................... 73 Fig. 5.36. Contraste entre vocales voz sana e hipernasal mtrica CTEO. 73 Fig. 5.37. Diagrama de cajas y bigotes CTEO............................................. 74 Fig. 5.38. Comparacin Grfica de medias CTEO ...................................... 74 Fig. 5.39. Diagrama cajas y bigotes CTEO vocales e y o...................... 75 Fig. 5.40. Comparacin Grfica de Medias CTEO slo vocales e y o . 75 Fig. 5.41. Hiptesis de normalidad F1BW .................................................... 75 Fig. 5.42tesis distribucin exponencial mtrica F1BW.............................. 76 Fig. 5.43traste entre vocales voz sana e hipernasal mtrica F1BW.......... 76 Fig. 5.44 Diagrama cajas y bigotes F1BW ................................................... 77 Fig. 5.45. Comparacin Grfica de medias F1BW ...................................... 77 Fig. 5.46. Comparacin de F-ratios............................................................... 78 Fig. 7.1 Ventanas en Praat ............................................................................ 83 Fig. 7.2 LPC de O5_M1_N a los 90ms ......................................................... 85

9

RESUMEN

El objetivo de este trabajo es evaluar un conjunto de mtricas acsticas que tienen el potencial de discriminar voces sanas de voces hipernasales. La hipernasalidad es una patologa de voz recurrente en nios con Labio y/o paladar hendido. Esta caracterstica dota sus voces de un tono desagradable que interfiere con la comunicacin fluida y desempeo normal en su entorno social. Detectar la hipernasalidad por medio del anlisis de la seal de voz, dotara al especialista con una herramienta en el diagnstico y terapia de estos nios. Este recurso tendra la ventaja de ser no invasivo y potenciara un registro objetivo de la evolucin que el tratamiento fontico sigue en los nios. Como un primer para paso para lograr el diagnstico automtico de la hipernasalidad esta tesis explora el desempeo de seis mtricas acsticas sobre la seal de voz. Su seleccin se bas en una exploracin detallada de la literatura actual. Los algoritmos y procedimientos especficos para calcular estas mtricas fueron implementados y documentados de manera completa. El desempeo de estos seis parmetros fue evaluado estadsticamente sobre la base de datos disponible y se subrayaron aquellos con el potencial de ser usadas en un sistema automtico de reconocimiento de voz hipernasal.

10

Captulo 1 INTRODUCCION1.1. Planteamiento del Problema Una de las reas fundamentales para el buen desarrollo psicolgico y social del individuo es el lenguaje. En nios que nacen con LPH (Labio y/o Paladar Hendido) la capacidad para articular correctamente los sonidos del habla se ve altamente afectada. Una de las principales caractersticas de su voz anmala es el alto grado de hipernasalidad. Este puede ser tal que el oyente puede perder conciencia del mensaje y simplemente centrarse en la escucha del defecto. Incluso aunque la nasalizacin sea leve, los nios pueden padecer de discriminacin social, burla y rechazo por que su voz resulta desagradable al odo. Una medida cuantitativa de este problema ayudara a decidir objetivamente la pertinencia y grado de una posible intervencin quirrgica, adems de dar pautas concretas sobre el enfoque que el tratamiento fontico debe seguir [1, pp. 2]. Obtener esta mtrica con base en el procesamiento digital de seales, resultara en un mtodo gil, eficaz y econmico que podra complementar el diagnstico fonoaudiologico en pacientes con LPH, adems de ofrecer un mecanismo no invasivo de evaluacin que facilitara el tratamiento con los nios. 1.2. Objetivo General El propsito de esta tesis fue evaluar algunas mtricas acsticas que, con base en la revisin bibliogrfica, mostraban potencial en la discriminacin de voces sanas e hipernasales. Los algoritmos y procedimientos para su clculo fueron desarrollados usando diferentes lenguajes y se implementaron los programas que automticamente evaluaban estos parmetros. Los resultados de estos experimentos se expresan estadsticamente y se indica como este conocimiento podra ser usado para crear sistemas de identificacin automtica de voz hipernasal. Para evaluar las mtricas utilizamos sonidos voclicos provenientes de nios con voz sana y voz hipernasal. 1.3. Organizacin de la Tesis El Capitulo 1 introduce el problema y plantea el objetivo general. En el Capitulo 2 se presenta el marco teorico y se hace una revisin de la bibliografa. El Capitulo 3 presenta las herramietas de software utilizadas y la base de datos disponible para evaluar las mtricas. En el Capitulo 4 se listan las mtricas seleccionadas, se explica su origen y se detallan los mtodos utilizados para calcularlas. El Capitulo 5 presenta los resultados obtenidos para cada mtrica particular desde un punto de vista estadstico. Se comparan las mtricas y se resaltan las mejores. El Capitulo 6 presenta las conclusiones y trabajo futuro. 11

Captulo 2 MARCO TEORICO Y ESTADO DEL ARTE2.1. Labio y/o Paladar Hendido (LPH) Labio hendido es un defecto congnito en el cual hay un espacio abierto entre la cavidad nasal y el labio, debido una falla del tejido blando y los huesos en esa rea para fusionarse apropiadamente durante el desarrollo embriolgico. Con el paladar hendido hay una falla del paladar duro y/o blando para fusionarse, resultando en una fisura en el paladar que comunica la cavidad oral con la nasal [2, pp. 182]. La Fig. 2.1 ilustra diferentes grados de hendidura en labio y paladar.

Fig. 2.1 Diferentes grados de labio y paladar hendido

De acuerdo con la Organizacin Mundial de la Salud, Colombia report 21.014 nacimientos y 34 casos de labio y/o paladar hendido durante los aos 2001 a 2003, lo cual arroja un 0.16% de incidencia de esta malformacin durante dicho periodo. Es decir de cada 625 nios nacidos vivos uno de ellos sufre de LPH en nuestro pas [3]. 2.2. Implicaciones en el Habla del LPH De acuerdo con especialistas de la Clnica Noel, las principales alteraciones del habla que deben ser trabajadas en nios con LPH son la hipernasalidad, la hiponasalidad y las dislalias [4]. En este proyecto nos centraremos exclusivamente en la hipernasalidad. La hipernasalidad es el resultado de la incapacidad del esfnter velo farngeo para lograr un cierre suficiente que evite la resonancia nasal de los sonidos orales. La voz se oye diferente y con intensidad disminuida, puede escucharse el soplo nasal, el predominio de los fonemas /m/, /n/, //, y la distorsin, omisin o 12

sustitucin de los dems sonidos. En condiciones normales las cavidades oral y nasal son comunicadas o aisladas por la accin del esfnter velofarngeo. Este rgano se encuentra fijado al paladar blando y tiene el potencial de replegarse para permitir que el aire alcance la cavidad nasal o de extenderse acoplndose con la pared de la faringe y obligando a que todo el aire salga por la cavidad oral. El siguiente esquema, Fig. 2.2, ilustra la posicin de este rgano dentro del sistema fonador humano.

Fig. 2.2 Posicin del velo dentro del sistema fonador

El velo del paladar acta pues como una compuerta que comunica ambas cavidades. Las posiciones intermedias del velo son tambin posibles. Esta apertura variable confiere al habla una caracterstica particular conocida como nasalizacin. Entre ms amplia sea la separacin entre el velo y la faringe ms nasalizados sern los sonidos. En espaol los fonemas voclicos solo son nasalizados si se encuentran justo antes de una consonante nasal como /m/ o /n/. Idiomas como el francs, o el hind requieren la nasalizacin leve de ciertos sonidos para distinguirlos fonticamente [5]. La hipernasalidad puede alterar de tal forma el fonema voclico que puede ser difcil entender el mensaje. En personas con paladar hendido la accin del velo es, en general, insuficiente. Muchos pacientes con LPH carecen de este rgano o lo poseen atrofiado. Adems al presentar el paladar una perforacin intrnseca resulta imposible aislar la cavidad oral de la nasal y la voz adquiere caractersticas hipernasales. Si el paciente ha sido intervenido quirrgicamente y el paladar duro ha sido cerrado aun persiste la insuficiencia velofaringea debido al estado incompleto del paladar blando. Cirugas posteriores para reconstruir el paladar blando son muchas veces requeridas en pro de mejorar la capacidad articulatoria y brindar al paciente la oportunidad de corregir su pronunciacin [4, pp. 20].

13

2.3. Tratamiento Fonoaudiologico del LPH El tratamiento llevado a cabo en los nios con LPH involucra muchos profesionales. Uno de ellos es el fonoaudilogo encargado de la atencin auditiva y fontica del nio. La mayora de nios con LPH tienen tambin problemas de audicin que complican la adquisicin del lenguaje. El medico realiza siempre una evaluacin especifica de cada paciente. Los rganos articulatorios y parmetros como la respiracin, la resonancia, la fonacin, la prosodia etc., son revisados detalladamente y conforman un cuadro general que permite enfocar la terapia. El tratamiento fontico depende tambin de la edad que el nio posee y de su ubicacin geogrfica. En trminos generales puede decirse que esta terapia atraviesa los siguientes niveles de trabajo: imitacin, direccin y transferencia [4, pp. 25]. Durante la imitacin el medico intenta por medio de preguntas apropiadas localizar los puntos especficos en los que el nio requiere ayuda. Se trata de una bsqueda de los fonemas alterados y de una caracterizacin del error (como hiponasal, hipernasal, dislalia, etc). La direccin implica que se realicen una serie de ejercicios en los que el nio debe repetir los fonemas buscando mejorar su pronunciacin. Esta etapa en si misma comprende un escalado continuo en complejidad: silaba, palabra, frase, silaba inversa, oraciones, trabalenguas, rimas, retahlas, etc. No todos los ejercicios involucran la pronunciacin de palabras, dependiendo la necesidad particular pueden emplearse ejercicios de absorcinsorbicin, soplos, masajes velares, educacin en la respiracin, ejercicios auditivos, etc. En la fase de transferencia se aborda una conversacin fluida con el nio buscando afinar los ltimos detalles en pronunciacin. Entre los retos del tratamiento fontico encontramos que la valoracin del habla es perceptual, y por tanto subjetiva. La confiabilidad de sus resultados depende fuertemente del nivel de entrenamiento y de la experiencia del especialista. El uso de tcnicas de procesamiento digital de seales en la valoracin objetiva del habla, o en la cuantificacin de la severidad de sus alteraciones, complementara el tratamiento fontico del nio al brindar al medico la posibilidad de comparar resultados entre diferentes sesiones y enfocar la terapia de manera ms acertada.

14

2.4. Produccin de Voz Podemos modelar el tracto vocal de un hablante como muestra la Fig 2.3.

Fig. 2.3 Modelo simplificado del sistema fonador humano

Los pulmones actan como fuente de energa e impulsan el aire a travs de la faringe. La glotis, al estar en su camino, oscila y produce una seal peridica compuesta por una frecuencia fundamental F0 y sus armnicos. La cavidad oral y nasal, adems de todos los articuladores (lengua, labios, etc.), actan como moduladores y filtran la seal cambiando las caractersticas espectrales de esta. En la Fig. 2.4 mostramos como la seal de voz atraviesa estas etapas. En a) acaba de atravesar la glotis. Esta seal peridica tiene un espectro compuesto bsicamente por F0 y sus armnicos (mostrado en b). La cavidad oral y nasal, la lengua, los dientes, los labios, etc., actan de manera dinmica permitiendo la resonancia o exclusin de diferentes bandas frecuenciales en esta seal. En c) podemos observar un ejemplo de cmo el tracto puede pensarse como un filtro con una determinada respuesta en frecuencia que acta sobre la seal en b) para producir la salida en d).

Fig. 2.4 Modulacin o filtrado de la seal fundamental desde la glotis

15

Los sonidos producidos de esta manera se conocen como sonoros en contraste con aquella situacin en la que las cuerdas vocales no oscilan y se producen sonidos sordos (por ejemplo /s/, /k/). Todos los sonidos voclicos son sonoros y presentan el mayor nmero de vibraciones en las cuerdas vocales por unidad de tiempo. En trminos frecuenciales esta caracterstica confiere a su espectro un contenido armnico ms completo. El tracto vocal filtra esta seal excluyendo o reforzando ciertas bandas de armnicos. Para cada vocal el filtro es distinto y los puntos de resonancia varan. Los mximos en la funcin de transferencia se definen como formantes de la seal. La grafica siguiente, Fig. 2.5, muestra la respuesta del filtro obtenida para la vocal /a/ y los formantes asociados:

Fig. 2.5 Espectro LPC de la vocal /a/ y sus formantes

2.5. Rastreadores de Formantes Aunque los formantes definen el tipo de sonido voclico siendo pronunciado su ubicacin y caractersticas frecuenciales presentan gran variabilidad. En muchas situaciones puede ser conveniente hallar de manera automtica la ubicacin de los formantes y, aunque para un humano es fcil identificar los formantes como los picos del LPC, los algoritmos de rastreo automtico de formantes enfrentan muchas dificultades dado que en ocasiones los picos se aplanan, desplazan o desaparecen. Una revisin detallada de los problemas y desafios que enfrenta un rastreador de formantes puede ser consultada en el capitulo 11 del Springer Handbook of Speech Processing [6].

16

2.6. Hipernasalidad y su Medida Los nios que nacen con LPH presentan una voz con calidad reducida. Entre las principales caractersticas encontramos que posee un alto grado de nasalidad. Los procedimientos para medir la hipernasalidad pueden ser clasificados en invasivos o no invasivos. Los mtodos invasivos se basan en instrumentos mdicos que se introducen en la boca del paciente y permiten evaluar el comportamiento de los rganos articuladores (en particular el velo del paladar). Los mtodos no invasivos, por su parte, pueden ser divididos en dos: aquellos que utilizan la evaluacin subjetiva de personal experimentado y aquellos que se apoyan en tcnicas de procesamiento de seales [1, pp. 1-2]. Utilizar la seal de voz para detectar la nasalizacin es un problema difcil porque esta seal es sumamente variable. Encontrar parmetros en la voz que sean consistentes entre personas, estados de animo, condiciones de ruido, diferentes palabras, etc., es un desafi vigente que ha durado dcadas. No obstante, gracias al esfuerzo de observacin y analisis llevado a cabo durante aos, los investigadores han logrado detectar algunas caractersticas recurrentes en la seal de voz que pueden ser usadas como indicativas de nasalizacin. 2.7. Parmetros Frecuenciales Indicativos de Nasalizacin Los cambios acsticos introducidos por la nasalizacin repercuten en el espectro de la seal de voz. Algunas de estas manifestaciones, indicativas de nasalizacin y con el potencial de ser medidas, se listan a continuacin. Las diferencias se refieren a la comparacin con los sonidos exclusivamente orales (o no nasales): La introduccin de polos y ceros extras en todo el espectro, principalmente en la regin del primer formante constituye un invariante en las voces nasalizadas. La amplitud del primer formante se ve disminuida en los sonidos nasales. El ancho de banda del primer y segundo formante se incrementa. El espectro es en general ms plano principalmente en las bajas frecuencias. El centro de gravedad del espectro se desplaza a una frecuencia mayor.

Estas alteraciones pueden ser explicadas tericamente utilizando modelos del tracto vocal [7]. Aunque la hipernasalidad tambin altera caractersticas en la parte alta del espectro estos cambios han mostrado ser menos consistentes que los ocurridos a bajas frecuencias [7, pp. 37].

17

2.8. Revisin Bibliogrfica Utilizando las variaciones en el espectro, diferentes investigadores han propuesto estrategias para discriminar los sonidos nasales de los orales: Chen [5] propuso utilizar la diferencia entre la amplitud del primer formante, A1, y la amplitud del polo extra P0 anterior al formante, y la diferencia entre A1 y la amplitud del polo extra P1 posterior al primer formante. Buscaba as estimar la disminucin en la amplitud del primer formante y su incremento en el ancho de banda. Utiliz un sintetizador de formantes para crear 10 vocales con sus versiones oral y nasal de una voz masculina. La evaluacin fue llevada a cabo de manera perceptiva por 8 oyentes humanos. Aunque la autora no realiz una evaluacin automtica de estos parmetros encontr que la introduccin de los polos extras en el espectro confera a la voz caractersticas nasales que podan ser detectadas perceptivamente por los evaluadores. Cairns [8] utiliz un operador no lineal llamado Teager Energy. Su trabajo se basa en el hecho de que la voz normal esta compuesta slo de formantes mientras que la voz hipernasal contiene formantes, antiformantes y ceros. Por ello un filtrado pasabajas apropiado sobre la voz normal extraera el primer formante, en tanto que este mismo filtro aplicado sobre la voz hipernasal extraera el primer formante y un conjunto de componentes asociados a los antiformantes y a los ceros extras. Sin embargo si se efecta un filtrado pasabandas alrededor del primer formante se extraera slo este en ambos casos. Esta naturaleza multicomponente de la voz hipernasal fue aprovechada utilizando el operador Teager. Los coeficientes de autocorrelacion entre los registros del operador Teager de las seales filtradas pasabajas y pasabanda fueron utilizados como medida de hipernasalidad. Una baja correlacin se interpreta como indicativo de nasalizacin. Cairns emple las grabaciones de 11 hablantes ingleses que pronunciaban muestras orales como /pat/ o /p t/ y muestras nasales como /min/ o /nin/. El xito en la discriminacin de vocal oral o nasal fue de 97.4% para las vocales /a/ e /i/. No obstante el sistema presenta el inconveniente de ser dependiente del hablante y requerir ajuste de los parmetros acorde con la vocal pronunciada. El trabajo de Vijayalakshmi et al.[1] apunta a un invariante en las voces con problemas de hipernasalidad: la presencia de un pico frecuencial a 250Hz ausente en las voces normales. En su trabajo los autores modifican las grabaciones de 30 hablantes normales para introducir formantes extras a diferentes frecuencias. Encuentran que la presencia del formante a 250Hz es crucial en la determinacin perceptual de una voz como hipernasal. Una de las principales dificultades en la determinacin de polos cercanos al primer formante radica en la resolucin pobre en frecuencia que ofrecen los mtodos tradicionales de obtencin del espectro. Utilizando funciones de retraso [9-12], y enfocando su anlisis a las bajas frecuencias, 18

logran incrementar la resolucin alrededor del primer formante. Comparando la amplitud del pico extra logran discriminar voces normales de hipernasalizadas empleando las muestras de 48 pacientes con LPH. Utiliz las vocales /a/, /i/ y /u/, obteniendo porcentajes de xito del 100%, 88.15% y 80.25%, respectivamente. No obstante la discriminacin es dependiente de la vocal particular y ofrece dificultades con los pacientes postoperados en los que la nasalizacin es menor. En estos casos la amplitud del pico extra no es intensa y puede confundirse con un componente armnico inocuo. Youyi [13] utiliz los MFCCs (Mel-Frequency Cepstral Coefficients) como sistema extractor de caractersticas. Empleo 19 sentencias distintas, cada una pensada alrededor de un fonema distinto, y provenientes de 9 pacientes con LPH. Dos sistemas clasificadores fueron entrenados para detectar voces normales de patolgicas. Las muestras normales las obtuvo de bases de datos que contenan grabaciones de nios sanos de habla inglesa. Uno de los clasificadores implementaba una SVM (Support Vector Machine) y el otro un sistema GMM (Gaussian Mixture Model). La tarea de discriminacin de voces sanas o enfermas tuvo porcentajes de xito del 94.85%. Posteriormente intent una valoracin cuantitativa de hipernasalidad con base a la utilizacin de clases definidas como nasal, explosivas, fricativas y laterales. La definicin de estas clases estuvo basada en los fonemas particulares que eran pronunciados en las frases de muestra. Para validar sus resultados el autor utiliz las lecturas de un nasmetro. Por su parte, Pruthi [7] postula nueve parmetros acsticos que relacionan los formantes con otras caractersticas espectrales de la voz y que son indicativos de la nasalizacin voclica. Para seleccionar estos parmetros utiliz un modelo fsico-matemtico de produccin de voz. Paulatinamente iba complicando el modelo para introducir la contribucin de las fosas nasales asimtricas, los senos paranasales y la apertura regulada del esfnter velofarngeo. Las caractersticas espectrales de las voces nasalizadas aparecen de manera natural al ajustar el modelo a la contribucin completa de la cavidad nasal. Utilizando estos resultados justifica la utilizacin de parmetros acsticos previamente empleados por otros investigadores y sugiere algunos nuevos, entre ellos el conteo de picos para considerar la introduccin de polos extras en el espectro, la medida del centro de masa, el ancho de banda alrededor del primer formante, y otros ms. Sus resultados aparecen como los ms precisos al evaluar su sistema en las bases de datos StoryDB, TIMIT y WS96/97, obteniendo porcentajes de xito de 96.28%, 77.9% y 69.58%, respectivamente. Es destacado que el trabajo de Pruthi intenta detectar la nasalizacin voclica y no slo la hipernasalidad. Las vocales previas a consonantes nasales como /m/ o /n/ son nasalizadas en el habla normal en un grado pequeo que no constituye un defecto. Esta nasalizacin leve implica una complejidad mayor de deteccin por un sistema automtico de reconocimiento. El autor emplea un sistema clasificador SVM (Support Vector Machine) para la deteccin. Adems 19

prueba el sistema con voces del idioma Hind para validar sus resultados. La respuesta positiva de su sistema lo inclina a creer que los nueve parmetros utilizados en conjunto pueden brindar una estrategia fiable para medir la nasalizacin de manera objetiva. En nuestro medio, se destaca el trabajo de investigacin realizado por Castellanos et al [14]. El Sistema Interactivo de Anlisis Automatizado de Voz, Mirla, fue diseado por ellos como asistente en el diagnstico de voz anmala en el Hospital de LPH de Manizales. El sistema utiliza un espacio controlado para el diagnstico de voces anmalas por medio del registro sonoro y visual del paciente (lectura de labios). En el trabajo citado utilizaron 119 muestras de voz provenientes de nios con LPH. Los pacientes grababan las vocales y algunas palabras en una cabina subamortiguada diseada especficamente para el proyecto. Con las muestras se hizo una extraccin de caractersticas extensa que inclua: la determinacin del pitch, el jitter, frecuencias y ancho de banda de los primeros formantes, coeficientes Mel, coeficientes LPC, etc. Resultando en un total de 460 caractersticas acsticas. Utilizaron estrategias de reduccin de dimensionalidad para escoger los parmetros mas prometedores (en la tabla 1 se listan algunos de los seleccionados). Inicialmente utilizaron las clases distintas voz anmala y voz normal para entrenar un clasificador Bayesiano y una SVM (Support Vector Machine), y automatizaron la tarea de decisin. Posterior a esto definieron las clases hipernasal, hiponasal, golpe glotico y soplo respiratorio, y probaron los sistemas clasificadores para estas. Personal mdico del hospital realiz la clasificacin de las muestras segn su clase para fines de entrenamiento y prueba de los sistemas de reconocimiento. La tabla 2.1 resume la revisin bibliogrfica llevada a cabo.

20

Tabla 2.1 Autores y mtricas propuestas

21

Captulo 3 HERRAMIENTAS Y METODOLOGIA3.1. Software para el Procesamiento Seales de Voz La evaluacin automtica de las mtricas acsticas implicaba la utilizacin de software apropiado. Existen varios programas especializados en anlisis de voz y de acceso libre: WaveSurfer [15]: Es una herramienta Open Source para la visualizacin y anlisis de seales de voz. Posee una interfaz intuitiva y puede ser extendido utilizando plugins. Los plugins permitiran incrementar las capacidades del programa pero deben ser creados utilizando el lenguaje TCL. La ltima versin del programa (WaveSurfer 1.8.5), fue liberada en Noviembre de 2005. En la pgina existe un foro activo donde los usuarios pueden realizar y responder preguntas. ESPS/WAVES [16]: Este software fue creado por Entropic para sistemas Unix y durante aos fue el nico software completo y sofisticado para el anlisis de voz [17, pp. 3]. Consiste en un conjunto de libreras C para el anlisis, procesamiento y visualizacin de seales de voz. Est dividido en dos partes, una de ellas soporta el procesamiento (ESPS) y la otra la visualizacin (WAVES). Entropic distribuy y di soporte al paquete hasta su adquisicin por Microsoft en 1999. En [16] an es posible descargar el cdigo fuente de las libreras para procesamiento pero el modulo WAVES fue intencionalmente desarticulado. De esta forma, si uno desea utilizar ESPS, debe compilar el cdigo y usar slo la interfaz de comandos. Nosotros realizamos la compilacin y probamos algunos comandos pero al no existir ayuda o manuales de ningn tipo pronto abandonamos su uso. Praat [18]: Es un software libre y de cdigo abierto creado y mantenido por dos profesores de la Universidad de msterdam en Pases bajos. La herramienta es multiplataforma pudiendo usarse en Windows, Linux, MacOs, Solaris y Unix. Es posible descargar una versin para instalacin u obtener directamente el cdigo fuente. Posee herramientas de anlisis y sntesis de voz, facilidades para creacin de experimentos donde el usuario escucha diferentes sonidos y puede calificarlos, mdulos para etiquetado y aprendizaje usando redes neuronales, rutinas de estadstica y manipulacin de voz, etc. Para extenderlo es posible usar dos aproximaciones: Por una parte el programa trae una herramienta de edicin de scripts que permite automatizar tareas; si la modificacin es sustancial puede usarse el cdigo fuente y aadir la nueva funcionalidad en cdigo C. El software es continuamente actualizado y los autores ofrecen soporte en la pgina. Existe tambin un foro activo donde se resuelven preguntas. 22

Nosotros escogimos Praat para realizar varios de nuestros anlisis. Aunque las ventajas de este paquete son muchas tambin tiene sus desventajas. A continuacin listamos las ms relevantes de ambas: Ventajas: Al ser un software especializado en el anlisis de seales de voz, muchas de las rutinas requeridas por nosotros para obtener las mtricas estaban ya construidas. Un ejemplo de estas se lista a continuacin: o El rastreo de formantes era natural en Praat. Para utilizarlo bastaba crear un objeto pulsando un botn (o llamando un comando). o Rutinas como calcular el ancho de banda u obtener el cepstrum de una seal eran fcilmente realizadas. o Leer una grabacin y modificarla (extraer parte de ella, remuestrear, convertir a monofnico, etc) eran tareas triviales en Praat. El software es de libre distribucin, no era preciso pagar ninguna licencia ni nada por el estilo. Fcil de instalar, en Windows bastaba hacer doble clic en el ejecutable. Interfaz grfica amigable, las ventanas de edicin y visualizacin de las seales eran intuitivas y fciles de usar. Existe una ayuda incorporada al programa y accesible tambin en Internet.

Desventajas: Algunas de las desventajas y puntos a mejorar en Praat (segn nuestras apreciaciones) se listan a continuacin: Aunque Praat posee herramientas para graficar resultados (una ventana y comandos asociados) esta es todava muy rudimentaria y difcil de utilizar. La creacin de etiquetas en los grficos, manejo de ejes, zoom, etc., deja mucho que desear. Esta falta de flexibilidad fue un problema durante el desarrollo de la tesis y una de las principales razones para buscar complemento en otros programas. Aunque el scripting es una herramienta poderosa que permite extender el programa tiene todava muchas falencias: o Su uso es complicado y requiere una curva de aprendizaje empinada. o El entorno para creacin de scripts es muy rudimentario y complicado de utilizar. o Los comandos y su manejo de argumentos no siempre son intuitivos y ralentiza la programacin.

23

o El entorno es poco robusto y algo tan sutil como un espacio adicional al final de un comando puede acarrear errores que son difciles de detectar. o No existe herramienta de depuracin. o No se consideran tipos de datos importantes como los vectores ni estructuras como las funciones. o La identacin es difcil de aplicar. Algunas herramientas tpicas para el anlisis de voz son difciles de configurar: o La creacin de espectros con la FFT ofrece dificultades en su configuracin. Por ejemplo cambiar parmetros como el orden es difcil y no es claro como debe hacerse. o Los diagramas LPC para toda una grabacin son difciles de crear y visualizar.

Inclinados por las desventajas previas decidimos utilizar un software que supliera estas falencias y nos permitiera complementar los resultados. Escogimos a Matlab y utilizamos la versin licenciada por la Universidad de Antioquia. Matlab nos permiti complementar Praat al ofrecer: Un entorno de programacin sofisticado y fcil de utilizar. Herramientas de despliegue de informacin flexibles, intuitivas y casi ilimitadas.

Como conclusin: Utilizamos Praat en aquellas tareas de procesamiento de seales de voz en las que se mostraba ms adecuado. Los resultados que arrojaba eran retomados por Matlab para terminar el procesamiento y desplegar los resultados. Aun con sus inconvenientes Praat mostr ser una herramienta poderosa en el anlisis de seales de voz. En el apndice A se presenta una evaluacin ms detallada de este recurso. Tambin se comparten all algunos tips tiles resultado de nuestra experiencia al trabajar con el programa. 3.2. Base de Datos de Voz Sana y Voz Hipernasal 3.2.1. Preliminares En el anteproyecto de esta tesis se postulaba la utilizacin de dos posibles fuentes para la base de datos: 1. Una de las fuentes podra provenir del desarrollo del proyecto Plataforma para creacin, anlisis y gestin de un archivo sonoro de pacientes con LPH en la Clnica Noel de Medelln. Para ese entonces el proyecto se encontraba pendiente por aprobacin CODI. Desafortunadamente el proyecto no fue aprobado y los recursos

24

para crear la base de datos propia usando pacientes de la clnica Noel no pudo concretarse. 2. Otra posible fuente para la adquisicin de la base de datos descansaba en la colaboracin del grupo de Control y Procesamiento Digital de Seales de la Universidad Nacional, sede Manizales. El profesor Germn Castellanos fue coinvestigador en el proyecto realizado all en 2005 [14] y cordialmente comparti parte de las grabaciones que haban tomado. Este recurso fue el utilizado para elaborar la tesis y a continuacin se describe de manera ms detallada. 3.2.2. Recurso Disponible Encontrar una base de datos en espaol que recoja muestras de nios con voz hipernasal y nios con voz sana no es una tarea sencilla. El autor de esta tesis tuvo la fortuna de recibir este recurso del grupo de Control y Procesamiento Digital de Seales de la Universidad Nacional, sede Manizales. Las caractersticas de lo obtenido se listan a continuacin: Recibimos inicialmente grabaciones provenientes de 10 nios: 5 sanos (2 nias y 3 nios) y 5 hipernasales (3 nias y 2 nios). Para cada nio se tenan las grabaciones de ocho palabras aisladas (por ejemplo: bola,chuzo, coco, etc.) y un archivo llamado palabras donde los nios decan de manera continua entre 15 y 25 palabras (incluidas las que estaban aisladas). La clasificacin de las muestras como normal e hipernasal fue realizada en la clnica de Manizales en el marco del proyecto: Acstica de la voz en pacientes de la Fundacin Sonrisa y Clnica de LPH de Manizales [14]. Nuestro objetivo inicialmente era trabajar con vocales sostenidas pero este recurso no estaba disponible en esta entrega. Tampoco existan etiquetas que permitieran extraer automticamente los tramos voclicos. As que nos pusimos la tarea de extraer en un archivo distinto cada sonido voclico que fuera claro. 3.2.3 Extraccin de Vocales Usando Grabaciones de Palabras Dado que el recurso obtenido de Manizales no tena grabaciones de vocales aisladas fue preciso obtener estas usando las grabaciones de palabras. El procedimiento seguido utilizando Praat fue este: Cargamos como un long Sound el archivo "palabras.wav". En este se encontraban dichas de manera continua todas las palabras que pronunciaron los nios. No todos decan el mismo nmero de palabras, habiendo entre 15 y 25 palabras por nio. Algunos ejemplos de las palabras son: coco, gol, cocacola, queso, gato, agua, jugo, ojo, baln, abeja, cola, susi, cielo, mano, choza, yoyo, llama. En trminos voclicos las muestras no estaban igualmente 25

distribuidas y sonidos como "a" y "o" eran ms privilegiados que "i", "u" y "e". Numricamente se obtuvieron por nio de 10 a 14 sonidos tipo "o" y "a", en tanto que para los dems vocales se obtuvieron de 1 a 4 sonidos. Luego de cargar el long Sound visualizamos tramos de este para identificar las vocales. Para ello nos auxiliamos del espectrograma. Una vez el sonido voclico era identificado extraamos este en un Sound aparte. Tpicamente obtuvimos sonidos desde 100ms hasta 300ms. 100ms es en realidad un valor muy pequeo. En ese caso cuando se extraen los formantes las ventanas tiles son pocas. Adems en los extremos de cada sonido (inicio y final) no es posible realizar anlisis. Por ello las vocales fueron extradas con un pequeo margen adicional en los bordes. Esto con la esperanza de aumentar el nmero de frames tiles. Guardamos el Sound como un .wav.

Un pantallazo del proceso para extraer una vocal se muestra el la Fig. 3.1

Fig. 3.1 Extraccin manual de un tramo voclico

La parte superior de la figura muestra la seal en el tiempo de la palabra gato. La parte inferior es el espectrograma para esta seal. La parte seleccionada corresponde a la vocal a. Luego de seleccionarla guardbamos la vocal como una grabacin individual. El proceso era repetido para todas las dems vocales. El objetivo de separar los sonidos voclicos era contar con material adecuado para probar las mtricas acsticas. El anteproyecto de la tesis propona inicialmente la utilizacin de sonidos voclicos sostenidos. Dado que estos no fueron obtenidos nos vimos abocados a trabajar con las grabaciones disponibles. Si estas hubieran estado etiquetadas se hubiera facilitado el trabajo pero no fue el caso. Se percibi que en general las vocales de los nios hipernasales eran un poco ms largas que las correspondientes a nios sanos. Entre ms 26

hipernasalidad ms largo el sonido. En algunos nios sanos la duracin de la vocal no superaba los 100ms. En nios hipernasales poda alcanzar los 300ms. Aunque no es una regla exacta la duracin extendida del sonido voclico en voces hipernasales se mostr como una caracterstica recurrente en estas muestras. 3.2.4. Descripcin de la Base de datos con Sonidos Voclicos Luego de extraer los tramos voclicos de las grabaciones de palabras quedamos con los siguientes archivos: 10 carpetas con sonidos voclicos provenientes de 5 nios sanos (2 nias, 3 nios) y 5 hipernasales (3 nias, 2 nios). Cada carpeta tiene alrededor de 30 grabaciones de vocales. Como explique antes los sonidos "a" y "o" son los mas abundantes (cada uno representando un 40% de las muestras). Los sonidos "e","i" y "u" son escasos y slo se obtuvieron entre 1 y 4 muestras por nio. Para efectos de referencia incluyo aqu los nombres que dimos a los archivos de la base de datos. Cada carpeta con las muestras de un nio fue nombrada con la siguiente regla: TipoNio_Sexo_Num_V TipoNio: C H, indica si este nio es normal o tiene voz hipernasal. Sex: nino nina, indica si el paciente es nio o nia Num: Consecutivo para numerar los nios segn sexo V: Letra V para indicar que la carpeta contiene vocales La tabla 3.1 muestra los nombres de las carpetas en la base de datos. Base de Datos H_nina_01_V C_nina_01_V H_nina_02_V C_nina_02_V H_nina_03_V C_nino_01_V H_nino_01_V C_nino_02_V H_nino_02_V C_nino_03_VTabla 3.1 Estructura de la base de datos a nivel de directorio

En el material obtenido de Manizales no exista una calificacin objetiva de los niveles de hipernasalidad de las muestras. Nosotros, con el nimo de identificar las muestras ms prometedoras, hicimos una clasificacin subjetiva de las grabaciones disponibles. Las muestras hipernasales fueron clasificadas segn el nivel de hipernasalidad subjetivamente sensado. Las muestras normales fueron clasificadas segn la percepcin de su claridad. La tabla 3.2 muestra esta clasificacin. Para obtener esta calificacin escuchamos las grabaciones donde los nios dicen todas las palabras de manera continua.

27

HIPERNASAL ID sujeto Hipernasalidad H_nina_01 Media H_nina_02 Alta H_nina_03 Baja H_nino_01 Baja H_nino_02 Media

NORMAL ID sujeto Claridad C_nina_01 Alta C_nina_02 Baja C_nino_01 Media C_nino_02 Baja C_nino_03 Media

Tabla 3.2 Calificacin subjetiva de la base de datos segn nio

Dentro de la carpeta de cada nio se tena el conjunto de grabaciones voclicas que haban sido aisladas. El nombre de cada uno de estos archivos obedeci la siguiente regla de formacin: NombreVocalNum_IdNio_TipoVoz NombreVocal: A, E, I, O U Num: Consecutivo para numerar cada muestra de un tipo de vocal IdNio: M: nio, F: nia, y numeral; este es el identificador del nio que pronuci las vocales TipoVoz: N para voz normal, H para voz hipernasal La tabla 3.3 presenta ejemplos de los nombres de algunas grabaciones voclicas.

Una tabla ejemplo, con el nombre de algunas grabaciones para el primer nio con voz normal, se muestra a continuacin:

Una tabla ejemplo, con el nombre de algunas grabaciones para la segunda nia hipernasal, se muestra a continuacin:

C_nino_01 A1_M1_N A2_M1_N E1_M1_N U1_M1_N

H_nina_02 A1_F2_H A2_F2_H E1_F2_H U1_F2_H

Tabla 3.3 Ejemplo de los nombres de las grabaciones disponibles

La razn para incluir esta informacin aqu es que en la metodologa haremos referencia a algunas grabaciones en particular donde fue evaluado determinado parmetro. All nos referiremos a la grabacin segn la nomenclatura antes presentada.

28

Captulo 4 PARAMETROS ACUSTICOS SELECCIONADOS

Con base en la revisin bibliogrfica escogimos seis mtricas acsticas que pensamos tienen el potencial para diferenciar voces sanas de hipernasales. La tabla 4.1 muestra un compendio de estas.

Tabla 4.1 Mtricas acsticas seleccionadas

Estas mtricas tratan de capturar algunas de las variaciones frecuenciales que la nasalidad introduce en el espectro. Un anlisis de su naturaleza as como detalles de su extraccin se ofrece en la siguiente sesin. Tambin se encuentra all una descripcin de las herramientas necesarias para su clculo. 4.1. Sustentacion y Metodologa 4.1.1 Rastreador de Formantes Varias de las mtricas escogidas requeran la deteccin de los formantes a lo largo de toda la muestra. Nosotros utilizamos Praat para obtener un estimado de los cuatro primeros formantes en toda la base de datos. Praat utiliza el diagrama LPC para obtener un estimado de la ubicacin de los formantes. Un ejemplo de lo obtenido para la grabacin A9_F1_N se muestra en la grfica 4.1. En este ejemplo los dos primeros formantes son identificados de manera consistente a lo largo de todo el sonido. Aunque el tercer y cuarto formante son un tanto errticos ninguna de nuestras mtricas requiere su ubicacin precisa. La razn para calcularlos es que Praat sugiere computar al menos 29

dos formantes ms de los necesarios y as aumentar la precisin en la ubicacin de los requeridos.5000

Formant frequency (Hz)

4000

3000

2000

1000

0 0 Time (s) 0.09

Fig. 4.1 Respuesta del rastreador de formantes en Praat para A9_F1_N

Si la calidad de la grabacin es muy defectuosa Praat puede fallar en tramos de la seal y no obtener los formantes de manera correcta. Es decir F1 y F2 pueden no ser hallados para un tramo de la vocal. Un ejemplo se presenta en la Fig. 4.2 donde se ha analizado la grabacin A3_F2_H.5000

Formant frequency (Hz)

4000

3000

2000

1000

0 0 Time (s) 0.17

Fig. 4.2 Respuesta del rastreador de formantes en Praat para A3_F2_H

En este caso F1 est ausente en un tramo de la seal y presenta valores errticos en otros tramos. En nuestros algoritmos nosotros controlamos estos casos dando valores adecuados a los formantes no hallados. Es decir se asignaron lmites inferiores y superiores a los valores de F1 y F2. Tambin encontramos que para obtener un buen objeto formantes con Praat era preciso convertir la grabacin a monofnico y remuestrear. La importancia de este procedimiento se patenta en las Fig. 4.3. y Fig. 4.4. En la primera de ellas no convertimos a monofnico ni remuestreamos (el sonido usado fue uno de los frames de A10_F1_H). Se aprecia que en la Fig. 4.3 el estimativo para F1 es correcto. El primer pico en la respuesta es un polo extra debido a hipernasalidad. F1 est a los 800Hz aproximadamente. Para la vocal /a/ se espera F2 alrededor de 30

1500Hz en voces infantiles. Praat no sabe que esta es una /a/ y estima erradamente que F2 esta en los 2500Hz. Por observacin un humano puede detectar que en realidad F2 esta alrededor de los 1300Hz y es el pico siguiente a F1.4 -10 F1 F2

-15

-20

-25

-30

-35 0 500 1000 1500 2000 2500 3000 3500 4000

Fig. 4.3 Diagrama LPC y ubicacin de F1 y F2 para un frame de A10_F1_H (stereo)

Si aplicamos en Praat una conversin a monofnico y remuestreamos hasta 8Khz el estimado para los formantes es como aparece en la Fig. 4.4.4 -10 F1 F2

-15

-20

-25

-30

-35

0

500

1000

1500

2000

2500

3000

3500

4000

Fig. 4.4 Diagrama LPC y ubicacin de F1 y F2 para un frame de A10_F1_H (monofnico)

En este caso la posicin para F2 es ms precisa auque F1 ha tenido que pagar por ello. La razn es que el rastreador vacila entre los dos primeros picos y por razones de continuidad entre frames escoge un valor intermedio. No obstante su inclinacin al valor real es apreciable. Nosotros convertimos inicialmente todas las grabaciones a monofnico y remuestreamos a 8khz. Luego obtuvimos los objetos formantes usando los siguientes parmetros en la ventana de configuracin de Praat: Max. Number of formants: 5 Maximum formant(Hz): 8000 Window length: 0.015 Pre-emphasis from(Hz): 50 Esto significa que buscbamos hasta 5 formantes en el rango 0 8KHz con ventana de 30ms (doble de valor 15ms) y aplicando un pre-nfasis desde los 50 Hz.

31

4.1.2. Detector de Picos Otra de las herramientas necesarias en el clculo de varias mtricas fue un detector de picos. Nosotros usamos un detector programado en Matlab y compartido por su creador en [19]. Una prueba de este programa usando datos ejemplo se muestra en la Fig. 4.5.

Fig. 4.5 Prueba del detector de picos

El algoritmo usa el cruce por cero de la derivada suavizada del conjunto de datos. Tiene cuatro parmetros que pueden ser ajustados para cumplir requerimientos especficos. Tiene tambin la opcin de retirar ruido de fondo de la seal. Para cada pico hallado devuelve su amplitud, ubicacin y ancho de banda. 4.1.3. Disminucin de la Amplitud del Primer Formante 4.1.3.1 A1 H1 En las voces hipernasales la amplitud del primer formante A1, disminuye con relacin a su amplitud en las voces sanas. Una forma de medir esta disminucin es calcular su diferencia con relacin al primer armnico cuya amplitud es la misma en ambos tipos de voces [7, pp. 115]. Para estimar la amplitud del primer armnico H1, utilizamos el espectro obtenido con la funcin fft de Matlab. Para que este espectro fuera claro fue preciso realizar un filtro de preenfasis y un enventanado adecuado en cada frame. Filtro de Preenfasis: Este filtro es motivado por el hecho de que el espectro de la seal de voz decae 6db/dec [6, pp. 221]. As para que el espectro sea ms plano las componentes altas se privilegian con un filtro de la forma 1 - az-1. Nosotros escogimos a = 0.97. Enventanado de la seal: Para realizar el anlisis en la seal de voz se utilizan pequeos tramos de ella del orden de 30ms. Para 32

disminuir el efecto en los bordes se utiliz una ventana de Hamming. Normalizacin de Frames: Para que los resultados de las mtricas consideren de manera coherente la forma relativa de la seal mas que sus variaciones de amplitud entre frames se normaliza cada frame con relacin al valor ms alto en l.

Vamos a patentar la importancia del preenfasis usando uno de los frames de voz hipernasal. En la Fig. 4.6 aparece en la parte superior el espectro de A10_F1_H en uno de sus frames sin aplicar el filtro de preenfasis. Abajo est el diagrama LPC de la misma seal. En este aparece un pico alto aproximadamente a 250Hz (un polo nasal) que afecta la deteccin de los formantes orales a 900Hz y 1250Hz aproximadamente. Los formantes orales aparecen con amplitud disminuida con relacin al pico extra a 250Hz.40 20 0 -20 -40

0

500

1000

1500

2000

2500

3000

3500

4000

10 0 -10 -20 -30 -40 0 500 1000 1500 2000 2500 3000 3500 4000

Fig. 4.6 Espectro sin aplicar prenfasis y diagrama LPC

Si aplicamos un filtro de preenfasis con a = 0.97 obtenemos para el mismo frame lo mostrado en la Fig. 4.7.30 20 10 0 -10 -20 0 500 1000 1500 2000 2500 3000 3500 4000

0 -10 -20 -30 -40

0

500

1000

1500

2000

2500

3000

3500

4000

Fig. 4.7 Espectro luego de aplicar prenfasis y diagrama LPC

33

En este caso todo el espectro se ha aplanado y ahora las amplitudes de F1 y F2, los dos formantes orales, y la amplitud del pico extra a 250Hz son comparables. De esta forma el rastreador de formantes tendra una oportunidad mayor de hallar los formantes orales. En el problema actual de hallar H1, el prenfasis beneficia la discriminacin de los formantes orales de todos los picos debidos al contenido armnico de la seal. Para reconocer la utilidad del enventanado consideremos el ejemplo, obtenido de A10_F1_N, usando un frame de 15ms de longitud.40 20 0 -20 -40

0

500

1000

1500

2000

2500

3000

3500

4000

20

0

-20

-40

0

500

1000

1500

2000

2500

3000

3500

4000

Fig. 4.8 Espectro antes y despus de aplicar enventanado

En la parte superior de la Fig. 4.8., aparece el espectro usando una ventana rectangular. En la grfica inferior hemos usado una ventana de hamming para extraer el frame y luego calcular su espectro. Determinar el primer armnico en la primera grfica es muy complicado dado el excesivo nmero de picos. En la segunda grfica el contenido armnico es ms claro y obtener H1 puede ser ms sencillo. Utilizamos 3 criterios para escoger H1 en el espectro: 1. Frecuencia: Puesto que los armnicos representan el pitch se espera que H1, para la voz de un nio, sea superior a 150Hz y menor a 400Hz. 2. Amplitud: Es posible que existan picos espurios debidos al enventanado o al ruido. Para evitar una falsa deteccin se impone un lmite a la amplitud esperada de H1. Analizando varias grabaciones escogimos el valor tentativo de -25 db. 3. Ancho de banda: Se espera que el primer armnico sea un pico representativo. Al analizar varias grabaciones escogimos el lmite inferior para el ancho de banda como 40 Hz. 34

Un ejemplo de la localizacin de H1 se muestra en la Fig. 4.9., la grabacin analizada fue O8_M2_H.11 30 20 10 0 -10 -20 -30 -40 -50

H1

0

500

1000

1500

2000

2500

3000

3500

4000

Fig. 4.9 Deteccin del primer armnico

Observe que aunque existen dos picos previos a H1 estos no representan el primer armnico. Las razones son: su baja amplitud, su baja frecuencia y su bajo ancho de banda. Un ejemplo de la evaluacin de A1 H1 para las grabaciones A10_F1_N y A10_F1_H se muestra en la Fig. 4.10.35

30

25

20

15

10

5

0

-5

-10

0

5

10

15

20

25

Fig. 4.10. A1 H1 para las grabaciones A10_F1_N y A10_F1_H

La grfica azul son los valores de la mtrica para la voz sana. La curva roja son los correspondientes para la voz hipernasal. Como se esperaba en general los valores de A1 H1 son mayores en la voz sana, donde el primer armnico es casi siempre mucho menor que el primer formante. En la voz hipernasal H1 es a menudo comparable a A1. 4.1.4. Polos Extras a Bajas Frecuencias 4.1.4.1 A1 P0 y A1 P1 Debido al acople con los senos paranasales se espera la aparicin de un pico extra previo al primer formante [7, pp. 96]. La amplitud P0 de este 35

pico con relacin a la amplitud A1 del primer formante se postula como una mtrica de nasalizacin [5,7]. Debido tambin al acople con la cavidad nasal se espera la aparicin de un pico extra posterior al primer formante [7, pp. 96]. Esto sugiere la utilizacin de la mtrica A1 P1, siendo P1 la amplitud de este pico extra. En nuestras exploraciones de estos picos extras encontramos que su aparicin y amplitud es en extremo imprecisa. La deteccin de P0 y P1 requiere un algoritmo que de cuenta de este comportamiento no recurrente. En su tesis Pruthi [7] postula un algoritmo que puede ser usado para detectar estos dos picos. Nosotros implementamos en Matlab este cdigo y lo probamos en nuestra base de datos. El algoritmo de Pruthi [7, pp. 189], se presenta a continuacin en una etapa previa de pseudo cdigo para visualizarlo mejor: Algoritmo de Pruthi simplificado: 1. 2. 3. 4. 5. 6. Obtener F1 y F2 del rastreador de formantes. Asignar lmites e inicializar valores de variables locales (P0, P1). Ajustar calculo F1 a pico mas cercano. Ajustar calculo F2 a pico mas cercano. Si hay un pico previo a F1 este es P0. Si no hay picos entre F1 y F2: a. Si hay mas picos en el espectro P1 es el pico siguiente a F2 7. Si solo hay un pico entre F1 y F2: a. Si no ha hallado P0 este pico es P0 y P1 es el pico siguiente a F2 b. Si ya hall P0 este pico es P1 8. Si hay mas de un pico entre F1 y F2: a. Si no ha hallado P0 pico siguiente a F1 es P0 y P1 es el pico siguiente a P0 b. Si ya hall P0 pico siguiente a F1 es P1 9. Calcular A1 P0 y A1 P1 El objetivo del algoritmo es etiquetar los picos F1, F2, P0 y P1, es decir formantes primero y segundo, y los dos picos extras principales alrededor de F1. El algoritmo recibe los valores de F1 y F2 devueltos por rastreador de formantes y los usa como punto de partida para mejorar su ubicacin, escogiendo mejor los picos ms cercanos a estos (en tanto se encuentren en el rango adecuado). Nosotros implementamos el algoritmo de Pruthi en Matlab; la Fig. 4.11 es una prueba sobre uno de los frames de A10_F1_H.

36

4 -10 -15 -20 -25 -30 -35 0 500 1000 1500 2000 2500 3000 3500 4000 P1 P0F2 F1

F1 F2

Fig. 4.11. Deteccin de P0 y P1 en un frame de voz hipernasal

La lnea vertical azul es el estimado del primer formante devuelto por Praat, la linea verde es el estimado para F2. Esta es una muestra hipernasal y segn la grfica uno podra esperar que el valor absoluto de A1 P0 sea mayor a 0. Similarmente el valor absoluto de A1 P1 sera superior a 0 en voces hipernasales. La Fig. 4.12., muestra el resultado de hacer la prueba sobre un frame de A10_F1_N, una grabacin de voz sana.1 -15 -20 -25 -30 -35 0F1 F2

P0 P1

F1 F2

500

1000

1500

2000

2500

3000

3500

4000

Fig. 4.12. Deteccin de P0 y P1 en un frame de voz sana

En este caso las mtricas A1 P0 y A1 P1 arrojaran cero al estar ausentes los picos extras. Calculamos la mtrica A1 P0 para todos los frames de las grabaciones A10_F1_N y A10_F1_H, la respuesta obtenida se muestra en la Fig. 4.13.8 6

4

2

0

-2

-4

0

5

10

15

20

25

Fig. 4.13. Mtrica A1 P0 para las grabaciones A10_F1_N y A10_F1_H

La lnea azul son los valores para voz sana y la roja los valores para voz hipernasal. La diferencia fue calculada usando los valores en decibeles 37

del espectro LPC. Segn este grfico en la muestra sana la amplitud de F1 es siempre mayor o igual que la amplitud del pico extra previo. En la muestra hipernasal la amplitud de F1 es casi siempre igual o menor a la amplitud del pico extra previo. Segn el anlisis previo usando slo los frames se esperaba A1 P0 nulo en la voz sana y diferente de cero en la voz hipernasal. La razn para el desacuerdo es que, aun en voces sanas, aparece un pico extra previo a F1. En el sonido oral analizado este pico extra resulto casi siempre muy pequeo lo que elevo el valor de A1 P0. En la voz hipernasal el pico extra previo a F1 fue casi siempre mayor al primer formante lo que volvi negativa la mtrica A1 P0. Por su parte la mtrica A1 P1 sobre las 2 grabaciones consideradas tuvo la respuesta mostrada en la Fig. 4.14.8 7

6

5

4

3

2

1

0

-1

-2 0

5

10

15

20

25

Fig. 4.14. Mtrica A1 P1 para las grabaciones A10_F1_N y A10_F1_H

Esto significa que la muestra sana no tuvo pico extra posterior a F1 en ninguno de sus frames. La muestra hipernasal contiene un pico extra posterior a F1 que casi siempre es menor a la amplitud del primer formante. 4.1.4.2. CTEO La correlacin sobre perfiles Teager de seales pasabajas y pasabanda, es una mtrica sugerida por Cairns [8] como detector de los polos extras presentes en el espectro de la voz hipernasal. Para comprender esta mtrica conviene que revisemos en que consisten los perfiles Teager y como hallarlos en una seal de voz. Los perfiles Teager son el resultado de obtener la energa Teager sobre una seal. La energa Teager es un concepto muy interesante que fue expuesto por primera vez de manera clara por Kaiser en [20]. En su paper lo primero que hace el autor es patentar que la energa en un sistema mecnico oscilatorio es proporcional al cuadrado de la amplitud por la frecuencia y no slo al cuadrado de la amplitud como se utiliza habitualmente en procesamiento de seales. 38

En smbolos: Si se tiene una seal oscilatoria dada por:

x(t ) = A cos(t + )La energa responsable de producir la oscilacin es:

EA2 2Si se utiliza la versin muestreada de x(t) tenemos:

x(n) = A cos(n + )Siendo= f fs

Donde f es la frecuencia anloga de la seal en Hertz y f s es la frecuencia de muestreo. Existen 3 incgnitas en x(n): A, y . Por tanto se requieren 3 ecuaciones para resolverlas. Si se considera la funcin en tres tiempos distintos, digamos n, n 1 y n + 1, podemos obtener tres ecuaciones dadas por x(n), x(n - 1) y x(n + 1). La motivacin en esto es encontrar una funcin que sea proporcional a A22 y por tanto sirva como medida de la energa necesaria para producir la oscilacin. Luego de realizar algunas operaciones trigonomtricas sobre las 3 ecuaciones x(n), x(n - 1) y x(n + 1) se deduce la relacin:A2 sin 2 () = x( n) 2 x (n + 1) x( n 1)

En este punto es preciso usar una aproximacin, a saber x sin(x) para valores pequeos de x. Con ello se obtiene finalmente:A2 2 = x(n ) 2 x( n + 1) x (n 1)

La aproximacin es valida, con un 11% o menos de error, si= f 1 fs 8

39

Luego es preciso que fs > 8f, es decir la frecuencia de muestreo debe ser ocho veces la frecuencia anloga de la seal. Con base en lo anterior la Energa Teager de una seal se defini como:

En este punto uno podra pensar que basta garantizar fs mayor a 8 veces la mxima frecuencia contenida en la seal para calcular de manera segura la energia Teager; por ejemplo en voz, considerando 5Khz como lmite de frecuencias tiles, entonces bastara muestrear la seal a 40Khz. Desafortunadamente no es el caso ya que la energa Teager tiene varios inconvenientes. El ms serio es que no se cumple el principio de superposicin. As si se tiene la suma de 2 seales sinusoidales de amplitudes A1 y A2 y frecuencias 1 y 2 respectivamente, la energa Teager no ser simplemente la suma de energas de cada seal, en vez de ello se obtendr:2 2 E12 = A121 + A2 2 + (Trminos cruzados) 2

Para minimizar el efecto de los trminos cruzados Kaiser [20] sugiere utilizar un banco de filtros, calcular la energa Teager a la salida de cada uno y luego sumar los resultados. En el tema particular de deteccin de hipernasalidad encontramos que la aproximacin de Cairns fue completamente distinta, ya que l piensa que los trminos cruzados pueden ayudar a cuantificar la patologa. Por ello en vez de filtrarlos los espera ansioso en el perfil. La manera precisa en que aparecen no es analizada en su trabajo, l simplemente espera que la funcin de correlacin mida su presencia [8, pp. 2]. Para comprender esto esbocemos de manera precisa las ideas de Cairns: La seal obtenida de voz normal contiene slo formantes, podemos representar esto como:S NORMAL = F ( )

Donde F() representa los formantes orales. Por su parte la voz hipernasal contiene formantes, antiformantes y formantes nasales:S NASAL = F ( ) AF ( ) + NF ( )

Aqu AF() representan los antiformantes (el signo menos da cuenta de que los antiformantes aparecen como valles en el espectro) y NF() son los formantes extras nasales. 40

Si se filtra la voz normal con un pasabajas apropiado podemos extraer el primer formante:

S NORMAL LPF ( ) = F1 ( )Aplicar el mismo filtro a la voz hipernasal dejara trminos adicionales a F1, a saber algunos antiformantes y algunos formantes nasales:S NASAL LPF ( ) = F1 ( ) A' F ( ) + N ' F ( )

Si en vez de utilizar un pasabajas usamos un pasabanda alrededor de F1 obtendremos slo el primer formante tanto para la voz normal como para la voz hipernasal:S NORMAL BPF ( ) = F1 ( ) S NASAL BPF ( ) = F1 ( )

Con el nimo de explotar esta asimetra la energa Teager es calculada sobre las seales filtradas, tanto pasabajas como pasabanda, y luego se mide la correlacin en las respuestas. Dado que el filtrado pasabajas sobre la voz hipernasal dejar una seal multicomponente, la energa Teager tendr una contribucin importante de trminos cruzados. Es decir los perfiles Teager de la seal pasabajas y pasabanda sobre la voz hipernasal sern sustancialmente distintos. Por su parte se espera que en la voz normal la energa Teager tenga un perfil similar tanto para la seal pasabajas como para la seal pasabanda, por tanto la correlacin en este caso tendr un valor cercano a 1. De esta forma entre ms bajo el valor de correlacin para los perfiles Teager de las seales pasabajas y pasabanda entonces ms hipernasal ser la seal. Volviendo al artculo de Kaiser [20] otra de sus sugerencias fue filtrar el perfil TEO. La razn es que una desventaja de la Energa Teager es su sensibilidad al ruido. Por tanto se espera que el perfil contenga muchos picos resultado de esta caracterstica. Nosotros chequeamos esta sensibilidad al ruido usando un sonido de prueba. Este consista en la concatenacin de 3 sinusoidales a frecuencias 1.2KHz, 500Hz y 2KHz con duracin de 25ms y amplitud constante 0.5; el perfil de esta seal se muestra en la Fig. 4.15.

41

Fig. 4.15. Perfil Teager de seales sinusoidales puras

Este grfico corresponde a lo esperado (E 2). Si modificamos las seales aadiendo ruido Gaussinano de amplitud 0.05 (10% de la amplitud) se obtiene lo mostrado en la Fig. 4.16.

Fig. 4.16. Perfil Teager de seales sinusoidales contaminadas con ruido

El perfil TEO (Teager Energy Operador) es absolutamente ilegible. Si filtramos con un pasabajas hasta 3Khz se obtiene lo mostrado en la Fig. 4.17.

Fig. 4.17. Perfil Teager de seales sinusoidales contaminadas con ruido filtrado a 3khz

Aqu es posible discernir, aunque con dificultad, los 3 niveles de energa. La Fig. 4.18 muestra el resultado luego de filtrar con un pasabajas hasta 1Khz.

42

Fig. 4.18. Perfil Teager de seales sinusoidales contaminadas con ruido filtrado a 1khz

Aunque existe una mejora apreciable queda claro que el operador es muy vulnerable al ruido. Esta desventaja plantea una alerta en su uso sobre seales de voz, donde inevitablemente, algn nivel de ruido esta presente. Ante lo observado se vuelve imperativo filtrar el perfil antes de hacer cualquier uso de l. Ajustar los parmetros para obtener un perfil Teager consistente a lo largo de un sonido voclico mostr ser una actividad difcil. Nosotros probamos cambiando el ancho de ventana con valores 10, 20 y 30ms. Obtuvimos el mejor resultado usando 30ms. Tambin variamos el filtro pasabajas aplicado al perfil y obtuvimos el mejor resultado filtrando hasta 500Hz. Algunos ejemplos de lo obtenido se muestran en las Fig. 4.19.5.30310-6

1.39710-5

2.17510-5

3.26710-8 0 Time (s) 0.03

0 -4.47810-7 0 Time (s) 0.03

0 -8.81210-7 0 Time (s) 0.03

Fig. 4.19. Perfil TEO, ventana a 30 ms, Sound A10_F1_N a los 68ms, filtro perfil 0100Hz (izq), 0-500Hz (centro), 0-1000Hz (der).

Utilizando un filtro para el perfil de 0 500Hz, obtuvimos las respuestas ms consistentes a lo largo de todo un sonido. Un ejemplo sobre diferentes frames de la grabacin A10_F1_N, con paso de 5ms, se muestra en la Fig. 4.201.39710 -5

1.22910-5 1.72710

1.81410 -5

0 -4.47810 -7 0 Time (s ) 1.90210 -5 0.03

0 -5.1110 -2.73210 -7

0 Time (s)

0.03

0 -2.50210 -7 0 Time (s) 0.03

1.58510 -5 1.64110

1.37210 -5

0 -3.04610 -7 0 Time (s ) 0.03

-4.92210 -7 -1.63910 0

0 -1.2510 -7

0 Time (s)

0.03

0 Time (s)

0.03

Fig. 4.20. Consistencia perfil TEO a lo largo de una grabacin

43

Cuando calculamos el perfil Teager de las versiones pasabajas y pasabanda de diferentes seales obtuvimos casi siempre respuestas muy similares. Un ejemplo se muestra en la Fig. 4.21.1.2

1

0.8

0.6

0.4

0.2

0

-0.2

0

50

100

150

200

250

Fig. 4.21. Perfiles Teager para seales pasabajas y pasabanda

La grfica a la izquierda son los perfiles Teager en un frame de una muestra hipernasal (A10_F1_H), los de la derecha son los correspondientes para una voz sana (A10_F1_N). Las curvas rojas son los perfiles TEO de la seal pasabajas. Los azules de la seal pasabandas. Aunque perceptivamente la diferencia es mayor en la voz hipernasal la correlacin cruzada arrojaba en general valores muy altos. Hemos usado los valores mximos del vector devuelto por xcorr en Matlab. En el ejemplo mostrado los valores obtenidos estuvieron en ambos casos por encima de 0.9. La Fig. 4.22 muestra la respuesta CTEO (Correlation Teager Energy Operator) para todos los frames de A10_F1_N y A10_F1_H.1 0.9

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

0

0

5

10

15

20

25

30

Fig. 4.22. CTEO para grabaciones A10_F1_N y A10F1_H

Aunque en general la curva azul, correspondiente al CTEO para la voz sana, est por encima de aquella correspondiente a la voz hipernasal la diferencia es muy pequea. Una razn para ello es que el algoritmo de correlacin es un procedimiento muy robusto. De hecho es capaz de detectar una seal cuando est fuertemente contaminada por ruido y desplazada con respecto a la original. En nuestros perfiles las diferencias son pequeas y el algoritmo de correlacin cruzada devuelve un valor alto. Una posible solucin sera usar un algoritmo ms sensible a pequeos cambios o de manera equivalente uno menos bueno en detectar seales distorsionadas.

44

4.1.4.3 P250v y P250m Vijayalakshmi et al. [1] postulan en su trabajo que el espectro de las voces hipernasales contiene un pico pronunciado a 250Hz que est ausente en las voces normales. En nuestras exploraciones de las grabaciones encontramos a menudo la presencia de este pico aunque no siempre con una amplitud considerable. Ahora, para detectar de manera confiable este pico, los autores sugieren utilizar el espectro obtenido con las funciones de retraso modificadas. La razn de utilizar un mtodo nuevo de anlisis espectral es que las tcnicas clsicas, como el LPC, pueden fundir picos que estn muy cercanos entre si. Las funciones de retraso poseen la propiedad de superposicin en frecuencia que las habilita para discriminar de manera ms fcil picos cercanos en el dominio frecuencial. Esto es, se adquiere un incremento en resolucin al utilizar estas funciones. Para entender porque estas funciones obedecen la superposicin en frecuencia miremos con ms detalle su formulacin [9-12]: Sea x(n) una seal en el tiempo con transformada de Fourier X(). X() es una funcin compleja que puede ser expresada en trminos de su magnitud y fase:X ( ) = X ( ) e j ( )

Donde () es la funcin fase, o simplemente fase del espectro. Ntese que si X() es una seal multicomponente entonces es el producto de cada contribucin. Si, por ejemplo, X() = X1()X2() se cumple que:X ( ) = X 1 ( ) X 2 ( ) e j ( 1 ( ) + 2 ( ))

En la expresin anterior se aprecia que las funciones fase se suman en tanto que las magnitudes se multiplican. Si se definiera una funcin lineal en trminos de la fase se podra argumentar que para una seal multicomponente la respuesta es la suma de las contribuciones individuales. Esto es, se cumplira el principio de superposicin para la funcin lineal que involucra la fase. Volvamos a la transformada de Fourier expresada en magnitud y fase:X ( ) = X ( ) e j ( )

Con el nimo de aislar la fase podemos tomar el log a ambos lados:Log ( X ( )) = Log ( X ( ) ) + j ( )

45

Por conveniencia se define la funcin de retraso como:

T ( ) =

d ( ) d

Recuerde que la derivada de la transformada de Fourier X() esta relacionada con la funcin en el tiempo x(n) as:F{nx(n )} = dX ( ) d

Con este recurso es posible encontrar una expresin para calcular T() usando la funcin x(n), dicha expresin es:

T ( ) =

X R ( )YR ( ) + X ( ) I Y ( ) I X ( )2

Donde los subndices R e I estn por parte real e imaginaria, y donde

y(n) = nx(n)La funcin T(), llamada funcin de retraso, es muy sensible al ruido presente en x(n) y a la distorsin producida por el enventanado. T() es ruidosa y llena de picos. Para solventar este inconveniente Murthy et al en [11], sugieren una modificacin al clculo de estas funciones. El algoritmo propuesto por ellos es el siguiente: 1. Sea x(n) las muestras objetivo 2. Calcule: a. F{x(n)} = X() b. F{nx(n)} =Y() 3. Calcular el Cepstral Smooth de X() y llamarlo S()

X ( )YR ( ) + X ( ) I Y ( ) I 4. Computar: Tx ( ) = R S ( )2 5. Ajustar manualmente y , ambos son valores menores que 1.La funcin Tx() se conoce como funcin de retraso modificada (MDF). Nosotros implementamos en Praat el algoritmo que calcula estas funciones y lo probamos con una vocal sinttica. La Fig. 4.23 muestra el resultado.

46

Fig. 4.23. MDF en un frame de una vocal sinttica

La grafica roja es el LPC de orden 24 sobre un frame de la vocal. La grafica negra corresponde a la respuesta de las MDF (Modified Delay Function) en el mismo rango de frecuencia. El incremento en resolucin es apreciable, apareciendo los formantes ms fcilmente discernibles. Para aumentar aun ms la resolucin a bajas frecuencias Vijayalaskmhi [1, pp. 625] sugiere filtrar con un pasabajas hasta el primer formante. Nosotros utilizamos el rastreador de formantes de Praat para obtener un lmite para el fitro y empleamos ventanas de 30ms. Una de las grficas obtenidas usando A2_M2_N y A3_M1_H se muestra en la Fig. 4.24

Fig. 4.24. MDF en un frame de A2_M2_N y A3_M1_H

La grfica roja corresponde a las MDF de la voz hipernasal, la azul son las funciones correspondientes para la voz normal. Aunque el pico a 250Hz no es muy pronunciado se nota su existencia. Las MDF mostraron ser muy consistentes a lo largo de todo un sonido. La Fig. 4.25 muestra las MDF a lo largo del sound A13_M1_N.

A13-M1-N

Fig. 4.25 MDF a lo largo de A_13_M1_N

47

Para calcularlo usamos frames de 30ms, paso de 5ms, un resample a 8K y alfa = gama = 0.9. Las MDF poseen dos parmetros de ajuste, alfa y gama, que permiten refinar el anlisis dada una aplicacin particular. Nosotros hicimos varios experimentos tratando de encontrar los valores apropiados de estos parmetros. Experimento 1: Muestra Hipernasal A11_F2_H, 43ms, ancho ventana 30ms, filtro 100-1k

Gama 0.9

Alfa 0.7 negro 0. 8 rojo 0.9 verde 0.98 azul

Fig. 4.26 Gama = 0.9 Alfa = 0.7 0. 8 0.9 0.98 -> (negro, rojo, verde, azul) (A11_F2_H)

Como se muestra en la Fig. 4.26 incrementar alfa hace que el pico a 250Hz disminuya. Puesto que nuestro deseo es contrario creamos una nueva variacin ilustrada en la Fig. 4.27.

Gama 0.9

Alfa 0.7 negro 0. 6 rojo 0.5 verde 0.4 azul

Fig. 4.27 Gama = 0.9 Alfa = 0.7 0. 6 0.5 0.4 -> (negro, rojo, verde, azul) (A11_F2_H)

En este caso se aprecia que el pico a 250Hz se incrementa cuando alfa disminuye pero los picos adyacentes tambin aumentan lo que podra

48

complicar la deteccin de F1 (El pico ms alto de todos). Disminuir ms a alfa deteriora la respuesta. Si se realiza la variacin de gama mientras alfa esta fijo se puede argumetar que a medida que gama aumenta el pico a 250Hz baja. A medida que gama disminuye el primer formante baja en tanto que el pico a 250Hz no sube ms. Conclusiones experimento 1, alfa y gama en voz hipernasal: Pensamos que un punto optimo de Gama esta entre 0.7 y 0.8. Si gama es menor a 0.7 F1 baja mucho y el pico a 250Hz no sube ms. Si gama es mayor a 0.8 el pico a 250Hz es muy pequeo en tanto que F1 permanece constante en amplitud. En cuanto a alfa un valor ptimo estara entre 0.5 y 0.6. Si alfa es menor a 0.5 los picos intermedios crecen mucho y la respuesta pronto se deteriora. Si alfa es mayor a 0.6 el pico a 250Hz es un poco ms bajo. No obstante an en 0.6 los picos intermedios son altos. Si hubiera algn problema detectando el pico a 250Hz por la presencia de estos picos secundarios convendra elevar el valor de alfa. En cuanto a F1 fue completamente insensible a las variaciones de alfa. Intentar analizar una variacin ms fina (por ejemplo gama = 0.72, 0. 74, 0.76, etc) es innecesario dado que en realidad solo estamos usando un frame de una grabacin de un conjunto de grabaciones. Considerando la naturaleza variable de las muestras de voz estos valores se escogen como estimativos vlidos y constituyen slo un buen punto de partida.

Experimento 2: Muestra Normal A10_F1_N, 43ms, ancho ventana 30ms, filtro 100-1k Gama Alfa 0.7 Negro 0. 8 Rojo 0.9 0.9 Verde 0.98 Azul

Fig. 4.28. Gama = 0.9 Alfa = 0.7 0. 8 0.9 0.98 -> (negro, rojo, verde, azul) (A10_F1_N)

La Fig. 4.28 muestra que los picos secundarios disminuyen levemente cuando alfa aumenta.

49

Gama 0.9

Alfa 0.6 Negro 0. 5 Rojo 0.4 Verde

Fig. 4.29. Gama = 0.9 Alfa = 0.6 0.5 0.4 -> (negro, rojo, verde)(A10_F1_N)

La Fig. 4.29 muestra que la salida se deteriora cuando alfa disminuye. Similarmente variar gama nos muestra que en general los picos secundarios disminuyen si el parmetro aumenta. Si gama aumenta la inclinacin de los picos secundarios tambin disminuye, excepto cuando gama es muy cercano a uno momento en el que surgen picos secundarios extras despus de F1. Conclusiones, voz normal: Para que la respuesta MDF de voz normal sea limpia (Esto es F1 claro y picos secundarios bajos y montonos) se recomienda alfa y gama alrededor de 0.9. En general valores altos de estos parmetros mejoran la respuesta. Ahora es evidente que existen intereses opuestos entre la respuesta de las MDF para la voz hipernasal y la voz normal. En el experimento 1, con voz hipernasal, obtuvimos que un valor de alfa entre 0.5 y 0.6 con un valor de gama entre 0.7 y 0.8 beneficiaba la respuesta al incrementar el pico a 250Hz. No obstante en la voz normal estos valores crean una respuesta donde los picos secundarios son altos e inclinados. La voz normal prefiere valores de alfa y gama altos. Fue preciso encontrar un punto de equilibrio entre ambas intenciones, la tabla 4.2 muestra la seleccin de alfa y gama. Voz hipernasal 0.6 0.7 Equilibrio 0.8 0.85 Voz normal 0.9 0.9

Alfa Gama

Tabla 4.2. Seleccin de alfa y gama como equilibrio entre intereses opuestos

Los valores alfa = 0.8 y gama

Documents

Informe Final Tesis 3