Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
TIC en Redes MóvilesTIC en Redes Móviles
Reconocimiento Automático del HablaReconocimiento Automático del Habla
¿Qué entendemos por RAH?El reconocimiento automático del habla es un proceso por el cual una máquina transcribe en texto una señal acústica de voz
¿Qué entendemos por Comprensión Autómática del Habla?
La comprensión automática del habla es un proceso por el cual una máquina asocia a una señal acústica de voz algún tipo abstracto de significado, decodifica el mensaje transportado por la señal.
TIC en Redes MóvilesTIC en Redes Móviles
Algunos Hitos HistóricosAlgunos Hitos Históricos
“Open sesame”from Ali Baba and the 40 Thieves(Tales from 1001 Nights)El primero???El primero???
Dave Bowman: Open the pod bay doors, HAL.HAL: I’m sorry Dave, I’m afraid I can´t do that.
Stanley Kubrick and Arthur C. Clarke,
Screenplay of 2001: A Space Odissey
El futuro???El futuro???
TIC en Redes MóvilesTIC en Redes Móviles
• Los inicios: años 50– Bell Labs .... Reconocimiento de dígitos aislados monolocutor– RCA Labs .... Reconocimiento de 10 sílabas monolocutor– University College in England .... Reconocedor fonético– MIT Lincoln Lab .... Reconocedor de vocales independiente del hablante
• Los fundamentos: años 60– Comienzo en Japón (NEC labs)– Dynamic time warping .... Vintsyuk (Soviet Union)– CMU ... Reconocimiento del Habla Continua .... HAL 9000
• Las primeras soluciones: años 70, el mundo probabilístico– Reconocimiento de palabras aisladas
• LPC, programación dinámica– IBM: inicio proyecto reconocimiento de grandes vocabularios– Gran inversión en los USA: proyectos DARPA– Sistema HARPY (CMU) primer sistema con exito
Algunos Hitos HistóricosAlgunos Hitos Históricos
TIC en Redes MóvilesTIC en Redes Móviles
Algunos Hitos HistóricosAlgunos Hitos Históricos• Reconocimiento del Habla Continua: años 80, expansión
– Algoritmos para el habla continua y grandes vocabularios– Explosión de los métodos estadísticos: Modelos Ocultos de Markov
• utilizados inicialmente por IBM y Dragon Systems, popularizados porBell Labs
– Introducción de las Redes Neuronales en el reconocimiento de voz
• Empieza el negocio: años 90, primeras aplicaciones– Ordenadores y procesadores baratos y rápidos– Sistemas de dictado– Integración reconocimiento de voz y procesado del lenguaje natural.
• ¿Una realidad?: años 00, integración en el S.O.– Integración teléfono y Voice Web browsers– Motores de RAH en los sistemas operativos – Multimodalidad, multilingualidad– VI Programa Marco EU: Ambient Intelligence
TIC en Redes MóvilesTIC en Redes Móviles
Y el futuro...Y el futuro...Making Speech MainstreamXuedong HuangGeneral Manager, Microsoft .NET Speech Technologies Group
Tasks Machines’error rate today
Humans’error rate
# of years for machines to catch up with humans
Freestyle speech transcription
30 % 4 % 19 years
Digit strings 0.7 % 0.009 % 41 years
Alphabet letters
5 % 1 % 15 years
Newspaper speech transcription
3 % 0.9 % 11 years
TIC en Redes MóvilesTIC en Redes Móviles
Algunas dificultadesAlgunas dificultades1. ¿El sistema de RAH tiene que reconocer la voz de una
persona o varias personas (incluyendo, quizas, cualquier persona)?
2. ¿Cual es el tamaño del vocabulario a reconocer?
3. Sobre el modo de dirigirse al sistema de RAH
4. Entorno acústico en el que se utilizará el sistema de RAH
5. ¿Cómo activar o se activa el sistema de RAH?
6. Variabilidad acústica y confusión acústica del vocabulario
7. ¿Qué fuente de conocimento son necesarias incorporar en el sistema de RAH?
Mono vs. Mono vs. IndependienteIndependiente del del locutorlocutorMonolocutor
el sistema aprende utilizando la voz de una única personaresultados altos en tasas de reconocimientomodalidad necesaria para personas con problemas de
dicciónIndependiente del locutor
aprendizaje con grandes bases de datos de voz de muchas personas
se reduce la tasa de reconocimientonecesario para aplicaciones telefónicas
TIC en Redes MóvilesTIC en Redes Móviles
Adaptación al locutoraprendizaje inicial con multiples locutoresaprendizaje posterior con el uso de una personadespués de la adaptación comportamiento como
monolocutorvolver
TIC en Redes MóvilesTIC en Redes Móviles
TamañoTamaño del del VocabularioVocabulario
Incremento de la dificultad de reconocimiento con el tamañodel vocabulario:
p.e. El usuario no conoce todas las palabras que el sistema es capaz de reconocer
Incremento en la complejidad con el tamaño del vocabulario: memoria, cálculo y algoritmos de búsqueda.
Clasificación:pequeño vocabulario (1-99)vocabulario medio (100-999)grandes vocabularios (> 1000)
volver
Palabras AisladasPalabras Aisladas vs. vs. Habla Habla ContinuaContinuaReconocimiento de palabras aisladas
las frases se pronuncian con pausas entre palabraspausas suficientemente largasfacilidad en la localización del inicio y final de palabrase simplifican los algoritmos de reconocimientomodo no natural de comunicación
TIC en Redes MóvilesTIC en Redes Móviles
Reconocimiento de habla continualas frases se pronuncian sin ningún tipo de restricciónpresencia de coarticulación entre palabras¿fronteras entre palabras?
Ambigüedad: terminados vs. termina dosmodo natural de comunicaciónfenómenos de habla espontanea: disfluencias
Interrupciones, correcciones, frases agramaticales, ….
volver
Variabilidad Variabilidad y y Confusión AcústicaConfusión AcústicaVariabilidad acústica
Diferencias en las pronunciaciones de sonidosuna misma persona, entre personasCoarticulación
Unidad básica de reconocimientofonemas, difonemas, trifonemas, semisílabas, sílabas, palabras
TIC en Redes MóvilesTIC en Redes Móviles
Confusión acústica
similitud acústica entre palabras del vocabularioestalagmita, estalagtita
homófonos: baca, vaca volver
TIC en Redes MóvilesTIC en Redes Móviles
Entorno AcústicoEntorno AcústicoCondiciones de laboratorio: voz de alta calidad
sin ruidos, sin reverberación o ecos
Condiciones reales
ruido ambientalotras personas, equipos de sonido, aire acondicionado, ...
Distorsiones del canalvariaciones en los micrófonos, canal telefónico, salas, ...
Ruidos de respiración, toses, labios, ....volver
TIC en Redes MóvilesTIC en Redes Móviles
Activación del Sistema de RAHActivación del Sistema de RAHActivación manual: El usuario indica mediante, p.e. un pulsador,
cuando debe reconocer
Sistema fiable y robustoSistema poco versátil
Activación automáticaEn sistemas de diálogo:
por turnos por turnos con interrupción
Palabra de activación, tipo Star Trek En el futuro: por comprensión del diálogo
Volver
TIC en Redes MóvilesTIC en Redes Móviles
Fuentes de Fuentes de ConocimientoConocimientoLéxico:
¿Cómo se construyen las palabras a partir de las unidades de reconocimiento? fonemas, difonemas, trifonemas
Sintáctico:¿Cómo están relacionadas unas palabras con otras para formar una frase?Nivel de reconocimiento automático del habla
Semántico:¿Cúal es el significado de las palabras?, Ambigüedad: PolisemiasNecesario para mantener un diálogoNivel de comprensión
PragmáticoRelaciones entre las palabras y sus usos a lo largo del diálogo
“Me gusta” ---> hace referencia a algo ocurrido en el diálogo: ElipsisNivel de diálogo
TIC en Redes MóvilesTIC en Redes Móviles
Reconocimiento
Diálogo
volver
Comprensión
ArquitecturaArquitectura
TIC en Redes MóvilesTIC en Redes Móviles
RAH: Las basesRAH: Las basesUna primera aproximación: Reconocimiento de PatronesUna primera aproximación: Reconocimiento de Patrones
Reconocimiento de Palabras Aisladas Reconocimiento de Palabras Aisladas por ajuste de plantillaspor ajuste de plantillas
Plantilla: secuencia de vectores de parámetros extraídos del análisis de una palabra.
Análisis y Selección Clasificador
Referencias
VADvoz
TIC en Redes MóvilesTIC en Redes Móviles
características y patronescaracterísticas y patrones• Característica (feature)
– Es un aspecto o cualidad distintivo– Definiciones
• La combinación de d características se representa por un vector d-dimensional (columna) llamado vector de características (feature vector)
• El espacio d-dimensional definido por el vector de características es llamado espacio de carácteristicas (feature space)
• Si representamos los puntos de los vectores en el espacio tenemos una representación llamada scatter plot
• Patrón (pattern)– Es un par de variables {X, ω}, donde
• X, es una colección de observaciones (vectores de características)• ω, es el concepto detrás de la observación (etiqueta)
TIC en Redes MóvilesTIC en Redes Móviles
características y patrones(2)características y patrones(2)• ¿ Qué hace “bueno” a un vector de características ?
– La calidad de un vector está relacionada con la capacidad para discriminar ejemplos de las diferentes clases
• Ejemplos de la misma clase deberían tener valores similares• Ejemplos de distintas clases deberían tener valores diferentes
• Más propiedades
TIC en Redes MóvilesTIC en Redes Móviles
Extracción y Selección de parámetros
Algunos criterios:1. Gran variabilidad entre clases2. Insensibles a variables extrañas al proceso físico3. Estables en el tiempo4. Fácil de medir5. No estén correlados entre ellos
Evaluación de parámetros:
Ratio de Fisher=
Interesan Ratios de Fisher elevados
Varianza de las medias (sobre todas las clases)
Medias de las varianzas (dentro de las clases)
TIC en Redes MóvilesTIC en Redes Móviles
reducción dimensionalidadreducción dimensionalidad• El problema de la dimensionalidad
– El problema ya lo remarcó Bellman en 1961– Cuando se hace análisis multi-variable de datos hay problemas
conforme se aumenta la dimensión
• Como consecuencia se puede decir que para un problema dado hay un número de dimensiones del vector de características para el que se da el mejor rendimiento
• Se presentan dos alternativas– Selección de características, escogiendo un subconjunto– Extracción de características, por combinación de las existentes
• Métodos PCA y LDA
TIC en Redes MóvilesTIC en Redes Móviles
reducción dimensionalidad(2)reducción dimensionalidad(2)• El problema de la extracción de características se puede formular de la siguiente
manera– Dado un espacio de características xi∈RN se busca una función y=f(x): RN→ RM con M<N
de tal manera que el vector transformado y preserva la mayor parte de la información que tenía x.
– Una función óptima será la que no aumente la probabilidad de error• En general la función óptima será una función no-lineal
– De todas formas, al no disponer de una manera sistemática para generar esa función se recurre a transformaciones lineales de la forma
y = Wx– Donde y es una proyección de x
• Dependiendo del objetivo deseado para la función objetivo tenemos dos categorías– Representación de señal, El objetivo es representar de una manera precisa las muestras
del espacio de mayor dimensión y conservar la representatividad, transmisión, reconstrucción ... PCA
– Clasificación, El objetivo de la reducción es resaltar la discriminación entre clases, LDA
TIC en Redes MóvilesTIC en Redes Móviles
reducción dimensionalidad: reducción dimensionalidad: pcapca• El objetivo de PCA (Principal Components Analysis) es la reducción de
dimensión preservando la variabilidad en el espacio origen al máximo– Si tenemos x, un vector N-dimensional representado por una combinación
lineal de vectores de una base ortonormal {ϕ1, ϕ2,..., ϕN}
– Suponemos que representamos x con M vectores de la base de manera que representen la mayor parte de la energía
– El error de representación es:
– El objetivo es minimizar el error cuadrático medio
1
01
donde N
i i i ii
i jx y
i jϕ ϕ ϕ
=
≠⎧= ⋅ = ⎨ =⎩∑
1 1
ˆ +M N
i i i ii i M
x y bϕ ϕ= = +
=∑ ∑
( )1
ˆN
i i ii M
x x x y b ϕ= +
∆ = − = −∑
( )2 22
1
N
i ii M
E x E y bε= +
⎡ ⎤ ⎡ ⎤= ∆ = −⎣ ⎦⎣ ⎦ ∑
TIC en Redes MóvilesTIC en Redes Móviles
reducción dimensionalidad: reducción dimensionalidad: pcapca(2)(2)• Si hacemos esta minimización sin sujetar a ninguna restricción obtenemos lo
que se puede ver intuitivamente, los mismos coeficientes sin alterar
• Por notación, representamos el error en forma matricial
• La solución que buscamos tiene que cumplir la restricción de ortonormalidad, para ello utilizamos un conjunto de multiplicadores de Lagrange en la optimización
• Calculamos la derivada de la función de coste respecto a los vectores
( ) [ ]( ) [ ]2 2 0i i i i i ii
E y b E y b b E ybδδ
⎡ ⎤− = − − = ⇒ =⎣ ⎦
( )2
1 1
1N N
T Ti x i i i i
i M i M
ε ϕ ϕ λ ϕ ϕ= + = +
== Σ + −∑ ∑
[ ]( ) [ ]( ) [ ]( )
[ ]( ) [ ]( )
22
1 1
1 1
N N Ti i i i i i
i M i MN NTT T
i i i x ii M i M
E y E y E x E x x E x
E x E x x E x
ε ϕ ϕ ϕ ϕ
ϕ ϕ ϕ ϕ
= + = +
= + = +
⎡ ⎤ ⎡ ⎤== − = − − =⎣ ⎦ ⎣ ⎦
⎡ ⎤− − = Σ⎣ ⎦
∑ ∑
∑ ∑
( ) ( )
( ) ( )
2
1 1
1 2 0
: 2 , si A es simétrica
N NT Ti x i i i i x i i i x i i i
i M i Mi i
T TdNOTA x Ax A A x Axdx
δ δε ϕ ϕ λ ϕ ϕ ϕ λϕ ϕ λϕδϕ δϕ = + = +
⎡ ⎤== Σ + − = Σ − = ⇒ Σ =⎢ ⎥⎣ ⎦
= + =
∑ ∑
TIC en Redes MóvilesTIC en Redes Móviles
reducción dimensionalidad: reducción dimensionalidad: pcapca(3)(3)• Reducción de dimensionalidad por PCA
– La aproximación de un vector de dimensión N por una combinación de M vectores de dimensión M, con M < N, independientes se obtiene proyectando los vectores aleatorios x en los M vectores propios de mayor valor de la matriz de covarianzas de los vectores x, Σx
• Notas– PCA no considera la separabilidad entre clases ya que no tiene en cuenta la
etiqueta de los vectores– PCA rota los ejes coordenados de manera que se alineen con las direcciones
de máxima variación– No hay garantía de que las direcciones de máxima variación contengan
buena capacidad de discriminación
TIC en Redes MóvilesTIC en Redes Móviles
reducción dimensionalidad: LDAreducción dimensionalidad: LDA• EL objetivo de LDA (Linear Discriminant Analysis) es la reducción de
dimensionalidad a la vez que se mantenga la máxima discriminación posible– La transformación se define como antes:
y = wT x– La media de cada uno de los vectores es:
– Como primera aproximación suponemos que la función objetivo es la distancia entre las medias
– Como podemos presuponer la distancia entre las medias no es una buena medida, ya que no tiene en cuenta la desviación estándar en las clases
1 1 1 = i i i
T Ti i i
x y xi i i
x y w x wN N Nω ω ω
µ µ µ∈ ∈ ∈
= = =∑ ∑ ∑%
( )1 2 1 2( ) TJ w wµ µ µ µ= − = −% %
TIC en Redes MóvilesTIC en Redes Móviles
reducción dimensionalidad: LDA(2)reducción dimensionalidad: LDA(2)• La solución propuesta es el ratio de Fisher, en la que la distancia entre
las medias se normaliza por la desviación estándar de las clases– Para cada clase definimos el scatter o covarianza interna:
– Definimos la varianza total interna de las clases como, within class scatter:
– El discriminante lineal de Fisher se define como la función que maximiza el criterio dado por la función (ratio de Fisher)
– Encontraremos la proyección donde ejemplos de la misma clase serán proyectadoscerca unos de otros y los de clases diferentesalejados.
( )22
i
i iy
s yω
µ∈
= −∑% %
( )2 21 2s s+% %
21 22 21 2
( )J ws sµ µ−
=+
% %
% %
TIC en Redes MóvilesTIC en Redes Móviles
reducción dimensionalidad: LDA(3)reducción dimensionalidad: LDA(3)• Para encontrar la proyección óptima w, necesitamos expresar J(w) como
función explícita de w• Definimos la medida de scatter en el espacio x.
– La matriz SW se llama within-class scatter, representa la variación dentro de las clase
• El scatter de la proyección se puede poner en función del scatter en x
• De igual manera la diferencia entre las medias proyectadas se puede expresar en términos del espacio original y de la transformación
– La matriz SB se llama between-class scatter, representa la distancia entre los centros de las clases
• Así, representamos el criterio de Fisher de la siguiente forma:
( )( )
1 2
i
Ti i i
x
w
S x x
S S Sω
µ µ∈
= − −
+ =
∑
( ) ( ) ( )( )22
1 2
i i i
TT T T Ti i i i i i
y x x
Tw
s y w x w w x x w w S w
s s w S wω ω ω
µ µ µ µ∈ ∈ ∈
= − = − = − − =
+ =
∑ ∑ ∑% %
% %
( ) ( ) ( )( )221 2 1 2 1 2 1 2
TT T T TBw w w w w S wµ µ µ µ µ µ µ µ− = − = − − =% %
( )T
BT
W
w S wJ ww S w
=
TIC en Redes MóvilesTIC en Redes Móviles
reducción dimensionalidad: LDA(4)reducción dimensionalidad: LDA(4)• Para encontrar el máximo de J(w) derivamos e igualamos a 0
• Dividimos por wTSWw
• Resolvemos el problema de valores singulares
• O bien directamente en
[ ]( ) 0
0
2 2 0
TB
TW
T TB WT T
W B
T TW B B W
w S wd dJ wdw dw w S w
d w S w d w S ww S w w S w
dw dww S w S w w S w S w
⎡ ⎤= = ⇒⎢ ⎥
⎣ ⎦⎡ ⎤ ⎡ ⎤⎣ ⎦ ⎣ ⎦⎡ ⎤ ⎡ ⎤− = ⇒⎣ ⎦ ⎣ ⎦
⎡ ⎤ ⎡ ⎤− =⎣ ⎦ ⎣ ⎦
1
0
0
0
T TW B
B WT TW W
B W
W B
w S w w S wS w S w
w S w w S w
S w JS w
S S w Jw−
⎡ ⎤ ⎡ ⎤⎣ ⎦ ⎣ ⎦− = ⇒⎡ ⎤ ⎡ ⎤⎣ ⎦ ⎣ ⎦
− = ⇒
− =
{ }* arg max ( ) ( ) * 0B i w iw J w S S wλ= ⇒ − =
{ } 11 2* arg max ( ) * ( )ww J w w S µ µ−= ⇒ = −
TIC en Redes MóvilesTIC en Redes Móviles
reducción dimensionalidadreducción dimensionalidad• PCA vs. LDA
TIC en Redes MóvilesTIC en Redes Móviles
Procesado Digital de la Señal Procesado Digital de la Señal de Voz para RAHde Voz para RAH
Extracción y selección de parámetros
Frecuencia de muestreo Reducción error8 kHz referencia11 kHz +10%16 kHz +10%22 kHz +0%
TIC en Redes MóvilesTIC en Redes Móviles
Detección de Voz
Es importante para Evitar el push to talkReducir falsas alarmasReducir consumo
Existen distintas metodologías de diseño, pero el problema siempre es el mismo: decisión entre dos clases
{Voz, Silencio}
La decisión se hace “suave”, al reconocedor se le incluyen tramas anteriores al instante de inicio de voz y se decide silencio cuando hay un número suficiente de tramas clasificadas como silencio.
TIC en Redes MóvilesTIC en Redes Móviles
Extracción y Selección de parámetros
Parámetros estáticos y dinámicos
Parámetros estáticos: representaciones frecuencialesp.e. Mel-Cepstrum, PLP, LPCSe suelen utilizar de 8 a 14 coeficientes estáticos dependiendo de la frecuencia de muestreo.Ventana de hamming de 20 a 30 ms. y desplazamientos de 10 a 15 ms.
Parámetros dinámicos: los cambios temporales en el espectro tienen importancia perceptual.Complementarios a la suposición de independencia entre observaciones de los HMM.Primera y segunda derivada de los parámetros estáticos
TIC en Redes MóvilesTIC en Redes Móviles
Extracción y Selección de parámetros
Parámetros Reducción error relativo13 coef. Cepstrum-LPC referencia13 coef Mel-Cepstrum +10%16 coef Mel-Cepstrum +0%+ 1ª y 2ª derivada +20%+ 3ª derivada +0%
Transformaciones de parámetros
Reducción de la dimensionalidad: PCA o KLTDescartar parámetros con los autovalores mas pequeñosIncorrela los parámetros
Transformaciones discriminativas: LDA
TIC en Redes MóvilesTIC en Redes Móviles
MEL CEPSTRUMMEL CEPSTRUM
TIC en Redes MóvilesTIC en Redes Móviles
Reconocimiento de Palabras Aisladas por ajuste de plantillas
Clasificación por similitud de plantillas¿Cómo medir el parecido entre dos plantillas?
1. Definir una medida de similitud entre vectoresp.e. Distancia euclidea entre vectores
2. Definir una medida de similitud entre plantillasProblema: variación no lineal en la
velocidad de articulación de los sonidos
¿Cómo medir la similitud entre plantillas con distinto número de vectores?
TIC en Redes MóvilesTIC en Redes Móviles
Reconocimiento de Palabras Aisladas por ajuste de plantillas
Solución: Alineamiendo TemporalDistorsionar el eje temporal de forma no uniforme
J
j
1
1 Ii
TIC en Redes MóvilesTIC en Redes Móviles
Reconocimiento de Palabras Aisladas por ajuste de plantillas
Solución algorítmica: Programación Dinámica
Buscar el camino de “menor coste” que comienza en el punto (0,0) y termina en el (I,J)
Camino: conjunto de nodos ordenados(i1,j1) (i2,j2).......
Se asigna distancia o coste a los caminos
• Coste de transición
• Coste de nodo( ) ( ), ,1 1d i j i jk k k kT⎡ ⎤
− −⎢ ⎥⎣ ⎦( ),
Nd i j
TIC en Redes MóvilesTIC en Redes Móviles
Reconocimiento de Palabras Aisladas por ajuste de plantillas
Distancia del camino
( , ) [( , )|( , )]1 11
KD d i j d i j i jN k k T k k k kk= +∑ − −
=donde(0,0) 0[( , )|(0,0)] 0
dN
d i jT
=
=
Principio de optimización de Bellman
El mejor camino de va de (s,t) a (u,v)
El mejor camino que va de (s,t) a (u,v) pasando por (w,x)
( , ) ( , )*
s t u v⎯⎯→
( , )( , ) ( , )*
w xs t u v⎯⎯⎯→
TIC en Redes MóvilesTIC en Redes Móviles
Reconocimiento de Palabras Aisladas por ajuste de plantillas
Principio de Bellman
( , )( , ) ( , ) ( , ) ( , ) ( , ) ( , )* * *
w xs t u v s t w x w x u v⎯⎯⎯→ = ⎯⎯→ ⊕ ⎯⎯→
es decir:
( , )1 1(0,0) ( , ) (0,0) ( , )1 1* *
( , ) ( , )1 1 *
i jk k i j i jk k k k
i j i jk k k k
− −⎯⎯⎯⎯⎯⎯→ = ⎯⎯→ ⊕− −
⎯⎯→− −
TIC en Redes MóvilesTIC en Redes Móviles
Reconocimiento de Palabras Aisladas por ajuste de plantillas
( , )1 1(0,0) ( , )*
i jk k i jk k
− −⎯⎯⎯⎯⎯⎯→
DefinimosDmin(i,j) = distancia de (0,0) a (i,j) por el mejor camino
Dmin[(ik,jk)|(ik-1,jk-1)] =
Entonces
Dmin[(ik,jk)|(ik-1,jk-1)] = Dmin(ik-1,jk-1)+ dN(ik,jk)+ dT[(ik,jk)|(ik-1,jk-1)]
de forma que
Dmin(ik,jk) = min {Dmin(ik-1,jk-1)+ dN(ik,jk)+ dT[(ik,jk)|(ik-1,jk-1)]}(ik-1,jk-1)
TIC en Redes MóvilesTIC en Redes Móviles
Reconocimiento de Palabras Aisladas por ajuste de plantillas
Aplicándolo a nuestro problema:Monotonicidad
Restricciones locales del camino: transiciones permitidas
Restricciones globales del camino: ventana de búsquedaNormalización: independencia del caminoBacktracking: recuperar camino alineaciónDecisión: Plantilla con mínima distancia
,1 1
i i j jk k k k
≤ ≤− −
TIC en Redes MóvilesTIC en Redes Móviles
Reconocimiento de Palabras Aisladas por ajuste de plantillas
Ejemplo
3 2 5 6 5 32 4 6 8 2 34 5 7 5 3 52 3 6 2 8 71 2 4 7 10 10 342414731
24179943171214118715141914119171920161212
Distancias acumuladasEspacio de búsqueda
TIC en Redes MóvilesTIC en Redes Móviles
RAH: Las basesRAH: Las basesReconocimiento estadísticoReconocimiento estadístico
Sea O una secuencia de T medidas acústicas de la voz, p.e. vectores Mel-Cepstrum, PLP, LPC, …
Sea W una secuencia de N palabras pertenecientes a un vocabulario fijo y conocido.
Si P(W|O) es la probabilidad condicionada de la secuencia de palabras W dada la secuencia O de medidas acústicas observadas
El reconocedor decidirá a favor de la secuencia de palabras Wque satisfaga (decisión MAP)
W = arg maxW P(W|O)
TIC en Redes MóvilesTIC en Redes Móviles
RAH: Las basesRAH: Las basesUtilizando la fórmula de Bayes
)()()|()|(
OPWPWOPOWP =
P(W) ... Probabilidad de que la secuencia de palabras W sea pronunciadaP(O|W) ... Probabilidad a priori de que cuando una persona pronuncia la secuencia de palabras W obtengamos la secuenciade medidas acústicas OP(O) ... Probabilidad de la secuencia de medidas acústicas O
Fórmula del Reconocedor)()|(arg WPWOPmaxW
W=
Modelo Acústico Modelo de Lenguaje
TIC en Redes MóvilesTIC en Redes Móviles
1. Una misma palabra /fonema /sonido suena diferente cada vez que es pronunciado.
2. Podemos ver las palabras/fonema/segmentos de voz como estados de un proceso de producción.
3. En un estado dado, podemos observar diferentes sonidos pero no todos los sonidos posibles son observados en cada estado.
4. En un estado dado el proceso de producción de voz emite sonidos de acuerdo con alguna función de densidad de probabilidad predefinida.
El El proceso proceso de de producción producción del del habla visto como habla visto como un un proceso estocástico proceso estocástico
TIC en Redes MóvilesTIC en Redes Móviles
5. El proceso de producción de voz puede hacer transicionesde un estado a otro.
6. No todas las trasiciones son posibles, las distintas transiciones tienen diferentes probabilidades.
Conclusión: El proceso de producción del habla puede ser representado por un
Modelo estadístico compuesto por estados con transiciones entre ellos y probabilidades de emisión de sonidos en los estados
El El proceso proceso de de producción producción del del habla visto como habla visto como un un proceso estocástico proceso estocástico
Modelos Ocultos de Modelos Ocultos de MarkovMarkov
TIC en Redes MóvilesTIC en Redes Móviles
Componentes Componentes de un de un Sistema Sistema RAHRAH
Hz
Procesado Señal
Voz Búsqueda Secuencia palabras
Modelo de
Lenguaje
P(W)
text
AnálisisLéxico
AnálisisGramatical
ReconocimientoReconocimientoEntrenamientoEntrenamiento
trascripción
speech
ProcesadoSeñal
text
Modelos
Acústicos
P(O|W)
AprendizajeModelos Acústicos