View
1.095
Download
4
Category
Preview:
Citation preview
My wives can help…
Where can I أين يمكنني أن أجد مجموعة من الجمل؟find a pack of Camels?
EL PROBLEMA
يمكن بلدي الزوجة
...مساعدة
Machine Learning
Algoritmos ML: descubren
relaciones entre las variables
de un sistema a partir de
observaciones del mismo.
Machine Learning
Sistema ℎ1 , ℎ2 , ⋯ , ℎ𝐾
𝑥1 𝑥2 ⋮ 𝑥𝑁
𝑦1 𝑦2 ⋮ 𝑦𝑀
𝒙: Variables de Entrada
𝒉: Variables Ocultas
𝒚: Variables de Salida
Machine Learning
No se dispone de experiencia humana,
Es difícil explicitar la experiencia humana,
Las soluciones cambian con el tiempo
SI Cuando se conocen las relaciones entre variables del sistema,
En la mayoría de los casos reales esto no se cumple
NO
PARADIGMAS
Función de Costo • Aprendizaje
Generativo • Aprendizaje
Discriminativo
Datos de Entrenamiento • Aprendizaje
Supervisado • Aprendizaje Semi-
Supervisado • Aprendizaje no
Supervisado • Aprendizaje Activo
Representación de Entradas • Representaciones
Esparsas • Aprendizaje
Profundo
Machine Learning
Vinculadas con alguna
interacción mediante voz.
Areas de Investigación.
Tecnologías del Habla
Reconocimiento del Habla (ASR)
Síntesis del Habla (TTS)
Identificación de Hablantes (SID)
Codificación de Habla
Realce del Habla Identificación del
Lenguaje Hablado (LID)
Interacción Multimodal
APLICACIONES DE TECNOLOGIAS DEL HABLA
HCI
• Agentes inteligentes
• IVR
• Comandos por voz
• Navegación por voz
Comunicación
• Filtrado
• Encoders
• Realces
Biometría y Clínica
• Reconocimiento de hablantes
• Detección de patologías
• Terapéuticas
Entretenimiento
• Síntesis de Canto
• Conversión de voces
• Avatares
• Video Juegos
• Juguetes
Educación
• Enseñanza Idiomas
• Canto
Varios
• Traducción habla-habla
• Speech analytics
• Monitoreo de medios
ATRACTIVOS DEL PROBLEMA
Tecnologías del Habla
Variabilidad, naturaleza
secuencial y dinámica
Problema no resuelto, de
interés comercial
Disponibilidad de
datos estandarizados
Variabilidad
Intra-Locutores
• Estilos y velocidad • Coarticulación • Salud, Emociones • Interlocutor • Prosodia
Variabilidad
Inter-Locutores
• Diferencias anatómicas
• Socio-Culturales • Acentos
Ruidos e Interferencias
• Del locutor • Externas
Variaciones en el Medio
• En sensores • Canales • Codecs
DIFICULTADES
Tecnologías del Habla
Variabilidad, naturaleza
secuencial y dinámica
DISPONIBILIDAD DE DATOS
Tecnologías del Habla
DARPA: construcción de Corpus - definición de tareas
Corpus Hs. Lexicón Locutores Estilo
ATIS 10,2 < 2000 36 Habla espontánea, dominio
restringido
WSJ 73+8 5000 – 20000 ? Leída, continua
TIMIT 5,3 6100 630 Leída, continua
Switchboard 240 >3M 543 Espontánea, telefónica,
dominio restringido
Broadcast News 104 >1M ? Leída, diálogos
My wives can help…
Where can I أين يمكنني أن أجد مجموعة من الجمل؟find a pack of Camels?
EL PROBLEMA
يمكن بلدي الزوجة
...مساعدة
Voz a Texto
Texto a Texto
Texto a Voz
LA SOLUCIÓN
Reconocimiento del Habla e Identificación de Locutores
Síntesis del Habla
Voz a Texto
Texto a Texto
Texto a Voz
LA SOLUCIÓN
Reconocimiento del Habla e Identificación de Locutores
Síntesis del Habla
RECONOCIMIENTO DEL HABLA
Tareas Relacionadas
Comprensión del Habla
(ASU)
Detección de Habla (SAD)
Identificación de Hablantes
(SID)
Realce de Habla
Tecnologías del Habla
Conversión de señal de voz a
secuencias de palabras
TIPOS DE RECONOCEDORES
Tecnologías del Habla
Tipo de Habla
• Aislada
• Conectada
• Continua
• Diálogo
Vocabulario
• Pequeño
• Mediano
• Grande
Conocimiento del Usuario
• Dependiente
• Adaptable
• Independiente
Condiciones de Uso
• Laboratorio
• Robusto
Tipo de Aplicación
• Comando
• Palabras clave
• Dictado
• Close caption
- Complejidad
+ Complejidad
CADENA DEL HABLA
Tecnologías del Habla
• Modelo de transmisión de
ideas entre humanos
• Contempla Síntesis,
Reconocimiento-Comprensión
SISTEMA TÍPICO DE RECONOCIMIENTO DEL HABLA
Tecnologías del Habla
Parametrización de la Señal
Modelos Acústicos
Decodificador
Modelo de Lenguaje
Diccionario de Pronunciaciones
Posprocesamiento
Habla
Texto
CONSTRUCCION DE UN RECONOCEDOR
Construcción de Corpus de Habla
Parametrización
de la Señal
Construcción de Modelo Acústico
Construcción de Diccionario de Pronunciaciones
Construcción de Corpus de Texto
Construcción de Modelo de Lenguaje 1
2
Tecnologías del Habla
3 Decodificador
CONSTRUCCION DE UN CORPUS DE TEXTO
Tecnologías del Habla
Objetivo: obtener datos de cómo
se usa el lenguaje en el dominio de
interés
Métodos: Web as a Corpus, libros,
diarios, subtítulos, etc.
Desafíos : Cómo conseguir el
dataset más parecidos a lo que se
deberá reconocer, cómo adaptar
corpus
Selección
Normalización
Base de Datos
CONSTRUCCION DEL MODELO DE LENGUAJE
Tecnologías del Habla
Objetivo: Modelar frases
"aceptables" de acuerdo a una
sintaxis
Métodos: Basados en reglas (CFG)
o estadísticos (N-gramas)
Desafíos : Cómo construir rápida y
eficientemente un modelo de
lenguaje para una tarea nueva (otro
contexto)
trigramas
bigramas
unigrama el
perro
ladra corre
gato
ronrronea
P(gato | el)
P(ronrronea | el, gato)
CONSTRUCCION DE UN CORPUS DE HABLA
Tecnologías del Habla
Disponibilidad de Datos
Contenido por frase:
file.txt: transcripción ortográfica
file.wav archivo con la señal
acústica
file.phn anotación fonética con
segmentación temporal
file.wrd anotación ortográfica con
alineamiento temporal a nivel
palabras
Tipos de Frases:
SX: fonéticamente compactas Buena
cobertura de cada par de fonos
SI: diversidad fonética, para
diferentes contextos alofónicos
SA: diversas pronunciaciones
dialectales
PARAMETRIZACION DEL HABLA
Tecnologías del Habla
Objetivo: extraer características
robustas y relevantes para clasificar
los patrones
Métodos: Análisis STF (MFCC,
LPC, Rasta), compensaciones no
lineales y normalización. Cada
ventana se representa usando
~40 rasgos.
Desafíos : robustez al entorno,
dispositivos, locutores, ruido y ecos.
CONSTRUCCION DEL MODELO ACUSTICO
Tecnologías del Habla
Objetivo: Obtener modelos que
permitan caracterizar los sonidos del
habla
Métodos: Se representa cada unidad
acústica con HMMs . Probabilidades
de emisión fdp GMM o ANN
Desafíos : precisión, robustez al
entorno, dispositivos, locutores, ruidos
y ecos.
Trifono
/apa/
tapas
mapas
rapada
MODELOS OCULTOS DE MARKOV
Tecnologías del Habla
• Capaces de resolver
implícitamente segmentación y
clasificación de unidades
• Entrenamiento escalable, métodos
eficientes para aprendizaje y
decodificación, buen desempeño
• Estado del arte desde hace más de
30 años
MODELOS OCULTOS DE MARKOV
Tecnologías del Habla
Cada HMM está caracterizado por la tupla 𝜆 𝑺, 𝑨, 𝑩, 𝝅, 𝒀
• 𝑺 = 𝑆1, 𝑆2, ⋯ , 𝑆𝑁 estados posibles del modelo.
• 𝑨 = 𝑎𝑖𝑗 matriz de transiciones entre estados
• 𝐵 = 𝑏𝑗(𝑘) probabilidad de emisión del símbolo 𝑦𝑘al activarse 𝑆𝑗
• π = {𝜋(𝑖)} distribución de probabilidades para estados iniciales
• 𝑌 = 𝑦1, 𝑦2, ⋯ , 𝑦𝑀 posibles observaciones de las emisiones.
Modelan procesos temporales discretos bivariados: 𝑆𝑘 , 𝑌𝑘
CONSTRUCCION MODELO DE PRONUNCIACIONES
Tecnologías del Habla
Objetivo: Mapear representaciones
acústicas y grafémicas
Métodos: Basados en reglas, o en
Machine Learning
Desafíos : Cómo generar de manera
automática un lexicón, agregar nuevas
variantes dialectales y pronunciaciones
casa hongo
Argentina
kasa ONGo
arCentina
CONSTRUCCION DEL DECODIFICADOR
Tecnologías del Habla
Objetivo: generar secuencia óptima de
palabras combinando el modelo
acústico, de lenguaje y de
pronunciaciones
Métodos: algoritmo de Viterbi
Desafíos : Construir estructuras
eficientes para decodificación y
búsqueda en tareas de gran vocabulario
y modelos de lenguajes complejos.
Decodificador
Evidencias Acústicas
Modelos Acústicos
Modelo de Lenguaje
Modelos de Pronunciaciones
N-Mejores Hipótesis
RECONOCEDORES ESTADÍSTICOS
Tecnologías del Habla
• Marco matemático bien definido
• Usan ejemplos etiquetados y algoritmos de entrenamiento
para obtener modelos de los patrones de voz
• Representación mediante plantillas, o modelos estadísticos
• Se puede construir modelos de diferentes unidades acústicas
(fonemas, sílabas, palabras, etc.)
COMO FUNCIONA
Entrenamiento
Transcripción
Análisis Léxico
Análisis Gramatical
Modelo de Lenguaje
Corpus Orales Te
xto
Procesamiento de Señales
Modelo Acústico
Habla
Procesamiento de Señales
Búsqueda
Habla
Reconocimiento
P (O | W)
P (W)
Texto
Voz a Texto
Texto a Texto
Texto a Voz
LA SOLUCIÓN
Reconocimiento del Habla e Identificación de Locutores
Síntesis del Habla
IDENTIFICACIÓN DE HABLANTES
Tecnologías del Habla
Inferir la identidad de hablantes a partir de sus señales de habla
Valida mediante la voz si un hablante es quien dice ser
Decisión binaria. Ej. Sistemas de acceso
Verificación
Determina de quién es una muestra de habla determinada
Decisión 1 de N. Ej. Quién hizo una llamada extorsiva?
Identificación
ATRIBUTOS EMPLEADOS
Tecnologías del Habla
…
Idiolecto
Prosodia
Fonética
Espectral
Parámetros de alto nivel (componentes adquiridos)
Parámetros de bajo nivel (componentes físicos)
/O/ /N/ /G/ /o/
<S> dale, te copio
ATRIBUTOS EMPLEADOS
Tecnologías del Habla Objetivo: Mapear representaciones
acústicas y grafémicas
Métodos: Supervectores, JFA,
i-Vectores, PLDA
Desafíos : Cómo enrolar con pocas
muestras nuevos hablantes, hacer el
proceso adaptable a cambios del locutor
y canal
Voz a Texto
Texto a Texto
Texto a Voz
LA SOLUCIÓN
Reconocimiento del Habla e Identificación de Locutores
Síntesis del Habla
SÍNTESIS DEL HABLA
Tecnologías del Habla
Estado de las implementaciones comerciales:
• Inteligibilidad: próxima a la del habla humana.
• Naturalidad: deficiente debido a una inadecuada predicción
de la prosodia, y/o problemas en la concatenación debido a la
selección de unidades
Generación artificial de habla humana a partir de un texto de entrada, con el objetivo de
que suene inteligible y natural
EVOLUCIÓN DE LA SÍNTESIS DEL HABLA
Tecnologías del Habla
Haskins, 1959
KTH-Stocholm,
1962
MIT, 1976
Speak ‘N Spell,
1980
Dec Talk 1987
ESTADO ACTUAL
Tecnologías del Habla
Nuance
Cepstral
AT&T
Loquendo
PARADIGMAS DE SÍNTESIS DEL HABLA
Tecnologías del Habla
1. Síntesis concatenativa: se construye una BD de unidades
acústicas, que se seleccionan y concatenan para generar
habla.
2. Síntesis Paramétrica-Estadística: usa HMMs como
modelos generativos para producir habla. Usan modelos
acústicos dependientes del contexto.
SÍNTESIS CONCATENATIVA
Conversor Texto a Voz
Pro
cesa
do
r N
LP
Análisis de Texto
•Normalización •Preprocesamiento •POS Tagging
Análisis Fonético
•Conversor Grafema a Fonema
Análisis Prosódico
•Pausas •Entonación •Duraciones
Sin
teti
zad
or
Base de Unidades
Postprocesamiento
• Estilizado Espectral
• Adaptación Prosódica
Selección Segmentos
Habla
Texto
SÍNTESIS PARAMÉTRICA
Conversor Texto a Voz
Pro
cesa
do
r N
LP
Análisis de Texto
•Normalización •Preprocesamiento •POS Tagging
Análisis Fonético
•Conversor Grafema a Fonema
Análisis Prosódico
•Pausas •Entonación •Duraciones
Sin
teti
zad
or
Modelos Acústicos
Postprocesamiento
• Estilizado Espectral
• Adaptación Prosódica
Generación de Unidades
Habla
Texto
PROCESAMIENTO DE TEXTO
Normalización del Texto
• Detecta símbolos
ortográficos y resuelve
ambigüedades
• Tokeniza
• Clasifica palabras según
sus rasgos
Registro Nº 57 del 20/10/13. El Sr. Pérez depositó $100.000. Dirección: L.N. Além 255, CABA
Registro Nº 57 del 20/10/13. El Sr. Pérez depositó $100,000.
Dirección: L.N. Além 255, CABA
Registro (Nº 57)Num, del (20/10/13)Date
El (Sr. Pérez)Name depositó ($100)Currency
Dirección: ( L.N. Além 255, CABA)Address
PROCESAMIENTO DE TEXTO
Preprocesamiento
• Expande abreviaturas, deletrea
acrónimos, transforma números,
separa en sílabas.
• Determina la tonicidad de las
palabras
El 20/10/13 el Sr. Pérez
depositó $100
El 20 de octubre de 2013 el Sr.
Pérez depositó $100
El veinte de octubre de dos
mil trece el señor Pérez
depositó cien pesos
PROCESAMIENTO DE TEXTO
Analizador Morfo-Sintáctico
• Localiza y etiqueta estructuras sintácticas en frases de
entrada Raíz
Sujeto
el señor Pérez
Predicado
Verbo
depositó
Objeto
cien mil pesos
TENDENCIAS ACTUALES
Preferencia por TTS basado en HMMs
HMM requieren menos espacio de almacenamiento que las señales, menor
complejidad de búsqueda
Se busca adaptar los sintetizadores a voces específicas requiriendo pocas muestras
DEEP LEARNING
Tecnologías del Habla
• Algoritmos de ML, sometidos a la “curse of dimensionality”
• Estrategia usada para superar ese problema: pre-procesar los datos
para reducir su dimensionalidad (pérdida de información)
• El cerebro no pre-procesa información sensorial, sino que permite
su propagación por módulos que aprenden a representar las
observaciones
DEEP LEARNING
Tecnologías del Habla
• Modelos computacionales para representación de información
inspirados en la neocorteza: emplean abstracciones jerárquicas
y construcción gradual de representaciones en niveles
incrementales de abstracción
• Buscan capturar dependencias espacio-temporales en base a
regularidades en las observaciones
DEEP LEARNING
Tecnologías del Habla
• Dificultades para entrenar redes neuronales con más de 2
capas (“vanishing gradients”)
• Introducción de Redes de Creencia Profunda (DBN) y
algoritmos basados en auto-codificadores, permiten entrenar
múltiples capas intermedias
• Guían el entrenamiento de los niveles de representación
intermedios usando aprendizaje no supervisado a nivel local
RBMs
Redes neuronales estocásticas compuestas por:
1. Capa de unidades visibles (𝑣𝑖)
2. Capa de unidades ocultas (ℎ𝑖)
3. Unidad de bias (𝑏)
• Unidades visibles conectadas a todas las unidades ocultas.
• Unidad de bias conectada a unidades visibles y ocultas.
• Sin conexiones entre unidades visibles ni entre unidades ocultas
REDES DE CREENCIA PROFUNDA
• Conformados por conjuntos
de RBM
• Cada capa representa un
atributo latente del dominio
• Nodos latentes de capas
previas pasan a ser entradas
de las capas siguientes
ENTRENAMIENTO POR CAPAS
• Se trata cada capa como una RBM entrenada mediante
convergencia contrastiva
• Se van entrenando desde la capa inferior hacia arriba
• Cuando se entrena la k-ésima capa, se usa como entrada
los nodos latentes de la capa k-1
• Aprendizaje goloso, no hay garantía de optimalidad
• Este pre-entrenamiento genera una buena inicialización
para un entrenamiento supervisado posterior
ENTRENAMIENTO POR CAPAS
DBN, modelos generativos, se pueden emplear en tareas
discriminativas
• Se hace un pre-entrenamiento de las DBNs donde se
ajustan los pesos para representar los atributos latentes
• Se inicializan los pesos de una ANN con los de la DBN
entrenada
• Se efectúa un ajuste fino de manera supervisada
empleando backpropagation convencional
Method PER %
Recurrent Neural Network 26,1
Bayesian Triphone HMM 25,6
Monophone HTM 24,8
Heterogeneous Classifiers 24,4
DBNs 23,0
Aplicaciones
• Corpus TIMIT
• Modelo de Lenguaje de Bigramas sobre fonos
Deep Belief Networks for Phone Recognition. [Mohamed, Dahl, Hinton]. Proc. NIPS Workshop, 2009
Aplicaciones [Dahl, Yu, Deng, Acero] Context-Dependent Pre-Trained DNN for LVSR
IEEE Trans. On Audio, Speech, And Language Processing, Vol. 20 (2012)
Model Sentence Error (%)
CD-GMM-HMM ML 39.6
CD-GMM-HMM MMI 37.2
CD-GMM-HMM MPE 36.2
CD-DNN-HMM (5 hidden layers) 30.4
RECURSOS DISPONIBLES
Sistemas
- HTK
- KALDI
- Sphinx
Datos
- VoxForge
Reconocimiento
Sistemas
- Festival
- Mary
Síntesis
ENTRENAMIENTO DE RBM. ACTIVACIÓN
Asumiendo conocidos los pesos de conexión 𝑤,
1. Calcular la energía de activación de la unidad 𝑖:
𝑎𝑖 = ω𝑖𝑗𝑣𝑗𝑗
2. Calcular 𝑝𝑖, la probabilidad de activación de la unidad 𝑖:
𝑝𝑖 = σ 𝑎𝑖 =1
1 + 𝑒−𝑎𝑖
3. Para energías de activación positivas grandes 𝑝𝑖 tiende a 1 y a 0 para energías de activación negativas
APRENDIZAJE DE PESOS
Dado un conjunto de entrenamiento binario, para cada época:
1.Setear el estado de las unidades visibles a los valores del vector
observado (𝒗 = 𝒙)
2.Actualizar los estados de las unidades ocultas ℎ𝑗 calculando la
energía de activación:
𝑎𝑗 = ω𝑖𝑗𝑣𝑖𝑖
3.Hacer ℎ𝑗=1 con probabilidad σ 𝑎𝑗
APRENDIZAJE DE PESOS
4.Para cada arco 𝑒𝑖𝑗 calcular: Positivos(𝑒𝑖𝑗)= 𝑥𝑖 ∗ 𝑥𝑗
5.Reconstruir las unidades visibles de igual manera: para cada neurona visible calcular su energía de activación 𝑎𝑖 y actualizar su estado.
6.A partir de los valores de unidades visibles reconstruidos, actualizar las unidades ocultas y calcular para cada arco:
Negativos(𝑒𝑖𝑗)= 𝑥𝑖 ∗ 𝑥𝑗
APRENDIZAJE DE PESOS
7.Actualizar los pesos para cada arco 𝑒𝑖𝑗 haciendo:
ω𝑖𝑗 = ω𝑖𝑗 + 𝐿 ∗ [Positivos(𝑒𝑖𝑗) - Negativos(𝑒𝑖𝑗)] donde L es la tasa de aprendizaje.
8.Repetir el procedimiento para todos los casos de entrenamiento. Continuar hasta la convergencia de la red o un límite de épocas.
Esta regla de actualización de pesos se conoce como divergencia contrastiva
Recommended