77

Machine Learning y Tecnologías del Habla - Into Talk

Embed Size (px)

Citation preview

INTRODUCCIÓN

¿Se dieron cuenta que …?

My wives can help…

Where can I أين يمكنني أن أجد مجموعة من الجمل؟find a pack of Camels?

EL PROBLEMA

يمكن بلدي الزوجة

...مساعدة

Machine Learning

Tecnologías del Habla

LA SOLUCIÓN

Machine Learning

Machine Learning

Proceso que permite a las

computadoras aprender de

los datos.

Machine Learning

Algoritmos ML: descubren

relaciones entre las variables

de un sistema a partir de

observaciones del mismo.

Machine Learning

Sistema ℎ1 , ℎ2 , ⋯ , ℎ𝐾

𝑥1 𝑥2 ⋮ 𝑥𝑁

𝑦1 𝑦2 ⋮ 𝑦𝑀

𝒙: Variables de Entrada

𝒉: Variables Ocultas

𝒚: Variables de Salida

Machine Learning

No se dispone de experiencia humana,

Es difícil explicitar la experiencia humana,

Las soluciones cambian con el tiempo

SI Cuando se conocen las relaciones entre variables del sistema,

En la mayoría de los casos reales esto no se cumple

NO

PARADIGMAS

Función de Costo • Aprendizaje

Generativo • Aprendizaje

Discriminativo

Datos de Entrenamiento • Aprendizaje

Supervisado • Aprendizaje Semi-

Supervisado • Aprendizaje no

Supervisado • Aprendizaje Activo

Representación de Entradas • Representaciones

Esparsas • Aprendizaje

Profundo

Machine Learning

Vinculadas con alguna

interacción mediante voz.

Areas de Investigación.

Tecnologías del Habla

Reconocimiento del Habla (ASR)

Síntesis del Habla (TTS)

Identificación de Hablantes (SID)

Codificación de Habla

Realce del Habla Identificación del

Lenguaje Hablado (LID)

Interacción Multimodal

APLICACIONES DE TECNOLOGIAS DEL HABLA

HCI

• Agentes inteligentes

• IVR

• Comandos por voz

• Navegación por voz

Comunicación

• Filtrado

• Encoders

• Realces

Biometría y Clínica

• Reconocimiento de hablantes

• Detección de patologías

• Terapéuticas

Entretenimiento

• Síntesis de Canto

• Conversión de voces

• Avatares

• Video Juegos

• Juguetes

Educación

• Enseñanza Idiomas

• Canto

Varios

• Traducción habla-habla

• Speech analytics

• Monitoreo de medios

Tecnologías del Habla

ATRACTIVOS DEL PROBLEMA

Tecnologías del Habla

Variabilidad, naturaleza

secuencial y dinámica

Problema no resuelto, de

interés comercial

Disponibilidad de

datos estandarizados

Variabilidad

Intra-Locutores

• Estilos y velocidad • Coarticulación • Salud, Emociones • Interlocutor • Prosodia

Variabilidad

Inter-Locutores

• Diferencias anatómicas

• Socio-Culturales • Acentos

Ruidos e Interferencias

• Del locutor • Externas

Variaciones en el Medio

• En sensores • Canales • Codecs

DIFICULTADES

Tecnologías del Habla

Variabilidad, naturaleza

secuencial y dinámica

DISPONIBILIDAD DE DATOS

Tecnologías del Habla

DARPA: construcción de Corpus - definición de tareas

Corpus Hs. Lexicón Locutores Estilo

ATIS 10,2 < 2000 36 Habla espontánea, dominio

restringido

WSJ 73+8 5000 – 20000 ? Leída, continua

TIMIT 5,3 6100 630 Leída, continua

Switchboard 240 >3M 543 Espontánea, telefónica,

dominio restringido

Broadcast News 104 >1M ? Leída, diálogos

My wives can help…

Where can I أين يمكنني أن أجد مجموعة من الجمل؟find a pack of Camels?

EL PROBLEMA

يمكن بلدي الزوجة

...مساعدة

Machine Learning

Tecnologías del Habla

LA SOLUCIÓN

Voz a Texto

Texto a Texto

Texto a Voz

LA SOLUCIÓN

Reconocimiento del Habla e Identificación de Locutores

Síntesis del Habla

Voz a Texto

Texto a Texto

Texto a Voz

LA SOLUCIÓN

Reconocimiento del Habla e Identificación de Locutores

Síntesis del Habla

RECONOCIMIENTO DEL HABLA

Tareas Relacionadas

Comprensión del Habla

(ASU)

Detección de Habla (SAD)

Identificación de Hablantes

(SID)

Realce de Habla

Tecnologías del Habla

Conversión de señal de voz a

secuencias de palabras

TIPOS DE RECONOCEDORES

Tecnologías del Habla

Tipo de Habla

• Aislada

• Conectada

• Continua

• Diálogo

Vocabulario

• Pequeño

• Mediano

• Grande

Conocimiento del Usuario

• Dependiente

• Adaptable

• Independiente

Condiciones de Uso

• Laboratorio

• Robusto

Tipo de Aplicación

• Comando

• Palabras clave

• Dictado

• Close caption

- Complejidad

+ Complejidad

EVOLUCION HISTORICA

Tecnologías del Habla

EVOLUCION HISTORICA

Tecnologías del Habla

CADENA DEL HABLA

Tecnologías del Habla

• Modelo de transmisión de

ideas entre humanos

• Contempla Síntesis,

Reconocimiento-Comprensión

SISTEMA TÍPICO DE RECONOCIMIENTO DEL HABLA

Tecnologías del Habla

Parametrización de la Señal

Modelos Acústicos

Decodificador

Modelo de Lenguaje

Diccionario de Pronunciaciones

Posprocesamiento

Habla

Texto

CONSTRUCCION DE UN RECONOCEDOR

Construcción de Corpus de Habla

Parametrización

de la Señal

Construcción de Modelo Acústico

Construcción de Diccionario de Pronunciaciones

Construcción de Corpus de Texto

Construcción de Modelo de Lenguaje 1

2

Tecnologías del Habla

3 Decodificador

CONSTRUCCION DE UN CORPUS DE TEXTO

Tecnologías del Habla

Objetivo: obtener datos de cómo

se usa el lenguaje en el dominio de

interés

Métodos: Web as a Corpus, libros,

diarios, subtítulos, etc.

Desafíos : Cómo conseguir el

dataset más parecidos a lo que se

deberá reconocer, cómo adaptar

corpus

Selección

Normalización

Base de Datos

CONSTRUCCION DEL MODELO DE LENGUAJE

Tecnologías del Habla

Objetivo: Modelar frases

"aceptables" de acuerdo a una

sintaxis

Métodos: Basados en reglas (CFG)

o estadísticos (N-gramas)

Desafíos : Cómo construir rápida y

eficientemente un modelo de

lenguaje para una tarea nueva (otro

contexto)

trigramas

bigramas

unigrama el

perro

ladra corre

gato

ronrronea

P(gato | el)

P(ronrronea | el, gato)

CONSTRUCCION DE UN CORPUS DE HABLA

Tecnologías del Habla

Disponibilidad de Datos

Contenido por frase:

file.txt: transcripción ortográfica

file.wav archivo con la señal

acústica

file.phn anotación fonética con

segmentación temporal

file.wrd anotación ortográfica con

alineamiento temporal a nivel

palabras

Tipos de Frases:

SX: fonéticamente compactas Buena

cobertura de cada par de fonos

SI: diversidad fonética, para

diferentes contextos alofónicos

SA: diversas pronunciaciones

dialectales

PARAMETRIZACION DEL HABLA

Tecnologías del Habla

Objetivo: extraer características

robustas y relevantes para clasificar

los patrones

Métodos: Análisis STF (MFCC,

LPC, Rasta), compensaciones no

lineales y normalización. Cada

ventana se representa usando

~40 rasgos.

Desafíos : robustez al entorno,

dispositivos, locutores, ruido y ecos.

CONSTRUCCION DEL MODELO ACUSTICO

Tecnologías del Habla

Objetivo: Obtener modelos que

permitan caracterizar los sonidos del

habla

Métodos: Se representa cada unidad

acústica con HMMs . Probabilidades

de emisión fdp GMM o ANN

Desafíos : precisión, robustez al

entorno, dispositivos, locutores, ruidos

y ecos.

Trifono

/apa/

tapas

mapas

rapada

MODELOS OCULTOS DE MARKOV

Tecnologías del Habla

• Capaces de resolver

implícitamente segmentación y

clasificación de unidades

• Entrenamiento escalable, métodos

eficientes para aprendizaje y

decodificación, buen desempeño

• Estado del arte desde hace más de

30 años

MODELOS OCULTOS DE MARKOV

Tecnologías del Habla

Cada HMM está caracterizado por la tupla 𝜆 𝑺, 𝑨, 𝑩, 𝝅, 𝒀

• 𝑺 = 𝑆1, 𝑆2, ⋯ , 𝑆𝑁 estados posibles del modelo.

• 𝑨 = 𝑎𝑖𝑗 matriz de transiciones entre estados

• 𝐵 = 𝑏𝑗(𝑘) probabilidad de emisión del símbolo 𝑦𝑘al activarse 𝑆𝑗

• π = {𝜋(𝑖)} distribución de probabilidades para estados iniciales

• 𝑌 = 𝑦1, 𝑦2, ⋯ , 𝑦𝑀 posibles observaciones de las emisiones.

Modelan procesos temporales discretos bivariados: 𝑆𝑘 , 𝑌𝑘

CONSTRUCCION MODELO DE PRONUNCIACIONES

Tecnologías del Habla

Objetivo: Mapear representaciones

acústicas y grafémicas

Métodos: Basados en reglas, o en

Machine Learning

Desafíos : Cómo generar de manera

automática un lexicón, agregar nuevas

variantes dialectales y pronunciaciones

casa hongo

Argentina

kasa ONGo

arCentina

CONSTRUCCION DEL DECODIFICADOR

Tecnologías del Habla

Objetivo: generar secuencia óptima de

palabras combinando el modelo

acústico, de lenguaje y de

pronunciaciones

Métodos: algoritmo de Viterbi

Desafíos : Construir estructuras

eficientes para decodificación y

búsqueda en tareas de gran vocabulario

y modelos de lenguajes complejos.

Decodificador

Evidencias Acústicas

Modelos Acústicos

Modelo de Lenguaje

Modelos de Pronunciaciones

N-Mejores Hipótesis

RECONOCEDORES ESTADÍSTICOS

Tecnologías del Habla

• Marco matemático bien definido

• Usan ejemplos etiquetados y algoritmos de entrenamiento

para obtener modelos de los patrones de voz

• Representación mediante plantillas, o modelos estadísticos

• Se puede construir modelos de diferentes unidades acústicas

(fonemas, sílabas, palabras, etc.)

COMO FUNCIONA

Entrenamiento

Transcripción

Análisis Léxico

Análisis Gramatical

Modelo de Lenguaje

Corpus Orales Te

xto

Procesamiento de Señales

Modelo Acústico

Habla

Procesamiento de Señales

Búsqueda

Habla

Reconocimiento

P (O | W)

P (W)

Texto

Voz a Texto

Texto a Texto

Texto a Voz

LA SOLUCIÓN

Reconocimiento del Habla e Identificación de Locutores

Síntesis del Habla

IDENTIFICACIÓN DE HABLANTES

Tecnologías del Habla

Inferir la identidad de hablantes a partir de sus señales de habla

Valida mediante la voz si un hablante es quien dice ser

Decisión binaria. Ej. Sistemas de acceso

Verificación

Determina de quién es una muestra de habla determinada

Decisión 1 de N. Ej. Quién hizo una llamada extorsiva?

Identificación

ATRIBUTOS EMPLEADOS

Tecnologías del Habla

Idiolecto

Prosodia

Fonética

Espectral

Parámetros de alto nivel (componentes adquiridos)

Parámetros de bajo nivel (componentes físicos)

/O/ /N/ /G/ /o/

<S> dale, te copio

ATRIBUTOS EMPLEADOS

Tecnologías del Habla Objetivo: Mapear representaciones

acústicas y grafémicas

Métodos: Supervectores, JFA,

i-Vectores, PLDA

Desafíos : Cómo enrolar con pocas

muestras nuevos hablantes, hacer el

proceso adaptable a cambios del locutor

y canal

Voz a Texto

Texto a Texto

Texto a Voz

LA SOLUCIÓN

Reconocimiento del Habla e Identificación de Locutores

Síntesis del Habla

SÍNTESIS DEL HABLA

Tecnologías del Habla

Estado de las implementaciones comerciales:

• Inteligibilidad: próxima a la del habla humana.

• Naturalidad: deficiente debido a una inadecuada predicción

de la prosodia, y/o problemas en la concatenación debido a la

selección de unidades

Generación artificial de habla humana a partir de un texto de entrada, con el objetivo de

que suene inteligible y natural

EVOLUCIÓN DE LA SÍNTESIS DEL HABLA

Tecnologías del Habla

Haskins, 1959

KTH-Stocholm,

1962

MIT, 1976

Speak ‘N Spell,

1980

Dec Talk 1987

PARADIGMAS DE SÍNTESIS DEL HABLA

Tecnologías del Habla

1. Síntesis concatenativa: se construye una BD de unidades

acústicas, que se seleccionan y concatenan para generar

habla.

2. Síntesis Paramétrica-Estadística: usa HMMs como

modelos generativos para producir habla. Usan modelos

acústicos dependientes del contexto.

SÍNTESIS CONCATENATIVA

Conversor Texto a Voz

Pro

cesa

do

r N

LP

Análisis de Texto

•Normalización •Preprocesamiento •POS Tagging

Análisis Fonético

•Conversor Grafema a Fonema

Análisis Prosódico

•Pausas •Entonación •Duraciones

Sin

teti

zad

or

Base de Unidades

Postprocesamiento

• Estilizado Espectral

• Adaptación Prosódica

Selección Segmentos

Habla

Texto

SÍNTESIS PARAMÉTRICA

Conversor Texto a Voz

Pro

cesa

do

r N

LP

Análisis de Texto

•Normalización •Preprocesamiento •POS Tagging

Análisis Fonético

•Conversor Grafema a Fonema

Análisis Prosódico

•Pausas •Entonación •Duraciones

Sin

teti

zad

or

Modelos Acústicos

Postprocesamiento

• Estilizado Espectral

• Adaptación Prosódica

Generación de Unidades

Habla

Texto

PROCESAMIENTO DE TEXTO

Normalización del Texto

• Detecta símbolos

ortográficos y resuelve

ambigüedades

• Tokeniza

• Clasifica palabras según

sus rasgos

Registro Nº 57 del 20/10/13. El Sr. Pérez depositó $100.000. Dirección: L.N. Além 255, CABA

Registro Nº 57 del 20/10/13. El Sr. Pérez depositó $100,000.

Dirección: L.N. Além 255, CABA

Registro (Nº 57)Num, del (20/10/13)Date

El (Sr. Pérez)Name depositó ($100)Currency

Dirección: ( L.N. Além 255, CABA)Address

PROCESAMIENTO DE TEXTO

Preprocesamiento

• Expande abreviaturas, deletrea

acrónimos, transforma números,

separa en sílabas.

• Determina la tonicidad de las

palabras

El 20/10/13 el Sr. Pérez

depositó $100

El 20 de octubre de 2013 el Sr.

Pérez depositó $100

El veinte de octubre de dos

mil trece el señor Pérez

depositó cien pesos

PROCESAMIENTO DE TEXTO

Analizador Morfo-Sintáctico

• Localiza y etiqueta estructuras sintácticas en frases de

entrada Raíz

Sujeto

el señor Pérez

Predicado

Verbo

depositó

Objeto

cien mil pesos

TENDENCIAS ACTUALES

Preferencia por TTS basado en HMMs

HMM requieren menos espacio de almacenamiento que las señales, menor

complejidad de búsqueda

Se busca adaptar los sintetizadores a voces específicas requiriendo pocas muestras

Deep Learning

DEEP LEARNING

Tecnologías del Habla

• Algoritmos de ML, sometidos a la “curse of dimensionality”

• Estrategia usada para superar ese problema: pre-procesar los datos

para reducir su dimensionalidad (pérdida de información)

• El cerebro no pre-procesa información sensorial, sino que permite

su propagación por módulos que aprenden a representar las

observaciones

DEEP LEARNING

Tecnologías del Habla

• Modelos computacionales para representación de información

inspirados en la neocorteza: emplean abstracciones jerárquicas

y construcción gradual de representaciones en niveles

incrementales de abstracción

• Buscan capturar dependencias espacio-temporales en base a

regularidades en las observaciones

DEEP LEARNING

Tecnologías del Habla

• Dificultades para entrenar redes neuronales con más de 2

capas (“vanishing gradients”)

• Introducción de Redes de Creencia Profunda (DBN) y

algoritmos basados en auto-codificadores, permiten entrenar

múltiples capas intermedias

• Guían el entrenamiento de los niveles de representación

intermedios usando aprendizaje no supervisado a nivel local

RBMs

Redes neuronales estocásticas compuestas por:

1. Capa de unidades visibles (𝑣𝑖)

2. Capa de unidades ocultas (ℎ𝑖)

3. Unidad de bias (𝑏)

• Unidades visibles conectadas a todas las unidades ocultas.

• Unidad de bias conectada a unidades visibles y ocultas.

• Sin conexiones entre unidades visibles ni entre unidades ocultas

REDES DE CREENCIA PROFUNDA

• Conformados por conjuntos

de RBM

• Cada capa representa un

atributo latente del dominio

• Nodos latentes de capas

previas pasan a ser entradas

de las capas siguientes

ENTRENAMIENTO POR CAPAS

• Se trata cada capa como una RBM entrenada mediante

convergencia contrastiva

• Se van entrenando desde la capa inferior hacia arriba

• Cuando se entrena la k-ésima capa, se usa como entrada

los nodos latentes de la capa k-1

• Aprendizaje goloso, no hay garantía de optimalidad

• Este pre-entrenamiento genera una buena inicialización

para un entrenamiento supervisado posterior

ENTRENAMIENTO POR CAPAS

Tecnologías del Habla

ENTRENAMIENTO POR CAPAS

DBN, modelos generativos, se pueden emplear en tareas

discriminativas

• Se hace un pre-entrenamiento de las DBNs donde se

ajustan los pesos para representar los atributos latentes

• Se inicializan los pesos de una ANN con los de la DBN

entrenada

• Se efectúa un ajuste fino de manera supervisada

empleando backpropagation convencional

Method PER %

Recurrent Neural Network 26,1

Bayesian Triphone HMM 25,6

Monophone HTM 24,8

Heterogeneous Classifiers 24,4

DBNs 23,0

Aplicaciones

• Corpus TIMIT

• Modelo de Lenguaje de Bigramas sobre fonos

Deep Belief Networks for Phone Recognition. [Mohamed, Dahl, Hinton]. Proc. NIPS Workshop, 2009

Aplicaciones [Dahl, Yu, Deng, Acero] Context-Dependent Pre-Trained DNN for LVSR

IEEE Trans. On Audio, Speech, And Language Processing, Vol. 20 (2012)

Model Sentence Error (%)

CD-GMM-HMM ML 39.6

CD-GMM-HMM MMI 37.2

CD-GMM-HMM MPE 36.2

CD-DNN-HMM (5 hidden layers) 30.4

Como Seguir…

RECURSOS DISPONIBLES

Sistemas

- HTK

- KALDI

- Sphinx

Datos

- VoxForge

Reconocimiento

Sistemas

- Festival

- Mary

Síntesis

CRASH COURSE

Gracias.

Anexo

ENTRENAMIENTO DE RBM. ACTIVACIÓN

Asumiendo conocidos los pesos de conexión 𝑤,

1. Calcular la energía de activación de la unidad 𝑖:

𝑎𝑖 = ω𝑖𝑗𝑣𝑗𝑗

2. Calcular 𝑝𝑖, la probabilidad de activación de la unidad 𝑖:

𝑝𝑖 = σ 𝑎𝑖 =1

1 + 𝑒−𝑎𝑖

3. Para energías de activación positivas grandes 𝑝𝑖 tiende a 1 y a 0 para energías de activación negativas

APRENDIZAJE DE PESOS

Dado un conjunto de entrenamiento binario, para cada época:

1.Setear el estado de las unidades visibles a los valores del vector

observado (𝒗 = 𝒙)

2.Actualizar los estados de las unidades ocultas ℎ𝑗 calculando la

energía de activación:

𝑎𝑗 = ω𝑖𝑗𝑣𝑖𝑖

3.Hacer ℎ𝑗=1 con probabilidad σ 𝑎𝑗

APRENDIZAJE DE PESOS

4.Para cada arco 𝑒𝑖𝑗 calcular: Positivos(𝑒𝑖𝑗)= 𝑥𝑖 ∗ 𝑥𝑗

5.Reconstruir las unidades visibles de igual manera: para cada neurona visible calcular su energía de activación 𝑎𝑖 y actualizar su estado.

6.A partir de los valores de unidades visibles reconstruidos, actualizar las unidades ocultas y calcular para cada arco:

Negativos(𝑒𝑖𝑗)= 𝑥𝑖 ∗ 𝑥𝑗

APRENDIZAJE DE PESOS

7.Actualizar los pesos para cada arco 𝑒𝑖𝑗 haciendo:

ω𝑖𝑗 = ω𝑖𝑗 + 𝐿 ∗ [Positivos(𝑒𝑖𝑗) - Negativos(𝑒𝑖𝑗)] donde L es la tasa de aprendizaje.

8.Repetir el procedimiento para todos los casos de entrenamiento. Continuar hasta la convergencia de la red o un límite de épocas.

Esta regla de actualización de pesos se conoce como divergencia contrastiva