Speech technologies

SpeechTechnologyCenter

SpeechTechnologyCenter

Современные речевые технологии: основные направления исследований

и применяемые подходы

Илья Опарин

201.03.2008 www.speechpro.comwww.speechpro.com

Acknowledgements

В презентации использованы материалы из лекций ЦРТ Е.Корольков К.Левин Е.Лысенко Т.Пеховский И.Тампель

Статьи Phoneme Based Acoustics Keyword Spotting in

Informal Continuous Speech. I. Szoke, P. Schwarz, P. Matejka, L. Burget, M. Karafiat, J. Cernocky


Основные направления исследований

Распознавание речи Акустические модели Языковые модели

Выделение ключевых слов Определение языка сообщения Идентификация диктора Синтез речи


Другие направления

Шумоочистка Определение эмоционального и

физического состояния Низкоскоростное кодирование речи Фоноскопические экспертизы Разделение дикторов Music Spotting


Распознавание речи

Automatic Speech Recognition (ASR) Large Vocabulary Continuous Speech

Recognition (LVCSR )


Распознавание речи

Распознавание цифр/команд IVR-системы Command-and-Control приложения

Навигаторы Логистика

Распознавание слитной речи Диктовка

Голосовой блокнот

Спонтанная речь Индексация речевых архивов Стенографирование Голосовые переводчики


Распознавание команд

Динамическое программирование Исторически первый подход Создание шаблонов и сравнение с ними DTW (Dynamic Time Warping)

Статистические модели


Распознавание слитной речи

Акустические модели Оценивают акустические вероятности

распознавания отдельных аллофонов Монофоны Трифоны

Языковые модели Оценивают вероятности следования слов

друг за другом

Декодер Выявление лучшей гипотезы в сети

распознавания


Общая схема


Акустические модели

Статистические модели Скрытые марковские модели – HMM (Hidden

Markov Models) Смеси гауссовых распределений – GMM

(Gaussian Mixture Models)

Искусственные нейронные сети – ANN (Artificial Neural Networks)

Тренировка на размеченных речевых базах

Адаптация к диктору Нормализация на канал


Первичная обработка сигнала

ЦОС (цифровая обработка сигнала) Параметризация сигнала Создание векторов-признаков

Преобразование Фурье – FFT (Fast Fourier Transform)

MFCC (Mel-Frequency Cepstral Coefficients) PLP (Perceptual Linear Prediction)


HMM

21 43 65a5 6

a2 2

a4 5a 3 4a 2 3a 1 2

a 2 4 a 3 5

a3 3 a 4 4 a 5 5

С кры тая марков ская модель M

o1 o2 o3 o4 o5 o6

b 2(o 1) b2(o 2) b3(o 3) b4(o 4) b4(o 5) b5(o 6)

П оследов ательность наблю дений O


Формула Байеса

)(

)()()(

O

OO

P

wPwPwP iii


Параметры HMM

Параметры модели λ(A, B, π) π – начальное распределение вероятностей A={aij} – вероятность перехода из состояния

q(i) в q(j) Bj(x) – функция плотности вероятности

состояния si в пространстве признаков (вероятность эмиссии)


GMM

Аппроксимация функции плотности вероятности

где M – число гауссовых компонентов в распределении вероятностей, cjm – это вес m-го компонента смеси, N(o; μ, ∑) – это гауссова функция от нескольких переменных с вектором математического ожидания μ и корреляционной

матрицей ∑, которая определяется как

M

mjmjmtjmtj oNcob

1

),;()(


Моделирование распределения для 1 кепстрального коэффициента


Конкатенация HMM

2 11 1 4131 51

a 12 2

a 14 5a1

3 4a12 3a1

1 2

a 13 3 a 1

4 4

2 2 4 23 2 5 2

a 22 2

a 24 5a 2

3 4a 22 3a 2

1 2

a 23 3 a 2

4 4

М С М П 1 М С М П 2


Обучение HMM

Обучение

ГК1 ГК2 ГК3

С ловарь голосовы х команд

Обучающ ие последовательности векторов наблюдения

O 1 1 O1 2 O1 3

M г к1

O2 1 O 22 O2 3

M г к 2

O 3 1 O3 2 O3 3

M г к3

Модели голосовы х команд

Р аспознав ание

Н еизв естная O = o1, o2 .. oT

P (O|M г к1 ) P(O|M г к 2 ) P (O |M г к3 )

Вы бор максимальной вероятности

Алгоритм Баума-Уэлша (Baum-Welch) Разновидность EM-алгоритма


Нейронные сети


ANN


Модели языка

Оценка вероятности следования слов N-граммный подход Сложные лингвистические подходы до

сих пор мало применимы

Language Models (LM)


A statistical language model is simply a probability distribution P(s) over all possible sentences s.

Ronald Rosenfeld


Every time I fire a linguist the performance of the recognizer improves.

Fred Jelinek (IBM Speech Group)


Оценка LM

Word Error Rate (WER) Сложно сравнивать для разных ASR

платформ Сложно выделить вклад LM

Перплексия (Perplexity) Основана на понятии энтропии Можно оценить на основании только текста Соответствует среднему значению

ветвления LM


Правило Байеса

Задача распознавания: R = argmaxP(W|O)

По правилу Байеса

Так как P(O) константа для всех кандидатов

R = argmaxP(O|W)P(W)

P(O|W) – Acoustic Likelihood Вычисляется акустическими моделями

P(W) – Prior Probability Вычисляется моделью языка

)(

)()|(maxarg

OP

wPwOPR


Характеристики модели языка

Изолированная вероятность

Не учитывает контекст – чисто лексическая

Нужна более сложная оценка LM – часть общей системы

распознавания Должна обеспечивать улучшение

распознавания Не должна замедлять работу Должна быть достаточно простой, легко

параметризируемой и перестраиваемой

N

wCwP

)()(


N-граммный подход

Учет контекста Ограничиваемся левым контекстом

Chain Rule:

Вычислительно невыполнимо Количество независимых параметров n=Vi

Контекст ограничивается N непосредственными соседями

N

iiiN wwwwPwwwPWP

112121 )|()()(


N-граммы

N-непосредственных соседей слева Maximum Likelihood Estimation (MLE):

w1 w2 w3 w4 w5 w6 Триграмма w3 w4 w5 w3 w4 – N-граммная история для w5

)(

)(

)(

)()|()|(

11

1

11

111121

ini

ini

jjini

iniiniiii wwC

wwC

wwwC

wwCwwwPwwwwP

)(

)(

)(

)()|(

43

543

43

543435 wwC

wwwC

wwwC

wwwCwwwP

jj


Sparsity Problem

Наиболее популярные значения N = {2, 3, 4} Любого корпуса недостаточно для оценки всех

параметров Количество парметров в 4-граммной модели (словарь

65K): 654 = 1.8×1019

Количество реальных параметров примерно в 1011 раз меньше

И все равно слишком много

Техники сглаживания и отката/интерполяции Smoothing and Backoff Если в тренировочном корпусе не встретили N-

граммы, то скорее всего это проблема маленького корпуса, а не языковой невозможности N-граммы


Сглаживание и откат

Unseen N-grams Тренировочный корпус беден

Неправильное отсечение корректного кандидата

Сглаживание Забирает немного вероятностной массы от

“seen” N-грамм

Откат или интерполяция Распределяет выделенную массу среди

“unseen” N-грамм

Вероятности должны суммироваться в 1


Техники сглаживания

Add-one Witten-Bell Good-Turing Jelinek-Mercer Kneser-Ney


Backoff

Грамотное распределение вероятностной массы:

Если N-грамма “unseen”, используется вероятность “seen” (N-1)-граммы

Вероятность (N-1)-граммы берется с дискаунтом Вероятности должны суммироваться в 1

Вместо отката можно использовать интерполяцию N-грамм разных порядков

.)(~)(

0)(0)(),|(~)(

0)(),|(~

)|(ˆ

1

112112

1212

12

otherwisewPw

wwCandwwwCifwwPw

wwwCifwwwP

wwwP

in

iiiiiiinn

iiiiii

iii


N-граммы: за и против

Введены в распознавание более 30 лет назад (Ф.Елинек) – все еще основа любой LM

Легко тренировать Робастные

Учет только короткого контекста

Чистая статистика без лингвистики

Sparsity problem


Усовершенствования N-грамм

Немотивированные лингвистически Классовые модели Кэш-модели Topic-модели Модели триггеров Деревья решений Экспоненциальные модели

Лингвистически мотивированные Частеречная информация Морфология Синтаксис Семантика Факторные модели


Морфология в моделях языка

Значительное сжатие модели Меньший словарь Меньший тренировочный корпус Меньший размер модели

Улучшения на втором проходе Модель теряет преимущества компактности Модель усложняется

Улучшение распознавания на первом проходе В терминах WER – пока под вопросом Улучшение перплексии

Возможно, неправильно считают

Нужны очень сильные акустические модели

Использование грамматической информации


Синтаксис в моделях языка

“Long-span” синтаксические связи Контекст- целое предложение

Должны быть особенно полезны для языков со свободным порядком слов

Context-Free grammars Link Grammars Dependency grammars Structured Language Model (SLM)


Семантика в моделях языка

Реально работает только модель Скрытого семантического анализа Latent Semantic Analysis (LSA)

Основано на технике SVD из линейной алгебры


Putting Language Back to Language Modelling

Language modelling Модели очень сложны Нет явного общепризнанного успеха

В данной области необходим прорыв


Выделение ключевых слов

Keyword Spotting (KWS) Spoken Term Detection (STD)


Применяемые подходы

На основе ДП На основе KWS-сети

Методы распознавания речи HMM / GMM / ANN

Фоновая модель

На основе ASR Словные латтисы Фонемные латтисы


KWS на моделях ключевых слов


Монофонная KWS-сеть


Трифонная KWS-сеть


KWS на основе ASR – словные латтисы

Индексация звука при помощи LVCSR-системы

Поиск в словных латтисах Высокая скорость поиска Высокая надежность в случае хорошего

LVCSR

Проблемы Принципиально невозможно найти ключевое

слово, если оно OOV для системы распознавания

Сильно зависит от качества LVCSR-системы и ее ограничений


KWS на основе ASR – фонемные латтисы

Индексация звука при помощи системы пофонемного распознавания на фонемном уровне

Поиск ключевого слова Добавление слова в соответствующее место

словного латтиса Пересчет словного латтиса LVCSR-системой

Проблемы: огромный размер фонемных латтисов Сильно зависит от качества ASR-систем и их

ограничений


Современный уровень распознавания

Распознавание команд Зависит то количества

Диктовка Хорошее качество для английского

Адаптация к диктору Низкий уровень шума

Спонтанная речь - проблемно Адаптация моделей языка Устойчивость к шуму (Robustness)


Распознавание языка сообщения

Language Identification (LID) Language Recognition


Области применения

Контакт-центры IVR-системы

Службы безопасности


Применяемые подходы

GMM Построение GMM-моделей отдельных

языков

Фонотактический подход Phonotactic Approach

Комбинация подходов Формирование общей вероятностной меры


Фонотактический подход

Распознавание на фонемном уровне Использованием система фонемного

распознавания для одного фиксированного языка

Построение N-граммных фонемных моделей для каждого языка

Оценка фонемного латтиса, соответствующего тестовому сигналу каждой из фонотактических моделей


Идентификация диктора

Speaker Identification (SID) Speaker Recognition Speaker Verification/Authentication


Идентификация/Верификация

Идентификация диктора Речевые сервисы Службы безопасности

Мониторинг телефонных каналов

Как правило текстонезависима

Верификация диктора Системы доступа

Голосовой банкинг Голосовой замок и т.п.

Может быть как текстозависимой, так и текстонезависимой


Развитие идентификации

Экспертные методы «В круге первом» А.Солженицына

Автоматические методы Спектральный подход

Исследование мест и поведения формант

Основной тон Статистические модели

GMM Нейросетевые подходы


Меры оценки качества

Ошибка пропуска цели False Rejection

Ошибка ложного срабатывания False Alarm, False Acceptance

Равновероятная ошибка EER (Equal Error Rate)

DET-кривые Detection Error Tradeoff


Спектральные методы

Автоматическое выделение формант 3 и 4 форманты

Метод «ближайшего соседа» Сравнение векторов формант Нахождение ближайшего вектора из

присутствующих в базе


Distance Calculation

R

U

R

U

… …

… …

… …

… …


Статистические подходы - GMM

GMM-модели диктора Фоновая модель (модель импостера) Нормализация на канал


Базы данных

Один канал записи Несколько подходов для каждого диктора

Минимум 3 подхода


Модели диктора

Базовый вариант GMM-модель

Усовершенствования SVM

Для классификации средних в GMM NAP (Nuissance Attribute Projection)

Нормализации H-norm, T-norm, Z-norm SMS (Speaker Model Synthesis) Feature Warping MLLR (Maximum Likelihood Linear Regression) Joint Factor Analysis

– Собственный канал (Eigen Channel)– Собственный диктор (Eigen Voice)

Декореллирование и уменьшение размерности векторов-признаков LDA, HLDA (Linear Discriminant Analysis)


Фоновая модель

Универсальная фоновая модель Universal Background Model (UBM)

Описывается большим количеством гауссиан (напр. 2048)


Модель диктора с использованием UBM

Модели диктора и UBM не могут существовать отдельно друг от друга Модель диктора можно получить путем

адаптации UBM MAP-адаптация

Требуется много данных от диктора Серьезные вычислительные затраты

MLLR “Быстрая” адаптация

Eigen channel Наиболее перспективная технология


Синтез речи по тексту

Text-to-Speech (TTS) Speech Synthesis


Синтез речи

Исторически первое направление в речевых технологиях

Главная цель: достижение максимальной естественности «чтения» произвольного текста


Области применения

Независимое применение Слабовидящие люди Системы оповещения Чтение SMS, e-mail, объявлений…

В составе более крупных систем IVR системы Диалоговые системы Автоматический перевод с речи на речь


Главные проблемы

Разборчивость речи Задача решена

Естественность речи Человек быстро теряет концентрацию, если

речь неестественна Человек не склонен общаться с системой,

звучащей неестественно Тест Тьюринга

Компромисс между качеством, памятью и быстродействием


Системы синтеза речи - история

XIII век – Р.Бэкон 1779 – К.Краценштейн (артикуляторный синтез, 5

гласных) 1791 – В. Фон Кемпелен (модель языка и губ, синтез

гласных и согласных) 1930s –VOCODER (управление с клавиатуры,

разборчивая речь) 40-50-е – Дальнейшие механические улучшения в

артикуляторной модели 1968 – первая полноценный синтез на компьютере (Bell

labs) 70-е – Первые конкатенативные синтезаторы 80-е – Формантные синтезаторы, первые коммерческие

применения (DECTalk) 90-е – Компилятивные синтезаторы с полными речевыми

базами, Unit Selection 2000-е – Unit Selection, HMM/GMM синтезаторы


Системы русской речи - сейчас

Лучшее качество – Unit Selection Синтезаторы в реальном времени Относительно естественное звучание для основных

европейских языков Будущее

HMM синтез: быстрый прогресс, но изначальные ограничения модели

Unit Selection: увеличение вычислительных возможностей

Синтезаторы русской речи Elan ЦРТ Sacrament Loquendo


Артикуляторный синтез

Модель артикуляторных движений и характеристик речевого тракта Articulatory Synthesis

Крайне неестественное звучание Отсутствие индивидуальных характеристик

голоса в синтезированной речи Невозможность точного динамического

моделирования речевого тракта Сложность генерации сигнала возбуждения


Формантный синтез

Формантный синтез = синтез по правилам Rule-Based Synthesis

Отталкиваемся от акустики Построение формант и других характеристик

при помощи правил и фильтров

- Неестественность и роботизированность синтезированной речи

+ Высокая разборчивость (даже на высоких скоростях), компактность


Компилятивный синтез (Concatenative Synthesis)

Макросинтез Дифонный/Аллофонный синтез Unit Selection


Макросинтез (Domain-specific Synthesis)

Большие целиком записанные фразы Высокое качество

Мало стыков, большие речевые сегменты Но: рассогласование интонации

Жесткие ограничения по области применения Нельзя синтезировать произвольный текст Вокзалы, аэропорты и т.п.


Компилятивный синтез из единиц фиксированной длины

Баланс между размером звуковой базы (количество единиц) и качеством синтеза

Типы единиц Фонема

Не работает Дифон

Учет стыков между двумя аллофонами Аллофон

Полноценная контекстно-зависимая единица Слог

Проблемы с увеличением размера базы

Компактность речевой базы Относительно высокое качество звучания

Учет индивидуальных характеристик Модификации сигнала ухудшают качество


Модификации сигнала

Модификации в частотной области Повышение/понижение основного тона Моделирование интонации

Модификации во временной области Ускорение-замедление темпа

Модификации энергии сигнала Моделирование интонации

Любые модификации приводят к ухудшению качества сигнала


Unit Selection

Основные идеи Меньше склеек – лучше качество Меньше модификаций сигнала – лучше

качество

Уменьшение количества склеек Укрупнение единиц

Уменьшение модификаций Несколько реализаций для каждой единицы Реализации в разных интонационных

конструкциях


Общая структура TTS


Создание TTS – запись речевой базы

Богатый голос Профессиональный диктор

Заглушенная камера Аллофонный/дифонный синтез

Специально подобранные слова

Unit selection Несколько часов (5-10) чтения Осознанный выбор текста для чтения

Общеупотребительная лексика Наличие диалогов

Многоуровневая сегментация


Создание TTS – нормализация текста

Что-о-о??!! Слава КПСС! Около 12:37 в ночь на 15.06.2007 Настоятельно рекомендую одолжить мне

100$ до завтра 2*2=22

Мы любим Microsoft г. Бобруйск – центр вселенной Это очень любопы-


Создание TTS – анализ текста



Определение места ударения и буквы ё Морфо-грамматический словарь

Омография Белок

сущ., м.р., им.п., ед.ч. бело<к сущ., ж.р., р.п., мн.ч. бе<лок сущ., м.р., в.п., ед.ч. бело<к сущ., ж.р., в.п., мн.ч. бе<лок

мел – мел/мёл

Правильное грамматическое согласование К 4 часам утра



Выделение интонационных единиц На основании пунктуации

Вот и все, приехали…

На основании связей в тексте Обстоятельства и причина смерти моей весьма

фотогеничной матери были довольно оригинальные (пикник, молния)

Определение интонационного типа и места логического ударения На основании пунктуации

Удивительно!

На основании смысла текста Я считаю это ну полным бредом!


Создание TTS - транскриптор


Создание TTS - транскриптор

Фонетический алфавит G-to-P (Grapheme-to-Phoneme) Молоко → /m a2 l a1 k o0/

Редукция гласных Аканье Оглушение

снег Ассимиляция

сделать Выпадение

солнце Фузии

под столом


Создание TTS – модификация звука


Unit Selection - intuition

Большая размеченная база Можно найти единицу, которая будет

лучшей для синтеза из списка кандидатов

Главная проблема – найти лучшую Target Cost – соответствие целевым

параметрам Фонетический контекст F0, ударение, позиция во фразе

Concatenation Cost – плавность перехода между соседними единицами Форманты, энергия, F0…


Target Cost

Сумма sub-costs Ударение Позиция во фразе F0 Длительность Лексическое соответствие

C t u i , t ik 1

p

w kt C k

t u i , t i


Concatenation Cost

Мера гладкости соединения Измеряется для двух соседних единиц Состоит из суммы sub-costs

Спектральные характеристики F0 Энергия

C c u i 1 , u ik 1

q

w kc C k

c u i 1 , u i


Total Cost

C u , ti 1

n

C t u i , t ii 2

n

C c u i 1 , u i


Преимущества и недостатки US

Высокое качество звучания

Естественная (без модификаций) просодика

Местами качество может быть плохим Плохое качество на

фоне хорошего очень раздражает

Большие объем вычислений

Большой объем базы


HMM-синтез

Основан на статистических скрытых марковских моделях

Модели различных аллофонов тренируются на размеченной базе MFCC или PLP коэффициенты

Удобный подход для исследовательских целей Легко изменять различные параметры

(напр., интонационные) и отслеживать результат


Рекомендуемая литература

SPEECH and LANGUAGE PROCESSING. An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition D.Jurafsky, R.Martin

The HTK book Young et al.

Spoken Language Processing X. Huang, A. Acero & H.-W. Hon

Statistical Methods for Speech Recognition F.Jelinek