91
Speech Technology Center Современные речевые технологии: основные направления исследований и применяемые подходы Илья Опарин

Speech technologies

Embed Size (px)

Citation preview

Page 1: Speech technologies

SpeechTechnologyCenter

SpeechTechnologyCenter

Современные речевые технологии: основные направления исследований

и применяемые подходы

Илья Опарин

Page 2: Speech technologies

201.03.2008 www.speechpro.comwww.speechpro.com

Acknowledgements

В презентации использованы материалы из лекций ЦРТ Е.Корольков К.Левин Е.Лысенко Т.Пеховский И.Тампель

Статьи Phoneme Based Acoustics Keyword Spotting in

Informal Continuous Speech. I. Szoke, P. Schwarz, P. Matejka, L. Burget, M. Karafiat, J. Cernocky

Page 3: Speech technologies

301.03.2008 www.speechpro.comwww.speechpro.com

Основные направления исследований

Распознавание речи Акустические модели Языковые модели

Выделение ключевых слов Определение языка сообщения Идентификация диктора Синтез речи

Page 4: Speech technologies

401.03.2008 www.speechpro.comwww.speechpro.com

Другие направления

Шумоочистка Определение эмоционального и

физического состояния Низкоскоростное кодирование речи Фоноскопические экспертизы Разделение дикторов Music Spotting

Page 5: Speech technologies

501.03.2008 www.speechpro.comwww.speechpro.com

Распознавание речи

Automatic Speech Recognition (ASR) Large Vocabulary Continuous Speech

Recognition (LVCSR )

Page 6: Speech technologies

601.03.2008 www.speechpro.comwww.speechpro.com

Распознавание речи

Распознавание цифр/команд IVR-системы Command-and-Control приложения

Навигаторы Логистика

Распознавание слитной речи Диктовка

Голосовой блокнот

Спонтанная речь Индексация речевых архивов Стенографирование Голосовые переводчики

Page 7: Speech technologies

701.03.2008 www.speechpro.comwww.speechpro.com

Распознавание команд

Динамическое программирование Исторически первый подход Создание шаблонов и сравнение с ними DTW (Dynamic Time Warping)

Статистические модели

Page 8: Speech technologies

801.03.2008 www.speechpro.comwww.speechpro.com

Распознавание слитной речи

Акустические модели Оценивают акустические вероятности

распознавания отдельных аллофонов Монофоны Трифоны

Языковые модели Оценивают вероятности следования слов

друг за другом

Декодер Выявление лучшей гипотезы в сети

распознавания

Page 9: Speech technologies

901.03.2008 www.speechpro.comwww.speechpro.com

Общая схема

Page 10: Speech technologies

1001.03.2008 www.speechpro.comwww.speechpro.com

Акустические модели

Статистические модели Скрытые марковские модели – HMM (Hidden

Markov Models) Смеси гауссовых распределений – GMM

(Gaussian Mixture Models)

Искусственные нейронные сети – ANN (Artificial Neural Networks)

Тренировка на размеченных речевых базах

Адаптация к диктору Нормализация на канал

Page 11: Speech technologies

1101.03.2008 www.speechpro.comwww.speechpro.com

Первичная обработка сигнала

ЦОС (цифровая обработка сигнала) Параметризация сигнала Создание векторов-признаков

Преобразование Фурье – FFT (Fast Fourier Transform)

MFCC (Mel-Frequency Cepstral Coefficients) PLP (Perceptual Linear Prediction)

Page 12: Speech technologies

1201.03.2008 www.speechpro.comwww.speechpro.com

HMM

21 43 65a5 6

a2 2

a4 5a 3 4a 2 3a 1 2

a 2 4 a 3 5

a3 3 a 4 4 a 5 5

С кры тая марков ская модель M

o1 o2 o3 o4 o5 o6

b 2(o 1) b2(o 2) b3(o 3) b4(o 4) b4(o 5) b5(o 6)

П оследов ательность наблю дений O

Page 13: Speech technologies

1301.03.2008 www.speechpro.comwww.speechpro.com

Формула Байеса

)(

)()()(

O

OO

P

wPwPwP iii

Page 14: Speech technologies

1401.03.2008 www.speechpro.comwww.speechpro.com

Параметры HMM

Параметры модели λ(A, B, π) π – начальное распределение вероятностей A={aij} – вероятность перехода из состояния

q(i) в q(j) Bj(x) – функция плотности вероятности

состояния si в пространстве признаков (вероятность эмиссии)

Page 15: Speech technologies

1501.03.2008 www.speechpro.comwww.speechpro.com

GMM

Аппроксимация функции плотности вероятности

где M – число гауссовых компонентов в распределении вероятностей, cjm – это вес m-го компонента смеси, N(o; μ, ∑) – это гауссова функция от нескольких переменных с вектором математического ожидания μ и корреляционной

матрицей ∑, которая определяется как

M

mjmjmtjmtj oNcob

1

),;()(

Page 16: Speech technologies

1601.03.2008 www.speechpro.comwww.speechpro.com

Моделирование распределения для 1 кепстрального коэффициента

Page 17: Speech technologies

1701.03.2008 www.speechpro.comwww.speechpro.com

Конкатенация HMM

2 11 1 4131 51

a 12 2

a 14 5a1

3 4a12 3a1

1 2

a 13 3 a 1

4 4

2 2 4 23 2 5 2

a 22 2

a 24 5a 2

3 4a 22 3a 2

1 2

a 23 3 a 2

4 4

М С М П 1 М С М П 2

Page 18: Speech technologies

1801.03.2008 www.speechpro.comwww.speechpro.com

Обучение HMM

Обучение

ГК1 ГК2 ГК3

С ловарь голосовы х команд

Обучающ ие последовательности векторов наблюдения

O 1 1 O1 2 O1 3

M г к1

O2 1 O 22 O2 3

M г к 2

O 3 1 O3 2 O3 3

M г к3

Модели голосовы х команд

Р аспознав ание

Н еизв естная O = o1, o2 .. oT

P (O|M г к1 ) P(O|M г к 2 ) P (O |M г к3 )

Вы бор максимальной вероятности

Алгоритм Баума-Уэлша (Baum-Welch) Разновидность EM-алгоритма

Page 19: Speech technologies

1901.03.2008 www.speechpro.comwww.speechpro.com

Нейронные сети

Page 20: Speech technologies

2001.03.2008 www.speechpro.comwww.speechpro.com

ANN

Page 21: Speech technologies

2101.03.2008 www.speechpro.comwww.speechpro.com

Модели языка

Оценка вероятности следования слов N-граммный подход Сложные лингвистические подходы до

сих пор мало применимы

Language Models (LM)

Page 22: Speech technologies

2201.03.2008 www.speechpro.comwww.speechpro.com

A statistical language model is simply a probability distribution P(s) over all possible sentences s.

Ronald Rosenfeld

Page 23: Speech technologies

2301.03.2008 www.speechpro.comwww.speechpro.com

Every time I fire a linguist the performance of the recognizer improves.

Fred Jelinek (IBM Speech Group)

Page 24: Speech technologies

2401.03.2008 www.speechpro.comwww.speechpro.com

Оценка LM

Word Error Rate (WER) Сложно сравнивать для разных ASR

платформ Сложно выделить вклад LM

Перплексия (Perplexity) Основана на понятии энтропии Можно оценить на основании только текста Соответствует среднему значению

ветвления LM

Page 25: Speech technologies

2501.03.2008 www.speechpro.comwww.speechpro.com

Правило Байеса

Задача распознавания: R = argmaxP(W|O)

По правилу Байеса

Так как P(O) константа для всех кандидатов

R = argmaxP(O|W)P(W)

P(O|W) – Acoustic Likelihood Вычисляется акустическими моделями

P(W) – Prior Probability Вычисляется моделью языка

)(

)()|(maxarg

OP

wPwOPR

Page 26: Speech technologies

2601.03.2008 www.speechpro.comwww.speechpro.com

Характеристики модели языка

Изолированная вероятность

Не учитывает контекст – чисто лексическая

Нужна более сложная оценка LM – часть общей системы

распознавания Должна обеспечивать улучшение

распознавания Не должна замедлять работу Должна быть достаточно простой, легко

параметризируемой и перестраиваемой

N

wCwP

)()(

Page 27: Speech technologies

2701.03.2008 www.speechpro.comwww.speechpro.com

N-граммный подход

Учет контекста Ограничиваемся левым контекстом

Chain Rule:

Вычислительно невыполнимо Количество независимых параметров n=Vi

Контекст ограничивается N непосредственными соседями

N

iiiN wwwwPwwwPWP

112121 )|()()(

Page 28: Speech technologies

2801.03.2008 www.speechpro.comwww.speechpro.com

N-граммы

N-непосредственных соседей слева Maximum Likelihood Estimation (MLE):

w1 w2 w3 w4 w5 w6 Триграмма w3 w4 w5 w3 w4 – N-граммная история для w5

)(

)(

)(

)()|()|(

11

1

11

111121

ini

ini

jjini

iniiniiii wwC

wwC

wwwC

wwCwwwPwwwwP

)(

)(

)(

)()|(

43

543

43

543435 wwC

wwwC

wwwC

wwwCwwwP

jj

Page 29: Speech technologies

2901.03.2008 www.speechpro.comwww.speechpro.com

Sparsity Problem

Наиболее популярные значения N = {2, 3, 4} Любого корпуса недостаточно для оценки всех

параметров Количество парметров в 4-граммной модели (словарь

65K): 654 = 1.8×1019

Количество реальных параметров примерно в 1011 раз меньше

И все равно слишком много

Техники сглаживания и отката/интерполяции Smoothing and Backoff Если в тренировочном корпусе не встретили N-

граммы, то скорее всего это проблема маленького корпуса, а не языковой невозможности N-граммы

Page 30: Speech technologies

3001.03.2008 www.speechpro.comwww.speechpro.com

Сглаживание и откат

Unseen N-grams Тренировочный корпус беден

Неправильное отсечение корректного кандидата

Сглаживание Забирает немного вероятностной массы от

“seen” N-грамм

Откат или интерполяция Распределяет выделенную массу среди

“unseen” N-грамм

Вероятности должны суммироваться в 1

Page 31: Speech technologies

3101.03.2008 www.speechpro.comwww.speechpro.com

Техники сглаживания

Add-one Witten-Bell Good-Turing Jelinek-Mercer Kneser-Ney

Page 32: Speech technologies

3201.03.2008 www.speechpro.comwww.speechpro.com

Backoff

Грамотное распределение вероятностной массы:

Если N-грамма “unseen”, используется вероятность “seen” (N-1)-граммы

Вероятность (N-1)-граммы берется с дискаунтом Вероятности должны суммироваться в 1

Вместо отката можно использовать интерполяцию N-грамм разных порядков

.)(~)(

0)(0)(),|(~)(

0)(),|(~

)|(ˆ

1

112112

1212

12

otherwisewPw

wwCandwwwCifwwPw

wwwCifwwwP

wwwP

in

iiiiiiinn

iiiiii

iii

Page 33: Speech technologies

3301.03.2008 www.speechpro.comwww.speechpro.com

N-граммы: за и против

Введены в распознавание более 30 лет назад (Ф.Елинек) – все еще основа любой LM

Легко тренировать Робастные

Учет только короткого контекста

Чистая статистика без лингвистики

Sparsity problem

Page 34: Speech technologies

3401.03.2008 www.speechpro.comwww.speechpro.com

Усовершенствования N-грамм

Немотивированные лингвистически Классовые модели Кэш-модели Topic-модели Модели триггеров Деревья решений Экспоненциальные модели

Лингвистически мотивированные Частеречная информация Морфология Синтаксис Семантика Факторные модели

Page 35: Speech technologies

3501.03.2008 www.speechpro.comwww.speechpro.com

Морфология в моделях языка

Значительное сжатие модели Меньший словарь Меньший тренировочный корпус Меньший размер модели

Улучшения на втором проходе Модель теряет преимущества компактности Модель усложняется

Улучшение распознавания на первом проходе В терминах WER – пока под вопросом Улучшение перплексии

Возможно, неправильно считают

Нужны очень сильные акустические модели

Использование грамматической информации

Page 36: Speech technologies

3601.03.2008 www.speechpro.comwww.speechpro.com

Синтаксис в моделях языка

“Long-span” синтаксические связи Контекст- целое предложение

Должны быть особенно полезны для языков со свободным порядком слов

Context-Free grammars Link Grammars Dependency grammars Structured Language Model (SLM)

Page 37: Speech technologies

3701.03.2008 www.speechpro.comwww.speechpro.com

Семантика в моделях языка

Реально работает только модель Скрытого семантического анализа Latent Semantic Analysis (LSA)

Основано на технике SVD из линейной алгебры

Page 38: Speech technologies

3801.03.2008 www.speechpro.comwww.speechpro.com

Putting Language Back to Language Modelling

Language modelling Модели очень сложны Нет явного общепризнанного успеха

В данной области необходим прорыв

Page 39: Speech technologies

3901.03.2008 www.speechpro.comwww.speechpro.com

Выделение ключевых слов

Keyword Spotting (KWS) Spoken Term Detection (STD)

Page 40: Speech technologies

4001.03.2008 www.speechpro.comwww.speechpro.com

Применяемые подходы

На основе ДП На основе KWS-сети

Методы распознавания речи HMM / GMM / ANN

Фоновая модель

На основе ASR Словные латтисы Фонемные латтисы

Page 41: Speech technologies

4101.03.2008 www.speechpro.comwww.speechpro.com

KWS на моделях ключевых слов

Page 42: Speech technologies

4201.03.2008 www.speechpro.comwww.speechpro.com

Монофонная KWS-сеть

Page 43: Speech technologies

4301.03.2008 www.speechpro.comwww.speechpro.com

Трифонная KWS-сеть

Page 44: Speech technologies

4401.03.2008 www.speechpro.comwww.speechpro.com

KWS на основе ASR – словные латтисы

Индексация звука при помощи LVCSR-системы

Поиск в словных латтисах Высокая скорость поиска Высокая надежность в случае хорошего

LVCSR

Проблемы Принципиально невозможно найти ключевое

слово, если оно OOV для системы распознавания

Сильно зависит от качества LVCSR-системы и ее ограничений

Page 45: Speech technologies

4501.03.2008 www.speechpro.comwww.speechpro.com

KWS на основе ASR – фонемные латтисы

Индексация звука при помощи системы пофонемного распознавания на фонемном уровне

Поиск ключевого слова Добавление слова в соответствующее место

словного латтиса Пересчет словного латтиса LVCSR-системой

Проблемы: огромный размер фонемных латтисов Сильно зависит от качества ASR-систем и их

ограничений

Page 46: Speech technologies

4601.03.2008 www.speechpro.comwww.speechpro.com

Современный уровень распознавания

Распознавание команд Зависит то количества

Диктовка Хорошее качество для английского

Адаптация к диктору Низкий уровень шума

Спонтанная речь - проблемно Адаптация моделей языка Устойчивость к шуму (Robustness)

Page 47: Speech technologies

4701.03.2008 www.speechpro.comwww.speechpro.com

Распознавание языка сообщения

Language Identification (LID) Language Recognition

Page 48: Speech technologies

4801.03.2008 www.speechpro.comwww.speechpro.com

Области применения

Контакт-центры IVR-системы

Службы безопасности

Page 49: Speech technologies

4901.03.2008 www.speechpro.comwww.speechpro.com

Применяемые подходы

GMM Построение GMM-моделей отдельных

языков

Фонотактический подход Phonotactic Approach

Комбинация подходов Формирование общей вероятностной меры

Page 50: Speech technologies

5001.03.2008 www.speechpro.comwww.speechpro.com

Фонотактический подход

Распознавание на фонемном уровне Использованием система фонемного

распознавания для одного фиксированного языка

Построение N-граммных фонемных моделей для каждого языка

Оценка фонемного латтиса, соответствующего тестовому сигналу каждой из фонотактических моделей

Page 51: Speech technologies

5101.03.2008 www.speechpro.comwww.speechpro.com

Идентификация диктора

Speaker Identification (SID) Speaker Recognition Speaker Verification/Authentication

Page 52: Speech technologies

5201.03.2008 www.speechpro.comwww.speechpro.com

Идентификация/Верификация

Идентификация диктора Речевые сервисы Службы безопасности

Мониторинг телефонных каналов

Как правило текстонезависима

Верификация диктора Системы доступа

Голосовой банкинг Голосовой замок и т.п.

Может быть как текстозависимой, так и текстонезависимой

Page 53: Speech technologies

5301.03.2008 www.speechpro.comwww.speechpro.com

Развитие идентификации

Экспертные методы «В круге первом» А.Солженицына

Автоматические методы Спектральный подход

Исследование мест и поведения формант

Основной тон Статистические модели

GMM Нейросетевые подходы

Page 54: Speech technologies

5401.03.2008 www.speechpro.comwww.speechpro.com

Меры оценки качества

Ошибка пропуска цели False Rejection

Ошибка ложного срабатывания False Alarm, False Acceptance

Равновероятная ошибка EER (Equal Error Rate)

DET-кривые Detection Error Tradeoff

Page 55: Speech technologies

5501.03.2008 www.speechpro.comwww.speechpro.com

Спектральные методы

Автоматическое выделение формант 3 и 4 форманты

Метод «ближайшего соседа» Сравнение векторов формант Нахождение ближайшего вектора из

присутствующих в базе

Page 56: Speech technologies

5601.03.2008 www.speechpro.comwww.speechpro.com

Distance Calculation

R

U

R

U

… …

… …

… …

… …

Page 57: Speech technologies

5701.03.2008 www.speechpro.comwww.speechpro.com

Статистические подходы - GMM

GMM-модели диктора Фоновая модель (модель импостера) Нормализация на канал

Page 58: Speech technologies

5801.03.2008 www.speechpro.comwww.speechpro.com

Базы данных

Один канал записи Несколько подходов для каждого диктора

Минимум 3 подхода

Page 59: Speech technologies

5901.03.2008 www.speechpro.comwww.speechpro.com

Модели диктора

Базовый вариант GMM-модель

Усовершенствования SVM

Для классификации средних в GMM NAP (Nuissance Attribute Projection)

Нормализации H-norm, T-norm, Z-norm SMS (Speaker Model Synthesis) Feature Warping MLLR (Maximum Likelihood Linear Regression) Joint Factor Analysis

– Собственный канал (Eigen Channel)– Собственный диктор (Eigen Voice)

Декореллирование и уменьшение размерности векторов-признаков LDA, HLDA (Linear Discriminant Analysis)

Page 60: Speech technologies

6001.03.2008 www.speechpro.comwww.speechpro.com

Фоновая модель

Универсальная фоновая модель Universal Background Model (UBM)

Описывается большим количеством гауссиан (напр. 2048)

Page 61: Speech technologies

6101.03.2008 www.speechpro.comwww.speechpro.com

Модель диктора с использованием UBM

Модели диктора и UBM не могут существовать отдельно друг от друга Модель диктора можно получить путем

адаптации UBM MAP-адаптация

Требуется много данных от диктора Серьезные вычислительные затраты

MLLR “Быстрая” адаптация

Eigen channel Наиболее перспективная технология

Page 62: Speech technologies

6201.03.2008 www.speechpro.comwww.speechpro.com

Синтез речи по тексту

Text-to-Speech (TTS) Speech Synthesis

Page 63: Speech technologies

6301.03.2008 www.speechpro.comwww.speechpro.com

Синтез речи

Исторически первое направление в речевых технологиях

Главная цель: достижение максимальной естественности «чтения» произвольного текста

Page 64: Speech technologies

6401.03.2008 www.speechpro.comwww.speechpro.com

Области применения

Независимое применение Слабовидящие люди Системы оповещения Чтение SMS, e-mail, объявлений…

В составе более крупных систем IVR системы Диалоговые системы Автоматический перевод с речи на речь

Page 65: Speech technologies

6501.03.2008 www.speechpro.comwww.speechpro.com

Главные проблемы

Разборчивость речи Задача решена

Естественность речи Человек быстро теряет концентрацию, если

речь неестественна Человек не склонен общаться с системой,

звучащей неестественно Тест Тьюринга

Компромисс между качеством, памятью и быстродействием

Page 66: Speech technologies

6601.03.2008 www.speechpro.comwww.speechpro.com

Системы синтеза речи - история

XIII век – Р.Бэкон 1779 – К.Краценштейн (артикуляторный синтез, 5

гласных) 1791 – В. Фон Кемпелен (модель языка и губ, синтез

гласных и согласных) 1930s –VOCODER (управление с клавиатуры,

разборчивая речь) 40-50-е – Дальнейшие механические улучшения в

артикуляторной модели 1968 – первая полноценный синтез на компьютере (Bell

labs) 70-е – Первые конкатенативные синтезаторы 80-е – Формантные синтезаторы, первые коммерческие

применения (DECTalk) 90-е – Компилятивные синтезаторы с полными речевыми

базами, Unit Selection 2000-е – Unit Selection, HMM/GMM синтезаторы

Page 67: Speech technologies

6701.03.2008 www.speechpro.comwww.speechpro.com

Системы русской речи - сейчас

Лучшее качество – Unit Selection Синтезаторы в реальном времени Относительно естественное звучание для основных

европейских языков Будущее

HMM синтез: быстрый прогресс, но изначальные ограничения модели

Unit Selection: увеличение вычислительных возможностей

Синтезаторы русской речи Elan ЦРТ Sacrament Loquendo

Page 68: Speech technologies

6801.03.2008 www.speechpro.comwww.speechpro.com

Артикуляторный синтез

Модель артикуляторных движений и характеристик речевого тракта Articulatory Synthesis

Крайне неестественное звучание Отсутствие индивидуальных характеристик

голоса в синтезированной речи Невозможность точного динамического

моделирования речевого тракта Сложность генерации сигнала возбуждения

Page 69: Speech technologies

6901.03.2008 www.speechpro.comwww.speechpro.com

Формантный синтез

Формантный синтез = синтез по правилам Rule-Based Synthesis

Отталкиваемся от акустики Построение формант и других характеристик

при помощи правил и фильтров

- Неестественность и роботизированность синтезированной речи

+ Высокая разборчивость (даже на высоких скоростях), компактность

Page 70: Speech technologies

7001.03.2008 www.speechpro.comwww.speechpro.com

Компилятивный синтез (Concatenative Synthesis)

Макросинтез Дифонный/Аллофонный синтез Unit Selection

Page 71: Speech technologies

7101.03.2008 www.speechpro.comwww.speechpro.com

Макросинтез (Domain-specific Synthesis)

Большие целиком записанные фразы Высокое качество

Мало стыков, большие речевые сегменты Но: рассогласование интонации

Жесткие ограничения по области применения Нельзя синтезировать произвольный текст Вокзалы, аэропорты и т.п.

Page 72: Speech technologies

7201.03.2008 www.speechpro.comwww.speechpro.com

Компилятивный синтез из единиц фиксированной длины

Баланс между размером звуковой базы (количество единиц) и качеством синтеза

Типы единиц Фонема

Не работает Дифон

Учет стыков между двумя аллофонами Аллофон

Полноценная контекстно-зависимая единица Слог

Проблемы с увеличением размера базы

Компактность речевой базы Относительно высокое качество звучания

Учет индивидуальных характеристик Модификации сигнала ухудшают качество

Page 73: Speech technologies

7301.03.2008 www.speechpro.comwww.speechpro.com

Модификации сигнала

Модификации в частотной области Повышение/понижение основного тона Моделирование интонации

Модификации во временной области Ускорение-замедление темпа

Модификации энергии сигнала Моделирование интонации

Любые модификации приводят к ухудшению качества сигнала

Page 74: Speech technologies

7401.03.2008 www.speechpro.comwww.speechpro.com

Unit Selection

Основные идеи Меньше склеек – лучше качество Меньше модификаций сигнала – лучше

качество

Уменьшение количества склеек Укрупнение единиц

Уменьшение модификаций Несколько реализаций для каждой единицы Реализации в разных интонационных

конструкциях

Page 75: Speech technologies

7501.03.2008 www.speechpro.comwww.speechpro.com

Общая структура TTS

Page 76: Speech technologies

7601.03.2008 www.speechpro.comwww.speechpro.com

Создание TTS – запись речевой базы

Богатый голос Профессиональный диктор

Заглушенная камера Аллофонный/дифонный синтез

Специально подобранные слова

Unit selection Несколько часов (5-10) чтения Осознанный выбор текста для чтения

Общеупотребительная лексика Наличие диалогов

Многоуровневая сегментация

Page 77: Speech technologies

7701.03.2008 www.speechpro.comwww.speechpro.com

Создание TTS – нормализация текста

Что-о-о??!! Слава КПСС! Около 12:37 в ночь на 15.06.2007 Настоятельно рекомендую одолжить мне

100$ до завтра 2*2=22

Мы любим Microsoft г. Бобруйск – центр вселенной Это очень любопы-

Page 78: Speech technologies

7801.03.2008 www.speechpro.comwww.speechpro.com

Создание TTS – анализ текста

Page 79: Speech technologies

7901.03.2008 www.speechpro.comwww.speechpro.com

Создание TTS – анализ текста

Определение места ударения и буквы ё Морфо-грамматический словарь

Омография Белок

сущ., м.р., им.п., ед.ч. бело<к сущ., ж.р., р.п., мн.ч. бе<лок сущ., м.р., в.п., ед.ч. бело<к сущ., ж.р., в.п., мн.ч. бе<лок

мел – мел/мёл

Правильное грамматическое согласование К 4 часам утра

Page 80: Speech technologies

8001.03.2008 www.speechpro.comwww.speechpro.com

Создание TTS – анализ текста

Выделение интонационных единиц На основании пунктуации

Вот и все, приехали…

На основании связей в тексте Обстоятельства и причина смерти моей весьма

фотогеничной матери были довольно оригинальные (пикник, молния)

Определение интонационного типа и места логического ударения На основании пунктуации

Удивительно!

На основании смысла текста Я считаю это ну полным бредом!

Page 81: Speech technologies

8101.03.2008 www.speechpro.comwww.speechpro.com

Создание TTS - транскриптор

Page 82: Speech technologies

8201.03.2008 www.speechpro.comwww.speechpro.com

Создание TTS - транскриптор

Фонетический алфавит G-to-P (Grapheme-to-Phoneme) Молоко → /m a2 l a1 k o0/

Редукция гласных Аканье Оглушение

снег Ассимиляция

сделать Выпадение

солнце Фузии

под столом

Page 83: Speech technologies

8301.03.2008 www.speechpro.comwww.speechpro.com

Создание TTS – модификация звука

Page 84: Speech technologies

8401.03.2008 www.speechpro.comwww.speechpro.com

Unit Selection - intuition

Большая размеченная база Можно найти единицу, которая будет

лучшей для синтеза из списка кандидатов

Главная проблема – найти лучшую Target Cost – соответствие целевым

параметрам Фонетический контекст F0, ударение, позиция во фразе

Concatenation Cost – плавность перехода между соседними единицами Форманты, энергия, F0…

Page 85: Speech technologies

8501.03.2008 www.speechpro.comwww.speechpro.com

Target Cost

Сумма sub-costs Ударение Позиция во фразе F0 Длительность Лексическое соответствие

C t u i , t ik 1

p

w kt C k

t u i , t i

Page 86: Speech technologies

8601.03.2008 www.speechpro.comwww.speechpro.com

Concatenation Cost

Мера гладкости соединения Измеряется для двух соседних единиц Состоит из суммы sub-costs

Спектральные характеристики F0 Энергия

C c u i 1 , u ik 1

q

w kc C k

c u i 1 , u i

Page 87: Speech technologies

8701.03.2008 www.speechpro.comwww.speechpro.com

Total Cost

C u , ti 1

n

C t u i , t ii 2

n

C c u i 1 , u i

Page 88: Speech technologies

8801.03.2008 www.speechpro.comwww.speechpro.com

Преимущества и недостатки US

Высокое качество звучания

Естественная (без модификаций) просодика

Местами качество может быть плохим Плохое качество на

фоне хорошего очень раздражает

Большие объем вычислений

Большой объем базы

Page 89: Speech technologies

8901.03.2008 www.speechpro.comwww.speechpro.com

HMM-синтез

Основан на статистических скрытых марковских моделях

Модели различных аллофонов тренируются на размеченной базе MFCC или PLP коэффициенты

Удобный подход для исследовательских целей Легко изменять различные параметры

(напр., интонационные) и отслеживать результат

Page 90: Speech technologies

9001.03.2008 www.speechpro.comwww.speechpro.com

Рекомендуемая литература

SPEECH and LANGUAGE PROCESSING. An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition D.Jurafsky, R.Martin

The HTK book Young et al.

Spoken Language Processing X. Huang, A. Acero & H.-W. Hon

Statistical Methods for Speech Recognition F.Jelinek

Page 91: Speech technologies

9101.03.2008 www.speechpro.comwww.speechpro.com