36
Системы автоматического синтеза речи Text-To-Speech А.В. Луканин Автоматическая обработка естественного языка. Лекция 7

Системы автоматического синтеза речи

Embed Size (px)

Citation preview

Page 1: Системы автоматического синтеза речи

Системы автоматического синтеза речиText-To-Speech

А.В. Луканин

Автоматическая обработка естественного языка. Лекция 7

Page 2: Системы автоматического синтеза речи

Система автоматического синтеза речи

• это компьютеризированная система, которая может произносить любой текст– введён в компьютер оператором– отсканирован и распознан системой

оптического распознавания символов (Optical Character Recognition (OCR) system)

• отличается от других говорящих машин (магнитофон и т.д.)– нас интересует автоматическое

произнесение новых предложений

Page 3: Системы автоматического синтеза речи

Системы с речевым ответом Voice Response Systems

• просто склеивают изолированные слова или части предложений

• применимы только тогда, когда используется – ограниченный словарь (несколько сотен

слов)– ограниченная структура (к примеру, в

объявлениях о прибытии поездов на вокзале).

Page 4: Системы автоматического синтеза речи

Система автоматического синтеза речи

• используется в тех случаях, когда невозможно (и бесполезно) записать и хранить все слова языка

• TTS - система автоматической генерации речи посредством графемно-фонемной транскрипции предложений

Page 5: Системы автоматического синтеза речи

Сферы применения TTS

1. Средства телекоммуникаций • получения текстовой информации по

телефону• в кинотеатрах, театрах и т.д.• из огромных баз данных• чтение электронных сообщений или факсов

по телефону

• запросы: посредством голоса пользователя (АРР) или тонального набора. • телефонная релейная связь

Page 6: Системы автоматического синтеза речи

Сферы применения TTS

2. Обучение языку• низкое качество часто не удовлетворяет

требованиям таких задач• в качественном синтезаторе речи

большинство текстовой информации должно дополнительно сопровождаться интонационными управляющими тегами (за�мок и замо�к)

• Google Translate (английский, гаитянский креольский, французский, итальянский, немецкий, хинди, испанский), для других 27 языков качество ниже (eSpeak)

Page 7: Системы автоматического синтеза речи

Сферы применения TTS

3. Помощь инвалидам • немые: клавиатуры и программы

быстрого составления предложений • астрофизик Стивен Хокинг (Stephen

Hawking) • слепые: сочетание систем АСР и ОРС

4. Говорящие книги и игрушки 5. Голосовой контроль

• GPS-навигатор в автомобиле

6. Multimedia, человеко-машинное общение

Page 8: Системы автоматического синтеза речи

Устройство системы TTS

Модуль обработки естественного языка

Модуль обработки цифрового сигнала

фонемы

просодия

речьтекст

СИНТЕЗАТОР РЕЧИ

Page 9: Системы автоматического синтеза речи

Модуль обработки ЕЯ

Модуль обработки ЕЯ

Текст

Анализ текста

Предобработка

Морфологическ. анализатор

Анализатор контекста

Синтаксико-просодический

парсер

МУСД

или

КА

Автоматическ. транскрипция

Генератор просодии

В блок обработки цифрового сигнала

Page 10: Системы автоматического синтеза речи

Анализ текста

• Модуль предобработки– числа, акронимы, идиоматические

выражения– Многозначность пунктуационных знаков

элементарные регулярные грамматики

• Модуль морфологического анализа– определение возможных частей речи

(простые регулярные грамматики, лексиконы основ и аффиксов)

Page 11: Системы автоматического синтеза речи

Анализ текста

• Модуль анализа контекста – наиболее вероятные части речи

• n-граммы (вероятностный конечный автомат или многослойный персептрон)

• локальные нестохастические грамматики (созданные экспертами или автоматически при помощи деревьев решений)

• Синтаксико-просодический парсер – определение структуры текста для

подбора просодической реализации

Page 12: Системы автоматического синтеза речи

Автоматическая транскрипция: словари или правила?

• Словари содержат только транскрипцию лемм

• В словаре может быть несколько омографов (record: ['reko:d] или [rı'ko:d]) или омоформ (read: ['ri:d] или ['red])

• Не приводятся все варианты словообразования– 'electricity' из леммы 'electric', редукция t в

слове 'softness' ['sоfnıs]Нужен первичный морфосинтаксический

анализ предложения

Page 13: Системы автоматического синтеза речи

Автоматическая транскрипция: словари или правила?

• Слова в окружении других слов звучат не так, как по отдельности

• Не все слова можно найти в словаре

произношения: – Неологизмы– Собственные имена, которые должны

произноситься по типу существующих слов

Нужен синтаксический или метрический анализ предложения

Нужен модуль морфологии или модуль нахождения графемной аналогии

Page 14: Системы автоматического синтеза речи

Стратегия использования словаря

• хранение большинства фонологической информации в лексиконах– словари основ и аффиксов

• произношение поверхностных форм вычисляется на основе правил:– словоизменительных– словообразовательных морфофонемных – словосложения

Page 15: Системы автоматического синтеза речи

Стратегия использования словаря

ВНУТРЕННЯЯ СТРУКТУРА

ДАННЫХ

Транскрипция со словарём

Транскриб. морфемы

Морфолог. правила

Морфо-фонемный

модуль

Модуль транскрибиро-

вания букв

Правила транскрипции

Коартикуляцион-ные правила

Финальная фонетическая

обработка

морфемы

фонемы

фонемы

фоны

фонемынеизвестные

морфемы

Page 16: Системы автоматического синтеза речи

Стратегия использования словаря

• Морфемы, не найденные в словаре, транскрибируются по правилу

• Затем выполняется последующая фонетическая обработка для учёта коартикуляционного феномена

• Такой подход используется в системе MITalk– Словарь: около 12 000 морфем, покрывает 95%

входных слов

• Компания AT&T Bell Laboratories также использовала этот подход в своей системе АСР– словарь увеличен до 43 000 морфем

Page 17: Системы автоматического синтеза речи

Стратегия использования словаря

ВНУТРЕННЯЯ СТРУКТУРА

ДАННЫХ

Транскрипция со словарём

Транскриб. морфемы

Морфолог. правила

Морфо-фонемный

модуль

Модуль транскрибиро-

вания букв

Правила транскрипции

Коартикуляцион-ные правила

Финальная фонетическая

обработка

морфемы

фонемы

фонемы

фоны

фонемынеизвестные

морфемы

Page 18: Системы автоматического синтеза речи

Стратегия использования правил

• большинство фонологической компетенции словарей переносится во множество правил преобразования графема-фонема

• в словаре хранятся только слова-исключения• многие исключения являются очень

частотными словами достаточно небольшой словарь исключений может покрыть слова большинства текстов– в английском языке 2000 слов достаточно, чтобы

покрыть 70% слов текста

• Выбор подхода очень часто зависит от языка

Page 19: Системы автоматического синтеза речи

Стратегия, основанная на правилах

ВНУТРЕННЯЯ СТРУКТУРА

ДАННЫХ

Транскрипция по правилам

Исключения

Модуль транскриби-рования букв

Правила транскрипции

Коартикуляцион-ные правила

Финальная фонетическая

обработка

слоги

Морфо-синтакс. хар-ки

фоны

фоны

фоны

графемы

Page 20: Системы автоматического синтеза речи

Модуль обработки цифрового сигнала

• Существует два способа преобразования фонем в звук:– синтез по правилам: явно, в виде набора

правил, которые формально описывают влияние одних фонем на другие

– компилятивный синтез: неявно, путём хранения примеров фонетических переходов и коартикуляций в базе данных отрезков речи и использования их, в конечном счёте, вместо фонем

Page 21: Системы автоматического синтеза речи

Акустический синтез по правилам

• формантные синтезаторы– используются в основном фонетистами и

фонологистами

• синтезатор Klatt– Для качественной речи нужно около 60

параметров: частота, амплитуда и ширина формант и антиформант

– необходимы правила для параметров, которые описывают динамически меняющиеся характеристики голосового и шумовых источников звука

Page 22: Системы автоматического синтеза речи

Акустический синтез по правилам

- требуется большая подготовительная работа (акустический анализ значительных речевых массивов и формулировка нужных правил)

- получаемая речь часто сопровождается гудением или жужжанием, что снижает её естественность

+ есть возможность имитировать разные голоса, отслеживать изменения в стиле произношения и тембре голоса

• MITALK, DECTALK для английского языка• многоязычная система синтеза INFOVOX • eSpeak

Page 23: Системы автоматического синтеза речи

Акустический синтез на основе конкатенации

Подготовка базы данных

1. выбираются сегменты речи– дифоны – полуслоги– трифоны– нежелательные позиции в словах (внутри

ударных слогов или слишком редуцированных контекстах) не берутся во внимание

Page 24: Системы автоматического синтеза речи

Подготовка акустической базы данных

2. записывается корпус речи и сегментируется• вручную при помощи визуальных средств

представления цифрового сигнала• либо автоматически с последующей

корректировкой

3. результаты записываются в акустическую базу данных в виде названия сегмента, формы волны, продолжительности и позиций внутренних сегментов

• при записи дифонов также необходимо указывать границу между фонами, чтобы можно было изменить продолжительность одного полуфона, не затрагивая длину другого

Page 25: Системы автоматического синтеза речи

Акустический синтез на основе конкатенации фонемы

+просодия

Обработка цифрового сигнала

Подготовка базы данных

Корпус речи

сегментацияБД

сегментов речи

Генерация списка

сегментовАнализ

речи

Выравни-вание

Параметр.БД

сегментов

Кодированиеречи

Page 26: Системы автоматического синтеза речи

Параметрическая база данных сегментов речи

• Сегменты впоследствии приводятся к параметрическому виду, последовательности векторов параметров, выдаваемых речевым анализатором

+ Удачно выбранные речевые модели позволяют сократить размер базы данных звуков

+ Некоторые модели разделяют сигнал на источник звука и фильтра (голосовой тракт), что очень помогает при операциях, непосредственно предшествующих синтезу: подбору просодии и конкатенации сегментов

Page 27: Системы автоматического синтеза речи

Акустический синтез на основе конкатенации фонемы

+просодия

Обработка цифрового сигнала

Подготовка базы данных

Корпус речи

сегментацияБД

сегментов речи

Генерация списка

сегментовАнализ

речи

Выравни-вание

Параметр.БД

сегментов

Кодированиеречи

Page 28: Системы автоматического синтеза речи

База данных сегментов синтеза

• Параметрическое представление отрезков речи позволяет легко изменять высоту тона, длину волны и огибающую спектра, что нельзя сделать с просто записанными отрезками речи

• Так как отрезки речи были получены из разных слов, т.е. из разных фонетических контекстов, при конкатенации их амплитуда и тембр могут не совпадать

Page 29: Системы автоматического синтеза речи

База данных сегментов синтеза

• Необходимо выравнить спектр амплитуды на концах сегментов, оставляя без изменения сами сегменты– уровни громкости плавно корректируются в начале

и конце сегмента– громкости различных фонов одной фонемы

приводятся к её среднему значению

• разница в тембре снимается во время синтеза для каждой пары сегментов, а не выравнивается для всех сегментов сразу, оставляя естественное фонетическое различие в коартикуляциях

Page 30: Системы автоматического синтеза речи

Акустический синтез на основе конкатенации фонемы

+просодия

Обработка цифрового сигнала

Подготовка базы данных

Корпус речи

сегментацияБД

сегментов речи

Генерация списка

сегментовАнализ

речи

Выравни-вание

Параметр.БД

сегментов

Кодирование речи

Page 31: Системы автоматического синтеза речи

Акустический синтез на основе конкатенации

Синтез речи

Декодированиеречи

БД сегментов

синтеза

Речь

Подбор просодии

Конкатенация сегментов

Синтез речи

Page 32: Системы автоматического синтеза речи

Синтез речи

• фонам ставится в соответствие последовательность сегментов в блоке генерации списка сегментов

• модуль подбора просодии запрашивает в базе данных сегментов синтеза параметры этих сегментов и приводит их в соответствие один за другим с требуемой просодией

Page 33: Системы автоматического синтеза речи

Акустический синтез на основе конкатенации фонемы

+просодия

Обработка цифрового сигнала

Подготовка базы данных

Корпус речи

сегментацияБД

сегментов речи

Генерация списка

сегментовАнализ

речи

Выравни-вание

Параметр.БД

сегментов

Кодированиеречи

Page 34: Системы автоматического синтеза речи

Акустический синтез на основе конкатенации

Синтез речи

Декодированиеречи

БД сегментов

синтеза

Речь

Подбор просодии

Конкатенация сегментов

Синтез речи

Page 35: Системы автоматического синтеза речи

Синтез речи

• В блоке конкатенации сегментов производится подгонка сегментов– производится простая интерполяция

параметров, приблизительно соответствующая сглаживанию акустических переходов между звуками

• Полученная последовательность параметров передаётся в блок синтеза сигнала, в котором производится операция обратная анализу речи — синтез речи

Page 36: Системы автоматического синтеза речи

Акустический синтез на основе конкатенации

Синтез речи

Декодированиеречи

БД сегментов

синтеза

Речь

Подбор просодии

Конкатенация сегментов

Синтез речи