Системы автоматического синтеза речи

Системы автоматического синтеза речиText-To-Speech

А.В. Луканин

Автоматическая обработка естественного языка. Лекция 7

Система автоматического синтеза речи

• это компьютеризированная система, которая может произносить любой текст– введён в компьютер оператором– отсканирован и распознан системой

оптического распознавания символов (Optical Character Recognition (OCR) system)

• отличается от других говорящих машин (магнитофон и т.д.)– нас интересует автоматическое

произнесение новых предложений

Системы с речевым ответом Voice Response Systems

• просто склеивают изолированные слова или части предложений

• применимы только тогда, когда используется – ограниченный словарь (несколько сотен

слов)– ограниченная структура (к примеру, в

объявлениях о прибытии поездов на вокзале).

Система автоматического синтеза речи

• используется в тех случаях, когда невозможно (и бесполезно) записать и хранить все слова языка

• TTS - система автоматической генерации речи посредством графемно-фонемной транскрипции предложений

Сферы применения TTS

1. Средства телекоммуникаций • получения текстовой информации по

телефону• в кинотеатрах, театрах и т.д.• из огромных баз данных• чтение электронных сообщений или факсов

по телефону

• запросы: посредством голоса пользователя (АРР) или тонального набора. • телефонная релейная связь

2. Обучение языку• низкое качество часто не удовлетворяет

требованиям таких задач• в качественном синтезаторе речи

большинство текстовой информации должно дополнительно сопровождаться интонационными управляющими тегами (за�мок и замо�к)

• Google Translate (английский, гаитянский креольский, французский, итальянский, немецкий, хинди, испанский), для других 27 языков качество ниже (eSpeak)

3. Помощь инвалидам • немые: клавиатуры и программы

быстрого составления предложений • астрофизик Стивен Хокинг (Stephen

Hawking) • слепые: сочетание систем АСР и ОРС

4. Говорящие книги и игрушки 5. Голосовой контроль

• GPS-навигатор в автомобиле

6. Multimedia, человеко-машинное общение

Устройство системы TTS

Модуль обработки естественного языка

Модуль обработки цифрового сигнала

фонемы

просодия

речьтекст

СИНТЕЗАТОР РЕЧИ

Модуль обработки ЕЯ

Текст

Анализ текста

Предобработка

Морфологическ. анализатор

Анализатор контекста

Синтаксико-просодический

парсер

МУСД

или

Автоматическ. транскрипция

Генератор просодии

В блок обработки цифрового сигнала

• Модуль предобработки– числа, акронимы, идиоматические

выражения– Многозначность пунктуационных знаков

элементарные регулярные грамматики

• Модуль морфологического анализа– определение возможных частей речи

(простые регулярные грамматики, лексиконы основ и аффиксов)

• Модуль анализа контекста – наиболее вероятные части речи

• n-граммы (вероятностный конечный автомат или многослойный персептрон)

• локальные нестохастические грамматики (созданные экспертами или автоматически при помощи деревьев решений)

• Синтаксико-просодический парсер – определение структуры текста для

подбора просодической реализации

Автоматическая транскрипция: словари или правила?

• Словари содержат только транскрипцию лемм

• В словаре может быть несколько омографов (record: ['reko:d] или [rı'ko:d]) или омоформ (read: ['ri:d] или ['red])

• Не приводятся все варианты словообразования– 'electricity' из леммы 'electric', редукция t в

слове 'softness' ['sоfnıs]Нужен первичный морфосинтаксический

анализ предложения

Автоматическая транскрипция: словари или правила?

• Слова в окружении других слов звучат не так, как по отдельности

• Не все слова можно найти в словаре

произношения: – Неологизмы– Собственные имена, которые должны

произноситься по типу существующих слов

Нужен синтаксический или метрический анализ предложения

Нужен модуль морфологии или модуль нахождения графемной аналогии

Стратегия использования словаря

• хранение большинства фонологической информации в лексиконах– словари основ и аффиксов

• произношение поверхностных форм вычисляется на основе правил:– словоизменительных– словообразовательных морфофонемных – словосложения

ВНУТРЕННЯЯ СТРУКТУРА

ДАННЫХ

Транскрипция со словарём

Транскриб. морфемы

Морфолог. правила

Морфо-фонемный

модуль

Модуль транскрибиро-

вания букв

Правила транскрипции

Коартикуляцион-ные правила

Финальная фонетическая

обработка

морфемы

фонемы

фоны

фонемынеизвестные

морфемы

• Морфемы, не найденные в словаре, транскрибируются по правилу

• Затем выполняется последующая фонетическая обработка для учёта коартикуляционного феномена

• Такой подход используется в системе MITalk– Словарь: около 12 000 морфем, покрывает 95%

входных слов

• Компания AT&T Bell Laboratories также использовала этот подход в своей системе АСР– словарь увеличен до 43 000 морфем

ДАННЫХ

Транскрипция со словарём

Транскриб. морфемы

Морфолог. правила

Морфо-фонемный

модуль

Модуль транскрибиро-

вания букв

обработка

морфемы

фонемы

фоны

фонемынеизвестные

морфемы

Стратегия использования правил

• большинство фонологической компетенции словарей переносится во множество правил преобразования графема-фонема

• в словаре хранятся только слова-исключения• многие исключения являются очень

частотными словами достаточно небольшой словарь исключений может покрыть слова большинства текстов– в английском языке 2000 слов достаточно, чтобы

покрыть 70% слов текста

• Выбор подхода очень часто зависит от языка

Стратегия, основанная на правилах

ДАННЫХ

Транскрипция по правилам

Исключения

Модуль транскриби-рования букв

обработка

слоги

Морфо-синтакс. хар-ки

фоны

графемы

Модуль обработки цифрового сигнала

• Существует два способа преобразования фонем в звук:– синтез по правилам: явно, в виде набора

правил, которые формально описывают влияние одних фонем на другие

– компилятивный синтез: неявно, путём хранения примеров фонетических переходов и коартикуляций в базе данных отрезков речи и использования их, в конечном счёте, вместо фонем

Акустический синтез по правилам

• формантные синтезаторы– используются в основном фонетистами и

фонологистами

• синтезатор Klatt– Для качественной речи нужно около 60

параметров: частота, амплитуда и ширина формант и антиформант

– необходимы правила для параметров, которые описывают динамически меняющиеся характеристики голосового и шумовых источников звука

Акустический синтез по правилам

- требуется большая подготовительная работа (акустический анализ значительных речевых массивов и формулировка нужных правил)

- получаемая речь часто сопровождается гудением или жужжанием, что снижает её естественность

+ есть возможность имитировать разные голоса, отслеживать изменения в стиле произношения и тембре голоса

• MITALK, DECTALK для английского языка• многоязычная система синтеза INFOVOX • eSpeak

Акустический синтез на основе конкатенации

Подготовка базы данных

1. выбираются сегменты речи– дифоны – полуслоги– трифоны– нежелательные позиции в словах (внутри

ударных слогов или слишком редуцированных контекстах) не берутся во внимание

Подготовка акустической базы данных

2. записывается корпус речи и сегментируется• вручную при помощи визуальных средств

представления цифрового сигнала• либо автоматически с последующей

корректировкой

3. результаты записываются в акустическую базу данных в виде названия сегмента, формы волны, продолжительности и позиций внутренних сегментов

• при записи дифонов также необходимо указывать границу между фонами, чтобы можно было изменить продолжительность одного полуфона, не затрагивая длину другого

Акустический синтез на основе конкатенации фонемы

+просодия

Обработка цифрового сигнала

Корпус речи

сегментацияБД

сегментов речи

Генерация списка

сегментовАнализ

речи

Выравни-вание

Параметр.БД

сегментов

Кодированиеречи

Параметрическая база данных сегментов речи

• Сегменты впоследствии приводятся к параметрическому виду, последовательности векторов параметров, выдаваемых речевым анализатором

+ Удачно выбранные речевые модели позволяют сократить размер базы данных звуков

+ Некоторые модели разделяют сигнал на источник звука и фильтра (голосовой тракт), что очень помогает при операциях, непосредственно предшествующих синтезу: подбору просодии и конкатенации сегментов

+просодия

речи

сегментов

База данных сегментов синтеза

• Параметрическое представление отрезков речи позволяет легко изменять высоту тона, длину волны и огибающую спектра, что нельзя сделать с просто записанными отрезками речи

• Так как отрезки речи были получены из разных слов, т.е. из разных фонетических контекстов, при конкатенации их амплитуда и тембр могут не совпадать

База данных сегментов синтеза

• Необходимо выравнить спектр амплитуды на концах сегментов, оставляя без изменения сами сегменты– уровни громкости плавно корректируются в начале

и конце сегмента– громкости различных фонов одной фонемы

приводятся к её среднему значению

• разница в тембре снимается во время синтеза для каждой пары сегментов, а не выравнивается для всех сегментов сразу, оставляя естественное фонетическое различие в коартикуляциях

+просодия

речи

сегментов

Кодирование речи

Синтез речи

Декодированиеречи

БД сегментов

синтеза

Речь

Подбор просодии

Конкатенация сегментов

• фонам ставится в соответствие последовательность сегментов в блоке генерации списка сегментов

• модуль подбора просодии запрашивает в базе данных сегментов синтеза параметры этих сегментов и приводит их в соответствие один за другим с требуемой просодией

+просодия

речи

сегментов

синтеза

Речь

• В блоке конкатенации сегментов производится подгонка сегментов– производится простая интерполяция

параметров, приблизительно соответствующая сглаживанию акустических переходов между звуками

• Полученная последовательность параметров передаётся в блок синтеза сигнала, в котором производится операция обратная анализу речи — синтез речи

синтеза

Речь

Системы автоматического синтеза речи

Education

Системы автоматического распознавания речи

ТЕОРИЯ АВТОМАТИЧЕСКОГО УПРАВЛЕНИЯ · 2015-04-30 · • Что такое теория автоматического управления (ТАУ)

Теория автоматического управленияgak.trail.spb.ru/tau_mvtu_2018.pdf · Бундур М.С. Теория автоматического управления

ПРОБЛЕМЫ СИНТЕЗА И АНАЛИЗА ГРАФОВ АТАК · 2017-05-28 · ПРОБЛЕМЫ СИНТЕЗА И АНАЛИЗА ГРАФОВ АТАК Исследования,

L B K АВТОМАТИЧЕСКОГО B G M УПРАВЛЕНИЯ H D Q SIMULINKnizrp.narod.ru/simulink.pdf · УДК 681.3 (07) Моделирование систем автоматического

Врсте речи, служба речи - 3. разред

Техника Речи

культура речи

Најлепше речи

Интеллектуальная система автоматического управления судном

ТЕОРИЯ АВТОМАТИЧЕСКОГО УПРАВЛЕНИЯvenec.ulstu.ru/lib/v6/Borovikov_Petrova.pdf · Теория автоматического управления Составители:

аппараты автоматического управления

Теория автоматического управления 2 семестрcifra.studentmiv.ru/wp-content/uploads/2015/01/TAU-2... · 2015-01-02 · Теория автоматического

БЛОК АВТОМАТИЧЕСКОГО ВВОДА РЕЗЕРВА OptiSave N-232 · 2019. 1. 31. · БЛОК АВТОМАТИЧЕСКОГО ... 6.2 Провести внешний

Автоматизированная система синтеза искусственных генов (АССИГ)

“Дополнительный функционал автоматического режима Системы SeoPult”

Теория автоматического управления

СИСТЕМА M-BUS автоматического снятия …...СИСТЕМА M-BUS автоматического снятия показаний с приборов учёта

Autotrassir - система автоматического распознавания автомобильных номеров

Методы автоматического аннотирования изображений