ВВЕДЕНИЕ В ЦИФРОВУЮ ОБРАБОТКУ РЕЧЕВЫХ СИГНАЛОВe.lib.vlsu.ru/bitstream/123456789/1171/3/01116.pdf · Один и тот же звук речи

Федеральное агентство по образованию Государственное образовательное учреждение высшего профессионального образования

Владимирский государственный университет

Х. М. АХМАД, В. Ф. ЖИРКОВ

ВВЕДЕНИЕ В ЦИФРОВУЮ ОБРАБОТКУ

РЕЧЕВЫХ СИГНАЛОВ

Учебное пособие

Владимир 2007

2

УДК 004.934 ББК 32.97 А95

Рецензенты: Доктор технических наук, профессор,

зав. кафедрой биомедицинских технических систем Московского государственного технического университета

им. Н.Э. Баумана И.Н. Спиридонов

Доктор технических наук, профессор кафедры радиотехники и радиосистем

Владимирского государственного университета А.К. Бернюков

Печатается по решению редакционного совета Владимирского государственного университета

Ахмад, Х. М. Введение в цифровую обработку речевых сигналов : учеб. по-

собие / Х. М. Ахмад, В. Ф. Жирков ; Владим. гос. ун-т. – Владимир : Изд-во Владим. гос. ун-та, 2007. – 192 с. – ISBN 5-89368-751-5.

Рассмотрены теоретические основы цифровой обработки речевых сигналов, в

том числе их физические свойства и цифровое представление, спектральный и корре-ляционный анализ, базовые методы и алгоритмы цифровой фильтрации, специальные методы, используемые в системах анализа, синтеза и распознавания речи, методы ко-дирования. Изложение сопровождается примерами реализации в среде MATLAB. По-собие содержит лабораторный практикум, ориентированный на MATLAB.

Предназначено для студентов 3 – 5-го курсов специальностей 230100 – инфор-матика и вычислительная техника, 230101 – вычислительные машины, комплексы, сис-темы и сети очной и заочной форм обучения. Может быть использовано студентами родственных специальностей.

Табл. 3. Ил. 84. Библиогр.: 48 назв. УДК 004.934

ББК 32.97 ISBN 5-89368-751-5 © Владимирский государственный

университет, 2007

А95

3

Введение Цифровая обработка сигналов (ЦОС) – одно из наиболее перспек-

тивных и динамично развивающихся направлений современной науки и техники. К ее качественным преимуществам относят: реализуемость слож-ных (оптимальных) алгоритмов обработки с высокой точностью; програм-мируемость и функциональную гибкость; возможность адаптации к обра-батываемым сигналам; возможность аппаратной реализации с использова-нием спецпроцессоров и чипсетов ЦОС. Области ее применения: радио- и телевизионные системы цифровой связи, системы сотовой связи, компью-терные сети, радио- и звуколокация, медицина, обработка изображений и потоков видеоданных, музыки, и др.

ЦОС в сфере обработки и передачи речевых сигналов получила ши-рочайшее распространение и продолжает интенсивно развиваться. Это обусловлено прогрессом в области сотовой и мобильной связи, других ви-дов цифровой связи, IP-телефонии. Все более значимыми становятся ре-зультаты работ по распознаванию и синтезу речи.

Изучение методов обработки речевых сигналов наиболее удобно с точки зрения учебного процесса. Каждый компьютер может быть оснащен звуковой картой, динамиком и микрофоном, что позволяет легко создавать звуковые файлы, а затем, выполнив обработку, воспроизводить результи-рующий файл и оценивать результаты обработки путем прослушивания. В то же время методы и операторы обработки речевых сигналов: оцифровка-восстановление, фильтрация, кодирование-декодирование, спектральные анализ и преобразования, распознавание и синтез – характерны и для дру-гих приложений ЦОС, конечно, с учетом прикладной области, поэтому изучение методов обработки звука может многому научить. Через обра-ботку речи студенты получают базовые знания о методах ЦОС.

Основное внимание в пособии уделено теоретическим основам обра-ботки речевых сигналов. Каждый раздел авторы старались изложить в дос-таточном для понимания объеме, с приведением примеров практической реализации.

4

В качестве среды создания иллюстрирующих примеров выбран пакет MATLAB фирмы «The MathWorks», являющийся мировым стандартом в области научных и технических расчетов. Базовая библиотека MATLAB и пакет расширения Signal Processing содержат большое количество функ-ций, позволяющих быстро и наглядно осуществлять и исследовать различ-ные алгоритмы, связанные с ЦОС.

Учебное пособие завершает лабораторный практикум из шести лабо-раторных работ.

5

Глава 1. РЕЧЕВОЙ СИГНАЛ

1.1. Речь и речевой сигнал Речь предназначена для общения. Возможности речи с этой точки

зрения можно характеризовать по-разному. Один из количественных под-ходов основан на теории информации, разработанной К. Шенноном. В со-ответствии с этой теорией речь можно описать ее информационным со-держанием, или информацией. Другой способ описания речи заключается в представлении ее в виде сигнала, т.е. акустического колебания.

Речевое общение начинается с того, что в мозгу диктора возникает в абстрактной форме некоторое сообщение. В процессе речеобразования это сообщение преобразуется в акустическое речевое колебание.

Сообщение, передаваемое с помощью речевого сигнала, – дискретно, т.е. может быть представлено в виде последовательности символов из ко-нечного их числа. Звуковые символы, из которых составлен речевой сиг-нал, называются фонемами [39].

Речь с физической точки зрения состоит из последовательности зву-ков с паузами между их группами [20, 37, 44]. Схема речеобразования у человека представлена на рис. 1.1.

Рис. 1.1. Схема речеобразования у человека

При нормальном темпе речи паузы появляются между отрывками

фраз. Как правило, слова произносятся слитно, хотя слушающий воспри-нимает слова по отдельности. При замедленном темпе речи, например при диктовке, паузы могут делаться между словами и даже их частями. Пред-логи, союзы звучат всегда слитно с последующим словом [21].

Основной тон с гармониками

Шум

Прерыватель

Резонансы

Излучаемый

звук

6

Один и тот же звук речи разные люди произносят по-разному. Про-изношение звуков речи зависит от ударения, соседних звуков и т. п. Но при всем многообразии в их произношении звуки являются физическими реализациями (произнесением) ограниченного числа обобщенных звуков речи (фонем). Фонема – это то, что человек должен произнести, а звук – то, что человек фактически произносит. Фонема по отношению к звуку речи играет ту же роль, что и образцовая буква по отношению к ее рукописной форме в конкретном написании.

В русском языке насчитывается 42 основные и 3 неопределенные фонемы.

Звуки речи делятся на звонкие и глухие. Звонкие звуки образуются с участием голосовых связок, в этом случае находящихся в напряженном со-стоянии. Под напором воздуха, идущего из легких, они периодически раз-двигаются, в результате чего создается прерывистый поток воздуха. Им-пульсы потока воздуха, создаваемые голосовыми связками, с достаточной точностью могут считаться периодическими. Соответствующий период повторения импульсов называют периодом основного тона голоса 0T , а

обратную величину 01 T – частотой основного тона. Если связки тонкие и сильно напряжены, то период получается коротким и частота основного тона высокой; для толстых, слабо напряженных связок – низкой. Частота основного тона для всех голосов лежит в пределах 70 – 450 Гц. При произ-несении речи она непрерывно изменяется в соответствии с ударением, подчеркиванием звуков и слов, а также с проявлением эмоций (вопрос, восклицание, удивление и т. д.). Изменение частоты основного тона назы-вается интонацией. У каждого человека свой диапазон изменения основ-ного тона (обычно он бывает немногим более октавы) и своя интонация. Последняя имеет большое значение для узнавания говорящего [21, 32]. Основной тон, интонация, устный почерк и тембр голоса служат для опо-знавания человека, и степень достоверности такая же высокая, как по от-печаткам пальцев. Импульсы основного тона имеют пилообразную форму, и поэтому при их периодическом повторении получается дискретный спектр с большим числом гармоник (до 40), частоты которых кратны час-тоте основного тона. Огибающая спектра основного тона имеет спад в сто-

7

рону высоких частот с крутизной около 6 дБ/окт, поэтому для мужского голоса уровень составляющих на частоте 3000 Гц ниже их уровня на час-тоте 100 Гц примерно на 30 дБ. При произнесении глухих звуков связки находятся в расслабленном состоянии, поток воздуха из легких свободно проходит в полость рта. Встречая на своем пути различные преграды в ви-де языка, зубов, губ, он образует завихрения, создающие шум со сплош-ным спектром.

Согласные по способу образования делятся на сонорные (л, ль, р, рь, м, мь, н, нь, й), щелевые (ж, з, зь, в, вь, ш, с, сь, ф, фь, х, хь), взрывные (б, бь, д, дь, г, гь, п, пь, т, ть, к, кь) и аффрикаты (ц, ч – комбинация глу-хих взрывных и щелевых). Гласных фонем всего шесть: а, о, у, э, и, ы (гласные е, я, ё, ю – составные из и краткого или мягкого знака и гласных э, а, о, у).

По месту образования фонемы делятся на губные, зубные, небные, гортанные, передние и задние.

При произнесении звуков речи язык, губы, зубы, нижняя челюсть, голосовые связки должны находиться для каждой фонемы в строго опре-деленном положении или движении. Эти движения называют артикуляци-ей органов речи. При этом в речеобразующем тракте создаются резонанс-ные полости, определенные для данной фонемы, а для слитного звучания фонем в речи – определенные переходы от одной формы тракта к другой.

При произнесении звуков речи через речевой тракт проходит или то-нальный импульсный сигнал, или шумовой, или тот и другой вместе. Рече-вой тракт представляет собой сложный акустический фильтр с рядом резо-нансов, создаваемых полостями рта, носа и носоглотки, т. е. с помощью артикуляционных органов речи. Вследствие этого равномерный тональный или шумовой спектр превращается в спектр с рядом максимумов и мини-мумов. Максимумы спектра называют формантами, а нулевые провалы – антиформантами. Для каждой фонемы огибающая спектра имеет индиви-дуальную и вполне определенную форму. При произнесении речи спектр ее непрерывно изменяется, и образуются формантные переходы.

Частотный диапазон речи находится в пределах 70 – 7000 Гц.

8

Звонкие звуки речи, особенно гласные, имеют высокий уровень ин-тенсивности, глухие – самый низкий. Громкость речи непрерывно изменя-ется, особенно резко при произнесении взрывных звуков. Динамический диапазон уровней речи находится в пределах 35 – 45 дБ. Гласные звуки ре-чи имеют в среднем длительность около 0,15 с, согласные – около 0,08 (звук п – около 30 мс).

Звуки речи неодинаково информативны. Так, гласные звуки содер-жат малую информацию о смысле речи, а глухие согласные наиболее ин-формативны (например, в слове «посылка» последовательность «о, ы, а» ничего не говорит, а «п, с, лк» дает почти однозначный ответ о смысле). Поэтому разборчивость речи снижается при действии шумов, в первую очередь из-за маскировки глухих звуков [6, 7, 8].

Известно, что для передачи одного и того же сообщения по телегра-фу и по речевому тракту требуется различная пропускная способность. Для телеграфного сообщения достаточна пропускная способность не более 100 бит/с, а для речевого – около 100 000 бит/с (полоса равна 7 000 Гц, дина-мический диапазон 42 дБ, т.е. требуется семизначный код, откуда имеем 2 7000 7 98 000⋅ ⋅ = бит/с), т.е. в 100 раз большая.

Образование звуков речи происходит путем подачи команд к муску-лам артикуляционных органов речи от речевого центра мозга. Общий по-ток сообщений от него составляет в среднем не более 100 бит/с. Вся ос-тальная информация в речевом сигнале называется сопутствующей.

Речевой сигнал представляет собой своего рода модулированную не-сущую. Его спектр p(ω)=E(ω)·F(ω), где E(ω) – спектр генераторной функ-ции, т. е. импульсов основного тона или шума; F(ω) – модулирующая кри-вая фильтровой функции речевого тракта. Эта модуляция особая, спек-тральная. При ней несущая имеет широкополосный спектр, а в результате модуляции изменяется соотношение между частотными составляющими, т. е. изменяется форма огибающей спектра. Почти вся информация о зву-ках речи заключена в спектральной огибающей речи и ее временном изме-нении, частично – в переходах от тонального спектра к шумовому и обрат-но, по которым узнают о смене звонких звуков на глухие и обратно. Все эти изменения происходят медленно (в темпе речи).

9

Для воспроизведения речи достаточно передавать сведения о форме огибающей спектра речи и ее временном изменении в темпе смены звуков речи, а также об изменении основного тона речи и переходов тон-шум.

Рассмотренные закономерности построения речи формируют слож-ный многочастотный сигнал, который нужно должным образом обработать для выделения информационной части. Для этого применяют различные методы и преобразования.

1.2. Цифровое представление речевых сигналов (дискретизация и квантование по уровню)

1.2.1. Цифровое представление

Итак, частотный диапазон речи находится в пределах 70 – 7 000 Гц. При оценке уровня громкости звука в качестве эталона звукового давления

0P выбирается его минимальное значение на частоте 1 кГц, при котором

звук становится уже слышимым, т.е. 052 10P −= i Па. Уровень звукового

давления определяется соотношением

020 lg ,PL

P= ⋅ дБ , (1.1)

где P – значение звукового давления. Под динамическим диапазоном понимают отношение максимально-

го и минимального уровней сигналов. Динамический диапазон речи со-ставляет 35 – 45 дБ.

Цифровая обработка требует представления аналогового речевого сигнала в цифровом виде. Перевод аналогового сигнала в цифровой вы-полняется специальным аналогово-цифровым преобразователем (АЦП). Основными характеристиками АЦП являются частота дискретизации fd

( 1f td = Δ ) и разрядность S, число возможных значений квантованного

сигнала равно 2N , где N – число разрядов. Чем выше разрядность АЦП, с тем большей точностью можно хранить сигнал, но тем медленнее он работает.

Устройство, производящее обратную операцию (передача оцифро-ванного сигнала на какое-либо воспроизводящее устройство: динамик, те-левизор и др.), называется цифроаналоговым преобразователем (ЦАП). Принципиальные схемы АЦП и ЦАП следует искать в специальной лите-ратуре по радиоэлектронике.

10

В результате аналогово-цифрового преобразования непрерывный сигнал переводится в ряд дискретных отсчетов Sk , каждый из которых

представляет собой целое число, характеризующее аналоговый сигнал в этой точке с определенной точностью. Точность представления зависит от ширины диапазона получаемых чисел, а следовательно, от разрядности АЦП. Процесс разбиения сигнала на отсчеты носит название дискретиза-ции. Число отсчетов в секунду называется частотой дискретизации fd ,

которая согласно теореме Котельникова должна быть, по крайней мере, в два раза выше максимальной частоты в спектре преобразуемого аналого-вого сигнала. Дело в том, что спектр сигнала, преобразованного с помо-щью АЦП в цифровую форму, имеет периодический характер. (Спектр сигнала – это его отображение, характеризующее интенсивность и распре-деление частотных составляющих сигнала.)

Сигнал после АЦП имеет кроме низкочастотной части спектра, ото-бражающей аналоговый сигнал, еще и высокочастотные компоненты: низ-кочастотный спектр сигнала повторяется в виде боковых полос с центрами в точках, кратных частоте дискретизации. При уменьшении частоты дис-кретизации произойдет наложение низкочастотной части спектра и боко-вой полосы с центром в точке fd . Наложение спектров приводит к появ-

лению новых спектральных составляющих в сигнале, а значит, к его иска-жению. В звукозаписи наложение спектров можно убрать, установив перед АЦП фильтр низких частот, подавляющий все частоты, лежащие выше по-ловины частоты дискретизации. Так как на практике нельзя выполнить фильтр с отвесным спадом частотной характеристики, значение частоты дискретизации выбирается несколько больше, чем удвоенное значение верхней частоты спектра речевого сигнала, например fd =22,05 кГц.

Процесс дискретизации сигнала по уровню с округлением до разряда АЦП носит название квантования. Задав требуемый динамический диапа-зон цифровой системы звукозаписи, необходимое число разрядов кванто-вания можно определить из выражения 6 1,8D n= + , где D – динамический диапазон, дБ, n – число двоичных разрядов. Отсюда получаем, что для за-писи речи необходимо отводить не менее 8 бит на каждый отсчет.

11

Кадр X (длины N) – конечная последовательность отсчетов речевого сигнала 1, , , ,k NS S S… … .

Реализация фразы – цифровая запись произнесения фразы в виде по-

следовательности кадров ( ) ( ) ( )1 ,..., ,...,t LX X X , где L – длина реализа-

ции, ( ) ( ) ( ) ( ), , , ,1t t ttX S S SNk= … … . Длина кадра фиксирована, например

N=256, что при частоте дискретизации fd =22,05 кГц соответствует перио-

ду времени 11,6 мс. Цифровую информацию (речь) можно передать по линии связи прак-

тически без потерь. При передаче сигнал сначала превращается в аналого-вый, пересылается, после чего опять оцифровывается. Если линия связи вносит искажения в сигнал меньше, чем шаг квантования, то после переда-чи и оцифровки полученный оцифрованный сигнал не будет отличаться от начального. Обычно же информация передается с помощью двоичных им-пульсов, т.е. для восстановления сигнала необходимо лишь решать, пере-дали 1 или 0 . При передаче двоичной информации по линии связи, естест-венно, слегка смещается время прибытия импульса, но если смещение меньше расстояния между импульсами, то место импульса в общей после-довательности легко восстанавливается. Дополнительную защиту дает применение кодов с устранением ошибок (коды Хэмминга, Рида – Соло-мона и др.) [25].

1.2.2. Дискретизация

В последнее время в технике идет переход на цифровые методы об-работки информации. Это связано с тем, что цифровую информацию легче хранить (появились дешевые и удобные устройства для хранения инфор-мации, такие как жесткие диски компьютеров или лазерные диски), а так-же с тем, что цифровую информацию легко передавать по современным линиям связи практически без потерь.

Аналоговый сигнал – это число S , зависящее от времени t . При запи-си информации на носитель или воспроизведении с него сигнал неизбежно искажается различного рода шумами. Восстановить искаженный сигнал (убрать шумы) нельзя. Можно, конечно, пытаться подавлять шумы, ис-пользуя некоторую дополнительную информацию (например, можно по-давлять частоты, в которых сосредоточены шумы), но при этом теряется и информация о самом сигнале, т.е. опять же вносятся искажения.

При оцифровке сигнала ( )S t производятся две операции –дискретизация и квантование.

12

Дискретизация – это замена сигнала ( )S t с непрерывным временем

t на дискретизованный сигнал, т.е. это последовательность чисел ( )S ti

для дискретного набора моментов времени 1 2, , , it t t… (чаще всего интер-валы между моментами времени 1i it t t −Δ = − берутся одинаковыми). При дискретизации время становится цифровым, моменты времени ti можно нумеровать, кодировать. Производится замена непрерывного времени t на последовательность дискретных значений 1 2, , , ,it t t… а непрерывной (по времени и по уровню) функции сигнала ( )S t (рис. 1.2, а) некоторым мно-

жеством непрерывных (по уровню) функций ( )S ti (рис. 1.2, б).

Рис. 1.2. Дискретизация по времени:

а – аналоговый сигнал ( )S t ; б – результирующий сигнал ( )iS t

При дискретизации часть информации о сигнале теряется. Но если сигнал ( )S t за время tΔ не сильно изменяется, числа ( )S ti и ( )1S ti −

близки друг к другу, то поведение ( )S t между моментами времени ti и

1ti − нетрудно восстановить (сигнал практически линейно изменяется во

времени от ( )1S ti − до ( )S ti ). При дискретизации теряются составляющие

сигнала с частотами порядка 1f td > Δ и выше. Дискретизация связана с некоторой погрешностью ε , которая зави-

сит от шага дискретизации 1t t ti iΔ = − − . При малых значениях шага дис-кретизации число точек замера велико, зато теряется мало информации. Обратная картина наблюдается при больших значениях шага дискретиза-ции. Погрешность дискретизации ε в каждый момент времени t опреде-ляется по формуле

S S ( )3S t ( )3S t

( )2S t ( )4S t ( )2S t ( )4S t

( )1S t ( )1S t

( )S t 1t 2t 3t 4t t 1t 2t 3t 4t t а) б)

13

( ) ( ) ( )t S t V tε = − , (1.2)

где ( )V t – функция восстановления, которая по дискретным значениям

восстанавливает ( )S t .

Виды дискретизации различаются по регулярности отсчетов: − равномерная дискретизация, когда tΔ постоянно; − неравномерная дискретизация, когда tΔ переменно, причем этот вид

в свою очередь делится: – на адаптивную, когда tΔ меняется автоматически в зависимости от текущего изменения сигнала. Это позволяет увеличивать шаг дис-кретизации, когда изменения сигнала ( )S t незначительны, и умень-

шать – в противном случае; – программируемую, когда tΔ изменяется оператором или в соответ-ствии с заранее выставленными условиями, например в фиксирован-ные моменты времени. Частота Найквиста. Гармонический сигнал может быть адекватно

представлен дискретными отсчетами, если его частота не превышает поло-вины частоты дискретизации. Эта частота называется частотой Найквиста (Nyquist frequency ( )2 1 2N d Tf f= = , 2N d Tπω ω= = ) [40, 43]. В зависи-

мости от соотношения между частотой дискретизируемого гармоническо-го сигнала и частотой Найквиста возможны три случая.

1. Если частота гармонического сигнала меньше частоты Найквиста, то дискретные отсчеты позволяют правильно восстановить аналоговый сигнал (рис. 1.3, а).

2. Если частота гармонического сигнала равна частоте Найквиста, то дискретные отсчеты позволяют восстановить аналоговый сигнал с той же частотой, но амплитуда и фаза восстановленного сигнала (он показан пунктирной линией) могут быть искажены (рис. 1.3, б).

3. Если частота гармонического сигнала больше частоты Найквиста, восстановленный по дискретным отсчетам аналоговый сигнал (он показан пунктирной линией) будет также гармоническим, но с иной частотой (рис. 1.3, в). Данный эффект носит название появление ложных частот (aliasing).

14

Рис. 1.3. Дискретизация гармонических сигналов с разной частотой

Теорема Котельникова. Любой сигнал ( )S t , спектр которого не со-

держит составляющих с частотами выше некоторого значения 2B Bfπω = ,

может быть без потерь информации представлен своими дискретными от-счетами { ( )S kT }, взятыми с интервалом Т, удовлетворяющим следующе-му неравенству:

12 B B

Tf

πω

≤ = . (1.3)

Данная теорема называется теоремой Котельникова (в зарубежных источниках – теоремой Найквиста, или теоремой дискретизации (sampling theorem)) [43, 45].

Восстановление исходного непрерывного сигнала ( )S t по набору

его дискретных отсчетов { ( )S kT } производится по следующей формуле:

( ) ( ) ( )S t S kT tkk

ϕ∞

= ∑= −∞

. (1.4)

Данная формула представляет собой разложение сигнала ( )S t в ряд

по системе функций ( ){ }tkϕ , называемой базисом Котельникова:

( )s in t kT

Ttk t kTT

πϕ

π

−⎛ ⎞⎜ ⎟⎝ ⎠= −

. (1.5)

а) б) в)

15

Формирование непрерывного сигнала по его дискретным отсчетам поясняет рис. 1.4. Пунктирными показаны графики отдельных слагаемых формулы (1.3), сплошной линией – восстановленный сигнал. Ниже приве-ден код MATLAB, использованный при построении рисунка [7].

>> t=-2:0.01:6; % время для восстановленного сигнала >> td=-2:6; % номера отсчетов >> s=[0 0 4 3 2 1 0 0 0]; % дискретный сигнал >> d=[td' s']; % данные для функции pulstran >> y=pulstran(t, d, 'sinc'); % восстановленный сигнал >> plot(td, s, 'O', t, y); % график восстановленного сигнала >> hold on % вывод графиков отдельных sin-импульсов >> for k=1:length(s), plot(t, s(k)*sinc(t-td(k)), ':'), end; hold off В данном коде использована функция pulstran, которая позволяет

сформировать сигнал в виде суммы конечного числа импульсов произ-вольной формы с заданными задержками и множителями, что делает ее очень удобной при построении графиков сигналов, восстановленных по дискретным отсчетам согласно теореме Котельникова.

Рис. 1.4 наглядно демонстрирует главное свойство сигнала с ограни-ченным спектром – его бесконечность во времени. Хотя отличны от нуля лишь несколько отсчетов показанного сигнала, аналоговый сигнал оказы-вается бесконечно колеблющимся: между нулевыми отсчетами (на рис. 1.4 это отсчеты –2, –1, 4, 5, 6 ) его значения отличны от нуля. Эти колебания нигде не заканчиваются, хотя их амплитуда стремится к нулю.

Рис. 1.4. Восстановление непрерывного сигнала по его дискретным отсчетам

16

Когда говорят об ограниченной полосе частот сигнала, имеется в ви-ду спектральная функция всего сигнала, имеющего бесконечную длитель-ность. При этом мгновенные спектры отдельных фрагментов сигнала мо-гут содержать сколь угодно высокие частоты. Под мгновенным спектром подразумевается спектральная функция «вырезанного» из сигнала фраг-мента конечной длительности.

В частности, в отдельном промежутке между соседними отсчетами сигнал с ограниченным спектром может иметь сколь угодно сложную форму, например произвольное число раз менять знак.

Примеры восстановления сигналов приведены в [43]. Изменение частоты дискретизации. При решении различных задач

обработки сигналов приходится увеличивать или уменьшать частоту дис-кретизации сигналов. Это необходимо, например, для согласования раз-личных стандартов хранения и передачи дискретной информации [43]. Классический пример – преобразование аудиозаписей между форматом компакт-дисков ( f d = 44,1 кГц) и форматом цифровой магнитной записи

R DAT ( f d = 48 кГц).

Приведенный пример не относится к самым простым, поскольку ко-эффициент изменения частоты дискретизации не является целым числом. В зависимости от значения этого коэффициента выделяют следующие ва-рианты обработки данных.

1. Интерполяция (interpolation) – повышение частоты дискретизации в целое число раз.

При интерполяции необходимо повысить частоту дискретизации в N раз, т.е. растянуть входной сигнал, а образовавшиеся промежутки между отсчетами заполнить.

Например, при повышении частоты дискретизации в два раза, необ-ходимо между каждой парой отсчетов исходного сигнала «нарисовать» но-вый отсчет, используя при этом информацию об окружающих отсчетах.

В программе MATLAB этому способу соответствует функция interp. В простейшем случае синтаксис функции таков:

y=interp(x,r), где r – кратность увеличения частоты дискретизации. Для интерполяции в данном случае используется нерекурсивный фильтр с линейной ФЧХ. По умолчанию порядок фильтра равен 8r, т.е. фильтр в каждый момент ис-

17

пользует восемь отсчетов входного сигнала. Частота среза фильтра по умолчанию равна половине исходной частоты Найквиста.

2. Прореживание (decimation) – понижение частоты дискретизации в целое число раз.

В задачах распознавания речи весьма актуальна проблема рацио-нального выбора частоты дискретизации f d . Поскольку полоса частот ре-

чевых сигналов ограничена сверху 3 – 3,5 кГц, рациональным было бы значение f d = 8...10 кГц. Между тем зачастую оказывается, что речевой

сигнал уже дискретизирован с намного более высокой частотой, рассчи-танной на сигналы музыкальной природы, т.е. f d = 44 … 48 кГц. Очевид-

но, что целесообразно «проредить» сигнал, оставляя лишь каждый, напри-мер, 6-й отсчет исходного сигнала. В результате f d понизится с 44,1 до 8

кГц. Перед прореживанием нужно дополнительно отфильтровать частоты речевого сигнала, превышающие значение 3,5 кГц.

В программе MATLAB прореживание выполняется с помощью функции decimate. Синтаксис ее вызова следующий:

y = decimate(x, r), где x – входной сигнал, r – целочисленный коэф-фициент понижения частоты дискретизации, y – прореженный сигнал.

При этом по умолчанию используется ФНЧ Чебышева 1-го рода 8-го порядка с уровнем пульсаций в полосе пропускания 0,05 дБ и часто-той среза, равной 0,8 новой (после прореживания) частоты дискретизации. Заметим, что синтаксис функции decimate позволяет управлять характери-стиками фильтра и при понижении частоты дискретизации в целое число раз уменьшается число отсчетов, содержащихся в сигнале (на число, рав-ное числу раз понижения частоты дискретизации).

3. Передискретизация (resampling) – изменение частоты дискретиза-ции в произвольное (в общем случае дробное) число раз.

Классическим примером, когда нужно изменить частоту дискретиза-ции в нецелое число раз, является переход от частоты 48 кГц, принятой в качестве стандарта цифровой магнитной записи, к частоте 44,1 кГц, приня-той для компакт-дисков (либо обратный переход).

Воспользуемся парой уже известных нам функций: y=decimate(interp(x, r), q),

18

в результате чего получим процесс y с частотой дискретизации

d dpF Fq

′ = .

Однако в программе MATLAB для этой цели предусмотрена специ-альная функция resample:

y=resample(x, p, q); где х – исходный сигнал, p и q – числитель и знаменатель дробного коэффициента изменения частоты дискретизации, y – передискретизированный сигнал.

1.2.3. Квантование Для преобразования аналогового сигнала в дискретный используется

процедура, называемая квантованием. Квантование сигнала – это процедура, похожая на дискретизацию,

только проводимая не со временем, а со значением сигнала S . Выбирается

некий набор возможных значений сигнала , , ,1 2S S Sn… и каждое ( )S ti

сопоставляется с ближайшим числом из этого набора. Иногда, чтобы внести в сигнал минимальные искажения, кванто-

вание проводят так, что интервалы 1S S Sn nΔ = − − оказываются нерав-

ными (нелинейное квантование). Например, часто делают SΔ малень-

ким при малом значении сигнала, чтобы относительная погрешность (шум квантования/сигнал) не становилась очень большой при малых S . Нелинейное квантование позволяет получить при приемлемой точности хранения сигнала большой динамический диапазон (отношение макси-мального значения сигнала к минимальному или к величине кванта).

Квантование по уровню – преобразование непрерывных (по уровню)

сигналов ( )S ti в моменты отсчета ti в дискретные. В результате непре-

рывное множество значений сигнала ( )S ti в диапазоне от minS до maxS

преобразуется в дискретное множество значений Sk – уровней квантова-

ния (рис. 1.5). Шаг квантования SΔ определяется по формуле

1S S Sj jΔ = − − .

19

Рис. 1.5. Квантование по уровню:

а – аналоговые дискретные по времени сигналы ( )S ti ; б – квантованные

по уровню сигналы ( )S ti

При квантовании по уровню не всегда сигнал ( )S ti совпадает с

уровнем квантования (см. сигнал ( )2S t на рис. 1.5, б). В таком случае по-ступают одним из следующих способов:

1) ( )S ti отождествляют с ближайшим значением (в нашем примере – с 2S );

2) ( )S ti отождествляют с ближайшим меньшим (или большим) зна-чением. Отождествление не зависит от того, насколько близко к этому уровню квантования находится значение сигнала.

Очевидно, что и при квантовании по уровню возникает погрешность квантования ( )Skε :

( ) ( )S S t Sk i kε = − . (1.6) Погрешность квантования по уровню тем меньше, чем меньше шаг

квантования. Различают два вида квантования по уровню: 1) равномерное, когда диапазон изменения сигнала разбивается на

m одинаковых частей. Тогда, зная размер шага квантования, для представ-ления Sk достаточно знать число k . Другими словами, квантование с по-стоянным шагом SΔ называется равномерным;

2) неравномерное, когда диапазон изменения сигнала разбивается на m различных частей. Другими словами, квантование с изменяющимся ша-гом SΔ называется неравномерным [22].

( )S t ( )S t

( )3S t maxS ( )3S t

( )4S t 2S ( )4S t

( )2S t 1S ( )2S t

( )1S t minS ( )1S t 1t 2t 3t 4t t 1t 2t 3t 4t t а) б)

20

1.3. Технические и программные средства формирования аудиоданных Для обработки голоса необходимо предварительно записать его в

оперативную память компьютера или на машинный носитель. Большинст-во персональных компьютеров оснащены оборудованием, необходимым для ввода и вывода звука. Это микрофон и звуковая плата. В общем виде процесс ввода речевых сообщений приведен на рис. 1.6.

Рис. 1.6. Схема ввода речевых сообщений в ЭВМ

Как известно, речевой сигнал формируется и передается в простран-

стве в виде звуковых волн. Источником речевого сигнала служит речеоб-разующий тракт, который возбуждает звуковые волны в упругой воздуш-ной среде. Приемником сигнала является датчик звуковых колебаний, микрофон – устройство для преобразования звуковых колебаний в элек-трические. Существует большое количество типов микрофонов (угольные, электродинамические, электростатические, пьезоэлектрические и др.), описанных в специальной литературе. Чувствительный элемент микрофо-на любого типа – упругая мембрана, которая вовлекается в колебательный процесс под воздействием звуковых волн. Она связана с элементом, кото-рый преобразует колебания мембраны в электрический сигнал.

С выхода микрофона сигнал подается на вход звуковой карты персо-нального компьютера. При записи звуковая карта представляет собой ана-логово-цифровой преобразователь с широкими возможностями настройки параметров оцифровки, основными из которых являются частота дискре-тизации и разрядность кодирования. Данные параметры определяют каче-ство и размер выборки, получаемой в результате записи. Причем размер и качество прямо пропорциональны, т.е. чем выше качество записи, тем больше ее размер.

Существует огромное количество программных средств формирова-ния аудиоданных. Все они отличаются друг от друга, как правило, пользо-вательским интерфейсом и функциональными возможностями, но в их ос-нове лежит один и тот же принцип работы: запись, анализ, сжатие и очист-ка от шума сигнала. К таким средствам относятся:

− Sound Forge – отличный звуковой редактор от компании «Sonic Foundry», сочетающий в себе мощь профессиональной дорогостоящей программы и простой пользовательский интерфейс;

Речь Датчик звуковых колебаний

Звуковая карта

(АЦП)

ЭВМ

21

− WaveLab – звуковой редактор, располагающий возможностями, ко-торые позволяют работать с различной звуковой информацией;

− CoolEdit 2000 – звуковой редактор фирмы «Syntrillium Software Cor-poration».

1.4. Запись и считывание данных из речевого сигнала в MATLAB

В MATLAB предусмотрены средства для воспроизведения и записи звука (речи), а также для работы со звуковыми файлами формата wav [7, 43] .

Чтение wav-файлов. Для считывания wav-файлов в MATLAB ис-пользуется функция wavread. В простейшем случае она может быть ис-пользована следующим образом:

y = wavread (‘filename’), где ‘filename’ – имя звукового файла (расширение wav указывать не обяза-тельно). В имя файла необходимо включить полный путь, за исключением тех случаев, когда файл находится в текущем (для MATLAB) каталоге или в одном из каталогов, входящих в список поиска MATLAB. Другой спо-соб, не требующий указания имени файла, – полный путь, который заклю-чается в определении местонахождения файла на жестком диске с помо-щью меню MATLAB.

В результате вызова функции в переменную y будет помещено все содержимое указанного файла. Строки матрицы y соответствуют отсчетам сигнала, столбцы – каналам, которых в wav-файле может быть один (моно-канал) или два (стереоканал).

Помимо отсчетов сигнала в wav-файлах хранится и служебная ин-формация, которая содержит следующие параметры:

− частоту дискретизации, для определения которой в указанную функ-цию необходимо включить второй выходной параметр:

[y, Fs] = wavread (‘filename’), где Fs – частота дискретизации, Гц;

− число бит на отсчет, для определения которого необходимо добавить еще один выходной параметр:

[y, Fs, bits] = wavread (‘filename’); − число отсчетов и каналов записи. Для получения данной информа-

ции необходимо вызвать функцию wavread с двумя входными парамет-рами: именем файла и текстовой строкой ‘size’:

wavesize = wavread (‘filename’, ‘size’).

22

При вызове такой функции из wav-файла извлекается служебная ин-формация, которая возвращается в виде двухэлементного вектор-строки, первый элемент которого содержит число отсчетов, второй – число каналов;

− продолжительность звучания сигнала (в секундах), которую можно определить следующим образом:

wavesize (1)/Fs, где 1 указывает на первый параметр вектора wavesize.

Имеются и возможности считывания данных из wav-файла не цели-ком, а отдельными фрагментами. Для этого используется второй входной параметр функции wavread. Если этот параметр является числом, будет считано соответствующее количество отсчетов, начиная с первого:

y = wavread (‘filename’, N). Если нужный фрагмент расположен не в начале файла, придется ука-

зать его начало и конец: y = wavread (‘filename’, [n1, n2]). В результате в переменную y будут считаны отсчеты с номерами от

n1 до n2 включительно (нумерация отсчетов начинается с единицы). Чтобы узнать объем памяти (в килобайтах), требуемый в MATLAB

для хранения записи, необходимо использовать следующую функцию: prod (wavesize)*8/1024. Для просмотра речевого (звукового) сигнала выведем его в виде гра-

фика с помощью следующей функции: plot (y). Если необходимо вывести график по каналам стереозаписи, то при-

меняют следующие функции: subplot (2, 1, 1); plot (:, 1); subplot (2, 1, 2); plot (:, 2) или просто

plot(y). Если сигнал имеет большую длину, то можно использовать следую-

щую функцию (фрагменты выводятся друг под другом): strips (x, N),

где x – вектор отсчетов сигнала (двумерный массив не допускается), N – число отсчетов в каждом фрагменте (этот параметр можно опустить, по умолчанию размер фрагмента составляет 200 отсчетов).

Запись wav-файлов. Для записи вектора (или матрицы) на диск в виде wav-файла используется функция wavwrite:

wavwrite (y, Fs, N, ‘filename’), где y – записываемые данные, Fs – частота дискретизации, Гц, N – число бит на отсчет (8 или 16), ‘filename’ – имя создаваемого файла. Параметры Fs и N можно опускать, при этом используются значения по умолчанию: Fs = 8 000 Гц, N = 16.

23

Записываемые данные должны быть вещественными и лежать в диа-пазоне от –1 до 1. Значения, выходящие из этого диапазона, будут обреза-ны и сделаны равными.

Воспроизведение звуковых файлов. Если компьютер оборудован звуковой картой, то помимо работы с wav-файлами можно воспроизводить вектор и матрицу в звуковом в виде с использованием следующих функций:

– sound, синтаксис которой записывается следующим образом: sound (y, Fs, bits),

где y – вектор или двухстолбцовая матрица сигнала, Fs – частота дискре-тизации, Гц, bits – число бит на отсчет (8 или 16).

Параметры Fs и bits можно опускать, при этом их значения будут приниматься по умолчанию.

Выходных параметров y у функции нет. После вызова она передает вектор y звуковой карте для воспроизведения и сразу же, не дожидаясь окончания звука, возвращает управление MATLAB;

– wavplay, синтаксис которой имеет следующий вид: wavplay (y, Fs, ‘mode’),

где параметр mode управляет режимом воспроизведения, который может принимать два значения:

− ‘sync’ – синхронный режим, означающий что функция вернет управ-ление интерпретатору MATLAB только после окончание звука;

− ‘async’ – асинхронный режим, при котором функция передает дан-ные для воспроизведения звуковым драйверам Windows и сразу же воз-вращает управление системе MATLAB, не дожидаясь окончания звука.

Параметры Fs и mode можно опускать, при этом их значения при-нимаются по умолчанию: Fs =11025 Гц и ‘mode’ = ‘async’.

Запись звука (речи). Функция wavrecord позволяет записать звук в переменную MATLAB с помощью звуковой карты компьютера:

y = wavrecord (n, Fs, ch, ‘dtype’), где n – число записываемых отсчетов, Fs – частота дискретизации, Гц, ch – число каналов записи, ‘dtype’ – тип записываемых данных.

Возвращаемый результат y – матрица, каждый столбец которой соот-ветствует одному каналу записи. При стереозаписи первый столбец – ле-вый канал, второй – правый канал.

Для параметра dtype возможны следующие значения: − ‘double’ – 16-битная запись, данные масштабируются к диапазону от

–1 до 1 и представляются в восьмибайтовом формате с плавающей запятой; − ‘single’ – 16-битная запись, данные масштабируются к диапазону

–1…1 и представляются в четырехбайтовом формате с плавающей за-пятой;

24

− ‘int16’ – 16-битная запись, данные представляются в двухбайтовом целочисленном формате (диапазон от –32 768 до 32 767);

− ‘uint8’ – 8-битная запись, данные представляются в однобайтовом беззнаковом целочисленном формате (диапазон от 0 до 255, нулевому на-пряжению на входе соответствует значение «128»).

Входные параметры Fs, ch, dtype можно опускать, при этом их зна-чения будут приниматься по умолчанию: Fs =11 025 Гц, ch =1, dtype = =‘double’.

1.5. Параметры и информативные признаки речевого сигнала Любой речевой сигнал характеризуется некоторыми признаками, ко-

торые можно использовать для того, чтобы синтезировать исходный сиг-нал [31].

Информативные признаки 1. Энергия сигнала:

2 2

1

( ) ( )t

E X S t dtt

= ∫ , (1.7)

2( ) ( )1

NE t X ti

iΔ = ∑

=, (1.8)

где N – количество отсчетов. 2. Основная частота FT определяет длину речевого тракта. 3. Форманты 1 2 3, ,F F F (рис. 1.7).

Рис. 1.7. Схематическое представление формант сигнала

Е

F 0 F 1 F 2 F 3 F 4

25

1F и 2F определяют концентрацию энергии речевого сигнала по частоте и характеризуют гласные звуки. Они используются для классифи-кации гласных звуков. 3F характеризует свойства диктора.

4. Мгновенная частота – количество перехода сигнала через нуль, используется для классификации шумных звуков и гласных.

5. Мгновенная амплитуда сигнала maxA .

Аналогичные признаки выделяются из речевого сигнала после его фильтрования по полосовым фильтрам. В результате получаются компакт-ные речевые признаки входного сигнала. Объем необходимой памяти по-лучается намного меньше. Основной тон T – очень полезный признак. Он используется при динамической сегментации входного сигнала, что при-водит к более точной обработке входного сигнала.

При распознавании речевых сигналов, как правило, оперируют не исходным речевым сигналом, а его параметрами, вычисленными на кадре. Длина кадра обычно выбирается такой, чтобы его длительность T T v= составляла 10 – 20 мс.

Параметры речевого сигнала. Кадр длины N состоит из последова-тельности отсчетов 1, , , ,k NS S S… … .

1. Кратковременная энергия речевого сигнала 1 2

1

NE S kN k= ∑

=. (1.9)

2. Число нулей интенсивности

( ) ( )2

112

N

kZ sign signS Sk k

== −∑ − , (1.10)

где ( ) 1, 01, 0

Ssign S

S≥⎧

= ⎨− <⎩ – знаковая функция.

3. Коэффициенты разложения в ряд Фурье , , ,0 1 / 2c c cN… .

Кадр определяет функцию с периодом N , заданную на сетке из то-чек вида x l Nl = :

( ) ,1f f x Sl l k= = + если l N t k= ⋅ + , где 0 1k N≤ ≤ − , t – целое.

Такую функцию можно разложить в ряд Фурье, т.е. представить в виде

26

{ }1

exp 20

lN

f A iqxl qq

π−

= ∑=

. (1.11)

Скалярное произведение для функций на сетке определяется сле-дующим образом:

( )11,0

Nf g f gl lN l

−= ∑

=. (1.12)

Функции { }exp 2l

g i qxl = π при 0 q N≤ < образуют ортонормиро-

ванную систему относительно введенного скалярного произведения (1.12). Коэффициенты Фурье можно найти по формуле

( ) { }11, exp 2π .0

lN

A f g f iqxq q lN l

−= = ∑

= (1.13)

Непосредственное осуществление этих преобразований требует 2( )O N арифметических операций. Для сокращения этого числа применя-

ется алгоритм быстрого преобразования Фурье, основанный на том, что при 2mN = в слагаемых правой части выражения (1.13) можно выделить группы, входящие в выражения различных коэффициентов Aq . Вычисляя

каждую группу только один раз, можно сократить число операций до

( )log2O N N⋅ . Если 2mN ≠ , то можно добавить нулевые отсчеты. Разло-

жение в ряд Фурье дает представление речевого сигнала в виде суммы гармонических колебаний с частотами ( )v q .

Запишем соотношение между частотой ( )v q и индексом q :

( ) 2 mv q qv N qvd d−= = при 0,1 , , 2q N= … ,

где vd – частота дискретизации.

Значения спектра от 2 1q N= + до 1N − не содержат новой инфор-мации, так как значения lf действительны:

AAq N q= − при 0, 1, , 2q N= … .

Удвоенное значение Aq – это комплексная амплитуда. Веществен-

ные амплитуды получаются из них по формулам 0 0, 2c A c Aq q= = при

0,1, , 2q N= … .

27

4. Распределение энергии сигнала по частотным группам , ,1 20P P… .

Одним из важнейших свойств слуха является разделение спектра звука на частотные группы. Слух может образовывать частотные группы на любом участке шкалы частот. В области частот ниже 500 Гц ширина частотных групп почти не зависит от средней частоты групп и составляет примерно 100 Гц. В области выше 500 Гц она увеличивается пропорцио-нально средней частоте. Если частотные группы совместить в один ряд, то в диапазоне от 70 Гц до 7 кГц разместятся 20 частотных групп. Распреде-ление энергии по частотным группам можно найти либо непосредственно с помощью гребенки соответствующих фильтров, либо с помощью коэф-фициентов разложения в ряд Фурье. Значение pi для частотной группы

диапазона 1vi − ...vi , шириной 1H v vi i i= − − определяется по формуле

1

1 2

0

1j

nq

jP ci n +

⎛ ⎞−⎜ ⎟= ∑⎜ ⎟=⎝ ⎠

. (1.14)

1.6. Особенности преобразования речевых сигналов

в стандарте стандарте GSM В соответствии с рекомендацией СЕРТ 1980 г., касающейся использо-

вания спектра частот подвижной связи в диапазоне 862 – 960 МГц, стандарт GSM на цифровую общеевропейскую (глобальную) сотовую систему на-земной подвижной связи предусматривает работу передатчиков в двух диа-пазонах частот: 890 – 915 МГц (для передатчиков подвижных станций – MS), 935 – 960 МГц (для передатчиков базовых станций – BTS) [6, 48].

В стандарте GSM используется узкополосный многостанционный доступ с временным разделением каналов (NB ТDМА). В структуре ТDМА кадра содержится восемь временных позиций на каждой из 124 несущих.

Для защиты от ошибок в радиоканалах при передаче информацион-ных сообщений применяется блочное и сверточное кодирование с переме-жением. Повышение эффективности кодирования и перемежения при ма-лой скорости перемещения подвижных станций достигается медленным переключением рабочих частот (SFH) в процессе сеанса связи со скоро-стью 217 скачков в секунду.

Для борьбы с интерференционными замираниями принимаемых сиг-налов, вызванными многолучевым распространением радиоволн в услови-ях города, в аппаратуре связи используются эквалайзеры, обеспечивающие выравнивание импульсных сигналов со среднеквадратическим отклонени-ем времени задержки до 16 мкс.

28

Система синхронизации рассчитана на компенсацию абсолютного времени задержки сигналов до 233 мкс, что соответствует максимальной дальности связи или максимальному радиусу ячейки (соты) 35 км.

В стандарте GSM выбрана Гауссовская частотная манипуляция с ми-нимальным частотным сдвигом (GMSK). Обработка речи осуществляется в рамках принятой системы прерывистой передачи речи (DTX), которая обеспечивает включение передатчика только при наличии речевого сигна-ла и отключение его в паузах и в конце разговора. В качестве речепреобра-зующего устройства выбран речевой кодек с регулярным импульсным воз-буждением, долговременным предсказанием и линейным предикативным кодированием с предсказанием (RPE/LTR-LTP-кодек). Общая скорость преобразования речевого сигнала – 13 кбит/с.

В стандарте GSM достигается высокая степень безопасности переда-чи сообщений; осуществляется их шифрование по алгоритму с открытым ключом (RSA).

В целом система связи, действующая в стандарте GSM, рассчитана на ее использование в различных сферах. Она предоставляет пользовате-лям широкий диапазон услуг и возможность применять разнообразное оборудование для передачи речевых сообщений и данных, вызывных и аварийных сигналов; подключаться к телефонным сетям общего пользова-ния (PSTN), сетям передачи данных (PDN) и цифровым сетям с интеграци-ей служб (ISDN).

Для аналогово-цифрового преобразования речевых сигналов в стан-дарте GSM используются АЦП.

Рассмотрим кратко основные характеристики речевых сигналов (со-гласно МККТТ – Международный консультативный комитет по телегра-фии и телефонии) в стандарте GSM и особенности их аналогово-цифрового преобразования [36]:

− диапазон частот речевого сигнала ограничен: 300 – 3 400 Гц; − длительность звуков речевого сигнала составляет от нескольких

десятков до нескольких сотен миллисекунд при среднем значении 130 мс; − для гласных звуков среднее значение длительности составляет

210 мс, для согласных – 92 мс; − спектр мощности речевого сигнала имеет максимум вблизи час-

тоты 400 Гц и спадает на более высоких частотах со скоростью около 9 дБ на октаву;

− при телефонном разговоре уровень речевого сигнала изменяется в диапазоне 35 – 40 дБ, при этом уровень согласных в среднем на 20 дБ ниже уровня гласных;

29

− в аналогово-цифровом преобразовании и цифровой обработке сигнала речи ограничиваются частотным интервалом обычного аналого-вого телефона 300 – 3 400 Гц, при этом при кодировании речевого сиг-нала учитывают квазистационарный гауссовский процесс, у которого спектрально-корреляционные характеристики постоянны на интервале 20 – 30 мс.

Дополнительно следует отметить следующее: − слуховое ощущение громкости приблизительно пропорционально

логарифму интенсивности ( ln I∼ , где I – интенсивность звука); − пороговое для слуха изменение уровня звука не превышает 1 дБ; − человеческое ухо слабочувствительно к точности передачи фазо-

вых соотношений спектральных составляющих сигнала; − постоянная времени слуха в среднем составляет: при нарастании

сигнала 20 – 30 мс. Возвращаясь к процессу преобразования аналогового речевого сиг-

нала в цифровую форму, рассмотрим более подробно особенности процес-сов дискретизации и квантования в стандарте GSM.

Дискретизация речевого сигнала в стандарте GSM. На два входа дискретизатора подаются два сигнала:

− ( )1U t – аналоговый сигнал (речь);

− ( )U td – сигнал от генератора тактовых импульсов.

В соответствии с теоремой дискретизации (Котельникова – Шенно-на), если для функции ( )1U t спектральной составляющей наивысшей час-тоты является fвг , то мгновенные отсчеты, взятые с частотой 2 fвг , со-

держат в себе практически всю информацию исходного сообщения. Для телефонии, где речевой сигнал ограничен частотой

3400maxf = Гц, частоту дискретизации выбирают равной 8000fd = Гц.

Период дискретизации составляет 1 125T fd d= = мс.

Таким образом, на выходе дискретизатора как умножителя сигналов получается сигнал ( ) ( ) ( )2 1 dU t U t U t= ⋅ .

Квантование сигнала ( )2U t в стандарте GSM. В стандартных АЦП, используемых в цифровой телефонии, число уровней квантования (при приемлемом отношении сигнал-шум) выбирают равным 256 = 28, или больше.

30

В стандарте GSM используется восемь бит цифровой информации на один квантованный отсчет. Частота тактового генератора составляет

8 8 64 кГц⋅ = , а период 3(1 64) 10 15,625Tk = ⋅ = мкс, т.е. сохраняется стан-

дартная скорость передачи информации – 64 кбит/с по одному телефонно-му каналу.

Следует отметить, что в системах мобильной сотовой связи стандар-та GSM используется 16-битные сигма-дельта АЦП, при этом скорость выходного потока составляет 128 кбит/с.

Преобразование цифрового потока, несущего информацию о рече-вых сигналах и поступающего из декодера речи, реализуется цифро-аналоговыми преобразователями (ЦАП). Современные АЦП и ЦАП в мо-бильных станциях выполняются в виде интегральных микросхем. Широ-кое применение находят 16-битные АЦП и ЦАП, выполненные на одной интегральной микросхеме. Более подробно особенности схемного решения и принципы работы АЦП и ЦАП в системах мобильной связи можно най-ти в специальной литературе [18, 19].

Контрольные вопросы

1. Что такое речь и речеобразование? 2. Каково понятие речевого сигнала? 3. Что такое фонема и какие акустические фонемы есть в русском

языке? 4. Что такое основной тон речевого сигнала и как он определяется? 5. Как определяется спектр речевого сигнала? 6. Какова частота дискретизации и как она определяется? 7. Как происходит процесс реализации фразы в речевом сигнале? 8. Что такое частота Найквиста и как происходит дискретизация ре-

чевого сигнала? 9. Что такое теорема Котельникова?

10. Какими функциями можно дискретизовать речевой сигнал в среде MATLAB?

11. Что такое квантование сигнала и какие существуют виды кванто-вания?

12. Как происходит процесс ввода речевого сигнала в ЭВМ для его дальнейшей обработки?

31

13. Каковы функции обработки аудиосигнала в MATLAB? 14. Как определяются информативные признаки речевого сигнала? 15. Каковы параметры речевого сигнала? 16. Что такое стандарт GSM и как в нем осуществляется процесс ре-

чеобразования?

32

Глава 2. МЕТОДЫ АНАЛИЗА РЕЧЕВЫХ СИГНАЛОВ

2.1. Преобразование Фурье

2.1.1. Ряд Фурье Разложению в ряд Фурье могут подвергаться периодические сигна-

лы. При этом они представляются в виде суммы гармонических функций либо комплексных экспонент с частотами, образующими арифметическую прогрессию. Для того чтобы такое разложение существовало, фрагмент сигнала длительностью в один период должен удовлетворять условиям Дирихле [43]:

– не должно быть разрывов второго рода (с уходящими в бесконеч-ность ветвями функции);

– число разрывов первого рода (скачков) должно быть конечным; – число экстремумов должно быть конечным. В зависимости от конкретной формы базисных функций различают

следующие представления ряда Фурье. Синусно-косинусная форма Функция ( )x t – периодическая с периодом T . Классическая синусно-

косинусная форма представления этой функции в виде ряда Фурье имеет вид

01 1( ) cos( ) s in( )

2 1

ax t a k t b k tk kk

∞⎡ ⎤= + +∑ ⎣ ⎦

=ω ω , (2.1)

22 ( ) cos( )12

Ta x t k t dtk T T

ω= ∫−

,

22 ( ) s in( )12

Tb x t k t dtk T T

ω= ∫−

,

где 12Tπω = – «основная» частота ряда частот 1kω гармоник, на которые

раскладывается сигнал ( )x t (рис. 2.1).

33

Достоинство такого представления – вещественность величин ka и kb . Недостаток – необходимость использования двух функций одной час-тоты 1sin( )k tω и 1cos( )k tω .

( )x t ka kb

2T− 0 2T t 0 1 2 3 k 0 1 2 3 k Рис. 2.1. Графическое представление ряда Фурье

Амплитудно-фазовая форма Запишем (2.1) в виде

01( ) cos( )

2 1k

ax t A k tk

kω ϕ

∞= + +∑

= (2.2)

или

01 1( ) cos cos ( ) s in sin ( )

2 1

ax t A k t A k tk k k k

kϕ ω ϕ ω

∞⎡ ⎤= + −∑ ⎣ ⎦

=.

Сравнивая с (2.1), видим, что cos ;a Ak k k= ϕ s inb Ak k k= − ϕ от-

куда

2 2 ; arctg arctgk kb bk kA a bk k a a

k k

⎛ ⎞ ⎛ ⎞⎜ ⎟ ⎜ ⎟= + = − = −⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠

ϕ .

Комплексная форма

В комплексной форме cos2

jx jxe ex−+= .

Получаем

1

0 1 1( )2 21

;

k k k

k tk

a A k t k tx t e e

k

C ek

∞ + − +⎡ ⎤= + + =∑ ⎢ ⎥⎣ ⎦=

∞= ∑

= −∞

ω

ω ϕ ω ϕ

(2.3а)

34

2 2 2

A j a bk k k kC e jkϕ

= = − =

1 1

1

2 21 1( ) cos( ) ( ) s in ( )2 2

21 ( ) .2

T Tx t k t dt j x t k t

T TT TT j k tx t e dt

T T

= − =∫ ∫− −

−= ∫−

ω ω

ω

(2.3б)

2.1.2. Преобразование Фурье непериодических сигналов Преобразование Фурье (Fourier transform) – инструмент спектрально-

го анализа непериодических сигналов [43]. При спектральном анализе не-периодических сигналов формула для расчета коэффициентов комплексно-го ряда Фурье (2.3б) модифицируется следующим образом:

– частота перестает быть дискретно меняющейся и становится не-прерывным параметром преобразования ( 1kω заменяется на ω );

– удаляется множитель 1 T ; – результатом вычислений вместо нумерованных коэффициентов ря-

да Ck является функция частоты ( )X ω – спектральная функция сигнала

( )x t . Иногда ее называют спектральной плотностью. В результате перечисленных модификаций формула (2.3б) превра-

щается в формулу прямого преобразования Фурье (ППФ)

( ) ( ) j tX x t e dtωω∞ −= ∫−∞

. (2.4)

В формуле самого ряда Фурье суммирование, естественно, заменяет-ся интегрированием (и, кроме того, перед интегралом появляется деление на 2π ). Получающееся выражение называется обратным преобразованием Фурье (ОПФ)

1( ) ( )2

j tx t X e dωω ωπ

∞= ∫

−∞. (2.5)

Формулы ППФ (2.4) и ОПФ (2.5) называют парой непрерывных пре-образований Фурье.

Чтобы преобразование Фурье было применимо, должны выполнять-ся условия Дирихле, а сигнал быть абсолютно интегрируемым. Это озна-чает, что интеграл его модуля должен быть конечной величиной:

35

( )x t dt∞

< ∞∫−∞

.

Модуль спектральной функции называют амплитудным спектром, а ее аргумент – фазовым спектром.

Итак, преобразование Фурье (2.4) ставит в соответствие сигналу, за-данному во времени, его спектральную функцию. При этом осуществляет-ся переход из временной области в частотную. Преобразование Фурье вза-имнооднозначно, поэтому представление сигнала в частотной области (спектральная функция) содержит ровно столько же информации, сколько и исходный сигнал, заданный во временной области.

2.1.3. Связь между коэффициентами Фурье и спектром Перепишем соотношения (2.3а) и (2.3б) в виде [38]

( ) 1 12

jk tx t TC ek

k

ω ωπ

∞= ∑

= −∞,

( )1 12

2 2

T jk tTC x t e dtk

T

ω ωπ

−= ∫

−.

При 01ω → эти соотношения превращаются в пару непрерывных преобразований Фурье, поэтому

( )TC Xk kω= (2.6)

или 11 1 2( ) ( )kC X k Xk T T T

πω= = .

Можно рассуждать и по-иному. Сравним соотношения

121 ( )2

T jk tC x t e dtk T T

ω−= ∫

−;

1( ) ( )j k t

X x t e d tkω

ω∞ −

= ∫−∞

.

Если функция [ ]( ) 2, 2x t T T∈ − , тогда, периодизируя ее, можно за-

писать ( )TC Xk kω= , что совпадает с полученным ранее соотношени-ем (2.6).

Таким образом, с учетом соотношений (2.3а), (2.3б) и (2.6) можно за-писать

36

2( ) ( )

2

T j k tX k x t e d tpT

ωω − ΔΔ = ∫−

; (2.7а)

( ) ( )2

j k tx t X k epk

ω ωωπ

∞Δ Δ= Δ∑= − ∞

, (2.7б)

где 1ω ωΔ = .

Сравнивая пары соотношений (2.4), (2.5) и (2.7а), (2.7б), видим, что последнюю можно формально и абсолютно точно получить, заменяя в (2.4) бесконечные пределы интегрирования на конечные, а в (2.5) – интеграл суммой. Причина точности произведенной замены – периодическое про-должение функции времени, приводящее к дискретизации спектра. Чтобы подчеркнуть периодический характер функции времени, мы применили обозначение ( )x tp .

2.1.4. Дискретное преобразование Фурье

Используя дуальность времени t и частоты f , а также полученный выше результат о возможности формального перехода от пары непрерыв-ных преобразований Фурье к паре дискретно-непрерывных преобразова-ний Фурье, запишем [38]

1( ) ( )2

t j n tx n t X e dpt

π ωω ωπ π

Δ ΔΔ = ∫− Δ

; (2.8а)

( ) ( ) j n tX t x n t epn

ωω∞ − Δ= Δ Δ∑= − ∞

. (2.8б)

Продолжая развивать идею «дискретизации-периодизации», прихо-дим к паре дискретных соотношений

21

( ) ( )0

j k nN NX k f t x n t ep pn

π−−Δ = Δ Δ∑

=;

21

( ) ( )0

j k nN Nx n t f X k f ep pn

π−

Δ = Δ Δ∑=

,

где 1 fT dNt f t f

= = =Δ Δ Δ Δ

(рис. 2.2).

37

Обозначая ( )X X k f td p= Δ Δ , получим «классическую» пару дис-

кретных преобразований Фурье (ДПФ): 2

1( ) ( )

0

j k nN NX k x n ed pn

π−−= ∑

=; (2.9а)

211( ) ( )0

j k nN Nx n X k ep dN n

π−

= ∑=

. (2.9б)

Со свойствами преобразования Фурье можно ознакомиться в лите-ратуре по ЦОС, например [43].

Рис. 2.2. Графическое представление дискретизации-периодизации

2.1.5. ДПФ гармонического сигнала Последовательность отсчетов гармонического сигнала ( ) cos2 0x t A f tπ= ,

взятых в дискретные моменты времени t n t= Δ , имеет вид 0( ) c o s (2 )x x n t A f n tn π= Δ = Δ . (2.10)

ДПФ гармонического сигнала нулевой частоты (постоянной состав-ляющей) имеет вид

1 , 0,2( ) e x p ( )0, дл я других .0

N N A rX r A j r nd rNn

πω− =⎧

Δ = − =∑ ⎨⎩=

(2.11)

Графики сигнала и его ДПФ для случая 8N = приведены на рис. 2.3 [38].

( )x t

tΔ

0 t

T N t= Δ

fΔ ( )X ω

- Bf Bf f

f N fd = Δ

38

Рассмотрим ДПФ гармонического сигнала на интервале наблюдения целого и дробного числа периодов.

Целое число периодов Для гармонического сигнала ненулевой частоты

[ ]0

0 0

c o s (2 )

e x p ( 2 ) e x p ( 2 ) .2

x f n tnA j f n t j f n t

= Δ =

= Δ + − Δ

π

π π (2.12)

Рис. 2.3. Графики сигнала и его ДПФ для случая 8N =

ДПФ сигнала (2.12) имеет вид

0

0

1 2e x p ( )0

12 2e x p ( )0

Nj n r f N t

NA nX r Nj n r f N t

Nn

π

π

−⎧ ⎫⎡ ⎤− − Δ +∑⎪ ⎪⎢ ⎥⎣ ⎦⎪ ⎪== ⎨ ⎬− ⎡ ⎤⎪ ⎪+ − + Δ∑ ⎢ ⎥⎪ ⎪⎣ ⎦=⎩ ⎭

. (2.13)

Для целых значений 0 0r f N t T T′ = Δ = из (2.13) получим

, , ,2

0, д л я д р угих 0 1 .

A N r r r N rX r

r r N

⎧ ′ ′= = −⎪= ⎨⎪ < ≤ −⎩

(2.14)

Однако при дробных значениях r′ соотношение (2.14) не выполняется. Дробное число периодов При целом значении параметра 0 0r f N t T T′ = Δ = все значения ДПФ,

кроме двух (соответствующих положительной и отрицательным частотам гармоники), равны нулю.

сигнал

012

0 1 2 3 4 5 6 7

номера отсчетов

амплитуда

ДПФ сигнала

05

10

0 1 2 3 4 5 6 7

номера отсчетовуровень

а) б)

39

Однако если параметр 0 0r f N t T T′ = Δ = принимает дробные значе-ния, когда на интервале наблюдения T не укладывается целое значение периодов 0 01T f= , тогда картина усложняется – теперь практически все отсчеты ДПФ оказываются отличными от нуля. Чтобы объяснить это явле-ние, вспомним о тесной связи между ДПФ [38]

1 2( ) ( ) e x p ( )0

NX r x n t j r nd Nn

πω−

Δ = Δ −∑=

(2.15)

и дискретно-непрерывным ПФ 1

( ) ( ) e x p ( )0

NX x n t j n td

nω ω

−= Δ − Δ∑

=. (2.16)

Подставляя (2.12 ) в (2.16), получим

( )0

0

1exp[ ( ) ]

0( ) 1 212 2exp[ ( ) ]

0

Nj n t

A AnXd Nj n t

n

ω ωω

ω ω

−⎧ ⎫− − Δ +∑⎪ ⎪

⎪ ⎪== = Σ + Σ⎨ ⎬−⎪ ⎪+ − + Δ∑⎪ ⎪=⎩ ⎭

. (2.17)

Здесь выражение 1 0 0

0

1 exp[ ( ) ] exp[ ( )2 ] . . .exp[ ( ) ( 1) ]

j t j tj N t

Σ = + − − Δ + − − Δ ++ − − − Δ

ω ω ω ωω ω

(2.18)

представляет собой сумму членов геометрической прогрессии

0 , 0,1, ,ia a g ii = = … где 0a – начальный член, g – знаменатель про-

грессии, вычисляемую по известной формуле

010

mm

m a a gs ai gi

−= =∑

−=. (2.19)

Подставляя в (2.19) 0 0

0

1; 1; e x p [ ( ) ] ;e x p [ ( ) ( 1) ] ,m

a m N g j ta j N t

ω ωω ω

= = − = − − Δ= − − − Δ

,

получим 01

0

1 e x p [ ( ) ]1 e x p [ ( ) ]

j N tj tω ωω ω

− − − ΔΣ = =− − − Δ

00

0

s i n [ ( ) ]( 1) 2e x p [ ( ) ] .2 s i n [ ( ) ]

2

N tNj t t

ω ωω ω

ω ω

− Δ−= − − Δ ⋅ Δ− (2.20)

40

Аналогично

02 0

0

sin[( ) ]( 1) 2exp[ ( ) ]2 sin[( ) ]

2

N tNj t t

ω ωω ω

ω ω

+ Δ−Σ = − + Δ ⋅Δ+

. (2.21)

Из (2.17) с учетом (2.20) – (2.21) получим выражение для модуля ПФ дискретизированного гармонического сигнала:

0

0

00

0

sin[( ) ]2

sin[( ) ]2| ( ) |

2 sin[( ) ]2exp[ ( 1) ]

sin[( ) ]2

d

N t

tAX

N tj N t t

ω ω

ω ωω

ω ωω

ω ω

− Δ+Δ−

=+ Δ

+ − − Δ ⋅ Δ+

. (2.22)

Вводя безразмерные переменные 0 0 0 0;r f f f T f N t r f f f T f N t= Δ = = Δ = Δ = = Δ , (2.23)

получаем удобное для построения графиков выражение 0

0

00

s i n [ ( ) ]( )s i n

| ( ) |2 s i n [ ( ) ]1e x p 2 1

( )s i n

r rr r

NAX rd r rj rr rN

N

π

π

πππ

−+

−⎡ ⎤⎢ ⎥⎣ ⎦=

+⎡ ⎤⎛ ⎞+ − − ⋅⎜ ⎟⎢ ⎥ +⎡ ⎤⎝ ⎠⎣ ⎦⎢ ⎥⎣ ⎦

. (2.24)

Приведем примеры графиков функции ( )X r при 1; 8A N= = и 0 0, 1, 1, 5r = (рис. 2.4).

Рисунки 2.4, а, б носят более общий характер: наличие на этих ри-сунках координатной сетки, вертикальные линии которой соответствуют целочисленным значениям r f f= Δ , позволяет легко объяснить ситуацию на рис. 2. 4, в с дробным значением относительной частоты 0 0r f f= Δ гармонического сигнала. Спектральный пик в последнем случае располо-жен в промежутке между узлами сетки частот, образованной целочислен-ными значениями r f f= Δ . Это значит, что ДПФ гармонического сигнала с дробным значением относительной частоты 0 0r f f= Δ состоит из множества отсчетов. Максимальные отсчеты при этом, как и следовало ожидать, соответствуют ближайшим (слева и справа) целым значениям r f f= Δ .

41

в) 1,50r =

Рис. 2.4. График функции ( )X r

2.1.6. Быстрое преобразование Фурье Пару ДПФ часто записывают в виде

1, 0, , 1,

011 , 0, , 1,0

N knA X W k Nk nn

N knX A W n Nn kN k

−⎧= = −∑⎪

⎪ =⎨ −⎪ −= = −∑⎪

=⎩

…

… (2.25)

где ( )exp 2 , ( )W j N X rep X n tn N= − = Δπ – отсчеты сигнала, ( )A rep F k f tk N= Δ Δ – коэффициенты ДПФ.

Для вычисления одного элемента последовательности , 0, , 1,kA k N= −… необходимо примерно 2N операций комплексных ум-

ножений и сложений. Число операций возрастает пропорционально квад-рату размерности ДПФ [43]. Однако если N не является простым числом и может быть разложено на множители, процесс вычислений можно уско-рить, разделив анализируемый набор отсчетов на части, вычислив их ДПФ и объединив результаты. Такие способы вычисления ДПФ называются бы-стрым преобразованием Фурье (БПФ; Fast Fourier Transform, FFT). Пре-

10 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 100

8

X r ( )

r

а) 00r =

10 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 100

4.09

X r ( )

r

б) 10r =

10 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 90

4

X r ( )

r

42

имущества алгоритма БПФ особенно проявляются с ростом N , что суще-ственно при обработке массивов большой размерности [38].

Существует несколько разновидностей алгоритма БПФ. Изложим две модификации: с прореживанием по времени и по частоте.

Прореживание по времени Разделим последовательность Xn , состоящую из N отсчетов, на две

подпоследовательности Yn и Zn , каждая из которых включает 2N отсче-тов (рис. 2.5).

Рис. 2.5. График последовательностей Xn , Yn и Zn

Отсчеты Yn образованы из четных отсчетов исходной последова-

тельности Xn , а отсчеты Zn – из нечетных:

2 2 1, , 0,1, 2, , 12n nNY X Z X nn n += = = −… . (2.26)

Поскольку подпоследовательности Yn и Zn состоят из 2N отсчетов каждая, ДПФ для них имеет вид

2

2

( 2) 1,

0 0,1, , 1( 2) 1

,0

k n

k n

NB Y Wk n

n k NN

C Z Wk nn

− ⎫= ⎪∑

⎪= = −⎬− ⎪= ∑ ⎪= ⎭

… . (2.27)

43

Необходимо найти последовательность Ak , которую можно предста-

вить через четные и нечетные элементы исходной последовательности Xn :

( 2) 1 (2 1)2( )0

, 0 1.2

N k nknA Y W Z Wk n nn

NkB W C при kk k

− += + =∑=

= + ≤ ≤ − (2.28)

Поскольку Bk и Ck периодичны с периодом 2N , можем записать

2 при 0 1.2 2Nk N kA B W C B W C kk N k k k k

+= + = − ≤ ≤ −+ (2.29)

Таким образом, первые 2N и последние 2N отсчетов ДПФ от Xn

могут быть получены комбинацией отсчетов ДПФ двух подпоследователь-ностей Yn и Zn . На рис. 2.6 показан сигнальный граф, наглядно представ-

ляющий процедуру конструирования отсчетов Ak из отсчетов Bk и Ck

для случая 8N = .

Рис. 2.6. Сигнальный граф, представляющий процедуру конструирования отсче-

тов Ak из отсчетов Bk и Ck для случая 8N =

6 3x y=

ДПФ (N=4)

yx2 1=

yx4 2=

ДПФ (N=4)

x z01=

x z13 =

x z25 =

yx7 3=

B0

B1

B2

B3

C0

C1

C2

C3

A0

A1

A2

A3

A4

A5

A6

A7

0W

1W

2W

3W

4W

5W

6W

7W

yx2 1=

44

Поскольку удалось задачу вычисления N-точечного ДПФ редуциро-вать к задаче вычисления двух 2N -точечных ДПФ, естественно попы-таться «развить» успех в данном направлении. На рис. 2.7 показаны два следующих аналогичных шага, после которых отсчеты сигнала Xn оказы-

ваются связанными с коэффициентами ДПФ Ak своеобразными нитями-

операциями, похожими на «бабочку». Итак, для случая 32 8N = = вычисления совершаются в три этапа.

На первых двух этапах находят некие «промежуточные» массивы из вось-ми точек каждый. На третьем этапе вычисляется «окончательный» восьми-точечный массив. Для определения каждого элемента из этих трех масси-вов необходимо выполнить одно комплексное умножение и одно ком-плексное сложение. Итого получается 3 8 24⋅ = комплексных умножений и сложений вместо 8 8 64⋅ = при «лобовых» вычислениях.

Обобщая рассуждения на случай N -точечных массивов, заключаем, что для вычислений в соответствии с алгоритмом БПФ необходимо

log2N N комплексных умножений и сложений, тогда как при прямых вы-

числениях требуется 2N операций. Прореживание по частоте Как и прежде, разделим последовательность Xn на две подпосле-

довательности Yn и Zn , каждая из которых включает 2N отсчетов. Од-

нако теперь Yn будет состоять из первых 2N отсчетов, а Zn – из по-

следних 2N отсчетов

, , 0, 1, 2, , 12 2NY X Z X nn n n n N …= = = −+ . (2.30)

Тогда

( )( 2) 12

0

Nk nN k nA Y W Z Wk n nn

⎛ ⎞+− ⎜ ⎟= + =∑ ⎜ ⎟= ⎜ ⎟

⎝ ⎠

( 2) 12 , 0 1

0

NkN k nY Z W W k Nn nn

⎛ ⎞− ⎜ ⎟= + ≤ ≤ −∑ ⎜ ⎟= ⎜ ⎟

⎝ ⎠

. (2.31)

45

Рис. 2.7. Связь отсчетов сигнала Xn с коэффициентами ДПФ Ak

X0

X4

X2

X6

X1

X5

X3

X7

ДПФ (N=2)

ДПФ (N=2)

ДПФ (N=2)

ДПФ (N=2)

B0

B1

B2

B3

0W

2W

4W

6W

A0

A1

A2

A3

A4

A5

A6

A7

0W

1W

2W

3W 4W

5W

6W

7W

C0

C1

C2

C3

0W

2W

4W

6W

X0

X4

X2

X6

X1

X5

X3

X7

0W

4W

0W

4W

0W

4W

0W

4W

0W

2W

4W

6W

0W

2W

4W

6W

0W

A0

1W

2W

3W

4W

5W

6W

7W

A1

A2

A3

A4

A5

A6

A7

46

Теперь рассмотрим четные и нечетные отсчеты массива Ak , т.е.

осуществим прореживание по частоте:

, , 0, 1, 2, , 12 2 1 2NR A S A kk k k k= = = −+ … . (2.32)

Тогда для четных отсчетов

( )( 2) 1 2 , 0 12 20

N Nk nR A Y Z W kk k n nn

−= = + ≤ ≤ −∑

=. (2.33)

Соотношение (2.33) есть 2N -точечное ДПФ массива Y Zn n+ , пред-

ставляющего собой сумму первых 2N и последних 2N отсчетов исход-

ного временного массива Xn . Аналогично для нечетных спектральных от-

счетов

( )( 2) 1 2 , 0 1 .2 1 20

N Nn k nS A Y Z W W kk k n nn

−⎡ ⎤= = − ≤ ≤ −∑+ ⎢ ⎥⎣ ⎦=

(2.34)

Соотношение (2.34) есть 2N -точечное ДПФ массива ( ) nY Z Wn n− ,

представляющего собой взвешенную разницу первых 2N и последних

2N отсчетов исходного временного массива Xn .

Итак, задача вычисления N -точечного ДПФ снова была редуцирова-на, хотя и несколько иным способом, к задаче вычисления двух 2N -

точечных ДПФ. Сигнальный граф для этого случая показан на рис. 2.8. Таким образом, при прореживании по частоте и по времени проце-

дуру вычислений делят на log2 N этапов. При этом на каждом этапе на

определение элементов N-точечного массива затрачивается N комплекс-ных сложений и умножений. В результате вычисления производятся при-

мерно за log2N N комплексных сложений и умножений против 2N –

при «лобовых» вычислениях.

47

Рис. 2.8. Сигнальный граф редуцирования задачи вычисления

N-точечного ДПФ к задаче вычисления двух 2N -точечных ДПФ

2.1.7. Вычисление спектрограммы Спектрограммой сигнала называется его мгновенный спектр, зави-

сящий от времени:

( , ) ( )t j tF t X t e d t

t T

ωω −= ∫−

. (2.35)

Для вычисления спектрограммы дискретного сигнала его разбивают на сегменты (возможно, с перекрытием). Для каждого сегмента находят его спектр в виде коэффициентов ДПФ. Набор спектров и образует спек-трограмму (рис. 2.9) [38].

Разрешающая способность по частоте такого спектрального анализа определяется величиной 11f TΔ = , а разрешающая способность по време-ни – величиной 1T , если сегменты анализируемого процесса не перекры-ваются. Если же сегменты перекрываются, то разрешение по времени мо-жет быть равным даже 1 1t T NΔ = , где 1N – число отсчетов сегмента, под-

вергаемого преобразованию Фурье (поэтому число 1N часто называют па-

раметром БПФ и принимают равным степени «2»). Однако на практике

X0

X1

X2

X3

X4

X5

X6 X7

0W 0W− 1W

1W− 2W

2W− 3W

3W−

A0

A1

A2

A3

A4

A5

A6

A7

ДПФ (N=4)

ДПФ (N=4)

48

степень перекрытия выбирают из неких «разумных» предпосылок, по-скольку при чересчур высокой степени перекрытия объем вычислений мо-жет стать неприемлемо высоким.

Рис. 2.9. Спектрограмма сигнала ( )X t : A – амплитуда, f – частота, t – время

Один и тот же термин «спектрограмма» применяют как к комплекс-

ной функции частоты и времени, так и к ее модулю (набору амплитудных спектров).

В программе MATLAB для получения комплексного массива B ис-пользуют функцию specgram c синтаксисом

B = specgram(x, Nfft, Fs, window, numoverlap), где x – массив отсчетов исходного сигнала; Nfft – параметр ДПФ, вы-

числяемого с помощью алгоритма БПФ; Fs – частоты дискретизации сиг-нала; window – окно для взвешивания сегментов сигнала; numoverlap – ко-личество перекрывающихся отсчетов сегментов. Таким образом вычисля-ется и строится модуль массива B, т.е. набор амплитудных спектров, уро-вень значений которых кодируется цветом.

Рассмотрим пример вычислений спектрограммы из командного окна. После указания пути к папке по имени \toolbox\signal\signal, где на-

ходятся необходимые для работы исходные данные и программы, откройте файл mtlb.mat, в рабочем пространстве при этом появится информация о считывании в среду MATLAB двух переменных – одномерного вещест-венного массива по имени mtlb из 4001 отсчета и числа Fs = 7418 Гц.

A

f

1T 1T 1T 1T

t

T

t

49

Сигнал mtlb (слово “MATLAB”) можно прослушать с помощью ко-манды wavplay(mtlb, Fs, 'async'). Можно построить график сигнала mtlb (рис. 2.10) с помощью следующих команд:

>> t=1:4001; >> plot(t,mtlb).

Рис. 2.10. График речевого сигнала: слово «MATLAB»

Теперь сформируем окно Бартлетта протяженностью 512 отсчетов:

>> win = bartlett (512), график которого можно просмотреть с помощью команд

>> x=1:512; plot(x,win). Наконец, выполним команду >> specgram(mtlb, 512, Fs, win, 256). При этом будем наблюдать спектрограмму, состоящую (при данных

значениях параметров) из 14 спектров сегментов (рис. 2.11). Нетрудно подсчитать, что длительность анализируемого сигнала со-

ставляет 4001/ 7418 0,54T = = с, диапазон анализируемых частот равен [0, Fs/2], т.е. [0, 3709] Гц.

Для Nfft=512 получаем, что длительность сегмента равна 512 / 7418 0,0691T = = − с, разрешающая способность по частоте

7418/512 14,51f F NsΔ = = = Гц. Для степени перекрытия 256 отсчетов разрешение по времени составляет 256 / 7418 0,035= с.

50

Рис. 2.11. Спектрограмма сигнала в окне Бартлетта

2.2. Корреляционная обработка сигналов. Процедура

и примеры применения Задача выявления периодических колебаний на фоне шумов встреча-

ется практически повсеместно. Периодически меняется интенсивность из-лучения такого космического объекта, как Солнце. Планетные системы, вращаясь вокруг единого центра, периодически заслоняют друг друга, что позволяет астрономам обнаруживать объекты и измерять их характеристи-ки. Наконец, все земные явления и процессы несут на себе «печать» пе-риодичности вследствие вращения Земли вокруг Солнца и собственной оси, а также вращения Луны вокруг Земли. Выявление периодичности присутствует в задачах прогнозирования погоды и климата, тенденций развития растительного и животного мира, социальной и экономической активности людей [38, 43].

Разумеется, периодичность свойственна не только явлениям косми-ческого и планетарного масштаба. Анализ шумов и вибраций механизмов позволяет осуществлять раннее выявление неисправностей при техниче-ской диагностике. Анализ шумов сердца и легких – хорошо известные примеры медицинской диагностики. А задачи шумопеленгования либо ак-тивной локации объектов являются базовыми при обнаружении, слежении и классификации объектов-целей в военном деле.

Зачастую периодический характер явлений и процессов замаскирован шумами, порой весьма интенсивными. В этой связи становится понятной ак-туальность задачи выявления «скрытых периодичностей». Одним из эффек-тивных методов решения такой задачи является корреляционный анализ.

51

Для аддитивной смеси ( ) ( ) ( )Y t S t tξ= + (2.36)

сигнала 0( ) cos(2 )S t A f tπ ϕ= + и шума ( )tξ отношение сигнал-шум (от-

ношение средней мощности 2 2A сигнала к средней мощности Dξ шума)

2 2вх

AD

=ρξ

может быть разным: как очень малым 1вхρ << , так и большим. На рис. 2.12 показаны графики аддитивной смеси для

10 lg 17дБ,.вх дБ вх= ⋅ = −ρ ρ построенные для соотношения (2.36), т.е.

«сигнал + шум», где t i t= Δ , j t= Δτ , B – верхняя граница частоты белого шума на интервале [ ]0, B Гц. Как видим, на фоне интенсивного шума сиг-нал не наблюдается.

% Вычисление амплитуды A сигнала ( )Y t >> Dksi = 1; % дисперсия шума >> Rvh = -17; >> A = 10^((10*log10(2)+Rvh)/20);% Амплитуда сигнала >> %== сигнал плюс шум (3 периода гарм.сигнала)==== >> B = 5000; % верхн.границна частоты шума >> fi = rand(1)*2*pi; % фаза >> f0 = 220; >> f0B = f0/B; % входная частота сигнала >> Ngraf = ceil(3/f0B)*2+1; % (Ngraf = 139) >> i = 1: Ngraf; >> S = A*cos(pi*f0B*i+fi); % функция вх. сигнала >> ksi = randn(1, Ngraf); % функция шума >> Sksi = S + ksi; % сигнал + шум >> subplot(3,1,1); plot(i,S); % график сигнала >> title('Signal'); >> subplot(3,1,2); plot(i,ksi); % график шумa >> title('Noise'); >> subplot(3,1,3); plot(i,Sksi,'r'); % график "сигнал + шум" >> title('Signal+Noise'); Покажем, что корреляционный анализ случайного процесса помогает

решить задачу выявления периодического сигнала на фоне шума. Поскольку составные части процесса ( )Y t статистически независимы,

( ) ( ) ( )K K KY Sτ τ τξ= + , (2.37)

52

0

2 s i n 2( ) c o s ; ( )2 2

A BK K DS Bπ ττ ω τ τξ ξ π τ

= = , (2.38)

гдеB – верхняя граничная частота шума ( )tξ .

Рис. 2.12. Графики аддитивной смеси

Для построения графиков корреляционных функций (2.37) – (2.38)

необходимо дискретизовать функции (2.38) с шагом 1 2t BΔ = , в результа-

те чего получим 2 s i n0( ) c o s ; ( )

2fA iK i K DS B i

π πτ τξ ξ π⎛ ⎞

= =⎜ ⎟⎝ ⎠

,

где 100 200, 50000f B= =… .

Как следует из соотношений (2.37) – (2.38), форма корреляционной функции процесса ( )Y t для 1 2Bτ ≥ практически не отличается от формы

гармонического сигнала ( )S t . Этот факт позволяет по частоте нуль-

пересечений оценить частоту 0f . Понятно, что действенность такого спо-

соба оценивания 0f особенно эффективна при малых отношениях сигнал-

шум вхρ .

0 20 40 60 80 100 120 140-0.2

0

0.2Signal

0 20 40 60 80 100 120 140-5

0

5Noise

0 20 40 60 80 100 120 140-5

0

5Signal+Noise

53

2.2.1. Выявление периодического колебания на фоне шума На практике можно лишь оценить функцию корреляции, поэтому,

естественно, результаты выявления гармонического сигнала на фоне шума будут не такими «красивыми». Структурная схема коррелометра показана на рис. 2.13 [38, 43].

Рис. 2.13. Структурная схема коррелометра

Для отрезка ( )Y tT процесса ( )Y t несмещенная оценка функции кор-

реляции имеет вид 1* ( ) ( ) ( )

0

TK Y t Y t dtY T TT

ττ τ

τ

−= +∫−

. (2.39)

Покажем, что коррелометр действительно способен повышать отно-шение сигнал-шум: тем больше, чем больше некоррелированных отсчетов шумаN содержится в реализации анализируемого процесса.

Для аддитивной смеси сигнала и шума (2.36) имеем ( ) ( ) ( ) ( ) ( )K K K K KY S S Sτ τ τ τ τξ ξ ξ

∗ ∗ ∗ ∗ ∗= + + + . (2.40) Для статистически независимых сигнала и шума математическое

ожидание оценки (2.40) будет иметь вид * ( ) ( ) ( ) ( )K K K KY Y Sτ τ τ τξ= = + , (2.41)

где ∗ – символ математического ожидания. При Tкτ τ< << имеем

2

0* ( ) ( ) ( ) c o s

2AK K KY Y Sτ τ τ ω τ= ≈ = . (2.42)

Рассмотрим теперь дисперсию оценки выражения (2.40): * * * *[ ( ) ] [ ( ) ] [ ( ) ] [ ( ) ]

*[ ( ) ] 2 2* * * *

D K D K D K D KY S S

D K K KS K K K KS S S

τ τ τ τξ ξ

τξξ ξ

= + + +

+ + + +

Y(t) )t(Y)t(Y τ+

)t(Y τ+

∫−

−

xT

0T1τ

1* ( ) ( ) ( )0

TK Y t Y t dtY T TT

ττ τ

τ

−= +∫−

54

2 2 2* * * * * *

2 .* *

K K KK K K K K KS S S S

KK KS S

+ + + +

+ξ ξ ξ ξ ξ

ξ ξ (2.43)

После громоздких, хотя и несложных, выкладок получаем

( )

0 0

0 0

4*[ ( ) ] 1 c o s 24 0

0 2 22 c o s 2 .

2 2к . к в к

TAD K dY T T

D D A

T T

⎛ ⎞≈ − +∫ ⎜ ⎟⎝ ⎠

+ + +

ττ ω τ τ

ξ ξ ω ττ τ (2.44)

Ненулевой вклад обеспечивают слагаемые

( ) , ( )D K D KSτ τξ∗ ∗⎡ ⎤ ⎡ ⎤

⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ и K

K KS Sξ ξ

⎡ ⎤⎢ ⎥∗ ∗⎢ ⎥⎣ ⎦

.

Подставляя 2

в х2A

Dξρ в (2.43), имеем

2 2

*[ ( ) ] 1 c o s 20 00

TD в хD K dY T T

ρ τξτ ω τ τ⎛ ⎞≈ −∫ ⎜ ⎟⎝ ⎠

+

( )241 4 2 c o s 2 0 02 2 2к . к в кв х

DAв хT T

+ ⋅ + ⋅ +ξρ ω ττ τρ

. (2.45)

Нетрудно увидеть, что для малых значений входного отношения сиг-нал-шум, наиболее интересных для исследования ( 1вхρ << ), наибольший

вклад в дисперсию оценки функции корреляции делает слагаемое

( )D K τξ∗⎡ ⎤

⎢ ⎥⎣ ⎦, т.е.

2 42 1 4* *[ ( ) ] [ ( ) ] к . к в 2 2 к . к в

D AD K D KY T Tв х

ξτ τ τξ τρ≈ ≈ = ⋅ . (2.46)

55

Таким образом, если трактовать выражение (2.42) как сигнал на вы-ходе коррелометра, а выражение (2.46) – как мощность шума на выходе коррелометра, тогда отношение сигнал-шум на выходе коррелометра будет иметь вид

44 ( 2 )8 к . к ввых * 2[ ( ) ] 8

( 2 )2 2к . к в .вх вх2

A TA

D K D

TT B

τρ

τξ ξτ

ρ ρ

= = =

= = (2.47) Обозначая .2 к квT Nτ = , получаем

2вых вх 2

N=ρ ρ (2.48а)

или, если отношение сигнал-шум измеряется в децибелах, 21 0 l gвых .дБ вх 2

2 1 0 l g 1 0 l g 2 .вх .дБ

N

N

⎛ ⎞= ⋅ =⎜ ⎟⎝ ⎠

= + ⋅ − ⋅

ρ ρ

ρ (2.48б) Соотношения (2.48а), (2.48б) показывают, что применение корреля-

тора позволяет существенно повысить отношение сигнал-шум за счет ус-реднения некоррелированных отсчетов шума.

Используя соотношения (2.48а) и (2.48б), можно оценить объем N экспериментальной выборки отсчетов смеси сигнала и помехи, который необходим для обеспечения заданного отношения сигнал-шум на выходе коррелятора:

2 вых2вх

PNρ

= , (2.49а)

0,1( 2 10 lg 2)вых.дБ вх.дБ10N− + ⋅

=ρ ρ

. (2.49б) Формулы (2.49а), (2,49б) чрезвычайно полезны при планировании

эксперимента. Они позволяют определить объем выборки отсчетов про-цесса ( )Y t при заданных входном и выходном отношениях сигнал-шум.

Вычислим N, которое необходимо для обеспечения выходного отно-шения сигнал-шум, равного 10 дБ, и проведем моделирование соответст-вующего процесса на выходе коррелятора. % вычисление N , которое обеспечивает Rvyh=10 дБ % Rvh – отношение сигнал-шум на входе коррелометра (Rvh =-17 - 10). Rvh = - 17; Rvyh=10; N = 10^(0.1*(Rvyh-2*Rvh+10*log10(2)));

56

В результате вычислений получаем N = 50238. Наконец, смоделиру-ем процедуру обработки сигнала ( )Y tT коррелометром.

На рис. 2.14 приведены графики оценки функции корреляции (т.е. графики сигнала на выходе коррелометра).

Рис. 2.14. Графики сигнала на выходе коррелометра % моделирование коррел. обработки смеси сигнала с шумом % =ceil(N); >>figure; i = 1:N; fi = rand(1)*2*pi; >> f0 = 200; B = 5000; >> f0B = f0/B; >> A = 10^((10*log10(2)+Rvh)/20); >> Ngraf = ceil(3/f0B)*2+1; >>S = A*cos(pi*f0B*i+fi); % N отсчетов сигнала >>ksi = randn(1,N); % N отсчетов шума >>Sksi = S + ksi; % N отсчетов смеси >>[K_y,tau] = xcorr(Sksi,Ngraf,'unbiased'); % Ngraf*2+1 значений функц.коррел. >>subplot(2,1,1); plot(tau,K_y); % график оценки функции коррел. >> title('otsenka corr sig+nois'); >>subplot(2,1,2); plot(tau(Ngraf+2: 2*Ngraf+1),K_y(Ngraf+2: 2*Ngraf+1)); % фрагмент графика >> title('frogment otsenka corr sig+nois')

57

2.2.2. Оценивание длины периода основного тона речевого сигнала. Экспериментальное измерение в системе MATLAB

Высота тона – основное различие между мужскими и женскими спи-керами. Высота тона человека определяется в голосовых связках, и темп, с которым вибрируют вокальные складки, представляет собой частоту высо-ты тона. Когда воздух проходит через вибрирующие вокальные складки, создаются также гармоники.

Оценивание периода (или частоты) основного тона – одна из наибо-лее важных задач в обработке речевых сигналов [39]. Выделители основ-ного тона (ОТ) используются в вокодерах, системах распознавания и ве-рификации дикторов, в устройствах, предназначенных для глухих. Для решения задачи предложен ряд способов. Например, для оценивания дли-ны периода основного тона речевого сигнала можно использовать кратко-временную автокорреляционную функцию [34]. Для ее вычисления разра-ботаны эффективные алгоритмы. При длине окна N > 256 отсчетов лучше всего использовать БПФ, которое предполагает выполнение 8(2·log2N+3)N умножений.

С помощью системы MATLAB можно провести экспериментальное измерение частоты основного тона речевого сигнала [38], которое базиру-ется на следующей априорной информации:

– частота основного тона голоса человека находится в пределах 60 – 200 Гц;

– для качественной передачи речевого сигнала достаточно использо-вать полосу частот 20 Гц – 5 кГц.

Вначале проводят проверку работоспособности системы ввода рече-вого сигнала в компьютер. Для этого используют телефонную гарнитуру и стандартную программу записи звука, активизируемую в Windows с по-мощью меню Пуск > Программы > Стандартные > Развлечения > Звукоза-пись.

Далее, используя MATLAB, вводим речевой сигнал в компьютер (на-пример слово «барбарис»):

>>Y = wavrecord(15000); % частота дискретизации 11025 Гц. Проконтролировать на слух результаты записи можно, выполнив

следующую команду: >>wavplay(Y). Далее нужно выделить из речевого сигнала фрагмент с гласным зву-

ком. С этой целью активизируем программу sptool. Анализируем записанный сигнал и находим границы самого протя-

женного гласного звука (рис. 2.15). Записываем координаты маркеров, со-ответствующих этим границам: 1t = 0,816 и 2t = 1,018.

58

Рис. 2.15. График речевого сигнала (слово «барбарис»)

Формируем массив чисел 1Y из выделенного фрагмента: >>Fs = 11025; t1 = 0.816; t2 = 1.018; % границы фрагмента >>j1 =ceil(t1*Fs); j2 = ceil(t2*Fs); % номера отсчетов границ фрагме-

нта >>Y1 = Y(j1:j2); % массив отсчетов фрагмента. Импортируя массив 1Y в рабочее пространство программы sptool,

можно визуально и на слух проконтролировать полученный фрагмент (рис. 2.16).

Рис. 2.16. График сформированного фрагмента (гласный звук)

59

Наконец, выполняем автокорреляционный анализ выделенного фрагмента и оцениваем частоту основного тона:

>> [Kzvuk,lags] = xcorr(Y1,400). Результат вычисления корреляционной функции вновь целесообраз-

но импортировать в среду sptool, где с помощью вертикальных маркеров (рис. 2.17) провести измерения периода колебаний.

Рис. 2.17. График корреляционного анализа гласного звука

Частота основного тона определяется по формуле 0 01f T= . Изме-

рить период 0T очень просто: в программе sptool установите маркеры примерно так, как показано на рис. 2.17. Между маркерами в данном слу-чае уложилось восемь периодов 0T .

Величина периода вычисляется следующим образом: ( ) ( )0 2 1 8 0,06549 0,00698 8 0,007314T t t= − = − = . В результате таких измерений получаем оценку частоты основного

тона 0 137f = Гц. Теперь рассмотрим проблемы, обусловленные наличием нескольких

гармонических компонентов. Анализ рис. 2.16 показывает, что измерение частоты основного тона

произвести весьма непросто несмотря на то, что шумовой сигнал действи-тельно практически полностью подавлен. Дело в том, что помимо основ-ного тона в гласном звуке присутствуют обертоны – гармоники с кратны-ми частотами. Более того, как показывает практика измерений, мощность

60

обертонов может быть выше мощности основного тона, поэтому, измеряя частоту основного тона, легко ошибиться, приняв период колебания обер-тона за период основного тона.

Смоделируем рассмотренную ситуацию. Предположим, что сигнал представляет собой сумму двух гармоник

одинаковой амплитуды, но частота второй гармоники вдвое выше частоты первой:

1 2 1 0 1

2 0 2

( ) ( ) ( ) ; ( ) c o s (2 ) ;( ) c o s (4 ) .

S t S t S t S t A f tS t A f t

= + = += +

π ϕπ ϕ

(2.50)

В силу статистической независимости случайных величин 1ϕ и 2ϕ корреляционная функция такого сигнала равна сумме корреляционных функций слагаемых:

( )1 2

2

0 0( ) ( ) ( ) c o s c o s 22S S S

AK K Kτ τ τ ω τ ω τ= + = + . (2.51)

Обобщая рассмотренную модель на случай трех гармоник (частота третьей гармоники в три раза больше частоты первой), получим

( )

1 2 3

0 0 0

( ) ( ) ( ) ( )

2c o s c o s 2 c o s 3 .

2

SK K K KS S S

A

= + + =

= + +

τ τ τ τ

ω τ ω τ ω τ (2.52) Построим графики функций корреляции (2.51) и (2.52) (с точностью

до множителя 2 2A ) (рис. 2.18). % функция коррел. полигармонич. сигнала >>figure; >> f0 = 137; Fs = 11025; itau = 0:400; >>Ks2 = cos(2*pi*f0*itau/(2*Fs))+ cos(4*pi*f0*itau/(2*Fs)); >>Ks3=cos(2*pi*f0*itau/(2*Fs))+cos(4*pi*f0*itau/(2*Fs))+… cos(6*pi*f0*itau/(2*Fs)); >>subplot(2,1,1); plot(itau,Ks2); >>title('dve gormonic'); grid on; >>subplot(2,1,2); plot(itau,Ks3); >>title('tri gormonic');>>grid on; Период основного тона на рис. 2.18 виден неплохо: в моменты вре-

мени, кратные этому периоду, все гармонические компоненты функции корреляции суммируются синфазно, в результате чего обеспечивается «дружный» периодический «всплеск». Вместе с тем очевидно, что вклад обертонов настолько существен, что назвать ситуацию удобной для прак-тического анализа нельзя.

61

Рис. 2.18. Графики функций корреляции

Особенно сложная ситуация, когда мощность обертонов выше мощ-ности основного тона. Действительно, для простой двухкомпонентной модели (2.52) в предположении, что мощность обертона в два раза (т.е. на 6 дБ) выше мощности основного тона

( )1 2

2

0 0( ) ( ) ( ) cos 2 cos22S S S

AK K Kτ τ τ ω τ ω τ= + = + ⋅ . (2.53)

Результат показан на рис. 2.19. Выполним моделирование. % функц. коррел., обертон мощнее в 2 раза >>figure; >>Ks2 = cos(2*pi*f0*itau/(2*Fs))+ 2*cos(4*pi*f0*itau/(2*Fs)); >>plot(itau,Ks2); % две гармоники >>title(‘Две гармоники, обертон мощнее в 2 раза’); >>grid on. Рассмотренный пример наглядно демонстрирует мешающий харак-

тер мощного обертона. Сравнивая рис. 2.17 и 2.18, видим, что результаты

62

моделирования объясняют природу отмеченных ранее трудностей измере-ния периода (частоты) основного тона.

Рис. 2.19. График функции корреляции (обертон мощнее в два раза)

2.2.3. Преобразование Фурье функции корреляции как способ

выявления периодического колебания Решение указанной выше проблемы можно найти путем вычисления

преобразования Фурье от корреляционной функции. Гармоники, из кото-рых состоит функция корреляции, превратятся в спектральные пики, раз-несенные по частоте. Тем самым будет решена проблема разделения ос-новного тона и обертонов.

В сущности, мы вплотную подошли к идее вычисления спектра мощности стационарного случайного процесса (ССП), провозглашенной в свое время независимо друг от друга советским математиком А. Хинчи-ным и американским кибернетиком Н. Винером. Пара преобразований Ви-нера – Хинчина – это преобразования Фурье, связывающие между собой функцию корреляции и спектр мощности ССП [38]:

( ) ( )exp( 2 ) ,

( ) ( )exp( 2 ) .

P f K j f d

K P f j f df

∞

−∞∞

−∞

⎧= −⎪

⎪⎨⎪ =⎪⎩

∫

∫

τ π τ τ

τ π τ (2.54)

Применяя преобразование Фурье к функции (2.53), получим

63

20 0

0 0

( ) [ ( ) ( ) ]42 [ ( 2 ) ( 2 ) ] .2

AP f f f f f

A f f f f

= + + − +

+ + + −

δ δ

δ δ (2.55) График функции (2.55) показан на рис. 2.20. В области положитель-

ных частот мы имеем два идеально разделяемых спектральных пика. Разумеется, результат изме-

рений спектра мощности, именуе-мый «оценкой спектра мощности», будет выглядеть несколько хуже, как и «положено» всякой оценке. Оценка спектра будет отличаться от истинного спектра на величину ошибки измерений, содержащей систематическую и случайную со-ставляющие.

Оценку спектра мощности с учетом соотношений (2.54) естест-венно сформировать в виде

( ) ( )exp( 2 )T

TP f K j f dτ π τ τ

−= −∫ , (2.56)

где ( )K τ – оценка корреляционной функции. Систематическая составляющая погрешности оценки (2.56) обуслов-

лена тем, что длительность T отрезка наблюдаемого процесса конечна. Можно показать, что математическое ожидание оценки спектра мощности двухкомпонентного ССП имеет вид

{ }{ }

2 2 2( ) ( ) ( )0 042 2 2( 2 ) ( 2 ) .0 02

A TP f Sa f f T Sa f f T

A T Sa f f T Sa f f T

⎡ ⎤ ⎡ ⎤= − + + +⎣ ⎦ ⎣ ⎦

⎡ ⎤ ⎡ ⎤+ − + +⎣ ⎦ ⎣ ⎦

π π

π π

График этой функции для двух значений параметра T показан на рис. 2.21. На нижнем графике параметр T вдвое больше, чем на верхнем. При построении графиков приняты следующие обозначения:

''

'2r f N rf T r f N t

B f fΔ= Δ Δ = =

Δ Δ, 0 0f T r= .

%===== функц. коррел. полигармонич. сигнала ====== figure; r = 0:200; fT1 = r/10; fT2 = r/5;

( )P f

2

4A

2

2A

0 0f 2 0f f

Рис. 2.20. График функции (2.55)

64

f0T1 = 6; f0T2 = 12; P1 = (sinc(fT1 – f0T1)).^2 + 2*(sinc(fT1 – 2*f0T1)).^2; P2 = (sinc(fT2 – f0T2)).^2 + 2*(sinc(fT2 – 2*f0T2)).^2; subplot(2,1,1); plot(r,P1); % fT = r/10 title(‘fT = r/10’); grid on; subplot(2,1,2); plot(r,P2); % fT = r/5 title(‘fT = r/5’); grid on;

Рис. 2.21. График математического ожидания оценки спектра мощности двух-компонентного ССП

Верхний график (рис. 2.21) соответствует случаю 0, 6;10rf T r= =

нижний – 0; 125rf T r= = .


1. Что такое ряд Фурье и каковы условия Дирихле? 2. Как определяются ППФ и ОПФ? 3. Какая связь между коэффициентами Фурье и спектром сигнала? 4. Каковы свойства ДПФ? 5. Что такое спектрограмма сигнала и как она вычисляется в MATLAB?

65

6. Что такое аддитивная смесь сигнала и как происходит процесс ее построения в MATLAB?

7. Какова функция корреляции? 8. Какова оценка спектра мощности сигнала с учетом преобразова-

ния Фурье?

66

Глава 3. ЦИФРОВАЯ ФИЛЬТРАЦИЯ РЕЧЕВОГО СИГНАЛА

Под термином «цифровая фильтрация» обычно понимают локальную цифровую обработку сигнала скользящим окном с заданной апертурой. При этом полагают, что размер окна много меньше размера выборки обра-батываемого фрагмента сигнала. Для каждого положения окна, за исклю-чением, возможно, небольшого числа крайних точек выборки, выполняют-ся однотипные действия, которые определяют так называемый отклик, или выход фильтра. Если действия, определяющие отклик фильтра, не изме-няются в процессе перемещения по выборке сигнала, то соответствующий фильтр называется стационарным, в противном случае – нестационарным. Различают линейную и нелинейную цифровую фильтрацию [16, 38].

3.1. Линейная цифровая фильтрация Линейная цифровая система описывается уравнением свертки

[ ] [ ]y n h x n lll

∞= −∑

= − ∞, (3.1)

где [ ]x n – входная выборка, [ ]y n – выходная выборка, lh – импульсная характеристика системы. Передаточная функция линейной цифровой сис-темы определяется выражением

( )( )( )

Y zH zX z

= , (3.2)

где ( ) [ ] nX z x n zn

∞= ∑

= −∞, ( ) [ ] nY z y n z

n

∞= ∑

= −∞ – Z-преобразования вход-

ной и выходной выборок сигнала. Если умножить обе части равенства (3.1) на nz и просуммировать по

n , можно получить выражение для передаточной функции линейной циф-ровой системы в виде

( ) llH z h z

l−∞

= ∑= −∞

, (3.3)

где lh – импульсная характеристика системы.

67

Необходимое и достаточное условие устойчивости линейной цифро-вой системы [9, 20, 23] часто записывается в виде неравенства для им-пульсной характеристики системы:

lhl

∞< ∞∑

= −∞. (3.4)

Линейная цифровая система является физически реализуемой, если 0lh = при 0l < . Цифровые устройства, выполняющие преобразования вида (3.1), на-

зываются линейными цифровыми фильтрами. Они являются финитной ли-нейной цифровой системой и в общем случае описываются уравнением

0 0[ ] [ ]

I L

i li l

a y n i b x n l= =

− = −∑ ∑ , (3.5)

где { },a bi l – коэффициенты фильтра. Обычно линейные цифровые

фильтры подразделяют на фильтры низких частот, высоких частот, полос-но-пропускающие и полосно-заграждающие (режекторные) фильтры, ам-плитудные и фазовые фильтры-корректоры, гребенчатые фильтры и др. Первые четыре типа называют основными, или базовыми типами фильт-ров. По своей конструкции линейные цифровые фильтры разделяют на ре-курсивные и нерекурсивные (трансверсальные) фильтры. Коэффициенты трансверсальных фильтров, или фильтров с конечной импульсной харак-теристикой (КИХ-фильтров), удовлетворяют следующим условиям:

0 1, 0ia a= = для всех 0i ≠ . Рекурсивные фильтры называют фильтрами с бесконечной импульс-

ной характеристикой (БИХ-фильтрами). Передаточная функция линейного цифрового фильтра (3.5) имеет

вид

0( ) .l

L kb zlH z I il a zi

i l

−∑==

−+ ∑=

(3.6)

Многочлены, стоящие в числителе и знаменателе этого выражения, можно представить в виде произведения и переписать передаточную функцию линейного цифрового фильтра (3.5) в следующем виде:

68

0

0

( )( ) .

( )

LlI

ii

z lH zz

=

=

−∏=

−∏

β

α (3.7)

Условие устойчивости линейного цифрового фильтра обычно запи-сывают в виде неравенства 1ia < , где 0, 1, ,i l= … , т. е. полюса переда-точной функции цифрового фильтра должны лежать внутри окружности единичного радиуса. Положение нулей передаточной функции lβ на ус-тойчивость фильтра не влияет, однако условие 1l <β при 0, 1, ,l L…= оп-ределяет минимально-фазовый цифровой фильтр.

Частотная характеристика цифрового фильтра ( )H ω соответствует

передаточной функции фильтра ( )H z при j Tz e ω= , где T – интервал дис-кретизации, 2 f dω π= – круговая частота. Поскольку экспоненциальная

функция мнимого аргумента j Tz e ω= – периодическая функция частоты с периодом 2W Tπ= , то частотная характеристика цифрового фильтра ( )H ω также является периодической функцией частоты с периодом W.

Вычисление коэффициентов цифрового фильтра, удовлетворяющего заданным условиям, принято называть проектированием (синтезом) фильтра, а устройство или программу, которые осуществляют преобразо-вание цифровых сигналов, – реализацией фильтра.

3.2. Нелинейная цифровая фильтрация Класс нелинейных цифровых фильтров слишком большой для того,

чтобы проводить его изучение в общем виде, поэтому ограничимся рас-смотрением одного из самых известных семейств нелинейных цифровых фильтров, а именно семейства порядковых фильтров. Они широко исполь-зуются в задачах цифровой обработки сигналов и изображений, в частно-сти для обнаружения объектов, выделения границ, подавления импульс-ных помех. Отклик порядкового p -фильтра определяется как p -я поряд-ковая статистика [20, 24, 25], т. е. элемент под номером p , где p – одно из чисел { }0, 1, , 1N −… , N – размер апертуры фильтра в вариационном ряду, полученном из выборки исходных данных, находящихся в пределах апертуры фильтра. В частности, при 0p = и 1p N= − выходная выборка будет описывать соответственно «нижнюю» и «верхнюю» огибающие сиг-нала, а при 2p N= выходная выборка будет представлять результат ме-дианной фильтрации сигнала.

69

3.3. Нерекурсивные цифровые фильтры (НЦФ) Нерекурсивные цифровые фильтры (НЦФ) характеризуются сле-

дующими достоинствами: − простота теоретического анализа: существует несколько хорошо из-

вестных и апробированных методик расчета фильтров; − наглядная связь коэффициентов фильтра с отсчетами его импульсной

переходной характеристики; − простота практической реализации; − устойчивость фильтра; − линейность фазовой характеристики (при условии симметричности

фильтра), позволяющая уменьшить искажения фронтов импульсных сиг-налов (поэтому такие фильтры широко применяются в телекоммуникаци-онных системах).

Нерекурсивные фильтры широко применяются при обработке изобра-жений, поскольку описываются матрицей коэффициентов. Также двумерные фильтры являются естественным обобщением одномерных фильтров.

Отличительная особенность НЦФ – зависимость отсчетов выходного сигнала ( )y n только от отсчетов входного сигнала в настоящий момент времени ( )x n и предыдущие моменты ( )x n k− . Алгоритм (уравнение) НЦФ порядка N записывают в виде

( ) ( ).0

Ny n a x n kk

k= −∑

=

Для расчетов удобнее использовать фильтр порядка 2N с алгоритмом фильтрации вида

( ) ( ).N

kk N

y n a x n k= −

= −∑ (3.8)

При N=2 можно записать 2 1 1 20( ) ( 2) ( 1) ( ) ( 1) ( 2),y n a x n a x n a x n a x n a x n− −= + + + + + − + −

где ( )x n – отсчет входного сигнала в момент времени dnT , ( )y n – со-ответствующий выходной сигнал, T d – период дискретизации.

При такой записи алгоритма фильтрации выходной сигнал в момент времени n можно вычислить только тогда, когда станут известны «буду-щие» входные отсчеты. Это означает, что при вычислениях в реальном

70

времени выходной сигнал фильтра будет неизбежно запаздывать относи-тельно входного как минимум на время t T Nd= ⋅ . При малых порядках

фильтра такое запаздывание оказывается вполне допустимым для практи-ческих приложений (например при цифровой телефонной связи).

Если на НЦФ подать единичный импульс 1 при 0,

( ) 0 при 0,

nx n

n=⎧

= ⎨ ≠⎩

то согласно (3.8) на выходе должна появиться последовательность из ( )2 1N + отсчетов, соответствующих весовым коэффициентам фильтра ka .

Очевидно, что эта последовательность конечна, поэтому НЦФ имеет ко-нечный импульсный отклик и называется КИХ-фильтром, или FIR-фильтром (finite impulse response filtre) [16, 26, 38].

Если на НЦФ подать дискретное гармоническое колебание

exp( )x j nTn dω= , тогда из (3.8) следует exp[ ( ) ]N

y a j n k Tn k dk N

ω= ⋅ −∑= −

,

откуда передаточная функция НЦФ имеет вид

( )e x p ( )

e x p ( ) e x p ( ) .

y nH d xn x j n Tn dN

a j k T a j k Tk d k dk N k

ωω

ω ω

= ==

∞= − = −∑ ∑

= − = − ∞ (3.9)

Нетрудно проверить, что ( )Hd ω – функция частоты с периодом

2 Tdπ , т.е. ( ) ( 2 ), 1, 2,...H H r T rd d d= + ⋅ = ±ω ω π .

Таким образом, ( )dH ω может быть представлена рядом Фурье в час-

тотной области, причем коэффициенты ka этого ряда определяются соот-

ношением /

d ( )exp( )2 /

dk

d

TTa H j j kT dd d

T= ∫

−

πω ω ω

π π. (3.10)

71

При расчетах удобно оперировать четными либо нечетными относи-тельно k коэффициентами ka . В этом случае упрощается вид передаточ-

ной функции ( )Hd ω . Для четных k ka a−= передаточная функция

( )Hd ω – вещественная и состоит из суммы взвешенных косинусоид

( ) 2 cos01

kN

H a a k T ddk

ω ω= + ∑=

,

а для нечетных k ka a−= − – чисто мнимая и состоит из суммы синусоид

( ) 2 sin1

kN

H j a kTd dk

ω ω= − ∑=

.

3.4. Рекурсивные цифровые фильтры (РЦФ, или IIR) Отсчеты выходного сигнала рекурсивного цифрового фильтра (РЦФ)

в каждый момент времени зависят не только от отсчетов входного сигнала, но и от отсчетов выходного сигнала в предшествующие моменты време-ни. В общем случае уравнение РЦФ записывают в виде [16, 26, 38]

( ) ( ) ( )0 1

k kN M

y n a x n N b y n kk k

= − − −∑ ∑= =

. (3.11)

Большее из двух чисел M, N определяет порядок фильтра. На простейших примерах можно показать, что импульсная переда-

точная характеристика (ИПХ) рекурсивного фильтра бесконечна, поэтому такой фильтр именуют БИХ, или IIR-фильтром (infinite impulse response).

Действительно, пусть уравнение РЦФ имеет вид 0,5 1yy x nn n= + − .

Подадим на такой фильтр единичный импульс 1, 0,

0 0, 0.n

x xn n=⎧

= = ⎨ =⎩

Поскольку в моменты времени, предшествующие 0n = , фильтр не был возбужден, т.е. 01y =− , получаем:

при 0 1; 0,5 1;0 0 00 1при 1 0; 0,5 0,5;1 11 0при 2 0; 0,5 0,252 22 1

n y yx x xn y yx xn y yx x

= = = + = =−= = = + =

= = = + =

и так далее, т.е. ИПХ длится бесконечно долго.

72

Для получения передаточной функции рекурсивного фильтра приня-

то использовать Z-преобразование ( ) nnX z x z

n

∞ −= ∑= −∞

.

Умножая ( )y n на 10b = и подвергая обе части уравнения (3.11) Z-преобразованию, получаем

( ) ( ) .0 0

M N nnb y n k a x n k zzk kn k n k

∞ ∞⎡ ⎤ ⎡ ⎤ −−− = −∑ ∑ ∑ ∑⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= − ∞ = = − ∞ =⎣ ⎦ ⎣ ⎦

Принимая 0ka = при 0N k< < и 0kb = при 0M k< < , можно рас-

ширить границы суммирования до ±∞ :

( ) ( ) nnb y n k a x n k zzk kn k n k

∞ ∞ ∞ ∞⎡ ⎤ ⎡ ⎤ −−− = −∑ ∑ ∑ ∑⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= −∞ = −∞ = −∞ = −∞⎣ ⎦ ⎣ ⎦

или

( )

( )

( )

( ).

n kkb z y n k zkk n

n kka z x n k zkk n

∞ ∞ − −− − =∑ ∑= −∞ = −∞∞ ∞ − −−= −∑ ∑= −∞ = −∞

Обозначив ( )m n k= − , получим

k k mmk m mkz z zyb a xz

k n k n

∞ ∞ ∞ ∞− − −−=∑ ∑ ∑ ∑= −∞ = −∞ = ∞ = −∞

,

или компактном виде ( ) ( ) ( ) ( )B z Y z A z X z⋅ = ⋅ , где ( ) ( ) ( ) ( ), , ,B z Y z A z X z – Z-преобразования соответствующих числовых последовательностей.

Отсюда следует, что Z-преобразование передаточной функции фильтра (т.е. отношение выходной реакции к входному воздействию) имеет вид

( ) ( )( )( ) ( )1 2

0 1 2 .1 20 1 2

Y z A zH zd X z B zNa a z a z a zN

Mb b z b z b zM

= = =

− − −+ + +… += − − −+ + +…

(3.12)

73

После подстановки в (3.12) exp( )z j Tdω= получим передаточную

функцию в виде зависимости коэффициента передачи от частоты: ( ) ( exp( ))j z jH H Td d dω ω= = . ( )jH d ω –функция частоты с периодом 2 T dπ .

3.5. Адаптивная фильтрация речевых сигналов Как правило, адаптивные устройства выполняются узко функцио-

нального целевого назначения под определенные типы сигналов. Внут-ренняя структура адаптивных систем и алгоритм адаптации практически полностью регламентируются функциональным назначением и опреде-ленным минимальным объемом исходной априорной информации о ха-рактере входных данных и их статистических и информационных пара-метрах. Это порождает многообразие подходов при разработке систем, существенно затрудняет их классификацию и разработку общих теоре-тических положений [13].

Тем не менее все способы использования адаптивных фильтров так или иначе сводятся к решению задачи идентификации, т.е. определения характеристик некоторой системы. Возможны два варианта идентифика-ции – прямая и обратная. В первом случае адаптивный фильтр включают параллельно с исследуемой системой (рис. 3.1, а). Входной сигнал являет-ся общим для исследуемой системы и адаптивного фильтра, а выходной сигнал системы служит для адаптивного фильтра образцовым сигналом. В процессе адаптации временные и частотные характеристики фильтра будут стремиться к соответствующим характеристикам исследуемой системы.

При обратной идентификации адаптивный фильтр включается по-следовательно с исследуемой системой (рис. 3.1, б). Выходной сигнал сис-темы поступает на вход адаптивного фильтра, а входной сигнал системы является для него образцом. Таким образом, фильтр стремится компенси-ровать влияние системы и восстановить исходный сигнал, устранив вне-сенные системой искажения.

Заметим, что в рассмотренных схемах (см. рис. 3.1) независимо от варианта идентификации адаптивный фильтр имеет два входа: на один подается сигнал с входа исследуемой системы, а на второй – с выхода. Таким образом, адаптивный фильтр располагает информацией, доста-точной для измерений характеристик исследуемой системы. Попробуем

74

проследить, как адаптивный фильтр распоряжается этой информацией, формируя некий выходной сигнал. С этой целью рассмотрим более кон-кретную проблему.

Рис. 3.1. Идентификация системы с помощью адаптивного фильтра:

а – прямая, б – обратная Пусть необходимо обеспечить водителя шумного транспортного

средства (поезд метро, трактор, самолет и т.п.) системой речевой связи. При этом воспринимаемый микрофоном речевой сигнал неизбежно ока-жется сильно зашумленным. Информацию о шуме можно получить, уста-новив второй микрофон в непосредственной близости от двигателя (или иного источника шумов). Разумеется, этот шум нельзя просто вычесть из речевого сигнала, поскольку к двум микрофонам шум следует разными пу-тями и, следовательно, претерпевает разные искажения (рис. 3.2).

Рис. 3.2. Подавление шума с помощью адаптивного фильтра

Источник сигнала

Датчик сигнала

Датчик шума

Источник шума

Путь 1

Путь 2

Адаптивный фильтр

Вход

Сигнал

Очищенный от шумов речевой

сигнал

Образец

Вход Вход Образец Образец а) б)

Исследуемая система


Исследуемая система


75

Однако случайные шумовые процессы, воспринимаемые двумя мик-рофонами, будут коррелированными, так как они происходят из общего источника. В то же время очевидно, что шумовой сигнал не коррелирован с полезным речевым сигналом.

Сопоставляя рис. 3.2 и 3.1, нетрудно заметить, что с помощью адап-тивного фильтра в данном случае решается задача прямой идентификации исследуемой системы, которая преобразует шум на пути от источника шу-ма к датчику сигнала («путь 1»).

Входных сигналов у адаптивного фильтра два. По смыслу решаемой задачи «главный» входной сигнал – это сигнально-шумовая смесь с выхода основного микрофона, тогда как шум с выхода дополнительного микрофо-на – «вспомогательный». По терминологии рис. 3.1 и 3.2 «главный» вход-ной сигнал – это «образец». По американской терминологии (рис. 3.3) – это desired, т.е. «желаемый», или «пилотный» сигнал. Шумовой сигнал от дополнительного микрофона на рис. 2.16 именуют «входным», что совпа-дает с американским термином input. Другое название этого шумового сигнала в американской литературе – reference, т.е. «опорный» [7].

Адаптивный фильтр стремится преобразовать входной сигнал так, чтобы сделать его как можно ближе к образцу. Поскольку с входным сиг-налом фильтра коррелирована лишь шумовая составляющая образцового сигнала, в установившемся режиме на выходе фильтра будет получаться оценка шума, присутствующего в образцовом сигнале. Этот выходной сигнал, однако, нужен лишь как вспомогательное средство для получения второго выходного сигнала – сигнала «ошибки», рассчитываемого как раз-ность между образцовым сигналом и выходным сигналом адаптивного фильтра. Сигнал «ошибки» и представляет собой очищенный от шума ре-чевой сигнал.

Таким образом, адаптивный фильтр помимо двух входов должен иметь два выхода. По смыслу решаемой задачи «главным» выходным сигналом является очищенный от шумов речевой сигнал. Этот разност-ный сигнал (между образцовым сигналом и вторым выходным сигналом адаптивного фильтра, о котором будет сказано далее) именуют «сигна-лом ошибки», или по американской терминологии error (см. рис. 3.3 и 3.4). Данный термин, возможно, не слишком удачен, ибо ассоциируется с чем-то негативным. Его происхождение можно объяс-

76

нить широким применением адаптивных фильтров в системах автомати-ческого регулирования – там «сигналу ошибки» вполне обоснованно приписывается отрицательная роль. Что касается задачи подавления шумов, маскирующих речь, здесь, как видим, термин «ошибка» ни в ко-ем случае не следует понимать буквально.

Рис. 3.3. Simulink – модель адаптивного фильтра в задаче шумоподавления

Второй выходной сигнал адаптивного фильтра играет «вспомога-

тельную» роль – это оценка шума, маскирующего речевой сигнал. По смыслу решаемой задачи его можно также называть шумом, приведенным ко входу главного микрофона. Как следует из рис. 3.4, этот сигнал ( )y k снимают с выхода управляемого фильтра и называют «выходной сигнал» – output (см. рис. 3.3).

Общая структура адаптивного фильтра показана на рис. 3.4. Как ви-дим, адаптивный фильтр состоит из трех компонентов: перестраиваемый фильтр, блок (алгоритм) адаптации, управляющий параметрами фильтра, а также блок вычитания.

77

Опорный шумовой сигнал ( )x k обрабатывается фильтром, в резуль-тате чего получается выходной сигнал ( )y k . Этот выходной сигнал срав-нивается с образцовым сигналом ( )d k , разность между ними образует сиг-нал ошибки ( )e k . Задача адаптивного фильтра – минимизировать ошибку воспроизведения образцового сигнала. С этой целью блок адаптации после обработки каждого отсчета анализирует сигнал ошибки и дополнительные данные, поступающие из фильтра, и использует результаты этого анализа для подстройки параметров (коэффициентов) фильтра.

Рис. 3.4. Общая структура адаптивного фильтра

Возможен и иной вариант адаптации, при котором опорный шумовой

сигнал не используется. Такой режим работы называется слепой адаптаци-ей (blind adaptation), или обучением без учителя (unsupervised learning). Ра-зумеется, в этом случае требуется некоторая информация о структуре по-лезного входного сигнала (например, знание типа и параметров исполь-зуемой модуляции). Очевидно, что слепая адаптация – более сложная вы-числительная задача, нежели адаптация с использованием образцового сигнала.

В качестве фильтра в структуре, показанной на рис. 3.4, чаще всего используют нерекурсивный цифровой фильтр. Одно из главных досто-инств этого варианта – нерекурсивный фильтр является устойчивым при любых значениях коэффициентов. Однако следует помнить, что алгоритм адаптации вводит в систему обратную связь, вследствие чего адаптивная система в целом может стать неустойчивой.

Фильтр ( )x k ( )y k ( )d k

Подстройка ко-эффициентов

Доп. данные

Алгоритм адаптации

( )e k

78

3.6. Демонстрационный пример (MATLAB 7) фильтрации по критерию наименьшей среднеквадратичной ошибки (LMS – least mean square error)

Алгоритм фильтрации по критерию минимума среднеквадратичной ошибки (СКО) описывается следующими соотношениями [7]:

( ) ( 1) ( )Ty n w n u n= − , (3.13) ( ) ( ) ( )e n d n y n= − , (3.14)

( ) ( 1) ( ) ( ),w n w n e n u nμ ∗= − + (3.15) где n – номер текущего временного отсчета;

( )u n – вектор отсчетов опорного шума на шаге n ;

( )u n∗ – вектор, комплексно сопряженный с вектором ( )u n ; ( )w n – вектор оценки весовых коэффициентов фильтра на шаге n ; ( )y n – выходной сигнал фильтра на шаге n ; ( )e n – сигнал ошибки на шаге n ; ( )d n – образцовый сигнал на шаге n ;

μ – величина шага адаптации. Соотношение (3.13) описывает в векторной форме процедуру цифро-

вой фильтрации опорного шума ( )u n . Соотношение (3.14) –процедуру вы-читания фильтрованного шума ( )y n из образцового сигнала ( )d n , в ре-зультате чего образуется выходной сигнал ошибки ( )e n , представляющий собой конечный результат работы адаптивного фильтра. Соотношение (3.15) характеризует процедуру изменения во времени (адаптации) весо-вых коэффициентов фильтра.

Уже в самом названии алгоритма указано, что здесь имеет место винеров-ская фильтрация [12]. Заметим, что параметры винеровского фильтра изменя-ются во времени. Однако теперь в отличие от рассмотренных ранее случаев не-адаптивной винеровской фильтрации задачей винеровского фильтра является выделение не сигнала, а помехи. Таким образом, в адаптивном фильтре вине-ровский фильтр играет важную, но вспомогательную роль. Подавление же по-мехи происходит на следующем этапе обработки – при вычитании (сложении в противофазе) выделенной помехи из смеси «сигнал + помеха».

Демонстрационный пример применения адаптивного фильтра для подавления шумовой помехи показан на рис. 3.3 и 3.5. При его построении в качестве основы использован файл dspanc_win32.mdl (MATLAB 7).

Центральным блоком схемы рис. 3.3 является блок Normalized LMS. В нем реализованы и цифровой фильтр с переменными параметрами, алго-

79

ритм адаптации, и операция вычитания (см. рис. 3.4). Приставка Normalized означает, что адаптация весовых коэффициентов происходит не по прави-лу (3.15), а следующим образом:

( )( ) ( 1) ( )( ) ( )H

u nw n w n e nu n u n

μα

∗= − +

+, (3.16)

где символ H обозначает операцию эрмитового транспонирования, отли-чающуюся от обычного транспонирования тем, что вектор подвергается еще и комплексному сопряжению; α – малая положительная константа (порядка 810− при одинарной точности вычислений и 1610− при двойной точности), добавляемая для подстраховки от случая «деление на ноль».

Параметры управляемого фильтра изменяются во времени. Если они изменяются «правильно», выделяемый фильтром шум лучше компенсиру-ет помеху в смеси «сигнал + шум», так что по прошествии достаточного времени «сигнал ошибки» на выходе адаптивного фильтра должен содер-жать практически чистый речевой сигнал.

Рис. 3.5. Содержание блока Acoustic Environment

Содержание блока Acoustic Environment (акустическая среда) пока-

зано на рис. 3.5, из которого следует, что блок Acoustic Environment пред-назначен для моделирования двух входных сигналов адаптивного фильтра Normalized LMS. На вход Input (Exterior Mic) подается белый гауссовский шум («опорный» шум), а на вход Desired (Pilot’s Mic) – смесь речевого сигнала с окрашенным шумом. Графики входных и выходных сигналов адаптивного фильтра показаны на рис. 3.6, 3.7 и 3.8.

80

Рис. 3.6. Отрезок незашумленного речевого сигнала

Рис. 3.7. Отрезок зашумленного речевого сигнала

Рис. 3.8. Отрезок сигнала на выходе адаптивного фильтра

81

Сравнивая приведенные выше рисунки, нетрудно заметить положи-тельный эффект работы адаптивного фильтра. Еще более он проявляется при восприятии результатов фильтрации на слух.

3.7. Метод наименьших квадратов и оптимальный

фильтр Винера Пусть случайный входной дискретный сигнал ( )x k обрабатывается

нерекурсивным дискретным фильтром порядка N , коэффициенты которо-

го могут быть представлены вектором-столбцом [ , , , ]0 1Tw w w wN= … .

Выходной сигнал фильтра

( ) ( )Ty k u k w= , (3.17)

где ( ) [ ( ), ( 1), , ( )]Tu k x k x k x k N= − … − – вектор-столбец содержимого линии задержки фильтра на k -м шаге [38].

Кроме того, имеется образцовый (также случайный) сигнал ( )d k . Ошибка воспроизведения образцового сигнала

( ) ( ) ( ) ( ) ( )Te k d k y k d k u k w= − = − . (3.18) Необходимо найти такие коэффициенты w , которые обеспечивают

максимальную близость выходного сигнала фильтра к образцовому, т.е. минимизируют ошибку ( )e k . Поскольку ( )e k – также случайный процесс, в качестве меры ее величины разумно принять средний квадрат. Таким об-разом, оптимизируемый функционал выглядит так:

2( ) ( ) minJ w e k= < >→ . Алгоритм адаптивной фильтрации, реализуемый в соответствии с

соотношениями (2.44) – (2.46), обеспечивает оптимальную винеровскую фильтрацию и основан на поиске минимума целевой функции методом на-искорейшего спуска. Этот алгоритм называют также алгоритмом метода наименьших квадратов (LSM – least mean square error). Известны условия сходимости процесса поиска этого минимума [2]:

max0 2/< <μ λ , где maxλ – максимальное собственное число корре-

ляционной матрицы R сигнала ( )u k , ( ) ( )TR u k u k=< > . Матрица R имеет размеры ( 1) ( 1)N N+ × + .

82

3.8. Рекурсивный метод наименьших квадратов (RLS) Данный метод описывается тремя соотношениями, подобными соот-

ношениям (3.13) – (3.15). Отличие состоит лишь в том, что вместо соотно-шения (3.15) используется иное [38]:

( ) ( ) ( ) ( )1w k w k K k e k= − + , (3.19)

где ( )K k – вектор-столбец так называемых коэффициентов усиления,

( ) ( ) ( )( ) ( ) ( )

11 1T

P k u kK k

k P k u ku−

=+ −

, (3.20)

где ( )P k – оценка обратной корреляционной матрицы сигнала:

( ) ( ) ( ) ( ) ( )1 1TP k P k K k k P ku= − − − . (3.21) Главное достоинство алгоритма RLS – быстрая сходимость, которая,

однако, достигается за счет более сложных вычислений (по сравнению с алгоритмом LMS).


1. Что такое цифровая фильтрация сигнала? 2. Какие виды цифровой фильтрации более эффективны при обра-

ботке речевого сигнала? 3. Каковы отличительные особенности линейной и нелинейной

фильтрации? 4. Чем характеризуются НЦФ? 5. Каковы отличительные особенности НЦФ? 6. Почему удобнее применять фильтр порядка 2N для расчета НЦФ? 7. Что такое адаптивная фильтрация и в каких задачах она применя-

ется? 8. Чем характеризуется слепая адаптация? 9. Как определяется наименьшая среднеквадратическая ошибка –

LMS? 10. Какова эффективность применения адаптивной фильтрации в

среде MATLAB при обработке речевого сигнала? 11. Каковы особенности метода наименьших квадратов и фильтра

Винера?

83

Глава 4. МЕТОДЫ ОБРАБОТКИ РЕЧЕВЫХ СИГНАЛОВ,

ИСПОЛЬЗУЕМЫЕ В СИСТЕМАХ РАСПОЗНАВАНИЯ РЕЧИ

4.1. Скрытые марковские модели Использование скрытых марковских моделей (СММ) для распозна-

вания речи базируется на следующих предположениях. 1. Речь может быть разбита на сегменты (состояния), внутри которых

речевой сигнал может рассматриваться как стационарный. Переход между этими состояниями осуществляется мгновенно.

2. Вероятность появления символа, порождаемого моделью, зависит только от текущего состояния модели и не зависит от предыдущих порож-денных символов.

По сути, ни одно из этих двух предположений не является справед-ливым для речевого сигнала. Большое количество исследований посвяще-но тому, чтобы сгладить недостатки этих предположений [29]. Тем не ме-нее стандартные СММ – основа для большинства современных систем распознавания речи.

Существует несколько типов СММ, различающихся по своей топо-логии (эргодические, лево-правые и др.), с дискретными или непрерывны-ми символами наблюдения. Рассмотрим тип СММ, который был использо-ван компанией «SPIRIT Corp» для построения системы автоматического распознавания речи «SPIRIT ASR Engine».

В построении ASR Engine использовались лево-правые СММ без пропусков состояний с непрерывной плотностью наблюдений [5].

4.1.1. Математическая модель лево-правых СММ На рисунке представлена топология подобной СММ с тремя состоя-

ниями. Скрытая марковская модель представляет собой конечный автомат,

изменяющий свое состояние в каждый дискретный момент времени t . Пе-реход из состояния iS в состояние jS осуществляется случайным образом с вероятностью ija . В каждый дискретный момент времени модель порож-дает вектор наблюдений tO с вероятностью ( )tOb j .

84

Параметры СММ Для определения скрытой марковской модели необходимо задать

следующие элементы.

Лево-правая СММ без пропусков состояний

1. N – число состояний в модели. В каждый момент времени модель

может находиться в одном из N различных состояний 1 2, ,..., NS S S . В дискретные моменты времени t модель меняет состояние (возможно, пе-реходя при этом опять в то же состояние). В каждый момент времени со-стояние модели будем обозначать qt .

2. Распределение вероятностей переходов между состояниями

{ }ijA a= , где , 1 ,1a P q S q S i j Nij t j t i⎡ ⎤= = = ≤ ≤+⎢ ⎥⎣ ⎦

. (4.1)

3. ( ){ }j tB b O= – распределение плотностей вероятности наблюдений

для каждого состояния iS , где ( ) ( | )P jqb O Oj t t t= = , 1 ,1t T j N≤ ≤ ≤ ≤ ; (4.2)

tO – вектор наблюдений в момент времени t . В непрерывных СММ величина ( )b Oj t моделируется конечной га-

уссовской смесью вида

( ) ( , , ) 1

MNb O C O Ui t ik t jkjk

kμ= ∑

=, (4.3)

где Cik – весовой коэффициент k -го компонента смеси в состоянии j , M – количество компонентов смеси, N – гауссовская плотность вероят-ности. Коэффициенты Cik удовлетворяют стохастическим ограничениям

11a 22a 33a

12a 23a

1S 2S 3S ( )1 1b O

Последовательность векторов наблюдений

O = 1O ….. OT

85

(4.4) Плотность N характеризуется вектором средних значений jkμ и

ковариационной матрицей U jk для k -го компонента смеси в состоянии S j :

(4.5)

где n – размерность вектора наблюдений Ot . 4. Начальное распределение вероятностей состояний { }iπ π=

[ ]1P q Si iπ = = , 1 i N≤ ≤ . (4.6) Из вышесказанного нетрудно увидеть, что полное описание СММ

предполагает задание двух параметров модели ( , )N M , множества допус-тимых символов наблюдения, а также трех вероятностных мер ( , , )A B π . Далее для обозначения всего множества параметров модели используется краткая запись ( , , )A B=λ π .

Применение СММ Для того чтобы использовать СММ в практических задачах, необхо-

димо решить три проблемы [41]. Проблема 1 . Пусть заданы последовательность наблюдений , ,1O O OT= … и модель ( , , )A Bλ π= . Как эффективно вычислить вероят-

ность ( | )P O λ появления этой последовательности наблюдений для дан-ной модели?

Проблема 2 . Пусть заданы последовательность наблюдений , ,1O O OT= … и модель λ . Как выбрать последовательность состояний , ,1Q q qT= … , которая с наибольшей вероятностью для данной модели

( , | )P O Q λ порождает заданную последовательность наблюдений? Проблема 3 . Каким образом нужно подстроить параметры модели

( , , )A Bλ π= для того, чтобы максимизировать ( | )P O λ ? Далее последовательно будут рассмотрены эти три проблемы и алго-

ритмы, приводящие к их решению.

1, 1 , 11

0.

MC i N k Mi k

kC i k

⎫= ≤ ≤ ≤ ≤∑ ⎪⎪

⎬=⎪≥ ⎪⎭

( , , )

1 1 1( )e x p ( ) ,2(2 )

N O Ut j kj kTOt U Oj k t j kj kn U j k

μ

μ μπ

=

⎡ ⎤−−= − −⎢ ⎥⎣ ⎦

86

4.1.2. Алгоритм прямого-обратного хода (решение проблемы 1) Наиболее прямой путь для вычисления вероятности ( | )P O λ –

перечислить все возможные последовательности состояний заданной дли-ны T. Так, для фиксированной последовательности , ,1Q q qT= … вероят-ность ее появления для данной модели

( 1)1 1 2 2 3( | ) ... .q T qTP Q a a aq q q q qλ π −= (4.7)

Вероятность появления заданной последовательности наблюдений для этой фиксированной последовательности состояний при условии неза-висимости наблюдений определяется как

( | , ) ( ) ( )... ( )1 21 2P O Q b O b O b OTq q qT

=λ . (4.8)

Совместная вероятность последовательностей O и Q – это произве-дение вероятностей

( , | ) ( | , ) ( , )P O Q P O Q P Q=λ λ λ . (4.9) Вероятность появления последовательности наблюдений O для дан-

ной модели вычисляется как сумма всех эти совместных вероятностей для всех возможных последовательностей состояний Q :

( | , ) ( | )( | )( ) ( ) ( ).1 21 1 1 2 2 2 3 1T T T

P O Q P QP O Qb O a b O a a b Oq q q q q q q q q q T

Q

λ λλπ …

∑= =∑

−= (4.10)

Из выражения (4.10) следует, что необходимо выполнить порядка 2T умножений для каждой из TN последовательности состояний Q . Та-ким образом, при прямом подсчете вероятности ( | )P O λ требуется провес-ти порядка 2 TTN умножений. Даже для небольших чисел, например,

10N = и 5T = , необходимо порядка 610 операций умножения. Для прак-тического решения первой проблемы требуется более эффективная проце-дура, которая называется процедурой прямого – обратного хода (Forward – backward procedure ) [41].

Существует две модификации алгоритма, равноценные по вычисли-тельным затратам, – алгоритм прямого хода и алгоритм обратного хода. Они различаются выбором переменной, прямой или обратной, предпочти-тельной в каждом конкретном случае.

Алгоритм прямого хода. Введем так называемую прямую перемен-ную ( )ta i , определяемую выражением

1 2( ) ( , ,..., | );ta i P qO O O St it λ= = , (4.11) которая представляет собой вероятность появления для данной модели частичной последовательности наблюдений 1 2, ,...,O O Ot до момента t и

87

состояний Si в этот момент времени. Значение переменной ( )ta i вычисля-ется по индукции следующим образом:

1) инициализация: 11( ) ( )a i b Oi iπ= , 1 i N≤ ≤ ; (4.12)

2) индуктивный переход:

( ) ( ) ( )1 11

Nj ia a a b Ot t ij j t

i

⎡ ⎤= ∑⎢ ⎥+ +⎢ ⎥=⎣ ⎦

, 1 1t T≤ ≤ − , 1 i N≤ ≤ ; (4.13)

3) окончание:

( | ) ( )1

NP O a iT

iλ = ∑

=. (4.14)

Для вычисления вероятности ( | )P O λ , таким образом, требуется уже

порядка TTN вычислительных операций [28]. Для взятых в качестве при-

мера чисел 10N = и 5T = количество операций умножения составляет около 500, что в 2000 раз меньше, чем для прямых вычислений.

Алгоритм обратного хода. Аналогичным образом можно ввести об-ратную переменную ( )itβ , определяемую выражением

1, 2( ) ( ,..., | , )i P qO O O St t T it t λβ = =+ + , (4.15) которая для заданной модели λ представляет собой совместную вероят-ность появления частичной последовательности наблюдений от момента времени 1t + до T и состояния Si в момент времени t .

Значения обратной переменной также можно вычислить по индук-ции:

1) инициализация: ( ) 1, 1i i Ntβ = ≤ ≤ ; (4.16)

2) индукция:

( ) ( ) ( ),1 11

для всех 1, 2, , 1, 1 ;

Ni ja b Oij j tT t

jt T T i N

β β

…

= ∑ + +== − − ≤ ≤

(4.17)

3) окончание: 11

( | ) ( ) ( )N

P O ib Oi i ii

λ βπ= ∑=

. (4.18)

4.1.3. Алгоритм Витерби (решение проблемы 2) Рассмотрим решение второй проблемы, которая заключается в поис-

ке оптимальной последовательности состояний, соответствующих задан-ной последовательности наблюдений. Существует несколько приемлемых критериев оптимальности.

88

Алгоритм Витерби используется при лингвистическом декодирова-нии и автоматическом извлечении параметров статистической модели.

( ) ( | , ), ( ) 11

NY i P q S O Y it t i t

iλ= = =∑

=. (4.19)

Введем переменную, которая представляет собой вероятность пре-бывания системы в момент t в состоянии Si при заданной последователь-ности наблюдений O и модели λ . Используя прямую и обратную пере-менные, уравнение (4.19) можно записать в следующем виде:

arg max ( ) , 1q Y i t Tt t⎡ ⎤= ≤ ≤⎣ ⎦ , (4.20)

где ( )Y it соответствует частичной последовательности наблюдений , , ,1 1O O Ot… и состоянию Si в момент t , а ( )itβ – остатку последователь-

ности наблюдений , ,1, 2O O Ot t T+ + … и заданному состоянию Si в момент t .

Используя ( )Y it , можно вычислить наиболее вероятное состояние qt в момент t как состояние, определяемое выражением

arg max ( ) , 1 ; 1q Y i t T i Nt t⎡ ⎤= ≤ ≤ < <⎣ ⎦ . (4.21)

Описание алгоритма Для того чтобы по заданной последовательности наблюдений

, , ,1 1O O Ot… найти наилучшую последовательность состояний

{ }1 2Q q q qT= … , определим следующую величину:

( ) max , |1 2 1 21 2 1i P q q q i O O Ot q q q t tt

δ λ⎡ ⎤= =⎣ ⎦−… …… , (4.22)

которая представляет собой максимальную вероятность того, что при за-данных t первых наблюдениях последовательность заканчивается в мо-мент t в состоянии Si . По индукции получаем

( ) max ( ) ( )1 1j i a b Ot t ij j tδ δ⎡ ⎤=+ +⎢ ⎥⎣ ⎦,

или max ( )

( ) ( ) , 1 ; 1 11 1 1t iji a

j b O i N t Tt j t i N

δδ

⎡ ⎤= ≤ ≤ ≤ ≤ −⎢ ⎥+ + ≤ ≤⎣ ⎦

. (4.23)

Для того чтобы затем восстановить последовательность состояний для всех значений t и j , необходимо хранить значения аргументов, кото-рые максимизируют вероятность (4.23). Для этой цели используют массив

( )jtψ . Полную процедуру, требуемую для определения последовательно-сти состояний, можно теперь сформулировать следующим образом:

89

1) инициализация: ( ) ( ), 1 , ( ) 01 1 1i b O i N ii iδ π ψ= ≤ ≤ = ; (4.24)

2) рекурсия:

( ) max ( ) ( ),1 12 , 1

( ) arg max ( ) ;1 1

j j a b Ot i N t ij j tt T j N

j j at i N t ij

δ δ

ψ δ

⎫⎡ ⎤= ≤ ≤ −⎢ ⎥ ⎪⎣ ⎦ ≤ ≤ ≤ ≤⎬⎡ ⎤ ⎪= ≤ ≤ −⎢ ⎥⎣ ⎦ ⎭

(4.25) 3) окончание:

max ( ) , arg max ( )1 1P i q ii N T t i N Tδ δ∗ ∗⎡ ⎤ ⎡ ⎤= =≤ ≤ ⎣ ⎦ ≤ ≤ ⎣ ⎦ ; (4.26) 4) восстановление пути (последовательности состояний):

( ), 1, 2, ,11 1q q t T Tt t tψ∗ ∗= = − −+ + … . Реализация алгоритма Витерби аналогична (за исключением шага

восстановления) процедуре прямого хода. Основное отличие – использо-вание вместо процедуры суммирования процедуры максимизации. Кроме того, алгоритм Витерби может быть применен для решения первой про-блемы (определения вероятности появления заданной последовательности наблюдений для данной модели), поскольку на окончательном шаге алго-ритма получают вероятность для всей предшествующей последовательно-сти наблюдений.

4.1.4. Алгоритм Баума – Велча (решение проблемы 3) Проблема переоценки параметров модели ( , , )A Bλ π= по заданной

последовательности наблюдений – наиболее трудоемкая в вычислительном плане проблема СММ. Используя итеративные процедуры можно локаль-но максимизировать вероятность ( | )P O λ . Одна из таких процедур – метод переоценки Баума – Велча (Baum – Welch method), или ЕМ-метод (Expectation-maximization).

Введем переменную ( , ) ( , | , )1i j P Oq qS Si jt t t λξ = = =+ , (4.27)

которая определяет вероятность того, что при заданной последовательно-сти наблюдений в моменты времени t и 1t + система будет соответствен-но находиться в состояниях Si и S j .

Используя определения прямой и обратной переменных (4.11 и 4.15), можно записать:

90

( ) ( ) ( )1 1( , )( | )

( ) ( ) ( )1 1 .( ) ( ) ( )1 1

1 1

j ja a b Ot ij j t ti jt P Oj ja a b Ot ij j t t

N Nj ja a b Ot ij j t t

i j

+ += =

+ +=∑ ∑ + += =

βξ

λβ

β (4.28)

Введем также переменную ( )iyt , являющуюся апостериорной веро-ятностью того, что при заданной последовательности наблюдений O сис-тема в момент времени t будет находиться в состоянии Si :

( ) ( , )1

Ni i jy tt

jξ= ∑

=. (4.29)

Если величину ( )iyt просуммировать по всем t , то результат можно рассматривать как ожидаемое время пребывания системы в состоянии Si . Аналогичным образом результат суммирования ( , )i jtξ по всем t можно рассматривать как ожидаемое число переходов из состояния Si в S j :

1( )

1

Tiyt

t

−∑=

– ожидаемое число переходов из S i ; (4.30а)

1( , )

1

Ti jt

tξ

−∑=

– ожидаемое число переходов из Si в S j . (4.30б)

Используя перечисленные выше формулы можно получить пере-оценку параметров СММ:

( )1y iiπ = , (4.31а) 1

( , )1

1( )

1

Ti jt

taij Tiyt

t

ξ−∑== −∑=

, (4.31б)

( ) ( , , )1

Mb C N O UOtj jk t jk jk

kμ= ∑

=. (4.31в)

Переоценка компонентов C jk , jkμ , U jk в выражении (4.31в) вы-

полняется по следующим формулам:

91

1( , )

1

( , )1

Tj kyt

tC jk T Mj kyt

t k

−∑==

∑ ∑=

, (4.32а)

( , )1

( , )

Tj ky Ott

tjk T

j kytt

μ∑==∑

, (4.32б)

( , )( )( )1

( , )

TTj ky O Ot tjk jkt

tU jk Tj kyt

t

− −∑==

∑

μ μ, (4.32в)

где ( , )y j k – вероятность того, что при заданной последовательности наблю-дений в момент времени t модель находится в состоянии j , причем наблю-даемый в этот момент вектор Ot порожден k -м компонентом смеси, т. е.

( , , )( ) ( )( , )

( ) ( ) ( , , )1 1

NC O Uj j jk t jka jkt tj kyt N Mj j Na C O Ut jk t jkt jk

j k

μβ

β μ

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥∑ ∑⎢ ⎥ ⎢ ⎥= =⎣ ⎦⎣ ⎦

. (4.33)

Переоценка параметров модели λ по приведенным формулам при-водит к возрастанию функции правдоподобия

( | ) ( | )P O P Oλ λ≥ . (4.34)

4.2. Линейное предсказание Пусть имеется речевой сигнал ( )S n . Рассмотрим проблему предска-

зания текущего значения на основании предыдущего, т.е. ( ) ( 1)S n S nα= − .

Предсказание будет выполнено с ошибкой ( ) ( ) ( )e n S n S n= − . α – ко-эффициент, выбираемый из условия минимизации ошибки [3]. Попробуем определить оптимальное значение α .

Среднее значение ошибки предсказания за короткий период

[ ]22( ) ( ) ( 1)E e n S n S nn n

α= = − −∑ ∑ .

92

Минимизируем ошибку, вычисляя частные производные E и при-равнивая их к нулю:

2 2 2( ( ) 2 ( ) ( 1) ( 1))E S n S n S n S nn

α α= − − −∑ .

20 2 ( ) ( 1) 2 ( 1)E S n S n S nn

αα∂ = = − − + −∑∂

или 2( ) ( 1) ( 1)S n S n S n

n nα− = −∑ ∑ ,

следовательно, ( ) ( 1)

(1,0) (1)2 (1,1) (0)( 1)

S n S nc rnc rS n

n

α−∑

= = =−∑

. (4.35)

Коэффициент α связан с корреляционной структурой сигнала ( 1α < ) и не зависит от уровня энергии сигнала.

Общий случай Пусть имеется речевой сигнал ( )S n . Задача заключается в предска-

зании его текущего значения на основании k предыдущих, т.е.

( ) ( )1

pS n S n kk

kα= −∑

=.

Ошибка предсказания определяется следующим образом:

( ) ( ) ( )1

pe n S n S n kk

kα= − −∑

=, где { }kα – коэффициенты минимиза-

ции ошибки. Минимизируем ошибку путем отыскания оптимальных значений { }kα .

Определим среднее значение ошибки предсказания за короткий период: 2

2( ) ( ) ( )1

22( ) 2 ( ) ( ) ( )

1 12

2( ) 2 ( ) ( ) ( ) . (4.36)1 1

pE e n S n S n kk

n n k

p pS n S n S n k S n kk k

n k n n k

p pS n S n S n k S n kk k

n n k n k

α

α α

α α

⎧ ⎫⎪ ⎪= = − − =∑ ∑ ∑⎨ ⎬⎪ ⎪=⎩ ⎭

⎧ ⎫⎪ ⎪= − − + − =∑ ∑ ∑ ∑ ∑⎨ ⎬⎪ ⎪= =⎩ ⎭

⎧ ⎫ ⎧ ⎫⎪ ⎪ ⎪ ⎪= − − + −∑ ∑ ∑ ∑ ∑⎨ ⎬ ⎨ ⎬⎪ ⎪ ⎪ ⎪= =⎩ ⎭ ⎩ ⎭

93

Минимизируем ошибку относительно { }lα для всех значений

1 l p< < , вычисляя частные производные E и приравнивая нулю:

0 2 ( ) ( 1) 2 ( ) ( )1

pE S n S n S n k S n lkn n kl

αα

⎧ ⎫∂ ⎪ ⎪= = − − + − −∑ ∑ ∑⎨ ⎬∂ ⎪ ⎪=⎩ ⎭.

Переставляя члены

( ) ( 1) ( ) ( )1

pS n S n S n k S n lk

n k nα

⎛ ⎞− = − −∑ ∑ ∑⎜ ⎟⎜ ⎟= ⎝ ⎠

, получим

( ,0) ( , )1

pc l c k lk

kα= ∑

=. (4.37)

Это уравнение известно как уравнение линейного предсказания Юла – Волкера (Yule – Walker), kα – коэффициенты линейного предсказа-ния. Для его решения есть два метода.

Ковариационный метод Уравнения для каждого значения l выразим в матричной форме:

c Cα= , где

1

2

p

αα

α

α

⎡ ⎤⎢ ⎥⎢ ⎥= ⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

…,

(1,1) (1,2) (1, )(2,1) (2,2) (2, )

( ,1) ( ,2) ( , )

c c c pc c c p

C

c p c p c p p

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎣ ⎦

……

… … … ……

,

(1,0)(2,0)

( ,0)

cc

c

c p

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎣ ⎦

….

Решение этого уравнения может быть получено с использованием обратной матрицы 1C− .

1C cα −= . Ковариационная матрица симметрична. Первый алгоритм, исполь-

зуемый для нахождения решения этого уравнения, известен как разложе-ние Чолеский (Cholesky).

Автокорреляционный метод Найдем решение уравнения линейного предсказания методом авто-

корреляции: 1R rα −= , где

1

2

p

αα

α

α

⎡ ⎤⎢ ⎥⎢ ⎥= ⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

…,

(0) (1) ( 1)(1) (0) ( 2)

( 1) ( 2) (0)

r r r pr r r p

R

r p r p r

−⎡ ⎤⎢ ⎥−⎢ ⎥=⎢ ⎥⎢ ⎥− −⎣ ⎦

……

… … … ……

,

(1)(2)

( )

rr

r

r p

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎣ ⎦

….

94

Матрица R симметрична, все элементы по диагонали равны. Это оз-начает, что

− обратная матрица 1R− всегда существует; − корни уравнения находятся в левой половине плоскости.

Процесс линейного предсказания может рассматриваться как фильтрация. Отмечая, что

( ) ( ) ( )1

pe n S n S n kk

kα= − −∑

= и ( ) ( ) ( )E z S z A z= ,

получаем

( ) 11

p kA z zkk

α −= − ∑=

,

где ( )A z называется анализатором, 1( )A z

– синтезатором.

Рассчитаем ошибку линейного предсказания. Вернемся к выраже-нию для ошибки (4.36) и представим его в разных формах:

– автокорреляционный метод: (0) ( )1

pE r r kk

kα= − ∑

=;

– ковариационный метод: (0,0) (0, )1

pE c c kk

kα= − ∑

=.

Линейное предсказание имеет многочисленные формы, включая ме-тод ковариации, автокорреляции, решетки и др. Эти формы изучаются в таких дисциплинах, как идентификация систем, обработка сигналов, тео-рия вероятностей, исследование операций.

Контрольные вопросы 1. Каковы особенности СММ в задачах распознавания речи? 2. Каковы параметры лево-правых СММ? 3. Какие проблемы необходимо решать при использовании СММ? 4. Каковы отличительные особенности алгоритма прямого – обрат-

ного хода? 5. Каковы особенности алгоритма Витерби? 6. Каковы особенности алгоритма Баума – Велча? 7. Что такое линейное предсказание и как оно определяется? 8. Каковы методы решения уравнения линейного предсказания? 9. Как определяется ошибка линейного предсказания?

95

Глава 5. АНАЛИЗ РЕЧИ Речь представляется файлом отсчетов, полученных в результате ее

оцифровки. Анализ позволяет извлечь из него полезную информацию, ко-торая может относиться к разному уровню обработки данных: звуков, слов, фраз и т. д., вплоть до понимания смысла. В настоящей главе рас-сматриваются задачи нижнего уровня. Речь сегментируется по времени на отрезки приблизительно по 20 мс, в пределах которых сигнал считается стационарным. Анализ опирается на спектральные методы.

5.1. Управление окнами Для ограничения частотного спектра или временной области задания

сигналов применяются частотные или временные окна. Окна могут быть различного типа. Они характеризуются графическими зависимостями сво-их коэффициентов и различными специфическими параметрами. Наиболее широко используются гауссовы окна, дающие малые искажения спектра в процессе его ограничения в окнах. Окна представляют собой зависимость коэффициента передачи ( )W k от номера отсчета k [39, 40, 43].

Использование окон лежит в основе кратковременного, или оконного преобразования Фурье. Это преобразование реализуется, в частности, при по-строении спектрограмм в плоскости частота – время. В таких спектрограммах амплитуды составляющих спектра задаются функциональной окраской. Спек-трограммы более информативны, чем обычные спектры сигналов.

MATLAB содержит целый ряд стандартных весовых функций [23, 47]. Они возвращают векторы отсчетов, которые могут использоваться в качестве одного из параметров разнообразных функций непараметриче-ского спектрального анализа.

В рассмотренных ниже функциях в качестве параметра принимают требуемую длину вектора ( )n , которая должна быть целым положитель-ным числом, и возвращают вектор-столбец W . При 1n = все функции воз-вращают значение «1».

Амплитудный спектр весовой функции соответствует частотной ха-рактеристике нулевого канала ДПФ при использовании данной весовой функции. При рассмотрении конкретных функций графики их амплитуд-ных спектров строятся в логарифмическом масштабе. Чтобы обеспечить на нулевой частоте значение спектральной функции, равное единице (0 дБ), перед вычислением спектра весовые функции нормируются: делятся на сумму своих отсчетов.

96

Графики спектров строятся функцией freqz. Поскольку фазовый спектр для всех весовых функций линейно зависит от частоты, его графики не пред-ставляют интереса и потому не приводятся. Для повышения наглядности час-тотная ось градуируется в номерах каналов ДПФ, для этого при вызове функции freqz указана частота дискретизации, равная длине окна.

Существует множество применяемых в ЦОС окон: окно Бартлетта; окно Блэкмана; окно Чебышева; окно Хэннинга; окно Кайзера; треуголь-ное окно; прямоугольное окно и окно Хэмминга [23, 43].

Рассмотрим реализацию основных окон, широко применяемых в об-работке речи.

Окно Чебышева. Отсчеты окна рассчитываются путем вычисления обратного преобразования Фурье от его частотной характеристики:

cos ( -1)arccos( )

ch(( 1)arch( ))

ndS

n

ωπω

ωα

⎛ ⎞⎛ ⎞⎜ ⎟⎜ ⎟⎜ ⎟⎝ ⎠⎝ ⎠=

−, (5.1)

где

20arch( )10ch1

/.

n

βα

⎛ ⎞= ⎜ ⎟⎜ ⎟−⎝ ⎠

Здесь β – сте-

пень подавления бо-ковых лепестков, дБ; n – требуемое коли-чество отсчетов окна. Для окна Чебышева все боковые лепестки имеют одинаковый заданный уровень.

В MATLAB ок-но Чебышева w = =chebwin(n,beta) зада-ет n-точечный вектор коэффициентов с пульсациями на уров-не beta (β ) (по умол-чанию 100 дБ) в поло-се задержания отно-сительно амплитуды в полосе пропускания.

Рис. 5.1. Окно Чебышева

Рис. 5.2. Амплитудный спектр окна Чебышева

97

На рис. 5.1, 5.2 приведены графики окна Чебышева и его амплитуд-ного спектра при n = 16 для уровня боковых лепестков, равного 40 дБ. w = chebwin(16, 40); w = w/sum(w); plot (w); figure; [h, f] = freqz (w, 1, [], 16); plot (f, 20*log10(abs(h))); ylim ([-60 0]); grid on

Как видно, с уменьшением уровня боковых лепестков главный лепе-сток расширяется.

Окно Кайзера. Отсчеты окна Кайзера рассчитываются по формуле

22 110 1( )

( )0

k nI n

w kI

β

β

⎛ ⎞− −⎛ ⎞⎜ ⎟− ⎜ ⎟⎜ ⎟−⎝ ⎠⎝ ⎠= , k= 1, 2, …, n. (5.2)

Здесь 0I – модифицированная функция Бесселя первого рода нуле-вого порядка.

Чем больше β , тем больше доля энергии, сосредоточенной в глав-ном лепестке спектра (и тем шире этот лепесток), и тем меньше уровень боковых лепестков. На практике уровень значения β находится в преде-лах от 4 до 9.

Параметр β характеризует затухание боковых лепестков окна. Для получения из окна Кайзера фильтра типа КИХ параметр β выбирается из формулы

0 1102 8 7 500 40 5842 0 07886 21 50 2121

0 0 21

, ( , ),,, , ( ),( )

, .

α α

β α ααα

− >⎧⎪⎪= + − ≥ ≥−⎨⎪ < <⎪⎩

В MATLAB окно Кайзера задается функцией w = kaiser (n, beta). На рис. 5.3, 5.4. приведены графики окна Кайзера и его амплитудно-

го спектра при n = 16 для двух указанных выше значений β . w1 = kaiser (16, 4); w2 = kaiser (16, 9); w1 = w1/sum(w1); w2 = w2/sum(w2); plot(w1); hold on; plot(w2, '--'); hold off; figure; [h1, f]= freqz(w1, 1, [], 16); h2 = freqz(w2, 1, [], 16); plot (f, 20*log10(abs(h1))); hold on; plot (f, 20*log10(abs(h2)), '--'); hold off; ylim([-100 0]); grid on

98

Из графиков видно, что при β = 4 главный лепесток имеет ширину 1,75 (за единицу принято расстояние между соседними каналами частотно-го анализа), а уровень боковых лепестков составляет –32,5 дБ. При β = 9 главный лепесток расширяется примерно до 3,2, а уровень боковых лепе-стков падает до –66 дБ.

Прямоугольное окно. Отсчеты прямоугольного окна определяются следующим образом:

1, при 0 ;( )

0, другое.k n

w k≤ <⎧

= ⎨⎩

. (5.3)

В MATLAB прямоугольное окно реализуется функцией w = boxcar(n).

На рис. 5.5, 5.6 приведены графики прямоугольного окна и его ам-плитудного спектра при n = 8.

Рис. 5.3. Окно Кайзера: ––––– – β =4, - - - - - – β =9 Рис. 5.4. Амплитудный спектр

окна Кайзера

Рис. 5.5. Прямоугольное окно

Рис. 5.6. Амплитудный спектр прямоугольного окна

99

w = boxcar(8); w = w/sum(w); plot(w); figure; [h, f]= freqz(w, 1, [], 16); plot (f, 20*log10(abs(h))); ylim([-50 0]); grid on

Уровень первого бокового лепестка составляет 13,0 дБ. Окно Хэмминга. Коэффициенты n-точечного окна Хэмминга вы-

числяются по формуле

( 1) 0 55 0 46cos 21

kw k , ,n

π⎛ ⎞+ = − ⎜ ⎟−⎝ ⎠, k = 0, 1, …, n–1. (5.4)

В MATLAB окно Хэмминга задается функцией w = hamming (n, ['sflag']).

Параметр sflag может иметь следующие значения: symmetric – задает симметричное окно (используется по умолчанию),

для которого w(k) = w(n+1–k) ; periodic – создается слегка несимметричное окно, синусоидальные

компоненты которого будут аккуратно стыковаться при соединении не-скольких экземпляров окна.

При задании периодического варианта n–1 в знаменателе формулы (5.4) заменяется на n. Возможна иная трактовка: выполняется расчет по приведенной формуле для окна длиной n+1, затем последний элемент от-брасывается.

На рис. 5.7, 5.8 приведены графики окна Хэмминга и его амплитуд-ного спектра при n = 16. w = hamming(16); w = w/sum(w); plot (w); figure; [h, f] = freqz (w, 1, [], 16); plot (f, 20*log10(abs(h))); ylim ([-80 0]); grid on

100

Как видно, уровень первого бокового лепестка составляет –40 дБ.

5.2. Кратковременный анализ Фурье

5.2.1. Кратковременное преобразование Фурье

При обработке речи записывают N отсчетов сигнала, начинающихся

с 0N , применяют оконную функцию [11, 38]:

00

0 для других

n N nw x ,... n N ,xn , n,

+ ≤ <⎧⎪′ = ⎨⎪⎩

. (5.5)

затем выполняют ДПФ (2.9). Результат определяется уравнениями:

( )2

1( ) ( )

0

i knNi NX k X e x n en

πω −−

= = ∑=

, 2 , 0k k NNπω = ≤ ≤ , (5.6)

где ( )X k – массив из N комплексных чисел, эквивалентный массивам из

N реальных и N мнимых чисел.

Обратное кратковременное дискретное преобразование Фурье

(ОДПФ) может быть также определено по формуле

1 21

0

N nkix X en k NN n

π−= ∑

=, 0 k N≤ ≤ . (5.7)

Рис. 5.7. Окно Хэмминга Рис. 5.8. Амплитудный спектр окна Хэмминга

101

5.2.2. Практическое применение кратковременного преобразования Фурье

Возьмем 512 отсчетов речевого сигнала, например слово «sig», гра-фик которого приведен на рис. 5.9.

Рис. 5.9. Фрагмент гласного звука в прямоугольном окне

В среде MATLAB выполним FFT и выведем график модуля спектра

(рис. 5.10). >> abs(fft(sig))

Рис. 5.10. Амплитудный спектр

На рис. 5.9 видна резкая неоднородность (разрыв) на границах. При-менение окна Хэмминга сокращает ее (рис. 5.11) [11].

102

>> hamming(512) .* sig

Рис. 5.11. Фрагмент гласного звука в окне Хэмминга

В результате гармоническая структура сигнала становится более за-

метной (рис. 5.12). >> abs(fft(hamming(512) .* sig))

Рис. 5.12. Амплитудный спектр в окне Хэмминга

Тот же спектр в логарифмическом масштабе представлен на

рис. 5.13. >> log10(abs(fft(hamming(512) .* sig)));

103

Рис. 5.13. Амплитудный спектр в логарифмическом масштабе

Чтобы продемонстрировать эффект размера окна, вышеупомянутый

анализ повторяется для окна Хэмминга длиной 64 (рис. 5.14 и 5.15).

Рис. 5.14. Фрагмент гласного звука в окне Хэмминга длиной 64

104

Рис. 5.15. Амплитудный спектр в окне Хэмминга длиной 64

5.3. Кепстральный анализ Схема кепстрального анализа показана на рис. 5.16. Сегмент речево-

го сигнала после обработки оконной функцией подвергается преобразова-нию Фурье.

Рис. 5.16. Схема кепстрального анализа

Для большинства приложений обработки речи необходим только

спектр амплитуды

log( ( ) )iS e θ . (5.8)

Медленно меняющиеся компоненты log( ( ) )iS e θ характеризуют

низкие частоты. Следовательно, применение кепстрального анализа с ис-пользованием преобразования Фурье – это естественный способ их выде-ления. Результат применения кепстрального анализа для образца речи, представленного на рис. 5.11, 5.12, 5.13, показан на рис. 5.17. >> ifft (log(abs(fft(hamming(512) .* sig))))

Речь Окно

ДПФ Log ОДПФ Кепстральный анализ

105

Рис. 5.17. Полный реальный кепстр

Заметим, что большинство значимых свойств наблюдается в начале и

в пиках спектрограммы. Более подробно первые 25 кепстральных коэффи-циентов представлены на рис. 5.18.

0 5 10 15 20 25-0.2

-0.1

0

0.1

0.2

0.3

0.4

0.5

Рис. 5.18. Первые кепстральные коэффициенты

106

5.4. Z-преобразование Удобный способ анализа дискретных последовательностей –

Z-преобразование (Z-transform). Последовательности чисел { }( )x n ставится в соответствие функция комплексной переменной z , определяемая сле-дующим образом:

nX ( z ) x( n )zn

∞−= ∑

= −∞. (5.9)

( )X z является взвешенной суммой, которая определена только для тех значений z , при которых ряд (5.9) сходится [11, 43] .

Свойства Z-преобразования Рассмотрим некоторые наиболее важные свойства Z-преобразования,

полезные при его применении. 1. Z-преобразование – линейное преобразование, для него справедлив

принцип суперпозиции. Если ( )Y z , ( )1X z и ( )2X z – Z-преобразования последовательностей

( )y n , ( )1x n , ( )2x n соответственно, то для любых действительных α и β справедливы соотношения:

( ) ( ) ( ) ( ) ( ) ( )1 2 1 2y n x n x n Y z X z X zα β α β= + ⇒ = + . (5.10) 2. Сдвиг последовательности (задержка).

Если ( )Y z , ( )X z – Z-преобразования последовательностей ( )y n , ( )x n , то для ( ) ( )0y n x n n= − , где 0n – целое число, справедливо соотношение

0( ) ( )n

Y z z X z−

= . (5.11) Так, при задержке сигнала на один такт ( ) ( 1)y n x n= − , 1( ) ( )Y z X zz−= ,

т.е. Z-преобразование исходной последовательности умножается на 1z− .

Таким образом, множитель 0nz−

является оператором задержки дискрет-ной последовательности на 0n тактов.

3. Свертка последовательностей. Свертка двух бесконечных дискретных последовательностей { }( )x k и

{ }( )h n k− определяется следующим образом:

( ) ( ) ( )y n x k h n kk

∞= −∑

= −∞. (5.12)

Если Z-преобразования последовательностей ( )y n , ( )x n , ( )h n равны ( )Y z , ( )X z и ( )H n соответственно, то справедливо соотношение ( ) ( ) ( )Y z X z H z= , которое означает, что Z-преобразование свертки равно

произведению Z-преобразований свертываемых последовательностей.

107

Обратное Z-преобразование Обратный переход от ( )X z к последовательности ( )x n определяется

соотношением [27] 1 1( ) ( )

2 C

nx n X z dzziπ−= ∫ , (5.13)

где C – замкнутый контур, который включает 0z = . Обратное Z-преобразование представляет собой интеграл по любому

замкнутому контуру с направлением обхода против часовой стрелки. Кон-тур расположен в области сходимости и окружает начало координат.

5.5. Анализ с использованием линейного предсказания Анализ речи с использованием линейного предсказания (ЛП) – исто-

рически один из самых важных методов анализа речи [11].

ˆ1

pS a Sn i n i

i= ∑ −

=, (5.14)

Sn– речевой сигнал с n отсчетами, ai – коэффициенты предсказания. Этот линейный фильтр имеет передаточную функцию

1( ) .1 1

H z p ia zi i

=−−∑ =

(5.15)

При правильном выборе параметров модель ЛП может приблизиться к спектру огибающей для всех звуков речи.

Оценка параметров ЛП. Допустим, имеется N отсчетов речи. Вы-числим оценку ai из условия минимальной среднеквадратической ошиб-ки. Эти оценки могут рассматриваться как самые вероятные параметры, если предполагается, что распределение ошибок является гауссовским и нет ограничений на значения ai .

Ошибка ˆ1

pe S S S a Sn n n i n i

i= − = − ∑ −

=. (5.16)

Следовательно, суммированная среднеквадратическая ошибка E по конечному окну длиной N

21 12 .0 0 1

pN NE e S a Sn n k n k

n n k

− − ⎛ ⎞= = −⎜ ⎟∑ ∑ ∑ −⎜ ⎟= = =⎝ ⎠

(5.17)

Минимум E получается, когда частные производные равны нулю для всех параметров ak .

108

Уравнение (5.17) квадратичное относительно ak , поэтому решение существует, причем единственное.

Дифференцируя уравнение (5.17) по a j и принимая их равными ну-

лю, получаем систему p уравнений: (5.18) Реконфигурация уравнения (5.18) дает

1 1

0 1 0

pN NS S a S Sn n j k n k n j

n k n

− −=∑ ∑ ∑− − −

= = = . (5.19)

Определим матрицу ковариации φ с элементами ,i kφ :

1.,

0

NS Si k n i n k

nφ

−= ∑ − −

= (5.20)

Запишем уравнение (5.20) как

,0 ,1

pai i k k

kφ φ= ∑

= , (5.21)

или

1,1 1,2 1,3 1,1,0 12,1 2,2 2,3 2,2,0 2

33,0 3,1 3,2 3,3 3,...

,0 ,1 ,2 ,3 ,

p aapap

a pp p p p p p

φ φ φ φφ

φ φ φ φφ

φ φ φ φ φ

φ φ φ φ φ

⎛ ⎞⎛ ⎞ ⎛ ⎞⎜ ⎟⎜ ⎟ ⎜ ⎟⎜ ⎟⎜ ⎟ ⎜ ⎟⎜ ⎟⎜ ⎟ ⎜ ⎟= ⎜ ⎟⎜ ⎟ ⎜ ⎟⎜ ⎟⎜ ⎟ ⎜ ⎟⎜ ⎟⎜ ⎟ ⎜ ⎟⎜ ⎟⎜ ⎟ ⎝ ⎠⎝ ⎠ ⎝ ⎠

. (5.22)

В матричной форме 0 AaΦ = Φ . (5.23) Решение находим с использованием обратной матрицы

10A −= Φ Φ . (5.24)

Заметим, что матрица Φ симметрична, т.е. , ,i k k iφ φ= , и эта симмет-

рия может использоваться в инвертировании Φ .

10 2

0 11 1

2 20 0 1

pNE S a S Sn k n k n ja j n kpN N

S S a S S .n n j k n k n jn n k

⎛ ⎞− ⎛ ⎞∂ ⎜ ⎟= = − −⎜ ⎟∑ ∑ − −⎜ ⎟⎜ ⎟∂ = =⎝ ⎠⎝ ⎠− −

= − +∑ ∑ ∑− − −= = =

109

Автокорреляционный метод. Имея дело с обработкой речи, реали-зуемой посредством оконной функции, необходимо принять во внимание граничные эффекты для избежания больших ошибок предсказания на кра-ях. Используем тот факт, что отсчеты являются нулевыми вне окна, чтобы переписать ,i jφ как [11]

1 ( ), ( )

0

N i jS Si j n n i j

nφ

− − −= ∑ + −

=. (5.25)

Теперь ,i jφ зависит только от разницы ( i j− ) и может быть записа-

но в терминах автокорреляционной функции ,,

1.

0

ri j i jN k

r S Sk n n kn

φ = −− −

= ∑ +=

(5.26)

Тогда (5.22) преобразуется к виду 0 1 2 1 111 0 1 2 22

33 2 1 0 3...

1 2 3 0

r r r r p arr r r r apr

ar r r r r p

a pr p r r r rp p p

⎛ ⎞⎛ ⎞ − ⎛ ⎞⎜ ⎟⎜ ⎟ ⎜ ⎟⎜ ⎟−⎜ ⎟ ⎜ ⎟⎜ ⎟⎜ ⎟ ⎜ ⎟= −⎜ ⎟⎜ ⎟ ⎜ ⎟⎜ ⎟⎜ ⎟ ⎜ ⎟⎜ ⎟⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟⎝ ⎠− − −⎝ ⎠ ⎝ ⎠

. (5.27)

Существуют эффективные методы для инвертирования таких мат-

риц, один из которых – алгоритм Дарбина (Durbin algorithm).

1 ( 1) ( 1)/1

i i ik a ar Eii i jjj

⎛ ⎞− − −⎜ ⎟= − ∑ −⎜ ⎟=⎝ ⎠, (5.28)

( i )a kii = , (5.29) ( ) ( 1) ( 1)i i ia a k aij j i j

− −= − − при 1 j i≤ ≤ , (5.30)

2( ) ( 1)(1 )i ikE Ei−= − . (5.31)

Параметры ki известны как параметры отражения. Полученный

фильтр устойчив. Значение квадрата остаточного предсказания ( )iE всегда будет уменьшаться (или оставаться постоянным) на каждой последующей итерации.

110

Спектр линейного предсказания. Передаточная функция 1 ( )H z – это КИХ-обеляющий фильтр для речи. Его частотная характе-ристика может быть вычислена как преобразование Фурье от коэффи-циентов фильтра, затем инвертирована, чтобы выдать частотную харак-теристику ( )H z [11].

Рис. 5.19 показывает пример спектра ЛП для сегмента речи. Заметим, что форманты максимально выражены.

>> [sig] = wavread('filename'); >> a = lpc(hamming(512).*sig, 16); >> h = (1./fft([a zeros(1, 512 - 17)])).'; >> figure; >> plot(abs(h)); >> xlim([0 256])

Рис. 5.19. Спектр ЛП сегмента речи

Мера расстояния Itakura. Рассмотрим случай, когда речевой сиг-

нал Sn проходит через линейный предсказатель, соответствующий образ-

цу a . Остаточная среднеквадратичная ошибка E [11] 21 12

0 0 1

pN NE S a Sen n i n i

n n i

− − ⎛ ⎞= = − =⎜ ⎟∑ ∑ ∑ −⎜ ⎟= = =⎝ ⎠

111

1 2 20 1 1 1

p p pNS a S S a a S Sn i n n i i j n i n j

n i i j

⎛ ⎞−⎜ ⎟= − + =∑ ∑ ∑ ∑− − −⎜ ⎟= = = =⎝ ⎠

1 12 20 1 0

1

1 1 0

pN NS a S Sn i n n i

n i np p N

p a a S Si j n i n ji j n

− −= − +∑ ∑ ∑ −

= = =−

+ =∑ ∑ ∑ − −= = =

200 00 1 1 1

p p p pa a a iji i i j

n i i jφ φ φ= − =∑ ∑ ∑ ∑

= = = =

00 01 02 0 1

10 11 12 1 11, , 21, 2, 20 21 22 2

0 1 2

p

apaa a a p p

a pp p p pp

φ φ φ φ

φ φ φ φ

φ φ φ φ

φ φ φ φ

⎡ ⎤ −⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥⎡ ⎤ ⎢ ⎥= − ⎢ ⎥⎣ ⎦ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎣ ⎦⎣ ⎦

…

…

… ……

…

. (5.32)

Определим 00 01 02 0

10 11 12 1

20 21 22 2

0 1 2

p

pR p

p p p pp

φ φ φ φ

φ φ φ φ

φ φ φ φ

φ φ φ φ

⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥

= ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

…

…

…

…

,

(5.33) или в случае автокорреляции

0 1 2 01 0 1 12 1 0 2

1 2 0

r r r rr r r rr r r rR

r r r rp p p

⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥− −⎣ ⎦

………

…

. (5.34)

Пусть y – расширенный вектор коэффициентов ЛП

1, , , ,1 2a a ap⎡ ⎤−⎢ ⎥⎣ ⎦

… , x – расширенный вектор входных данных,

1, , , ,1 2a a ap⎡ ⎤′ ′ ′−⎢ ⎥⎣ ⎦

… – неизвестные коэффициенты ЛП, TxRx – энергия на

112

выходе обратного фильтра с входной речью на входе, TyRy – минимально

возможная энергия на выходе фильтра ЛП с входной речью на входе. То-гда расстояние может быть вычислено по формуле

( , ) log( ) log( )TE xRx xd x y TE yRy y

= = . (5.35)

Кепстр линейного предсказания. Параметры кепстра могут быть вычислены непосредственно от параметров ЛП при помощи следующей рекурсии [11]:

11 , при 11

ki k pc a c ak k i k ik i

−= + ≤ ≤∑ −

=. (5.36)

Корни многочленного предсказателя. Знаменатель передаточной функции может быть разложен в виде

1

1( ) 1 (1 )1

p

k

pkA z a z cz kkk=

− −= − = −∏=

∑ , (5.37)

где ck – множество комплексных чисел, определяющих корни с угловой частотой

{ }{ }

Im zi1t gi Re ziθ

⎛ ⎞−= ⎜ ⎟⎜ ⎟⎝ ⎠

(5.38)

и амплитудой

{ } { }2 2Im Rer z zi i i= + . (5.39) Если корень близок к единичному кругу, тогда он представляется

формантой [11]. Все корни и лежат в единичном круге. Они могут быть разделены на

корни, которые соответствуют голосовому тракту с закрытой голосовой щелью, и те, которые соответствуют голосовому тракту с открытой голо-совой щелью. Применение корней очень полезно при кодировании речи.

5.6. Применение формантного анализа Существует несколько способов моделирования (синтеза) речевого

сигнала. Наиболее адекватна реальному голосовому аппарату линейная модель, относящаяся к группе параметрических моделей синтеза речевого сигнала и основывающаяся на устройстве голосового аппарата. Минуя за-дачи моделирования колебания связок и формирования резонансных по-лостей и рассматривая только изменения волнового сигнала, получаем схему, изображенную на рис. 5.20 [1].

113

В данной модели выходной сигнал представляется в виде свертки возбуждающего сигнала, генерируемого связками, и модулирующего сиг-нала, являющегося характеристической функцией формы ротовой полости, или артикуляторной характеристикой [18]. Математически это можно опи-сать следующей формулой:

S( n ) v( n ) h( n )= ⊗ , (5.40) где ( )v n – возбуждающий сигнал, ( )h n – модулирующий.

Рис. 5.20. Схема параметрической модели речеобразования

В терминах Z-преобразования

( ) ( ) ( )S z V z H z= ∗ . (5.41) Возбуждающий сигнал характеризуется высотой и тембровой окра-

ской. Такая информация может быть использована в задачах идентифика-ции говорящего по голосу. Модулирующий сигнал рассматривается как характеристика формирующего звуки голосового тракта человека и при-меняется в задачах распознавания речи.

В спектральной области операция свертки двух сигналов пред-ставляется в виде произведения их образов. Возбуждающий сигнал в рамках описанной модели является либо полигармоническим (в случае гласного звука), либо широкополосным шумовым (в случае согласного). Модулирующая функция представляет собой огибающую результирую-щего сигнала. Таким образом, задача получения аутентичной информа-ции (при распознавании фонем) сводится к определению огибающей мгновенного спектра сигнала, или так называемому формантному ана-лизу. Модулирующую функцию можно рассматривать как передаточную функцию линейного КИХ-фильтра. Таким образом, значения этой функции (коэффициенты фильтра) определяются с помощью метода ли-нейного предсказания. Данный алгоритм широко применяется в воко-дерном кодировании [29].

ШУМ

Последовательность импульсов

Фильтр голосо-вого аппарата

Речь

114

При формантном анализе текущую оценку отсчета сигнала опреде-ляют как сумму p предшествующих отсчетов:

p( n ) S( n k )ak

k 1θ = −∑

=, (5.42)

где { }ak – вектор коэффициентов предсказания. Порядок p при фор-

мантном анализе выбирают равным 8 – 12. Разность между истинным и предсказанным значением отсчета оп-

ределяет ошибку предсказания, или остаточный сигнал:

1

pr( n ) S( n ) ( n ) S( n ) S( n k )ak

kθ= − = − −∑

=. (5.43)

В результате Z-преобразования разностного уравнения (5.43) имеем ( ) ( ) ( )R z S z A z= ∗ , (5.44)

где функция

( ) 11

p kA z a zkk

−= − ⋅∑=

(5.45)

является передаточной характеристикой цифрового фильтра, частотная ха-рактеристика которого обратна по отношению к частотной характеристике голосового тракта:

1( )( )

A zH z

= . (5.46)

Значения коэффициентов ak в (5.45) подбираются так, чтобы мини-

мизировать среднеквадратичное значение остаточного сигнала ( )r n . Полу-

ченные коэффициенты фильтра { }ak можно рассматривать как вектор при-

знаков фонемы. Для проверки степени стабильности и инвариантности по-лучаемого вектора признаков { }ak необходимо исследовать предел его из-

менений в условиях различного произношения опорной фразы, артикуля-торные характеристики которой предполагаются стабильными. Вариации произношения обеспечиваются различной высотой произношения (pitch).

Как показали исследования [18], артикуляторные параметры также зависят от конкретного человека и не являются абсолютно стабильными речевыми характеристиками. При плохой дикции и невыразительной речи понимать слова приходится из контекста. В компьютерной модели такая

115

обработка осуществляется на последующих этапах (фонемная категориза-ция, семантический анализ и т.д.). Однако для этапа выделения информа-ции о произнесенной единице речи описанный выше метод оказывается вполне применимым.

Важное достоинство формантного анализа – относительная простота оценки параметров фильтра ( )A z , так как используются линейные проце-дуры обработки сигнала.

Контрольные вопросы 1. Что такое анализ речи и для чего он применяется? 2. Что такое акустический вектор? 3. Каковы особенности применения окон при обработке речи? 4. Как определяются и рассчитываются в MATLAB отсчеты окна

Чебышева? 5. Как определяются и рассчитываются в MATLAB отсчеты окна

Кайзера? 6. Как определяются и рассчитываются в MATLAB отсчеты прямо-

угольного окна? 7. Как определяются и рассчитываются в MATLAB отсчеты окна

Хэмминга? 8. Как определяется ОДПФ? 9. Что такое кепстральный анализ?

10. Что такое Z-преобразование и каковы его свойства? 11. Каковы отличительные особенности применения Z-преобразования

и преобразования Фурье? 12. Каковы особенности применения линейного предсказания для

анализа речи? 13. Как определяются параметры отражения линейного предсказания

при анализе речи? 14. Каковы особенности автокорреляционного и ковариационного

методов? 15. Как определяется спектр линейного предсказания? 16. Как определяется мера расстояния Itakura? 17. Как определяются параметры кепстра линейного предсказания? 18. Что такое формантный анализ и для чего он применяется?

116

Глава 6. МЕТОДЫ СИНТЕЗА РЕЧИ

Синтез речи (speech synthesis) – процесс преобразования текста в

речь. Синтез – одна из форм обработки речи, связанная с задачей чтения

абонентской системой записанного в ее памяти электронного текста. При синтезе для обеспечения высокого качества речи необходимы

высокая скорость обработки данных и большая емкость памяти для хране-ния данных, поэтому приходится идти на компромисс, приводящий к оп-ределенному ухудшению качества синтезируемой речи.

Обычно синтез речи проводится с учетом особенностей языка и ис-пользованием автоматической расстановки ударений.

Задача синтеза речи заключается в том, чтобы текст, представленный в компьютере в виде символов, был озвучен и превратился в человеческую речь. При этом машина либо уже имеет исходный текст в виде файла, ли-бо составляет его, руководствуясь каким-либо алгоритмом. Например, в телефонии, как правило, синтезированная речь передается по телефонным линиям, имеющим ограниченный сверху и снизу частотный диапазон. Речь должна быть максимально разборчивой, членораздельной и учитывать из-менения интонации в соответствии с правилами языка.

Существуют различные методы синтеза речи. Выбор того или иного метода определяется различными ограничениями. Рассмотрим четыре вида ограничений, которые влияют на выбор метода синтеза [17].

1. Задача Возможности синтезированной речи зависят от того, в какой области

она будет применяться. Когда нужно произнести ограниченное число фраз, речевой материал записывается в память и воспроизводится по необходи-мости. В других случаях используются более сложные подходы.

2. Голосовой аппарат человека Система синтеза речи должна производить на выходе требуемые ре-

чевые волны. Для этого сигнал должен пройти путь от источника в рече-вом тракте с возбуждением артикуляторных органов, которые действуют как изменяющиеся во времени фильтры. Артикуляторные органы также накладывают ограничения на скорость изменения сигнала, выполняют функцию гладкого сцепления отдельных базовых фонетических единиц в сложный речевой поток.

117

3. Структура языка Ряд возможных звуковых сочетаний определяется природой той или

иной языковой структуры. Было обнаружено, что единицы и структуры, используемые лингвистами для описания и объяснения языка, могут при-меняться для характеристики и построения речевой волны. Таким образом, при построении выходной речевой волны используются основные фоноло-гические законы, правила ударения, морфологические и синтаксические структуры, фонотактические ограничения.

4. Технология Возможности успешно моделировать и создавать устройства для

синтеза речи в большой степени зависят от состояния технико-технологической стороны дела. Речевая наука сделала значительный шаг вперед благодаря появлению различных технологий, в том числе рентгено-графии, кинематографии, теории фильтров и спектров, а главным образом компьютеров. Развитие интегральных технологий с постоянно возрастаю-щими возможностями позволило конструировать построение мощные, компактные, недорогие устройства, действующие в реальном времени. Вместе с прогрессом теории синтеза речи это стимулировало дальнейшее развитие систем синтеза речи и их широкое применение.

6.1. Метод цифрового кодирования речи Данный метод состоит в простом запоминании оцифрованного

фрагмента речи с последующим восстановлением и воспроизведением ре-чевого сигнала в аналоговой форме [38].

Структурная схема цифрового кодирования речи (режим «Запись ре-чи») приведена на рис. 6.1.

Структурная схема декодирования речи (режим «Воспроизведение речи») приведена на рис. 6.2.

Рассчитаем объем памяти, необходимый для хранения речи длитель-ностью в одну секунду. Оказывается, достаточную точность представле-ния речевого сигнала обеспечивает кодирование 8 бит на один отсчет. При частоте дискретизации 8 кГц, что достаточно для речевого сигнала, зани-мающего полосу частот 4 кГц, объем памяти составит 64 кбит.

Если оцифрованный сигнал передают по каналу связи, тогда ско-рость передачи информации должна быть 64 кбит/с.

118

Приведенные выше числовые значения параметров типичны для им-пульсно-кодовой модуляции (ИКМ). Применение эффективных методов кодирования позволяет снизить требования к памяти и скорости передачи информации. Например, применение адаптивной дельта-модуляции по-зволяет снизить эту величину почти на порядок.

Рис. 6.1. Структурная схема цифрового кодирования речи

Рис. 6.2. Структурная схема декодирования речи

6.2. Метод фонемного синтеза Идея метода чрезвычайно проста: речь представляется последова-

тельностью букв-звуков и пауз между словами и предложениями [38]. На-пример, фраза «кафедра акустики» будет иметь вид:

к-а-ф-е-д-р-а _ а-к-у-с-т-и-к-и. Здесь фонемы отделены черточками, а пауза между словами обозна-

чена символом подчеркивания. Проанализировав речь, можно выделить конечное множество «кирпичиков» – фонем, образующих своеобразную «библиотеку фонем».

Ее можно хранить либо в памяти ПК, либо в памяти специальной микросхемы. Первый способ предполагает программную реализацию син-теза речи, второй – программно-аппаратную.

Речевой сигнал Согласование

по уровню АЦП

Логическая управляющая схема

Данные

Память

Генератор адресов

Речевой сигнал

Фильтр НЧ ЦАП Память

Данные

Адреса

Генератор ад-ресов

Логическая управляющая

схема

119

При программно-аппаратном подходе используют специальную микросхему, в памяти которой хранятся фонемы и алгоритмы их соедине-ния, необходимые для сглаживания «шероховатости» на стыках.

6.3. Метод формантного синтеза Цифровая модель образования речи (по Шаферу) показана на рис. 6.3

[38].

Рис. 6.3. Цифровая модель образования речи

Для отражения свойств голосового тракта коэффициенты фильтра

должны изменяться примерно каждые 10 мс. Фильтр применяется как сис-тема, моделирующая резонансные свойства полостей рта и носа человека. Алгоритм цифровой фильтрации можно реализовать по-разному. Напри-мер, можно для каждого отрезка времени заново рассчитывать коэффици-енты рекурсивного фильтра, количество и местоположение полюсов кото-рого определяется количеством и местоположением формант в синтези-руемом звуке. Именно такой подход показан на рис. 6.3.

Иной подход – использовать «гребенку» узкополосных фильтров с перекрывающимися ЧХ таким образом, что АЧХ результирующей систе-мы практически равномерна в полосе частот речевого сигнала.

Очевидно, что варьируя коэффициентом ослабления сигнала в каж-дом из отдельных фильтров «гребенки», можно синтезировать суммарную ЧХ практически любой формы. Нетрудно увидеть, что такой подход дол-жен обеспечивать при правильной организации вычислений результаты синтеза, практически идентичные результатам для первого подхода. Меж-ду тем второй подход значительно эффективнее в плане вычислительных затрат. «Гребенку» фильтров при этом можно организовать либо с помо-щью классических методов расчета цифровых фильтров, либо с помощью алгоритмов ДПФ и БПФ.

Период ОТ

Генератор импульсов

Генератор случайных чисел

Коэффициенты цифрового фильтра (па-раметры речевого тракта)

Цифровой фильтр с переменными параметрами Отсчеты

речевого сигнала Регулировка громкости

120

6.4. Вокодеры Задача формантного синтеза речи хорошо «сопрягается» с задачей

низкоскоростной передачb информации на расстояние. Не будем останав-ливаться на важности сжатия объема передаваемых данных, приводящего к возможности снижения скорости передачи – это очевидно. Зададим иной вопрос – за счет чего возможно такое сжатие [38].

Чтобы найти простой ответ на этот непростой вопрос, представим се-бе, что на передающей станции установлен спектроанализатор, который вы-числяет кратковременное преобразование Фурье. В результате для каждого временного сегмента получаем / 2N комплексных коэффициентов, или N вещественных чисел. Если передавать на расстояние все эти числа, а затем на приемной станции из них восстанавливать сегмент сигнала, тогда сигнал восстановится без потерь. Однако легко увидеть, что объем передаваемых данных при этом нисколько не уменьшился: раньше передавались N отсче-тов временного сегмента, а теперь N спектральных отсчетов (более того, возникла необходимость в ненужных, казалось бы, вычислениях).

Но можно поступить по-другому: передавать на расстояние не все спектральные коэффициенты, а лишь «большие». Разумеется, при этом нужно еще указать центральные частоты соответствующих полосовых фильтров (или, что то же, номера коэффициентов).

В специальной литературе утверждается, что основная информация о гласных звуках содержится всего в трех формантах. Это означает, что одну гласную можно представить набором из девяти чисел, тогда как при обыч-ном способе передачи для этого требуется примерно 100 чисел (интервал 10 мс при частоте дискретизации 10 кГц). Как видим, выигрыш сущест-венный. К сожалению, для согласных звуков эта разница значительно меньше, поэтому общий выигрыш снижается. Дальнейшего сжатия можно добиться, например, уменьшив разрядность передаваемых чисел. В конеч-ном счете на практике удается понизить скорость передачи данных с 64 до 9,6 кбит/с без существенной потери качества синтезированной речи, и да-же до 2,4 кбит/с, но уже с заметной потерей качества.

Таким образом, для передачи речевых сигналов целесообразно при-менение вокодеров, при этом данную задачу естественно представить в виде двух подзадач: 1) анализ речи при передаче; 2) синтез речи при вос-произведении.

На этапе анализа проводится оценка параметров модели, а на этапе синтеза – образование искусственного речевого сигнала.

По принципу определения параметров фильтровой функции речи раз-личают вокодеры: полосные (канальные, channel), формантные, ортогональ-ные, с линейным предсказанием речи (липредеры) и гомоморфные [14].

121

В полосных вокодерах спектр речи делится на 7 – 20 полос (каналов) аналоговыми или цифровыми полосовыми фильтрами. Большее число ка-налов в вокодере дает большую натуральность и разборчивость. С каждого полосового фильтра сигнал поступает на детектор и фильтр низких частот с частотой среза 25 Гц. Таким образом, сигналы на выходе каждого канала изменяются с частотой менее 25 Гц. Их передача возможна в аналоговом или цифровом виде.

В формантных вокодерах огибающая спектра речи описывается комбинацией формант (резонансных частот голосового тракта). Основные параметры формант – центральная частота, амплитуда и ширина.

В ортогональных вокодерах огибающая мгновенного спектра рас-кладывается в ряд по выбранной системе ортогональных базисных функ-ций. Вычисленные коэффициенты этого разложения передаются на прием-ную сторону. Распространение получили гармонические вокодеры, ис-пользующие разложение в ряд Фурье.

Вокодеры с линейным предсказанием (Linear Prediction Coding, LPC), или липредеры, основаны на оригинальном математическом аппарате.

Гомоморфная обработка позволяет разделить генераторную и фильтровую функции, образующие речевой сигнал.

Из-за сложности определения параметров генераторной функции появились полувокодеры (Voice Excited Vocoder, VEV), в которых вместо сигналов основного тона и тон-шума используется полоса речевого сигна-ла. Полоса частот до 800 – 1000 Гц кодируется по методу адаптивной диф-ференциальной импульсно-кодовой модуляции (АДИКМ), адаптивной дельта-модуляции (АДМ) или с помощью линейного предсказания малого порядка, а в некоторых моделях передается в аналоговом виде.

Есть разные типы полувокодеров-липредеров: 1) вокодеры VELP (Voice Excited Linear Prediction); 2) вокодеры RELP (Residual Excited Linear Prediction). Сегодня вокодеры применяют для кодирования телефонных сигна-

лов в коммерческих и военных цифровых системах связи. Перспективно применение вокодеров для организации служебной телефонной связи со скоростью передачи данных 1200 – 2400 бит/с. Формантные и полосные вокодеры используются также при цифровой передаче телефонных сигна-лов по КВ-каналам радиосвязи.

122

Современные вокодеры обеспечивают хорошее качество речи при скорости передачи 800 – 2 400 бит/с и качество речи, пригодное для веде-ния служебных переговоров, при скорости передачи 1 200 бит/с.

В качестве примера рассмотрим более подробно характеристики во-кодера NPES (Natural Parameters EStimation).

NPES вокодер – это алгоритм анализа и синтеза речи, основанный на «натуральной» модели речевого тракта. В этой модели локально-постоянные параметры речевого сигнала – частота основного тона, частота вокализованности, частоты и амплитуды формант. Такая параметризация позволяет использовать NPES вокодер в качестве единого алгоритма пред-варительной обработки цифрового сигнала для задач сжатия, идентифика-ции и распознавания речи [33].

NPES вокодер имеет следующие характеристики: − класс сигналов – речь одного диктора; − частота дискретизации – до 16 кГц; − полоса частот формант – 80 – 3800 Гц; − полоса частоты основного тона – 50 – Fs/2 Гц; − скорость передачи речи фиксирована в диапазоне 800 – 2400 бит/с; − задержка обработки – 25 мс; − встроенная адаптивная фильтрация шума; − преобразование параметров речи; − устойчивость к ошибкам в канале передачи; − возможность аппаратной реализации синтезатора.

NPES вокодер применяется в следующих областях: − сжатие речи для передачи и хранения; − преобразование речи; − синтез речи по тексту; − распознавание речи; − идентификация диктора; − определение частоты основного тона.

На рис. 6.4 представлена функциональная структура NPES вокодера. Каждая из его четырёх частей осуществляет определенное преобразование речевого сигнала, представленного в цифровой форме. Процедура анализа преобразует сегмент речевого сигнала из представления в виде последова-тельности отсчётов (формат PCM) в представление в виде значений пара-

123

метров модели, а процедура синтеза осуществляет обратное преобразова-ние. Процедура кодирования позволяет сопоставить каждый набор значе-ний параметров с определённым 32-битным числом (формат NPES), а про-цедура декодирования производит обратное действие.

Рис. 6.4. Функциональная структура NPES вокодера


1. Что такое синтез речи? 2. Какие существуют ограничения, влияющие на выбор метода синтеза? 3. Что такое кодирование и декодирование речи? 4. Чем характеризуется метод фонемного синтеза речи? 5. Чем характеризуется метод формантного синтеза речи? 6. Что такое вокодер и каковы его особенности? 7. Какие существуют виды вокодеров? 8. Каковы характеристики NPES вокодера?

Сегмент речи

РСМ

Параметры

речи

32-битный код

NPES

Анализ

Синтез

Кодер

Декодер

124

Глава 7. МЕТОДЫ КОДИРОВАНИЯ РЕЧЕВЫХ СИГНАЛОВ

Современные достижения в области создания высокопроизводитель-

ных процессоров для обработки сигналов позволяют практически неогра-ниченно совершенствовать методы и алгоритмы цифровой обработки ре-чевых сигналов, что обеспечивает возможность создания высококачест-венных цифровых систем связи. При этом с каждым годом усилиями уче-ных и инженеров снижается информационная емкость передаваемых по каналам связи речевых сигналов, что приводит к постоянному удешевле-нию услуг средств связи [19].

Кодирование речи обеспечивает компактное цифровое представле-ние аналогового голосового сигнала, что делает возможным высококачест-венную передачу голоса по цифровым телефонным сетям. Кроме того, по-требности в уменьшении скорости передачи (компрессии) речевых сигна-лов возникают в военной и других областях для обеспечения закрытой свя-зи. Можно указать и другие факторы, определяющие интерес к системам компрессии речи. Быстрый рост компьютерных сетей требует создания ориентированной на мультимедиа-трафик системы коммуникации. При улучшении качества вокодерной речи на скоростях передачи примерно 4 – 8 кбит/с условия для речевой коммуникации по компьютерным сетям становятся более благоприятными.

В настоящее время интерес к низкоскоростной компрессии речевых сигналов возрастает в таких областях, как цифровая телефония, беспро-водная связь, Интернет, речевая справочная (автоматическая) служба и другие.

7.1. Кодирование формы волны речевого сигнала Исходный речевой сигнал представляет собой акустическую волну

(волна давления в воздухе), которую можно преобразовать в электромаг-нитную с помощью микрофона. Будем считать, что спектр речевого сигна-ла лежит в диапазоне от 100 до 4 000 Гц. Динамический диапазон измене-ния амплитуды, достаточный для описания речевых сигналов, составляет 12 двоичных разрядов [19, 33].

125

Для цифрового представления сигнала достаточно осуществить ана-логово-цифровое преобразование частотой 8 000 Гц. Информационная ем-кость речевого сигнала составит 12 8 000 96 000⋅ = бит/с.

Компрессия речевых сигналов обеспечивается с помощью специаль-ных средств кодирования (на входе), а затем декодирования (восстановле-ния на выходе).

Первый шаг, обеспечивающий компрессию сигнала, – попытка обес-печения равномерной относительной точности измерения значения ампли-туды сигнала. Для этого 12-разрядный динамический диапазон амплитуды разбивают на восемь логарифмических поддиапазонов, в каждом из кото-рых значение амплитуды кодируют пятью разрядами и таким образом дос-тигают сокращения информации до 64 000 бит/с (кодирование по μ- и Α-законам в соответствии со стандартом ITU-G.711). Следующий шаг – адаптивная дифференциальная импульсно-кодовая модуляция (например в соответствии со стандартами G.721 или G.726 32 000 бит/с), с помощью которой осуществляют кодирование приращения амплитуды сигнала во времени. Таким путем удается достичь степени сжатия речевого сигнала порядка 32 000 – 16 000 бит/с, причем приемлемое (коммерческое) качест-во речи (по критерию отношения сигнал-шум) обеспечивается на скорости 24 000 бит/с. При более низких скоростях кодирования сохраняется раз-борчивость речи, но характерны сильные нелинейные и частотные искаже-ния сигнала и ухудшение отношения сигнал-шум. Дальнейшее уменьше-ние информационной емкости сигнала с помощью данного подхода счита-ется неэффективным.

7.2. Параметрическое кодирование Низкоскоростное кодирование складывается из двух основных про-

цессов [19]: параметрического представления речевого сигнала минималь-ным набором параметров, характеризующих источник возбуждения и аку-стический артикуляторный фильтр; дискретизации речевых параметров для их передачи по каналу связи при использовании его минимальной емкости.

Для параметрического описания речи обычно применяют подход, основанный на вычислении параметров, описывающих передаточную функцию речевого тракта человека и функцию возбуждения. Такими па-раметрами, например, являются коэффициенты линейного предсказания, параметр, характеризующий изменение амплитуды либо мощности сигна-ла, период основного тона речи, а также признак типа тон, шум, пауза, ха-рактеризующий способ возбуждения речевого сигнала.

В последнее время наибольшее распространение получил метод, по-зволяющий вычислять непосредственно полюса передаточной функции ре-чевого тракта в частотной области, упорядоченные по возрастанию частоты (LSF – linea spectral frequancy). Обычно для кодирования речи используют 8 – 10 параметров, вычисляемых на интервалах порядка 5 – 40 мс.

126

В качестве функции возбуждения речевого сигнала используется дельта-функция.

Полученный набор параметров, оптимизированный по критерию точности и минимальной разрядности представления, передается в цифро-вом виде по каналу связи в реальном времени, а на приемном конце осу-ществляется синтез речевого сигнала по перечисленным параметрам. Та-ким путем удается снизить информационную емкость речевого сигнала до уровня 16 000 – 1 200 бит/с с сохранением разборчивости и индивидуаль-ных особенностей речи говорящего.

Применяют следующие способы дискретного описания речевых па-раметров:

1) скалярное квантование (свыше 2,400 бит/с); 2) векторное квантование (свыше 800 бит/с); 3) векторное квантование с учетом динамики развития спектра во

времени (около 400 бит/с); 4) матричное квантование (до 300 бит/с). Далее кодирование речевого сигнала проводится с точностью до

единиц, имеющихся в кодовой книге. При декодировании временная структура речевого сигнала восстанавливается путем «черепичного» нало-жения сегментов и усреднения параметра в местах наложения.

7.3. Кодирование фонемной информации Как известно, минимальная слогоразличительная (и словоразличи-

тельная) единица речи – это фонема. Создание метода распознавания фо-нем позволит снизить скорость кодирования речевой информации до 100 бит/с, что соответствует информационной скорости текста. Заметим, что на приемном конце речь будет восстановлена синтезатором речи по фонемному тексту. При этом информация об индивидуальности диктора будет утрачена [19].

7.4. Кодирование слов и фраз На этом этапе компрессии речь идет о создании системы автомати-

ческого распознавания слов и целых фраз. В этом случае по каналу связи может быть передан только код слова, а на приемном конце из некоторого ограниченного словаря с помощью синтезатора будет восстановлен рече-вой сигнал [19].

7.5. Импульсно-кодовая модуляция Импульсно-кодовая модуляция (ИКМ, PCM – Pulse Code Modulation)

позволяет представить непрерывный аналоговый сигнал в форме последо-вательности равноотстоящих друг от друга импульсов (дискретизация по

127

времени), амплитуда которых выражается двоичным кодом (квантование по уровню). Подобное преобразование позволяет существенно повысить надежность передачи и хранения сигнала [35].

Кодеки, построенные на базе прямого аналогово-цифрового преобра-зования, работают на скоростях не ниже 32 кбит/с. При этом полоса вход-ного аналогового сигнала ограничена диапазоном 0,3 – 3,4 кГц. Для по-вышения качества преобразования полоса может быть расширена до 6 кГц, что соответствует скорости передачи 88 кбит/с при частоте дискретизации 12 кГц. При дальнейшем расширении полосы качество представления речи не повышается [30].

Импульсно-кодовая модуляция – это алгоритм оцифровки голоса, который был принят в 60-х гг. XX в. Этот алгоритм (международный стандарт G.711) используется при передаче голоса в коммерческих теле-фонных сетях. Оцифровка голосового сигнала включает измерение уровня аналогового сигнала через равные промежутки времени. В соответствии со стандартом G.711 принимается, что для узнавания голоса необходимо обеспечить передачу его частотных составляющих в диапазоне от 200 до 3 400 Гц. Известно, что для правильной передачи всех частотных состав-ляющих необходимо измерять уровень сигнала с частотой 8 кГц. В стан-дарте G.711 также принимается, что оцифровка аналогового сигнала про-изводится с восьмиразрядным разрешением. При этом обычно используют один из двух способов установления соответствия между амплитудой зву-кового сигнала и цифровым значением: либо A-кодирование (оно принято в Европе и Азии), либо μ-кодирование (принято в США, Канаде и некото-рых других странах). И то и другое – это таблицы соответствия измеряемо-го значения напряжения и числа, при помощи которого оно кодируется. Для передачи одного голосового канала в цифровом виде требуется пропу-скная способность 64 кбит/с (8 кГц · 8 разрядов).

ИКМ. Законы μ и A

Законы μ и A – это алгоритмы, рекомендованные для преобразования 14-разрядных отсчетов со знаком в байт, имеющие три поля: знак, порядок и мантисса (рис. 7.1) [35].

Рис. 7.1. Структура байта отсчета для законов μ и A

128

Так как согласно стандартам IBM PC работает 16-битным способом дискретизации звука, а не 14-битным, то алгоритм закона μ изменится для выделения из 16-битного отсчета всех трех полей байта.

Когда звуковая карта получает звуковые данные, она преобразует ка-ждое дискретное значение кода в соответствующее напряжение, которое за-тем усиливается и подается на динамик или наушники. При изменении зна-чения оцифрованного звука меняется напряжение, а динамик преобразовы-вает изменение напряжения в изменение звукового давления, которое в виде звуковой волны распространяется в воздухе и достигает уха человека.

Оно воспринимает звук нелинейно: разница между малыми цифро-выми представлениями звукового сигнала может быть слишком велика для слабых звуков, в то время как разница между большими значениями будет слишком мала, чтобы ухо ее различило.

Принимая во внимание указанную природу человеческого слуха, вводят логарифмическую шкалу. Соотношения μ- и A-законов соответст-вуют этой шкале [30].

Первое применяется прежде всего в Северной Америке и Японии. Для преобразования значений линейной дискретизации m в значения yμ

используется следующее уравнение:

sign( m ) mln 1yln(1 ) m p

μμ μ

⎛ ⎞⎜ ⎟= +⎜ ⎟+ ⎝ ⎠

, (7.1)

где mp – максимальное входное значение оцифрованного звука,

μ – константа, обычно равная 100 или 255. A – закон используется в Европе. Его также применяют для преобра-

зования значений линейной дискретизации в дискретные значения yA , где A – это константа, равная 87,6:

1, при ;1 ln

sign( ) 11 ln , при 1.1 ln

A

A m mA Am mp p

ym m mAA Am mp p

⎧ ⎛ ⎞⎪ ⎜ ⎟ ≤

⎜ ⎟+⎪ ⎝ ⎠⎪= ⎨⎛ ⎞⎪⎜ ⎟+ ≤ ≤⎪ ⎜ ⎟+⎪ ⎝ ⎠⎩

(7.2)

Соотношения μ - и A -законов позволяют с помощью восьмиразряд-ных измерений представлять значения того же диапазона, что и линейные 12-разрядные. Таким образом можно получить более чем 30 % сжатия.

129

en

xn x n

xn 1xn +

7.6. Дифференциальная импульсно-кодовая модуляция (ДИКМ) на основе линейного предсказания

В обычной импульсно-кодовой модуляции каждый отсчет кодируется независимо от других. Однако у многих источников сигнала при стробиро-вании с частотой Найквиста или быстрее проявляется значительная корре-ляция между последовательными отсчетами [42] (в частности, речевой сигнал является квазистационарным источником). Другими словами, из-менения амплитуды между последовательными отсчетами в среднем отно-сительно малы. Следовательно, схема кодирования, которая учитывает из-быточность отсчетов, будет требовать более низкой битовой скорости.

Суть ДИКМ заключается в следующем: текущее значение может быть предсказано по предыдущим M отсчетам. Пусть xn означает текущий от-

счет источника, а x n – предсказанное значение (оценку) для xn , опреде-ляемое как

1

Mx a xn k n k

k= ∑ −

=. (7.3)

Таким образом, x n – взвешенная линейная комбинация M отсчетов,

а }{ak – коэффициенты предсказания. Величины }{ak выбираются так,

чтобы минимизировать некоторую функцию ошибки en между xn и x n . Проиллюстрируем вышесказанное на отрезке речевого сигнала, где x x en n n− = (рис. 7.2).

Линейное» предска-зание означает, что x n –линейная функция преды-дущих отсчетов. При не-линейном предсказании –нелинейная функция. Ха-рактеристики предсказа-ния (порядок) определя-ются количеством ис-пользуемых предыдущих отсчетов. Предсказание нулевого и первого порядка является линейным, второго и более высокого порядка – нелинейным. При линейном предсказании восстановить сигнал значительно проще, чем при нелинейном. Будем рассматривать только ли-нейное предсказание.

Рис. 7.2. График ошибки en

130

Оно имеет следующие разновидности. 1. Предсказание нулевого порядка (рис.7.3).

Рис. 7.3. График предсказания нулевого порядка В этом случае для предсказания текущего отсчета используется

только предыдущий отсчет речевого сигнала:

1 1x x e x x x xn n n n n n n= ⇒ = − = −− − .

2. Предсказание первого порядка (линейная экстраполяция). В этом случае для предсказания текущего отсчета используется не только преды-дущий отсчет, но и разница между предпоследним и последним отсчетами, которая прибавляется к общему результату:

1 1 1 2 1 2( ) 2x x x x x x x xn n n n n n n= + Δ = + − = −− − − − − − =>

=> 1 22e x x x x xn n n n n n= − = − +− − .

Формирование сигнала ошибки при использовании линейного пред-

сказания эквивалентно прохождению исходного сигнала через линейный цифровой фильтр, который называется фильтром сигнала ошибки (ФСО), или обратным фильтром.

Обозначим передаточную функцию такого фильтра как ( )A z , следо-вательно

( )( )( )

E zA zX z

= , (7.4)

где ( )E z и ( )X z – прямое Z -преобразование от сигнала ошибки и вход-ного сигнала соответственно.

x n

en

xn

2xn − 1xn − xn

131

На приемной стороне при прохождении сигнала ошибки через форми-рующий фильтр (ФФ) мы должны получить исходный сигнал. Обозначим передаточную функцию формирующего фильтра как ( )K z . Передаточная функция ( )K z будет связана с ( )A z следующим соотношением:

1 ( )( )( ) ( )

X zK zA z E z

= = . (7.5)

Последовательность соединения ФСО и ФФ показана на рис. 7.4. При ( ) ( ) 1A z K z⋅ = будет

обеспечено абсолютно точное восстановление сигнала, т.е. x xn n= . Но в действительности такого быть не может по причи-нам, о которых скажем ниже.

Для примера найдем пере-даточные функции ФСО и ФФ для разных типов линейного предсказания.

Предсказание нулевого порядка 1

1( ) ( ) ( )( ) 1( ) ( )

E z X z z X zA z zX z X z

−−−= = = − ; 1

1 1 ( 0)( )( ) ( 1)1

zK zA z zz−

−= = =−−

.

Получили, что такой фильтр неустойчив, так как полюс находится на единичной окружности.

Предсказание первого порядка 1 2

1 2( ) ( ) 2 ( ) ( )( ) 1 2( ) ( )

E z X z z X z z X zA z z zX z X z

− −− −− += = = − + ;

2

1 2 21 ( 0)( )

1 2 ( 1)zK z

z z z− −−= =

− + −.

Получили, что и такой фильтр тоже неустойчив. Общая форма предсказания Было получено, что

1

Mx a xn k n k

k= ∑ −

= =>

1

Me x x x a xn n n n k n k

k= − = − ∑ −

=, следовательно,

( ) ( )( ) 1( ) 1( ) ( ) 1

M kX z a z X zk ME z kkA z a zkX z X z k

−− ∑−== = = − ∑

=;

1 1( )( )

11

K z MA z ka zkk

= =−− ∑

=

.

{ }xn { }en { }x n

( )A z ( )K z

Рис. 7.4. Схема соединения фильтров

132

На основании рассмотренных примеров можно сделать следующие выводы. Фильтр сигнала ошибки – это всегда КИХ-фильтр, а формирую-щий фильтр – БИХ-фильтр. Коэффициенты передаточной функции ФФ, являющиеся коэффициентами линейного предсказания, должны быть та-кими, чтобы формирующий фильтр был устойчивым, а ошибка en мини-мальна.

Для получения передаточной функции ФФ, наиболее точно воспроиз-водящего частотную характеристику голосового тракта для данного звука, следует определить коэффициенты передаточной функции }{ak исходя из

условия наименьшей ошибки линейного предсказания речевого сигнала (по условию минимума среднего квадрата ошибки).

Запишем выражение для оценки дисперсии сигнала ошибки, которую надо минимзировать:

2 1 2( ) min1

Nx xe n nN n

σ = ⋅ − =∑=

;

2 2 2( ) ( ) min1 1 1

N N Ms x x x a xn n n k n k

n n k= − = − =∑ ∑ ∑ −

= = =.

Получили, что 2 ( , , ,..., )1 2 3s f a a a am= – функция нескольких пере-менных. Продифференцируем ее и приравняем частные производные нулю для нахождения экстремума:

20, 1,s m M

am

∂ = =∂

;

2 22( ) 01 1 1

N M M as kx a x xn k n k n ka an k km m

⎛ ⎞∂∂ = − − ⋅ =⎜ ⎟∑ ∑ ∑− −⎜ ⎟∂ ∂= = =⎝ ⎠,

где 1,0,

a k mkkmk mamδ

∂ =⎧= =⎨ ≠∂ ⎩

– символ Кронекера.

Следовательно,

1

Mx xkm n k n m

kδ =∑ − −

=;

22( )( ) 0

1

Ms x a x xn k n k n ma n km

∂ = − − =∑ ∑ − −∂ =; =>

133

=> 2

( )( ) 01

Ms x a x xn k n k n ma n km

∂ = − =∑ ∑ − −∂ =;

( )( )1

( )1

Mx a x xn k n k n m

n kM

x x a x xn n m k n k n mn k

− =∑ ∑ − −=

= − =∑ ∑− − −=

= 0.1

Mx x a x xn n m k n k n m

n n k− =∑ ∑ ∑− − −

=

Получены нормальные уравнения или уравнения Юла – Волкера. Введем обозначение

( , )k m x xn k n mn

ϕ = ∑ − − ,

где ( , )k mϕ – автокорреляционная функция (АКФ).

(0, ) ( , )1

Mm a k mk

kϕ ϕ= ⋅∑

=. (7.6)

Для вычисления функции ( , )k mϕ необходимо найти пределы сумми-рования по n: 1M n N+ ≤ ≤ , где N – количество отсчетов в сегменте речево-го сигнала, а M – количество отсчетов, необходимых для расчета коэффици-ентов предсказания (M + 1)-го отсчета. Значит, первое предсказанное значе-ние запишется так: ( , , ,..., )1 2 3x f x x x xn n n n n M= − − − − , где n = M + 1.

Получим

( , )1

Nk m x xn k n m

n Mϕ = ∑ − −

= +.

Обозначим n – k = j => n = k + j, n – m = k + j – m <=> n – m = i + j, где i = k – m. Следовательно,

( , )1

N kk m x xj j i

j M kϕ

−= ∑ +

= + −. (7.7)

Таким образом, получаем выражение, имеющее структуру кратковре-менной ненормированной АКФ, зависящей не только от относительного сдвига последовательности i, но и от положения этих последовательностей внутри сегмента речевого сигнала, которые определяются индексом k, вхо-дящим в пределы суммирования. Такой метод определения функции

( , )k mϕ называется ковариационным [40, 42].

134

Выражение (7.6) представляет собой систему линейных алгебраиче-ских уравнений (СЛАУ) относительно }{ak , у которых все коэффициенты различны.

При использовании ковариационного метода получаются несмещен-ные оценки коэффициентов линейного предсказания, т. е. { } истE a ak k= , где истak – истинные значения коэффициентов линейного предсказания.

Другой способ определения коэффициентов системы (7.6) состоит в том, что вместо функции ( , )k mϕ используется некоторая другая функция

( , )k mϕ′ , которая определяется как ( ) | |

( , ) (| |),| |1 1

N k m N k mk m x x x x B k mj j k m j j k m

j jϕ

− − − −′ = ⋅ = ⋅ = −∑ ∑+ − + −

= =

( )1

N iB i x xj j i

j

−= ∑ +

= – ненормированная кратковременная корреляционная

функция (КФ). Поскольку определение функции ( , )k mϕ′ сводится к расчету КФ, то

такой метод называется автокорреляционным. При его использовании по-лучаются смещенные оценки коэффициентов линейного предсказания (од-нако при M << N смещение пренебрежимо мало).

Перепишем СЛАУ (7.6) с учетом введенной функции ( , )k mϕ′ :

(0, ) ( , ), 1, ,1

( , ) (| |),(0, ) ( ).

Mm a k m m Mk

kk m B k m

m B m

ϕ ϕ

ϕϕ

′ ′= =∑=

′ = −′ =

( ) (| |), 1,1

MB m a B k m m Mk

k= − =∑

=. (7.8)

Для автокорреляционного метода характерно то, что вся информация о сигнале, необходимая для определения коэффициентов линейного пред-сказания, содержится в кратковременной ненормированной АКФ ( )B i .

Распишем полученную СЛАУ в явном виде (0) (1) (2) ... ( 1) (1),1 2 3(1) (0) (1) ... ( 2) (2),1 2 3(2) (1) (0) ... ( 3) (3),1 2 3

...( 1) ( 2) ( 3) ... (0) ( ).1 2 3

B a B a B a B M a BmB a B a B a B M a BmB a B a B a B M a Bm

B M a B M a B M a B a B Mm

+ + + + − = ⎫⎪

+ + + + − = ⎪⎪+ + + + − = ⎬⎪⎪⎪− + − + − + + = ⎭

135

Затем перепишем ее в матричной форме: (0) (1) ... ( 1) (1)1(1) (0) ... ( 2) (2)2... ... ... ... ......

( 1) ( 2) ... (0) ( )

aB B B M BaB B B M B

B M B M B B Mam

⎛ ⎞−⎛ ⎞ ⎛ ⎞⎜ ⎟⎜ ⎟ ⎜ ⎟− ⎜ ⎟⎜ ⎟ ⎜ ⎟⋅ =⎜ ⎟⎜ ⎟ ⎜ ⎟⎜ ⎟⎜ ⎟ ⎜ ⎟⎜ ⎟− −⎝ ⎠ ⎝ ⎠⎝ ⎠

.

Свойства коэффициентов матрицы: 1) симметричность; 2) теплицева матрица (элементы диагонали равны). Для решения СЛАУ с такой матрицей используется алгоритм Левин-

сона – Дарбина, который требует меньших вычислительных затрат, чем стандартные алгоритмы и выглядит следующим образом.

Начальные значения: (1) (1) (0); ; (0);1 11(0)

2 2(0) (1)(1) (0)2(1 ) .1 (0)

Bk a k E BB

B BE k EB

= = =

−= − ⋅ =

1 ( 1)( ) ( )1 ,( 1)

( ) ( 1) ( 1)( ) 2, .; , 1, 1,

( ) ( 1)2(1 ) ,

( ); 1, .

m mB m a B m jjjkm mE

m m mm m Ma k a a k a j mm m j j m m jm mE k Em

Ma a k Mk k

− ⎫−− −∑ ⎪⎪== ⎪−⎪⎪− − =⎬= = − = −− ⎪⎪−= − ⎪⎪

= = ⎪⎭

7.6.1. Решетчатый фильтр сигнала ошибки предсказания В процедуре вычисления коэффициентов предсказания Левинсона –

Дарбина в качестве промежуточных величин используются коэффициенты k m , которые называются коэффициентами отражения. Их физический смысл заключается в следующем. Голосовой тракт человека представляет собой трубу, состоящую из секций, соединенных последовательно и имею-щих разный диаметр. При прохождении звуковой волны через такую сис-тему возникают отражения на стыках секций, так как каждый стык являет-ся неоднородностью. Коэффициент отражения характеризует величину проходимости стыка двух секций (сред) и равен

136

1 ; 1 1; 01

s sm mr r sm m is sm m

−+= − ≤ ≤ ⇐ ≥++

.

Поясним его смысл на рис. 7.5: жирной линией показана m-я – секция голосового тракта.

Рис. 7.5. Коэффициент отражения

Если 1rm = − , то произойдет обрыв в цепи передачи сигнала (обрыв

прямой ветви). Такого быть не должно. Модель акустических труб может быть представлена в виде фильтра,

имеющего решетчатую (или лестничную) структуру. Основные параметры такого фильтра – коэффициенты отражения [40, 42].

Система акустических труб – резонансная система, поэтому если фильтр без потерь, то на его амплитудно-частотной характеристике (АЧХ) будут наблюдаться разрывы (всплески в бесконечность). В действительно-сти на месте этих всплесков будут резонансные пики. Частоты таких пиков называются формантными. Обычно в голосовых трактах человека фор-мантных частот (или формант) не более трех.

Так как коэффициенты отражения и коэффициенты предсказания вы-числяются в рамках одной и той же процедуры алгоритма Левинсона – Дарбина, то они могут быть выражены друг через друга. Рассмотрим эти алгоритмы.

Прямая рекурсия. Коэффициенты предсказания находят по коэффици-ентам отражения

( ) устанавливается,1,( ) ( 1) ( 1), 1, 1,

( ), 1, .

ma rm m m Mm m ma a r a j mj j m m jMa a j Mj j

⎫= − − ⎪ =⎬− − ⎪= + = −− ⎭

= =

Обратная рекурсия. Коэффициенты отражения находят по коэффици-ентам предсказания

1rm = − 1rm =

S m 01S m =+ S m 1S m →∞+ m m

137

( ) , 1, ,

( ) устанавливается,

( ) ( )( ) , , 1.( 1) , 1, 1.21

Ma a j Mj jmr am m

m mm m Ma a aj m m jma j mj rm

= =

⎫= − − ⎪⎪ =⎬+ −− ⎪= = −⎪− ⎭

Как уже было сказано, фильтры сигнала ошибки представляют собой

КИХ-фильтры, или нерекурсивные фильтры, что означает отсутствие вет-вей обратной связи. Системы с КИХ также могут обладать строго линей-ной фазо-частотной характеристикой (ФЧХ). Линейность ФЧХ – очень важное свойство применительно к речевому сигналу в тех случаях, когда требуется сохранить взаимное расположение элементов сигнала. Это су-щественно облегчает задачу проектирования фильтров и позволяет уделять внимание лишь аппроксимации их АЧХ. За это достоинство приходится расплачиваться необходимостью аппроксимации протяженной импульсной реакции в случае фильтров с крутыми АЧХ [39, 40].

Изобразим граф фильтра, имеющего решетчатую структуру 3-го по-рядка (рис. 7.6).

Рис. 7.6. Граф решетчатого фильтра

В отличие от формирующего фильтра этот фильтр имеет один вход и

два выхода: ei – последовательность отсчетов сигнала ошибки прямого линейного

предсказания; bi – последовательность отсчетов сигнала ошибки обратного линей-

ного предсказания, где 1 1 1b x xn n n= −− − − . Важность bi определяется тем, что по ним совместно с сигналом

ошибки ei могут быть оценены коэффициенты отражения:

(0)ne 1 1 (1)

ne 1 1 (2)ne 1 1 (3)

ne ne

nx 1r 2r 3r 1r 2r 3r

1z− 1 1z− 1 1z− 1

(0)nb (0)

1nb − (1)nb (1)

1nb − (2)nb (2)

1nb − (3)nb nb

138

( ) ( )

( 1) ( 1)1

2 2( 1) ( 1)1 1

N m me bn nnrm N Nm me bn n

n n

− −∑== −− −∑ ∑

= =

, (7.9)

где N – количество отсчетов в сегменте. Полученная формула для расчета коэффициентов отражения имеет

также другой физический смысл – расчет коэффициентов корреляции ме-жду последовательностью отсчетов сигнала ошибки прямого и обратного линейных предсказаний.

Приведем также рекуррентные разностные уравнения решетчатого фильтра сигнала ошибки:

( 1),( ) ( 1)1 1, ,

( 1)( ) ( 1),1

mm me e r bn n m n m Mmm mb b r en m nn

−−⎧ ⎫= +⎪ ⎪− =⎨ ⎬− −⎪ ⎪= +−⎩ ⎭

где ( ) ( );M Me e b bn n n n= = – выход фильтра, а начальные условия для ре-

куррентной процедуры – (0) (0);e x b xn n n n= = .

7.6.2. Реализация ДИКМ

Зная метод определения коэффициентов предсказания, рассмотрим блок-схему практической системы ДИКМ, показанную на рис. 7.7 [39, 40].

В этой схеме предсказатель стоит в цепи обратной связи, охватываю-щей квантователь (К). Вход предсказателя обозначен xn . Он представляет

собой сигнальный отсчет xn , искаженный в результате квантования сигна-

ла ошибки. Выход предсказателя (П)

ˆ .1

Mx a xn k n k

k= ∑ −

= (7.10)

Рис. 7.7. Блок-схема практической системы ДИКМ

( )x t { }nx { }ne { }ne к модему + _

{ }ˆnx { }nx

АЦП К

П

139

Разность ˆe x xn n n= − – вход квантователя, а en – его выход. Величи-на квантованной ошибки предсказания en кодируется последовательно-стью двоичных символов и передается через канал в пункт приема.

Квантованную ошибку en также суммируют с предсказанной величи-

ной xn , чтобы получить xn . В месте приема используют такой же предсказатель, как и на передаче.

Выход речевого сигнала xn суммируют с en , чтобы получить xn (рис. 7.8).

Рис. 7.8. Схема предсказателя на приеме и передаче

Сигналы xn являются входными для предсказателя. По ним с помо-

щью ЦАП восстанавливается сигнал ( )x t . Ошибка в xn становится ошиб-кой квантования q e en n n= − . Использование обратной связи вокруг кван-тователя позволяет избежать накопления предыдущих ошибок квантова-ния при декодировании

ˆ( )q e e e x x x xn n n n n n n n= − = − − = − . Следовательно, x x qn n n= + , что означает, что квантованный отсчет

xn отличается от входа xn ошибкой квантования qn независимо от исполь-зования предсказателя. Значит, ошибки квантования не накапливаются.

В рассмотренной выше системе ДИКМ оценка, или предсказанная ве-личина xn отсчета сигнала, получается посредством линейной комбинации предыдущих значений xn k− , k = 1, 2, …, M. Улучшенное качество оценки можно получить включением в неё линейно отфильтрованных последних значений квантованной ошибки.

Оценку xn можно выразить так:

?1 1

m lx a x b en k n k k n k

k k= +∑ ∑− −

= =,

{ }ne { }nx к ЦАП

{ }ˆnx

{ }ka

П

140

где { }bk – коэффициенты фильтра для квантованной последовательности ошибок en . Блок-схемы кодера на передаче и декодера на приеме приведе-

ны ниже (рис. 7.9, 7.10).

Рис. 7.9. Блок-схема кодера на передаче

Рис. 7.10. Блок-схема декодера на приеме

Здесь два ряда коэффициентов { }ak и { }bk выбираются так, чтобы

минимизировать некоторую функцию ошибки ˆe x xn n n= − , например

среднеквадратическую ошибку.

7.7. Способы кодирования речи на основе анализа временных параметров

При цифровом кодировании стремятся по возможности к наиболее точному представлению речевого сигнала для того, чтобы по этому циф-ровому представлению восстановить исходный акустический сигнал. Дру-гая задача – представление речевого сигнала совокупностью свойств или

( )x t { }nx { }ne { }ne к модему + _

{ }ˆnx { }ne

{ }nx

АЦП К

Лин. фильтр { }kb

Лин. фильтр { }ka

{ }ne { }nx к ЦАП

{ }ˆnx

{ }kb { }ka

Лин. фильтр

Лин. фильтр

141

параметров модели. Ряд сравнительно простых и полезных характеристик можно определить путем непосредственных измерений параметров самого сигнала, а именно по его ИКМ-представлению.

Ключ ко всем параметрическим представлениям – процедура кратко-временного анализа [46].

7.7.1. Измерение энергии Одна из характеристик сигнала – его энергия. Энергия вещественно-

го дискретного во времени сигнала ( )x n

( )2E x nn

∞= ∑

= −∞. (7.11)

Для нестационарных сигналов, например, речевого, более удобно вычислять изменяющуюся во времени энергию в виде:

( ) ( ) ( )N 1

m 0

2E n w m x n m−

=⎡ ⎤= −∑ ⎣ ⎦ , (7.12)

где ( )w m – весовая последовательность, или окно, которое выделяет уча-сток ( )x n , a N – количество отсчетов в окне. Таким образом, один из спо-собов измерения энергии (7.12) основывается на сглаживании последова-тельности ( )x n фильтром с импульсной реакцией ( )W n .

Как и следовало ожидать, функция ( )E n отображает изменяющиеся во времени амплитудные свойства речевого сигнала. Однако формула (7.12) нуждается в тщательной интерпретации. Во-первых, это касается выбора окна, задача которого состоит в приписывании меньших весов бо-лее старым отсчетам речи, поэтому с увеличением m ( )w m , как правило, монотонно стремится к нулю. Если на всем интервале отсчеты должны иметь одинаковый вес, используют прямоугольное окно.

Во-вторых, трудность заключается в выборе интервала измерения N . При слишком малом N , когда его величина меньше периода основного тона, величина энергии Е(n), определяемой выражением (7.12), подверже-на быстрым флуктуациям, зависящим от тонкой структуры сигнала. Если N слишком велико и равно нескольким периодам основного тона, величи-на ( )E n изменяется незначительно и поэтому не может отразить изменяю-щиеся свойства речевого сигнала. Практически наиболее подходящее зна-чениеN при частоте дискретизации 10 кГц составляет величину порядка 100 – 200 отсчетов (10 – 20 мс речи).

142

Основное значение характеристики ( )E n состоит в том, что она мо-жет служить хорошим критерием разделения вокализованных и невокали-зованных участков речи. На невокализованных участках величина ( )E n намного меньше, чем на вокализованных. Кроме того, чем меньше N , тем меньше ошибка определения точного положения границ, где невокализи-рованная речь переходит в вокализированную и обратно. Более того, при-менительно к высококачественной речи энергию можно использовать для отделения невокализированных участков речи от паузы.

Процедура измерения энергии осложняется тем обстоятельством, что величина уровня возводится в квадрат, тем самым в ( )E n появляются большие перепады. Один из сравнительно простых способов преодоления этой трудности – использование для оценки энергии функции, в которой вместо суммы квадратов вычисляется сумма абсолютных величин

( ) ( )1

0ˆ .

N

mE w n x n m

−

== −∑ (7.13)

7.7.2. Измерение числа переходов через нуль

Еще один весьма простой способ анализа временных параметров сигнала основан на измерении числа переходов через нуль. Имея в виду цифровое представление сигнала, можно утверждать, что между момента-ми взятия n -го и ( 1n − )-го отсчетов произошло пересечение нулевого уровня, если

[ ] [ ]sign ( ) sign ( 1)x n x n≠ − . (7.14) Это измерение несложно в реализации и часто используется для гру-

бой оценки частотного содержания речевого сигнала. Возможность его применения объясняется тем, что для синусоидального сигнала с частотой

0f среднее число пересечений нулевого уровня за 1 с 2 0m f= . (7.15)

Однако соотношение (7.15) нельзя без оговорок распространить на речевой сигнал, поскольку большая часть звуков речи имеет широкий спектр частот. Тем не менее иногда достаточно даже такой грубой оценки.

Например, хорошо известно, что энергия вокализованной речи обычно концентрируется в диапазоне ниже 3 кГц, тогда как энергия фри-кативных звуков в основном сосредоточена выше 3 кГц. На этом основа-нии результаты измерений числа переходов через нуль (наряду с информа-цией об энергии) часто используются для принятия решения о том, вокали-зованный или не вокализованный характер имеет данный участок речи. Если частота пересечений высока, то это свидетельствует о не вокализо-

143

ванном характере речи, если же она мала, то весьма вероятно, что анализи-руется вокализованный участок. Число переходов через нуль в сочетании с измерением основного тона речи используется при оценке параметров воз-буждения, а также при распознавании речи [43].

При цифровой реализации измерений числа переходов через нуль следует учитывать ряд важных обстоятельств. Хотя в соответствии с ос-новным алгоритмом требуется произвести лишь сравнение знаков двух следующих друг за другом отсчетов, необходимо также весьма тщательно выполнять и саму процедуру дискретизации. Большие искажения в резуль-таты измерений числа переходов через нуль вносят наличие шума, смеще-ние уровня постоянного тока и напряжение фона с частотой питающей се-ти 50 Гц, поэтому для ослабления мешающего влияния указанных факто-ров перед устройством дискретизации вместо фильтра нижних частот ста-вится полосовой фильтр. Кроме того, поскольку временное разрешение при измерении числа переходов через нуль определяется периодом дис-кретизации Т, его повышение сопряжено с увеличением частоты дискрети-зации. Для измерения числа переходов через нуль можно применять двух-уровневое квантование.

7.7.3. Кратковременный автокорреляционный анализ

Функция автокорреляции дискретного во времени сигнала ( )x n оп-ределяется как

( ) ( ) ( )N

N n N

1m lim x n x n m2N 1

ϕ→∞ =−

= +∑+

. (7.16)

Автокорреляционная функция весьма полезна для выявления струк-туры любого сигнала, и в этом смысле речь не составляет исключения [46]. Если, например, некоторый сигнал имеет структуру с периодом T :

( ) ( )x n T x n+ = для всех n , то ( ) ( )m m Tϕ ϕ= + . (7.17)

Таким образом, периодичность автокорреляционной функции указы-вает на периодичность исходного сигнала. Если автокорреляционная функция в окрестности точки 0m = имеет острый пик и с возрастанием m быстро падает к нулю, то это указывает на отсутствие в сигнале предска-зуемой структуры.

Как уже отмечалось, речь является нестационарным сигналом. Одна-ко на коротких интервалах времени свойства речевого сигнала сохраняют-ся неизменными. Как мы уже видели, это свойство служит основой крат-ковременного анализа.

144

Рассмотрим для примера отрезок сигнала из N отсчетов: ( ) ( ), 0 1x n x n l n Nl = + ≤ ≤ − , (7.18)

где l – начало этого отрезка. В этом случае кратковременная автокорреля-ционная функция может быть определена как

( ) ( ) ( )11 , 0 100

pm x n x n m m Ml l lN n

ϕ−

= + ≤ ≤ −∑=

, (7.19)

где 0M – максимально требуемая задержка. Так, например, для выявления

периодичности сигнала необходимо выполнить условие M T> . Значение целого числа p оговорено ниже.

Выражение (7.19) можно трактовать как автокорреляцию отрезка ре-чевого сигнала протяженностью N отсчетов, начиная с отсчета l . Если p N= , то для вычисления используются отсчеты, находящиеся вне отрезка

1l n N l< < + − ; если p N m= − , то – отсчеты только внутри интервала. В последнем случае исследуемый отрезок часто взвешивается с помощью функции окна, которая плавно сводит к нулю величины отсчетов на концах отрезка.

Обычно предполагается, что для хранения существенных признаков речевого сигнала при его кодировании с помощью ИКМ может потребо-ваться частота дискретизации от 6 до 20 кГц, однако кодирование медлен-но изменяющихся параметров модели возможно со значительно меньшей частотой (от 50 до 100 Гц). Предположим для примера, что частота дис-кретизации речевого сигнала равна 10 кГц, а кратковременная автокорре-ляция должна вычисляться 100 раз в секунду. Оценка величины автокор-реляции обычно производится на отрезках речевого сигнала длительно-стью 20 – 40 мс (для оценки периодичности сигнала длительность окна должна быть достаточной для перекрытия как минимум двух периодов ре-чевого сигнала). Таким образом, при частоте дискретизации 10 кГц коли-чество отсчетов находится в интервале 200 400N< < , а требуемые оценки величины автокорреляции должны вычисляться для приращения, равного 100 отсчетам [46].

При использовании кратковременной автокорреляционной функции для оценки периода основного тона желательно, чтобы эта функция имела острые пики с интервалом, кратным периоду T . Корреляционная функция речи не имеет острых пиков, поскольку структуру каждого периода рече-вого сигнала в значительной степени можно предсказать заранее.

145

7.8. Кодирование речи на основе адаптивного mel-кепстрального анализа Mel-кепстральные коэффициенты – популярные характеристики при

исследовании речи и распознавании спикера. Достаточно часто системы кодирования речи используют авторег-

рессионное (AR – autoregressive) спектральное представление для кратко-временного предсказания. Однако в некоторых случаях кепстральные ко-эффициенты позволяют достичь лучших результатов [4].

Кепстр – спектр, полученный преобразованием Фурье логарифма сигнала. Спектр, представленный mel-кепстральными коэффициентами, должен иметь разрешающую способность, по частоте подобную человече-скому слуху, который имеет более высокую разрешающую способность на низких частотах. Поэтому ожидается, что использование mel-кепстра мо-жет быть эффективным для спектрального моделирования в кодерах речи вместо AR-моделирования.

Чтобы продемонстрировать эффективность mel-кепстрального пред-ставления в кодировании речи, рассмотрим кодер АДИКМ, который ис-пользует кратковременный адаптивный предсказатель, основанный на mel-кепстральном представлении спектра речи. При этом mel-кепстральные коэффициенты будут обработаны алгоритмом для адаптивного mel-кепстрального анализа. Так как передаточная функция шумового форми-рования и постфильтрования также определена через mel-кепстральные коэффициенты, эффекты шумового формирования и постфильтрования должны соответствовать особенностям человеческого слухового ощуще-ния.

Качество речи кодера оценивается объективными и субъективными исследованиями. Показано, что высококачественная речь, соответствую-щая CCITT G.721 ADPCM-кодеру на скорости 32 кбит/с, может быть вос-произведена кодером на основе mel-кепстра на скорости 16 кбит/с без ал-горитмической задержки.

7.8.1. Адаптивный mel-кепстральный анализ

Модель спектра речи ( )jD e ω , использующая М-й порядок mel-кепстральных коэффициентов ( )C m , имеет вид

( ) ( )M mD z exp C m z

m 0−= ∑

=, (7.20)

где 1

11 , 1

1z

zzα α

α

−−

−−= <

−. (7.21)

146

Например, когда частота дискретизации равна 8 кГц, фазовая харак-теристика ω и передаточная функция при 0,31α = будут приближенными к масштабу me1-частоты, основанному на субъективных оценках основно-го тона [4].

В mel-кепстральном анализе коэффициент усиления ( )D z предпола-гается равным единице. При этом условии коэффициенты ( )C m однознач-но минимизированы:

2 ( )E e nε ⎡ ⎤= ⎣ ⎦ ,

где ( )e n – выход обратного фильтра ( )1 D z , как показано на рис. 7.11. Адаптивный mel-

кепстральный анализ решает проблему минимизации ошиб-ки с использованием оценки для градиента ε . Исследования показывают, что адаптивный алгоритм имеет достаточно быструю сходимость при ана-лизе речи.

Сигнал ( )e n может рассматриваться как ошибка линейного предска-зания, поэтому адаптивный mel-кепстральный анализ может использо-ваться для кратковременного адаптивного предсказания вместо метода ли-нейного предсказания.

7.8.2. Структура кодера

Базовая структура кодера, основанного на адаптивном mel-кепстральном анализе, приведена на рис. 7.12.

Рис. 7.12. Базовая структура кодера

Z-преобразование декодированной речи ˆ( )x n будет иметь вид:

ˆ ( ) ( ) ( )X z X z Q z= + , (7.22)

( )x n Кодировщик

Q

( ) 1D z −

( )e n

Цифровой канал

Декодер

( )D z ( )x n

( )x n ( )1 D z

( )e n

Рис. 7.11. Схема адаптивного mel-кепстрального анализа

147

где ( )X z и ( )Q z – это Z-преобразования от ( )x n и ( )q n соответственно, ( )q n – квантованный шум, создаваемый квантователем Q . Передаточная

функция ( )D z реализуется при использовании MLSA-фильтров. MLSA (Mel Logarithmic Spectral Approximation) – mel-лога-

рифмический спектральный фильтр приближения, коэффициенты которого определяются mel-кепстральными коэффициентами согласно информации о высоте тона [10].

Ограничение шума и постфильтрация

Передаточные функции ( )D z и ( )D z реализуются при использова-нии MLSA-фильтров. Мы можем также реализовать ( )D zγ и ( z )Dβ тем же способом, что и ( )D z и ( )D z : умножением ( )C m на γ и β соответст-венно. Чтобы избежать изменения усиления на выходе постфильтра, до-бавляем регулятор выходного усиления, который поддерживает выходной сигнал постфильтра таким образом, чтобы он имел приблизительно ту же самую мощность (энергию), что и нефильтрованная речь [4].

Передаточная функция ( )D z аналогична ( )D z за исключением того,

что (1)Cγ должно быть равно нулю, чтобы уравновешивать глобальный спектральный наклон. Настраиваемые параметры γ и β регулируют вели-чину ограничения шума и постфильтрования соответственно.

Рис. 7.13 показывает структуру кодера, основанного на mel-кепстральном анализе с ограничением шума и постфильтрованием.

Рис. 7.13. Структура кодера, основанного на адаптивном mel-кепстральном анализе

Z-преобразование от декодированной речи ˆ( )x n будет иметь вид:

{ }ˆ ( ) ( ) ( ) ( ) ( )X z X z D z Q z D zβγ= + + . (7.23)

Передаточная функция ( )D zγ ограничивает спектр шумов и

( )D zβ – постфильтрование.

( )x n Кодировщик

Q

( ) 1D zγ −

( ) 1D z −

( )e n

Цифровой канал

( )D z

( )D zβ

( )x n

Декодер

148

Структура с предсказателем основного тона Рис. 7.14 показывает структуру кодера с предсказателем основного

тона.

Рис. 7.14. Структура кодера с предсказателем основного тона

Z-преобразование от декодированной речи ˆ ( )x n будет иметь вид:

( )ˆ ( ) ( ) ( ) ( ) ( )( )

D zX z X z Q z A z D zpA zn

γ β⎧ ⎫⎪ ⎪= + +⎨ ⎬⎪ ⎪⎩ ⎭

. (7.24)

Передаточную функцию фильтра предсказания основного тона нахо-дят по формуле

1( ) 1 ( )

1

p kA z a k zk p

+ −= + ∑= −

. (7.25)

Период основного тона p и коэффициенты предсказателя основного тона ( )a k вычисляют на основе корреляции ˆ( )e n , получающейся при ис-пользовании экспоненциального окна [4].

Передаточные функции ( z )An и ( z )A p определяют по формулам:

1( ) 1 ( )

1

pkz a kA zn n

k pε

+−= + ∑

= − , (7.26)

( )x n

Кодер Q ( )pe z

Цифровой канал e( n )

Декодер

( )1 A z

( )D z

( )pA z

( )D zβ

( )x n

( ) 1nA z −

( ) 1D zγ −

( ) 1A z −

D(z)–1 e( n )

149

1 11( ) 1 ( ) 1 ( )

1 1

p pz a k a kA zp p p

k p k pε ε

⎛ ⎞ ⎛ ⎞+ +−⎜ ⎟ ⎜ ⎟= − −∑ ∑

⎜ ⎟ ⎜ ⎟= − = −⎝ ⎠ ⎝ ⎠. (7.27)

Настраиваемые параметры nε и pε регулируют величину ограниче-

ния шума и постфильтрования соответственно. В декодере p и ( )a k всегда вычисляют по квантованным значениям ˆ( )e n .

7.9. Кодирование речи в стандарте GSM GSM – это цифровая система, следовательно, аналоговая речь долж-

на быть оцифрована на входе и восстановлена на выходе. Кодер речи – первый элемент собственно цифрового участка пере-

дающего тракта АЦП. Основная задача кодера – предельно возможное сжатие сигнала речи, т.е. предельно возможное устранение избыточности речевого сигнала но при сохранении приемлемого качества. Компромисс между степенью сжатия и сохранением качества отыскивается экспери-ментально, а проблема получения высокой степени сжатия без чрезмерно-го снижения качества составляет основную трудность при разработке ко-дера. В приемном тракте перед ЦАП размещен декодер речи; задача деко-дера – восстановление цифрового сигнала речи по принятому кодирован-ному сигналу (с присущей ему естественной избыточностью). Сочетание кодера и декодера называют кодеком.

Кодирование сигнала источника первоначально основывалось на данных о механизмах речеобразования. Этот метод использовал модель голосового тракта и приводил к системам типа анализ-синтез, получившим название вокодеров (кодер голоса, или кодер речи). Ранние вокодеры по-зволяли получать весьма низкую скорость передачи информации при ха-рактерном «синтетическом» качестве речи на выходе, поэтому вокодерные методы долгое время оставались в основном областью приложения усилий исследователей и энтузиастов и не находили широкого практического применения.

Ситуация существенно изменилась с появлением метода линейного предсказания, предложенного в 1960-х гг. и получившего мощное развитие в 1980-х гг. на основе достижений микроэлектроники.

В настоящее время в системах подвижной связи получили распро-странение вокодерные методы на базе метода линейного предсказания. Суть кодирования речи методом линейного предсказания (Linear Predictive Coding – LРС) заключается в том, что по линии связи переда-

150

ются не параметры речевого сигнала, а параметры фильтра, в определен-ном смысле эквивалентного голосовому тракту, и параметры сигнала воз-буждения этого фильтра, в качестве которого используется фильтр ли-нейного предсказания. Задача кодирования на передающем конце линии связи состоит в оценке параметров фильтра и параметров сигнала возбу-ждения, а задача декодирования на приемном конце – в пропускании сиг-нала возбуждения через фильтр, на выходе которого получается восста-новленный сигнал речи.

Значения коэффициентов предсказания, постоянные на интервале кодируемого сегмента речи (на практике длительность сегмента составляет 20 мс), находят из условия минимизации среднеквадратического значения остатка предсказания на интервале сегмента.

Таким образом, процедура кодирования речи в методе линейного предсказания сводится к следующему:

− оцифрованный сигнал речи нарезается на сегменты длительностью по 20 мс;

− для каждого сегмента оцениваются параметры фильтра линейного предсказания и параметры сигнала возбуждения; в качестве сигнала воз-буждения в простейшем случае может выступать остаток предсказания, получаемый при пропускании сегмента речи через фильтр с параметрами, найденными из оценки для данного сегмента;

− параметры фильтра и параметры сигнала возбуждения кодируются по определенному закону и передаются в канал связи.

Процедура декодирования речи заключается в пропускании принято-го сигнала возбуждения через синтезирующий фильтр известной структу-ры, параметры которого переданы одновременно с сигналом возбуждения.

Линейное предсказание является кратковременным (STP – Short-Term Prediction) и не обеспечивает достаточной степени устранения из-быточности речи, поэтому в дополнение к кратковременному предсказа-нию используется еще долговременное (LTP – Long-Term Prediction), в значительной мере устраняющее остаточную избыточность и прибли-жающее остаток предсказания по своим статистическим характеристи-кам к белому шуму.

В стандарте GSM применяется метод полноскоростного (13,6 кбит/с) кодирования речи RPE-LTP (Regular Pulse Excited Long-Term Predictor – линейное предсказание с возбуждением регулярной последовательностью импульсов и долговременным предсказателем) – стандарт GSM 06.10. Уп-рощенная блок-схема кодека приведена на рис. 7.15, 7.16 [15].

151

Рис. 7.15. Блок-схема кодера кодека в стандарте GSM 06.10

Кодирование 1. Непрерывный речевой сигнал дискретизуется с частотой 8 кГц, и

оцифровывается с равномерным законом квантования и разрядно-стью 13 бит/отсчет:

число уровней квантования 134096 2M = ± = , уровень шумов квантования 210 lg1 12 2 90дБ,дБ

RDq−= ⋅ ⋅ ≈ − .

2. Для повышения разборчивости речи осуществляют предыска-жение входного сигнала при помощи цифрового фильтра, подчеркивающе-го верхние частоты.

Рис. 7.16. Блок-схема декодера кодека в стандарте GSM 06.10

3. Непрерывная последовательность отсчетов разбивается на сег-

менты по 160 отсчетов (длительностью 160·1/8 кГц = 20 мс).

ДЕКОДЕР От кодера fn′ en′

Sn′

Формирование сигнала возбужде-

ния

Фильтр-анализатор долговрем. пред-сказания ( )R Z

Фильтр-синтезатор кратковрем. пред-сказания ( )H z

Постфильтрация

КОДЕР Sn

fn

en

На декодер

Предварит. обработка

Оценка параметров фильтра кратковрем.

предсказания

Фильтр-анализатор кратковрем. пред-сказания ( )A Z

Оценка параметров фильтра долговрем.

предсказания

Фильтр-анализатор кратковрем. пред-сказания ( )P z

Оценка параметров сигнала возбужде-

ния

152

4. Проводят «взвешивание» каждого сегмента окном Хэмминга – «косинус на пьедестале», при этом амплитуда сигнала внутри сегмента плавно падает от центра окна к краям. Это делается для того, чтобы не бы-ло резких разрывов сигнала на краях сегментов.

5. Для каждого 20-миллисекундного сегмента (160 «взвешенных» отсчетов сигнала) оценивают параметры фильтра кратковременного ли-нейного предсказания. Оптимальные коэффициенты фильтра кратковре-менного линейного предсказания ak находят путем решения системы ли-нейных уравнений Юла – Волкера:

( ) ( ), 1, 2, 3, , , 8M

a R k l R l l M Mkk l

…− = = =∑=

,

которая в матричной форме записывается следующим образом:

(0) (1) (2) ( 1) (1)1(1) (0) (1) ( 2) (2)2(2) (1) (0) ( 3) (3)3

( 1) ( 2) ( 3) ( 0) ( )

aR R R R M RaR R R R M RaR R R R M R

R M R M R M R M R MaM

−−

⋅ =−

− − − −

………

… … … … ………

.

Здесь (0) ( )R R M… – значения кратковременной автокорреляцион-ной функции речевого сигнала, вычисленные по его отсчетам на текущем сегменте

1( ) ( ) ( ), 0 1, 0 , 160, 8

0

NR k x i x i k i N k M N M

i

−= − ≤ ≤ − ≤ ≤ = =∑

=.

6. На основе полученных коэффициентов фильтра кратковременно-го предсказания проводят фильтрацию текущего речевого сегмента (160 отсчетов) фильтром-анализатором кратковременного предсказания (инверсным фильтром) с передаточной характеристикой

( ) 11

M kA z a zkk

−= − ∑=

.

На выходе получается остаток (ошибка) кратковременного предска-зания en (160 отсчетов ошибки кратковременного предсказания). При этом из-за наличия в речевом сигнале долговременной повторяемости (перио-дичности), обусловленной гласными звуками, в ошибке кратковременного предсказания остаются периодические всплески достаточно большой ам-плитуды. Для их устранения (уменьшения) используется долговременное линейное предсказание.

153

7. Вычисляют параметры фильтра долговременного линейного предсказания с передаточной характеристикой

( ) 1 D iP z G zii

− −= − ∑ .

Сегмент остатка кратковременного линейного предсказания (160 отсчетов) разбивается на четыре подсегмента размером по 40 отсче-тов. Параметры долговременного предсказания – коэффициент предска-зания G и задержка D – оценивают для каждого подсегмента в отдель-ности. Укорочение интервала анализа долговременного предсказания обусловлено тем, что параметры сигнала возбуждения (с которыми связа-на его периодичность) изменяются гораздо быстрее, чем параметры голо-сового тракта (которые вошли в коэффициенты кратковременного линей-ного предсказания ak ).

В каждом подсегменте находят параметр задержки D (период ос-новного тона, определяемый как среднее расстояние между периодиче-скими всплесками автокорреляционной функции остатка кратковременно-го предсказания) и коэффициент предсказания G (определяемый как на-клон огибающей автокорреляционной функции остатка кратковременного предсказания). При этом параметр задержки D для текущего подсегмента вычисляют путем сглаживания (усреднения) текущего значения D и трех предшествующих ему значений (определенных на трех предыдущих под-сегментах).

8. Сигнал остатка кратковременного линейного предсказания (под-сегмент длительностью в 40 отсчетов) en обрабатывается фильтром-анализатором долговременного линейного предсказания с параметрами G и D , найденными для этого подсегмента, и на его выходе получается оста-ток долговременного и кратковременного предсказания fn . Далее по это-му сигналу будут находиться параметры сигнала возбуждения (в отдельно-сти для каждого из подсегментов).

9. Сигнал возбуждения одного подсегмента состоит из 13 импуль-сов, следующих через равные промежутки времени (втрое реже, чем ин-тервал дискретизации исходного сигнала) и имеющих различные амплиту-ды. Для формирования сигнала возбуждения 40 отсчетов подсегмент ос-татка fn обрабатывают следующим образом.

Последний (40-й) отсчет отбрасывают, а первые 39 отсчетов проре-живают и разбивают на три подпоследовательности: в первую включаются 1, 4, ... 37-й отсчеты, во вторую – отсчеты с номерами 2, 5, ... 38, в тре-тью – отсчеты с номерами 3, 6, ... 39. В качестве сигнала возбуждения вы-бирают ту подпоследовательность, энергия которой больше. Амплитуды

154

импульсов нормируют по отношению к импульсу с наибольшей амплиту-дой. Нормированные амплитуды кодируют тремя битами каждую (с ли-нейным законом квантования). Абсолютное значение наибольшей ампли-туды кодируют шестью битами в логарифмическом масштабе. Положение первого импульса 13-элементной последовательности кодируют двумя би-тами, т.е. фактически кодируют номер последовательности, выбранной в качестве сигнала возбуждения для данного подсегмента.

Таким образом, выходная информация кодера для одного 20-миллисекундного сегмента речи включает:

− параметры фильтра кратковременного линейного предсказания – во-семь коэффициентов на сегмент, кодируют 36 битами;

− параметры фильтра долговременного линейного предсказания – ко-эффициент предсказания G и задержка D – для каждого из четырех под-сегментов, также кодируют 36 битами;

− параметры сигнала возбуждения – номер подпоследовательности n , максимальная амплитуда v , нормированные амплитуды импульсов после-довательности , 1 13b ii = … – для каждого из четырех подсегментов. Все вместе кодируют 188 битами.

Итого на 20 -миллисекундный сегмент речи (160 отсчетов) получает-ся 260 бит. При этом коэффициент сжатия сегмента (по сравнению с ИКМ, использующей логарифмическую шкалу квантования 160 отсчетов по 8 бит/отсчет) составляет 1280/260 = 4,92≈ 5.

Декодирование Последовательность выполняемых при декодировании функций

представлена на рис. 7.16. Блок формирования сигнала возбуждения, ис-пользуя полученные параметры сигнала возбуждения, восстанавливает 13-импульсную последовательность сигнала возбуждения для каждого из подсегментов, включая амплитуды импульсов и их расположение во вре-мени. Сформированный таким образом сигнал возбуждения обрабатывает-ся фильтром-синтезатором долговременного предсказания, на выходе ко-торого получается восстановленный остаток кратковременного предсказа-ния. Последний обрабатывается фильтром-синтезатором кратковременного предсказания. Выходной сигнал фильтра-синтезатора кратковременного предсказания (а это уже почти синтезированный речевой сигнал) фильтру-ется цифровым фильтром низких частот, компенсирующим предыскаже-ние, внесенное входным фильтром блока предварительной обработки ко-дера. Сигнал с выхода низкочастотного постфильтра является восстанов-ленным цифровым сигналом речи.

Все перечисленные процедуры несмотря на их сложность выполня-ются в реальном масштабе времени процессором обработки речи, реализо-ванным аппаратно-программно в мобильном телефоне стандарта GSM.

155

Контрольные вопросы 1. Что дает кодирование речи? 2. Изложите методы кодирования речевой информации. 3. Каковы особенности ИКМ? 4. Каковы особенности законов μ и A , применяемых в кодирова-

нии речи? 5. Каковы особенности ДИКМ на основе ЛП? 6. Чем характеризуется алгоритм Левинсона – Дарбина? 7. Что такое решетчатый фильтр. Какова его граф-структура? 8. Каковы особенности практической системы ДИКМ? 9. Что такое кратковременный анализ речевого сигнала?

10. Как определяется энергия речевого сигнала? 11. Как определяется число переходов через нуль при анализе рече-

вого сигнала? 12. Каковы особенности автокорреляционного анализа? 13. Каковы особенности кодирования на основе линейного предсказания? 14. Что такое постфильтрация и для чего она применяется? 15. Какова структура предсказателя основного тона? 16. Как происходят процессы кодирования и декодирования в стан-

дарте GSM?

156

Глава 8. ЛАБОРАТОРНЫЙ ПРАКТИКУМ Практикум состоит из шести лабораторных работ, выполняемых на персональной ЭВМ. Содержание занятий – изучение методов и базовых алгоритмов обработки речевых сигналов путем их моделирования в среде MATLAB.

Подготовка к занятиям выполняется дома. Она заключается в изуче-нии теории и выполнении домашнего задания: подготовке тестовых при-меров, разработке схем алгоритмов, написании программ, разработке на-бора тестов, подготовке и оформлении теоретической части отчета. Для допуска к лабораторной работе студент обязан предъявить преподавателю результаты домашней подготовки.

В программах необходимо предусмотреть максимально возможную визуализацию процедуры решения, входных, промежуточных и оконча-тельных данных. В лаборатории проводится отладка программ, исследова-ния на тестовых примерах, дополнительные исследования, необходимость в которых возникает в процессе выполнения работы, анализ результатов.

Отчет по работе должен содержать полную информацию по проде-ланной работе и выводы по результатам исследований.

ЛАБОРАТОРНАЯ РАБОТА № 1. ДИСКРЕТНЫЕ СИГНАЛЫ И ИХ ОПИСАНИЕ ВО ВРЕМЕННОЙ ОБЛАСТИ

Цель работы: получить навыки формирования различных вариантов детерминированных и случайных сигналов дискретного времени и их гра-фического представления средствами MATLAB.

1. Основные теоретические сведения В теории дискретных систем рассматривается обработка сигналов,

представляемых последовательностями. Чаще всего последовательности получаются путем дискретизации аналоговых сигналов. Последователь-ность чисел обозначается как

( ){ } 1 2,X x n n n n= ≤ ≤ , (8.1) где ( )x n – ее n -й член.

Иногда для простоты выражение (8.1) записывают как ( )x n , хотя это, строго говоря, некорректно. В этом случае следует учитывать кон-текст.

157

Дискретные сигналы (последовательности) часто графически изо-бражаются так, как это показано на рис. 8.1.

Рис. 8.1. Графическое представление дискретного сигнала

Примеры дискретных сигналов: а) единичный импульс; б) единичная

ступенчатая последовательность; в) действительная экспоненциальная по-следовательность; г) синусоидальная последовательность (рис. 8.2).

Хотя абсцисса (см. рис. 8.1) изображена в виде непрерывной линии, следует понимать, что ( )x n определена только для целых значений n . Для других значений аргументов функция считается неопределенной.

Рис. 8.2. Графики дискретных сигналов (последовательностей)

Единичный импульс ( )nδ определяется как последовательность со

значениями ( ) 1, 00, 0

nn

nδ

=⎧= ⎨ ≠⎩

.

Единичный импульс играет для дискретных сигналов и систем ту же роль, какую играет дельта-функция для аналоговых сигналов и систем. Для удобства единичный импульс часто называется просто импульсом. Важно

X(n) X(-1) X(0) X(-2) X(1) X(2)

n -5 -4 -3 -2 -1 0 1 2 3 4 5

158

отметить, что с единичным импульсом не связаны те математические за-труднения, которые встречаются при использовании дельта-функции.

Единичная ступенчатая последовательность ( )u n имеет значения

( ) 1, 00, 0

nu n

n≥⎧

= ⎨ <⎩ и связана с единичным импульсом соотношением:

( ) ( ) ( )0

nu n n k k

k kδ δ

∞= − =∑ ∑

= = −∞. (8.2)

Единичный импульс связан с единичной ступенчатой последова-тельностью соотношением

( ) ( ) ( )1n u n u nδ = − − . (8.3) Действительная экспоненциальная последовательность – это после-

довательность na , где a – действительное число. Эту последовательность можно, например, получить периодическим (с периодом Т или частотой

1 TF d = ) взятием отсчетов (выборок) экспоненты непрерывного времени

( ) t n T nt n Tx n e e aα α− −== = = , где Ta e α−= .

Синусоидальная последовательность имеет вид ( ) ( )0cosx n A nω ϕ= + , ее также можно получить периодическим (с пе-

риодом T ) взятием отсчетов синусоиды непрерывного времени

( ) ( ) ( ) ( )00 0cos cos cosx n A t A nT A nt nT

ϕ ϕ ϕω= + = + = +=

Ω Ω ,

где 0 0Tω =Ω . Комплексная экспоненциальная последовательность имеет вид

( ) ( ) ( )0 0 0cos sinj nx n jn n ne eσ σω ω ω+= = + .

Последовательность ( )x n периодическая с периодом N , если ( ) ( )x n x n N= + для всех n . Комплексная экспонента с 0σ = и синусои-

дальная последовательность имеют период 02π ω только тогда, когда

02π ω – целое действительное число. Если оно не целое, но рациональное число, то дискретная синусоидальная последовательность будет периоди-ческой, однако с периодом, большим 02π ω . Если 02π ω не рациональ-но, то синусоидальная и комплексная экспоненциальная последовательно-сти не будут периодическими. Параметр 0ω называют цифровой часто-той синусоиды или комплексной экспоненты вне зависимости от того, пе-риодичны они или нет.

159

Произвольная последовательность может быть представлена как сумма взвешенных и задержанных единичных импульсов. Например, по-следовательность ( )p n , изображенную на рис. 8.3, можно записать как

( ) ( ) ( ) ( )2 73 1( ) 3 1 2 7p n a n a n a n a nδ δ δ δ−= + + − + − + − . В общем случае произвольная последовательность имеет вид

( ) ( ) ( )x n x k n kk

δ∞

= ⋅ −∑= −∞

. (8.4)

Рис. 8.3. Пример последовательности, представляющей

сумму взвешенных задержанных единичных импульсов

2. Задание и методические указания по выполнению работы Дискретный сигнал есть последовательность чисел, поэтому в

MATLAB он представляется в виде вектора-столбца. Если необходима многоканальная обработка сигналов, удобно использовать второе измере-ние, представив набор сигналов в виде матрицы. Многоканальная обра-ботка поддерживается многими функциями MATLAB.

Если сигнал одномерный, то в большинстве случаев функции MATLAB правильно обработают его при любой ориентации вектора: как в виде строки, так и в виде столбца. Однако в многоканальном случае, когда входной сигнал представлен в виде матрицы, обработка проводится по столбцам.

Таким образом, столбцы матрицы трактуются как сигналы разных каналов, а строки – как отдельные векторные отсчеты многоканального сигнала. Для избежания возможной путаницы рекомендуется и в однока-нальном случае формировать сигналы в виде столбцов.

1. Сформируйте единичный импульсный сигнал ( )15nδ − и еди-ничный ступенчатый сигнал ( )10u n − при значениях целочисленной пе-ременной 1 30n = … . Отобразите их графически, используя функцию stem. С помощью команды help stem выясните, как пользоваться этой функцией. Сформируйте и представьте графически разностный сигнал

P(n) 1a

3a− 2 7 8 n -5 -4 -3 -2 -1 0 1 3 4 5 6 2a 7a

160

( ) ( )( ) 10 11x n u n u n= − − − . Интерпретируйте этот сигнал как ( )n kδ − в соответствии с соотношением (8.3) и найдите величину k из вашего ри-сунка. Сформируйте и представьте графически другой разностный сигнал

( ) ( ) ( )2 10 15x n u n u n= − − − . Найдите из рисунка длительность получен-ного таким образом прямоугольного импульсного сигнала. Выразите этот сигнал как сумму единичных импульсов на основе соотношения (8.2) и сформируйте его таким образом.

2. Сформируйте сигнал, состоящий из 40 отсчетов дискретно-временной синусоиды ( ) ( )sin , 1 40x n n nω= = … , с цифровыми частотами

0,1; 0,2; 0,4; 0,8ω = рад соответственно. Отобразите их графически, ис-пользуя функцию stem. Предположив, что период выборок 0,1T = с, вы-числите аналоговые частоты F (Гц) каждой из синусоид, используя задан-ный выборочный интервал и соответствующие цифровые частоты ω . Пе-рерисуйте графики сигналов с обозначением оси времени и зафиксируйте вычисленные аналоговые частоты соответствующих синусоид, используя функцию title.

Как изменяются графики с увеличением частоты? 3. Предположим, что аналоговый косинусоидальный сигнал задан

соотношением ( ) ( ) [ ]0 1cos 2 , ,x t A t t tF tπ ϕ= + ∈ с амплитудой 5A = , час-тотой 10F = Гц, начальной фазой 3ϕ π= , 0 10, 100t t= = с. Выполните дискретизацию этого сигнала с периодом взятия выборок 210T −= с и отобразите полученный дискретный сигнал графически. Для визуализа-ции дискретных сигналов могут использоваться различные графические средства в зависимости от конкретной ситуации. Часто вполне допустимо соединение дискретных отсчетов линиями, что выполняется с помощью функции plot. При этом получается график аналогового сигнала с линей-ной интерполяцией его отсчетных значений, где сами отсчетные значения не видны. Если необходимо отобразить именно их, то, используя функ-цию plot, можно отказаться от соединения точек линиями. Кроме этого можно использовать функции stem и stairs, специально предназначенные для отображения дискретных сигналов в виде «стебельков» и в ступенча-том виде (кусочно-постоянная интерполяция) соответственно. Реализуйте все эти варианты графического представления сформированного дис-кретного сигнала, отображая их одновременно при помощи функции subplot. Вычислите частоту дискретизации сигнала dF , сравните ее с час-тотой F . Как должна выбираться частота дискретизации в соответствии с теоремой отсчетов (теоремой Котельникова)? Проверьте наличие эффекта наложения (подмены частот) в случае, если 2N dF F F> = ( NF – час-тота Найквиста).

161

4. Создайте комплексный дискретный сигнал ( ) , 1 40j nx n ne ω= = … с 0,2ω = рад. Получите реальную и мнимую части сигнала с помощью функций real и imag, отобразите их графически. Используйте команды subplot (2,1,1) и subplot (2,1,2) перед каждой функцией stem, чтобы создать два графика реальной и мнимой частей сигнала, размещенных на одном экране.

ЛАБОРАТОРНАЯ РАБОТА № 2. РАБОТА С РЕЧЕВЫМИ ДАННЫМИ

В СРЕДЕ MATLAB Цель работы: получить начальные навыки со звуковыми сигналами

в среде MATLAB. 1. Основные теоретические сведения приведены в гл. 1. 2. Задания и методические указания по выполнению работы 1. С помощью микрофонной гарнитуры введите в компьютер рече-

вой сигнал (свою фамилию). Для этого удобно использовать программу «Звукозапись» из раздела «Стандартные – Развлечения».

2. С помощью команды wavread импортируйте речевой сигнал в среду MATLAB. Определить параметры: Fs, bits.

3. Постройте график сигнала с помощью команды plot и subplot. 4. Определите время звучания и объем памяти для записанного сиг-

нала. 5. Выберите данные фрагмента сигнала, где n1=5000, а n2 рассчиты-

вается по формуле n2=1000N, где N – номер фамилии студента в журнале. 6. Повторите пп. 3 и 4 для фрагмента сигнала, полученного по п. 5. 7. С помощью микрофонной гарнитуры и команды wavrecord введи-

те в компьютер речевой сигнал (фамилию студента), применив Fs =8000; 11025.

8. Запишите вектор (или матрицу) полученной по п. 7 записи на диск в виде wav-файла и mat-файла.

ЛАБОРАТОРНАЯ РАБОТА № 3. КОРРЕЛЯЦИОННАЯ ОБРАБОТКА

СИГНАЛОВ Цели работы: 1) практическое ознакомление с реализацией процедуры измерения

автокорреляционной функции в среде MATLAB; 2) моделирование нескольких примеров применения корреляцион-

ного анализа случайного стационарного процесса (ССП): – для выявления периодического сигнала, который маскируется шумом; – измерения частоты основного тона голосового сигнала.

162

1. Основные теоретические сведения приведены в гл. 2. 2. Задания и методические указания по выполнению работы 1. Решите задачу выявления периодического сигнала, который мас-

кируется шумом, при условиях, что ССП ( )Y t представляет собой адди-тивную смесь гармонического процесса 0( ) cos(2 )S t A f tπ ϕ= + с неизвест-ными амплитудой A , частотой 0f (значение которой находится в преде-лах 100 – 500 Гц), случайной фазой, равномерно распределенной на интер-вале [0,2 ]π , и гауссовского белого шума в полосе частот 0 – 5 кГц; отно-шение сигнал-шум этой смеси равняется вхρ .

1.1. В среде MATLAB создайте модель аддитивной смеси с за-данными параметрами и постройте ее график.

1.2. Постройте график функции корреляции сгенерированной смеси. 1.3. Рассчитайте объем N экспериментальной выборки отсчетов

сгенерированной смеси, которая необходима для обеспечения отношения сигнал-шум 10дБвыхρ = на выходе коррелятора.

1.4. Вычислите и постройте график оценки автокорреляционной функции ССП ( )Y t .

2. Осуществите натурный (полномасштабный) эксперимент измере-ния частоты основного тона голосового сигнала с применением автокорре-ляционного метода.

2.1. Используя телефонную гарнитуру и программу MATLAB, введите голосовой сигнал в компьютер, предварительно выбрав частоту дискретизации.

2.2. Выделите фрагменты введенного голосового сигнала, кото-рые отвечают гласным звукам, и осуществите их автокорреляционный анализ со следующим измерением частоты основного тона (см. табл. 1).

Таблица 1

Варианты значений числовых параметров

Вариант Параметры 1 2 3 4 5 6 7 8

вхρ –10 –11 –12 –13 –14 –15 –16 –17

0f 80 100 120 140 160 180 200 220

Слово Примечание. В графу «Слово» каждый записывает свою фамилию.

163

3. Вспомогательная теория Для выполнения данной лабораторной работы введите в рабочее про-

странство программы MATLAB числовые значения параметров из табл. 1. 1. Выявление периодического сигнала, который маскируется шумом. Для аддитивной смеси ( ) ( ) ( )Y t S t tξ= + сигнала 0( ) cos(2π )S t A f t ϕ= +

и шума ( )tξ отношение сигнал-шум – это отношение средней мощности

(дисперсии) 2 2A сигнала к средней мощности (дисперсии) ξD шума:

2

ξ

2.вхAD

ρ =

Для генерирования отсчетов процесса ( ) ( )Y Y t Y i ti i= = ⋅ Δ с заданным

отношением сигнал-шум можно произвольно задать A или ξD , другой

параметр при этом вычисляется через вхρ . Например, если примем ξ 1D = , тогда параметр A равняется:

вх10 lg 22010A

ρ⋅ +

= . 2. При построении графика процесса J(t) используйте следующие

обозначения: t i t= ⋅ Δ , j tτ = ⋅ Δ . Выберите 1 2t BΔ = , где B – верхняя гра-ничная частота белого шума в полосе [0, B ] Гц.

Корреляционный анализ случайного процесса помогает решить за-дачу выявления периодического сигнала на фоне шума. Поскольку состав-ные части процесса ( )Y t статистически независимы, то

( ) ( ) ( )K K KY Sτ τ τξ= + , (8.5)

где 02 sin 2( ) cos ; ( )

2 2A BK K DS B

π ττ ω τ τξ ξ π τ= = , (8.6)

где B – верхняя граница частоты шума ( )tξ . 3. Для построения графика корреляционных функций (8.5) и (8.6)

дискретизуем функцию (8.5) с шагом 1 2t BΔ = и получаем

02 sin( ) cos ; ( )

2fA iK i K DS B i

π πτ τξ ξ π⎛ ⎞= =⎜ ⎟⎝ ⎠

.

Видим, что форма корреляционной функции процесса ( )Y t для 1 2Bτ ≥ практически не отличается от формы гармонического сигнала

( )S t . Этот факт позволяет по частоте переходов через нуль оценить часто-ту 0f .

164

Такой способ оценивания 0f имеет смысл применять при малых от-ношениях сигнал-шум вхρ , когда сигнал практически полностью маскиру-ется шумом.

4. На практике можно лишь оценить функцию корреляции, пото-му, конечно, результаты выявления гармонического сигнала на фоне шума будут не такими «красивыми». Структурная схема коррелометра показана в гл. 2.

Для отрезка ( )TY t процесса ( )Y t несмещенная оценка функции кор-реляции имеет вид:

1* ( ) ( ) ( )0

TK Y t Y t dtY T TT

ττ τ

τ

−= +∫−

.

Коррелометр способен повышать отношение сигнал-шум при увели-чении числа некоррелированных отсчетов шума N , содержащихся в реа-лизации процесса, который анализируется. Формула для вычисления N для заданных входного и выходного отношений сигнал-шум имеет вид:

( )0,1 2 10 lg 2вых вх10 p pN − + ⋅= .

Пример экспериментального измерения частоты основного тона можно найти в гл. 2.

ЛАБОРАТОРНАЯ РАБОТА № 4. СПЕКТРАЛЬНАЯ ОБРАБОТКА

СИГНАЛОВ

Цели работы: 1) практическое ознакомление с реализацией процедуры измерения

спектра случайного стационарного процесса (ССП) в среде MATLAB; 2) моделирование нескольких примеров применения спектрально-

го анализа случайных процессов, а именно: – выявление периодического сигнала, который маскируется шумом; – измерение частот аддитивной смеси нескольких гармонических

колебаний; – измерение частоты основного тона голосового сигнала.

165

1. Основные теоретические сведения подробно описаны в гл. 2. 2. Задания и методические указания по выполнению работы 1. Смоделируйте задачу выявления периодического сигнала, кото-

рый маскируется шумом, при следующих условиях: – ССП ( )Y t представляет собой аддитивную смесь гармониче-

ского процесса 0( ) cos(2 )S t A f tπ ϕ= + с неизвестной амплитудой A , частотой 0f (значение которой находится в пределах 80 – 220 Гц), случай-ной фазой, равномерно распределенной на интервале [0,2 ]π , и гауссовско-го белого шума в полосе частот 0 – 5 кГц;

– отношение сигнал-шум этой смеси равняется вхρ . 2. Смоделируйте в среде MATLAB аддитивную смесь с заданными

параметрами. 3. Рассчитайте объем N экспериментальной выборки отсчетов сге-

нерированной смеси, которая необходима для обеспечения отношения сигнал-шум вых 10 дБρ = на выходе цифрового спектроанализатора, вы-числяющего периодограмму.

4. Вычислите и постройте график разных оценок спектра ССП ( )Y t : – периодограмма; – оценка Бартлетта; – оценка Велча с 50 %-м перекрытием сегментов. 5. Вычислите и постройте график тех же оценок спектра ССП ( )Y t

при условиях увеличения N в 100 раз, при длине сегмента 1N , равной «старому» значению N .

6. Осуществите спектральный анализ суммы двух гармонических колебаний (без фонового шума) при следующих условиях:

– частота первого колебания 01 0f f= , частота второго колебания

02 0 5f f f= + Δ , где 1 2f T B NΔ = = ; – мощности обеих гармоник одинаковы; – N =1024. 7. Осуществите натурный эксперимент по измерению частоты

основного тона голосового сигнала с применением спектрального анализа. Используя предыдущие записанные слова, введите их в рабочее простран-ство программы sptool. Осуществите спектральный анализ со следующим измерением частоты основного тона:

– периодограмма; – оценка Бартлетта; – оценка Велча с 50 %-м перекрытием сегментов.

166

3. Вспомогательная теория 1. Для выполнения данной лабораторной работы введите в рабочее

пространство программы MATLAB числовые значения параметров со-гласно табл. 2.

Таблица 2 Варианты значений числовых параметров

Вариант Параметры 1 2 3 4 5 6 7 8

вхρ -–10 L-–11 L-–12 L-–13 L-–14 L-–15 L-–16 –17

0f 80 100 120 140 160 180 200 220

В 5000 5000 5000 5000 5000 5000 5000 5000 Слово

Примечание. В графу «Слово» каждый записывает свою фамилию. 2. Сформируйте аддитивную смесь гармонического процесса и бе-

лого шума ( ) ( ) ( )Y t S t tξ= + . Для сигнала 0( ) cos(2 )S t A f tπ ϕ= + и шума ( )tξ входное отношение

сигнал-шум 2 2A

вх Dρ

ξ= , или в децибелах

2.

210 lgвх дБAD

ρξ

= ⋅ .

Если примем ξ 1,D = тогда

.10 lg 22010

вх дБ

A

ρ⋅ +

= .

Если за сигнал на выходе спектроанализатора принять высоту пика математического ожидания отрезка гармонического процесса, а за шум – математическое ожидание уровня спектра шума, то .вых сп вх TBρ ρ= ⋅ .

В действительности за уровень шума принимают не уровень спектра шума, а среднеквадратичную погрешность оценки спектра шума. Можно показать, что для оценки в виде периодограммы эти два разных определе-ния отношения сигнал-шум совпадают. Выигрыш в отношении сигнал-шум за счет спектрального анализа достигает величины

. ,вых сп

вхTB

ρρ

=

где T – длина отрезка, B – верхняя предельная частота шума.

167

Отсюда

( ).. 0,110 log .log log10log log вых сп вхвых сп вхp pppTB TB −−⋅ = ⇒ =

3. Рассчитайте нужное количество отсчетов процесса по следующей формуле:

.0,1( ),log log2 2 10 вых сп вхp pTN TBt

−= = = ⋅Δ

где . logвых спp и logвхp – логарифмические значения входной и выход-ной спектральной мощности соответственно.

4. Вычислите периодограмму, которую в среде MATLAB можно рассчитать с помощью функции periodogram.

5. Найтите оценки. В данной лабораторной работе для оценки Велча следует использовать свой вариант окна по табл. 3.

6. При вычислении и построении графиков разных оценок спектра ССП ( )Y t (п. 4) используйте функцию subplot.

7. Измерьте частоты основного тона голосового сигнала с примене-нием спектрального метода. Активизируйте программу sptool, экспорти-руйте в ее рабочее пространство сигнал, который отвечает целому слову и отдельному гласному звуку из него.

Таблица 3 Типы окон

Номер варианта

Окно Синтаксис

1 Прямоугольное Window = boxcar (N1) 2 Треугольное Window = triang (N1) 3 Бартлетта Window = bartlett (N1) 4 Блэкмена Window = blackman (N1, ‘symmetric’) 5 Чебышева (40db) Window = chebyshev (N1, 40) 6 Хэмминга Window = hamming (N1, ‘symmetric’) 7 Хэннинга Window = hanning (N1, ‘symmetric’) 8 Кайзера (beta = 6) Window = kaiser (N1, 6)

Вычислите (в среде программы sptool) те же разновидности оценок

спектра: периодограмму, оценку Бартлетта, оценку Велча. Параметр Nfft для оценки в виде периодограммы вычислите по формуле ( )2 1 dN f f t t t F= − , где 1t и 2t – моменты начала и конца фрагмента ( 1t = 0); dF =11025 Гц.

168

ЛАБОРАТОРНАЯ РАБОТА № 5. РАСЧЕТ ЦИФРОВЫХ ФИЛЬТРОВ В СРЕДЕ MATLAB

Цель работы: провести исследования по применению фильтров для обработки речевых сигналов в системе MATLAB.

1. Основные теоретические сведения 1.1. Расчет коэффициентов цифрового фильтра Для расчета коэффициентов ( )при 0, ,ka k N…= цифрового фильтра

(ЦФ) используют следующие расчетные формулы:

c c cc

c

s in( )a a aπ πk

kkSk k

Ω Ω Ω= = = Ω− Ω

,

где cc 2 c

d d

f

f f

ωπ= =Ω , ( ) sinx x xS a = , cω – частота среза (иногда ее

обозначают âω и называют «верхняя граничная частота»), df – частота дискретизации и сf – частота среза.

Рассмотрим пример ФНЧ 6-го порядка ( 3N = ) для сf =25 Гц,

fd =100 Гц, коэффициенты фильтра: 0a 0,5= , 1 1a a 1 π 0,3183−= = = ,

2 2a a 0−= = , 33a a 1 3π 0,1061−= = − = − .

Интересно и полезно проверить, действительно ли эти коэффициен-ты с точностью до коэффициента 1t f dΔ = совпадают со значениями ИПХ ( )h k tΔ : ( )ak th k t= Δ Δ .

Обратное преобразование Фурье от функции ( ) rect2 c

fH ff

⎛ ⎞= ⎜ ⎟⎜ ⎟

⎝ ⎠ дает

выражение для ИПХ аналогового фильтра: ( ) ( )c c2 2ah t S tf fπ= ,

откуда следует

( ) ( ) ( )cc c12 2a a k

cdh k t S k t S k af f f

tπ

πΩΔ = Δ = =Ω Δ

.

Сравнение позволяет обнаружить различие «по вертикали» ИПХ аналогового и цифрового фильтров.

Рассмотрим различие «по горизонтали».

169

Расстояние между нулями функции h(t) c

12 f

τΔ = . В рассмотренном

примере было принято 4 1 4c d tf f= = Δ , откуда следует 2 tτΔ = Δ . Дей-ствительно, коэффициент 2a 0= . Ясно также, что все четные коэффициен-

ты должны быть равны нулю. Для иллюстрирования примера, построим график функции h(t)

(рис. .4).

% График ИПХ непрерывного ФНЧ dt=1; % шаг дискретизации; dtau=2*dt; % расстояние между нулями; fc=1/(2*dtau); % частота среза t=-3*dtau:0.1:3*dtau; % время h=2*fc*sinc(2*fc*t); % ИПХ plot(t,h) % график grid on % сетка на графике

Рис. 8.4. График ИПХ непрерывного ФНЧ

Построим частотную характеристику рассчитанного фильтра

(рис. 8.5): ( ) 01

2 c o skN

ka a k tH d ω ω

== + Δ∑ .

a0=0.5; ak=[0.3183 0 -0.1061]; % коэффициенты фильтра c 1 по 3 dt=1; N=3; df=0.02;

170

f=-0.5:df:1.5; % диапазон частот sum=0; for k=1:N, sum=sum+ak(k)*cos(2*pi*f*k*dt); end; H=a0+2*sum; % ЧХ; plot(f,H); grid on

Рис. 8.5. Частотная характеристика ФНЧ 3-го порядка (N = 3)

Как видно из графика на рис. 8.5, частотная характеристика фильтра

3-го порядка существенно отличается от прямоугольника с относительной частотой среза c 1 4df f = . Полагая, что причина тому – малый порядок фильтра, рассмотрим случай 9N = и досчитаем недостающие коэффици-енты ИПХ с нечетными номерами (коэффициенты с четными номерами равны нулю) (рис. 8.6):

5a 0,0637= ; 7a 0,0455= − ; 9a 0,0354= .

% Частотная характеристика ФНЧ a0=0.5; ak=[0.3183 0 -0.1061 0 0.0637 0 -0.0455 0 0.0354]; % коэффициенты фильтра c 1 по 9 dt=1; N=9; df=0.02; f=-0.5:df:1.5; for k=1:N, sum=sum+ak(k)*cos(2*pi*f*k*dt); end H=a0+2*sum; plot(f,H); grid on

171

Как следует из рис. 8.6, частотная характеристика действительно ста-

новится более прямоугольной, но степень осцилляций слева и справа час-тоты среза не уменьшается.

Применим треугольное окно к ИПХ фильтра 18-го порядка ( 9N = ) (рис. 8.7). % Частотная характеристика ФНЧ a0=0.5; ak=[0.3183 0 -0.1061 0 0.0637 0 -0.0455 0 0.0354]; fd=100; dt=1/fd; N=9; r=1:N; k(r)=ak(r).*(1-r/N); df=0.02*fd; f=-0.5:df:1.5; sum=0; for k=1:N, sum=sum+ak(k)*cos(2*pi*f*k*dt); end H=a0+2*sum; plot(f,H); grid on

Рис. 8.6. Частотная характеристика ФНЧ 3-го порядка (N=9)

Рис. 8.7. Частотная характеристика ФНЧ 18-го порядка (N=9)

172

Как и следовало ожидать, осцилляции уменьшились, однако за это пришлось «заплатить» уменьшением крутизны склонов частотной харак-теристики в районе частоты среза.

1.2. Расчет цифровых фильтров в среде MATLAB В среде MATLAB цифровые фильтры можно рассчитывать, по

меньшей мере, тремя способами: из командного окна; с помощью пакета sptool; с помощью пакета fdatool.

1. Расчет цифровых фильтров из командного окна Функция fir1 реализует вычисления по методу обратного преобразо-

вания Фурье с использованием окон: a=firl(n,Wn,’ftype’,window,’normalization’), где n – порядок фильтра (количество коэффициентов равно n+1), его

лучше задавать четным (так как для некоторых типов фильтров нечетное n хотя и можно задавать, но результат будет такой, как если бы задавался порядок на единицу больше);

Wn – относительная частота среза (по отношению к частоте Найкви-ста, которая принимается равной единице); представляет собой вектор из двух чисел, если фильтр полосовой или режекторный и вектор из m пар чисел, если фильтр многополосный, из m полос;

‘ftype’ – тип фильтра (если отсутствует – ФНЧ; ‘high’ – ФВЧ; ‘stop’ – режекторный; ‘DC-1’ – многополосный пропускающий; ‘DC-0’ – многопо-лосный режекторный);

window – вектор-столбец из n+1 элементов (по умолчанию применя-ется окно Хэмминга hamming(n+1));

‘normalization’ – нормировка ИПХ (по умолчанию значение ‘scale’ – единичное значение коэффициента передачи в центре полосы пропуска-ния; ‘noscale’ – нормировка не производится).

Пример % расчет коэффициентов КИХ-фильтра с нормализацией window=rectwin(7) % синтез прямоугольного окна из 7 отсчетов a=fir1(6,0.5,window); Результат a =[–0,1148 0,0000 0,3443 0,5409 0,3443 0,0000 –0,1148] Сравнивая эти результаты с рассчитанными вручную коэффициен-

тами, нетрудно увидеть разницу. Например, расчеты вручную дают 0а 0,5= , тогда как в MATLAB мы получили 0а 0,5409= . Естественно

предположить, что причина тому – проводимая по умолчанию нормировка ИПХ. Проверяем это предположение, задавая в программе значение ’noscale’ для параметра нормализации:

window=rectwin(7); a=fir1(6,0.5,window,’noscale’).

173

Результат: a = [– 0,1061 0,0000 0,3183 0,5000 0,3183 0,0000 – 0,1061]. 2. Расчет цифровых фильтров с помощью пакета sptool Для активизации пакета нужно в командном окне набрать команду

sptool или открыть его следующим образом: start → toolboxes → More…→ Signal Processing → Signal Processing tool (sptool). Затем в поя-вившемся окне в колонке кнопок Filters необходимо нажать кнопку New.

В возникшем окне Filter Designer нужно: - задать частоту дискретизации 100 Гц; - выбрать в позиции Design Method выбрать FIR-значение Kaiser

Window FIR (выбираем из трех вариантов: Equiripple FIR, Least Square FIR и Kaiser Window FIR);

- отключить флажок Minimum Order; задать Order = 6; Type = = lowpass; Passband Fc = 25;

- отключить флажок Autodesign; закрыть окно Filter Designer; - в окне sptool в колонке Filters нажать кнопку View. В появившемся окне Filter Viewer наблюдаем графики АЧХ, ФЧХ,

ИПХ (ИПХ наблюдаем после активизации соответствующего флажка). Мы выбрали в позиции Design Method значение Kaiser Window FIR.

Кроме данного алгоритма есть еще два: Equiripple FIR, Least Square FIR. Из всех трех алгоритмов только алгоритм Кайзера реализует метод обрат-ного преобразования Фурье с весовым окном Кайзера. При значении пара-метра «0» окно Кайзера превращается в обычное прямоугольное окно.

Как показывает эксперимент, рассчитанные таким образом коэффи-циенты ФНЧ оказываются ненормированными, т.е. в точности равными вычисленным вручную.

Чтобы узнать значения коэффициентов, нужно: - активизировать график ИПХ, щелкнув по нему мышкой; - активизировать вертикальные маркеры (кнопкой, расположенной

под меню); - поместить один из маркеров (всего имеется два маркера: первый

изображается сплошной вертикальной линией, второй пунктирной) напро-тив нужного отсчета ИПХ;

- рассчитать значение отсчета ИПХ в специальном окне. Другой способ в зависимости от версии MATLAB – нажать на спе-

циальную кнопку Filter coefficients.

174

3. Расчет фильтра { }ka с помощью пакета fdatool Для активизации пакета нужно в командном окне набрать команду

fdatool, затем в появившемся окне в разделе Design Filter задать: - Designe Method: FIR=Window; - Window Specifications: Window = Rectangular; - Filter order: Specify order = 6; - частоту дискретизации (Fs = 100 Гц); - Filter Type = lowpass; - Passband Fc=25. С помощью кнопок под меню включаем режим просмотра коэффи-

циентов фильтра. В результате проведенных расчетов убеждаемся, что здесь по умол-

чанию проводится нормирование ИПХ (см. выше fir1). 2. Задания и методические указания по выполнению работы Необходимо выполнить следующее: 1. С помощью микрофонной гарнитуры введите в компьютер рече-

вой сигнал (фамилию студента) с параметрами: длительность – несколько секунд; частота дискретизации – 11 025 Гц. Для ввода сигнала в компью-тер удобно использовать программу «Звукозапись» из раздела «Стандарт-ные – Развлечения».

2. С помощью команды y = wavread('filename') импортируйте рече-вой сигнал в среду MATLAB, постройте график сигнала с помощью ко-манды plot.

3. Запустите программу sptool и импортируйте сигнал y в её среду. 4. Визуализируйте и прослушайте введенный сигнал с помощью ин-

струментария программы sptool. 5. Синтезируйте НЧ фильтр с окном Кайзера минимального поряд-

ка; граничная частота полосы пропускания 1 500 Гц; неравномерность в полосе пропускания 1 дБ; граничная частота полосы задержания 2 000 Гц; минимальное затухание в полосе задержания 40 дБ.

6. Примените синтезированный НЧ фильтр к вашему речевому сигналу. 7. Прослушайте сигнал, полученный в результате НЧ фильтрации,

постройте его график и ответьте на следующие вопросы. Как и почему изменилось звучание речевого сигнала после фильтрации? Что произойдет, если граничные частоты полос пропускания и за-

держания уменьшить вдвое? Экспериментально проверьте свои предполо-жения.

8. Подберите оптимальные с вашей точки зрения параметры НЧ фильтра. Попробуйте обосновать свой выбор.

175

ЛАБОРАТОРНАЯ РАБОТА № 6. КОДИРОВАНИЕ РЕЧЕВЫХ ДАННЫХ НА ОСНОВЕ ЛИНЕЙНОГО ПРЕДСКАЗАНИЯ

Цель работы: получить навыки применения метода линейного предсказания и расчета коэффициентов фильтра предсказания речевого сигнала в системе MATLAB.

1. Основные теоретические сведения Основной принцип метода линейного предсказания состоит в том,

что текущий отсчет речевого сигнала можно аппроксимировать линейной комбинацией предшествующих отсчетов. Коэффициенты предсказания – это весовые коэффициенты, используемые в линейной комбинации. Они определяются однозначно из условия минимизации среднего квадрата раз-ности между отсчетами речевого сигнала и их предсказанными значениями (на конечном интервале).

Основные положения метода линейного предсказания хорошо согла-суются с моделью речеобразования, где речевой сигнал представляется в виде сигнала на выходе линейной системы с переменными во времени па-раметрами, возбуждаемой квазипериодическими импульсами (в пределах вокализованного сегмента) или случайным шумом (на невокализованном сегменте). Метод линейного предсказания позволяет точно и надежно оце-нить параметры этой линейной системы с переменными коэффициентами.

Модель имеет следующие параметры: классификатор вокализован-ных и невокализованных звуков, период основного тона для вокализован-ных звуков, коэффициент усиления g , коэффициенты { }ka цифрового фильтра. Все эти параметры медленно меняются во времени. Остановимся подробно на задаче определения коэффициентов цифрового фильтра{ }ka .

Предположим, что отсчеты речевого сигнала ( )s n связаны с сигна-лами возбуждения ( )u n разностным уравнением

( ) ( ) ( )1

kp

s n a s n k g u nk

= − + ⋅∑=

. (8.7)

В этом случае передаточная функция линейной системы с входом ( )u n и выходом ( )s n имеет вид

( ) ( ) ( )1

1p

kk

kH z S z U z g a z=

⎛ ⎞−= = − ⋅∑⎜ ⎟⎝ ⎠

,

где z – формальная переменная; ( )S z и ( )U z – Z-преобразования речево-го сигнала ( )s n и сигнала возбуждения ( )u n .

176

Линейный предсказатель с коэффициентами { }ka определяется как система, на выходе которой в момент времени n имеем

( ) ( )1

kp

ks n s n kα

== −∑ . (8.8)

Системная функция предсказателя p-го порядка представляет собой

полином вида ( )1

pk

kkP z zα

=−= ⋅∑ .

Погрешность предсказания определяется как

( ) ( ) ( )1

kp

ke n s n s n kα

== − −∑ .

Другими словами, погрешность предсказания представляет собой сигнал на выходе системы с передаточной функцией

( )1

1 αp

kk

kA z z=

−= − ⋅∑ .

Таким образом, если сигнал точно удовлетворяет модели (8.7) и kka α= , то ( ) ( )e n g u n= ⋅ . Отсюда следует, что фильтр погрешности пред-

сказания ( )A z – обратный фильтр для системы с передаточной функцией ( )H z , соответствующей уравнению (8.7), т.е. ( ) ( )H z g A z= .

Основная задача анализа на основе линейного предсказания заклю-чается в определении параметров { }ka по речевому сигналу. При этом предполагается, что полученные параметры являются параметрами сис-темной функции ( )H z в модели речеобразования. Вследствие изменения свойств речевого сигнала во времени коэффициенты предсказания должны оцениваться на коротких сегментах речи – кадрах.

В качестве критерия, по которому производится оптимизация синте-за фильтра ( )A z , удобно взять минимум суммы квадратов погрешностей линейного предсказания на сегменте (кадре) речевого сигнала. Основные причины для выбора такого критерия следующие: получающиеся уравне-ния – линейные, они относительно просто решаются и дают хорошие ре-зультаты.

Пусть 10,n n⎡ ⎤

⎣ ⎦ – некоторый интервал. Сумма квадратов погрешно-

стей линейного предсказания определяется следующим образом:

( )21

0

n

n nE ne

== ∑ .

177

Параметры ak можно получить, минимизируя E. Подставим (8.8) в выражение для Е и приравняем к нулю производные , 1,2, ,kE a k p∂ ∂ = … .

Получаем

( ) ( ) ( )( )

( ) ( ) ( )

( ) ( )

1

0

0 0

0

1

1 1

1

1

1 1

21

2 2

.

pn n

n np

n n i n n

np pi j

i j n n

nE s n s n s n pa a

n s n s n is ai

s n i s n ja a

=

= = =

= = =

= − ⋅ − −… − ⋅ − =∑

= − ⋅ − +∑ ∑ ∑

+ − ⋅ −∑ ∑ ∑ (8.9)

Дифференцируем (8.9) по , 1, 2, ,ka k p…= :

( ) ( )

( ) ( )

1

0

1

1 0

0

k

nE a s n s n k

n nnp

a s n k s n iii n n

∂ ∂ = ⋅ − −∑=

− − ⋅ − =∑ ∑= =

(8.10)

Заменив k на j , получим систему p линейных уравнений относи-тельно p неизвестных 1 2, ,..., pa a a

0, 1, 2, , ,

1ji j

pa c c j pi

i= = …∑

= (8.11)

где ( ) ( )1

0i j j i

nc c s n i s n j

n n= = − ⋅ −∑

=. (8.12)

Данная система называется системой уравнений Юла – Волкера. Ре-шив её, нетрудно оценить и минимальную достижимую погрешность предсказания. Для этого подставим (8.11) в (8.9)

00 021 1 1

i i ji i jp p p

E c a c a a ci i j

= − +∑ ∑ ∑= = =

и, используя (8.11), упростим это выражение. В результате получим

00 01

ip

E c a c ii

= − ∑=

.

Для определения коэффициентов ka из уравнений Юла – Волкера необходимо знать величины , 0,1, , , 1,2, ,i jc i p j p= … = … . Имеется два подхода к вычислению этих величин. Один называется ковариационным методом, второй – автокорреляционным.

178

1. Автокорреляционный метод Для этого метода примем пределы анализа равными ( , )−∞ +∞ , ин-

тервал анализа (0 , )N , причем сигнал обнуляется вне интервала анализа, т.е. ( ) 0 при 0,s n n n N= < ≥ . Такие пределы позволяют упростить выра-жение для , 1,2, , , 0,1, ,c i p j pi j = =… … :

( ) ( ) ( ) ( )11

0 0i j

N i jN pc s n i s n j s n s n i j

n n

− − −+ −= − ⋅ − = ⋅ + −∑ ∑

= =.

В этом случае cij являются функциями величины i j− и с точно-стью до множителя совпадают с оценками автокорреляционной функции ( )R τ сигнала ( )s n , вычисленными при i jτ = − ,

( ) ( ) ( )1

ˆ 10

i j

N i jR i j c N N s n s n i j

n

− − −− = = ⋅ + −∑

=.

Разделив уравнения в системе (8.11) на N, получаем систему уравне-ний Юла – Волкера для автокорреляционного метода

( ) ( )ˆ ˆ , 1, 2, ,1

ip

a R i j R j j pi

⋅ − = = …∑=

.

(8.13) В матричном виде система может быть записана как a R b× = , где

( )1 2ˆ ˆ ˆ( , ,..., ), (1), (2), , ( )pa a a a b R R R p= = … ,

ˆ ˆ ˆ(0) (1) ( 1)ˆ ˆ ˆ(1) (0) ( 2)

ˆ ˆ ˆ( 1) ( 2) (0)

R R R p

R R R pR

R p R p R

⎡ ⎤−⎢ ⎥

−⎢ ⎥= ⎢ ⎥⎢ ⎥⎢ ⎥− −⎣ ⎦

…

…… … … …

…

.

Матрица R в автокорреляционном методе обладает двумя важными

свойствами. Она симметрическая (ее элементы, симметричные относи-тельно главной диагонали, равны) и теплицева (каждая следующая строка получается из предыдущей сдвигом вправо). Структура теплицевой матри-цы позволяет решить систему (8.13) особенно просто. Для ее решения по алгоритму Левинсона – Дарбина, описание которого приводится ниже, тре-буется порядка 2p операций. Решение произвольной системы из p урав-

нений с p неизвестными потребовало бы порядка 3p операций.

179

2. Ковариационный метод В этом методе выбирается 0 10, 1Nn n= = − , а сигнал ( )s n не ограни-

чивается. При этом для величин , 1, 2, , , 0, 1, ,c i p j pi j … …= =

( ) ( )1

0

Nc s n i s n ji j

n

−= − ⋅ −∑

=.

Изменив индекс суммирования, это выражение можно представить в виде

( ) ( )1N i

c s n s n i ji jn i

− −= ⋅ + −∑

= −, при 1, 2, , , 0, 1, , .i p j p… …= = (8.14)

Выражение (8.14) похоже на выражение для c i j для автокорреля-

ционного метода, но имеет другие пределы суммирования. В (8.14) ис-пользуются значения сигнала вне интервала 0 1n N≤ ≤ − . Другими слова-ми, для вычисления c i j в ковариационном методе необходимо знать зна-

чения сигнала ( ) ( ) ( ), 1 , , 1s p s p s N− − + −… , т.е. сигнал должен быть извес-тен на несколько большем интервале, чем в автокорреляционном методе. Однако, как правило, p N и данное требование не очень существенно. Этот метод приводит не к автокорреляционной, а к взаимной корреляци-онной функции между двумя очень сходными, но не одинаковыми сегмен-тами речевого сигнала конечной длительности

( ) ( ) ( )1ˆ , 10

NR i j c N N s n i s n ji j

n

−= = − ⋅ −∑

=.

Нетрудно увидеть, что ( ) ( )ˆ ˆ, ,R i j R j i= , однако ( )ˆ ,R i j не является функцией от i j− , как это было в автокорреляционном методе. Разделив все уравнения в системе (8.10) на N, получаем систему уравнений Юла – Волкера для ковариационного метода

( ) ( )ˆ ˆ, 0, , 1, 2, ,1

pa R i j R j j pi

i⋅ = = …∑

=. (8.15)

В матричном виде система уравнений (8.15) имеет вид a P c× = , где

( ) ( )ˆ ˆ ˆ, , , , (0,1), (0,2), , (0, )1 2a c R R R paa a p= … = … ,

ˆ ˆ ˆ(1,1) (1,2) (1, )ˆ ˆ ˆ(2,1) (2,2) (2, )

ˆ ˆ ˆ( ,1) ( ,2) ( , )

R R R p

R R R pP

R p R p R p p

⎡ ⎤⎢ ⎥⎢ ⎥= ⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

…

…… … … …

…

.

180

В отличие от матрицы R в автокорреляционном методе матрица P будет симметрической, но не теплицевой. Решение такой системы в общем

виде требует 3p операций. Алгоритм решения уравнений линейного предсказания для автокор-

реляционного метода. Система уравнений Юла – Волкера имеет вид (8.13), матрица коэффициентов R является теплицевой и симметрической. Это по-

зволяет найти решение за 2p операций с помощью алгоритма Левинсо-на – Дарбина.

Данный алгоритм был предложен Левинсоном в 1948 г. и усовер-шенствован Дарбиным в 1960 г. Особенность алгоритма – его итеративный характер. В нем последовательно решается система уравнений вида (8.13) порядка 1, 2, ,l p…= , причем решение системы порядка l выражается че-рез решение системы порядка 1l − .

Решение системы порядка l будем обозначать через

( )( ) ( ) ( )( )1 2, , ,l l ll

laa a a= … . На каждом шаге алгоритма вычисляется также

ошибка предсказания lE для решения системы l -го порядка и вспомога-тельный коэффициент lk .

Ниже приводится формальное описание алгоритма. Начальные условия: ( ) (0)

00, 0 , 0l R aE= = = . Итеративная процедура: при 1, ,l p= … вычисляются

( ) ( )11

11

ll li

lR l i R lk a E

i−

−⎛ ⎞= ⋅ − −∑⎜ ⎟ −⎜ ⎟=⎝ ⎠

,

( )a lll k= − , ( ) ( 1)1 , 1 1l ll

lj j l j j la a k a −−−= + ⋅ ≤ ≤ − ,

( )21 1l l lkE E −= − .

На последнем шаге алгоритма при l = p получается искомое решение

( ) ( )1 2, , , ,p

ppa E Ea a a a= … = = .

Пример. Проследим работу алгоритма Левинсона – Дарбина на пер-вых шагах. Шаг 1:

( )1(1) 2 (2)

11

(1) / (0),

(1) / (0), (0) (1) / (0).

k R R

R R Ra E R R

= −

= = −

181

Шаг 2:

( ) ( )( ) ( )( )( )( ) ( )

2 2 (2)2

(2) 2 21

2 2 2 22

(1) (0) (2) (0) (1) ,

(1) (0) (1) (2) (0) (1) ,

(0) (2) (0) (2) (0) 2 (1) (0) (1) .

R Rk R R R

R R R Ra R R

R R R RE R R R R

= − −

= − −

= − + − −

При синтезе случайного процесса с помощью полученного фильтра необходимо предварительно рассмотреть вопрос об устойчивости. На практике отсутствие устойчивости проявляется в том, что моделирование с построенным фильтром не даст нужного результата, т.е. малым сигналам возбуждения на входе фильтра могут соответствовать большие выходные сигналы. Ниже рассмотрим некоторые вопросы, связанные с устойчиво-стью авторегрессионного фильтра и порождаемого им процесса.

Последовательность { }( ) (1), (2), , ( ),x n x x x n…= называется устойчи-

вой, если 1( ) ( ) nnX z x n z∞== ∑ абсолютно сходится внутри единичного кру-

га, т.е. при 1z < . Фильтр ( )H z называется устойчивым, если все полюсы ( )H z лежат внутри единичного круга. Из этих определений следует, что

если на вход фильтра поступает устойчивая последовательность и фильтр устойчив, то на выходе будет также устойчивая последовательность.

Действительно, мы имеем ( ) ( ) ( )X z Y z H z= < ∞ при всех 1z < то-гда и только тогда, когда ( )Y z < ∞ и ( )H z < ∞ при 1z < . Следовательно, для проверки устойчивости фильтра с передаточной функцией

( ) 1 ( )H z A z= нужно вычислить все корни полинома 1

1( ) 1 ppA z a z a z− −= − − −… и убедиться в том, что они удовлетворяют ус-

ловию 1, 1iz i p< ≤ ≤ (для того чтобы привести ( )A z к полиномиальному

виду, можно умножить ( )A z на pz ). Процедура вычисления всех комплексных корней многочлена доста-

точно трудоемка и на практике применяется редко. Однако если фильтр синтезируется по алгоритму Левинсона – Дарбина, то условием устойчи-вости будет выполнение на каждом шаге неравенства 1lk < .

Итерационный алгоритм Левинсона – Дарбина реализуется в MATLAB функцией levinson. Функция rlevinson решает обратную задачу – позволяет найти вектор отсчетов корреляционной функции сигнала по за-данным коэффициентам линейного предсказания.

Функция lpc реализует расчет коэффициентов линейного предсказа-ния автокорреляционным методом и является аналогом функции aryule. Эти две функции различаются лишь MATLAB-кодом, используемым для вычисления оценки корреляционной матрицы. В итоге результаты совпа-дают с точностью до вычислительных погрешностей.

182

2. Задания и методические указания по выполнению работы 1. С помощью микрофонной гарнитуры введите в компьютер рече-

вой сигнал (фамилию студента). 2. Самостоятельно изучите описание функций levinson, rlevinson и

lpc в среде MATLAB с помощью раздела меню Help. 3. Реализуйте с помощью функции levinson алгоритм Левинсона – Дарбина для кадров речевого сигнала размером

180 – 240 отсчетов. 4. С помощью функции lpc рассчитайте коэффициенты линейного

предсказания для речевого сигнала. 5. С помощью функции rlevinson найдите вектор отсчетов корреля-

ционной функции речевого сигнала по полученным коэффициентам ли-нейного предсказания.

6. Повторите эксперименты для множества сегментов речевого сигнала. 7. Проанализируйте полученные результаты и представьте их в отчете.

183

Заключение

Несмотря на значительный прогресс в области теории и практики цифровой обработки речи и других сигналов усилия, направленные на ре-шение проблем ЦОС, не снижаются, а, напротив, возрастают. Успехи дос-тигнуты благодаря революции в области проектирования микроэлектрон-ных устройств с высочайшим уровнем интеграции. Этот прогресс наглядно демонстрирует, например, мобильная связь, причем значительная доля ус-пеха связана с развитием методов обработки и передачи сигналов.

В то же время остается нерешенной главная стратегическая задача в области обработки речевых сигналов – понимание речевого сообщения. Надо учесть, что чисто механическое представление речевых сигналов яв-ляется односторонним, черно-белым. На его основе может быть решен лишь ограниченный круг простейших задач. Обучение человека речевому общению происходит в течение многих лет. Но ведь человек получает спо-собность к речевым коммуникациям от природы!

Речь – это способ передачи мысли. В ней существенную роль играют эмоции, интонация и контекст, а восприятие речи субъектом опирается на его предыдущий опыт. Эти богатейшие составляющие при обработке рече-вого сигнала в технической системе либо утрачиваются, либо пока не ис-пользуются. В диалоге речь сопровождается также общением по визуаль-ному каналу.

Хотя в области обработки речи уже немало сделано, предстоит сде-лать намного больше. В связи с перспективами коммерческого применения основные фирмы-разработчики «придерживают» информацию по новей-шим исследованиям. Надеемся, что достижения в области распознавания речи в ближайшее время будут множиться и станут доступны в учебной литературе.

184

Библиографический список* 1. Gaurang Kishor Parikh, B.E. The effect of noise on the spectrum of

speech: thesis.– Texas Un-ty, 2002. 2. Haykin, S. Adaptive Filter Theory. – 4-th edition. – Prentice Hall, 2002. 3. Picone, J. Fundamentals of speech recognition / Department of Electri-

cal and Computer Engineering, Mississippi State University. – Режим доступа: http://www.isip.msstate.edu/resources/cources/ece_8463.

4. Tokuda, K. Speech coding based on adaptive mel-cepstral analysis : proc. ICASSP'94 / K. Tokuda, H. Matsumura, T. Kobayashi and S. Imai. – 1994. – Ре-жим доступа: http://ktlab.ics.nitech.ac.jp/~tokuda/selected_pub/pdf/confe-rence/tokuda_icassp1994.pdf.

5. Gales, M. The Theory of Segmental Hidden Markov Models. – Cam-bridge University, 1993.

6. Mouly, M. The GSM System for Mobile Communications / M. Mouly, M.B. Pautet. – 1992. – 702 p.

7. MATLAB 6.5 SP1/7.0 (R14). Пакет программ. 8. Mixed-Signal and DSP design techniques. Analog Devices (Walt Ke-

ster) 2000. 9. Proakis, Y.G. Digital Communication. Mc Graw Hill. – 3-rd ed. – New

York, 1995. 10. Imai, S. Mel log spectrum approximation (MLSA) filter for speech

synthesis : transactions of the IECE of Japan, February 1983 / S. Imai, K. Sumita, and C. Furuichi.

11. Robinson, T. Speech Analysis. Lent Term 1998. – Режим доступа: http://svr-www.eng.cam.ac.uk/~ajr/SpeechAnalysis/SpeechAnalysis.html.

12. Wiener, N. Extrapolation, interpolation and smoothing of stationary time series. – John Wiley, New York, 1949.

13. Сергиенко, А. Б. Алгоритмы адаптивной фильтрации : особенно-сти реализации в MATLAB // EXPonenta Pro. Математика в приложениях. – 2003. – № 1.

14. Новосельский, А. Интернет-публикация. – Режим доступа: http://dox.sbnet.ru:8082/~serge/speech.ru/cplusp/6n96y2a.htm#vv.

15. Шульгин, В. И. Основы теории связи. Ч. 1. Теория и практика ко-дирования : учеб. пособие. – Харьков, 2005. – 194 с.

16. Введение в цифровую фильтрацию / под ред. Р. Богнера, А. Кон-стантинидиса. – М. : Мир, 1976. – 216 с.

17. Веденисов, Д. Синтез речи. – 2004. – Режим доступа: http://www.temator.ru/section/10/1.html.

* Приводится в авторской редакции.

185

18. Венцов, А. В. Современные модели восприятия речи : критиче-ский обзор / А. В. Венцов, В. Б. Касевич. – СПб : Изд-во Санкт-Петербург. ун-та, 1994. – 316 с.

19. Галунов, В. И. Аналитический обзор по проблеме кодирования речевых сигналов / В. И. Галунов, А. Б. Викторов. – Режим доступа: www.auditech.ru.

20. Гробман, М. З. Выделение скрытых периодичностей и формант-ный анализ речи. Распознавание образов : теория и приложения / М. З. Гробман, В. И. Тумаркин. – М. : Наука, 1977.

21. Гудонавичюс, Р. В. Распознавание речевых сигналов по их струк-турным свойствам / Р. В. Гудонавичюс, П. П. Кемешис, А. Б. Читавичюс. – Л. : Энергия, 1977. – 300 с.

22. Давыдов, А. В. Сигналы и линейные системы : Интернет-публикация. – Режим доступа: http://prodav.narod.ru/signals/index.html.

23. Дьяконов, В. П. MATLAB 6.5 SP1/7 +Simulink 5/6. Обработка сигналов и проектирование фильтров. – М. : СОЛОН-пресс, 2005. – 576 с. – ISBN 5-98003-206-1.

24. Дэйвид, Г. Порядковые статистики. – М. : Наука, 1979. – 336 с. 25. Золотухин, И. П. Цифровые звуковые магнитофоны /

И. П. Золотухин, А. А. Изюмов, М. М. Райзман. – Томск : Радио и связь, Том. отд., 1990. – 160 с. – (Массовая радиобиблиотека. Вып. 1153).

26. Каппелини, В. Цифровые фильтры и их применение / В. Каппе-лини, Дж. Константинидис, П. Эмилиани. – М. : Энергоатомиздат, 1983. – 360 с.

27. Кривошеев, В. И. Digital Signal Processing : курс лекций. – ННГУ, 2004. – Режим доступа: www.wl.unn.ru.

28. Рабинер, Л. Р. Скрытые марковские модели и их применение в избранных приложениях при распознавании речи // ТИИЭР. – 1989. – Т. 77. – № 2.

29. Маркел, Дж. Линейное предсказание речи / Дж. Маркел, А. Грей. – М. : Связь, 1980. –308 с.

30. Методы и стандарты кодирования и сжатия речи в цифровой те-лефонии : Интернет-публикации. – Режим доступа: http://dox.sbnet. ru:8082/~serge/speech.ru/coder/.

31. Михайлов, В. Г. Измерение параметров речи / В. Г. Михайлов, Л. В. Златоустова ; под ред. М. А. Сапожкова. – М : Радио и связь, 1979. – 416 с.

32. Назаров, М. В. Цифровая реализация устройств первичной обра-ботки речевых сигналов с линейным предсказанием / М. В. Назаров, Р. В. Шафер // Тезисы докладов 11-го Всесоюзного семинара АРСО-11. – Ереван, 1980.

186

33. Научно-исследовательская группа «Phrase research group» : Рече-вые технологии третьего тысячелетия : Интернет-публикация. – Режим доступа: http://phrase.ru/rus/npes.htm.

34. Огородников, А. Н. Материалы VIII Всерос. науч.-практ. конф. «На-учное творчество молодежи». – Томск : Изд-во Том. ун-та, 2004. – С. 52 – 53.

35. Пауков, Д. П. Импульсно-кодовая модуляция, использующая за-кон μ и Α. – ПМИ ДонНТУ, 2002. – Режим доступа: http://www.uran.do-netsk.ua/~masters/2003/fvti/paukov/library/zakon2.htm.

36. Попов, В. И. Основы сотовой связи стандарта GSM / В. И. По-пов. – М.: Эко-Трендз, 2005. – 296 с. – ISBN 5-88405-068-2.

37. Потапова, Р. К. О типологических особенностях слога. Распозна-вание образов: теория и приложения / Р. К. Потапова. – М. : Наука, 1977. – 296 с.

38. Продеус, А. Н. Методы обработки акустических сигналов : курс лекций. – Режим доступа: http://aprodeus.narod.ru.

39. Рабинер, Л. Р. Цифровая обработка речевых сигналов : пер. с англ. / Л. Р. Рабинер, Р. В. Шафер ; под ред. М. В. Назарова и Ю. Н. Про-хорова. – М. : Радио и связь, 1981. – 496 с.

40. Рабинер, Л. Р. Теория и применение цифровой обработки сигна-лов / Л. Р. Рабинер, В. Гоулд. – М. : Мир, 1978. – 848 с.

41. Иконин, С. Ю. Система автоматического распознавания речи SPIRIT ASR Engine / С. Ю. Иконин, Д. В. Сарана // Цифровая обработка сигналов. – 2003. – № 3. – Режим доступа: www.spirit.ru и www.spiritdsp.com.

42. Секунов, Н. Ю. Обработка звука на РС / Н. Ю. Секунов. – СПб. : БХВ – Петербург, 2001. – 1248 с. – ISBN 5-94157-037-6.

43. Сергиенко, А. Б. Цифровая обработка сигналов: учеб. для вузов / А. Б. Сергиенко. – СПб. : Питер, 2003. – 604 с. – ISBN 5-318-00666-3.

44. Сорокин, В. Н. Элементы кодовой структуры речи. Распознава-ние образов: теория и приложения. – М. : Наука, 1977. – с. 42 – 60.

45. Смит, С. В. Научно-техническое руководство по цифровой обра-ботке сигналов / С. В. Смит ; пер. с англ. В. Н. Покровского, В. И. Силан-тьева. – СПб. : АВТЭКС, 2001. – 630 с.

46. Хайкин, С. Спектральный анализ радиолокационных мешающих отражений методом максимальной энтропии / С. Хайкин, Б. У. Карри, С. Б. Кеслер // ТИИЭР. – №9. – 1982. – с. 51 – 62.

47. Хемминг, Р. В. Цифровые фильтры / Р. В. Хемминг. – М.: Недра, 1987. – 224 с.

48. Громаков, Ю. А. Сотовые системы подвижной радиосвязи. Тех-нологии электронных коммуникаций / Ю. А. Громаков. – М. : Эко-Трендз, 1994. – 302 с.

187

Оглавление Введение…………………………………………………………………...

3

Глава 1. Речевой сигнал………………………........................................ 5 1.1. Речь и речевой сигнал……………………….................................. 5 1.2. Цифровое представление речевых сигналов (дискретизация

и квантование по уровню) ………………………........................... 1.2.1. Цифровое представление……………………….................... 1.2.2. Дискретизация ……………………….....................................1.2.3. Квантование……………………….........................................

1.3. Технические и программные средства формирования аудиоданных ………………………................................................

1.4. Запись и считывание данных из речевого сигнала в MATLAB ………………………...................................................

1.5. Параметры и информативные признаки речевого сигнала……. 1.6. Особенности преобразования речевых сигналов

в стандарте GSM………………………......................................... Контрольные вопросы ………………………............................................

9 9 11 18 20 21 24 27 30

Глава 2. Методы анализа речевых сигналов ………………………... 32 2.1. Преобразование Фурье………………………................................

2.1.1. Ряд Фурье………………………..............................................2.1.2. Преобразование Фурье непериодических сигналов……….2.1.3. Связь между коэффициентами Фурье и спектром………... 2.1.4. Дискретное преобразование Фурье ………………………...2.1.5. ДПФ гармонического сигнала ………………………........... 2.1.6. Быстрое преобразование Фурье ………………………....... 2.1.7. Вычисление спектрограммы ………………………..............

2.2. Корреляционная обработка сигналов. Процедура и примеры применения ………………………................................

2.2.1. Выявление периодического колебания на фоне шума …...2.2.2. Оценивание длины периода основного тона

речевого сигнала. Экспериментальное измерение в системе MATLAB ………………………............................

2.2.3. Преобразование Фурье функции корреляции как способ выявления периодического колебания …………….

Контрольные вопросы ………………………............................................

32 32 34 35 36 37 41 47 50 53 57 62 64

Глава 3. Цифровая фильтрация речевого сигнала ………………… 3.1. Линейная цифровая фильтрация ………………………............ 3.2. Нелинейная цифровая фильтрация ……………………….........

66 66 68

188

3.3. Нерекурсивные цифровые фильтры (НЦФ) ………………….. 3.4. Рекурсивные цифровые фильтры (РЦФ, или IIR) ……………. 3.5. Адаптивная фильтрация речевых сигналов …………………... 3.6. Демонстрационный пример (MATLAB 7) фильтрации

по критерию наименьшей среднеквадратичной ошибки (LMS – least mean sguare error) ………………………................

3.7. Метод наименьших квадратов и оптимальный фильтр Винера ………………………........................................................

3.8. Рекурсивный метод наименьших квадратов (RLS) ………….. Контрольные вопросы ………………………............................................

69 71 73 78 81 82 82

Глава 4. Методы обработки речевых сигналов, используемые в системах распознавания речи ………………………........................

4.1. Скрытые марковские модели ……………………….................... 4.1.1. Математическая модель лево-правых СММ ……………… 4.1.2. Алгоритм прямого – обратного хода

(решение проблемы 1) ………………………........................ 4.1.3. Алгоритм Витерби (решение проблемы 2) ……………….. 4.1.4. Алгоритм Баума – Велча (решение проблемы 3) …………

4.2. Линейное предсказание ………………………............................ Контрольные вопросы ………………………...........................................

83 83 83 86 87 89 91 94

Глава 5. Анализ речи ……………………….......................................... 5.1. Управление окнами ……………………….................................... 5.2. Кратковременный анализ Фурье ………………………...............

5.2.1. Кратковременное преобразование Фурье ………………… 5.2.2. Практическое применение кратковременного

преобразования Фурье ………………………....................... 5.3. Кепстральный анализ ………………………................................. 5.4. Z-преобразование ………………………........................................ 5.5. Анализ с использованием линейного предсказания ……………5.6. Применение формантного анализа ………………………............


95 95100100 101104106107112115

Глава 6. Методы синтеза речи ………………………........................... 6.1. Метод цифрового кодирования речи ………………………........ 6.2. Метод фонемного синтеза ……………………….......................... 6.3. Метод формантного синтеза ………………………...................... 6.4. Вокодеры ………………………......................................................


116117118119120123

189

Глава 7. Методы кодирования речевых сигналов …………………

7.1. Кодирование формы волны речевого сигнала …………………. 7.2. Параметрическое кодирование ……………………….................. 7.3. Кодирование фонемной информации ………………………...... 7.4. Кодирование слов и фраз ……………………….......................... 7.5. Импульсно-кодовая модуляция ………………………................. 7.6. Дифференциальная импульсно-кодовая модуляция (ДИКМ)

на основе линейного предсказания ………………………............ 7.6.1. Решетчатый фильтр сигнала ошибки предсказания ………7.6.2. Реализация ДИКМ ………………………..............................

7.7. Способы кодирования речи на основе анализа временных параметров ………………………................................

7.7.1. Измерение энергии ………………………............................. 7.7.2. Измерение числа переходов через нуль …………………... 7.7.3. Кратковременный автокорреляционный анализ …………

7.8. Кодирование речи на основании адаптивного mel-кепстрального анализа ……………………….........................

7.8.1. Адаптивный mel-кепстральный анализ …………………… 7.8.2. Структура кодера ………………………...............................

7.9. Кодирование речи в стандарте GSM ………………………......... Контрольные вопросы ………………………...........................................

124124125126126126 129135138 140141142143 145145146149155

Глава 8. Лабораторный практикум………………………....................Лабораторная работа № 1. Дискретные сигналы и их описание во временной области……………………….............................................. Лабораторная работа № 2. Работа с речевыми данными в среде MATLAB………………………..................................................... Лабораторная работа № 3. Корреляционная обработка сигналов……Лабораторная работа № 4. Спектральная обработка сигналов……….Лабораторная работа № 5. Расчет цифровых фильтров в среде MATLAB………………………...………………………............... Лабораторная работа № 6. Кодирование речевых данных на основе линейного предсказания………………………...………………………...

156 156 161161164 168 175

Заключение………………………...………………………....................... 183Библиографический список………………………................................. 184

190

Учебное издание

АХМАД Хассан Мухаммад ЖИРКОВ Владислав Федорович

ВВЕДЕНИЕ

В ЦИФРОВУЮ ОБРАБОТКУ РЕЧЕВЫХ СИГНАЛОВ

Учебное пособие

Подписано в печать 25.12.07. Формат 60x84/16. Усл. печ. л. 11,16. Тираж 100 экз.

Заказ Издательство

Владимирского государственного университета. 600000, Владимир, ул. Горького, 87.

Documents

ВВЕДЕНИЕ В ЦИФРОВУЮ ОБРАБОТКУ РЕЧЕВЫХ СИГНАЛОВe.lib.vlsu.ru/bitstream/123456789/1171/3/01116.pdf · Один и тот же звук речи