openarchive.nure.ua · Web view2020. 3. 11. · В роботі проаналізовано основні проблеми створення систем ідентифікації

Міністерство освіти і науки УкраїниХарківський національний університет радіоелектроніки

Факультет Інформаційних радіотехнологій і технічного захисту інформації

Кафедра Комп’ютерної інженерії та систем технічного захисту інформації

АТЕСТАЦІЙНА РОБОТАПояснювальна записка

рівень вищої освіти другий (магістерський)

Дослідження ефективності методів виділення акустичнихпараметрів мовлення для задач біометричної ідентифікації

Виконав:студент 2 курсу, групи СТЗІАм-18-2

Фролов А.В.

Спеціальність 125 «Кібербезпека»Тип програми освітньо-професійна

Освітня програма«Системи технічного захисту

інформації, автоматизаціяїї обробки»

Керівник ст. викл. Олейнікова О.І.

Допускається до захистуЗав. кафедри проф. Антіпов І.Є.

(підпис)

2019 р.

Харківський національний університет радіоелектроніки

Факультет Інформаційних радіотехнологій і технічного захисту інформаціїКафедра Комп’ютерної інженерії та систем технічного захисту інформаціїРівень вищої освіти другий (магістерський)Спеціальність 125 «Кібербезпека»Тип програми освітньо-професійна

Освітня програма «Системи технічного захисту інформації,автоматизація її обробки»

ЗАТВЕРДЖУЮ:Зав. кафедри

(підпис)

«___» 20 р.

ЗАВДАННЯНА АТЕСТАЦІЙНУ РОБОТУ

студентові Фролову Артему Володимировичу(прізвище, ім’я, по батькові)

1. Тема роботи Дослідження ефективності методіввиділення акустичних параметрів мовлення

для задач біометричної ідентифікаціїзатверджена наказом по університету від « 04 » 11 2019 р. № 1642 Ст2. Термін подання студентом роботи до екзаменаційної комісії 10 грудня 2019 р.3. Вихідні дані до роботи Дослідити алгоритми параметризації акустичнихсигналів в задачах розпізнавання дикторів. Для досягнення поставленої метинеобхідно розв’язати наступні задачі: 1) аналіз особливостей побудови системрозпізнавання дикторів; 2) аналіз алгоритмів побудови ознакових описівакустичних сигналів мовлення в задачах розпізнавання дикторів; 3) аналізматематичних моделей прийняття рішень в задачах розпізнавання дикторів;4) експериментальне дослідження ефективності ознакових описів акустичнихсигналів мовлення для задачі розпізнавання дикторів за допомогоюDTW-алгоритму.4. Перелік питань, що потрібно опрацювати в роботі1. Огляд методів та систем голосової ідентифікації2. Огляд методів побудови ознакових векторів акустичних параметрів мовлення3. Огляд методів прийняття рішень в задачах розпізнавання дикторів3. Дослідження алгоритму динамічної трансформації часу4. Розробка алгоритму формування біометричних профілів дикторів та їх подальшої ідентифікації5. Проведення експериментальних досліджень.6. Висновки5. Перелік графічного матеріалу із зазначенням креслеників, схем, плакатів, комп’ютерних

ілюстрацій (слайдів)1. Біометричні системи ідентифікації дикторів. А4. Ел.ф.2. Інформаційні ознаки мовних сигналів дикторів. А4. Ел.ф.3. Методи ідентифікації дикторів А4. Ел.ф.4. Метод динамічної трансформації часу (Dynamic Time Warping) А4. Ел.ф.5. Приклад порівняння наборів інформативних ознак мовних сигналів за допомогою DTW-алгоритму А4. Ел.ф.6. Схема експерименту А4. Ел.ф.7. Дослідні набори інформативних ознак мовних сигналів дикторів А4. Ел.ф.8. Алгоритм формування профілів дикторів та їх подальшої ідентифікації. А4. Ел.ф.9. Результати проведених досліджень. А4. Ел.ф.10. Висновки. А4. Ел.ф.

КАЛЕНДАРНИЙ ПЛАН

№ Назва етапів роботиТермін

виконанняетапів роботи

Примітка

1 Аналіз методів та систем голосової ідентифікації 02.09.19 –20.09.19

2 Аналіз методів побудови ознакових векторівакустичних параметрів мовлення

21.10.19 –10.10.19

3 Аналіз методів прийняття рішень в задачахрозпізнавання дикторів

11.11.19 –30.11.19

4Розробка алгоритму формування профілюкористувача та його ідентифікації.Проведення експериментальних досліджень

01.12.19 –14.12.19

5 Представлення атестаційної роботи на кафедрі 10.12.2019

Дата видачі завдання 02 вересня 2019 р.

Студент(підпис)

Керівник роботи(підпис) (посада, прізвище, ініціали)

РЕФЕРАТ

Пояснювальна записка: 94 с., 31 рис., 1 табл., 19 джерел, 1 додаток

БІОМЕТРИЧНІ СИСТЕМИ, ІДЕНТИФІКАЦІЯ ЗА ГОЛОСОМ,

MEL-ЧАСТОТНІ КЕПСТРАЛЬНІ КОЕФІЦІЄНТИ, КОЕФІЦІЄНТИ

ЛІНІЙНОГО ПЕРЕДБАЧЕННЯ, АЛГОРИТМ ДИНАМІЧНОЇ

ТРАНСФОРМАЦІЇ ЧАСУ.

Об’єкт дослідження – біометричні системи ідентифікації людини за

голосом.

Предмет дослідження – інформативні ознаки акустичних параметрів

мовлення.

Метою цієї роботи є дослідження ефективності алгоритмів

параметризації акустичних сигналів в задачах розпізнавання дикторів.

В роботі проаналізовано основні проблеми створення систем

ідентифікації дикторів. Розглянуто індивідуальні особливості голосу, основні

шляхи параметризації мовного сигналу, способи прийняття рішень, основні

принципи організації системи розпізнавання дикторів. У програмному

середовищі MATLAB був змодельований процес ідентифікації диктора за

допомогою DTW-алгоритму для восьми наборів інформаційних ознак мовних

сигналів. У випадку ідентифікації диктора по одній фонемі найбільш

ефективними є Mel частотні кепстральні коефіцієнти. Ефективність ознак

при ідентифікації диктора за парольним словом «захист» вище, ніж за

окремими фонемами. При цьому кращі результати показують Mel-частотні

кепстральні коефіцієнти та коефіцієнти відображення коефіцієнтів лінійного

передбачення.

ABSTRACT

Master thesis: 94 p., 1 table, 31 fig., 19 sources, 1 app.

BIOMETRIC SYSTEMS, SPEAKER IDENTIFICATION,

MEL-FREQUENCY CEPSTRAL COEFFICIENTS, LINEAR PREDICTION

COEFFICIENTS, DYNAMIC TIME TRANSFORMATION DYNAMIC TIME

WARPING.

The objects of the research are the speaker identification biometric systems.

The subject of the research is the acoustic features of speech.

The objective of the work is study of the efficiency of speech signals’ acous-

tic features in speaker recognition problems.

An analytical review of the methods and systems for speaker recognition

tasks has been completed in this work. Individual features of speech, methods of

speech signals’ parameterization, methods of making decision and basic principles

of speaker recognition systems’ organization has been analyzed. Using MATLAB

has been modeled the speaker recognition process based on DTW algorithm for

eight sets of acoustic features of speech. In the case of speaker recognition by one

phoneme, the most effective are Mel-frequency kepstral coefficients. In the case of

speaker recognition by password word, the effectiveness of the acustic features is

higher than the individual phonemes. For speaker recognition by password word

the best results are shown by Mel-frequency kepstral coefficients and reflection co-

efficients of linear predictive.

ЗМІСТ

Перелік скорочень та термінів …………………………………………….Вступ ………………………………………………………………………...1 Методи та системи голосової ідентифікації ……………………………

1.1. Системи розпізнавання дикторів за голосом …………………...1.2. Параметризація мовного сигналу ……………………………….1.3. Вирішальні правила ……………………………………………...1.4. Критерії ефективності систем верифікаціїта ідентифікації дикторів ……………………………………………..

2 Методи побудови ознакових векторів акустичнихпараметрів мовлення ……………………………………………………….

2.1. Попередня обробка і виділення первинних ознак мовлення ….2.2. Нормалізація рівня сигналів ……………………………………..2.3. Виділення меж фрази …………………………………………….2.4. Методи виділення індивідуальних ознак мовлення дикторів …

3 Методи прийняття рішень в задачах розпізнавання дикторів ………...3.1. Метод динамічної трансформації часу …………………………3.2. Векторне квантування ……………………………………………3.3. Змішані гаусівські моделі ………………………………………..3.4. Метод опорних векторів …………………………………………3.5. Приховані марківські моделі …………………………………….3.6. Штучні нейронні мережі ………………………………………...

4 Експериментальне дослідження ефективностіметодів виділення акустичних параметрів мовленнядля задач біометричної ідентифікації ……………………………………..

4.1. Отримання первинних голосових характеристик ……………...4.2. Вибір інформативних ознак мовних сигналів ………………….4.3. Алгоритм формування профілю користувачата його аутентифікації ………………………………………………..

Висновки ……………………………………………………………………Перелік джерел посилання ………………………………………………...Додаток А. Комплект графічних матеріалів ……………………………...

7810101619

21

272733353846485255576063

676771

74777981

ПЕРЕЛІК СКОРОЧЕНЬ ТА ТЕРМІНІВ

FAR – False Acceptance Rate – помилка 2-го роду типу – надання

доступу зловмиснику;

FRR – False Rejection Rate – помилка 1-го роду типу – відмова в

правомірному доступі зареєстрованому користувачу системи;

LPC – Linear Prediction Сoefficients – коефіцієнти лінійного

передбачення;

АКФ – автокореляційна функція;

ВП – вейвлет-перетворення;

ДПФ – дискретне перетворення Фур'є;

МFСС – Mel-Frequency Cepstrum Сoefficients – Mеl-частотні

кепстральні коефіцієнти;

СФ – спектральна функція;

ШНМ – штучна нейронна мережа;

ШПФ – швидке перетворення Фур'є.

ВСТУП

Важливим елементом захисту інформації є захист від

несанкціонованого доступу до ресурсів інформаційних систем шляхом

контролю доступу (зокрема, аутентифікації користувачів). Необхідність

створення надійних і зручних систем контролю доступу обумовлюється

збільшенням потоків конфіденційної інформації й інформаційних систем,

призначених для їх аналізу і обробки, а також об’єктивною вимогою

інтелектуалізації і захищеності всіх форм взаємодії користувачів

автоматизованих систем управління з технічними засобами.

Аналіз сучасних систем контролю доступу свідчить про очевидний рух

у бік біометричних систем, адже такий вид розпізнавання є зручним і

надійним у плані аналізу відповідності контрольного біометричного вектору

(ознаки) конкретному користувачеві. Серед усього різноманіття

біометричних ознак особи умовам негласності й дистанційності

задовольняють лише динамічні методи біометричної ідентифікації, а,

насамперед, розпізнавання особи за голосом. Основною перевагою голосової

ідентифікації є широкий спектр застосування технології за відсутності, як

правило, вимог застосування спеціального обладнання. Голосова

ідентифікація широко використовується в задачах забезпечення безпеки

(контроль за фізичним доступом в приміщення, доступ до баз даних,

обчислювальних систем і ПК, контроль над транспортними засобами та

зброєю) та в задачах інформаційної безпеки телекомунікаційних каналів,

наприклад, для випадку отримання балансу банківського рахунку,

підтвердження грошових транзакцій або оплати послуг тощо.

Огляд існуючих систем розпізнавання особи за голосом у відомій

літературі свідчить про те, що практично всі системи розпізнавання голосу,

призначенням яких є аутентифікція користувача, основуються на порівнянні

фонетично ідентичних мовних сигналів (аутентифікація за парольними

фразами). При такому, текстозалежному, розпізнаванні неможливо

забезпечити виконання умов негласного контролю доступу.

Враховуючи вищесказане, а також те, що достовірність роботи системи

аутентифікації особи за голосом залежить від адекватності математичних

моделей, використаних для обробки й аналізу мовного сигналу, методів

виділення з нього інформативних параметрів, здатних повноцінно

відобразити індивідуальність конкретного користувача, дослідні роботи,

спрямовані на вдосконалення методів й алгоритмів обробки мовних сигналів

із метою підвищення ефективності роботи систем захисту від

несанкціонованого доступу на основі голосової аутентифікації, є

актуальними.

Метою цієї роботи є дослідження алгоритмів параметризації

акустичних сигналів в задачах розпізнавання дикторів.

Для досягнення поставленої мети необхідно розв’язати наступні задачі:

1) аналіз особливостей побудови систем розпізнавання дикторів;

2) аналіз алгоритмів побудови ознакових описів акустичних сигналів

мовлення в задачах розпізнавання дикторів;

3) аналіз математичних моделей прийняття рішень в задачах

розпізнавання дикторів;

4) експериментальне дослідження ефективності ознакових описів

акустичних сигналів мовлення для задачі розпізнавання дикторів за

допомогою DTW-алгоритму.

1 МЕТОДИ ТА СИСТЕМИ ГОЛОСОВОЇ ІДЕНТИФІКАЦІЇ

1.1. Системи розпізнавання дикторів за голосом.

Системи розпізнавання особистості за мовним характеристикам

розвиваються останнім часом дуже активно. Інтерес до вирішення

прикладних завдань у цьому напрямі цілком зрозумілий. Насамперед, він

визначається наявністю широкого кола практичних застосувань, які можуть

бути розділені на два основних класи.

1. Перевірка прав доступу до різних інформаційних систем, наприклад,

канали зв'язку, обчислювальні системи, бази даних, банківські рахунки,

службові та індивідуальні приміщення обмеженого користування (таємність,

матеріальні цінності тощо), різні пристрої та механізми (транспортні засоби,

зброя тощо).

Переваги встановлення особистості за голосом при розв'язанні

прикладних задач полягають в наступному: голос є невід’ємним від людини

(на відміну від ключа, магнітної карти або, навіть, пальця з його відбитками);

голос не вимагає безпосереднього контакту з пропускною системою (як

цього потребує сканер відбитку пальця, долоні, графічний планшет для

підпису), можливе використання телефонного каналу.

2. Криміналістична експертиза: аналіз записів переговорів при різних

аварійних ситуаціях (наприклад, авіаційних катастрофах); аналіз записів

телефонних переговорів при санкціонованому їх прослуховуванні; докази в

суді.

Останнім часом інтерес до розпізнавання особистості за голосом

посилився у зв'язку з наростаючим використанням автоматичних

мовленнєвих технологій в таких сферах, як запити про стан банківських

рахунків та банківські розрахунки по телефону; запити інформації з баз

даних по телефону; автоматична оплата міжміських телефонних переговорів;

мовленнєве спілкування людини і машини – управління промисловим

обладнанням.

Багато варіантів використання мовних технологій припускають

автоматичне розпізнавання користувача. Насамперед, це стосується

використання мовних технологій в телефонних мережах, де доводиться

вирішувати задачі обробки та розпізнавання особистості диктора.

Наразі існує безліч різних підходів до побудови систем автоматичного

розпізнавання дикторів. Але, в не залежності від використовуваних методів,

у всіх системах реалізується виконання наступних етапів: детектування мови,

екстракція акустичних ознак, побудова статистичної моделі еталонної і

тестової проголошених фраз, порівняння моделей, обробка результату

порівнянь і прийняття рішення. Для всіх систем характерний етап

попередньої обробки вхідного мовного сигналу з метою видалення немовних

ділянок (пауз) і екстракції (отримання) акустичних ознак, що містять в собі

інформацію про особливості голосу диктора (рис. 1.1 та рис. 1.2).

Рисунок 1.1 – Схема побудови голосової моделі диктора

Узагальнюючий термін «розпізнавання диктора» відноситься до будь-

якої задачі розпізнавання людини за характеристиками голосу. В рамках

цього загального визначення виділяються дві конкретні задачі, які інтенсивно

вивчаються: ідентифікація диктора та його верифікація.

Суть відмінності між ідентифікацією і верифікацією досить проста: у

першому випадку завдання полягає в тому, щоб класифікувати дослідну

фразу як виголошену одним з N дикторів еталонної множини.

Рисунок 1.2 – Схема прийняття рішення в системі розпізнання дикторів

У випадку верифікації необхідно вирішити, чи належить певна

проголошена фраза конкретному еталонному диктору.

Типові схеми задач ідентифікації і верифікації зображено на рис. 1.3.

Рисунок 1.3 – Структурна схема задач ідентифікації та верифікації

На відміну від задачі ідентифікації, де людина не називає або навіть

приховує свою особистість, задача верифікації передбачає встановлення

достовірності тієї особистості, за яку видає себе диктор. На практиці задача

верифікації вирішується в контрольно-пропускних пунктах, при проведенні

операцій особистого рахунку в банку через телефонні канали зв'язку тощо.

Слід зазначити, що кількість інформації, яку необхідно отримати в

задачі ідентифікації (пропорційна кількості дикторів), виявляється, як

правило, більше, ніж при рішенні задачі верифікації. Тому природно

очікувати, що за рівних умов якість розпізнавання (тобто ймовірність

прийняття правильного рішення) в разі верифікації буде вище, ніж в разі

ідентифікації. Критичним параметром задачі ідентифікації є число дикторів в

еталонній множині: при нескінченно великій кількості дикторів ймовірність

помилки прагне до одиниці. У той же час якість верифікації голосу не

залежить від числа дикторів в еталонній множині.

Однак, хоча якість розпізнавання залишається незмінною зі

збільшенням кількості дикторів, задача верифікації містить одна трудність,

якої немає в задачах ідентифікації. Справа в тому, що при верифікації

потрібно мати набагато більш широкий набір характерних ознак голосу. Так,

наприклад, якщо в задачах ідентифікації відшукання еталона, найбільш

«близького» до проголошеної фрази, може бути прийнятним результатом без

статистичного оцінювання, то при ототожненні голосу з конкретним

суб'єктом потрібно характеризувати результати цього процесу «ступенем

близькості» в статистичному сенсі.

Ідентифікація голосу в даному сенсі іноді ще називається

ідентифікацією на замкнутій множині, на відміну від тієї ж процедури на

відкритий множині, коли існує певна ймовірність того, що невідомий голос

не належить жодному з суб'єктів еталонної множини. В останньому випадку

число можливих рішень дорівнює N+1, тобто можлива класифікація

проголошеної фрази як такої, що не відноситься до жодного з еталонів.

Звідси випливає, що ідентифікація на відкритій множині є комбінацією задач

ідентифікації та верифікації, в якій поєднуються гірші випадки обох задач:

якість розпізнавання знижується через складність ідентифікації, а можливість

віднесення розпізнаного голосу до числа сторонніх вимагає досить повного

опису статистичних характеристик мовних сигналів.

З точки зору обробки сигналів обидва завдання збігаються. Основна

відмінність полягає в тих параметрах, які використовуються для побудови

міри розрізнення. Рішення, що формується системою при ідентифікації

диктора, зводиться до вибору того диктора, чий еталонний опис найближче

до опису, отриманого по вхідному сигналу. При верифікації потрібно

вирішити задачу бінарного вибору, тобто прийняти або відхилити

твердження про те, що голос розпізнаного диктора ідентичний даному

еталону, і це досягається на основі порівняння значень міри розрізнення з

обраним порогом.

Задачі верифікації та ідентифікації можуть бути розбиті на два великих

класи в залежності від використовуваного мовного матеріалу: текстозалежні і

текстонезалежні. Різниця між цими двома класами полягає в тому, чи є

проголошена фраза лінгвістично ідентичною еталонній чи ні. Очевидно, що

збіг лінгвістичної форми 2-х порівнюваних мовних повідомлень полегшує

процес ідентифікації (верифікації).

Однак у практичних завданнях таке протиставлення не є абсолютним.

По-перше, самі аналізовані повідомлення можуть бути досить тривалими,

для того, щоб в них можна було вибрати лінгвістично ідентичні відрізки. По-

друге, сама процедура ідентифікації мовця може виявитися принципово

текстонезалежною, хоча і спирається на ідентичні за своєю структурою

мовленнєві відрізки. Остання ситуація характерна для комерційних систем,

що використовують так звані процедури «з підказкою». У цьому випадку

користувач використовує для входження в систему парольні слова, що

підказує система, але сама система з міркувань економії обчислювальних

потужностей (а, отже, і часу реакції) використовує «спрощені»

текстонезалежні процедури.

За типом мовлення розрізняють системи розпізнавання мовних

сигналів та неперервної мови (рис. 1.5). У першому випадку потрібне

спеціальне (дискретне) вимовляння слів (мовних команд), при якому паузи

між словами значно перевищують паузи між буквами у словах. Зазвичай

тривалість такої розділової паузи становить пів секунди. При розпізнавання

неперервної мови диктор може вимовляти слова фраз природно, не роблячи

спеціальних пауз між словами. Існує і третій варіант роботи системи

розпізнавання, при якому система повинна виявляти промовляння заданих

слів у звуковому потоці, незалежно від того, виділені вони паузами або

вимовлені в оточенні інших слів. Такий режим розпізнавання називається

режимом пошуку ключових слів.

За ступенем залежності системи від розпізнаваних голосів дикторів

розрізняють дикторозалежні та дикторонезалежні системи, а також системи з

автоматичним підстроюванням. Перші вимагають попереднього навчання

(адаптації) до голосу користувача системи, другі – готові до роботи відразу

після установки. Дикторозалежні системи забезпечують більш високу

точність розпізнавання з голосу основного користувача системи, ніж з будь-

яких інших голосів. Третій тип систем – системи, автоматично

налаштовуються на голос диктора по мірі їх використання.

За ступенем деталізації еталонів розрізняють системи, що

використовують в якості еталонів цілі слова і частини (фонеми, букви,

склади і т.д.) слів. Перші забезпечують більш високі точність і швидкість

порівняння, але накладають значні обмеження на обсяг і відкритість

словника.

За кількістю знайдених слів (або обсягом словника) можна виділити дві

категорії: системи з малими (зазвичай, до 100 слів) і великими словниками. У

системах з малим словником є можливість прямого навчання для кожного

слова. У системах з великим словником такої можливості немає.

За механізмом функціонування можна виділити три категорії: прості

(кореляційні) детектори; експертні системи з різним способом формування і

обробки баз даних та ймовірнісно мережеві моделі прийняття рішення.

За типом граматики системи розпізнавання мовлення можна розділити

на три класи: командні, з фіксованою граматикою і системи диктування.

Командні системи орієнтовані на розпізнавання окремих слів та/чи фраз, що

включаються до словника системи в якості окремих елементів. Командні

системи не передбачають можливість розпізнавання комбінацій елементів

словника. У системах з фіксованою граматикою граматика визначає

допустимі комбінації елементів словника. «Фіксованість» граматики не

означає, що система може працювати тільки з однією, заданої граматикою –

граматика фіксується в рамках однієї сесії розпізнавання.

1.2. Параметризація мовного сигналу.

Вибір параметрів мовного сигналу, здатних щонайкраще описати

індивідуальність голосу, є найважливішим етапом при побудові систем

ідентифікації диктоів.

Представлення мовних елементів через деякий набір ознак або

параметрів має бути досить докладним, щоб надійно розрізняти ці елементи

між собою. Але, з іншого боку, ознаковий опис має бути по можливості

компактним. Ознаки індивідуальності крім ефективності подання інформації

про особливості голосу і мови диктора, повинні володіти рядом інших

властивостей. По-перше, вони повинні бути легко вимірювані і мало залежні

від заважаючих факторів навколишнього середовища (шумів і завад), по-

друге, вони повинні характеризуватися стабільністю в часі і, по-третє, не

повинні піддаватися імітації.

Систему ознак вибирають інтуїтивно і перевіряють об'єктивно за

критерієм точності розпізнавання. Вважається, що найбільш перспективними

є такі описи, які адекватні процесу мовотворення або слухового сприйняття.

Елементи мови не піддаються простій багатоступінчастій класифікації,

оскільки до цих пір не вдалося знайти набори ознак, які б дозволили

послідовно класифікувати невідомий звук, відносячи його за ознаками до тієї

чи іншої групи, підгрупи і т.д.

Ознаками мовленнєвого сигналу прийнято називати сукупність

параметрів, яка безпосередньо використовується при ідентифікації.

Розглянемо основні типи ознак.

Спектральний опис. Будь-який складний негармонічний сигнал може

бути розкладений на некратні гармонійні складові або представлений як

інтеграл нескінченного числа складових. Спектром коливань називають

сукупність простих гармонійних коливань, на які може бути розкладено

складний коливальний рух. Основними способами розкладання сигналу в

спектр є смугова фільтрація і перетворення Фур'є.

Мовний сигнал зазвичай аналізується в смузі частот від 100 до 3700 Гц.

Весь частотний діапазон ділиться на смуги. Предметом розрахунку є вибір

числа смуг, частотних меж та порядку фільтра. При спектральному аналізі

зазвичай використовують фільтри другого, четвертого або шостого порядку.

Кількість смуг в різних системах зазвичай варіюється в широких межах (від 5

до 120) і вибирається інтуїтивно. Для того щоб використовувати

спектральний опис при розпізнаванні диктора, необхідно по можливості

усунути флуктуації рівня сигналу. Для цього застосовують нормування

спектру (наприклад, нормування за середньою енергією сигналу, за

середньою площею спектральної функції (СФ), по максимуму СФ). Існує

також широкий клас перетворень спектру, що володіють ефектом

нормалізації рівня, заснованих на визначенні знака різниці спектральних

складових.

1. Знак похідної спектру по частоті. При цьому на кожній частотній

ділянці вимірюють знак нахилу СФ. Кожне стан кодується двома бітами: 01 –

зростання; 10 – спад; 00 – ділянка з відсутністю або дуже малим значенням

нахилу.

2. Знак різниці відліків, взятих з деяким інтервалом.

3. Знак різниці СФ в різних, спеціальним чином вибраних парах

частотних смуг. При n смугах можна отримати n(n−1)/2 таких різних ознак.

Такий набір краще ознак, одержуваних способами 1 і 2.

4. Пороговий спектр. Кожна ознака кодується символом 1 або 0 в

залежності від наявності (відсутності) перевищення СФ в даному частотному

каналі деякого порогу (наприклад, середнього значення).

5. Отриманий способами 1 – 3 код інваріантний до лінійних змін форми

спектра. Більш того, можна показати, що цей код інваріантний до широкого

класу нелінійних перетворень при єдиній умові їх монотонності.

6. Автокореляція. Автокореляційна функція (АКФ) сигналу однозначно

пов'язана з його спектром. АКФ мовного сигналу обчислюють або на

порівняно тривалих відрізках (секунди і більше), або на сегментах

тривалістю 10-20 мс. У першому випадку отримують узагальнені оцінки

сигналу, у другому – опис поточного сигналу, адекватний характеру

артикуляційних рухів, тобто отримують параметри, придатні для

розпізнавання звуків.

Кліпування сигналу. Кліпування (граничне підсилення з обмеженням)

сигналу є найбільш простим видом його обробки. Кліпована мова має

задовільну розбірливість, тобто несе в собі ще досить інформації. Аналіз

кліпованого сигналу зводиться до підрахунку числа переходів через

нульовий рівень в одиницю часу і врахуванню розподілів інтервалів часу між

нуль-переходами.

Формантні параметри. Формантний аналіз мови є розвитком

спектрального аналізу та враховує специфіку мовотворення. В основі цього

методу лежить модель мовотворення, яка містить джерела гармонійного та

шумового збудження і мовний тракт, який представляється набором

резонаторів з керованими параметрами. Даний аналіз є досить складним,

оскільки необхідно з високою надійністю розрізняти дзвінкі (тональні) і глухі

ділянки мови, формуючи ознаку тон/шум, визначати параметри шуму та

параметри тракту (формантні частоти та їх смуги). Незважаючи на досить

точну відповідність формантного опису природі мовотворення, даний метод

у чистому вигляді не знайшов широкого поширення із-за своєї складності.

КЛП-аналіз промови. Метод, заснований на обчисленні коефіцієнтів

лінійного передбачення (КЛП), дозволяє описати мовний сигнал найбільш

точно і в той же час компактно. В ході обробки поточні відліки сигналу, взяті

з інтервалами квантування 50-120 мкс, порівнюються з лінійними

комбінаціями обмеженого ряду (4 – 12) попередніх відліків. Коефіцієнти

лінійних комбінацій визначаються на ділянках мови тривалістю 10-20 мс з

таким розрахунком, щоб розбіжність між передбаченими і поточними

значеннями була мінімальною (наприклад, по мінімуму СКВ). Вектори цих

коефіцієнтів і є результатом КЛП-аналізу.

Кепстральні параметри є параметричним представленням обвідної

короткочасного спектру мови. Обвідна спектру в основному обумовлена

резонансними частотами голосового тракту – формантами. Отже,

кепстральний вектор характеризує форму голосового тракту в момент

виголошення поточного елементу фрази. Кепстральні параметри малочутливі

до частотних спотворень. Дійсний кепстр обчислюється як зворотне

перетворення Фур'є від логарифма амплітудного спектру. Для поліпшення

представлення індивідуальності голоси кепстральними параметрами

використовується зважування за частотною психоакустичною шкалою, бо

людина сприймає різні частоти спектру нелінійно. Прикладом таких ознак

індивідуальності може бути mеl-частотні кепстральні коефіцієнти (МFСС).

Зазначені вище способи параметризації мовного сигналу відносяться

до первинного опису мовного сигналу на сегментному рівні. Наступною

задачею є опис проголошеної фрази, що підлягає ідентифікації, в цілому.

Найпростішим способом є опис цієї фрази інтегрально: середній основний

тон, середній спектр, гістограма розподілу кластерів при векторному

квантуванні тощо. Цей спосіб простий і, як показує досвід, досить

ефективний.

1.3. Вирішальні правила.

В задачі верифікації найчастіше використовується два вирішальних

правила (так або ні). Звичайною процедурою при верифікації диктора

вважається оцінка максимальної правдоподібності. При цьому, на навчальній

послідовності (формується в процесі реєстрації диктора) проводиться оцінка

розподілу характеристичних параметрів x для даного диктора λk , P ( x∨λk ).

В процесі верифікації рішення приймається за значенням порогу a, що

відповідає заданій імовірності помилок 1-го (FRR) або 2-го роду (FAR):P ( x∨ λk )<a⇒ гіпотеза λk приймається ,P ( x∨λk )>a⇒ гіпотеза λk відкидається .

(1.1 )

Рівень помилок задається умовами конкретно розв'язуваної задачі,

якщо навчальна послідовність невелика, то, природно, всіх параметрів

розподілу (зазвичай передбачається, що він близький до нормального)

визначити неможливо.

В цьому випадку для даного диктора робиться тільки оцінка

середнього, дисперсія ж вважається деякою середньою величиною для групи

дикторів. Найчастіше останній висновок робиться на основі аналізу мовлення

дикторів, записаних на дослідницькій базі даних. Якщо ж оцінку дисперсії

можна зробити індивідуально для даного диктора, то поріг верифікації

визначається індивідуально. У цьому випадку вдається отримати помітне

зменшення помилок верифікації.

З кінця ХХ століття став з успіхом використовуватися так званий

«когортний» метод прийняття рішення. У даному випадку прийняття в

процесі рішення використовується оцінка розподілу параметрів λk диктора,

якого верифікує система, але і інших дикторів λμ. Рішення приймається на

підставі величини відношення правдоподібності:

lg [ P ( x∨λk) ]lg [ P ( x∨λμ ) ]<β⇒гіпотезаприймається ,

lg [ P ( x∨ λk ) ] lg [ P ( x∨ λμ ) ]>β⇒ гіпотезавідкидається .(1.2 )

Додаткові диктори вибираються з допоміжної бази, записаної в умовах,

близьких до умов роботи реальної системи верифікації.

Для систем ідентифікації диктора (варіант закритої системи) зазвичай

використовується спрощений варіант вирішального правила, при якому не

робиться оцінка розподілу ймовірностей параметрів для даного диктора. При

цьому використовується критерій мінімізації помилок на навчальній

послідовності.

При вирішенні завдань закритої ідентифікації може бути використаний

прийом варіювання метрики простору параметризації мовного сигналу.

Замість традиційної евклідової метрики може бути використана метрика

Хеммінга, Чебишева, кореляційна функція і ряд інших. За рахунок зміни

метрики може бути отримане помітне поліпшення результатів.

В якості ще одного прийому, що дозволяє отримати хороші результати,

але не має теоретичного обґрунтування можна вказати на наступний. У

задачі верифікації в процесі аналізу парольного слова або фрази рішення

може прийматися не відразу, а система у випадку «сумніву» запитує

додатковий пароль. Остаточне рішення приймається за частковим рішенням

(як за паролем, так і за окремими ознаками) методом голосування. Відомо,

що метод голосування не має універсального рішення, але шляхом комбінації

параметрів (вагових коефіцієнтів часткових рішень і порогу прийняття

рішення) можна домогтися поліпшення результатів.

1.4. Критерії ефективності систем верифікації та ідентифікації

дикторів.

Оцінка роботи системи в режимі верифікації виконується за

розрахунком помилок 1-го та 2-го роду. До помилок 1-го роду (False

Rejection Rate – FRR) належать помилки типу «відмова в правомірному

доступі зареєстрованому користувачу системи», а до помилок 2-го роду

(False Acceptance Rate – FAR) відносяться, відповідно, помилки типу

«надання доступу зловмиснику». Розрахунок помилок FAR і FRR

виконується за формулами:

FAR= EMM

⋅100 % , (1.3 )

FRR= EKK

⋅100 % , (1.4 )

де EM – кількість випадків надання доступу зловмисникам, M –

загальна кількість спроб отримання доступу зловмисниками, EK – кількість

випадків відмови у доступі зареєстрованим користувачам, K – загальна

кількість спроб отримання доступу зареєстрованими користувачами.

Передбачається, що зловмисник намагається отримати доступ,

використовуючи по черзі всі ідентифікатори зареєстрованих користувачів,

тобто видає себе за нового клієнта кожну нову спробу. Таким чином,

загальне число спроб отримання доступу шахраями в рамках тестування

обчислюється за формулою:M=M S ⋅N M ⋅K S , (1.5 )

де M S – загальна кількість зловмисників, N M – загальна кількість спроб

кожного зловмисника видати себе за одного з зареєстрованих користувачів

(по одній спробі), K S – загальна кількість зареєстрованих користувачів у

системі верифікації.

False Non-Match Rate (FNMR) – ймовірність помилкового

неспівпадання: кількість зразків, отриманих в результаті операцій верифікації

зареєстрованого в системі справжнього користувача, які помилково визнані

не співпадаючими з шаблоном тих же біометричних даних користувача, який

проходить верифікацію і представив біометричний зразок.

False Match Rate (FMR) – ймовірність помилкового збігу: кількість

зразків, отриманих в результаті пасивних спроб «зловмисника», які

помилково визнані співпадаючими з шаблоном іншого користувача.

У загальному випадку метрики FMR і FNMR не є синонімами FAR і

FRR, однак найчастіше використовуються в еквівалентному сенсі.

Крім вище зазначених стандартами передбачені наступні метрики для

оцінки якості режиму ідентифікації.

True Positive Identification Rate (TPIR) – ймовірність істинно позитивної

ідентифікації: очікувана частка ідентифікаційних операцій користувачів,

зареєстрованих в системі, в результаті яких коректний ідентифікатор

користувача буде присутній серед виданих системою t ідентифікаторів. Якщо

вихідними даними біометричної системи є t найближчих кандидатів-збігів,

відповідна оцінка TPIR також відома як t-ранг ідентифікації.

False Positive Identification Rate (FPIR) – ймовірність хибнопозитивної

ідентифікації: очікувана частка ідентифікаційних операцій користувачів, не

зареєстрованих в системі, в результаті яких повертається ідентифікатор. Це

означає, що зловмисник, навіть не зареєстрований в системі, відправивши

свої біометричні дані на обробку, отримує від системи позитивну відповідь-

допуск до об'єкту. Тоді як в даній ситуації очікуваною реакцією системи не

передбачається повернення ніякого найближчого кандидата. Це свого роду

аналог помилки другого роду для процедури верифікації. Помилка FPIR

залежить як від числа зареєстрованих користувачів (N), так і від величини

порогу (n), за яким визначається допустима величина міри близькості між

кандидатом і шаблонами з бази. Крім того, на замкнутій множині неможливо

визначити FPIR для процедури ідентифікації, тому що всі користувачі

системи є зареєстрованими в системі.

False Negative Identification Rate (FNIR) – ймовірність псевдонегативної

ідентифікації: очікувана частка ідентифікаційних операцій користувачів,

зареєстрованих в системі, в результаті яких коректний ідентифікатор

користувача не буде присутній серед виданих системою t ідентифікаторів.

FNIR залежить від числа зареєстрованих користувачів (N), від величини

порога (n), за яким визначається допустима величина міри близькості між

кандидатом і шаблонами з бази, а також від кількості дослідних кандидатів –

від рангу ідентифікації. Перераховані вище характеристики зв'язані

наступними співвідношеннями:

FNIR=1−TPIR=1−(1−FMR ) N . (1.6 )

FPIR визначається, коли вхідний зразок помилково збігається з одним

або декількома шаблонами з бази. Тоді дана помилка обчислюється як

одиниця мінус ймовірність того, що не відбулося збігів ні з одним з шаблонів

бази (N – кількість зареєстрованих шаблонів в базі). У випадку малого

значення FMR (порядку 110 N ) помилка FPIR може бути розрахована за

формулоюFPIR ≈ N ⋅FRM . (1.7 )

Найбільш поширеною графічною характеристикою бінарної

класифікації є крива робочої характеристики (Receiver Operating

Characteristic) або ROC-крива (рис. 1.4, а). ROC-крива показує залежність

кількості вірно верифікованих зареєстрованих користувачів від кількості

неправильно верифікованих зловмисників. У термінології ROC-аналізу перші

називаються істинно позитивним, другі – помилково негативними

множинами. При цьому передбачається, що у класифікатора є деякий

параметр, варіюючи який можна отримувати те або інше розділення на два

класи. Цей параметр часто називають порогом або точкою відсікання (cut-off

value). В залежності від нього будуть виходити різні величини помилок 1-го

та 2-го роду.

а) б)

Рисунок 1.4 – ROC-крива

Візуальне порівняння ROC-кривих не завжди дозволяє виявити

найбільш ефективну модель. Своєрідним методом порівняння ROC-кривих є

оцінка площі під кривими. Теоретично вона змінюється від 0 до 1.0, але

оскільки модель завжди характеризуються кривою, розташованою вище

позитивної діагоналі (Performance level of random guessing на рис. 1.4, а), то

зазвичай говорять про зміну від 0.5 («некорисний» класифікатор) до 1.0

(«ідеальна» модель). Ця оцінка може бути отримана безпосередньо

обчисленням площі під многогранником, обмеженим праворуч і знизу осями

координат і зліва вгорі – експериментально отриманими точками (рис. 1.4, а).

Чисельний показник площі під кривою називається AUC (Area Under Curve).

Обчислити його можна, наприклад, за формулою (рис. 1.4, б):

AUC=∑i

( x i+1−xi ) ⋅ y i . (1.8 )

Можна вважати, що чим більше показник AUC, тим кращою

прогностичної силою володіє модель верифікації. У літературі іноді

наводиться така експертна шкала значень AUC, за якою можна судити про

якість моделі: 0.9 ÷ 1.0 – відмінна; 0.8÷ 0.9 – дуже гарна; 0.7 ÷ 0.8 – хороша;

0.6 ÷ 0.7 – середня та 0.5 ÷ 0.6 – незадовільна.

Хоча ефективність системи повністю описується кривою ROC,

необхідність в однорозмірній діаграмі помилок все ще існує. Раніше,

дослідники дуже часто використовували критерій рівності частоти появи

помилок EER (Equal Error Rate) для опису своїх дослідницьких систем. Однак

цей критерій не підходить для опису реалістичної ефективності систем

верифікації диктора, так як ці програми не обов'язково повинні працювати за

однакової частоти появи помилок. Для деяких систем можуть знадобитися

більш низький рівень помилки відхилення або навпаки більш низький рівень

помилки пропуску. До того ж критерій рівності частоти появи помилок не

робочий критерій, так як він не підходить для апріорної установки порога;

цей поріг може бути визначений лише після всіх спроб доступу, тобто

апостеріорі.

Робочим критерієм ефективності системи є загальна вартість помилок

системи. Коли орієнтовна вартість помилок пропуску або відхилення і

апріорна ймовірність спроб доступу клієнта відомі для певної системи

верифікації, ефективність може бути оцінена на основі визначення функції

вартості (DCF):DCF=CFRR ⋅FRR ⋅P (користувач )+CFAR⋅FAR ⋅P ( зловмисник ) , (1.9 )

де CFRR – вартість помилки пропуску зловмисника, CFAR – вартість

помилки відхилення користувача, P (користувач ) – апріорна ймовірність появи

користувача на вході системи, P ( зловмисник ) – апріорна ймовірність появи

зловмисника на вході системи. Установка цих параметрів залежить від типу

системи. Наприклад, для систем охорони доступу вважають P ( зловмисник ) ≪1.

Для порівняння ефективності систем А і В може використовуватися

вищезгадана функція визначення вартості DCF і якщо DC FA< DC FB, то можна

говорити, що система А «краще» ніж В. Розглянемо як можна вирішити

питання наскільки ефективніше система А в порівнянні з В з довірчим рівнем

100 (1−a ). Для обчислення довірчого інтервалу навколо DCF системи

верифікації, спершу потрібно визначити відповідні інтервали для частоти

помилок пропуску зловмисника і помилок відхилення користувача.

Апроксимація довірчого інтервалу для співвідношення p для великого числа

спроб N може бути описана як:

p−z √ p (1−p )N

≤ p≤ p+z √ p (1−p )N

, (1.10 )

де p – оцінка p, z – стандартна величина в нормальному розподілі і

дорівнює хвосту кривої розподілу a2 (наприклад z=1.96 для a=0.05).

Використовуючи цю формулу можна обчислити довірчий інтервал навколо

частоти помилок відхилення (при p=FAR і N=N зловмисник) і навколо частоти

помилок пропуску (при p=FRR і N=N користувач). При заміні цих інтервалів в (1.9)

можна обчислити довірчий інтервал для DCF всієї системи. Наприклад, для

набору ( N зловмисник=11895 , N користувач=3346 ) і за умови CFRR=CFAR=1 і

P ( зловмисник )=P (користувач )=0.5, для DCF=4.51 довірчий інтервал складає

(3.97 ÷ 5.04 ). Отже, ефективність іншої системи можна вважати вище тільки,

якщо DCF для неї менше 3.97 на тій же самій тестовій множині.

2 МЕТОДИ ПОБУДОВИ ОЗНАКОВИХ ВЕКТОРІВ

АКУСТИЧНИХ ПАРАМЕТРІВ МОВЛЕННЯ

2.1. Попередня обробка і виділення первинних ознак мовлення.

Для обробки і аналізу мови з використанням обчислювальних систем,

необхідно перетворити її у форму, зрозумілу для цих систем.

Найпоширеніший спосіб – це представлення мовного сигналу в цифровій

формі. Для цього зазвичай використовується імпульсно-кодова модуляція.

Мова людини, що представляє собою акустично хвилі, за допомогою

мікрофона перетворюється в електричний сигнал, який потім квантується по

амплітуді та дискретизується у часі за допомогою аналого-цифрового

перетворювача (АЦП) (рис.2.1).

Рисунок 2.1 – Перетворення акустичних сигналів у цифрову форму

Аналоговий сигнал s (t ) дискретизуется за допомогою дискретизатора,

тобто амплітудно-імпульсного елемента, що реагує на дискретні

рівновіддалені значення сигналу в моменти t=nT , n=0 ,1 ,2 , … На виході

дискретизатора утворюється послідовність вибірок s (nT ).

Цифровий мовний сигнал, що надходить у систему розпізнавання,

піддається попередній обробці з метою компенсації помилок оцифровки

звуку і врахування специфіки сигналу. Як правило, така обробка полягає в

очищенні сигналу від шуму (наприклад, відсіканням неінформативних

ділянок спектра), фільтрації, нормалізацією до певного встановленого рівня.

Потім необхідно виділити інформативні ознаки мовного сигналу, тобто

ті, які найбільш повно описують сигнал в найбільш стислій формі. Очевидно,

ефективність цього етапу визначає ефективність подальшої обробки сигналу

та його розпізнавання. Зрозуміло, що часове подання сигналу є досить

неефективним, оскільки по-перше, не враховує періодичності звуку, по-

друге, з-за великої мінливості мови навіть один і той же звук, виголошений

однією і тією ж людиною, сильно варіюється в його часовому поданні.

Набагато більш інформативним є спектральне представлення

мовлення. Для отримання спектру використовують набір смугових фільтрів,

налаштованих на виділення різних частот, дискретне перетворення Фур'є.

Потім отриманий спектр піддається різним перетворенням, наприклад,

логарифмічна зміна масштабу (як у просторі амплітуд, так і в просторі

частот), згладжування спектра з метою виділення його обвідної. Це дозволяє

врахувати деякі особливості мовного сигналу – зниження інформативності

високочастотних ділянок спектру, логарифмічну чутливість людського вуха

тощо.

Як правило, повний опис мовного сигналу за рахунок тільки його

спектру неможливий. Поряд зі спектральною інформацією, необхідна ще й

інформація про динаміку мови. Отримані таким чином параметри мовного

сигналу вважаються його первинними ознаками і описують сигнал на

подальших рівнях його обробки. Далі розглянемо основні методи отримання

опису первинних параметрів мовних сигналів.

Перетворення Фур'є. Перетворення Фур’є використовується в багатьох

областях науки, в тому числі і в мовних технологіях. В області обробки

мовних сигналів ПФ розглядається як перетворення сигналу s ( t ) з часової

області в частотну область і розкладання його на частотні складові:

{ S (ω )=∫−∞

∞

s (t ) e− jωt dt ,

s (t )= 12π ∫

−∞

∞

S (ω ) e jωt dω .(2.1 )

Для отримання спектральних характеристик дискретних мовних

сигналів застосовується дискретне перетворення Фур'є (ДПФ):

S (k )=∑n=0

N −1

s (n )ej 2πnk

N , (2.2 )

де S (k ) – вектор значень комплексних амплітуд синусоїдальних

сигналів, що формують дослідний сигнал, k – номер гармоніки 0≤ k ≤ N2

−1.

Найчастіше при обробці дискретних мовних сигналів використовують

швидке перетворення Фур'є (ШПФ) – більш ефективний варіант дискретного

перетворення Фур'є за кількістю обчислень.

Для частотно-часового подання дискретних сигналів s (n )

використовують віконне перетворення Фур'є. Цифрові дані зважуються з

віконною функцією w ( n ), яка дорівнює нулю поза інтервалом 0≤ n ≤ N w−1:s (n )=s (n )⋅w (n ) (2.3 )

після чого до s (n ) використовується ШПФ:

S (k )=∑n=0

N−1

s (n )ej 2πnk

N w ,0≤ k ≤N w

2−1. (2.4 )

Для аналізу мови довжина вікна вибирається з урахуванням середньої

довжини періоду основного тону і становить близько 20 мс. Використовують

різні вікна: прямокутне, трикутне вікно Бартлета, вікно Ганна, Блекмана,

Кайзера та ін.

Найбільш часто використовуваним при обробці мови є вікно Хеммінга,

яке забезпечує високу частотну роздільну здатність і зменшує рівень

розмиття спектру.

Побудова спектра з використанням ДПФ дозволяє компактно і наочно

представити інформацію про мовний сигнал. Однак в спектральному вигляді

неможливо детально аналізувати короткочасні локальні особливості, що є

серйозним недоліком ДПФ.

Вейвлет-перетворення. Незважаючи на широку практичну

популярність ПФ, останнім часом багато задач в області обробки мовних

сигналів реалізуються з використанням вейвлет-перетворення (ВП), яке має

ряд переваг:

1) локалізація в часовій і частотній області, що дозволяє робити

ефективний частотно-часовий аналіз нестаціонарних сигналів, прикладом

яких є мова;

2) можливість масштабного перетворення і зсувів (стиск-розтягання

досліджуваного сигналу за допомогою хвильових функцій різної

періодичності);

3) математичний апарат розроблений для локалізації і класифікації

особливих точок сигналу;

4) відмінно відображає динаміку зміни сигналу уздовж «осі

масштабів», локалізацію різномасштабних деталей (спектр мови людини

радикально змінюється в часі, а характер цих змін – дуже важлива

інформація).

Мовний сигнал s (t ) відповідно вейвлет-перетворенню приймає вид:

s (t )=C0φ ( t )+∑j=1

N

∑k=0

2 j−1

C jk ψ jk ( t ) , (2.5 )

де ψ (t ) – деталізуючи функція з нульовим значенням інтеграла,

визначає особливості сигналу і породжує коефіцієнти, що деталізують; φ (t ) –

масштабуюча функція, з одиничним значенням інтеграла, визначає грубе

наближення сигналу і породжує коефіцієнти апроксимації. Функції φ ( t )

властиві лише ортогональним вейвлетам. Функція ψ (t ) задається базисною

функцією ψ0 ( t ), що як і ψ ( t ) визначає тип вейвлета. Базисна функція ψ0 ( t ) як і

функція ψ ( t ) повинна забезпечувати виконання двох операцій:

1) зсув по часовій осі t – ψ0 ( t−b );

2) масштабування – 1√a

ψ0( ta ).

Параметр a задає ширину цієї функції, a b – її положення на часовій осі.

Таким чином для заданих a і b вейвлетом є функція:

ψ ( t )= 1√a

ψ0( t−ba ) . (2.6 )

Таким чином за допомогою дискретних масштабних перетворень 12 j і

зрушень ( k2 j ) можна описати всі частоти і покрити усю вісь, маючи один

базисний вейвлет ψ0 (t ) (рис. 2.2).

Рисунок 2.2 – Представлення сигналові за допомогою масштабування

і зсуву базисного вейвлета

Вейвлет-перетворення може використовуватися як для представлення

сигналів, так і для їхньої фільтрації. Для фільтрації і видалення шумів

звичайно використовують загальновідомий прийом - видалення

високочастотних складових зі спектра сигналу. Щодо вейвлет-перетворення

фільтрацію й очищення від шумів можна здійснювати шляхом обмеження

рівня коефіцієнтів, що деталізують. Тому що короткочасні особливості

сигналу, до яких можна віднести шуми, створюють коефіцієнти, що

деталізують, з високим змістом шумових складових, що мають великі

випадкові викиди значення сигналу, рівень шумів можна зменшити, задавши

деякий поріг, зрізавши коефіцієнти, що деталізують, по їх рівні.

На відміну від перетворення Фур'є, у якому координата x заміняється

на одну частотну перемінну p, у теорії вейвлет-перетворення x заміняється на

дві перемінні a і b . У визначеному змісті b є аналогом координати x, а

параметр a – аналогом зворотної частоти p−1, тобто C ( a ,b ) містить інформацію

про просторові (або часові) і частотні властивості сигналу одночасно. Це і

дозволяє вивчити сигнал більш детально, ніж за допомогою Фур'є-аналізу.

Цифрова фільтрація сигналів мовлення.

Перед тим як з отриманого цифрового мовного сигналу будуть

вилучені ознаки індивідуальності диктора, цей сигнал повинен піддатися

попередній обробці, що змінює його частотний діапазон. Зокрема, необхідно

видалити неінформативні ділянки спектра, що не несуть дікторозалежної

інформації. Наприклад, телефонні канали пропускають частоти від 400 до

3500 Гц, тому поза цим діапазоном розглядати сигнал не має сенсу. Така

операція досить легко здійснюється за допомогою застосування цифрової

фільтрації.

Процес дискретної фільтрації полягає в підсумовування деякої

кількості вхідних та попередніх вихідних відліків:y (k )=b0 x (k )+b1 x (k−1 )+…+bm (k−m )−¿−a1 y (k−1 )−a2 y (k−2 )−…−an y ( k−n ) , (2.7 )

де b i – коефіцієнти вхідних відліків; a i – коефіцієнти вихідних відліків.

В залежності від того, які відліки приймають участь у формування

вихідного значення розрізняють:

– фільтри зі скінченною імпульсною характеристикою або

нерекурсивні фільтри – для розрахунку використовуються лише вхідні

відліки, скорочено позначаються як КІХ-фільтри;

– фільтри з безкінечною імпульсною характеристикою або рекурсивні

фільтри – для розрахунку використовуються як вхідні, так і попередні вихідні

відліки.

Рисунок 2.3 – Типова схема реалізації КІХ-фільтру (а) та БІХ-фільтру (б)

На практиці частіше використовуються БІХ-фільтри, тому що вони

дозволяють отримати той же результат, що і КІХ-фільтри, але з більш

високою ефективністю, тобто при меншому обсязі обчислень, що важливо,

наприклад, для розробки систем реального часу. Головна відмінність БІХ-

фільтрів від КІХ-фільтрів полягає в тому, що неможливо спроектувати

стійкий і фізично реалізований БИХ-фільтр зі строго лінійною ФЧХ.

2.2. Нормалізація рівня сигналів.

При запису мовного сигналу з мікрофона або інших джерел рівень

записуваного сигналу в різних умовах і для різних дикторів може значно

варіюватися. В результаті цього при навчанні еталони дикторів (і навіть

одного і того ж диктора) виявляються різними по амплітуді. Це призводить

до не точного отримання даних про індивідуальність диктора. На стадії

тестування це може призвести до неправильної ідентифікації. Крім того,

можлива зміна амплітуди мовного сигналу в момент запису одного еталону.

Причиною цього, наприклад, може бути зміна відстані між диктором і

мікрофоном в момент запису або зміна фізичних характеристик телефонного

каналу (телефонні канали, особливого аналогові, часто мають нестаціонарні

амплітудно-частотні характеристики). Одним з простих методів нормалізації

рівня сигналу можна вважати нормування по максимальній амплітуді. Нехай

A – це максимальне за модулем значення, яке можна помістити в розрядну

сітку АЦП. Зазвичай використовують 16-бітові АЦП з діапазоном подання

сигналу від −32768 до +32767. Припустимо, що довжина фрагмента мови L

відліків. Тоді обчислюється коефіцієнт нормування:

k=Am

max|S i|,0<m≤ 1. (2.8 )

де Si – i-й відлік, m – рівень нормування. Після обчислення коефіцієнта

k , на нього множаться всі відліки даного фрагмента мови. Перевага даного

методу полягає в його простоті і швидкості реалізації, а також у тому, що

рівень гучності фрагментів мови різних дикторів приводиться до одного

рівня. Крім цього, така нормалізація дозволяє використовувати весь

динамічний діапазон по амплітуді, що в деякій мірі зменшує помилки

округлення при подальшій обробці сигналу. До недоліків можна віднести те,

що при наявності у фрагменті мови, наприклад, сильних одиничних

імпульсних перешкод в якості максимуму буде прийнята амплітуда цієї

перешкоди. Якщо амплітуда цього сплеску значно більше середньої

амплітуди мови, то ефективність такої нормалізації буде невелика. Рішенням

цієї проблеми може служити ігнорування різких сплесків по амплітуді, що

виникають на короткий проміжок часу, а також попередня фільтрація

імпульсних перешкод. Також даний метод не дозволяє нормувати амплітуду

всередині одного фрагмента (наприклад, коли початок фрази записано з

одним рівнем сигналу, а до кінця цей рівень значно змінюється).

Іншим видом нормалізації сигналу є усереднення рівня сигналу на

протязі всієї фрази. Після такої обробки мова на слух буде виглядати

монотонною. Метод полягає в обчисленні короткочасної енергії на певному

короткому фрагменті (виділяється за допомогою вікна) і помноженні відліків

цього фрагмента на коефіцієнт, який отримано при обчисленні енергії та

який приводить середню енергію всієї фрази до єдиного рівня:

E= 1N ∑

i=1

N

|Si|, (2.9 )

де N – розмір вікна. Основним недоліком цього методу є те, що шум в

проміжках між словами оброблюваної фрази посилюється до загального

рівня мовного сигналу. Тому необхідно виділяти ділянки фрази, на яких

немає значущої мови, і не обробляти їх.

Найкращі результати дає використання комбінації цих двох методів.

Спочатку застосовується перший метод, потім другий і потім знову перший,

з урахуванням усіх вищевикладених зауважень. Іншим способом нормалізації

вхідних даних є нормалізація вже виділених ознак, яка буде описана далі.

2.3. Виділення меж фрази.

Проблема виділення початку і кінця фрази є актуальною для багатьох

галузей обробки мови, бо великий відсоток помилок виникає саме внаслідок

неправильного визначення граничних точок. Зазвичай в літературі

розглядаються методи визначення меж фрази, засновані на вимірюванні

енергії і кількості переходів через нуль. Вважається, що перші 100 мс запису

не містять мовної інформації і ця ділянка використовується для обчислення

порогових значень величин. Обробка запису відбувається вікном 20-30 мс.

Якщо виміряна енергія на сегменті більше порогового значення, то можна з

упевненістю сказати, що в цьому сегменті є мова. Однак якщо енергія менше

порогового значення це ще не означає, що в цьому вікні немає мовної

інформації. Шиплячі звуки не володіють великою енергією і являють собою

часті незначні коливання близько нульового рівня. Саме тому, для більш

точного визначення меж фрази використовують число переходів через нуль.

Найчастіше зустрічається наступна схема алгоритму. Починаючи з першого

сегмента, обчислюється рівень енергії в ньому. Якщо він нижче порогового,

то здійснюється перехід на наступний сегмент і обчислюється енергію в

ньому. Якщо ж середній рівень енергії в вікні більше порогового, то процес

йде у зворотному напрямку і порівнюється вже величина середнього числа

переходів через нуль. Як тільки вона стає менше порогового значення,

вважається, що початок фрази знайдено. Аналогічно знаходиться і кінець

фрази.

Підхід 1.

Проблема визначення меж може бути досить просто вирішена, коли

відношення сигнал/шум досить велике (близько 60 дБ), наприклад, коли

запис слів проводиться в звукоізольованій кімнаті з допомогою

високоякісного мікрофона. У цьому випадку енергія звуків мови з

найнижчим рівнем (таких як слабкі фрикативні) перевищує енергію фонового

шуму, тому граничні точки досить легко визначити з допомогою простого

виміру енергії або амплітуди сигналу. Зовсім інша картина спостерігається у

випадку, коли система розпізнавання мовця працює в реальній обстановці, де

відношення сигнал/шум складає 15-20 дБ. Тому розглянемо два алгоритми,

які в сукупності складають детектор визначення початку і кінця мовного

повідомлення.

Алгоритм 1. Цей алгоритм заснований на обчисленні функцій

короткочасної енергії та середньої кількості переходів через нуль.

Передбачається, що протягом перших 100 мс інтервалу введення мовний

сигнал відсутній. На цій ділянці вимірюються статичні характеристики

фонової паузи, що включають в себе середнє значення і дисперсію кількості

переходів через нуль, а також вибирається середнє значення короткочасної

енергії. На підставі цих вимірювань вибирається поріг по кількості переходів

через нуль. Потім обчислюються два енергетичних порога. Для цього

використовується середнє значення короткочасної енергії паузи і

максимального значення короткочасної енергії мовного сигналу, яке на

відміну від значення максимальної енергії, обчислюваного для кожного

нового слова, є фіксованим і задається заздалегідь. Це значно збільшує

швидкодію алгоритму.

Попередня оцінка граничних точок проводиться за енергетичними

порогами з грубим кроком d (де d=10 сегментам тривалістю 10 мс).

Уточнення меж проводиться за допомогою оцінки кількості переходів через

нуль.

Перевага даного алгоритму полягає в простоті і високій швидкості

роботи. Недолік: можливість адаптації до мінливих шумовим умов дуже

мала.

Алгоритм 2. Основні положення цього методу:

1) за мовним сигналом формується кілька імпульсних послідовностей,

які зберігають періодичність вхідного сигналу і не містять інших його

особливостей, непотрібних з точки зору виділення основного тону;

2) обробка припускає використання набору простих виявлячів

основного тону для кожної послідовності;

3) оцінки основного тону кожної послідовності піддаються логічній

обробці для отримання результуючої оцінки періоду основного тону мовного

сигналу.

Алгоритм зручно розділити на чотири операції, пов'язані з обробкою

або з прийняттям рішення:

1) низькочастотна (смугова) фільтрація мовного сигналу;

2) формування шести функцій по екстремумам відфільтрованого

сигналу;

3) отримання на основі значень вищезазначених функцій шести оцінок

висоти тону;

4) прийняття остаточного рішення на основі отриманих оцінок.

Необхідно відзначити, по-перше, мовний сигнал обробляється з метою

отримання сукупності імпульсних послідовностей, які зберігали тільки

періодичність сигналу (або фіксують її відсутність). Через таке спрощення

структури мовного сигналу для отримання хорошої оцінки основного тону

можливе використання дуже простого пристрою оцінювання. І, по-друге,

кілька оцінок основного тону розглядаються в сукупності для підвищення

якості виділення. Таким чином, простота обробки сигналу досягається ціною

збільшення складності логічної частини алгоритму, внаслідок чого швидкість

обробки виявляється високою.

Підхід 2.

У вищеописаного алгоритму є ряд недоліків. Він погано адаптований

до різних умов запису (при зміні рівня сигнал/шум). При обчисленні

порогового рівня числа переходів через нуль, можливі такі ситуації, коли

загальна крива шуму (ділянки, де немає мовного сигналу) проходить поряд з

нульовим рівнем, і тоді, через високу частоту шумових коливань, число

переходів через нуль велике, або ж коли крива проходить вище нульової

позиції, і слабкі шумові коливання не перетинають нульову позначку.

Остання проблема, властива звуковим картам ПК, призводить до проблеми

вибору порогового значення для цієї величини.

На практиці подолати дані недоліки дозволяє наступний метод. Замість

простого значення енергії використовується його логарифм, що значно

знижує залежність результатів від гучності записаної мови. Замість числа

переходів через нуль використовується логарифм середнього квадрата

різниці сусідніх відліків. В такому разі найбільш точні результати можна

отриманти для різниці між значеннями розташованими на відстані в 5

відліків (або 0.5 мс).

2.4. Методи виділення індивідуальних ознак мовлення дикторів.

Мовний сигнал може бути описаний з використанням наступних

методів ознакового опису:

– спектральні методи;

– використання коефіцієнтів лінійного передбачення;

– методи аналізу кепстра.

Кепстральний опис мовних сигналів.

Спектральні методи використовують ознаки, отримані шляхом

обчислення спектра сигналу. Також, крім обчислення спектра сигналу

безпосередньо через ШПФ, використовують його апроксимацію, яка

представляє суму сигналів на виході банку смугових фільтрів. Це пов'язано з

тим, що інформативність різних частин спектра неоднакова: в

низькочастотної області міститься більше інформації ніж в високочастотній.

Тому для запобігання зайвого витрачання ресурсів, необхідно зменшувати

кількість елементів, які отримують інформацію з високочастотної області,

або, що те ж саме, стиснути високочастотну область спектра в просторі

частот. Найбільш поширений метод – логарифмічне стиснення або

приведення до Mel шкали:f mel=1125 lg (0.0016 f +1 ) , (2.10 )

f mel=2595 lg(1+ f7000 ) , (2.11 )

f mel=6 ln( f600+√( f

600 )2

+1) , (2.12 )

де f – частота в спектрі, Гц; f mel – частота у новому просторі, Mel.

Ці шкали подібні до шкали частотного сприйняття людини, і

побудовані на основі психофізіологічних експериментів (рис 2.4).

Рисунок 2.4 – Апроксимація Mel шкали

Зазвичай цю шкалу застосовують в банку фільтрів (рис 2.5) для

усереднення в області Mel шкали. При цьому кожен фільтр в банку має

трикутну смугу пропускання частотної характеристики, а довжина цієї смуги

постійна в Mel шкалі і різна в лінійній шкалі. Смуги пропускання фільтрів в

банку наполовину перекриваються.

Рисунок 2.5 – Банк Mel фільтрів

Алгоритм розрахунку трикутних фільтрів:

1) задається кількість трикутних фільтрів в банку C та дослідний

діапазон частот f low< f < f high;

2) межі діапазону частот переводяться у Mel шкалу (див. (2.10) –

(2.12));

3) розраховуються значення центральних частот (C+2 ) трикутних

фільтрів у Mel шкалі:

f melicentr=f me llow

+if me lhigh

− f mellow

C+1, i=0÷ C+1. (2.13 )

Перший (i=0 ) та останній ( i=C+1 ) реалізовані не будуть, але значення f meli

centr необхідні для подальших розрахунків;

4) значення центральних частот трикутних фільтрів переводяться у

номери спектральних відліків:

K imel=M

F sF ( f meli

centr ) , (2.14 )

де M – кількість спектральних відліків у вікні, F s – частота

дискретизації мовного сигналу;

5) АЧХ i-го фільтру ( i=1÷C ) у банку розраховується наступним чином:

H ik={0 , K<K i−1

mel

K−K i−1mel

K imel−K i−1

mel , K i−1mel ≤ K ≤ K i

mel

K i+1mel−K

K i+1mel−K i

mel , K imel ≤ K ≤ K i+1

mel

0 , K>K i+ 1mel

(2.15 )

За допомогою перемноження вектору квадратів модулів комплексних

амплітуд сигналу, розрахованих за допомогою ДПФ (див. (2.2)), та АЧХ Mel

фільтрів можна отримати енергію мовного сигналу, яка потрапляє у кожний з

Mel частотних діапазонів. Цей набір коефіцієнтів можна назвати Mel

частотними спектральними коефіцієнтами. Застосувавши до цього набору,

наприклад, перетворення Фур’є, можна отримати компактний набір

коефіцієнтів, що досить точно описує індивідуальні параметри мовлення

людини – кепстр або Mel частотні кепстральні коефіцієнти (МFCC). На

практиці для розрахунку кепстру використовують дискретне косинус-

перетоврення (ДКП):

U n=∑i=1

C [ ln(∑j=1

M

H ik Sk2)]cos( πn

C (i−12 )) . (2.16 )

При отриманні МЧКК для задачі ідентифікації диктора зазвичай

береться N=24 трикутних фільтра. При цьому число використовуваних

коефіцієнтів в різних джерелах вказується різним. Найчастіше відкидають:

старші коефіцієнти ДКП, які відображають швидкі зміни (n>16 при N=24) і

перший коефіцієнт ДКП, який дорівнює середньому значенню енергій

мовного сигналу, які потрапляє у кожний з Mel частотних.

Коефіцієнти лінійного передбачення (LPC).

Відповідно до моделі мовотворення (рис. 2.5) в дискретному часі

спектр акустичного сигналу, обумовлений мовним трактом, описується за

допомогою лінійної системи зі змінними параметрами та передавальною

функцією:

H ( z )= S ( z )U ( z )

= G

1−∑k=1

p

α k z−k

. (2.17 )

Ця система збуджується імпульсною послідовністю для вокалізованих

звуків мови та шумом для невокалізованих. Таким чином, модель має

наступні параметри: класифікатор вокалізованих і невокалізованих звуків,

період основного тону для вокалізованих сегментів, коефіцієнт підсилення G

та коефіцієнти {αk } цифрового фільтру. Всі ці параметри повільно змінюються

в часі.

Рисунок 2.5 – Структурна схема спрощеної моделі мовотворення

Для системи, показаної на рис. 2.5, відлік мовного сигналу s (n )

пов'язаний з сигналом збудження u (n ) різницевим рівнянням:

s (n )=∑k=1

p

α k s (n−k )+Gu ( n ) , (2.18 )

причому лінійно передбаченим вважають сигнал:

~s (n )=∑k=1

p

α k s (n−k ) , (2.19 )

де {α1 , α2 ,…α p } – коефіцієнти лінійного передбачення в межах сегмента

мовного сигналу.

Основне завдання аналізу на основі лінійного передбачення полягає в

безпосередньому визначенні параметрів {αk } по мовному сигналу з метою

отримання хороших оцінок його спектральних властивостей. Внаслідок зміни

властивостей мовного сигналу в часі коефіцієнти передбачення повинні

оцінюватися на коротких сегментах мови. Основним підходом є визначення

параметрів передбачення таким чином, щоб мінімізувати енергію похибки

En=[ sn (m )−∑k=1

p

α n sn (m−k )]2

(2.20 )

на короткому сегменті sn (m ) сигналу s (n ) в околі відліку n, тобто

sn (m )=s (n+m ). Межі підсумовування в (2.20) не визначені, але так як

використовується концепція короткочасного аналізу, то ці межі завжди

передбачаються кінцевими..

Параметри {αk } можна отримати, мінімізуючи En в (2.20) шляхом

обчислення похідних δ En

δ α i=0 , i−1,2 ,… p, що призводить до системи рівнянь:

∑m

sn (m−i ) sn (m )=∑k=1

p

α k∑m

sn ( m−i) sn (m−k ), 1≤ i≤ p . (2.21 )

Використовуючи (2.20) і (2.21), можна показати, що середня

квадратична похибка передбачення має вигляд:

En=∑m

sn2 (m )−∑

k=1

p

α k∑m

sn ( m−i) sn (m−k ). (2.22 )

Таким чином, загальна похибка передбачення складається з двох

доданків, один з яких є постійним, а інший – залежить від коефіцієнтів

передбачення.

Залежно від меж підсумовування і вибору сегмента sn (m ) розрізняють

два методи лінійного передбачення: автокореляційний і коваріаційний

методи.

Розглянемо більш докладно автокореляційний метод обчислення

коефіцієнтів лінійного передбачення. Якщо припустити, що сигнал дорівнює

нулю поза інтервалом 0 ≤ m≤ N−1, то можна показати, що функції

f n ( i , k )= ∑m=0

N−1− (i−k )

sn (m ) sn (m+i−k ) , 1≤ i≤ p , 0 ≤k ≤ p (2.23 )

збігаються з короткочасною автокореляційною функцією сигналу,

обчисленою для ( i−k ). Це означає, що f n ( i , k )=Rn (i−k ), де

Rn (k )= ∑m=0

N −1−k

sn ( m) sn (m+k ) . (2.24 )

Оскільки автокореляційна функція Rn (k ) є парною функцією, то:

∑k =1

p

αk Rn (|i−k|)=Rn ( i ) ,i=1,2, … p . (2.25 )

Систему рівнянь (2.23) можна записати в матричній формі:

[ Rn (0 ) ⋯ Rn ( p−1 )⋮ ⋱ ⋮

Rn ( p−1 ) ⋯ Rn (0 ) ][α1

⋮α p

]=[Rn (1 )⋮

Rn ( p ) ] . (2.26 )

Матриця (2.26) розміром p × p є тепліцевою, тобто симетричною і

такою, що елементи на будь-який діагоналі рівні між собою.

Таким чином, можна сформувати алгоритм автокореляційного методу

обчислення коефіцієнтів лінійного передбачення.

1. Розбиття мовного сигналу s (n ), що сформованого N відліками, на M

сегментів s (n+m ), а сегментів – на K кадрів s (n+m+k ).

2. Зважування кадру мовного сигналу віконною функцією Хеммінга

для зменшення похибки передбачення нульових значень по ненульовим:

w km (n )={0.54−0.46 cos( 2πnKN−K ) ,0 ≤ n≤ N

K−1 ;

0 ,0>n> NK

−1.(2.27 )

Зважений кадр має вигляд:skm (n )=s (n+m+k ) w kn (n ) .

3. Розрахунок автокореляційної функції k-го кадру мовного сигналу:

Rkm ( i )= ∑n=0

NK −1−i

skm (n ) skm (n+i ) , i=1÷ M . (2.28 )

4. Розрахунок коефіцієнтів лінійного передбачення {αki }i=1p та

коефіцієнтів підсилення Gk k-го кадру мовного сигналу за допомогою

алгоритму Левінсона-Дарбіна:

4.1. Початкові умови: i=0, α [0 ]=0, E[ 0]=R (0 ).

4.2. Послідовно на i-му (i=1,2 ,… p) кроці ітерації розраховуються

параметри

k i=R (i )−∑

j=1

i−1

α j[i−1 ] R (|i− j|)

E[i−1 ] ,

αi[i ]=k i ,

α j[i ]=α j

[ i−1 ]−k i α i− j[i−1] при1 ≤ j ≤i−1 ,

E[i ]=(1−k i2 ) E[i−1 ] ,

G2=R (0 )−∑j=1

p

α j R ( j ) .

(2.29 )

4.3. З кожним кроком порядок передбачення збільшується на одиницю

до тих пір, поки він не досягне величини p. Остаточне рішення визначається

на p-му кроці співвідношенням:

α i=α i[ p ] . (2.30 )

В теорії лінійного передбачення допоміжні параметри k i прийнято

називати коефіцієнтами відбиття.

3 МЕТОДИ ПРИЙНЯТТЯ РІШЕНЬ

В ЗАДАЧАХ РОЗПІЗНАВАННЯ ДИКТОРІВ

Існують різні методи розпізнавання дикторів, однак, останнім часом

основним став метод порівняння з еталоном. Це пов'язано головним чином з

прогресом в області електронних обчислень та обміну великими об’ємами

даних на відстані. Ідея порівняння з еталоном полягає в наступному. Є набір

еталонних зразків мови, які можуть бути закодовані в часовій або в частотної

області, і які представляють словник для розпізнавання. Саме розпізнавання

відбувається шляхом порівняння нових даних з усіма стандартами і

визначення найбільш підходящого кандидата відповідно до деякої метрики

або за мірою подібності.

При розпізнаванні дикторів шляхом порівняння виникає кілька

проблем, серед яких найбільш значущою є часова зміна характерних мовних

сигналів. Причиною зміни є різна швидкість мовлення одних і тих же звуків,

тобто мінливість тривалості. Навіть одні і ті ж слова, сказані однією і тою ж

людиною, щоразу змінюються по тривалості. Ця проблема пов'язана з

необхідністю підлаштовувати часові інтервали при порівнянні (часова

нормалізація). Відомо багато способів узгодження тривалостей, які сильно

розрізняються за ефективністю та обсягом обчислень. У деяких

використовуються пропуски певних елементів еталона, в деяких дозволені

пропуски елементів дослідної фрази, іноді накладається обмеження на

множину варіантів розтягування реалізації і еталони, що дозволяє врахувати

обмеження на варіації темпу вимовляння слів.

Найпростіший спосіб узгодження тривалостей еталонного елементу і

розпізнаваного мовного сигналу – лінійне порівняння, в результаті якого

сигнал рівномірно стискається або розтягується до величини еталона. Цей

спосіб вимагає невеликого обсягу обчислень, проте не гарантує адекватного

порівняння мовленнєвих відрізків.

У процесі мовотворення тривалість різних фонем змінюється різною

мірою, в більш широких межах для голосних і шиплячих приголосних звуків

і в меншій мірі для проривних та африкат. Таким чином, можна

стверджувати, що деформації темпу носять нелінійний характер.

В [14] запропоновано наступний метод нелінійної нормалізації. На

квазістаціонарних ділянках швидкість зміни параметрів мінімальна і

максимальна на перехідних ділянках. Оскільки темп вимови впливає на

тривалість квазістаціонарних ділянок в більшій мірі, то необхідно

розтягувати перехідні ділянки і стискати стаціонарні, причому ступінь

розтягування можна вибрати виходячи зі швидкості зміни сигналу, що

нормалізується:

τ (t )=∫0

t

(α+ β|δxδθ|)dθ , (3.1 )

Де τ (t ) – масштаб часу; α ,β – постійні коефіцієнти; x (θ ) – сигнал, що

нормалізується. При β=0 маємо лінійне перетворення масштабу часу τ (t )=αt .

Варіюючи відношення α / β можна отримати різний ступінь нелінійності

зміни масштабу часу при нормалізації.

В такому описі швидкість зміни вектора параметрів прагне до

постійної величини, що відображає ефект нормування. Однак, повністю

виключати інформацію про початковий масштаб часу у деяких випадках

недоцільно, оскільки цей масштаб визначається просодичними

(мелодійними) характеристиками, які мають важливе значення при

розпізнаванні неперервного мовлення. Зберегти просодичну інформацію в

нормованому векторі можна ввівши до нього додаткову компоненту –

швидкість зміни масштабу параметрів, що надається в масштабі нелінійного

часового аргументу. Такий метод нормування досить просто реалізується

програмно і апаратно.

Лінійні алгоритми найбільш прості в реалізації і можуть

застосовуватися як для розтягування, так і для стиснення послідовності

мовних характеристик. Існує кілька видів реалізацій цих алгоритмів, але всі

вони ґрунтуються на одному і тому ж підході рівномірного видалення деяких

елементів послідовності для стиснення і рівномірного додавання нових – для

розтягування. Головний недолік цих методів полягає в тому, що при

видаленні або додаванні нових елементів не враховується їх значимість в

мовній послідовності, а це веде до неточного порівняння двох мовних

ділянок.

Найбільш широко для узгодження тривалостей еталонного елементу і

розпізнаваного мовного сигналу використовують метод динамічної

трансформації часу, приховані марківські моделі, векторне квантування,

метод опорних векторів, змішані гаусівські моделі та штучні нейронні

мережі.

3.1. Метод динамічної трансформації часу.

Алгоритм динамічного трансформування часу – Dynamic Time Warping

– або скорочено DTW-алгоритм – обчислює оптимальну послідовність

трансформації часу між двома часовими рядами. Алгоритм обчислює обоє

значення деформації між двома рядами й відстанню між ними.

Припустимо, що в нас є дві послідовності (часові ряди) {a1 , a2 ,…, ak } і

{b1 , b2 ,…,bm }. Як бачимо, довжина двох послідовностей може бути різною.

Алгоритм починається з розрахунків локальних відхилень між елементами

двох послідовностей. Найпоширеніший спосіб для обчислення відхилень є

метод, що розраховує абсолютне відхилення між значеннями двох елементів

(Евклідова відстань). У результаті отримаємо матрицю відхилень D, що має k

рядків і m стовпців з елементами:d ij=|ai−b j|, i=1÷ k , j=1÷ m . (3.2 )

Далі, використовуючи значення матриці D, розраховуємо матрицю

трансформації S, що також має має k рядків і m стовпців, а її елементи

розраховуються за виразом:

{ s11=d11 ;si1=d i 1+s (i−1) 1;s1 j=d1 j+s1 ( j−1) ;

s ij=d ij+min [ s (i−1) 1 , s1 ( j−1) , s (i−1) ( j−1) ] ,i=1 ÷ k , j=1÷ m.

(3.3 )

Шлях трансформації W – це набір суміжних елементів {w1 ,w2 ,… ,wk }

матриці трансформації S, який встановлює відповідність між

послідовностями {a } і {b }, мінімізуючи відстань між ними.

Шлях трансформації повинен задовольняти чотирьом умовам.

1. Гранична умова: початок шляху W – це перший елемент матриці

трансформації w1=s11, а кінець шляху – останній елемент матриці

трансформації w k=skm. Ця умова гарантує, що шлях трансформації містить усі

точки обох часових рядів, що аналізуються.

2. Умова неперервності: будь-які два суміжних елементи шляху

трансформації wq=suv і wq+ 1=su' v' знаходяться за принципом u−u' ≤ 1 та v−v ' ≤1.

Ця умова забезпечує обмеження на один крок при виборі наступного

елемента шляху.

3. Умова монотонності: будь-які два суміжних елементи шляху

трансформації wq=suv і wq−1=su' ' v ' ' знаходяться за принципом u−u' ' ≤ 0 та v−v ' ' ≤ 0.

Ця умова гарантує, що шлях трансформації не має повертатись назад до вже

пройденої точки.

4. Шлях трансформації повинен задовольняти умові мінімальної

вартості:

CW=min(1k |∑

q=1

k

wq|) . (3.4 )

Результати порівняння за допомогою DTW-алгоритму наборів МЧКК

для двох фонем одного диктора та фонем, проголошених різними дикторами,

наведено на рис. 3.1 та 3.2 відповідно. Розрахунки проводились в пакеті

Matlab. Як можна побачити з рис. 3.1, вартість шляху трансформації у

випадку порівняння двох фоенм, що вимовляв один і той же користувач,

досить мала. В той же час вартість шляху трансформації фонем, що

вимовляли різні користувачі, досить велика.

Рисунок 3.1 – Результати порівняння за допомогою DTW-алгоритму

двох часових рядів (парольних слів), що відповідають одному користувачеві

0 5 10 15 20 25 30 350

0.2

0.4

0.6

0.8Original Signals

0 5 10 15 20 25 30 350

5

10

15

20

25

30

35DTW algorithm: the similarity between the sequences X and Y is 0.085714

Рисунок 3.2 – Результати порівняння за допомогою DTW-алгоритму

двох часових рядів (парольних слів),

що відповідають двом різним користувачам

0 5 10 15 20 25 30 350

0.2

0.4

0.6

0.8Original Signals

0 5 10 15 20 25 30 350

5

10

15

20

25

30

35DTW algorithm: the similarity between the sequences X and Y is 0.25714

3.2. Векторне квантування.

Як правило, вектори ознак мовного сигналу розподілені недостатньо

рівномірно в області простору. Виходячи з припущення, що вектори

розташовуються в просторі групами, доцільно відобразити такі групи в

окремі області векторного простору – кластери. Кожен кластер може бути

представлений своїм центроїдом – кодовим вектором. Кодова книга містить

набір кодових слів для одного диктора і представляє його еталонну модель.

На рис. 3.3 показано концептуальну діаграму, що ілюструє цей процес

розпізнавання. Кола відносяться до акустичних векторів першого диктора, а

трикутники – другого. На етапі навчання для кожного диктора створюється

спеціальна кодова книга VQ за допомогою його навчальних акустичних

векторів. Кодові слова результату навчання (центроїди) позначено чорними

колами і чорними трикутниками для першого і другого дикторів відповідно.

Відстань від вектора до найближчого кодового слова кодової книги

називається VQ-спотворенням. В процесі розпізнавання дослідне

проголошення парольної фрази векторно квантується та обчислюється повне

спотворення VQ. Диктор, який відповідає кодовій книзі VQ з найменшим

повним спотворенням, ідентифікується як істинний.

Рисунок 3.3 – Концептуальна діаграма, що ілюструє процес розпізнавання

з використанням кодової книги

Для побудови кодової книги існує поширений алгоритм K-середніх.

Алгоритм K-середніх розбиває вихідну множину на K кластерів, де K —

попередньо задане число. Для цього спочатку значення середніх

ініціалізуються деякими векторами з вихідної множини. Потім на кожній

ітерації алгоритму відбувається розподіл векторів в найближчі до них

кластери (для цього обчислюється відстань між вектором і поточними

значеннями середніх) і перерахунок середнього в кожному кластері.

Алгоритм завершується після того, як на черговій ітерації стани кластерів не

змінилися або по досягненні заданої максимальної кількості ітерацій.

Отримані значення середніх є кодовими векторами, що використовуються

для побудови шаблону.

Припустимо, що необхідно розбити набір навчальних векторів X={x i∨i=1,2 , … L } K кластерів. Нехай через C i (m ) позначається i-й кластер на m-

й ітерації з центроїдом c im. Нехай k – кількість створених кодових векторів.

Формально алгоритм виглядає наступним чином:

1. Створити 1-векторну кодову книгу (k=1). Це центроїд всього набору

навчальних векторів, обчислюється як середнє арифметичне:

c1¿= 1

L∑i=1

L

X i . (3.5 )

Обчислити середнє спотворення всередині єдиного кластера:

DCP¿ =1

L∑i=1

L

d ( xi , c1¿ ) . (3.6 )

Евклідова відстань є найбільш вживаною мірою, що виходить з

принципу фізичної відстані між двома векторами довжини L в просторі:

d ( x , y )=√∑i=1

L

( x i− y i)2 . (3.7 )

2. Подвоїти розмір кодової книги за правилом:

{c i(0 )=c i (1−ε )

c i+k(0 ) =c i (1+ε )

, ∀ i=1,2 ,… k , (3.8 )

де ε=0.01 – параметр розбиття. Присвоїти k=2k.

3. Ітерація. Присвоїти DCP( 0) =DCP

¿ . Встановити лічильник ітерацій m=0.

3.1. Класифікується набір навчальних векторів ознак X={x i∨i=1,2 , … L } по кластерах C i , i=1,2 , …k за допомогою правила

найближчого сусіда: x∈Ci (m ), тоді і тільки тоді, коли

d (x i , ci( m) )≤ d ( x i , c j

(m ) ) (3.9 )

для всіх j ≠ i. Іншими словами, кожен вектор ознак відноситься до того

кластеру, до якого він ближче згідно обраної метрики.

3.2. Виконується корекція центроїдів за наступною формулою:

c i( m+1)=

∑x∈C i

( m)

X

∑x∈C i

(m )

1, ∀ i=1,2 , …k . (3.10 )

3.3. Присвоїти m=m+1.

3.4. Обчислити середню відстань між векторами ознак і відповідним їм

центроїдами:

DCP( m)=1

L∑i=1

L

d ( x i , c1( m) ) , j : xi∈C j (m ) . (3.11 )

3.5. Якщо виконується умова

DCP(m−1 )−DCP

(m )

DCP( m) >ε , (3.12 )

то перейти до кроку 3.1.

3.5. Присвоїти DCP(¿ ) =DCP

(m ).

3.6. Присвоїти c i¿=c i

(m ) ,∀ i=1,2 , …k – набір результуючих кодових

векторів.

4. Якщо k<K , перейти до кроку 2, в інакшому випадку завершити

розрахунки.

3.3. Змішані гаусівські моделі.

На початку 2000-х років змішані гаусівські моделі (GMM – Gauss

Mixture Models) стали домінуючим підходом для моделювання систем

текстово-незалежного розпізнавання диктора. В задачах розпізнавання

диктора GMM використовуються, в якості багатовимірних загально-

імовірнісних моделей густин розподілів, здатних представляти довільні

густини, що робить їх придатними до застосування в текстово-незалежних

системах розпізнавання. Модель GMM представляє собою зважену суму M

компонент:

p ( x∨λ )=∑i=1

M

ωi pi (x ) , (3.13 )

де λ – модель диктора, ωi – коефіцієнти ваги компонентів моделі, pi ( x ) –

функція густини розподілу складових моделі.

Кожний компонент представляє собою D-мірну гаусівську густину

розподілу:

p ( x )= 1(2 π ) D/ 2|R i|

1/2 exp {−12 ( x−μ i )

T ( Ri )−1 ( x−μi )}, (3.14 )

де D – розмірність простору ознак, μi – вектор математичного

сподівання, Ri – коваріаційна матриця розмірністю D × D.

Таким чином, для побудови моделі диктора необхідно визначити

вектори середніх, матриці коваріації та вагові коефіцієнти компонентів.

Найчастіше для оцінювання параметрів суміші використовується метод

максимуму правдоподібності або метод максимуму апостеріорної

ймовірності. Зазвичай задається фіксоване число компонент суміші – від 256

до 2048, а головні вісі компонент спрямовані уздовж координатних осей

простору ознак (рис. 3.4.). Це пов'язано з великим об’ємом обчислень, для

скорочення яких використовується діагональна матриця коваріацій.

Розглянемо ЕМ алгоритм розрахунку параметрів суміші. На вхід

подається навчальна послідовність векторів X={x1 , x2 , … xT }. Параметри моделі

ініціалізуються початковими значеннями і потім на кожній ітерації

алгоритму відбувається переоцінка параметрів.

Рисунок 3.4 – Ілюстрація класифікації дикторів

за допомогою змішаної гаусівської моделі

Для визначення початкових параметрів, як правило, використовують

алгоритм K-середніх. Після розбиття множини навчальних векторів на M

кластерів відбувається ініціалізація параметрів: початкові значення μi

збігаються з центрами кластерів, матриці коваріації розраховуються на

основі потрапивших в даний кластер векторів, вагові коефіцієнти

компонентів визначаються часткою векторів даного кластера у порівнянні з

загальною кількістю навчальних векторів. Суть EM-алгоритму в наступному:

1. Обчислити апостеріорні ймовірності:

p (i∨x t , λ )=ωi pi ( x t )

∑k =1

M

ωk pk ( xt ). (3.15 )

2. Обчислити нові параметри моделі:

ωi=1T ∑

t=1

T

p (i∨x t , λ ) , (3.16 )

μi=∑t=1

T

p (i∨x t , λ ) x t

∑t=1

T

p (i∨x t , λ ), (3.17 )

Ri=∑t=1

T

p (i∨x t , λ ) ( x t−μi ) ( x t−μi )T

∑t=1

T

p (i∨x t , λ ). (3.18 )

3. Кроки 1 і 2 повторюються до узгодження параметрів моделі.

3.4. Метод опорних векторів.

В основі методу опорних векторів (SVM – support vector machine)

лежить алгоритм максимізації деякої математичної функції відносно

наявного набору даних. Основними ключовими поняттями методу SVM є: –

відділяюча гіперплощина; гіперплощина максимальної межі; м’яка межа та

функція ядра.

Відділяюча гіперплощина є математичною сутністю, що відділяє між

собою класи об’єктів з однаковими ознаками. Наприклад, так як це показано

на рис. 3.5, де у тривимірному просторі площина відділяє кульки світлого

кольору від темних кульок. Спосіб, яким можна провести відділяючу

гіперплощину за методом SVM, не є унікальним. Завжди існує багато різних

можливостей розташування гіперплощини (рис. 3.6). Метод SVM

відрізняється від інших гіперплощинних методів класифікації тим, що він

дозволяє обирати оптимальне розташування гіперплощини. Гіперплощина

обирається таким чином, щоб бути розташованою на максимальній відстані

від елементів кожного з класів, тобто посередині деякої зони, що відділяє між

собою ці елементи (на рис. 3.7 граничні елементи заретушовані). В цьому

полягає сутність другого ключового поняття – гіперплощина максимальної

межі.

Об’єкти, що класифікуються, не завжди можуть бути розділені

гіперплощиною. У реальних системах будуть наявними похибки в даних,

внаслідок яких гіперплощина не виконає розподіл абсолютно точно

(рис. 3.8). Тому для роботи методу SVM вводять допустиму похибку

класифікації, що називається м’якою межею.

Рисунок 3.5 – Приклад

відділяючої площини

Рисунок 3.6 – Можливі варіанти

розташування гіперплощини

у двохвимірному просторі

Рисунок 3.7 – Розташування

гіперплощини максимальної межі

Рисунок 3.8 – Можливі похибки

під час класифікації об’єктів

Об’єкти, що класифікуються, можуть бути поділені лінійно лише в

окремих випадках. Здебільшого вони не є такими, що допускають лінійне

розподілення. Для вирішення проблеми лінійного розподілення

використовують функції ядра, що проектують дані з низьковимірного

простору у багатовимірний. При вірному виборі функції ядра об’єкти можуть

бути розділені лінійно гіперплощиною у багатовимірному просторі. Цю

операцію називають спрямленням простору або мапінгом даних (рис. 3.9).

Мапінг даних позначається Φ і виконує відображення даних із

вихідного гіперпростору Rd до евклідового простору ℵ : Φ=Rd →ℵ . Логіка

такого розподілення ілюструється рис. 3.10.

Рисунок 3.9 – Приклад

мапінгу даних

Рисунок 3.10 – Ілюстрація до

застосування Φ ( x ) до вихідних даних

3.5. Приховані марківські моделі.

Математичний апарат прихованих марківських моделей (ПММ) являє

собою універсальний інструмент опису стохастичних процесів, для роботи з

якими не існує точних математичних моделей, а їх властивості змінюються з

плином часу згідно з деякими статистичними законами.

В основі прихованої марківської моделі лежить кінцевий автомат, що

складається з N станів, які називаються прихованими. Переходи між станами

в кожний дискретний момент часу t не є детермінованими, а відбуваються

згідно з імовірнісним законом і описуються матрицею ймовірностей

переходів ANN. Схематичне зображення діаграми переходів між станами

ПММ наведено на рис. 3.11.

Рисунок 3.11 – Структурна схема переходів в ПММ

Знаходження моделі в деякому стані i відповідає певній стаціонарності

спостережуваного сигналу на обмеженому часовому інтервалі. З'являється

проста фізична інтерпретація ПММ: розглядається процес, який іноді

стрибкоподібно змінює свої характеристики.

При здійсненні чергового переходу в новий стан i в момент часу t

відбувається генерація вихідного вектора x t, званого параметричним

вектором, відповідно до багатовимірної функцією розподілу ймовірностей

f j(x ) (див. (3.13)). Результатом роботи прихованої марківської моделі є

послідовність векторів (спостережень) {x1 , x2 ,... , xT } довжиною T .

Робота з прихованими марківськими моделями здійснюється в два

етапи: по-перше, навчання – визначення параметрів моделі; по-друге,

декодування – визначення ймовірності того, що спостережувана

послідовність векторів {x1 , x2 ,... , xT } була згенерована даною моделлю.

Процес навчання прихованої марківської моделі полягає у визначенні

за допомогою набору навчальних зразків наступних параметрів: матриці

ймовірностей переходів між станами ANN; параметрів гаусівських сумішей

(математичне очікування, матриця коваріації і вагові коефіцієнти) для

кожного стану. Для вирішення цих задач спільно застосовуються два

ітераційних алгоритму: forward-backward і Baum-Welch re-estemation.

В алгоритмі forward-backward вводяться дві функції: прямого

поширення ймовірності a j (t ) і зворотного β j ( t ).

Значення величини a j ( t ) являє собою ймовірність спостереження

послідовності векторів {x1 , x2 ,... , x t } і знаходження ПММ в стані j у момент

часу t:a j ( t )=p ( x1 , x2 , …x t∨stat et= j ) . (3.19 )

Величини a j ( t ) і a j ( t−1 ) пов'язані ітераційним виразом:

a j (t )=[∑i=2

N −1

ai ( t−1 ) A ij] f j ( x t ) , (3.20 )

де Aij – ймовірність переходу із стану i в стан j; f j ( x t ) – ймовірність

спостереження вектора x t в стані j.

Зворотна функція β j ( t ) являє собою ймовірність знаходження ПММ в

стані j у момент часу t з подальшим аналізом послідовності {x1 , x2 ,... , xT }:β j ( t )= p ( xt−1 , x t+2 , xT∨stat e t= j ) . (3.21 )

Величини β j (t ) і β j ( t+1 ) пов'язані аналогічним чином:

β j ( t )=∑i=2

N −1

A ij f i ( x t−1 ) β i ( t+1 ) . (3.22 )

Величини a j (t ) і β j ( t ) дозволяють визначити ймовірність знаходження

ПММ в стані j у момент часу t при спостереженні послідовності {x1 , x2 ,... , x t }:

L j (t )= 1P

a j (t ) β j (t ) , (3.23 )

де P=aN (T ) – загальна ймовірність спостереження послідовності {x1 , x2 ,... , xt } даної ПММ.

Алгоритм Баума-Велча (Baum-Welch re-estemation) на черговому кроці

навчання дозволяє, використовуючи вищенаведені формули, зробити

переоцінку параметрів моделі (3.14).

Нехай є Q навчальних зразків, тоді ймовірність переходу із стану i в

стан j визначається як:

~A ij=∑q=1

Q 1Pq

∑t=1

T q−1

aiq ( t ) A ij f j (x t+1

q ) β jq (t +1 )

∑q=1

Q 1Pq

∑t=1

Tq

aiq ( t ) β j

q (t ). (3.24 )

Для кожного стану j і для кожної компоненти гаусівської суміші m

математичне сподівання, матриця коваріації і вагові коефіцієнти

визначаються наступними виразами:

μ jm=∑q=1

Q

∑t=1

Tq

L jmq (t ) xt

q

∑q=1

Q

∑t=1

T q

L jmq (t )

, (3.25 )

σ jm=∑q=1

Q

∑t=1

T q

L jmq (t ) x t

q− μ jm ( xtq− μ jm)T

∑q=1

Q

∑t=1

Tq

L jmq ( t )

, (3.26 )

ω jm=∑q=1

Q

∑t=1

Tq

σ jm

∑q=1

Q

∑t=1

T q

L jmq ( t )

. (3.27 )

При практичній роботі з прихованими марківськими моделями

доводиться вирішувати ряд ключових задач: 1) вибір системи параметричних

векторів, наприклад, коефіцієнтів MFCC; 2) розробка алгоритму нормалізації

параметричних векторів; 3) вибір кількості станів моделі N і числа компонент

гаусом суміші M ; 4) первісна сегментація навчальних векторів для

знаходження наближених значень математичних сподівань гаусівських

сумішей на початковому етапі навчання.

Необхідно зауважити, що немає універсального алгоритму визначення

перерахованих вище параметрів і в кожному конкретному випадку, в

залежності від розв'язуваної задачі, може знадобитися проведення величезної

кількості експериментів, перш ніж будуть досягнуті необхідні результати

точності розпізнавання.

Декодування прихованої марківської моделі. Процес декодування

ПММ дозволяє визначити наскільки ймовірним є те, що спостережувана

вхідна послідовність векторів {x1 , x2 ,... , x t } могла бути згенерована даною

моделлю, і відповідну найбільш ймовірний ланцюжок станів. Для вирішення

даної задачі застосовується алгоритм максимуму правдоподібності (Вітербі).

Послідовність дій на одному кроці декодування зображена на рис. 3.12.

Рисунок 3.12 – Алгоритм декодування Вітербі

3.6. Штучні нейронні мережі.

Штучна нейронна мережа (ШНМ) – це математична модель, основною

частиною якої є штучний нейрон, що здійснює нелінійне перетворення F

суми добутків вхідних сигналів на вагові коефіцієнти (рис. 3.13):

y=F (∑i=1

n

wi xi)=F (S )=F (W X T ) , (3.28 )

де W =(w 1,w 2,…w n ) – вектор вагових коефіцієнтів, X=( x1 , x2 ,… xn ) – вектор

вхідних сигналів, S=∑i=1

n

wi x i – зважена сума, F – оператор нелінійного

перетворення або функція активації.

Рисунок 3.13 – Схема штучного нейрону

В якості оператора нелінійного перетворення можуть виступати різні

функції, які вибираються відповідно до поточної задачі та типу ШНМ.

Найбільш часто використовуваними є функції активації:

– лінійна y=kS;

– порогова y=sign (S )={1 , S>00 , S≤ 0

або { 1 , S>0−1 , S ≤0 ;

– сигмоїдна y=( 1+e−aS )−1, де a – параметр, що визначає ширину функції

по вісі абсцис.

В багатошаровій нейронній мережі нейрони розміщені по шарам. В

найпростішому випадку у ШНМ існує вхідний шар, інформація з якого

передається на вихідний шар. Така ШНМ називається одношаровою

(рис. 3.14). Як можна побачити з топології мережі на рис. 3.14, сигнали

передаються в одному напрямку – в входу на вихід – це є типовим для

нейронних мереж прямого розповсюдження.

Кожен вхід x i одношарової ШНМ з’єднано з кожним нейроном єдиного

шару. Вихід j-го нейронного елементу розраховується за формулою:

y j=F(∑i=1

n

wij xi) , (3.29 )

де w ij – ваговий коефіцієнт між i-м входом та j-м виходом. Таким

чином, вагові коефіцієнти ШНМ можна представити у вигляді матриці

розмірністю n × m, де n – кількість входів мережі, m – кількість нейронів:

W =[ w11 ⋯ w 1 m

⋮ ⋱ ⋮wn 1 ⋯ wnm

] . (3.30 )

Однією з основних задач при використанні нейронних мереж є підбір

вагових коефіцієнтів. Для цієї мети існують правила навчання нейронних

мереж, які визначають як змінюються значення вагових коефіцієнтів в

залежності від вхідних сигналів. Для одношарових нейронних мереж

використовуються правила навчання Хебба, персептрон Розенблатта та

Відроу-Хоффа.

Рисунок 3.14 – Одношарова ШНМ прямого розповсюдження

Топологія багатошарової НС представлена на рис. 3.15. Я якості

функцій активації у всіх нейронних елементах зазвичай використовується

сігмоїдна функція, бо вона є монотонною і всюди диференціюється. У зв'язку

з появою як мінімум ще одного шару, введені раніше величини змінюються:

y j=F ( S j ), де y j – вихід j-го нейрона вихідного шару, S j – зважена сума j-

го нейрона;

S j=∑i=1

n j

w ij y i−T j, де w ij – ваговий коефіцієнт зв'язку i-го нейрону

прихованого шару та j-им нейроном вихідного шару, T j – поріг j-го

нейронного елемента вихідного шару.

Рисунок 3.15 – Топологія багатошарової штучної нейронної мережі

Для навчання багатошарових НС використовується алгоритм

зворотного поширення помилки, який мінімізує середньоквадратичну

помилку ШНМ, використовуючи для цього метод градієнтного спуску в

просторі порогів і вагових коефіцієнтів. В процесі роботи алгоритму можна

виділити дві фази: фаза прямого поширення вхідного сигналу (вхідний образ

подається на вхід мережі і обчислюється вихідна активність ШНМ) і фаза

зворотного поширення сигналу (по мережі, в зворотному напрямку

поширюється помилка – відхилення отриманого виходу від еталонного

значення для даного вхідного образу). В процесі навчання розраховуються

«правильні» значення порогів та вагових коефіцієнтів.

Існує тип мереж, які не потребують попереднього навчання. Такі

мережі називаються само організаційними та підлаштовують свої вагові

коефіцієнти безпосередньо про час роботи. На практиці найбільше

поширення отримали мережі Кохонена. У загальному випадку вони

представляють собою двошарову нейронну мережу, в якій вхідний n-мірний

простір розбивають на m областей (кластерів), кожній з яких відповідає один

нейронний елемент, тобто ШНМ Кохонена складається з n нейронів вхідного

шару і m нейронів вихідного шару.

4 ЕКСПЕРИМЕНТАЛЬНЕ ДОСЛІДЖЕННЯ ЕФЕКТИВНОСТІ

МЕТОДІВ ВИДІЛЕННЯ АКУСТИЧНИХ ПАРАМЕТРІВ МОВЛЕННЯ

ДЛЯ ЗАДАЧ БІОМЕТРИЧНОЇ ІДЕНТИФІКАЦІЇ

4.1. Отримання первинних голосових характеристик.

Першим етапом для голосової ідентифікації особистості є запис

первинних голосових сигналів дикторів. Оскільки в більшості сучасних задач

ідентифікації диктора використовуються записи голосів, отримані на

вбудовані в смартфони / планшети мікрофони, то в якості апаратної частини

системи ідентифікації особистості за голосом було вирішено

використовувати комплекс програмно-технічних пристроїв, блок-схема якого

зображена на рис. 4.1. Ця блок-схема включає в себе: смартфон з

операційною системою Android; програмне забезпечення для попередньої

обробки мовних сигналів – Audacity; програмне забезпечення для

параметризації мовних сигналів та класифікації дикторів – Matlab. Параметри

цифрового мовного сигналу: розрядність відліків – 16 біт, частота

дискретизації – 44.1 кГц, формат зберігання даних – mp3.

Рисунок 4.1 – Програмно-апаратний комплекс для проведення досліджень

Типові сигнали амплітудно-часової залежності мовних сигналів s (t )

зображені на рис. 4.2 при різній гучності, а на рис. 4.3 при різних темпах

мовлення (зображені записи одного диктора, який вимовляв слово «вісім»

три рази). Рис. 4.2, а відноситься до запису з відносно високою гучністю, а

рис. 4.2, б – з гучністю в два рази нижче (при однаковому темпі мови). На

рис. 4.3, а темп мови вище, тобто слово вимовлялося швидше, ніж на

рис. 4.3, б (при однаковій гучності). Як можна побачити з графіків на

рис. 4.2-4.3, вхідні дані залежать від амплітуди і тривалості сигналу (темпу

мови).

а б

Рисунок 4.2 – Мовні сигнали одного диктора

зі звичайною гучністю (а) та низькою гучністю (б)

а б

Рисунок 4.3 – Мовні сигнали одного диктора

зі звичайним темпом (а) та повільним темпом (б)

Ідентифікація диктора залежить від виду голосу абонента, перш за все

– від його частотних характеристик, сукупність яких визначає тембр голосу.

Як приклад на рис. 2.10 наведені записи голосів диктора 1 (рис. 4.4, а) і

диктора 2 (рис. 4.4, б).

Рисунок 4.4 – Приклади мовних сигналів диктора 1 (а) та диктора 2 (б)

Для вирішення задачі ідентифікації особистості основним є аналіз

індивідуального частотного спектра голосових сигналів. У такій постановці

перші два фактори (амплітуда і тривалість сигналу) є випадковими і від них

потрібно позбавитися. Для цього всі сигнали приводилися до однієї

амплітуди, тобто проводилося нормування по амплітуді:

a inorm=

ai

amax, (4.1 )

де a i – вимірювана амплітуда, amax – максимальна амплітуда, a inorm –

нормована амплітуда, i=0,1 , ... , k.

Для того, щоб позбутися від другого фактору (темпу мови)

проводилося нормування за часом. Врахування другого фактору проводився

програмним шляхом з використанням однакового числа відліків.

Безпосередньо аналізувалися амплітудно-частотні характеристики у

вигляді спектра записаного звукового сигналу. Частотні спектри мали вигляд

залежності амплітуди від частоти. Спектри розраховувалися за допомогою

стандартної функції голосових сигналів програмного середовища MatLab.

Типові спектри і нормований спектр за амплітудою і часом зображені на

рис. 4.5 для одного диктора з різними гучністю і темпом мови. На рис. 4.5, а

та рис. 4.5, б порівнюються спектральні подання сигналів з різними рівнями

гучності. На рис. 4.5, а та рис. 4.5, в порівнюються спектральні подання

сигналів з різними темпами мовлення. На рис. 4.5, г зображено спектральне

подання нормоване за амплітудою і часом.

а б

в г

Рисунок 4.5 – Спектри мовних сигналів одного диктора

зі звичайною гучністю (а), повільною гучністю (б),

повільним темпом мовлення (в), нормований спектр (г)

Рисунок 4.6 – Приклад обробки мовного сигналу

медіанним фільтром третього порядку

В процесі запису мовних сигналів в реальних умовах відбувається

накладання на корисний сигнал випадкових факторів, що включають

зовнішні механічні шуми та апаратні завади. Для їх придушення

використовувалася медіанна фільтрація, яка полягала у виключенні з

вхідного сигналу викидів. Обробка проводилась в середовищі Matlab з

використанням медіанного фільтра третього порядку (рис. 4.6).

4.2. Вибір інформативних ознак мовних сигналів.

Для застосування методів аналізу багатовимірних даних до задачі

ідентифікації особистості за голосом необхідно вибрати відповідні

характеристики, які виконують роль описових ознак. Однією з основних

вимог до цих ознак є максимальна інформативність, що має забезпечити

ефективність результату розпізнавання дикторів.

Відсутність в даний час чіткої систематизації ознак мовних сигналів, а

також існування великої кількості акустичних характеристик різного рівня,

наприклад, таких, як основний тон, формантні частоти, розподіл енергії за

частотою тощо, представляє певну складність у виборі найбільш

інформативних ознак і характеристик для конкретного методу ідентифікації і

вимагає окремого дослідження. Наразі можна виділити мінімум чотири групи

ознак, які дозволяють розрізняти мовні сигнали: амплітудно-частотні,

спектрально-часові, кепстральні та ознаки нелінійної динаміки.

Різниця в тембрах голосів описується різними частотними спектрами

мовних сигналів. Природним математичним апаратом для аналізу частотного

спектра є Фур'є-розкладання. Однак Фур'є-розкладання мало ефективно

розділює голоси дикторів, оскільки відмінність між ними визначається

набором вищих гармонік, внесок яких відносно малий і на яких позначаються

випадкові спотворення сигналу.

Більш кращим для задачі розпізнавання дикторів представляється

використання розкладання, що підсилює відносну роль особливостей мовних

сигналів, пов'язаних з вищими гармоніками, і нівелює внесок випадкових

спотворень. В якості такого розкладання може бути використано кепстральне

розкладання, що враховує нелінійні властивості людського слуху.

В роботі було використано наступні набори інформативних ознак.

1. Нормований енергетичний спектр:

Ak=|S (k )|2[∑i=0

N−1

|S ( i )|2]−1

. ( 4.2 )

де

S (k )=∑n=0

N−1

s (n )e− j 2 πnk

N , k=0,1, … N .

2. Функція, що характеризує зміну енергії сигналу за частотою:

Bk=(∑i=0

N −1

|S ( i )|2)(∑i=0

N −1

|S (i )|2−∑i=0

k

|S (i )|2)−1

. (4.3 )

3. Mel частотні кепстральні коефіцієнти:

C (n )=∑m=0

M−1

ln(∑i=0

N−1

|S (i )|2 H (m ,i ))cos( πn ( m+0.5 )M ) , ( 4.4 )

де H (m, i ) – АЧХ трикутного Mel фільтру

H (m, i )={0 ,i< f m−1

mel

i−f m−1mel

f mmel−f m−1

mel , f m−1mel ≤i ≤ f m

mel

f m+1mel −i

f m+1mel −f m

mel , f mmel ≤ i≤ f m+1

mel

0 , i>f m+1mel

, (4.5 )

частоти для котрої визначаються за виразом:

f mmel=f low

mel+mf high

mel −f lowmel

M +1, (4.6 )

f mel=1127 ln(1+ f700 ) . (4.7 )

4. Коефіцієнти лінійного передбачення Di, що розраховуються за

ітераціним алгоритмом Дарбіна:

1) мовний сигнал s (n ), що сформований N відліками, розбивається на M

сегментів s (n+m ), а M сегментів – на K кадрів s (n+m+k );

2) кожен кадр мовного сигналу зважується віконною функцією

Хеммінга для зменшення похибки передбачення нульових значень по

ненульовим:

w km (n )={0.54−0.46 cos( 2 πnKN−K ) ,0 ≤ n ≤ N

K−1 ;

0 ,0>n> NK

−1.( 4.8 )

Зважений кадр має вигляд:skm (n )=s (n+m+k ) wkn (n ) ;

3) розраховується автокореляційна функція k-го кадру мовного

сигналу:

Rkm (i )= ∑n=0

NK −1−i

skm (n ) skm (n+i ) , i=1 ÷ M ; (4.9 )

4) розраховуються коефіцієнти лінійного передбачення {Dki }i=1p k-го

кадру мовного сигналу за допомогою наступного алгоритму:

4.1) початкові умови: i=0, D [0 ]=0, E[ 0]=R (0 );

4.2) послідовно на i-му (i=1,2 , … p) кроці ітерації розраховуються

параметри

K i=R (i )−∑

j=1

i−1

D j[ i−1 ] R (|i− j|)

E [i−1] ,

Di[i]=K i ,

D j[i ]=D j

[i−1 ]−K i Di− j[i−1 ] при 1≤ j≤ i−1

E [i ]=(1−K i2 ) E[ i−1 ] ;

(4.10 )

4.3) з кожним кроком порядок передбачення збільшується на одиницю

до тих пір, поки він не досягне величини p. Остаточне рішення визначається

на p-му кроці співвідношенням:

Di=Di[ p] . ( 4.11)

5. Коефіцієнти відбиття K i коефіцієнтів лінійного передбачення,

отримані в процесі розрахунку коефіцієнтів лінійного передбачення.

6. Нормована автокореляційна функція коефіцієнтів лінійного

передбачення:

r (n )=∑j=0

p−n

a j a j+n

∑j=0

p

a j2

. ( 4.12 )

7. Нормована автокореляційна функція мовного сигналу:

R (n )=∑n=0

N−1−n

s ( j ) s (n+ j )

∑j=0

N−1

s ( j )2. ( 4.13 )

8. Нормований згладжений енергетичний спектр мовного сигналу:

G (k )=W 2 ( k )[∑i=0

k

W 2 (i )]−1

,

W (k )=R (0 )−∑

k=1

p

ak R ( k )

r (0 )−∑n=1

p

r (n ) cos (2 πnkN )

. (4.14 )

4.3. Алгоритм формування профілю користувача та його

аутентифікації.

1. Формування профілю користувача починається з накопичення

інформативних ознак мовних сигналів – розрахунку коефіцієнтів для

кожного з восьми наборів інформативних ознак.

2. На етапі формування біоеталону користувача (участь у експерименті

брали 5 студентів) останньому пропонується L промовити парольну фразу. В

нашому випадку парольна фраза – слово «захист», кількість проголошень –

10.

2.1. Формується Q=30= 6 !(6−2 )! пар векторів першого набору

інформативних ознак.

2.2. За допомогою DTW-алгоритму розраховуються вартості шляху

трансформації CW , на основі яких розраховується поріг аутентифікації за

першим набором інформативних ознак:

{так , якщоC W АУТЕНТ( 1) ≤ 0,75C W max

(1 ) ;ні , якщо C W АУТЕНТ

( 1) ≥ 0,75C W max(1 ) .

(4.15 )

2.3. Формується еталонний вектор інформативних ознак Δ1et, причому

такий, що забезпечує мінімальний інтегральний шлях трансформації по усіх

можливих парах:

Δ1et=min

i=1÷6(∑j=1

6

C W ij(1 )) . ( 4.16 )

2.4. Аналогічно до кроків 2.1 – 2.3 розраховуються пороги

аутентифікації для другого – восьмого наборів інформативних ознак та

формуються еталонні вектори Δ2et−Δ8

et.

3. На етапі аутентифікації на основі останніх 4 проголошених

парольних фраз було сформовано 32 біометричних вектори (по чотири для

кожного набору інформативних ознак). Далі за допомогою DTW-алгоритму

ці вектори порівнювались з еталонними Δ1et−Δ8

et шляхом розрахунку вартості

шляху трансформації.

Результати проведених досліджень наведено в табл. 4.1, де приведено

ймовірності аутентифікації диктора за парольною фразою «захист» та

фонемам «а» і «х». Проведене дослідження дозволяє зробити висновок, що з

досліджуваних наборів ознак при ідентифікації диктора по одній фонемі

найбільш ефективними є MFCC. Для тональних фонем (в даному випадку

«а») ймовірність ідентифікації склала 0.85. Для шумоподібних фонем (в

даному випадку «х») ймовірність ідентифікації – 0.8. Ефективність ознак при

ідентифікації диктора по слову «захист» вище, ніж по фонем. При цьому

кращі результати показують MFCC і коефіцієнти відображення КЛП

(ймовірність ідентифікації – 0.9).

Таблиця 4.1 – Результати експериментального дослідження наборів ознак,

використовуваних при ідентифікації диктора

Набір інформативнихознак

Слово«захист»

Фонема«а»

Фонема«х»

Нормованийенергетичний спектр 0.8 0.7 0.15

Функція, що характеризує зміну енергії сигналу за частотою 0.85 0.7 0.15

Mel частотні кепстральнікоефіцієнти 0.9 0.85 0.8

Коефіцієнти лінійногопередбачення 0.8 0.3 0.6

Коефіцієнти відбиттякоефіцієнтів лінійного

передбачення0.9 0.65 0.8

Нормована автокореляційнафункція коефіцієнтів лінійного

передбачення0.8 0.3 0.6

Нормована автокореляційнафункція мовного сигналу 0.7 0.45 0.25

Нормований згладженийенергетичний спектр

мовного сигналу0.55 0.15 0.25

ВИСНОВКИ

Важливим елементом захисту інформації є захист від

несанкціонованого доступу до ресурсів інформаційних систем шляхом

контролю доступу. Аналіз сучасних систем контролю доступу свідчить про

очевидний рух у бік біометричних систем, адже такий вид розпізнавання є

зручним і надійним у плані аналізу відповідності контрольного

біометричного вектору конкретному користувачеві. Серед усього

різноманіття методів біометричної ідентифікації особливе місце займає

голосова, основною перевагою якої є широкий спектр використання за

відсутності, як правило, вимог до застосування спеціального обладнання.

Голосова ідентифікація використовується в задачах забезпечення безпеки

(контроль за фізичним доступом в приміщення, доступ до баз даних,

обчислювальних систем і ПК, контроль над транспортними засобами) та в

задачах інформаційної безпеки телекомунікаційних каналів, наприклад, для

випадку отримання балансу банківського рахунку, підтвердження грошових

транзакцій або оплати послуг тощо.

У атестаційній роботі вирішена актуальна задача дослідження

ефективності методів виділення акустичних параметрів мовлення для задач

біометричної ідентифікації, що дозволяє підвищити достовірність зазначеної

процедури. На підставі проведених досліджень можна сформульовати

наступні висновки.

1. Проаналізовано основні проблеми створення систем ідентифікації

дикторів. Розглянуто індивідуальні особливості голосу, основні шляхи

параметризації мовного сигналу, способи прийняття рішень, основні

принципи організації системи розпізнавання дикторів.

2. Розглянуто методи параметризації мовних сигналів, засновані на

часовому, спектральному та спектрально-часовому описі: перетворення

Фур’є, ве’влет-перетворення, кепстр, модель лінійного передбачення та

автокореляційна функція мовного сигналу.

3. Розглянуто основні моделі систем прийняття рішень в задачі

розпізнавання дикторів: приховані марківські моделі, векторне квантування,

метод опорних векторів, змішані гаусівські моделі та штучні нейронні

мережі. Одним з найбільш ефективних є використання систем порівняння з

еталонами на основі використання алгоритму динамічної трансформації часу

– DTW.

4. У програмному середовищі MATLAB був змодельований процес

ідентифікації диктора за допомогою DTW-алгоритму для восьми наборів

інформаційних ознак мовних сигналів. У випадку ідентифікації диктора по

одній фонемі найбільш ефективними є Mel частотні кепстральні коефіцієнти.

Для тональних фонем (для фонеми «а») ймовірність ідентифікації склала

0.85. Для шумоподібних фонем (для фонеми «х») ймовірність ідентифікації –

0.8. Ефективність ознак при ідентифікації диктора за парольним словом

«захист» вище, ніж за окремими фонемами. При цьому кращі результати

показують Mel частотні кепстральні коефіцієнти та коефіцієнти

відображення коефіцієнтів лінійного передбачення (ймовірність

ідентифікації – 0.9).

ПЕРЕЛІК ДЖЕРЕЛ ПОСИЛАННЯ

1. Алимурадов, А. К. Параметры и классификация систем

распознавания речи / А. К. Алимурадов // Модели, системы, сети в

экономике, технике, природе и обществе. – 2013. – № 1 (9). – С. 79–84.

2. Сорокин В.Н., Цыплихин А.И. Верификация диктора по

спектрально-временным параметрам речевого сигнала // Информационные

процессы. 2010. Т. 10, № 2. С. 87-104.

3. Лобанов, Б. М. Анализ и синтез речи: сб. науч. тр. / Б. М. Лобанов. –

Минск: АН БССР, 1991. – 47 с.

4. Винцюк, Т. К. Анализ, распознавание и интерпретация речевых

сигналов / Т. К. Винтюк. – Киев : Наукова думка, 1987. – 264 с.

5. Фролов, А. В. Синтез и распознавание речи. Современные решения /

Г. В. Фролов. – М.: Связь, 2003. – 216 с.

6. Рабинер, Л. Р. Цифровая обработка речевых сигналов : пер. с англ. /

Л. Р. Рабинер, Р. В. Шафер. – М. : Радио и связь, 1981. – 496 с.

7. Михайлов, В. Г. Измерение параметров речи / В. Г. Михайлов, Л. В.

Златоусова ; под ред. М. А. Сапожникова. – М.: Радио и связь, 1987. – 168 с.

8. Методы автоматического распознавания речи: в 2 кн.: пер. с англ. /

У. А. Ли, Э. П. Нейбург, Т. Б. Мартин [и др.]; под ред. У. Ли. – М.: Мир,

1983. – Кн. 1. – 328 с.

9. Методы автоматического распознавания речи: в 2 кн.: пер. с англ. /

Д. Х. Клетт, Дж. А. Барнет, М. И. Бернстейн [и др.]; под ред. У. Ли. – М.:

Мир, 1983. – Кн. 2. – 392 с.

10. Huang, X. Spoken Language Processing. Guide to Algorithms and Sys-

tem Developmen / X. Huang, A. Acero, H.-W. Hon. – Prentice Hall, 2001. – 980

p.

11.Сергиенко, А. Б. Цифровая обработка сигналов / А. Б. Сергиенко. –

СПб.: Питер, 2002. – 608 с.

12. Huang, N. E. The empirical mode decomposition and the Hilbert spec-

trum for nonlinear and non-stationary time series analysis / N. E. Huang, Shen

Zheng, R. L. Steven // Proceedings of the Royal Society of London A. – 1998. –

Vol. 454. – P. 903–995.

13. Tychkov, A. Yu. The software solutions of the problems of the biomedi-

cal information processing / A. Yu. Tychkov // Модели, системы, сети в

экономике, технике, природе и обществе. – 2013. – № (5). – С. 114–116.

14. Huang E. Huang. Hilbert-Huang Transform and its application. Interdis-

ciplinary mathematical sciences / Huang E. Huang, Samuel S. P. Shen // Interdisci-

plinary Mathematical Sciences. Book 5. World Scientific Publishing Company. –

Sep. 2005. – 324 p.

15. Козлов, А. С. Кепстральный анализ в задачах слепой оценки

скорости передачи цифровых данных / А. С. Козлов, В. Н. Малышев //

Радиотехника. – 2012. – № 7. – С. 67–71.

16. Любимов, А. Линейное предсказание речи – это просто / А.

Любимов, М. Евсиков // Монитор. – 1995. – № 4. – С. 30–35.

17. Баскаков, С. И. Радиотехнические цепи и сигналы / С. И. Баскаков.

– М.: Высш. шк., 2001. – 214 с.

18. Изучение методов анализа и обработки сигналов: учеб. пособие : в

2 ч. Ч. 1. Современные методы обработки речевых сигналов / П. П. Чураков,

А. Ю. Тычков, А. К. Алимурадов. – Пенза: Изд-во ПГУ, 2014. – 72 с.

19. Огнев, И. В. Распознавание речи методами скрытых марковских

моделей в ассоциативной осцилляторной среде / И. В. Огнев, П. А.

Парамонов // Известия высших учебных заведений. Поволжский регион.

Технические науки. – 2013. – № 3 (27). – С. 115–126.

Documents

openarchive.nure.ua · Web view2020. 3. 11. · В роботі проаналізовано основні проблеми створення систем ідентифікації