ZAAWANSOWANE ZAGADNIENIA ELEKTRONIKIakustyka.pwr.wroc.pl/pdf/studia-ii-stopnia-eta/Zagadnienia... · –rozkład interwałów czasowych parametry wyznaczone z widma sygnału mowy:

ZAAWANSOWANE

ZAGADNIENIA ELEKTRONIKI

Rozpoznawanie

mówców, fonoskopia

dr inż. Stefan Brachmański

pok.505 C-5

E-mail:

[email protected]

mailto:[email protected]

Etapy rozpoznawanie mówcy

Identyfikacja

Weryfikacja

Autentyzacja

Weryfikacja

W trakcie weryfikacji jest podejmowana decyzja, czy

badana wypowiedź należy do mówcy o deklarowanej tożsamości.

Kryterium podjęcia decyzji to miara podobieństwa wypowiedzi

do modelu mówcy o deklarowanej tożsamości, zarejestrowanego

w systemie. Wynikiem tego procesu jest akceptacja bądź

odrzucenie przez system deklarowanej przez użytkownika

tożsamości. W przypadku dużego podobieństwa pomiędzy

modelem mówcy a badanym głosem zostaje podjęta decyzja o

akceptacji i system – uznając, że badana osoba jest tym, za kogo

się podaje – umożliwia jej dostęp do miejsc zastrzeżonych dla

zarejestrowanych użytkowników.

Identyfikacja

W procesie identyfikacji tożsamość nie jest wstępnie deklarowana, a

mówca, którego głos podlega badaniu, może być już uprzednio

zarejestrowany w systemie bądź jest kimś zupełnie nieznanym dla systemu

rozpoznającego. Podczas identyfikacji w zbiorze zamkniętym zakłada się, iż

dostęp do systemu mają wyłącznie osoby, których modele głosów zostały

wcześniej stworzone w systemie. System rozpoznający podejmuje wówczas

decyzję typu 1 z N, gdzie N stanowi liczbę zarejestrowanych użytkowników.

Gdy założenie to nie jest prawdą, następuje identyfikacja w zbiorze

otwartym. Wtedy dodatkowo należy rozważyć, czy podobieństwo cech

wypowiedzi nieznanego mówcy do cech jednego z modeli mówców

zarejestrowanych w systemie jest na tyle duże, że można podjąć decyzję o

zidentyfikowaniu osoby czy też uznać wypowiedź jako nie należącą do

żadnego z mówców zarejestrowanych w systemie. W drugiej z opisanych

sytuacji system może podjąć decyzję o odrzuceniu mówcy bądź też jego

zarejestrowaniu.

Autentyzacja

Ostatnią z procedur realizowanych przez systemy rozpoznawania

mówców jest autentyzacja. Polega ona na ustaleniu, czy wypowiedź należy

do jednego z mówców wcześniej zarejestrowanych w systemie czy też nie.

Systemy rozpoznawania mówców są dzielone na zależne od tekstu

(text dependent) oraz niezależne od tekstu (text independent). Zależność od

tekstu oznacza, iż w trakcie próby rozpoznania system wymaga, aby osoba

rozpoznawana wypowiedziała słowo lub słowa, które znalazły się w

sekwencji uczącej, wykorzystywanej do stworzenia modelu mówcy. Jeżeli

natomiast w wypowiedzi, na podstawie której osoba jest identyfikowana,

mogą znaleźć się dowolne słowa, to mówimy o systemach niezależnych od

tekstu.

Ogólna struktura systemów

rozpoznawania mówców

W każdym systemie rozpoznawania mówców można wyróżnić

kilka głównych elementów składowych. Sygnał akustyczny, po

spróbkowaniu i podziale na segmenty (ramki) o długości do

kilkudziesięciu milisekund, jest poddawany operacjom

matematycznym, mającym na celu ekstrakcję parametrów (feature

extraction), które w możliwie największym stopniu przenoszą

informację osobniczą, identyfikującą mówcę.

Mała liczba parametrów:

• szybciej wykonywane obliczenia

• pogorszenie własności systemu

Duża liczba parametrów:

• rośnie liczba niezbędnych obliczeń, a

tym samym czas ich wykonania

• wzrasta lecz nie w sposób znaczący

efektywności rozpoznawania

Parametry

ekstrahowane z sygnału mowy

powinny w możliwie jak

największym stopniu

przenosić informacje

charakterystyczne dla mówcy.

Dobór ich właściwego

zestawu jest jednym z

najpoważniejszych zadań,

warunkujących wysoką

efektywność rozpoznawania.

Schemat blokowy systemu

identyfikacji mówców

Identyfikacja

Identyfikacja w zbiorze otwartym - polega na wprowadzeniu

pewnego progu, którego przekroczenie pozwala ustalić, czy osoba

rozpoznawana jest już w systemie, czy jest to ktoś zupełnie nowy

dla układu rozpoznającego

Identyfikacja w zbiorze zamkniętym - sposób identyfikacji jest

właściwy tylko w przypadku identyfikacji w zbiorze, w którym

dostęp do systemu mają jedynie osoby zarejestrowane w systemie –

czyli zostaje wybrany ten model, dla którego prawdopodobieństwo

wygenerowania zarejestrowanej wypowiedzi jest największe.

Parametry wyodrębnione z wypowiedzi osoby rozpoznawanej tworzą

ciąg wielowymiarowych wektorów, zwanych sekwencją testową.

Identyfikacja osoby polega na obliczeniu podobieństwa pomiędzy

sekwencją testową, a wszystkimi modelami mówców. Osoba zostaje

rozpoznana jako ta, dla której sumaryczna odległość pomiędzy jej

modelem a ciągiem testowym jest najmniejsza

W przypadku weryfikacji obliczenie podobieństwa modelu

do ciągu testowego wykonuje się tylko dla modelu mówcy, którego

tożsamość jest deklarowana. W odróżnieniu jednak od identyfikacji

w zbiorze zamkniętym istnieje konieczność określenia dla każdego z

mówców wartości progu, po przekroczeniu którego zostaje podjęta

decyzja o akceptacji bądź odrzuceniu użytkownika.

Weryfikacja

Dodatkową cechą odróżniającą identyfikację od weryfikacji jest

wpływ populacji mówców na efektywność działania systemu

rozpoznającego. W przypadku identyfikacji – ze wzrostem liczby

zarejestrowanych mówców czyli klas, rośnie monotonicznie

prawdopodobieństwo błędnej klasyfikacji, podczas gdy w przypadku

weryfikacji jest ono praktycznie stałe.

Parametry fizyczne systemu rozpoznawania

mówcy

Zasadniczym czynnikiem, który wpływa na efektywność systemu

rozpoznawania głosów, jest wybór najlepszych mierzalnych wielkości

fizycznych sygnału mowy związanych z rozpoznawanymi klasami.

Efektywność systemu rozpoznawania mówcy zależy w dużej mierze od tego,

w jakim stopniu badane parametry fizyczne sygnału mowy będą odpowiadały

za przenoszenie cech osobniczych mówcy. Najważniejsze cechy, jakimi

powinny charakteryzować się te parametry, to ich duża odporność na zmiany

sygnału mowy mówcy w czasie czyli tzw. niska zmienność wewnątrz

osobnicza oraz wysoka zmienność międzyosobnicza. Parametry o tych

własnościach umożliwiają, mimo nieuchronnych zmian głosu mówcy w

czasie, poprawne zidentyfikowanie tego głosu wśród innych mówców. Do

wielkości oraz parametrów fizycznych sygnału mowy najczęściej stosowanych

w procesie automatycznego rozpoznawania mówcy należy zaliczyć:

parametry wyznaczone bezpośrednio z przebiegu czasowego`

– względne długości czasu wypowiedzi poszczególnych elementów fonetycznych

– obwiednia czasowa amplitudy dźwięku

– parametry analizy przejść przez zero sygnału mowy

– rozkład interwałów czasowych

parametry wyznaczone z widma sygnału mowy:

– uśrednione widmo amplitudowe

– częstotliwość podstawowa tonu krtaniowego

– częstotliwości, stosunki amplitudowe oraz szerokości pasm formantów

– widmo krótkoterminowe

– momenty widmowe

parametry liniowego kodowania predykcyjnego (LPC)

inne, jak np. charakterystyki prozodyczne

Weryfikacja mówcy – etap uczenia

Ekstrakcja

cech

Cyfrowa

akwizycja

sygnału

Fala dźwiękowa

(mowa) mówcy„A”

Mówca „A”

N wypowiedzi

Wektory

cech

N wymiarowe

wektory cech Rejestracja

modelu

Osoba znana:

„Mówcą jest „A””

Model mówcy

”A”

Mowa

cyfrowa

Kanał transmisyjny sygnału

Metody rozpoznawania mówców

Po otrzymaniu ciągu wektorów testowych ekstrahowanych z wypowiedzimówcy należy obliczyć jego podobieństwo do znajdującego się w systemiemodelu (weryfikacja) bądź modeli mówców (identyfikacja). Pozostaje pytanie,jak obliczyć to podobieństwo i skąd uzyskać model mówcy. Metodyrozpoznawania można podzielić na dwie grupy, a mianowicie oparte namodelach nieparametrycznych i parametrycznych mówcy.

Modele nieparametryczne

Jednym z algorytmów nieparametrycznych jest metoda, w której

model mówcy stanowią wszystkie wektory uzyskane z sekwencji treningowej.

Ponieważ w przypadku rozpoznawania niezależnego od tekstu mówca musi

dostarczyć wypowiedzi o czasie trwania rzędu kilkudziesięciu sekund, to jasne

się staje, że model uzyskany na podstawie tej metody będzie stanowić zbiór

wielu tysięcy wielowymiarowych wektorów.

Rozpoznanie osoby polega na znalezieniu dla każdego wektora z

sekwencji testowej najbardziej podobnego wektora z modelu, tzw.

Najbliższego sąsiada NN (nearest neighbour) i obliczeniu pomiędzy nimi

odległości. Sumaryczna odległość dla całej sekwencji testowej unormowana

względem jej czasu trwania, stanowi miarę podobieństwa wypowiedzi do

danego modelu i stanowi podstawę do podjęcia decyzji o identyfikacji bądź

weryfikacji mówcy.

Modele parametryczne

Innym sposobem modelowania mówcy jest zastosowanie

modeli parametrycznych, w których wynikiem rozpoznania jest

prawdopodobieństwo, że dana wypowiedź została wygenerowana

przez określoną osobę. Grupa tych algorytmów znajduje się obecnie

w centrum uwagi badaczy, zajmujących się tematyką

rozpoznawania mówcy, ze względu na bardzo dużą efektywność

rozpoznawania.

Istnieje również wiele innych metod rozpoznawania

mówców, jak choćby opartych na modelach kowariancyjnych,

ergodycznych ukrytych łańcuchach Markowa (HMM) lub też

różnego rodzaju modyfikacjach kwantyzacji wektorowej.

Zastosowanie technik identyfikacji osób - Fonoskopia

Co to są badania fonoskopijne?

Fonoskopia (gr. phone - dźwięk, skopeo - patrzę) jest działem badań

kryminalistycznych, który zajmuje się:

- badaniem utrwalonej mowy,

- identyfikacją osób biorących udział w nagraniu,

- ustaleniem liczby osób biorących udział w nagraniu,

- wnioskowaniem o osobowości, pochodzeniu i cechach charakterystycznych NN

osób na podstawie analizy mowy ciągłej, jego stanie emocjonalnym, chorobach i

zaburzeniach narządu mowy

- badanie wpływu alkoholu, leków, narkotyków i innych środków odurzających na

mowę,

- odsłuchem treści nagrań intensywnie zakłóconych i zniekształconych,

- badaniem autentyczności dowodowych nagrań,

- identyfikacją urządzeń do rejestracji i transmisji,

- badaniem warunków akustyczno-technicznych nagrania,

- określeniem czasu i miejsca zdarzenia.

Autentyczność zapisu

Aby sąd uznał nagranie za dowód konieczne jest wykazanie jego

autentyczności. Badanie autentyczności nagrania polega na ocenie

integralności zapisu całego zdarzenia (np. rozmowy) przy

uwzględnieniu takich zjawisk zachodzących w trakcie nagrania,

na które potencjalny fałszerz nie mógł mieć wpływu.

W tym celu bada się m.in.: treść rozmowy, linię intonacyjną

zarejestrowanych słów, fraz, zdań oraz bada się ciągłość sygnałów

wynikającą z psychofizjologicznego procesu mówienia, kontekstu

sytuacyjnego, warunków akustycznych oraz jakości urządzeń

rejestrujących (a w pewnych przypadkach także przekazujących

dźwięk). Po wykonaniu badania autentyczności zapisu możemy

odpowiedzieć sobie na następujące pytania:

Autentyczność zapisu

• czy zapisano całą rozmowę czy tylko jej fragmenty;

• czy po nagraniu nic z niego nie usunięto (np. fragmenty zdań,

słowa);

• czy nie zmieniono kolejności wypowiedzi;

• jeśli zmontowano dane nagranie to czy z jednej, czy też kilku

innych rozmów;

• czy nagranie lub nagrania zarejestrowano na tym samych

sprzęcie i w tych samych warunkach akustycznych.

Stenogram

Czas sporządzania stenogramu waha się od 1 – 2 godz. dla

każdej minuty nagrania; czas ten uzależniony jest od

jakości nagrania oraz ilości osób biorących udział w

nagranej rozmowie i sposobie jej prowadzenia (jeżeli

występują jednoczesne wypowiedzi kilku osób, wypowiedzi

zagłuszone są szumem lub innymi zakłóceniami,

sporządzenie stenogramu z 1 min nagrania może

przekroczyć czasami nawet 2 godzin pracy biegłego).

Rys historyczny

Rozpoznawanie osób na podstawie ich głosu znane jest

od bardzo dawna. Pierwszy przypadek rozpoznania

osoby na podstawie głosu, jest opisany w Biblii, a

dotyczy sytuacji wymuszenia podstępem ojcowskiego

błogosławieństwa. Niewidomy Izaak rozpoznał głos

swego syna Jakuba przebranego za Ezawa.

(„Zbliżył się tedy Jakub do Izaaka, ojca swego, który

dotknął się go, i rzekł: Głos jest głosem Jakuba ale ręce są

rękami Ezawa”, Księga Rodzaju (Genesis), 27.22).

Rys historyczny

Historycznie po raz pierwszy

dla potrzeb sądownictwa

mówcę na podstawie głosu

rozpoznano w Anglii w r. 1660.

W USA w 1907 r. rozpoznano głos

gwałciciela na podstawie dwóch

zdań wypowiedzianych w sądzie.

Rys historyczny

Bardzo spektakularnym przypadkiem było

rozpoznanie przez słynnego pilota Lindbergha,

głosu mordercy swego syna. Syn Lindbergha

został porwany 1 marca 1932r. Porywacz zażądał

50000$, a negocjacje prowadzone były listownie

oraz poprzez ogłoszenia w lokalnej gazecie.

Charles Lindbergh

Bruno Richard

Hauptmann (stracony

03.04.1936r. w Trenton)

Rys historyczny

W nocy 2 kwietnia 1932 Lindbergh wraz z

negocjatorem pojechali na cmentarz, aby

przekazać okup. Lindbergh siedząc w aucie nie

widział porywacza lecz słyszał jak ten wołał

negocjatora słowami „Here, Doctor. Over here!

Over here!”.

Charles Lindbergh

Bruno Richard

Hauptmann (stracony

03.04.1936r. w Trenton)

Rys historyczny

Pięć tygodni później znaleziono zwłoki syna Lindberga.

Policja aresztowała Brunona Hauptmana podejrzanego

o porwanie i morderstwo. W toczącym się śledztwie, we

wrześniu 1934r czyli 29 miesięcy po usłyszeniu słów na

cmentarzu, Lindbergh ponownie je usłyszał, tym razem

Charles Lindbergh

Bruno Richard

Hauptmann (stracony

03.04.1936r. w Trenton)

powtórzone przez Hauptmana. Lindbergh rozpoznał głos Hauptmana jako

głos z cmentarza. Na rozprawie sądowej w styczniu 1935 roku zeznał pod

przysięgą, że rozpoznał głos Hauptmana.

Rys historyczny

W Polsce badania fonoskopijne mają swój

początek w 1961 roku kiedy to Sąd

Najwyższy w ogłoszonym wyroku orzekł,

że „taśma magnetofonowa z

zarejestrowanym na niej przebiegiem całości

lub poszczególnych fragmentów

postępowania przygotowawczego, czy też

rozprawy, ma charakter dokumentu.

W 1963 roku Sąd Najwyższy wydał

orzeczenie, w którym ostatecznie zawarł

rozstrzygnięcie, że „dowód z taśmy

magnetofonowej stanowi dowód rzeczowy”.

Metody identyfikacji

1. Metoda Kersta - metoda identyfikacji głosu opracowana przez Lawrence’a G.

Kersta, fizyka z Bell Laboratories; dokładność identyfikacji tą metodą według

autora sięga 99 %, a według jego uczniów od 90 do 98%. Według metody Kersta

można identyfikować wyłącznie analogiczne słowa, zwroty lub zdania, które

zostały zarejestrowane odpowiednio w dobrych warunkach akustycznych i w

szerokim paśmie częstotliwości, a nagrania nie są zakłócone i zniekształcone.

2. Metoda polska oparta na analizie cech mowy. Uwzględnia ona właściwości

lingwistyczne, fonematyczne i akustyczne mowy. Analizuje nie tylko barwę głosu,

ale też zależności pomiędzy jego brzmieniem a środowiskiem społecznym osoby

wypowiadającej się czy przebytymi przez tę osobę chorobami.

3. Metoda audytywno-spektralna. Pierwszym etapem są analizy wypowiedzi,

dokonywane pod kątem językowym, pod kątem sposobu mówienia czy też

analizy treści. Badając sposób mówienia zwraca się baczną uwagę na akcent,

intonację, tempo mówienia. Drugi etap polega na porównaniu obrazów

wypowiedzi czyli odwzorowań graficznych, wizualnych sygnału wypowiedzi; są

to najczęściej spektrogramy otrzymane na podstawie analizy spektograficznej

określonej frazy, jednakowej dla wszystkich badanych głosów

Materiał porównawczy

Materiałem porównawczym do badań fonoskopijnych jest próbka głosu pobrana i

zarejestrowana od osoby podejrzanej. Pobrania próbki głosu dokonać powinien

ekspert, albo pracownik operacyjny lub dochodzeniowo-śledczy specjalnie

przeszkolony, używający magnetofonu możliwie najwyższej klasy. Nagranie

powinno być dokonane w specjalnym studio, lub wyjątkowo w specjalnie

przygotowanym wyciszonym pokoju.

Z uwagi na potrzebę precyzyjności badań istnieje szereg zasad, którymi w swojej

pracy powinien kierować się rzetelny biegły z zakresu fonoskopii. Wypowiedź

dowodowa i porównawcza powinny być do siebie podobne pod względem:

- objętości, treści i formy;

- struktury syntaktyczno-stylistycznej,

- tempa mówienia.

Próbka głosu powinna być pobrana we wszystkich możliwych natężeniach siły głosu

(normalne natężenie, szept, głos podniesiony). Ważne jest by część wypowiedzi miała

charakter spontaniczny i naturalny.

„Dzień dobry”

Analiza tła

Analiza tła

Analiza tła

Analiza tła

18:30

Documents

ZAAWANSOWANE ZAGADNIENIA ELEKTRONIKIakustyka.pwr.wroc.pl/pdf/studia-ii-stopnia-eta/Zagadnienia... · –rozkład interwałów czasowych parametry wyznaczone z widma sygnału mowy: