40
Biometryczna Identyfikacja Tożsamości Biometryczna Identyfikacja Tożsamości Wyklad 6: Biometria glosu Adam Czajka Wyklad na Wydziale Elektroniki i Technik Informacyjnych Politechniki Warszawskiej Semestr zimowy 2015/16 c Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 1/39

Biometryczna Identyfikacja Tożsamościzbum.ia.pw.edu.pl/PL/dydaktyka/BIT/PUBLIC/ZIMA... · Wstępne przetwarzanie sygnałów mowy 2. Detekcja głosu i podział na segmenty 1.Detekcja

  • Upload
    hatram

  • View
    220

  • Download
    2

Embed Size (px)

Citation preview

Page 1: Biometryczna Identyfikacja Tożsamościzbum.ia.pw.edu.pl/PL/dydaktyka/BIT/PUBLIC/ZIMA... · Wstępne przetwarzanie sygnałów mowy 2. Detekcja głosu i podział na segmenty 1.Detekcja

Biometryczna Identyfikacja Tożsamości

Biometryczna Identyfikacja TożsamościWykład 6: Biometria głosu

Adam Czajka

Wykład na Wydziale Elektroniki i Technik InformacyjnychPolitechniki Warszawskiej

Semestr zimowy 2015/16

c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 1/39

Page 2: Biometryczna Identyfikacja Tożsamościzbum.ia.pw.edu.pl/PL/dydaktyka/BIT/PUBLIC/ZIMA... · Wstępne przetwarzanie sygnałów mowy 2. Detekcja głosu i podział na segmenty 1.Detekcja

Biometryczna Identyfikacja Tożsamości

Wykład 6: Biometria głosu

Przetwarzanie mowyRysunek: Adam Czajka, maj 2009

c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 2/39

Page 3: Biometryczna Identyfikacja Tożsamościzbum.ia.pw.edu.pl/PL/dydaktyka/BIT/PUBLIC/ZIMA... · Wstępne przetwarzanie sygnałów mowy 2. Detekcja głosu i podział na segmenty 1.Detekcja

Biometryczna Identyfikacja Tożsamości

Wykład 6: Biometria głosu

Przetwarzanie mowyRysunek: Adam Czajka, maj 2009

c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 3/39

Page 4: Biometryczna Identyfikacja Tożsamościzbum.ia.pw.edu.pl/PL/dydaktyka/BIT/PUBLIC/ZIMA... · Wstępne przetwarzanie sygnałów mowy 2. Detekcja głosu i podział na segmenty 1.Detekcja

Biometryczna Identyfikacja Tożsamości

Wykład 6: Biometria głosu

Krótka historia

1. 1960, Gunnar Fant, Szwecja• pierwszy model procesu wytwarzania mowy (na bazie zdjęć

rentgenowskich w trakcie mówienia)

2. 1970, Joseph Perkell, MIT, USA• uszczegółowienie modeli – ruchome zdjęcia rentgenowskie

3. 1967–1985, IBM ResearchLaboratory, San Jose, USA

• TASS-II/III(1961-67/1967–70)dwudźwięki

• TASS-IV(1980–1985)synteza mowy

c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 4/39

Page 5: Biometryczna Identyfikacja Tożsamościzbum.ia.pw.edu.pl/PL/dydaktyka/BIT/PUBLIC/ZIMA... · Wstępne przetwarzanie sygnałów mowy 2. Detekcja głosu i podział na segmenty 1.Detekcja

Biometryczna Identyfikacja Tożsamości

Wykład 6: Biometria głosu

Krótka historia

4. 1977, Texas Instruments, MITRE, US Air Force, USA• prototyp pierwszego systemu rozpoznawania mówiącego• testy na bazie pomiarów od 209 osób

5. 1977, Matsimi Suzuki, Fuji Xerox, Japonia• pierwszy opis (i patent) automatycznego systemu

rozpoznawania mówiącego

c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 5/39

Page 6: Biometryczna Identyfikacja Tożsamościzbum.ia.pw.edu.pl/PL/dydaktyka/BIT/PUBLIC/ZIMA... · Wstępne przetwarzanie sygnałów mowy 2. Detekcja głosu i podział na segmenty 1.Detekcja

Biometryczna Identyfikacja Tożsamości

Wykład 6: Biometria głosu

Warianty metody

1. Ustalonej treści (ang. fixed-text)• rejestracja i uwierzytelnianie na podstawie tego samego,

ustalonego tekstu (hasła)• tekst może być jednocześnie hasłem• łatwość oszustwa po nagraniu/skopiowaniu tekstu

2. Zależne od treści (ang. text-dependent, lub fixed-phrase)• uwierzytelnianie na podstawie tekstu podanego przez system

(np. odczytanie cyfr w zadanej kolejności)• łatwość oszustwa po nagraniu/skopiowaniu części tekstu

wystarczających do złożenia całej wypowiedzi

c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 6/39

Page 7: Biometryczna Identyfikacja Tożsamościzbum.ia.pw.edu.pl/PL/dydaktyka/BIT/PUBLIC/ZIMA... · Wstępne przetwarzanie sygnałów mowy 2. Detekcja głosu i podział na segmenty 1.Detekcja

Biometryczna Identyfikacja Tożsamości

Wykład 6: Biometria głosu

Warianty metody

3. Niezależne od treści (ang. text-independent, lubunconstrained-phrase)

• wybór tekstu pozostawiany użytkownikowi• oszustwo wymaga konstrukcji syntezatora mowy dla danego

użytkownika

4. Konwersacyjne (ang. conversational)• ukrywanie tajnej treści w wypowiedziach – analiza

semantyczna treści• łączenie rozpoznawania mówiącego z rozpoznawaniem mowy• oszustwo wymaga konstrukcji syntezatora mowy dla danego

użytkownika oraz znajomości tajnych treści

c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 7/39

Page 8: Biometryczna Identyfikacja Tożsamościzbum.ia.pw.edu.pl/PL/dydaktyka/BIT/PUBLIC/ZIMA... · Wstępne przetwarzanie sygnałów mowy 2. Detekcja głosu i podział na segmenty 1.Detekcja

Biometryczna Identyfikacja Tożsamości

Wykład 6: Biometria głosu

Wstępne przetwarzanie sygnałów mowy

Wykład 6: Biometria głosuWstępne przetwarzanie sygnałów mowyWyznaczanie cech biometrycznych na podstawie mowy

c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 8/39

Page 9: Biometryczna Identyfikacja Tożsamościzbum.ia.pw.edu.pl/PL/dydaktyka/BIT/PUBLIC/ZIMA... · Wstępne przetwarzanie sygnałów mowy 2. Detekcja głosu i podział na segmenty 1.Detekcja

Biometryczna Identyfikacja Tożsamości

Wykład 6: Biometria głosu

Wstępne przetwarzanie sygnałów mowy

1. Filtracja

1. Filtr preemfazy• filtry o skończonej odpowiedzi impulsowej

(ang. Finite Impulse Response, FIR)

s′n =

N−1∑k=0

aksn−k, n = 0, . . . , N − 1

2. Najczęściej FIR pierwszego rzędu: a0 = 1, a1 ∈ 〈−1,−0.9〉,an = 0 dla n > 1

c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 9/39

Page 10: Biometryczna Identyfikacja Tożsamościzbum.ia.pw.edu.pl/PL/dydaktyka/BIT/PUBLIC/ZIMA... · Wstępne przetwarzanie sygnałów mowy 2. Detekcja głosu i podział na segmenty 1.Detekcja

Biometryczna Identyfikacja Tożsamości

Wykład 6: Biometria głosu

Wstępne przetwarzanie sygnałów mowy

2. Detekcja głosu i podział na segmenty

1. Detekcja granic cisza-mowa-cisza, detekcja części dźwięcznychi bezdźwięcznych

2. Podział sygnału na L bloków o długości K (z możliwościąnakładania się bloków)

s′′k;l = s′k+Ml, k = 0, . . . ,K − 1, l = 0, . . . , L− 1

gdzie M = K gdy bloki nie nakładają się, lub M 6= K wpozostałych przypadkach.

c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 10/39

Page 11: Biometryczna Identyfikacja Tożsamościzbum.ia.pw.edu.pl/PL/dydaktyka/BIT/PUBLIC/ZIMA... · Wstępne przetwarzanie sygnałów mowy 2. Detekcja głosu i podział na segmenty 1.Detekcja

Biometryczna Identyfikacja Tożsamości

Wykład 6: Biometria głosu

Wstępne przetwarzanie sygnałów mowy

3. Minimalizacja nieciągłości na granicy bloków

Okienkowanie sygnału:

s′′k;l = s′′k;lwk, l = 0, . . . , L− 1

gdzie

wk = α− (1− α) cos(2πk

K

)jest rodziną funkcji okna oraz α ∈ (0, 1)

α = 0.5: okno Hannaα = 0.54: okno Hamminga

c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 11/39

Page 12: Biometryczna Identyfikacja Tożsamościzbum.ia.pw.edu.pl/PL/dydaktyka/BIT/PUBLIC/ZIMA... · Wstępne przetwarzanie sygnałów mowy 2. Detekcja głosu i podział na segmenty 1.Detekcja

Biometryczna Identyfikacja Tożsamości

Wykład 6: Biometria głosu

Wstępne przetwarzanie sygnałów mowy

4. Reprezentacja sygnału1. W dziedzinie czasu: wykres sygnału lub energii sygnału2. W dziedzinie częstotliwości (widmo częstotliwościowe)3. Jednocześnie w dziedzinie czasu i częstotliwości: spektrogram

(ang. voiceprint, voicegram, spectral waterfall, ...)

c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 12/39

Page 13: Biometryczna Identyfikacja Tożsamościzbum.ia.pw.edu.pl/PL/dydaktyka/BIT/PUBLIC/ZIMA... · Wstępne przetwarzanie sygnałów mowy 2. Detekcja głosu i podział na segmenty 1.Detekcja

Biometryczna Identyfikacja Tożsamości

Wykład 6: Biometria głosu

Wyznaczanie cech biometrycznych na podstawie mowy

Wykład 6: Biometria głosuWstępne przetwarzanie sygnałów mowyWyznaczanie cech biometrycznych na podstawie mowy

c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 13/39

Page 14: Biometryczna Identyfikacja Tożsamościzbum.ia.pw.edu.pl/PL/dydaktyka/BIT/PUBLIC/ZIMA... · Wstępne przetwarzanie sygnałów mowy 2. Detekcja głosu i podział na segmenty 1.Detekcja

Biometryczna Identyfikacja Tożsamości

Wykład 6: Biometria głosu

Wyznaczanie cech biometrycznych na podstawie mowy

Cechy mówiącego

Uproszczony schemat aparatu mowy człowieka

Formanty:częstotliwościcharakteryzującetor akustyczny

c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 14/39

Page 15: Biometryczna Identyfikacja Tożsamościzbum.ia.pw.edu.pl/PL/dydaktyka/BIT/PUBLIC/ZIMA... · Wstępne przetwarzanie sygnałów mowy 2. Detekcja głosu i podział na segmenty 1.Detekcja

Biometryczna Identyfikacja Tożsamości

Wykład 6: Biometria głosu

Wyznaczanie cech biometrycznych na podstawie mowy

Ciekawy eksperymentAlvin Lucier, “I am sitting in a room”, 1970

I am sitting in a room different from the one you are innow. I am recording the sound of my speaking voice andI am going to play it back into the room again and againuntil the resonant frequencies of the room reinforcethemselves so that any semblance of my speech, withperhaps the exception of rhythm, is destroyed.

What you will hear, then, are the natural resonantfrequencies of the room articulated by speech. I regardthis activity not so much as a demonstration of a physicalfact, but more as a way to smooth out any irregularitiesmy speech might have.

c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 15/39

Page 16: Biometryczna Identyfikacja Tożsamościzbum.ia.pw.edu.pl/PL/dydaktyka/BIT/PUBLIC/ZIMA... · Wstępne przetwarzanie sygnałów mowy 2. Detekcja głosu i podział na segmenty 1.Detekcja

Biometryczna Identyfikacja Tożsamości

Wykład 6: Biometria głosu

Wyznaczanie cech biometrycznych na podstawie mowy

Estymacja cech w dziedzinie czasu

1. Predykcja liniowa (LP)• modelowanie: wyrażenie próbki dźwięku jako liniowej

kombinacji próbek poprzednich (modele autoregresyjne)

sn =

M∑m=1

amsn−m + en

gdzie M – rząd modelu, e – szum o stałej wariancji; wrozpoznawaniu mowy e reprezentuje sygnał pobudzenia(dźwięk strun głosowych)

• cechy sygnału: współczynniki am (charakterystyka formantów)• wyznaczanie cech: minimalizacja błędu średniokwadratowego

odległości pomiędzy s i s (wykorzystanie “odległości”Itakura-Saito)

c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 16/39

Page 17: Biometryczna Identyfikacja Tożsamościzbum.ia.pw.edu.pl/PL/dydaktyka/BIT/PUBLIC/ZIMA... · Wstępne przetwarzanie sygnałów mowy 2. Detekcja głosu i podział na segmenty 1.Detekcja

Biometryczna Identyfikacja Tożsamości

Wykład 6: Biometria głosu

Wyznaczanie cech biometrycznych na podstawie mowy

Estymacja cech w dziedzinie czasu

2. Analiza składowych niezależnych(ang. Independent Component Analysis, ICA)

• założenie: mowa jest liniową superpozycją niezależnychstatystycznie “źródeł” sygnału

• zadanie: znaleźć “źródła” oraz sposób superpozycji “źródeł”

c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 17/39

Page 18: Biometryczna Identyfikacja Tożsamościzbum.ia.pw.edu.pl/PL/dydaktyka/BIT/PUBLIC/ZIMA... · Wstępne przetwarzanie sygnałów mowy 2. Detekcja głosu i podział na segmenty 1.Detekcja

Biometryczna Identyfikacja Tożsamości

Wykład 6: Biometria głosu

Wyznaczanie cech biometrycznych na podstawie mowy

Analiza składowych niezależnychPrzykład superpozycji obrazów

Rysunek: Adam Czajka, kwiecień 2012

c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 18/39

Page 19: Biometryczna Identyfikacja Tożsamościzbum.ia.pw.edu.pl/PL/dydaktyka/BIT/PUBLIC/ZIMA... · Wstępne przetwarzanie sygnałów mowy 2. Detekcja głosu i podział na segmenty 1.Detekcja

Biometryczna Identyfikacja Tożsamości

Wykład 6: Biometria głosu

Wyznaczanie cech biometrycznych na podstawie mowy

Analiza składowych niezależnychPrzykład superpozycji obrazów

Rysunek: Adam Czajka, kwiecień 2012

c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 19/39

Page 20: Biometryczna Identyfikacja Tożsamościzbum.ia.pw.edu.pl/PL/dydaktyka/BIT/PUBLIC/ZIMA... · Wstępne przetwarzanie sygnałów mowy 2. Detekcja głosu i podział na segmenty 1.Detekcja

Biometryczna Identyfikacja Tożsamości

Wykład 6: Biometria głosu

Wyznaczanie cech biometrycznych na podstawie mowy

Analiza składowych niezależnychPrzykład superpozycji obrazów

Rysunek: Adam Czajka, kwiecień 2012

c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 20/39

Page 21: Biometryczna Identyfikacja Tożsamościzbum.ia.pw.edu.pl/PL/dydaktyka/BIT/PUBLIC/ZIMA... · Wstępne przetwarzanie sygnałów mowy 2. Detekcja głosu i podział na segmenty 1.Detekcja

Biometryczna Identyfikacja Tożsamości

Wykład 6: Biometria głosu

Wyznaczanie cech biometrycznych na podstawie mowy

Analiza składowych niezależnychPrzykład superpozycji obrazów

Rysunek: Adam Czajka, kwiecień 2012

c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 21/39

Page 22: Biometryczna Identyfikacja Tożsamościzbum.ia.pw.edu.pl/PL/dydaktyka/BIT/PUBLIC/ZIMA... · Wstępne przetwarzanie sygnałów mowy 2. Detekcja głosu i podział na segmenty 1.Detekcja

Biometryczna Identyfikacja Tożsamości

Wykład 6: Biometria głosu

Wyznaczanie cech biometrycznych na podstawie mowy

Analiza składowych niezależnychPrzykład superpozycji i separacji dźwięku (tzw. cocktail party problem)

Źródło przykładu: Politechnika w Helsinkach, http://research.ics.tkk.fi

c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 22/39

Page 23: Biometryczna Identyfikacja Tożsamościzbum.ia.pw.edu.pl/PL/dydaktyka/BIT/PUBLIC/ZIMA... · Wstępne przetwarzanie sygnałów mowy 2. Detekcja głosu i podział na segmenty 1.Detekcja

Biometryczna Identyfikacja Tożsamości

Wykład 6: Biometria głosu

Wyznaczanie cech biometrycznych na podstawie mowy

Analiza składowych niezależnych

1. Model ICAy(t) = As(t) + e(t)

gdzies(t) = [s1(t), . . . , sm(t)]T

wektor m niezależnych statystycznie i nieznanych źródeł,

y(t) = [y1(t), . . . , yn(t)]T

wektor n obserwacji y (liniowa mikstura źródeł s), natomiaste(t) jest gaussowskim szumem (w modelu uproszczonymrezygnuje się z szumu)

c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 23/39

Page 24: Biometryczna Identyfikacja Tożsamościzbum.ia.pw.edu.pl/PL/dydaktyka/BIT/PUBLIC/ZIMA... · Wstępne przetwarzanie sygnałów mowy 2. Detekcja głosu i podział na segmenty 1.Detekcja

Biometryczna Identyfikacja Tożsamości

Wykład 6: Biometria głosu

Wyznaczanie cech biometrycznych na podstawie mowy

Analiza składowych niezależnych

2. Zadanie– znaleźć s (oraz A) mając dane jedynie y i m

3. Założenia ICA– niegaussowskie źródła, lub co najwyżej jedno gaussowskie w

modelu uproszczonym– zwykle n ≥ m (liczba niezależnych obserwacji nie mniejsza niż

liczba niezależnych źródeł)– zadana wariancja źródeł, np. jednostkowa (niejednoznaczność:

poszukiwane zarówno s jak i A)

c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 24/39

Page 25: Biometryczna Identyfikacja Tożsamościzbum.ia.pw.edu.pl/PL/dydaktyka/BIT/PUBLIC/ZIMA... · Wstępne przetwarzanie sygnałów mowy 2. Detekcja głosu i podział na segmenty 1.Detekcja

Biometryczna Identyfikacja Tożsamości

Wykład 6: Biometria głosu

Wyznaczanie cech biometrycznych na podstawie mowy

Analiza składowych niezależnychZałożenia i interpretacja w rozpoznawaniu mówiącego

1. Dana (zakładana) jest liczba “źródeł”

2. Różne próbki głosu osoby dostarczają różnych obserwacji

3. Dopuszczamy rozkład normalny co najwyżej jednego “źródła”(dla modelu uproszczonego)

4. Cechy mówiącego (toru głosowego): współczynniki liniowejsuperpozycji źródeł (macierz A)

c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 25/39

Page 26: Biometryczna Identyfikacja Tożsamościzbum.ia.pw.edu.pl/PL/dydaktyka/BIT/PUBLIC/ZIMA... · Wstępne przetwarzanie sygnałów mowy 2. Detekcja głosu i podział na segmenty 1.Detekcja

Biometryczna Identyfikacja Tożsamości

Wykład 6: Biometria głosu

Wyznaczanie cech biometrycznych na podstawie mowy

Estymacja cech w dziedzinie częstotliwości

1. Współczynniki mocy na bazie widma Fouriera

2. Współczynniki Fouriera wyrażone w tzw. mel-skali

3. Selekcja częstotliwości (czyli współczynników Fouriera) zapomocą filtrów trójkątnych

c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 26/39

Page 27: Biometryczna Identyfikacja Tożsamościzbum.ia.pw.edu.pl/PL/dydaktyka/BIT/PUBLIC/ZIMA... · Wstępne przetwarzanie sygnałów mowy 2. Detekcja głosu i podział na segmenty 1.Detekcja

Biometryczna Identyfikacja Tożsamości

Wykład 6: Biometria głosu

Wyznaczanie cech biometrycznych na podstawie mowy

Mel-skala: prosty ekesperyment

Rysunek: Adam Czajka, grudzień 2012

c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 27/39

Page 28: Biometryczna Identyfikacja Tożsamościzbum.ia.pw.edu.pl/PL/dydaktyka/BIT/PUBLIC/ZIMA... · Wstępne przetwarzanie sygnałów mowy 2. Detekcja głosu i podział na segmenty 1.Detekcja

Biometryczna Identyfikacja Tożsamości

Wykład 6: Biometria głosu

Wyznaczanie cech biometrycznych na podstawie mowy

Mel-skala

1. Nieliniowa zmiana częstotliwości, np.:

fmel = 2595 log(1 + f/700)

2. Subiektywna ocena odległości pomiędzy dźwiękami popartadoświadczeniami (“mel” od słowa “melodia”)

3. Uważa się, iż mel-skala lepiej niż skala liniowa odzwierciedlacharakterystykę słuchu ludzkiego

c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 28/39

Page 29: Biometryczna Identyfikacja Tożsamościzbum.ia.pw.edu.pl/PL/dydaktyka/BIT/PUBLIC/ZIMA... · Wstępne przetwarzanie sygnałów mowy 2. Detekcja głosu i podział na segmenty 1.Detekcja

Biometryczna Identyfikacja Tożsamości

Wykład 6: Biometria głosu

Wyznaczanie cech biometrycznych na podstawie mowy

Przykładowa zależnośćmiędzy skalą liniową i mel-skalą

Rysunek: Adam Czajka, grudzień 2012

c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 29/39

Page 30: Biometryczna Identyfikacja Tożsamościzbum.ia.pw.edu.pl/PL/dydaktyka/BIT/PUBLIC/ZIMA... · Wstępne przetwarzanie sygnałów mowy 2. Detekcja głosu i podział na segmenty 1.Detekcja

Biometryczna Identyfikacja Tożsamości

Wykład 6: Biometria głosu

Wyznaczanie cech biometrycznych na podstawie mowy

Estymacja cech w dziedzinie cepstralnejRozplot homomorficzny

1. Załóżmy, że obserwowany sygnał mowy y jest splotempobudzenia x i odpowiedzi impulsowej h toru głosowego

y(n) =

∞∑k=−∞

x(k)h(n− k)

lub w dziedzinie częstotliwości

Y (ω) = X(ω)H(ω)

c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 30/39

Page 31: Biometryczna Identyfikacja Tożsamościzbum.ia.pw.edu.pl/PL/dydaktyka/BIT/PUBLIC/ZIMA... · Wstępne przetwarzanie sygnałów mowy 2. Detekcja głosu i podział na segmenty 1.Detekcja

Biometryczna Identyfikacja Tożsamości

Wykład 6: Biometria głosu

Wyznaczanie cech biometrycznych na podstawie mowy

Estymacja cech w dziedzinie cepstralnejRozplot homomorficzny

2. Obliczając logarytm obu stron poprzedniego równania orazwyznaczając odwrotną transformatę Fouriera otrzymujemytzw. reprezentację cepstralną sygnału (lub krótko: cepstrum,anagram słowa “spectrum”):

DFT−1(log10

(Y (ω)

))=

DFT−1(log10

(X(ω)H(ω)

))=

DFT−1(log10

(X(ω)

)+ log10

(H(ω)

))DFT−1

(log10

(X(ω)

))+DFT−1

(log10

(H(ω)

))c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 31/39

Page 32: Biometryczna Identyfikacja Tożsamościzbum.ia.pw.edu.pl/PL/dydaktyka/BIT/PUBLIC/ZIMA... · Wstępne przetwarzanie sygnałów mowy 2. Detekcja głosu i podział na segmenty 1.Detekcja

Biometryczna Identyfikacja Tożsamości

Wykład 6: Biometria głosu

Wyznaczanie cech biometrycznych na podstawie mowy

Estymacja cech w dziedzinie cepstralnejRozplot homomorficzny

3. Rodzaje cepstrum• cepstrum rzeczywiste (widma mocy):

RC(y) = DFT−1(log10

∣∣DFT(y)∣∣)

• cepstrum zespolone:

CC(y) = DFT−1(log10

(DFT(y)

))• mel-cepstrum zespolone:

MFCC(y) = DFT−1(log10

(MF(DFT(y)

)))gdzie MFC oznacza operację przekształcającą częstotliwoścido mel-skali

c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 32/39

Page 33: Biometryczna Identyfikacja Tożsamościzbum.ia.pw.edu.pl/PL/dydaktyka/BIT/PUBLIC/ZIMA... · Wstępne przetwarzanie sygnałów mowy 2. Detekcja głosu i podział na segmenty 1.Detekcja

Biometryczna Identyfikacja Tożsamości

Wykład 6: Biometria głosu

Wyznaczanie cech biometrycznych na podstawie mowy

Estymacja cech w dziedzinie cepstralnejWyznaczanie porównywanie cech

4. Wyznaczanie cech mówiącego• okienkowanie (najczęściej filtrami trójkątnymi): cepstrum

zespolone odpowiedzi toru głosowego skupione jest wpoczątkowych elementach reprezentacji

• typowe cechy: współczynniki cepstralne (ang. CepstralCoefficients, CC) lub współczynniki mel-cepstralne (ang. MelFrequency Cepstral Coefficients, MFCC) odpowiedzi torugłosowego

5. Porównanie cech: najczęściej ważona odległość euklidesowa

6. Dodatkowe przetwarzanie reprezentacji cepstralnych (jeślizasadne)

• wyznaczanie widma (typowo DFT) oraz wykonanie operacjiodwrotnej do logarytmowania osobno dla pobudzenia i dlaodpowiedzi toru głosowego ⇒ otrzymujemy widmo pobudzeniaoraz widmo toru głosowego

c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 33/39

Page 34: Biometryczna Identyfikacja Tożsamościzbum.ia.pw.edu.pl/PL/dydaktyka/BIT/PUBLIC/ZIMA... · Wstępne przetwarzanie sygnałów mowy 2. Detekcja głosu i podział na segmenty 1.Detekcja

Biometryczna Identyfikacja Tożsamości

Wykład 6: Biometria głosu

Wyznaczanie cech biometrycznych na podstawie mowy

Estymacja cech w dziedzinie cepstralnejWyznaczanie porównywanie cech

4. Wyznaczanie cech mówiącego• okienkowanie (najczęściej filtrami trójkątnymi): cepstrum

zespolone odpowiedzi toru głosowego skupione jest wpoczątkowych elementach reprezentacji

• typowe cechy: współczynniki cepstralne (ang. CepstralCoefficients, CC) lub współczynniki mel-cepstralne (ang. MelFrequency Cepstral Coefficients, MFCC) odpowiedzi torugłosowego

5. Porównanie cech: najczęściej ważona odległość euklidesowa6. Dodatkowe przetwarzanie reprezentacji cepstralnych (jeśli

zasadne)• wyznaczanie widma (typowo DFT) oraz wykonanie operacji

odwrotnej do logarytmowania osobno dla pobudzenia i dlaodpowiedzi toru głosowego ⇒ otrzymujemy widmo pobudzeniaoraz widmo toru głosowego

c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 33/39

Page 35: Biometryczna Identyfikacja Tożsamościzbum.ia.pw.edu.pl/PL/dydaktyka/BIT/PUBLIC/ZIMA... · Wstępne przetwarzanie sygnałów mowy 2. Detekcja głosu i podział na segmenty 1.Detekcja

Biometryczna Identyfikacja Tożsamości

Wykład 6: Biometria głosu

Wyznaczanie cech biometrycznych na podstawie mowy

Estymacja cech w dziedzinie cepstralnejPrzykład

Rysunek: Adam Czajka, październik 2014

Czas (s)0 1 2 3 4 5 6 7 8 9 10

-0.6

-0.4

-0.2

0

0.2

0.4

c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 34/39

Page 36: Biometryczna Identyfikacja Tożsamościzbum.ia.pw.edu.pl/PL/dydaktyka/BIT/PUBLIC/ZIMA... · Wstępne przetwarzanie sygnałów mowy 2. Detekcja głosu i podział na segmenty 1.Detekcja

Biometryczna Identyfikacja Tożsamości

Wykład 6: Biometria głosu

Wyznaczanie cech biometrycznych na podstawie mowy

Estymacja cech w dziedzinie cepstralnejPrzykład

Rysunek: Adam Czajka, październik 2014

×105

0 0.5 1 1.5 2 2.50

50

100

150

200

250

300Widmo amplitudowe

c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 35/39

Page 37: Biometryczna Identyfikacja Tożsamościzbum.ia.pw.edu.pl/PL/dydaktyka/BIT/PUBLIC/ZIMA... · Wstępne przetwarzanie sygnałów mowy 2. Detekcja głosu i podział na segmenty 1.Detekcja

Biometryczna Identyfikacja Tożsamości

Wykład 6: Biometria głosu

Wyznaczanie cech biometrycznych na podstawie mowy

Estymacja cech w dziedzinie cepstralnejPrzykład

Rysunek: Adam Czajka, październik 2014

×105

0 0.5 1 1.5 2 2.5-5

-4

-3

-2

-1

0

1

2

3Logarytm widma amplitudowego

c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 36/39

Page 38: Biometryczna Identyfikacja Tożsamościzbum.ia.pw.edu.pl/PL/dydaktyka/BIT/PUBLIC/ZIMA... · Wstępne przetwarzanie sygnałów mowy 2. Detekcja głosu i podział na segmenty 1.Detekcja

Biometryczna Identyfikacja Tożsamości

Wykład 6: Biometria głosu

Wyznaczanie cech biometrycznych na podstawie mowy

Estymacja cech w dziedzinie cepstralnejPrzykład

Rysunek: Adam Czajka, październik 2014

Próbki ×105

0 0.5 1 1.5 2-0.03

-0.02

-0.01

0

0.01

0.02

0.03Reprezentacja cepstralna

c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 37/39

Page 39: Biometryczna Identyfikacja Tożsamościzbum.ia.pw.edu.pl/PL/dydaktyka/BIT/PUBLIC/ZIMA... · Wstępne przetwarzanie sygnałów mowy 2. Detekcja głosu i podział na segmenty 1.Detekcja

Biometryczna Identyfikacja Tożsamości

Wykład 6: Biometria głosu

Wyznaczanie cech biometrycznych na podstawie mowy

Estymacja w dziedzinie cepstralnejSchemat działania

Rysunek: Adam Czajka, grudzień 2012

c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 38/39

Page 40: Biometryczna Identyfikacja Tożsamościzbum.ia.pw.edu.pl/PL/dydaktyka/BIT/PUBLIC/ZIMA... · Wstępne przetwarzanie sygnałów mowy 2. Detekcja głosu i podział na segmenty 1.Detekcja

Biometryczna Identyfikacja Tożsamości

Wykład 6: Biometria głosu

Przykładowe pytanie egzaminacyjne

Formanty:

1. charakteryzują tor akustyczny

2. to współczynniki modelu autoregresyjnego

3. to współczynniki mel-cepstrum odpowiedzi toru głosowego

4. to komponenty wyznaczone przez analizę składowychniezależnych

c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 39/39