Cap5 - Tehnici de proc si recun a semnalului vocal

Embed Size (px)

Citation preview

Cap. 5 Tehnici de procesare i recunoatere a semnalului vocalCap. 5 Tehnici de procesare i recunoatere a semnalului vocal Sistemele de recunoatere automat a vorbirii ASR (Automatic Speech Recognition) se bazeaz pe modalitatea de producere, respectiv de percepie a vorbirii n algoritmii de analiz acustic, de procesare a vorbirii i n tehnicile de recunoatere pe care le nglobeaz (Juang et al., 2004), (Rabiner, Juang, 2006). Pornind de la modul n care este caracterizat forma de und a semnalului vorbit de ctre fenomenele fizice ce le genereaz au fost dezvoltate o serie de instrumente specifice de procesare a semnalelor vocale, cum ar fi cepstrum (i metodele ce deriv din acesta MFCC Mel frequency cepstal coefifcient, LPC - linear predictive coding) Transformata Fourier pe timp scurt STFT - Shot Time Fourier Transform. Tehnicile LPC i variante ale acesteia au fost create ca urmare a modelrii mecanismului de producere a vorbirii umane, model ce include glota ca element de vibraie ce conine informaii legate de frecvena fundamental i de tractul vocal (laringe, gur) ca element rezonant ce ofer informaii despre formani. Metoda LPC face posibil estimarea formanilor (a caracteristicilor tractului vocal) i respectiv eliminarea efectului acestora din semnalul procesat, astfel nct se face o separare a celor dou componente: excitaia i rspunsul la impuls al tractului vocal. Secvenele analizate au dimensiune mic, de ordinul milisecundelor, datorit variaiilor rapide ale semnalului vocalic n timp. n tehnicile de recunoatere a vorbitorului este necesar extragerea unui vector de trsturi cu un grad mai mic de generalitate i un grad mai mare de particularitate. Tehnologiile des folosite pentru recunoaterea vorbitorului includ estimarea frecvenelor, GMM (gaussian mixture models), potrivire de pattern-uri, arbori de decizie i reele neuronale (Hosom, 2004). O problem important este cea de eliminare, sau de neglijare a zgomotului ambiental (Bhiksha, 2007), (Lee Y.W., 2005), (Guinness, 2005). n acest capitol se prezint trei metode de extragere de trsturi bazate pe coeficienii de predicie liniar LPC (Zbancioc, Costin 2003), coeficieni mel-cepstrali MFCC (Costin, Zbancioc, 2002, 2003) i coeficieni autoregresivi (Costin, Grichnik, Zbancioc, 2003). Pentru acest set de trsturi s-au dezvoltat metode de recunoatere a vorbirii folosind pentru clasificare n special arborii de decizie DT - decision tree i reelele neuronale MLP - Multi-Layer Perceptron (Dumitra, 1997), (Toderean et al., 1995).

5.1. Recunoaterea fonemelor pe baza coeficienilor MFCCMetoda descris are la baz modelul de percepie auditiv a omului, model n care frecvenele sunt date de o scar mel i faptul c persoanele cu implant auditiv pot recunoate secvenele rostite, folosind numai un set foarte redus de informaii. Metoda calculeaz procentul de recunoatere a unor foneme folosind pattern-uri extrase din benzile de frecven mel, aplicnd un set de operaii specifice celor ce se realizeaz n implantul cochlear (CI). Simulrile realizate au vizat determinarea importanei specifice a unor benzi spectrale n procesul de recunoatere a unor foneme.

122

Cap. 5 Tehnici de procesare i recunoatere a semnalului vocal

Implantul cochlear genereaz pe baza semnalelor recepionate, utiliznd stimularea electric artificial, un pattern de activitate neuronal, care permite pacienilor cu implant s recunoasc semnalele vorbite, sau alte sunete din mediul nconjurtor. Influena zgomotului asupra inteligibilitii vorbirii are efecte puternice asupra pacienilor cu implant cochlear. La ora actual exist numeroase studii n acest sens care vizeaz fie mbuntirea tehnicilor de filtrare, fie creterea robusteei la zgomot a algoritmilor de recunoatere (Bhattacharya and Zeng, 2005), (Loizou et al., 2005). 5.1.1. Extragerea de pattern-uri din benzile de frecvene mel Scara mel de frecvene simuleaz modul de percepie a frecvenelor n urechea intern a omului n melcul cochlear. Implantul cochlear MXM-Digisonic folosete doar 15 electrozi pentru stimularea terminaiilor nervoase, fiecare electrod transmite impulsuri electrice direct nervului auditiv. Limitele celor 15 benzi de frecvene mel sunt calculate dup formule lui Fant sau lui Koening:f Mel Fant ( f ) = 1000 log 2 1 + ; 1000 f Mel Koening ( f ) = 2595 lg1 + 700

(5.1)

n figura de mai jos se observ c graficele celor dou funcii Fant i Koening sunt asemntoare. Relaia (5.1) are la baz faptul c distribuia n melcul cochlear a celulelor receptoare de frecvene joase (sub 1000 Hz) este aproximativ liniar, respectiv a celor asociate frecvenelor nalte este logaritmic. Am considerat c numai frecvenele din banda [65Hz - 6,5kHz] prezint interes n speech.

Fig. 5.1. Distribuia a 15 benzi pe scara frecvenelor mel (Costin, Zbancioc, 2003)

Deoarece frecvena de eantionare impus este fs =16000 Hz, iar fereastra de analiz este de 8 ms, dimensiunea vectorului de analizat este W =128 eantioane. Frecvenele spectrale vor fi dispuse cu pas de fs / W = 125 Hz. Din cele 64 de frecvene pozitive, se pstreaz doar frecvenele din banda util (sub 6,5 kHz), deci mai rmn pentru analiz doar 51 valori.

Cap. 5 Tehnici de procesare i recunoatere a semnalului vocal Table 5.1. Distribuia frecvenelor spectrale n benzile mel (Costin, Zbancioc, 2003) Numrul Frecvena Numr total benzii central frecvene B1 125 1 B2 250 1 B3 375 1 B4 500 1 B5 625 1 B6 750 1 B7 875 1 B8 1000 1 B9 1185 2 B10 1435 2 B11 1745 3 B12 2180 4 B13 2795 6 B14 B15 3825 5500 11 15 Frecvenele corespunztoare fiecrei benzi mel (se specific i indicele din vectorul spectral)

123

125 (1) 250 (2) 375 (3) 500 (4) 625 (5) 750 (6) 875 (7) 1000 (8) 1125, 1250 (9-10) 1375, 1500 (11-12) 1625, 1750, 1875 (13-15) 2000, 2125, 2250, 2375 (16-19) 2500, 2625, 2750, 2875, 3000, 3125 (20-25) 3250, 3375, 3500, 3625, 3750, 3875, 4000, 4125, 4250, 4375, 4500 (26-36) 4625, 4750, 4875, 5000, 5125, 5250, 5375, 5500, 5625, 5750, 5875, 6000, 6125, 6250, 6375 (37-51)

Fereastra de analiz s-a ales de 8ms, iar pasul de deplasare este de 50% din lungimea ferestrei. Etapele realizate n procesarea semnalului sunt urmtoarele: calculul spectrului (transformata FFT), dup ce n prealabil eantioanele din fereastra curent de analiz sunt ponderate cu o fereastr Hamming; Calculeaz energia celor 15 benzi mel; Se realizeaz o preaccentuare, pentru a accentua energiile de pe benzile frecvenelor nalte a cror valori sunt mici, comparativ cu cel al frecvenelor joase.B1*2.4, B4*38.5, B7*218.8, B10*500, B13*1562.5, B2*3.6, B5*78.1, B8*250, B11*625, B14*2187.5, B3*15, B6*125, B9*312.5, B12*791.7, B15*3062.5

Fig. 5.2. Funcie de preaccentuare cu variaie exponenial (Costin, Zbancioc, 2003)

5.1.2. Recunoaterea vocalelor pe baza energiei benzilor mel cu RN-MLP i DT Clasificarea vocalelor nu ar trebui s ridice mari dificulti, date fiind caracteristicile spectrale ale acestora, frecvena fundamental i valorile formantice care au valori bine stabilite n special la nivelul primilor doi formani. Chiar i persoanele cu implant nu au mari probleme n a distinge corect vocalele. Nu acelai lucru se ntmpl ns i cu fonemele consonantice, pentru care pattern-urile

124

Cap. 5 Tehnici de procesare i recunoatere a semnalului vocal

construite doar din energiile benzilor de frecven nu conduc la scoruri bune de recunoatere. Reeaua neuronal MLP folosit are o arhitectur cu dou straturi ascunse. Numrul neuronilor pentru primul strat ascuns a fost N1=60, respectiv pentru al doilea strat ascuns N2=30. Vectorul de intrare {x1, x2,..., xn} are dimensiunea de N=15 (valorile energiilor benzilor mel), iar dimensiunea vectorului de ieire este dat de numrul de foneme care se doresc a fi recunoscute. Setul de antrenare este construit astfel nct s nu avem dou pattern-uri succesive ale aceleiai vocale. Arborii de decizie sunt metode de clasificare automat care furnizeaz la ieire un set de reguli. Am utilizat arborii de decizie See5 care folosesc o variant mbuntit a algoritmului ID3, bazat pe entropie (Quinlan, 1996). Dimensiunea setului de antrenare i cea a setului de test a fost aleas egal, de 100 vectori de trsturi.Table 5.2. Rata recunoaterii vocalelor {a, e, i , o , u } cu RN-MLP i DT

Numr vorbitori 3

Rata recunoatere RN-MLP 76%

Rata recunoatere DT- arbore de decizie 94%

Fr a putea afirma c arborii de decizie sunt clasificatori mai buni dect reelele neuronale, a cror performan depinde foarte mult de arhitectura acesteia i de relevana datelor furnizate la intrare, am obinut o rat de clasificare acceptabil de 94% pentru acest set restrns de doar trei vorbitori. Arborele de decizie este structurat pe doar trei nivele, pentru clasificare fiind folosite doar benzile de frecven B7, B9, B11 i B14. Nu se poate face afirmaia c energiile celorlalte benzi nu ajut n procesul de clasificare, bazndu-ne doar pe faptul c utilitarul See5 a reuit s obin o clasificare optim doar pe baza a 4 caracteristici din totalul de 15 existente n vectorii de trsturi. Rezultatele cercetrilor au fost prezentate n (Costin, Zbancioc et al., 2002). Rule 1: B9 > 0.05271 => vowel a Rule 2: B7 0.00976 => vowel e Rule 3: B7 vowel i Rule 4: B7 > 0.04439 B9 vowel o Rule 5: B7