Upload
eugen-lupu
View
26
Download
1
Embed Size (px)
DESCRIPTION
Speaker recognition background -introduction
Citation preview
1
RECUNOASTEREA
VORBITORULUI
2
Încadrarea recunoasterii vorbitorului între metodele biometrice
Mijloacele de a proteja informatia sau accesul :
obiecte (chei),
informatii (cod-PIN)
particularitati personale (amprente, voce etc.).
“Verificatori biometrici”
Tip verificare Falsã rejecţie Falsã acceptare
voce (înaltã calitate) 1% 0.1%
voce (calitate telefonicã) 3.3% 0.4%
scanare retinã 2.8% 0%
semnãturã 0.2% 0.6%
vene < 1% < 1%
forma mâinii 0.1% 0.1%
Caracteristicile vorbitorului
Vorbirea conţine :
informaţii lingvistice, care reprezintă mesajul sec, independent de cine îl transmite
informaiţii legate de vorbitor, care dau indicii despre identitatea celui care vorbeşte
informaţii afective, legate de starea emoţională a vorbitorului (emoţie, stress, sănătate
etc.)
3
- Vorbirea este rezultat al unei secvente complexe de transformãri produse la câteva nivele diferite: semantic, lingvistic, articulator si acustic. Variatiile în vorbire legate de vorbitor sunt cauzate de : Variatii intervorbitor
diferente anatomice - se datoresc formei si mãrimii tractului vocal
diferente în deprinderile verbale (habit verbal) - modul în care vorbitorii au învătat sã foloseascã mecanismul vorbirii
Variatiile intravorbitor - datorate diferentelor între rostirile ale aceluias vorbitor
viteza de vorbire
starea emotionalã
stress
sãnãtate
4
Analiza variantei fonemice
cercetările lui Matsumoto indică faptul că informaţia fonemică este
semnificativ mai importantă decât cea datorată vorbitorului sau cea datorată
corelaţiei dintre ele
caracteristicile vorbitorului sunt transmise printr-un segment de vorbire prin informtia dependenta si cea independenta de foneme
Considerând factorii datoraţi vorbitorului şi cei fonemici ca un vector
caracteristic, xpsi, extras din segmentul “i” de vorbire al fonemei "p" rostite de vorbitorul "s", poate fi exprimat astfel :
x + a + + + epsi p s ps psi
unde :
- este vectorul medie pe toţi vectorii observaţi
s - este factorul principal al vorbitorului constând în informaţia personalã independentã de foneme
ap - este factorul principal fonemic
ps - este factorul de interacţiune între foneme şi vorbitor care conţine informaţia personalã
dependentã de fonemã epsi- termenul rezidual care implicã variaţiile datorate emoţiei, stãrii de sãnãtate etc.
- semnificaţia statisticã a fiecãrui factor a fost testatã pe baza statisticã 2
5
f
2
0 01
2/ .
P S PxS
Factor
0
100
200
300
400
500
600
P S PxS
Factor
Analiza varianţei factorilor S(vorbitor), P(fonemic) şi SxP(interacţiunea lor)
Din diagramã rezulta :
- factorul fonemic este foarte important (dominant) ceea ce sugereazã cã acesta poate corupe informaţia specificã vorbitorului mai ales la recunoaşterea
independentã de text a vorbitorului
- factorul fonemic dependent de vorbitor ps deşi nu este aşa de mare ca factorul
principal al vorbitorului are o valoare semnificativã fiind de 60 de ori mai mare decât nivelul de semnificanţã de 1%.
6
Caracteristici individuale Informatiile individuale specifice vorbitorului sunt reprezentate de :
calitatea vocii
înăltime
intensitate
viteza
intonatia
accent
vocabular Proprietãti ale parametrilor folositi la recunoasterea vorbitorului
Ideal ar fi ca parametri vocali sã îndeplineascã urmãtoarele conditii :
sã reprezinte eficient informatia dependentã de vorbitor
sã fie usor de mãsurat
sã fie stabili în timp
sã aparã natural si frecvent în vorbire
sã se modifice putin în medii diferite
sã nu se preteze la imitare
torintravorbimedievariatia
torintervorbimedievariatiaF
7
8
Obiectivele clasificãrii si recunoasterii vorbitorilor
identificarea sexului vorbitorului
identificarea vârstei
identificãrii stãrii de sãnãtate
identificarea dispozitiei vorbitorului (stresat, vesel, calm, supãrat)
identificarea accentului (provenienta socialã a vorbitorului)
identificarea limbii vorbite
identificarea unei anumite persoane e uzual numită ca recunoasterea
vorbitorului
identificarea vorbitorului constã în gãsirea la ce clasã sau vorbitor apartine cel mai probabil rostirea curentã/de test
verificarea vorbitorului are ca scop validarea sau invalidarea ipotezei cã rostirea apartine vorbitorului / clasei care o revendicã
9
Taxonomia sistemelor de recunoasterea vorbitorului
verificarea vorbitorului
identificarea vorbitorului
sistemele pot fi împãrtite dupã gradul de dependenta de text :
dependente de text - parole individuale - parole comune (rigide)
independente de text - cu vocabular fix (se folosesc aceleasi cuvinte într-o ordine aleatoare) - dependente de un eveniment (cautã un anumit eveniment lingvistic)
- vocabular fãrã restrictii (independenţã de text fãrã restrictii)
10
Structura sistemelor de recunoaşterea vorbitorului
EXTRAGEREA PARAMETRILOR
CARACTERISTICI
MODELE DE REFERINTÃ
PENTRU VORBITORI
COMPARARE (DISTANTA)
VOCE
REZULTATELE RECUNOASTERII
ANTRENARE
RECUNOASTERE
11
Evaluarea sistemelor de recunoastere a vorbitorului
In cazul verificãrii vorbitorului sunt douã posibilitãţi legate de
rostirea de intrare: - s - condiţia ca rostirea sã aparţinã clientului
- n - condiţia ca rostirea sã nu aparţinã clientului
şi avem douã condiţii de decizie :
- S - condiţia ca rostirea sã fie acceptatã ca fiind a clientului
- N - condiţia ca rostirea sã fie respinsã.
In aceste condiţii se combinã şi formeazã cele patru probabilitãţi condiţionate în
cazul verificãrii vorbitorului: Condiţiile rostirii de intrare
Condiţia de decizie s(client) n(impostor)
S (acceptare) P(S|s) P(S|n)
N (respingere) P(N|s) P(N|n)
unde avem: P(S|s)+P(N|s)=1 şi P(S|n)+P(N|n)=1, iar cele patru probabilitãţi
reprezintã : P(S|s) - probabilitatea de acceptare corectã P(S|n) - probabilitatea de acceptare falsã (FA) P(N|s) - probabilitatea de respingere falsã (FR) P(N|n) - probabilitatea de respingere corectã.
12
Caracteristica receptoare de operare (ROC)
Relaţia între ratele de eroare şi criteriul de decizie
13
14
Sisteme de recunoaştere a vorbitorului dependente de text
Schema bloc a principalelor operaţii pentru recunoaşterea vorbitorului folosind seriile în timp a coeficientilor cepstrali [Fur01]
15
Sisteme de recunoastere a vorbitorului dependente de text
Schema bloc indicind principalele prelucrări pentru recunoaşterea vorbitorului
folosind caracteristicile statistice ale parametrilor spectrali extraşi [Fur01]
16
Sisteme de recunostere a vorbitorului independent de text
metode folosind caracteristica mediatã pe termen lung
metode incorporând decizia fonemicã explicitã
metode folosind decizia fonemicã implicitã
Sistem de recunoaştere independent de text bazat pe caracteristica mediată
pe termen lung a semnalului vocal
17
Sistem de recunoaştere independent de text încorporând
decizia fonemică explicită
18
Sistem de recunoaştere independent de text încorporând
decizia fonemică implicită
19
Metode utilizate la recunoasterea vorbitorului
Schemă de principiu a sistemelor de recunoasterea vorbitorului
sistemele de început bazate pe spectrograme
sisteme bazate pe metodele programãrii dinamice (DTW)
sisteme ce folosesc cuantizarea vectorialã (CV)
sisteme utilizând retelele neuronale
sisteme bazate pe modele Markov ascunse (MMA)
sisteme bazate pe mixture gaussiene (GMM)
sisteme folosind metode algebrice/statistice
sisteme bazate pe metoda TESPAR-FANN
EXTRAGEREA
PARAMETRILOR
CARACTERISTICI
MODELE DE
REFERINÞÃ
PENTRU VORBITORI
COMPARARE
(DISTANÞA)
VOCE
REZULTATELE
RECUNOASTERII
ANTRENARE
RECUNOAªTERE DECIZIE
20
Aplicatii ale recunoasterii vorbitorului
1- aplicatii în telecomunicatii - tranzactii bancare si plãti de la distantã - acces la baze de date - acces la retele de calculatoare - acces PBX (private branch exchanges).
2- aplicatii de verificare a prezentei fizice a persoanei
- factorii din mediu pot fi mai usor controlati - verificarea vorbitorului poate fi mai restrictivã
- vorbitorul poate purta caracteristica vocii cu el - verificarea vorbitorului poate fi asociatã mai usor cu alte tehnici de verificare a identitãtii
3- aplicatii judiciare
- metoda ascultãtorului (expert) - metoda spectrograficã - metoda automata
21
BAZE DE DATE VOCALE PENTRU RECUNOASTEREA VORBITORILOR
1. NYNEX (land-line database) Ex. Rostiri: 355-087-3567 (3x) 333-444-5678 (3X)
446-586-7632 (3X) Carl lives in a lovely room/. (1X)
2. NYNEX cellular
nume familie vorbitor X5
cifre izolate
comenzi (dial,clear,..
parola vocala (3X 10 cifre) 3. King92 -ITT - 51 vorbitori masculini (telefon/microfon)
4. YOHO – ITT – autentificare vorbitor dependent de text (186vorbitori 156M+30F)
5. Switchboard –TI -2340 conversatii telefonice ~6min.-26CD 6. SPIDE >> Switchboard - 3 aparate diferite -2 CD
22
Tema. Sisteme de RV bazate pe mixture gaussiene (GMM)