Upload
others
View
6
Download
0
Embed Size (px)
Citation preview
ENST, Dépt. TSI / LTCI (CNRS URA 820)
Reconnaissance du locuteur
ObjectifEnregistrement de parole
�Extraction d’informations concernant le locuteur (identité, distinction
homme/femme, langue parlée)
Technique biom étrique : Couplage possible avec d’autres techniques d’identification (reconnaissance
visuelle)
ApplicationsIdentification
Reconnaı̂tre un locuteur parmis�
locuteurs potentiels (connus) Vérification
Décision d’acception/rejet : locuteur autorisé ou imposteur�modélisation de locuteurs inconnus
Reconnaissance du locuteur — 1
ENST, Dépt. TSI / LTCI (CNRS URA 820)
Reconnaissance par un auditeur humain
Tâche difficile même pour un auditeur humain !�Taux d’erreur (vérification) � 10%
Facteur s d’influence
- Durée des enregistrements
- Familiarité avec les locuteurs, ...�Bonne robustesse vis à vis du bruit, de la mauvaise qualité de l’enregistrement.
Imitation de la voix ?
Modification de paramètres de “haut niveau” : rythme d’élocution, accent régional, style linguistique, tics de
langage, pathologie vocale...
Possibilit é de travestissement de la voix
En général détectable par l’auditeur, diminue fortement les possibilités de reconnaissance
Reconnaissance du locuteur — 2
ENST, Dépt. TSI / LTCI (CNRS URA 820)
Rappels sur la production de la parole
In Advances in speech signal processing, S. Furui & M. Sondhi editors, c�
Marcel Dekker, 1991
Reconnaissance du locuteur — 3
ENST, Dépt. TSI / LTCI (CNRS URA 820)
Comple xit é de la tâche de reconnaissance
Facteur s négatifs
� Variabilité intra-locuteur� Influence des conditions d’enregistrement� Dérive temporelle� Eventuelles modifications intentionnelles
Reconnaissance du locuteur — 4
ENST, Dépt. TSI / LTCI (CNRS URA 820)
Modes de fonctionnement
Texte libre
Le moins contraignant (le moins performant !)
Texte fix é
Contraignant pour l’utilisateur, possibilité de couplage avec la reconnaissance d’un mot de passe
Texte sug géré (par le syst ème)
Annule le risque de fraude par enregistrement
Reconnaissance du locuteur — 5
ENST, Dépt. TSI / LTCI (CNRS URA 820)
Méthodes (en mode dépendant du texte)
Identiques au cas de la reconnaissance de la parole
1. Mesures de vecteurs paramètres à intervalles réguliers
2. Modélisation (par locuteur) à l’aide de modèle de Markov cachés
3. Décision basée sur la vraisemblance des données de test
Reconnaissance du locuteur — 6
ENST, Dépt. TSI / LTCI (CNRS URA 820)
Identification du locuteur
In Proc. ESCA Workshop ASRIV, 1994
Reconnaissance du locuteur — 7
ENST, Dépt. TSI / LTCI (CNRS URA 820)
Vérification de locuteur
In Proc. ESCA Workshop ASRIV, 1994
Reconnaissance du locuteur — 8
ENST, Dépt. TSI / LTCI (CNRS URA 820)
Seuil de décision pour la vérification
Strat égies de normalisation du score de vraisemb lance
Problème : Imposteurs inconnus
1. “Modèle du monde”
�������� ��������������� �������� � ���!�#"$�
2. “Cohort normalization”
�������� ����� ��� � ��� %�&
')( ��*�+,�-�� � �.� �0/ ' �
3. Approches discriminantes
�������� ��������������� �������� � ���!�21�3�4�
Reconnaissance du locuteur — 9
ENST, Dépt. TSI / LTCI (CNRS URA 820)
Techniques en mode ind épendant du texte
Problème plus ouver t
Inefficacité des contraintes temporelles liées à la matrice de transition des HMMs
Méthodes utilis és
� Modèle paramétrique: modèle de mélange de gaussiennes� Classificateur non-paramétrique: réseaux de neurones� 5 autres méthodes classiques de reconnaissance des formes
Reconnaissance du locuteur — 10
ENST, Dépt. TSI / LTCI (CNRS URA 820)
Modèle de mélang e de gaussiennes
�Modèle de données échangeables�Représentation paramétrique de la distribution de probabilité :
�-768�:9 ;� ( �=<
� � >6?�A@ ��BDC ���
−1 −0.5 0 0.5 1 1.5−1
−0.5
0
0.5laroche (MFCC, 15 s)
c(1)
c(2)
−1 −0.5 0 0.5 1 1.5−1
−0.5
0
0.5moulines (MFCC, 15 s)
c(1)
c(2)
−1 −0.5 0 0.5 1 1.5−1
−0.5
0
0.5selim (MFCC, 15 s)
c(1)
c(2)
−1 −0.5 0 0.5 1 1.5−1
−0.5
0
0.5terosier (MFCC, 15 s)
c(1)
c(2)
Représentation dans le plan EGF�H�IKJ7ELFNMGI (MFCC), 15 s de paroleReconnaissance du locuteur — 11
ENST, Dépt. TSI / LTCI (CNRS URA 820)
Modèle de mélang e de gaussiennes
−10
1
−1−0.5
00.5
−4
−2
0
2
c(1)
laroche (2 MIX)
c(2) −10
1
−1−0.5
00.5
−4
−2
0
2
c(1)
moulines (2 MIX)
c(2)
−10
1
−1−0.5
00.5
−4
−2
0
2
c(1)
selim (2 MIX)
c(2) −10
1
−1−0.5
00.5
−4
−2
0
2
c(1)
terosier (2 MIX)
c(2)
Modèle à 2 composantes
Reconnaissance du locuteur — 12
ENST, Dépt. TSI / LTCI (CNRS URA 820)
Modèle de mélang e de gaussiennes (cont.)
−10
1
−1−0.5
00.5
−4
−2
0
2
c(1)
laroche (8 MIX)
c(2) −10
1
−1−0.5
00.5
−4
−2
0
2
c(1)
moulines (8 MIX)
c(2)
−10
1
−1−0.5
00.5
−4
−2
0
2
c(1)
selim (8 MIX)
c(2) −10
1
−1−0.5
00.5
−4
−2
0
2
c(1)
terosier (8 MIX)
c(2)
Modèle à 8 composantes
Reconnaissance du locuteur — 13
ENST, Dépt. TSI / LTCI (CNRS URA 820)
Performances actuelles
Mode dépendant du texte
Suffisantes pour certaines applications : � 5% d’erreurs (vérification téléphonique)�Utilisation combinée avec la reconnaissance d’un mot de passe
(ex. carte PhonCard de SPRINT)
Problèmes : dérive temporelle, “sheeps and goats”
Mode ind épendant du texte
Sensibilité extrême aux conditions d’enregistrement (distorsions, présence de bruit)�Pas d’application effective à ce jour
Reconnaissance du locuteur — 14
ENST, Dépt. TSI / LTCI (CNRS URA 820)
Performances en mode ind épendant du texte
In Proc. ESCA Workshop ASRIV, 1994
Figure 1: Performances d’identification en fonction du nombre de locuteurs
Reconnaissance du locuteur — 15