Reconnaissance du locuteur Objectif Applicationscappe/fr/Enseignement/verif.pdf · 2018. 12. 25. · Inefﬁcacite´ des contraintes temporelles liees´ a` la matrice de transition

ENST, Dépt. TSI / LTCI (CNRS URA 820)

Reconnaissance du locuteur

ObjectifEnregistrement de parole

�Extraction d’informations concernant le locuteur (identité, distinction

homme/femme, langue parlée)

Technique biom étrique : Couplage possible avec d’autres techniques d’identification (reconnaissance

visuelle)

ApplicationsIdentification

Reconnaı̂tre un locuteur parmis�

locuteurs potentiels (connus) Vérification

Décision d’acception/rejet : locuteur autorisé ou imposteur�modélisation de locuteurs inconnus

Reconnaissance du locuteur — 1


Reconnaissance par un auditeur humain

Tâche difficile même pour un auditeur humain !�Taux d’erreur (vérification) � 10%

Facteur s d’influence

- Durée des enregistrements

- Familiarité avec les locuteurs, ...�Bonne robustesse vis à vis du bruit, de la mauvaise qualité de l’enregistrement.

Imitation de la voix ?

Modification de paramètres de “haut niveau” : rythme d’élocution, accent régional, style linguistique, tics de

langage, pathologie vocale...

Possibilit é de travestissement de la voix

En général détectable par l’auditeur, diminue fortement les possibilités de reconnaissance



Rappels sur la production de la parole

In Advances in speech signal processing, S. Furui & M. Sondhi editors, c�

Marcel Dekker, 1991



Comple xit é de la tâche de reconnaissance

Facteur s négatifs

� Variabilité intra-locuteur� Influence des conditions d’enregistrement� Dérive temporelle� Eventuelles modifications intentionnelles



Modes de fonctionnement

Texte libre

Le moins contraignant (le moins performant !)

Texte fix é

Contraignant pour l’utilisateur, possibilité de couplage avec la reconnaissance d’un mot de passe

Texte sug géré (par le syst ème)

Annule le risque de fraude par enregistrement



Méthodes (en mode dépendant du texte)

Identiques au cas de la reconnaissance de la parole

1. Mesures de vecteurs paramètres à intervalles réguliers

2. Modélisation (par locuteur) à l’aide de modèle de Markov cachés

3. Décision basée sur la vraisemblance des données de test



Identification du locuteur

In Proc. ESCA Workshop ASRIV, 1994



Vérification de locuteur




Seuil de décision pour la vérification

Strat égies de normalisation du score de vraisemb lance

Problème : Imposteurs inconnus

1. “Modèle du monde”

�� !�#"$�

2. “Cohort normalization”

�� %�&

')( ��*�+,�-�� .� �0/ ' �

3. Approches discriminantes

�� !�21�3�4�



Techniques en mode ind épendant du texte

Problème plus ouver t

Inefficacité des contraintes temporelles liées à la matrice de transition des HMMs

Méthodes utilis és

� Modèle paramétrique: modèle de mélange de gaussiennes� Classificateur non-paramétrique: réseaux de neurones� 5 autres méthodes classiques de reconnaissance des formes



Modèle de mélang e de gaussiennes

�Modèle de données échangeables�Représentation paramétrique de la distribution de probabilité :

�-768�:9 ;� ( �=<

� � >6?�A@ ��BDC ��

−1 −0.5 0 0.5 1 1.5−1

−0.5

0

0.5laroche (MFCC, 15 s)

c(1)

c(2)

−1 −0.5 0 0.5 1 1.5−1

−0.5

0

0.5moulines (MFCC, 15 s)

c(1)

c(2)

−1 −0.5 0 0.5 1 1.5−1

−0.5

0

0.5selim (MFCC, 15 s)

c(1)

c(2)

−1 −0.5 0 0.5 1 1.5−1

−0.5

0

0.5terosier (MFCC, 15 s)

c(1)

c(2)

Représentation dans le plan EGF�H�IKJ7ELFNMGI (MFCC), 15 s de paroleReconnaissance du locuteur — 11


Modèle de mélang e de gaussiennes

−10

1

−1−0.5

00.5

−4

−2

0

2

c(1)

laroche (2 MIX)

c(2) −10

1

−1−0.5

00.5

−4

−2

0

2

c(1)

moulines (2 MIX)

c(2)

−10

1

−1−0.5

00.5

−4

−2

0

2

c(1)

selim (2 MIX)

c(2) −10

1

−1−0.5

00.5

−4

−2

0

2

c(1)

terosier (2 MIX)

c(2)

Modèle à 2 composantes



Modèle de mélang e de gaussiennes (cont.)

−10

1

−1−0.5

00.5

−4

−2

0

2

c(1)

laroche (8 MIX)

c(2) −10

1

−1−0.5

00.5

−4

−2

0

2

c(1)

moulines (8 MIX)

c(2)

−10

1

−1−0.5

00.5

−4

−2

0

2

c(1)

selim (8 MIX)

c(2) −10

1

−1−0.5

00.5

−4

−2

0

2

c(1)

terosier (8 MIX)

c(2)

Modèle à 8 composantes



Performances actuelles

Mode dépendant du texte

Suffisantes pour certaines applications : � 5% d’erreurs (vérification téléphonique)�Utilisation combinée avec la reconnaissance d’un mot de passe

(ex. carte PhonCard de SPRINT)

Problèmes : dérive temporelle, “sheeps and goats”

Mode ind épendant du texte

Sensibilité extrême aux conditions d’enregistrement (distorsions, présence de bruit)�Pas d’application effective à ce jour



Performances en mode ind épendant du texte


Figure 1: Performances d’identification en fonction du nombre de locuteurs


Documents

Reconnaissance du locuteur Objectif Applicationscappe/fr/Enseignement/verif.pdf · 2018. 12. 25. · Inefﬁcacite´ des contraintes temporelles liees´ a` la matrice de transition