Simulations du VMike et évaluations comparatives

Simulations du VMike et évaluations

comparatives

Projet de recherche sur crédit incitatif GET 2005Page 2

Reconnaissance AV de la parole


Traitements audio

Extraction du signal audio

Détection des chiffres

Reconnaissance des chiffres:

• Paramètres acoustiques : MFCC• HMMs indépendants du contexte• Décodage : algo. de Viterbi

Bruitage de la parole• Bruit : Babble

Tests de reconnaissance


Traitements Vidéo

Extraction des vidéos

Localisation des lèvres

Interpolation des images

(même cadence que la parole)

Extraction des paramètres

• DCT et DCT2 (+LDA)• Projections :PRO et PRO2

(+LDA)

Tests de reconnaissance

0

5

10

15

20

25

30

35

40

45

50

1

PROPRO 2DCTDCT 2


Techniques de fusion

Fusion des paramètres :• Concaténation• Réduction de la dimension : LDA• Modélisation HMM classique avec un seul flux

Fusion des scores : Multistream HMM


Résultats expérimentauxFusion des paramètres

0

10

20

30

40

50

60

70

80

90

100

-15 -10 -5 0 5 10

audio seule

Pro2

DCT2

parm. Fus. Pro2

parm. Fus. DCT2


Résultats expérimentauxFusion des scores : -5db

42

43

44

45

46

47

48

49

50

51

52

Audio seul PRO PRO2 DCT DCT2

Audio seul

PRO

PRO2

DCT

DCT2


Bibliographie

G. Potamianos, C. Neti, G. Gravier, A. Garp, A. W. Senior. Recent Advances in the Automatic Recognition of Audiovisuel Speech. In IEEE? Vol. 91, pages 1306-1326. sept 2003.

J.N. Gowdy, A. Subramanya, C. Bartels, and J. Bilmes. DBN-Based Multi-Stream Models for Audio-Visual Speech Recognition IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, May 2004. Montreal, Canada

F. Brugger, L. Zouari, H. Bredin, A. Ameheaye, G. Chollet, D. Pastor et Y. Ni. Reconnaissance de la parole audiovisuelle par VMike. Accepté aux XVIèmes Journées d’Etude sur la Parole. Dinard 2006.

Documents

Simulations du VMike et évaluations comparatives