HTK : reconnaissance automatique de parole

HTK sous Windows

2

On utilise le logiciel wavesurfer pour l’acquisition des fichiers sons du vocabulaire. Wavesurfer est un outil qui nous permet de lire un fichier son . ou même en créer un nouveau, de faire une analyse acoustique (durées, intensité) Nous allons utiliser wavesurfer pour créer nos fichiers sons.

Acquisition des fichiers sons:

Étiquetage des fichiers sons : La syntaxe de la Commande HSlab:

Le but de l'étiquetage est de délimiter chaque entité lexicale. Ceci sera fait manuellement avec le logiciel HSLab.

Nous allons utiliser un étiquetage par phonème.

4

Étiquetage des fichiers sons :

Le résultat de cette phase est une base de données des étiquettes des différents fichiers sons. (Les étiquettes sont dans le dossier labels)

HSlab

Les fichiers sons (.wav)

Les étiquettes (.lab)

Enregistrement et étiquetage des fichiers sons

5

Représentation acoustique du signal :

HCopy

Les fichiers sons (.wav) (hcopyliste.conf)sittatoun.wavsittatoun1.wavsittatoun2.wav

Les Fichiers MFCC sittatoun.mfccsittatoun1.mfccsittatoun2.mfcc

Représentation acoustique du signal

Fichier de configuration parametrisation.conf

Après avoir acquis les fichiers sons, on construira une représentation acoustique du signal. On appellera la commande HCopy pour copier les fichiers contenants les cepstraux.

6

Représentation acoustique du signal :On peut afficher ces coefficients avec la commande

7

Modèles de Markov

Exemple : du model en phonétique représentant le mot du vocabulaire wahidon

Fichiers gabarits

A chaque entité lexical (mot du vocabulaire) on va crée un fichier Gabarit (model) représentant l’entité lexical.

8

Modèles de Markov

Exemple : fichier gabarits/hi

<NumStates> : nombre d’état du modèle

<VecSize> : nombre de composantes du vecteur spectral

<state > : qui contient les lois d’émission <mean> et <variance>

<TransP> : contient les probabilité des transition entre les état du model (delimité par <TransP> et <EndHMM> )

l’énergie est initialisée par 0 et la variance par 1 et les probabilités de transition sont initialisées de valeur simple. Ces valeurs seront estimer et re-estimer dans la phase d’apprentissage

9

Apprentissage

Chaque modèle doit être appris : les moyennes, les variances et les probabilités de transition entre états sont ré-estimées jusqu'à ce qu'un seuil de convergence ou qu'un nombre maximum d'itération soient atteint.

Ceci est fait par l'algorithme de Viterbi.

Le fichier résultat de cette commande est hinit/hi

10

Apprentissage

Les modèles sont ensuite estimés de façon indépendante avec l’algorithme de Baum Welch en utilisant la commande HRest.

Pour chaque phonème on applique la commande HRest

Le fichier résultat de cette commande est hrest/wa.

11

Apprentissage

On peut améliorer l’apprentissage en utilisant la commande HERest sui se base sur l’algorithme de Baume – Welch pour ré-estimé tous els modèles a la fois.

La commande HERest utilise un fichier de configuration config/herest.conf et un fichier listes/listemodeles.txt et les fichiers résultats de HRest et la liste des fichiers MFCC listes/mfcc.lst et le dossiers labels/

12

Apprentissage

Le fichier résultat de cette commande est herest/ newMacros qui contient :

.

.

.

.

.

13

Reconnaissance

Grammaire du langage : On doit définir le modèle de notre langage ; la grammaire de notre langage est définie dans le fichier listes/modeleLangage.txt

14

Reconnaissance

Grammaire du langage : On doit définir le modèle de notre langage ; la grammaire de notre langage est définie dans le fichier listes/modeleLangage.txt

On va appliquer la commande HParse à cette grammaire pour générer le modeleDeMots .

15

Reconnaissance

Le résultat est un fichier listes/modeledemots.txt qui contient tous les mots de notre langage :

16

Reconnaissance

Dictionnaire du langage :

Un fichier listes/dictionnaire.txt contient le dictionnaire de notre langage :

La reconnaissance sera ensuite effectuée sur chaque fichier .

17

Reconnaissance

Le résultat est un fichier « .rec » pour chaque fichier à reconnaître.

18

Reconnaissance

L’évaluation des performances:Cette évaluation sera faite avec la commande HResults.On doit Étiqueter le fichier wahidr.wav

La syntaxe de la commande HResults:

Documents

HTK : reconnaissance automatique de parole