18
HTK sous Windows

HTK : reconnaissance automatique de parole

Embed Size (px)

DESCRIPTION

Ce doc ça sert à vous donner les étapes de HTK (reconnaissances de paroles) il suffit de télécharger htk et les logiciels que vous allez trouver dans ce ptt

Citation preview

Page 1: HTK : reconnaissance automatique de parole

HTK sous Windows

Page 2: HTK : reconnaissance automatique de parole

2

On utilise le logiciel wavesurfer pour l’acquisition des fichiers sons du vocabulaire. Wavesurfer est un outil qui nous permet de lire un fichier son . ou même en créer un nouveau, de faire une analyse acoustique (durées, intensité) Nous allons utiliser wavesurfer pour créer nos fichiers sons.

Acquisition des fichiers sons:

Page 3: HTK : reconnaissance automatique de parole

Étiquetage des fichiers sons : La syntaxe de la Commande HSlab:

Le but de l'étiquetage est de délimiter chaque entité lexicale. Ceci sera fait manuellement avec le logiciel HSLab.

Nous allons utiliser un étiquetage par phonème.

Page 4: HTK : reconnaissance automatique de parole

4

Étiquetage des fichiers sons :

Le résultat de cette phase est une base de données des étiquettes des différents fichiers sons. (Les étiquettes sont dans le dossier labels)

HSlab

Les fichiers sons (.wav)

Les étiquettes (.lab)

Enregistrement et étiquetage des fichiers sons

Page 5: HTK : reconnaissance automatique de parole

5

Représentation acoustique du signal  :

HCopy

Les fichiers sons (.wav) (hcopyliste.conf)sittatoun.wavsittatoun1.wavsittatoun2.wav

Les Fichiers MFCC sittatoun.mfccsittatoun1.mfccsittatoun2.mfcc

Représentation acoustique du signal

Fichier de configuration parametrisation.conf

Après avoir acquis les fichiers sons, on construira une représentation acoustique du signal. On appellera la commande HCopy pour copier les fichiers contenants les cepstraux.

Page 6: HTK : reconnaissance automatique de parole

6

Représentation acoustique du signal  :On peut afficher ces coefficients avec la commande

Page 7: HTK : reconnaissance automatique de parole

7

Modèles de Markov

Exemple : du model en phonétique représentant le mot du vocabulaire wahidon

Fichiers gabarits

A chaque entité lexical (mot du vocabulaire) on va crée un fichier Gabarit (model) représentant l’entité lexical.

Page 8: HTK : reconnaissance automatique de parole

8

Modèles de Markov

Exemple : fichier gabarits/hi

<NumStates> : nombre d’état du modèle

<VecSize> : nombre de composantes du vecteur spectral

<state > : qui contient les lois d’émission <mean> et <variance>

<TransP> : contient les probabilité des transition entre les état du model (delimité par <TransP> et <EndHMM> )

l’énergie est initialisée par 0 et la variance par 1 et les probabilités de transition sont initialisées de valeur simple. Ces valeurs seront estimer et re-estimer dans la phase d’apprentissage

Page 9: HTK : reconnaissance automatique de parole

9

Apprentissage

Chaque modèle doit être appris : les moyennes, les variances et les probabilités de transition entre états sont ré-estimées jusqu'à ce qu'un seuil de convergence ou qu'un nombre maximum d'itération soient atteint.

Ceci est fait par l'algorithme de Viterbi.

Le fichier résultat de cette commande est hinit/hi

Page 10: HTK : reconnaissance automatique de parole

10

Apprentissage

Les modèles sont ensuite estimés de façon indépendante avec l’algorithme de Baum Welch en utilisant la commande HRest.

Pour chaque phonème on applique la commande HRest

Le fichier résultat de cette commande est hrest/wa.

Page 11: HTK : reconnaissance automatique de parole

11

Apprentissage

On peut améliorer l’apprentissage en utilisant la commande HERest sui se base sur l’algorithme de Baume – Welch pour ré-estimé tous els modèles a la fois.

La commande HERest utilise un fichier de configuration config/herest.conf et un fichier listes/listemodeles.txt et les fichiers résultats de HRest et la liste des fichiers MFCC listes/mfcc.lst et le dossiers labels/

Page 12: HTK : reconnaissance automatique de parole

12

Apprentissage

Le fichier résultat de cette commande est herest/ newMacros qui contient :

.

.

.

.

.

Page 13: HTK : reconnaissance automatique de parole

13

Reconnaissance

Grammaire du langage : On doit définir le modèle de notre langage ; la grammaire de notre langage est définie dans le fichier listes/modeleLangage.txt

Page 14: HTK : reconnaissance automatique de parole

14

Reconnaissance

Grammaire du langage : On doit définir le modèle de notre langage ; la grammaire de notre langage est définie dans le fichier listes/modeleLangage.txt

On va appliquer la commande HParse à cette grammaire pour générer le modeleDeMots .

Page 15: HTK : reconnaissance automatique de parole

15

Reconnaissance

Le résultat est un fichier listes/modeledemots.txt qui contient tous les mots de notre langage :

Page 16: HTK : reconnaissance automatique de parole

16

Reconnaissance

Dictionnaire du langage :

Un fichier listes/dictionnaire.txt contient le dictionnaire de notre langage :

La reconnaissance sera ensuite effectuée sur chaque fichier .

Page 17: HTK : reconnaissance automatique de parole

17

Reconnaissance

Le résultat est un fichier « .rec » pour chaque fichier à reconnaître.

Page 18: HTK : reconnaissance automatique de parole

18

Reconnaissance

L’évaluation des performances:Cette évaluation sera faite avec la commande HResults.On doit Étiqueter le fichier wahidr.wav

La syntaxe de la commande HResults: