Upload
mouradz
View
1.667
Download
2
Embed Size (px)
Citation preview
République Tunisienne
Cycle de Formation Doctorale dans la
Discipline Génie Informatique
Ingénierie des Systèmes Informatiques
Thèse de DOCTORAT
N° d’ordre: 2008− 53/07
Ministère de l’Enseignement Supérieur, de la Recherche Scientifique et de la Technologie
Université de Sfax
Ecole Nationale d’Ingénieurs de Sfax
THESE
présentée à
l’Ecole Nationale d’Ingénieurs de Sfax (Département de Génie Informatiques et Mathématiques Appliquées)
en vue de l’obtention du
DOCTORAT
Dans la discipline Ingénierie des Systèmes Informatiques
Nouvelle thèse
par
Mourad ZAIED
(DEA – Automatique-informatique industrielle)
Etude des réseaux d’ondelettes Bêta : Application à la reconnaissance de visages
soutenue le 16 Février 2008, devant le jury composé de :
M. Mohamed JMAIEL Président
M. Mohamed GAMMOUDI Examinateur
M. Marc ANTONINI Rapporteur
M. Kamel HAMROUNI Rapporteur
M. Chokri BEN AMAR Membre
M. Mohamed Adel ALIMI Membre
2
Dédicace
Je dédie ce modeste travail à tous ceux qui me sont chers :
A ma très chère mère, pour son grand amour, pour sa patience dont elle a fait
preuve à mon égard, son soutien moral et les conseils précieux qu’elle n’a
cessé de me prodiguer.
A mon très cher père, en témoignage de profonde gratitude pour le dévouement
et les sacrifices qu’il a toujours consentis.
A mon frère Hammadi, pour son affection et sa générosité.
A mes adorables sœurs Faten et Jalila.
A tous les membres de ma grande famille.
A tous mes amis, et surtout Olfa, Salwa, Nizar, Ridha, ayda, Riadh, et Anis pour
leurs encouragements et leurs aides.
Mourad
3
REMERCIEMENTS
Mes sincères gratitudes à tous ceux qui ont contribué à la réalisation de
ce travail.
J’adresse mes vifs remerciements à Monsieur Adel ALIMI, Professeur à
l’ENIS et responsable du laboratoire REGIM, pour avoir bien voulu m’accepter
membre de son équipe de recherche et pour avoir accepté de m’encadrer dans
ce mémoire de thèse,
Je tiens à remercier plus particulièrement Monsieur, Chokri BEN AMAR
maître de conférence à l’ENIS et membre du laboratoire REGIM, pour avoir
bien voulu me co-encadrer, pour ses précieux conseils, pour ses remarques
pertinentes et pour ses encouragements incessants.
Je remercie également tous mes collègues à l’ISET de Gabès, à l’ENIG
et au laboratoire REGIM pour leurs gentillesses et leurs amabilités. En
particulier mes collègues et amies Madame Olfa Jmai et Madame Salwa Said
qui font partie de notre petite équipe de recherche sur les ondelettes.
Que tous mes sincères remerciements soient adressés à toute ma famille.
Enfin, J’exprime toute ma reconnaissance et ma haute considération à
Monsieur le président du jury, ainsi qu’à Messieurs les membres de jury qui ont
bien voulu me faire l’honneur de juger mon travail.
4
Table des matières Introduction Générale ............................................................................................................ 13
CHAPITRE I Reconnaissance de visages - État de l’art ............................................... 14
1. Introduction ....................................................................................................................... 15 2. Les méthodes globales de reconnaissance du visage ....................................................... 16
2.1. La reconnaissance à base de "L’eigenFaces'' (ACP) ................................................ 17 2.2. L’analyse à discrimination linéaire (ADL) ................................................................ 22 2.3. Les méthodes basées sur les réseaux neuronaux ....................................................... 25 2.4. Le modèle surfacique du visage (3D) ......................................................................... 28 2.5. La reconnaissance à base de déformations de type "morphing'' ............................... 29
3. Les méthodes locales de reconnaissance du visage .......................................................... 29 3.1. Les "EigenObjects" .................................................................................................... 30 3.2. “L’Elastic Bunch Graph Matching” (EBGM) .......................................................... 32 3.3. Les "HMM (Hidden Markov Models)" ....................................................................... 39 3.4. Les mesures et les "ratios" ......................................................................................... 40 3.5. Les Couleurs ............................................................................................................... 41
4. La Combinaison de classifieurs ........................................................................................ 42 5. Conclusion et approche retenue ....................................................................................... 42
CHAPITRE II Les Ondelettes et les réseaux d’ondelettes .............................................. 44
1. Introduction ....................................................................................................................... 45 2. Les ondelettes .................................................................................................................... 45
2.1. Historique ................................................................................................................... 45 2.2. L’analyse de Fourier .................................................................................................. 47 2.3. Inconvénients de l’analyse de Fourier ....................................................................... 48 2.4. Transformée en ondelettes continue ........................................................................... 50
2.4.1 Exemple de quelques ondelettes ........................................................................ 52 2.4.2 Propriétés nécessaires d’une ondelette mère .................................................... 53 2.4.3 Les propriétés souhaitables pour la construction d’une ondelette ................... 54 2.4.4 Conclusion ........................................................................................................ 55
3. Les réseaux de neurones ................................................................................................... 56 3.1. Introduction ................................................................................................................ 56 3.2. Historique – Généralités ............................................................................................ 56 3.3. Fondements biologiques des neurones ....................................................................... 58
3.3.1 Structure du neurone ......................................................................................... 59 3.3.2 Le corps cellulaire (ou soma) ........................................................................... 60 3.3.3 Les dendrites ..................................................................................................... 60 3.3.4 L’axone .............................................................................................................. 60 3.3.5 Fonctionnement des neurones ........................................................................... 60
3.4. Réseaux de neurones artificiels .................................................................................. 61 3.4.1 Le neurone formel ............................................................................................. 62 3.4.2 Structure ............................................................................................................ 62 3.4.3 Exemples de réseaux de neurones ..................................................................... 63
3.5. Conclusion .................................................................................................................. 66 4. Les réseaux d’ondelettes ................................................................................................... 66
5
4.1. Introduction ................................................................................................................ 66 4.2. Architectures des réseaux d’ondelettes ...................................................................... 67
4.2.1 Premier modèle des réseaux d’ondelettes .................................................................... 67 4.2.2 Deuxième modèle des réseaux d’ondelettes ................................................................ 69
4.3. Comparaison des réseaux d’ondelettes aux réseaux de neurones ............................. 70 4.4. Applications des réseaux d’ondelettes ....................................................................... 71
5. Conclusion ........................................................................................................................ 74
CHAPITRE III Proposition d’un nouvel algorithme d’apprentissage du ROZ ........... 75
1. Concepts théoriques du deuxième modèle des réseaux d’ondelettes ................................ 76 1.1. Introduction ................................................................................................................ 76 1.2. Les frames et les ROZ ................................................................................................ 76
1.2.1 La transformée discrète en ondelettes .............................................................. 76 1.2.2 Les frames ......................................................................................................... 77 1.2.3 Les ROZ ............................................................................................................. 79
1.3. Conclusion .................................................................................................................. 81 2. Apprentissage des réseaux d’ondelettes par la théorie des frames .................................. 82
2.1. Introduction ................................................................................................................ 82 2.2. Optimisation des réseaux d’ondelettes par la théorie des frames ............................. 82
2.2.1 Comment discrétiser la transformée continue pour obtenir une frame ? ......... 82 2.2.2 Constitution d’une bibliothèque d’ondelettes pour le réseau ........................... 83 2.2.3 Processus d’optimisation du réseau ................................................................. 85 2.2.4 Calcul direct des poids ...................................................................................... 87 2.2.5 Optimisation des poids dans le cas des frames ................................................. 90
2.3. L’apprentissage dans le cas d’un ROZ 2D ................................................................ 91 2.3.1 Introduction ....................................................................................................... 91 2.3.2 Les ondelettes bidimensionnelles ...................................................................... 91 2.3.3 Optimisation d’un ROZ 2D ............................................................................... 95
3. Conclusion ........................................................................................................................ 98
CHAPITRE IV Application des RO Bêta à La reconnaissance de visages .................... 99
1. Introduction ..................................................................................................................... 100 2. Les Ondelettes Bêta comme fonction d’activation .......................................................... 100
2.1. Les ondelettes Bêta 1D ............................................................................................. 100 2.2. Les ondelettes Bêta 2D ............................................................................................. 103
3. Reconnaissance de visage par ROB ............................................................................... 105 3.1. Approche utilisée pour la reconnaissance de visage par un RO ............................. 105
3.1.1 Introduction ..................................................................................................... 105 3.1.2 L’architecture de réseaux d’ondelettes pour la reconnaissance de visages et le principe d’apprentissage. ......................................................................................... 105 3.1.3 Présentation d’une image de test et processus de reconnaissance ................. 107 3.1.4 Détection d’une personne n’appartenant pas à la base d’apprentissage ..... 107 3.1.5 Architecture du réseau d’ondelettes en utilisant des vecteurs caractéristiques .................................................................................................................................. 109 3.1.6 Conclusion ...................................................................................................... 110
3.2. Approche utilisé pour la reconnaissance de visage par un ROZ ............................. 110 3.2.1 Introduction ..................................................................................................... 110 3.2.2 Mesure de la distance euclidienne entre deux réseaux d’ondelettes .............. 110 3.2.3 Représentation de visage avec ROZB2D pour une reconnaissance automatique .................................................................................................................................. 113
6
3.2.4 L’approche de la reconnaissance. .................................................................. 117 3.2.5 Conclusion ...................................................................................................... 121
4. Implémentation et Résultats ............................................................................................ 122 4.1. Introduction .............................................................................................................. 122 4.2. Mesure de la performance d’un algorithme de reconnaissance de visages ............ 123 4.3. Base d’images .......................................................................................................... 123
4.3.1 AT&T (ORL) ................................................................................................... 126 4.3.2 FERET ............................................................................................................. 127
4.4. Résultats de la base ORL ......................................................................................... 130 4.4.1 Utilisation du système CMC sur la base ORL .............................................. 132 4.4.2 Evaluation du système FRCM sur la base ORL ........................................... 133
4.5. Résultats de la base FERET ..................................................................................... 136 5. Conclusion ...................................................................................................................... 144
Conclusion et perspectives ................................................................................................... 145
Abréviations .......................................................................................................................... 147
Notations ............................................................................................................................... 149
7
Liste des Figures
Figure 1. Les étapes de reconnaissance de visages ................................................................ 15
Figure 2. Principales techniques de reconnaissance de visages .............................................. 16
Figure 3. Une version simplifiée d’un Espace de visages. ....................................................... 20
Figure 4. Image moyenne et les 15 premiers EigenFaces ........................................................ 21
Figure 5. Illustration du principe de séparation optimale des classes par le ADL .................. 22
Figure 6. Une architecture d’un réseau de neurones pour la reconnaissance de visage ........ 26
Figure 7. Image moyenne et les 6 premiers vecteurs propres pour l’oeil gauche et le nez ... 31
Figure 8. Représentation 3D et 2D de la partie réelle d’un filtre de Gabor ............................ 32
Figure 9. Orientation de l’ondelette ......................................................................................... 33
Figure 10. Fréquence centrale de l’ondelette .......................................................................... 34
Figure 11. Phase de l’ondelette ................................................................................................ 34
Figure 12: Support temporel de l’ondelette .............................................................................. 35
Figure 13. Forme de l’enveloppe Gaussienne .......................................................................... 35
Figure 14. Les 80 masques d’ondelettes de Gabor .................................................................. 36
Figure 15. La sélection de points caractéristiques ................................................................... 37
Figure 16. Création du treillis .................................................................................................. 37
Figure 17. Une représentation virtuelle d’un Face Bunch Graph ........................................... 38
Figure 18. Quelques distances utilisées pour la reconnaissance de visages ........................... 41
Figure 19. L’ondelette de Haar ................................................................................................ 52
Figure 20. Ondelette de Morlet ................................................................................................ 52
Figure 21. Ondelette chapeau mexicain ................................................................................... 53
Figure 22: Structure d’un neurone. .......................................................................................... 59
Figure 23. Schéma de principe d’un traitement cellulaire ....................................................... 61
Figure 24. Modèle de McCulloch et Pitts ................................................................................. 62
Figure 25. Modèle du PMC ...................................................................................................... 64
Figure 26 : Un réseau à base de fonction radiale .................................................................... 66
Figure 27. Réseau d’ondelettes modèle 1 (RO) ........................................................................ 69
Figure 28. Réseau d’ondelettes modèle 2 (ROZ) ...................................................................... 70
Figure 29. L’ondelette chapeau Mexicain à gauche et sa duale à droite ................................ 78
Figure 30: Une basee orthogonale, biorthogonale et une frame ............................................. 79
8
Figure 31. L’ondelette mère à gauche et Trois ondelettes dilatées et translatées ................... 80
Figure 32: Approximation d’une fonction f par un réseau de 3 ondelettes .............................. 80
Figure 33 . Echantillonnage sur une grille de l’espace temps-fréquence ................................ 83
Figure 34 : Les sept premières ondelettes de la bibliothèque et le signal à analyser .............. 84
Figure 35. Processus de calcul des poids et de la sortie du réseau ......................................... 86
Figure 36. Exemple d’ondelette bidimentionnelle .................................................................... 92
Figure 37. l’ondelette mère Chapeau Mexicain bidimensionnelle et son filtre associé ........... 94
Figure 38. un neurone d’un réseau d’ondelettes ROZ Bidimensionnelle ................................ 95
Figure 39. Les centres des ondelettes dans les trois premières échelles .................................. 96
Figure 40. Processus de calcul des poids et de la sortie du réseau dans le cas d’un ROZ2D . 96
Figure 41. Image à faire apprendre au ROZ2D ....................................................................... 97
Figure 42. Approximation de l’image de la figure précédente par un ROZ2D ....................... 97
Figure 43 : Les centres des ondelettes dans les trois premières échelles ................................ 98
Figure 44. Différentes formes de la fonction Bêta (x0=-1 ; x1=1). ....................................... 101
Figure 45. Les ondelettes Bêta1, Bêta2 et Bêta3 pour différentes valeurs de p et q ( p=q)... 102
Figure 46. Les ondelettes Bêta1, Bêta2 pour deux valeurs de p et q différentes .................... 103
Figure 47: L’ondelette Bêta1_1D(0,100,15,15) et sa duale ................................................... 103
Figure 48. Quelques fonctions Bêta bidimensionnelle et leurs filtres associés ..................... 104
Figure 49: principe de la méthode d’apprentissage ............................................................... 106
Figure 50. Exemple d’une personne reconnue par le système ............................................... 108
Figure 51. Exemple d’une personne non reconnue par le système ........................................ 108
Figure 52. Méthode d’apprentissage utilisant les eigenfaces et les RO ................................. 109
Figure 53. Image originale 140x80 ........................................................................................ 113
Figure 54: Approximation d’un visage sans et avec masque ................................................. 114
Figure 55. Spécificité d’un RO à un visage donnée ............................................................... 115
Figure 56: Image originale 140x80 ........................................................................................ 116
Figure 57: Sortie du réseau en fonction du nombre d’ondelettes utilisé ................................ 116
Figure 58: Reparamétrage d’un RO optimisé su un visage d’une personne .......................... 117
Figure 59: Une Superondelette optimisée sur une image ....................................................... 119
Figure 60: Reparamétrage de la superondelette de l’image f pour approximer l’image g ... 119
Figure 61: Le visage g à reconnaître ..................................................................................... 120
Figure 62: Les trois étapes de la phase de reconnaissance ................................................... 121
Figure 63: Les images d’une même personne de la base ORL ............................................... 126
Figure 64: Les 40 personnes de la base ORL ......................................................................... 127
9
Figure 65: Base d’images FERET : exemples d'images originales (dimension : 256×384) . 128
Figure 66: Comparaison des trois techniques de reconnaissance de visages basées sur le
réseaux d’ondelettes Bêta (système CMC sur Base ORL) ..................................................... 131
Figure 67. Comparaison de l’approche proposée (ROZB2D (frames) ) avec d’autres
techniques (système CMC sur la Base ORL) ......................................................................... 133
Figure 68: Comparaison de l’approche proposée (ROZB2D (frames) ) avec d’autres
techniques (système FRCM sur la Base ORL) ...................................................................... 135
Figure 69 : Comparaison de l’approche proposée (ROZB2D ) avec d’autres techniques
(système CMC sur la Base FERET, Catégorie fb) ................................................................. 137
Figure 70: Comparaison de l’approche proposée (ROZB2D (frames) ) avec d’autres
techniques (système CMC sur la Base FERET, Catégorie fc) ............................................... 139
Figure 71 : Comparaison de l’approche proposée (ROZB2D (frames) ) avec d’autres
techniques (système CMC sur la Base FERET, Catégorie duplicate I) ................................. 141
Figure 72 : Comparaison de l’approche proposée (ROZB2D (frames) ) avec d’autres
techniques (système CMC sur la Base FERET, Catégorie duplicate II) ............................... 143
10
Liste des Tableaux
Tableau 1. Les quatre possibilités qui apparaissent lors de la phase de reconnaissance ...... 19
Tableau 2. Taille des sections de la base d’images FERET ................................................. 129
Tableau 3. Comparaison des trois techniques de reconnaissance de visages basées sur le
réseau d’ondelettes Bêta (Système CMC sur la Base ORL) .................................................. 130
Tableau 4. Comparaison de l’approche proposée (ROZB2D (frames) ) avec d’autres
techniques (système CMC sur la Base ORL) ........................................................................ 132
Tableau 5. Comparaison de l’approche proposée (ROZB2D (frames) ) avec d’autres
techniques (système FRCM sur la Base ORL) ...................................................................... 134
Tableau 6: Comparaison de l’approche proposée (ROZB2D ) avec d’autres techniques
(système CMC sur la Base FERET, Catégorie fb) ................................................................. 136
Tableau 7. Comparaison de l’approche proposée (ROZB2D (frames) ) avec d’autres
techniques (système CMC sur la Base FERET, Catégorie fc) ............................................... 138
Tableau 8. Comparaison de l’approche proposée (ROZB2D ) avec d’autres techniques
(système CMC sur la Base FERET, Catégorie duplicate I) ................................................... 140
Tableau 9. Comparaison de l’approche proposée (ROZB2D) avec d’autres techniques
(système CMC sur la Base FERET, Catégorie duplicate II) .................................................. 142
13
Introduction Générale La reconnaissance des visages est pour nous une faculté naturelle, familière, bien plus
que les signaux que nous utilisons aujourd'hui pour communiquer avec une machine. Par
ailleurs le développement des algorithmes s'inscrit dans une démarche visant à rendre
l'ordinateur plus "humain", et va de pair avec la reconnaissance vocale et celle gestuelle.
Cette reconnaissance connait de nombreuses applications dans le domaine de la
sécurité. Citons la restriction d'accès à un lieu ou une machine et la criminologie (retrouver un
visage dans une base de données à partir d'un portrait robot), pour lesquelles des systèmes
sont déjà opérationnels.
Nous allons, dans le premier chapitre, présenter la notion de reconnaissance de visages
et les différents algorithmes utilisés dans ce domaine.
Dans le chapitre 2, nous présenterons en introduction les concepts théoriques des
réseaux d’ondelettes, la technique d’analyse en ondelettes et ses avantages en évoquant les
limites de l’analyse de Fourier. Ensuite, nous décrirons les réseaux de neurones artificiels
ainsi que leurs structures et nous finirons par la description des réseaux d’ondelettes. A ce
niveau, une comparaison entre les réseaux d’ondelettes et d’autres architectures neuronales
sera détaillée. Les architectures possibles des réseaux d’ondelettes seront présentées. Nous
citerons aussi les différentes applications des réseaux d’ondelettes et les divers travaux
effectués dans ce domaine.
Le chapitre 3, sera consacré à la proposition d’un nouvel algorithme d’apprentissage
rapide des réseaux d’ondelettes. Cet algorithme basé sur la théorie des frames, vient pour
remédier aux inconvénients des algorithmes d’apprentissage classique telle que la
rétropropagation de gradient.
Dans le chapitre 4, nous ferons la description des approches proposées et les principes
de la reconnaissance de visages avec deux architectures de réseau d’ondelettes différentes.
Nous détaillerons la procédure d’implémentation de ces réseaux, des expérimentations seront
faites afin de connaître leurs propriétés. Leurs performances seront comparées à d’autres
approches en faisant des tests sur différents visages de différentes bases suite à cette
implémentation.
Le présent mémoire sera clôturé par une conclusion sur les travaux présentés et
quelques perspectives visant l’amélioration des résultats obtenus.
CHAPITRE I
Reconnaissance de visages - État de l’art
Etude des RO Bêta : Application à la RV ZAIED
15
1. Introduction
Plusieurs techniques d’identification biométrique d’individus ont été développées au
cours des dernières années. Parmi elles, on distingue celle qui prend le visage comme une
zone d’analyse pour faire la reconnaissance. Cette approche est un problème de
reconnaissance des formes assez complexe. En effet, contrairement à certaines
problématiques comme la reconnaissance des caractères manuscrits, le nombre de classes à
distinguer est très élevé et chacune ne possède qu’un nombre restreint d’exemples. Ces
conditions particulières nuisent à certaines techniques d’apprentissage automatique qui
nécessitent un grand nombre de données pour un apprentissage efficace.
Grace aux travaux de plusieurs chercheurs, les machines peuvent actuellement
différencier un visage humain d’un autre, et en particulier de chercher un visage dans une
large base de visages. Un système qui permet la reconnaissance automatique de visages dans
une image voit ces applications dans plusieurs domaines, à savoir : la surveillance dans les
aéroports, la recherche des suspects dans le domaine criminologique, l’accès contrôlé aux
sites privés, interactivité homme-ordinateur avancée, etc.
La reconnaissance de visage est une étape parmi quatre étapes de l’opération
d’identification d’une personne par son visage. La chaîne d’identification est constituée donc,
de la phase de l’acquisition de l’image ou de la vidéo, la détection du visage dans la scène, la
normalisation et enfin la reconnaissance de l’identité de la personne.
Figure 1. Les étapes de reconnaissance de visages
Normalisation Reconnaissance
DétectionAcquisition
Etude des RO Bêta : Application à la RV ZAIED
16
En gros, ces techniques sont divisées en deux grandes catégories : les méthodes
globales, là où on analyse l’intégralité du visage pour des fins de reconnaissance, et les
méthodes locales qui exploitent les éléments de visages tels que le nez, la bouche et les yeux
pour l’analyse et la reconnaissance. Plusieurs techniques appartenant aux deux familles seront
donc décrites dans ce chapitre, entre autres les EigenFaces, les LDA, les réseaux de neurones,
les GraphMatching, etc.
Figure 2. Principales techniques de reconnaissance de visages
2. Les méthodes globales de reconnaissance du visage
La première grande famille de méthodes de reconnaissance concerne celles qui utilisent
le visage au complet comme source d’information et ce, sans segmentation de ses parties.
Dans la majorité des cas, les images sont représentées par un vecteur de pixels généré
par la concaténation de toutes les colonnes de l’image. Ainsi, une image en niveaux de gris de
dimensions de 130×150 pixels possédera une représentation vectorielle de 19 500 éléments.
Techniques de
Reconnaissance de Visages
Mesures et ratios
PCA
EigenObjects
EBGM
Couleurs (yeux,peau,…)
HMM
Méthodes locales
Réseaux neuronaux
LDA
Méthodes globales
Etude des RO Bêta : Application à la RV ZAIED
17
Finalement, les couleurs ne sont pas habituellement utilisées par les méthodes globales de
reconnaissance, ce qui simplifie un grand nombre d’opérations.
2.1. La reconnaissance à base de "L’eigenFaces'' (ACP)
Il est pratiquement impossible de concevoir un système de reconnaissance du visage
sans envisager la technique très populaire des EigenFaces, introduite en 1991 par Turk et
Pentland (Turk, 1991).
"EigenFaces'' veut dire en allemand visages propres. Cette méthode est tout d’abord
basée sur une analyse en composantes principales (ACP) ou "Principal Component Analysis"
en anglais, appliquée sur l’ensemble de visages d’une base d’entraînement.
Elle consiste essentiellement à effectuer une réduction de dimensionnalité en codant les
visages dans une nouvelle base formée par les premiers vecteurs propres (c'est-à-dire
EigenFaces) provenant du calcul de l’ACP.
Les EigenFaces associés aux plus fortes valeurs propres représentent donc, dans
l’espace des images, les directions dans lesquelles les variations sont les plus marquées.
C’est ainsi que les premiers visages propres représentent habituellement les différences
d’éclairage ainsi que les personnes portant des lunettes ou une barbe.
Apprentissage:
La phase d’apprentissage (ou de modélisation) des EigenFaces se déroule comme suit :
1. Un visage moyen Ψ est calculé à partir de N images d’entraînement I, de dimension
LxH :
1
1 N
ii
IN =
Ψ = ∑ (1)
2. Ce visage moyen est soustrait des images d’apprentissage (on élimine donc les
ressemblances pour se concentrer sur les différences), ce qui génère les vecteurs de
différences iΦ associés à chacune des images :
i iIΦ = −Ψ (2)
Etude des RO Bêta : Application à la RV ZAIED
18
3. La matrice de covariance C est construite ainsi (approche inter-pixels)
1
1 NT
i ii
CN =
= Φ Φ∑ (3)
Etant donné les dimensions élevées de C (LH × LH), une approche inter-images est
privilégiée. Le calcul se limite (Turk, 1991) à une matrice L = ATA dépendant du nombre
d’images dans la base d’apprentissage (c'est-à-dire N × N).
Chacune des colonnes de A représente un vecteur de différences, soit 1 2[ , ,..., ]NA φ φ φ=
4. Calcul des valeurs et vecteurs propres de la matrice L.
5. Le visage propre ui associé à la ième valeur propre est formé en utilisant les vecteurs
propres vi de la matrice L :
1
N
i ik kk
u v=
= Φ∑ (4)
6. Les M premiers vecteurs propres (EF) (c'est-à-dire qui sont associés aux plus fortes
valeurs propres) sont conservés. Ils définissent ainsi l’espace des visages (face space) ;
7. Les images originales sont projetées dans l’espace des visages pour former une suite de
coefficients d’appartenance, ce qui donne pour une image Ii ;
Où k = 1, ..., M ;Tk k kuω = Φ (5)
8. Ces coefficients forment alors un vecteur représentant l’image Ii :
[ ]1 2, ,...,i Mω ω ωΩ = (6)
Une fois l’apprentissage complété, les différentes représentations d’un individu peuvent
être regroupées afin de former une classe. Ceci peut être réalisé notamment en calculant une
moyenne des différents vecteurs i correspondants à la personne (Turk, 1991).
Etude des RO Bêta : Application à la RV ZAIED
19
Reconnaissance
Lorsqu’un visage est présenté au système, la procédure d’identification consiste à :
1. Projeter l’image d’entrée I dans l’espace des visages, ce qui engendre un coefficient
d’appartenance wk à un EigenFace uk en utilisant l’équation (5).
2. Les coefficients d’appartenance forment alors un vecteur de représentation de taille M;
Ce dernier est comparé avec ceux obtenus lors de la phase d’apprentissage en appliquant
une métrique de distance particulière telle que la distance euclidienne ou la distance de
Mahalanobis (Morizet, 2006).
Il y a alors, quatre possibilités (Tableau 1 et Figure 3) pour une image d’entrée à être
reconnue ou non : Dans le cas 1, un individu est reconnu et identifié. Dans le cas 2, un
individu inconnu est présent. Les deux derniers cas (3 et 4) indiquent que l’image n’est pas
une image de visage. Pour le cas 3, l’image est éloignée de l’espace de visages (EV) mais la
projection est proche d’une classe connue. On parle alors de fausse acceptation (Morizet,
2006)
Tableau 1. Les quatre possibilités qui apparaissent lors de la phase de reconnaissance
Espace des Visages Classes de Visages
Cas 1 Proche Proche
Cas 2 Proche Eloigné
Cas 3 Eloigné Proche
Cas 4 Eloigné Eloigné
Etude des RO Bêta : Application à la RV ZAIED
20
Figure 3. La projection d’une image dans un EV, il y a deux vecteurs propres (u1 et u2) et trois classes d’individus connus
Ajout d’une personne
Lorsqu’une nouvelle personne est ajoutée à la base de données, la méthode classique
consiste à refaire l’apprentissage complet (c'est-à-dire l'ACP pour déterminer les nouveaux
visages propres). Il existe cependant deux alternatives à cette solution.
Premièrement, lorsque la base d’apprentissage est relativement grande et que les visages
qu’on y retrouve sont représentatifs, il est possible d’utiliser directement les Eigenfaces
existants afin de calculer les coefficients de projection des nouvelles images.
Il serait par contre intéressant à long terme (et après plusieurs ajouts de personnes) de
réaliser un ré-apprentissage complet afin d’obtenir des visages propres plus représentatifs de
la base de données.
La deuxième méthode est relativement récente et repose sur une fusion d’espaces de
visages (Morizet, 2006). Il est en effet possible de fusionner deux "face space sans toutefois
nuire au processus de reconnaissance (par exemple altération des visages propres). Ainsi en
pratique, un espace temporaire est généré à partir des nouvelles images pour être ensuite
fusionné avec l’espace principal.
Cette opération est également avantageuse en terme de temps de calcul (Franco, 2002)
comparativement à un recalcul complet. Par ailleurs, comme l’espace des visages est modifié,
Etude des RO Bêta : Application à la RV ZAIED
21
il est primordial de re-projeter tous les visages d’entraînement en vue de reconstruire les
représentations.
Figure 4. L’image moyenne et les 15 premiers EigenFaces
Conclusion
Tout d’abord, l’algorithme ACP est une méthode globale utilisant, en premier lieu, les
niveaux de gris des pixels d’une image, mais il est sensible à la variation de contraste avec
une forte sensibilité aux changements d’éclairement, de pose et d’expression faciale.
Néanmoins, le ACP est connu par sa simplicité à mettre en œuvre et il ne nécessite aucune
connaissance à priori sur l’image.
Le principe selon lequel on peut construire un sous-espace vectoriel en ne retenant que
les "meilleurs" vecteurs propres, tout en conservant beaucoup d’information utile, fait du ACP
un algorithme efficace et couramment utilisé en réduction de dimensionnalité où il peut alors
Etude des RO Bêta : Application à la RV ZAIED
22
être utilisé en amont d’autres algorithmes (comme l’analyse à discrimination linéaire par
exemple). Enfin, l’étude théorique de l’algorithme ACP est très pédagogique et permet
d’acquérir de solides bases pour la reconnaissance 2D d’un visage.
2.2. L’analyse à discrimination linéaire (ADL)
L’algorithme LDA est né des travaux de Belhumeur et al. de la Yale University (USA)
(Morizet, 2006), en 1997. Il est connu aussi sous le nom de Fisherfaces.
Contrairement à l’algorithme ACP, l’algorithme LDA effectue une véritable séparation
de classes (Figure 1). Pour pouvoir l’utiliser, il faut donc au préalable organiser la base
d’apprentissage d’images en plusieurs classes : une classe par personne et plusieurs images
par classe (Zhao, 1998).
Le LDA analyse les vecteurs propres de la matrice de dispersion des données, avec pour
objectif de maximiser les variations inter-classes tout en minimisant les variations intra-
classes.
Figure 5. Illustration du principe de séparation optimale des classes par le ADL
Etude des RO Bêta : Application à la RV ZAIED
23
Tout comme dans le ACP, on rassemble les images de la base d’apprentissage dans une
grande matrice d’images Γ où chaque colonne représente une image iΓ , puis on calcule
l’image moyenneΨ . Ensuite, pour chaque classe iC , on calcule l’image moyenne iC
Ψ :
1
1 i
i
q
kCkiq =
Ψ = Γ∑ (7)
Avec iq , le nombre d’images dans la classe iC .
Chaque image iΓ de chaque classe iC est ensuite recentrée par rapport à la moyenne.
On obtient alors une nouvelle image iφ :
ii i Cφ = Γ −Ψ (8)
1. On calcule ensuite les différentes matrices de dispersion. On notera c le nombre total de
classes, iq le nombre d’images dans la classe iC et M le nombre total d’images.
2. La Matrice de Dispersion Intra-Classe ( wS )
1
( )( )i i
k i
cT
w k C k Ci C
S= Γ ∈
= Γ −Ψ Γ −Ψ∑ ∑ (9)
3. La Matrice de Dispersion Inter-Classe ( bS )
1
( )( )i i
cT
b i C Ci
S q=
= Ψ −Ψ Ψ −Ψ∑ (10)
4. La Matrice de Dispersion Totale ( TS )
1
( )( )M
TT i i
i
S=
= Γ −Ψ Γ −Ψ∑ (11)
Etude des RO Bêta : Application à la RV ZAIED
24
Une fois, ces matrices calculées, nous devons trouver une projection optimale W qui
maximise la dispersion intraclasse, relative à la matrice wS , tout en minimisant la dispersion
inter-classe, relative à la matrice bS .
En d’autres termes, nous devons trouver W qui maximise le critère d’optimisation de
Fisher ( )J t :
arg max( ( ))T
W J T= (12)
max( ( )) |T
b
Tw
T S TJ T T W
T S T⇒ = = (13)
W peut être alors trouvé en résolvant le problème généralisé aux valeurs propres :
b w wS W S Wλ= (14)
Une fois W est trouvé, le même schéma que l’ACP concernant la projection des images
apprises ainsi que la projection d’une image test est appliqué.
Ainsi, la projection vectorielle d’une image apprise réajustée par rapport à la moyenne
iΦ est définie par :
( ) Ti ig WΦ = Φ (15)
La phase de reconnaissance d’une image test tΦ s’effectue en projetant tΦ sur TW :
( ) Tt tg WΦ = Φ (16)
Enfin, on effectue une mesure de distance entre l’image test et l’image projetée sur
l’espace vectoriel engendré par WT. Par exemple, pour la distance Euclidienne, on calcule la
distance tid :
Etude des RO Bêta : Application à la RV ZAIED
25
( ) ( )ti t id g g= Φ − Φ (17)
d’où :
2
1( ( ) ( ))
c
ti t ik
d g g=
= Φ − Φ∑ (18)
Finalement, une image test est dans la classe dont la distance est minimale par rapport à
toutes les autres distances de classe.
Conclusion
On peut dire que l’algorithme ADL permet d’effectuer une véritable séparation de
classes, selon un critère mathématique qui minimise les variations entre les images d’un
même individu (variations intra-classe) tout en maximisant les variations entre les images
d’individus différents (variations inter-classes). Cependant, pour des problèmes "sous-
échantillonnés" en reconnaissance du visage, c’est-à-dire lorsque le nombre d’individus à
traiter est plus faible que la résolution de l’image, il est difficile d’appliquer le ADL qui peut
alors faire apparaître des matrices de dispersions singulières (non inversibles). Afin de
contourner ce problème, certains algorithmes basés sur le ADL ont récemment été mis au
point (par exemple, les algorithmes UADL, OADL, NADL).
2.3. Les méthodes basées sur les réseaux neuronaux
Les réseaux de neurones sont utilisés comme approches pour résoudre plusieurs
problèmes de reconnaissance de formes.
Pour la reconnaissance de visages, les réseaux de neurones sont utilisés comme engin
d’apprentissage et de reconnaissance. Une architecture "MLP" (Multi-Layer Perceptron) est
généralement utilisée.
Pour débuter, une image brute (ou prétraitée) de dimensions fixes constitue
habituellement la source d’entrée des réseaux. Les dimensions doivent être établies au
préalable car le nombre de neurones sur la couche d’entrée en dépend.
Etude des RO Bêta : Application à la RV ZAIED
26
Cela étant dit, plus les dimensions de l’image sont élevées, plus la complexité et le
temps d’apprentissage augmentent. En effet, pour une image de dimensions 130×150 pixels,
19 500 neurones seront requis sur la couche d’entrée, ce qui est énorme. L’apprentissage
efficace (c'est-à-dire la convergence) d’un tel réseau est également douteux.
Le nombre de sorties du réseau dépend par ailleurs directement de la quantité
d’individus à discriminer. Il est donc évident qu’un apprentissage incrémental (avec de
nouveaux individus et non de nouveaux exemples) sera difficile et requerra des ajustements
directs à l’architecture.
Certains auteurs ont d’ailleurs utilisé des variantes de la technique de base en modifiant
les données d’entrée. Les coefficients de projections d’images dans un espace des visages
(EigenFaces) peuvent par exemple être utilisés comme source d’informations (Jamil, 2001).
Cette méthode peut évidemment être étendue aux coefficients de DCT (HEl-Bakry, 2000) par
exemple.
L’utilisation des "eigenface" diminue d’une façon claire la complexité de système. La
reconnaissance et d’apprentissage sont plus rapides à cause de la réduction de la taille du
vecteur d’entrée.
La figure suivante montre une architecture typique d’un réseau de neurones pour la
reconnaissance de visages. Nous avons une couche d’entrée contenant les m neurones qui
vont recevoir les vecteurs caractéristiques des visages. Les neurones de cette couche sont
connectés aux neurones de couches de sortie via une ou plusieurs couches de sortie
(Multicouche). Chaque neurone est connecté à la couche suivante par une connexion
contenant un poids.
Figure 6. Une architecture d’un réseau de neurones pour la reconnaissance de visages
w11 x1
xj
xm
Identité 1
Identité n
w1j
w1m
v11
v1m
Etude des RO Bêta : Application à la RV ZAIED
27
Apprentissage
Dans la plupart des cas de reconnaissance de visages par réseaux de neurones,
l’algorithme de la rétropropagation est utilisé pour l’apprentissage en essayant de réduire
l’erreur commise par le réseau sur les exemples de la base d’apprentissage en corrigeant ces
poids.
La fonction de coût quadratique pour mesurer cette erreur est appliquée.
L’apprentissage vise alors à minimiser le coût empirique, donné par la quantité :
( ) ( )( )2
12 1
TE t ty yd
t= −∑
= (19)
Où y(t) est la sortie réelle obtenue par le réseau et yd(t) celle désirée.
A chaque itération de cet algorithme, un exemple est présenté au réseau (paire
entrée/sortie). On propage le calcul d’une couche à une autre jusqu’à la couche de sortie.
L’algorithme d’apprentissage consiste à modifier les paramètres dans la direction opposée au
gradient de la fonction d’erreur. La modification des différents paramètres s’effectue en
appliquant les formules suivantes (B. Kjetil, 2002):
( 1) ( ) Et t Avecωω ω μ ω ωω∂
+ = + Δ Δ = −∂
(20)
( 1) ( ) Ev t v t v Avec vωμ ω∂
+ = + Δ Δ = −∂
(21)
Reconnaissance
Une fois le réseau entraîné par un algorithme d’apprentissage, il doit être prêt à
identifier des images de visages qu’on lui présente. L’image de test inconnue est transformée
en un vecteur présenté comme entrée au réseau de la même manière que les images de
l’apprentissage. Si le réseau est entraîné d’une manière correcte, il derva donner une sortie
exacte. L’image de test ne doit absolument pas être choisie parmi les images de
l’apprentissage, mais d’autres bases d’images doivent être réservées aux tests.
Etude des RO Bêta : Application à la RV ZAIED
28
Quelques approches utilisant les réseaux de neurones associés au "Eigenface" ou à la
"DCT" sont testées sur des bases contenant 200 images, avec 20 images pour chaque individu.
Les images contiennent des visages avec différentes orientations et échelles. Les résultats ont
montré que ces réseaux peuvent reconnaître correctement 98% des visages (El-Bakry, 2000).
Conclusion
Les réseaux de neurones sont utilisés dans plusieurs domaines de reconnaissance de
formes, parmi les quelles la reconnaissance de visages. Ces réseaux ont montré leurs preuves
avec des taux de reconnaissances élevés. La représentation d’une image à l’entrée du réseau et
l’apprentissage sont deux facteurs cruciaux pour aboutir à de bons résultats. Le nombre des
couches cachées, le couplage entre les composants du réseau et la fonction de transfert sont
des éléments vitaux pour décider de la fonctionnalité et la performance d’un système de
reconnaissance de visages basées sur les réseaux de neurones
Les taux de reconnaissances d’un tel système dépendent de la taille des bases
d’apprentissage, du test et du nombre d’images par personne.
Le temps d’apprentissage augmente avec le nombre d’images de la base
d’apprentissage, mais une fois l’apprentissage achevé, la reconnaissance est relativement
rapide. La reconnaissance dépend uniquement de la structure du réseau, mais pas du nombre
de visages d’apprentissage.
2.4. Le modèle surfacique du visage (3D)
La prochaine méthode de reconnaissance repose sur l’utilisation d’un modèle
tridimensionnel du visage. Pour que cette technique soit réellement efficace, une vue
rapprochée du visage est nécessaire pour chacune des caméras impliquées dans l’acquisition
(Bronstein, 2002) ( Bronstein, 2003) (Blanz, 1999).
Dans certains cas, il est possible de réaliser de la stéréo dense, c’est-à-dire d’extraire un
grand nombre de points dans une zone relativement restreinte. Celle-ci garanti alors de
meilleures précisions sur les mesures ainsi qu’une résolution accrue. Une fois l’appariement
des points réalisé, le modèle peut être normalisé et stocké dans la base de données.
Lorsqu’un individu se présente devant les caméras, la même procédure va s’appliquer,
mais suivie d’une étape de comparaison. En effet, le modèle à reconnaître doit être comparé à
tous les modèles de la base de données, ce qui représente un travail colossal.
Etude des RO Bêta : Application à la RV ZAIED
29
Une réduction de calculs est donc impérative pour minimiser la complexité de ce
problème d’optimisation.
Ceci peut être réalisé en alignant les centres des yeux des deux modèles. Il ne reste alors
qu’à mesurer l’erreur entre les deux surfaces. Certains auteurs (Achemann, 2000) ont
d’ailleurs proposé l’utilisation d’une distance d’Hausdorff modifiée pour réaliser ce calcul.
Il est finalement envisageable de prélever certaines mesures sur le modèle du visage,
comme la distance réelle entre les composantes du visage (par exemple distance entre les
yeux) ou leurs dimensions. Ces informations pourraient être utilisées ensuite pour la
reconnaissance, tout comme dans la technique suivante de prises de mesures morphologiques.
2.5. La reconnaissance à base de déformations de type "morphing''
L'approche consiste, à partir de deux photos de visages, à définir d'abord une
déformation de l'espace permettant de superposer ces deux images, puis à calculer l'énergie de
cette déformation pour décider s'il s'agit de la même personne (Choi, 1991) (Edwards, 1996).
Ceci nécessite une extraction automatique de paramètres permettant de calculer la
déformation, puis l'énergie de déformation. On utilise ici le modèle de plaque mince introduit
par Bookstein en 1989. Pour traiter séparément les variations systématiques dues aux
conditions d'acquisition des données (éclairage, orientation du visage, expressions faciales,
coiffure) et les variations biométriques qui permettent d'identifier et de différencier les visages
(distance entre les yeux, le nez et la bouche, etc..), on relaxe les conditions d'interpolation:
l'énergie est alors la somme d'une énergie de déformation et d'une énergie représentant l'écart
entre les points transformés et les points de référence. On attribue à chacun des huit points
caractéristiques un poids dépendant de sa variance spatiale moyenne au sein d'une même
classe.
3. Les méthodes locales de reconnaissance du visage
Le principal désavantage des méthodes globales réside au niveau des détails utilisés. En
effet, lorsqu’une technique s’attarde aux variations dans toute une image, elle tentera de
limiter l’impact des changements locaux et concentrera le maximum d’énergie pour
représenter adéquatement l’ensemble d’images (par exemple l'EigenFaces). Par contre, il
arrive parfois que des personnes possèdent une physionomie faciale très semblable, mais que
Etude des RO Bêta : Application à la RV ZAIED
30
certains petits détails diffèrent énormément . Ce serait le cas par exemple d’une personne
possédant un nez imposant.
En utilisant une méthode locale, d'avantage d’énergie sera accordée aux détails locaux
assez fins, ce qui évite ainsi le bruit causé par les cheveux, les chapeaux, la barbe, etc. De
plus, certaines parties du visage sont relativement identiques pour une même personne malgré
le changement de certaines expressions faciales; c’est le cas notamment des yeux et du nez.
Ceci demeure vrai tant que ces caractéristiques du visage ne sont pas en occultation. Les
paragraphes qui suivent porteront essentiellement sur les principales techniques de
reconnaissance locales.
3.1. Les "EigenObjects"
La méthode des EigenObjects est avant tout une application plus ciblée des EigenFaces
ayant des zones spécifiques du visage comme régions d’intérêt. Étant donné que certaines
parties du visage sont moins affectées par les expressions faciales, il est intéressant de s’y
attarder pour extraire de l’information. C’est le cas surtout des yeux et du nez, qui demeurent
presque les mêmes pour une même personne et ce, quelle que soit son expression faciale
(Pentland, 1994).
La première étape de prétraitement consiste, tant en phase d’apprentissage qu’en phase
de reconnaissance, à localiser les parties importantes à l’intérieur du visage. La précision du
module de détection du visage est donc cruciale.
Contrairement aux visages, les yeux et le nez se ressemblent davantage entre eux, ce qui
rend les fausses identifications plus fréquentes. Par contre, grâce à la concaténation des
représentations individuelles, certaines ressemblances peuvent être éliminées.
Evidemment, la performance de cette technique dépend fortement de l’efficacité de la
segmentation. Les cas d’occultations (par exemple port de lunettes fumées ou yeux fermés)
nuisent à leur tour aux EigenObjects en y ajoutant du bruit, causant en conséquence de fausses
identifications (Phillips, 2000) (Lemieux, 2003).
Apprentissage
Etude des RO Bêta : Application à la RV ZAIED
31
Afin d’appliquer la technique des EigenFaces sur les parties des visages, les sous-
images doivent être avant tout extraites et regroupées en trois ensembles (yeux, nez et
bouche). Celles-ci sont utilisées pour calculer les ACP correspondantes, procédure qui génère
de nouvelles bases associées à chacun des EigenObjects.
La phase d’apprentissage utilisée est identique à celle présentée précédemment à la
sous-section EigenFaces. La seule différence réside au niveau du nombre d’opérations à
réaliser. Celui-ci dépend, en effet, de la quantité de caractéristiques à reconnaître.
Les coefficients de projection de chaque caractéristique sont calculés et concaténés
ensemble pour former un seul et unique vecteur pour chaque image. Cette représentation
unifiée facilite légèrement la gestion et le nombre d’opérations à réaliser lors de la phase
d’identification (Phillips, 2000) (Lemieux, 2003).
Reconnaissance
Lors de la phase d’identification, les sous-images représentant les caractéristiques du
visage sont extraites et utilisées indépendamment selon la procédure de reconnaissance des
EigenFaces (Pentland, 1994).
Les représentations individuelles sont ensuite concaténées pour former le vecteur unifié
qui est comparé à celles de la base d’apprentissage en utilisant l’algorithme de comparaison
des distances (Pentland, 1994) (Lemieux, 2003).
Figure 7. EigenObjects: Image moyenne ainsi que les 6 premiers vecteurs propres pour : a) l’oeil gauche et b) le nez
Etude des RO Bêta : Application à la RV ZAIED
32
3.2. “L’Elastic Bunch Graph Matching” (EBGM)
L’algorithme EBGM est né des travaux de Wiskott et al. de la Southern California
University (USC - USA) et de la Rurh University (Allemagne), en 1997 (Morizet, 2006).
À partir d’une image de visage, on localise des points caractéristiques (coins des yeux,
de la bouche, nez, etc.). Cette localisation peut se faire manuellement ou automatiquement à
l’aide d’un algorithme (Arca, 2005).
Un treillis élastique virtuel est ensuite appliqué sur l’image de visage à partir de ces
points. Chaque point représente un noeud labélisé auquel on associe un jeu de coefficients
d’ondelettes complexes de Gabor, appelés Jet. Pour effectuer une reconnaissance avec une
image test, on fait une mesure de similarité entre les différents Jets et les longueurs des
segments du treillis de deux images.
Un Jet est basé sur une transformée en ondelettes (Hubbard, 1995), défini comme la
convolution d’une image avec une famille de noyaux de Gabor. Ces noyaux de Gabor peuvent
être assimilés à des ondes localisées dans le temps, modulées par une Gaussienne (Figure 14).
On peut parler de transformée en ondelettes car la famille des noyaux de Gabor est
générée à partir d’une ondelette mère par translation, dilatation et rotation.
Figure 8. Représentation 3D (à gauche) et 2D (à droite) de la partie réelle d’un filtre de Gabor
Etude des RO Bêta : Application à la RV ZAIED
33
Dans l’algorithme EBGM, les ondelettes de Gabor sont des fonctions de type
( , , , , )f θ λ φ σ γ . Voici une explication des 5 paramètres :
L’orientation de l’ondelette ( )θ
Ce paramètre fait pivoter l’ondelette autour de son centre. L’orientation de l’ondelette
détermine l’angle des contours ou des lignes de l’image auxquelles l’ondelette va être
sensible.
Figure 9. Orientation de l’ondelette
La fréquence centrale de l’ondelette λ
Ce paramètre spécifie la longueur d’onde du cosinus ou inversement la fréquence
centrale de l’ondelette. Les ondelettes avec une grande longueur d’onde seront sensibles à des
changements progressifs d’intensité dans une image. Les ondelettes avec une petite longueur
d’onde seront sensibles à des contours et des lignes abruptes.
Etude des RO Bêta : Application à la RV ZAIED
34
Figure 10. Fréquence centrale de l’ondelette
La phase de la sinusoïde φ
On utilise à la fois la partie réelle et la partie imaginaire de l’ondelette complexe de
Gabor. Ce qui nous donne, en quelque sorte, deux ondelettes : une ondelette paire et une
ondelette impaire. La convolution (incluant alors deux phases) donne un coefficient
complexe basé sur deux ondelettes qui sont déphasées de 2π
Figure 11. Phase de l’ondelette
Etude des RO Bêta : Application à la RV ZAIED
35
Le support temporel de l’ondelette σ
Ce paramètre spécifie le rayon de la Gaussienne. La taille de la Gaussienne détermine la
quantité de pixels de l’image qui vont être pris en compte dans la convolution.
Figure 12: Support temporel de l’ondelette
L’enveloppe de la Gaussienne γ
Ce paramètre agit sur la forme de l’enveloppe Gaussienne, en l’étirant spatialement. Ce
paramètre a été inclus de manière à ce que les ondelettes puissent approximer certains
modèles biologiques.
La plupart des ondelettes testées avec l’algorithme EBGM du CSU System 5.0
(Morizet, 2006) utilisent une enveloppe Gaussienne avec γ = 1.
Figure 13. Forme de l’enveloppe Gaussienne
Etude des RO Bêta : Application à la RV ZAIED
36
En utilisant 5 fréquences différentes, 8 orientations différentes, et 2 phases différentes.
On obtient un total de 80 masques d’ondelettes de Gabor différents (Figure 14).
Figure 14. Les 80 masques d’ondelettes de Gabor
Une fois que l’ondelette de Gabor est paramétrée, nous pourrons résumer les différentes
étapes de l’algorithme EBGM.
Sélection de points caractéristiques
Des points caractéristiques d’une image de visage sont sélectionnés (manuellement ou
avec un algorithme).
Etude des RO Bêta : Application à la RV ZAIED
37
Figure 15. La sélection de points caractéristiques
Création du treillis
Un treillis est construit en reliant les points caractéristiques précédemment trouvés.
Figure 16. Création du treillis
Calcul des Jets
A chaque noeud du treillis correspond un point caractéristique et contient un jeu de
coefficients complexes d’ondelettes de Gabor : le Jet. Les différents Jets sont calculés en
convoluant l’image autour des points caractéristiques avec plusieurs ondelettes de Gabor
paramétrées. Un Jet peut être écrit comme un ensemble de coefficients complexes
Etude des RO Bêta : Application à la RV ZAIED
38
exp( )i j jJ a iφ= avec une amplitude ja qui varie peu avec la position, et une phase jφ , dont
la variation en rotation est plus importante. La représentation obtenue est appelée “Face
Bunch Graph” (FBG) (Figure 17).
Figure 17. Une représentation virtuelle d’un Face Bunch Graph
Calcul de similarité de deux images
Une fois la structure du FBG trouvée, l’algorithme va effectuer un calcul de similarité
entre une image de la base d’apprentissage et une image test. Pour cela, les points
caractéristiques de l’image test sont trouvés, le treillis est mis en place et les nouveaux Jets
calculés. Précisons une dernière fois que l’on associe au treillis non seulement la localisation
des points caractéristiques mais aussi les différents Jets. La similarité des deux images est
Etude des RO Bêta : Application à la RV ZAIED
39
alors une fonction de la correspondance des treillis. La reconnaissance finale se fait en
maximisant cette fonction (Morizet, 2006).
Conclusion
L’algorithme EBGM est un des algorithmes locaux. Il ne traite pas directement les
valeurs de niveaux de gris des pixels d’une image de visage ce qui lui confère une plus grande
robustesse aux changements d’éclairement, de pose et d’expression faciale. Cependant il est
plus difficile d’implémenter que les méthodes globales ACP et ADL précédemment exposées,
et le temps de preprocessing s’en retrouve augmenté. Enfin, une partie de son originalité
provient du fait que l’EBGM utilise des ondelettes entièrement paramétrables pour générer
des coefficients complexes qui vont être utilisés lors de la phase de reconnaissance.
3.3. Les "HMM (Hidden Markov Models)"
Les modèles de Markov cachés (HMM) sont utilisés depuis plusieurs années pour la
détection et la reconnaissance du visage (Nefian, 1999). Différentes variantes ont été
également proposées, mais celle des "Embedded HMM" génère des résultats supérieurs aux
méthodes HMM de base (Nefian, 2002).
Les Embedded HMM sont caractérisés par l’utilisation d’un HMM 1D de base,
modélisant l’apparence du visage de haut en bas. Ensuite, chacun des états de ce modèle
général contient un autre HMM 1D, dénommé embedded (ayant pour sens incorporé). Ceux-
ci modélisent cette fois l’apparence du visage de la gauche vers la droite.
S'appuyant sur certains coefficients de la transformée en cosinus discrète (DCT) comme
source d’observations, les Embedded HMM constituent un algorithme de reconnaissance très
performant. Or, les temps d’exécution des phases d’apprentissage et de test sont relativement
élevés et nuisent à leur utilisation en temps réel sur d’immenses bases d’images.
Apprentissage
La phase d’apprentissage des HMM consiste essentiellement à la conception d’un
modèle pour chacun des individus de la base. Ce processus itératif peut être cependant très
long à réaliser.
Les différentes étapes de l’apprentissage sont plus précisément :
1. Segmentation initiale uniforme des images de l’individu. Celles-ci sont divisées en C
rangées (états primaires) composées de Nc régions (états incorporés ou secondaires).
Etude des RO Bêta : Application à la RV ZAIED
40
2. Etape itérative :
(a) Une segmentation doublement incorporée est utilisée afin de raffiner la séparation
des différentes régions.
(b) Les paramètres du modèle sont estimés à l’aide d’une extension en 2D de
l’algorithme k-means segmentaire (Nefian, 1999).
3. L’apprentissage se termine lorsqu’un seuil appliqué à la segmentation est atteint.
Reconnaissance
Afin d’identifier un individu à l’aide des HMM, tous les modèles sont utilisés et celui
qui possède le maximum de vraisemblance est retenu comme étant celui représentant la
personne à reconnaitre.
Ajout d’une personne
Contrairement aux méthodes EigenFaces et EignenObjects, les HMM ne requièrent pas
l’utilisation simultanée de toutes les images des individus pour réaliser l’apprentissage.
L’ajout d’une personne peut donc être réalisé facilement sans avoir à fusionner des données
ou reprendre l’apprentissage au complet. Pour ce faire, le modèle représentant l’individu est
généré et simplement ajouté à la liste existante.
3.4. Les mesures et les "ratios"
Lorsque la localisation des différentes parties du visage est complétée, certaines
mesures en pixels peuvent être prélevées à des fins de reconnaissance (Brunelli, 1993)
(Brunelli, 1992). Ces différentes valeurs peuvent être regroupées en deux catégories
importantes, soient les dimensions des parties du visage et leurs distances relatives. Les
mesures prélevées peuvent par exemple être les particularités suivantes :
Dimensions de la tête, du nez, de la bouche, etc.
épaisseurs des sourcils, de la bouche, etc.
Forme du menton (représentée par des distances relatives au centre de la bouche).
Positions relatives du nez, des sourcils, de la bouche, etc.
Afin que cette technique soit efficace, l’image doit être préalablement normalisée sans
altérer son ratio original.
De même, la pose du visage doit être semblable à celle observée lors de l’apprentissage.
Etude des RO Bêta : Application à la RV ZAIED
41
Cette limitation étant difficilement respectée en pratique, l’utilisation de cette approche
ne peut être efficace que dans un environnement contrôlé (à titre d'exemple une personne
devant se présenter à une station d’identification).
Figure 18. Quelques distances utilisées pour la reconnaissance de visages
3.5. Les Couleurs
L'une des caractéristiques les plus discriminantes entre les personnes repose sur la
couleur. En effet, on peut identifier rapidement une personne de notre entourage selon la
couleur de ses cheveux. Il est donc possible d’intégrer plusieurs mesures de couleurs pour la
reconnaissance, notamment pour les yeux, les cheveux et la peau (Marcel, 2002).
Par ailleurs, les mesures dépendent énormément de l’éclairage et sont assez bien
contournables (c'est-à-dire verres de contact, bronzage, perruque, etc.) par un imposteur. Cette
méthode devrait être en principe utilisée conjointement avec d’autres techniques pour
améliorer sa robustesse.
Pour terminer, notons que les caméras utilisées lors des acquisitions influencent le
niveau de performance de cette méthode. Certes, des couleurs différentes peuvent être
obtenues avec une même caméra, dépendant des paramètres sélectionnés. Cette conclusion
s’applique aussi à des caméras de marques différentes.
Etude des RO Bêta : Application à la RV ZAIED
42
4. La Combinaison de classifieurs
Plusieurs techniques peuvent parfois s’appliquer afin de résoudre un problème de
reconnaissance des formes. Chacune d’entre elles présente des points forts et d'autres faibles
qui, dans la majorité des cas, dépendent de certaines situations (particulièrement la pose,
l'éclairage, les expressions faciales, etc.).
Il est en outre possible d’utiliser une combinaison de classifieurs basés sur des
techniques variées dans le but d’unir les forces de chacun et ainsi de pallier à leurs faiblesses.
Cette approche n’est cependant ni triviale, ni miraculeuse et certaines erreurs de
classification peuvent parfois survenir même lorsque l’un des classifieurs est correct.
Trois problématiques importantes surgissent en somme au moment de l’implantation :
1. Gestion logicielle de création, d’apprentissage et de communication efficace
des différents modules de reconnaissance ;
2. Utilisation d’une base de données unique pour la représentation des objets à
reconnaître ;
3. Configuration du système multi-classifeurs et fusion des résultats.
5. Conclusion et approche retenue
Plusieurs algorithmes de reconnaissance ont été présentés tout au long de ce chapitre.
Parmi eux, ceux qui sont basés sur des analyses globales de visages et d’autres basés sur des
méthodes d’analyse locales. Malgré le degré de performance satisfaisant atteint par les différents algorithmes de
reconnaissance de visage, des conditions spécifiques sont plus favorables à certaines
méthodes, et vice versa. De ce fait, et tout en tenant compte des trois contraintes présentées
dans le paragraphe précédent, l’utilisation d’un multi-classifieur (MC) alliant les forces de
deux ou plusieurs techniques semble être une solution particulièrement intéressante.
Dans ce même ordre de pensée, un classifieur hybride composé d’un engin neuronal et
d’ondelettes peut constituer un système de reconnaissance avec des performances fort
intéressantes. D’une part, les réseaux de neurones sont caractérisés par leur capacité
d’approximation, ce qui facilitera l’apprentissage des visages des personnes à reconnaitre,
d’autre part, ils sont connus par leur propriété de classification démontrée dans plusieurs
Etude des RO Bêta : Application à la RV ZAIED
43
domaines d’applications. Les ondelettes sont aussi des excellentes approximateurs et
analyseurs de signaux. Leur terrain d’analyse temps-fréquence les laissent toujours un outil
performant et innovant. De plus, leurs résultats remarquables dans le domaine de
reconnaissance de visages (exemple l’ondelette de Gabor avec la méthode de EBGM)
favorisent leur intégration dans un tel système hybride.
Pour unifier les deux approches, nous avons choisi d’étudier dans ce mémoire les
réseaux d’ondelettes (des réseaux de neurones avec des ondelettes comme fonctions noyau) et
les possibilités qu’ils offrent pour concevoir des techniques de reconnaissance automatique de
visages. Les ondelettes choisies à être intégrés dans les réseaux d’ondelettes seront les
ondelettes Bêta qui ont l’avantage, par rapport aux autres ondelettes, d’être paramétrables, ce
qui génère un ensemble infini d’ondelettes et en conséquence un champ de choix multiple. De
plus, ces ondelettes ont prouvé leurs performances dans plusieurs domaines telles que la
compression, la cryptographie et la débruitage d’images. Tester les performances de ces
ondelettes dans le domaine de la reconnaissance biométrique telle que la reconnaissance de
visages reste un espace de recherches à explorer.
CHAPITRE II
Les Ondelettes et les réseaux d’ondelettes
Etude des RO Bêta : Application à la RV ZAIED
45
1. Introduction
Depuis quelques années, un ensemble de travaux aussi bien théoriques que pratiques se
sont développés sur une famille de fonctions appelées ondelettes. Ces recherches ont eu un
regain d’intérêt d’une part parce qu’elles proposent des algorithmes plus efficaces pour des
problèmes pratiques pour lesquels les techniques classiques avaient montré leurs limites et
d’autre part parce qu’elles apportent un formalisme mathématique attrayant dans la
reformulation de plusieurs problèmes dans différents domaines scientifiques. Cette
reformulation entraîne de nouvelles approches, de solutions et d'interprétations bien au-delà
de ce qui avait été obtenu jusqu’alors.
Dans ce qui suivra, dans une première partie, nous présenterons l’historique des
ondelettes, nous introduirons les limites des techniques classiques d’analyse des signaux puis
nous détaillerons cette nouvelle théorie et ses avantages. Dans la seconde partie, nous
présenterons les réseaux de neurones et leurs relations avec les ondelettes.
Le mariage entre ces deux théories a donné naissance aux réseaux d’ondelettes.
Différentes architectures et applications de ces réseaux seront présentées dans ce chapitre.
2. Les ondelettes
2.1. Historique
Un fait remarquable dans ce développement est la multiplicité des disciplines qui sont
concernées et dont les techniques propres ont contribué à élargir le champ d’investigation. Par
exemple, en traitement du signal où la première application (analyse des signaux sismiques)
est apparue, la transformation de Fourier, malgré sa version FFT (Fast Fourier Transform),
voit sa prépondérance discutée par la nouvelle transformation qui possède déjà un algorithme
rapide (Mallat, 1989) (Mallat, 1999) (Daubechies, 1992). La transformation en ondelettes
permet une représentation temps-fréquence meilleure que celle induite par la transformation
de Gabor où la fenêtre de la plage temporelle d’observation est fixe (Daubechies, 1992). La
possibilité du contrôle des variables temps et fréquence permet à la transformée en ondelettes
de conforter l’utilité de ce nouvel espace de représentation. Dans cet espace, le principe
d’incertitude d’Heiseinberg sur la limite numérique de la localisation de la position et de la
Etude des RO Bêta : Application à la RV ZAIED
46
fréquence d’une particule s'est amélioré (Daubechies, 1990). Les méthodes temps-fréquence
ou temps-échelle qui tentent de pallier aux insuffisances de l’espace de Fourier sont
complétées par cette nouvelle approche.
L’ensemble de ces développements a conduit, comme le remarque Y. Meyer (Meyer,
1990) (Bernard, 2003), a une théorie cohérente permettant de réunir dans une synthèse
harmonieuse les algorithmes pyramidaux de Burt et Adelson, de S. Mallat en traitement
numérique des images, les filtres miroirs en quadrature utilisés en codage, l’analyse et la
caractérisation de quelques espaces fonctionnels classiques etc…
D’un point de vue formel, les développements sur les ondelettes visent à trouver des
bases hilbertiennes et en particulier celles de L2( ) pour la modélisation des applications ou,
en général, des bases des espaces de Sobolev, de Banach ainsi que ceux qui en découlent pour
l’étude des opérateurs qui y sont définis.
Pour la construction de ces bases d’ondelettes plusieurs approches ont été développées :
l’approche théorie des groupes où l’on montre qu’une ondelette est un vecteur admissible
d’une représentation de carré intégrable d’un groupe localement compact.
La transformée en ondelettes est obtenue en considérant le groupe affine alors que le
groupe de WeilHeiseinberg conduit à la transformée de Gabor sur la droite réelle.
Une approche plus fonctionnelle vient de l’analyse graduée ou analyse multirésolution,
dans laquelle les bases d’ondelettes sont caractérisées en recherchant les bases des espaces
complémentaires de la suite d’espaces vectoriels de multirésolution. Cette approche est à la
base de l’algorithme de S. Mallat (Mallat, 1999) en traitement du signal et de l'image. Notons
au passage que Mallat a donné une interprétation remarquable à la multirésolution concernant
la théorie du signal.
Daubechies a construit des bases d’ondelettes à support compact en partant d’éléments
discrets qui sont les coefficients d’un filtre en quadrature (Bernard, 2003), Cette construction
a relancé les recherches en théorie de bancs de filtres et a permis une meilleure
compréhension et une reformulation mathématique plus rigoureuse. La construction de
Daubechies a marqué une étape très importante dans les investigations sur les bases
d’ondelettes. Les bases orthonormales d’ondelettes à support compact qu’elle a construites
sont préférées à celles obtenues par Lemarie et Battle pour certaines applications numériques
telles que l’analyse et la synthèse des signaux en codage, en analyse numérique etc… La
notion de base est généralisée à celle de repère ou frame dans un espace hilbertien
Etude des RO Bêta : Application à la RV ZAIED
47
(Daubechies, 1992) (Lemire, 2006). Le lien est fait entre un repère et les états cohérents de la
physique. Cohen et al. construisent en partant de l’approche de Daubechies des repères duaux
qui fournissent des bases biorthogonales (Bernard, 2003).
2.2. L’analyse de Fourier
Analyser un signal à partir de son graphe uniquement est loin de permettre d’accéder à
toutes les informations qu’il contient. Il est souvent nécessaire de le transformer, c’est-à-dire
d’en donner une autre représentation, qui fasse apparaître plus clairement telle ou telle de ses
caractéristiques. Le baron Jean Baptiste Joseph Fourier suggéra que toutes les fonctions
devaient pouvoir s’exprimer de façon simple comme somme de sinusoïdes. Dans " la théorie
analytique de la chaleur ", Fourier obtient les équations aux dérivées partielles décrivant les
transferts de chaleur, et les résolut en les développant en somme infinie de fonctions
trigonométriques.
L’analyse de Fourier décompose les fonctions comme sommes de fonctions
élémentaires. En l’occurrence, il s’agit de fonctions périodiques, comme des fonctions sinus
et cosinus. Etant donné une fonction f(t), supposée périodique pour simplifier, c’est-à-dire tel
que f(t+T) = f(t), on écrit :
0 1 1 2 11 2 2 4 2( ) cos sin cos sin ...2
t t t tf t a a b a bT T T Tπ π π π
= + + + + + (22)
La somme ci-dessus est à priori infinie : elle comporte une infinité de termes. Les
nombres a0, a1, b1, … donnent le poids de chacune des sinusoïdes dans f(t), et sont appelés les
coefficients de Fourier de f(t). Ils se calculent en comparant f(t) avec chacune des fonctions :
2 t 2 tcos , sin ,...T Tπ π (23)
Etude des RO Bêta : Application à la RV ZAIED
48
Par l’expression suivante :
1
( ) cos(2 / )ka f t k t T dtT
π= ∫ (24)
1 ( )sin(2 / )kb f t k t T dtT
π= ∫ (25)
Pour les phénomènes non périodiques, il est nécessaire d’avoir recours à une intégrale
de Fourier (c’est-à-dire à une somme continue). Cette méthode consiste à représenter le signal
par une superposition d’ondes sinusoïdales de toutes les fréquences possibles. Les amplitudes
associées à ces fréquences représentent, comme pour les séries de Fourier, les importances
respectives des diverses ondes sinusoïdales. Ces amplitudes forment alors une fonction de la
fréquence appelée "spectre continu des fréquences du signal" : c’est la transformée de Fourier
du signal. Elle est calculée à l’aide de l’intégrale de Fourier :
( ) ( ) 2i ftF f f t e dtπ+∞
−
−∞
= ∫ (26)
La transformée inverse permet de reconstruire le signal à partir des sinusoïdes qui le
constituent :
( ) ( ) 2i ftf t F f e dfπ+∞
−∞
= ∫ (27)
Pour que la transformée de Fourier existe, il faut au moins, que le signal soit de carré
sommable c’est-à-dire d’énergie finie. Pour les signaux réels, cette condition est toujours
remplie puisque la mesure est faite sur un temps fini.
2.3. Inconvénients de l’analyse de Fourier
En dépit de son immense succès, la technique de l’analyse de Fourier présente quelques
limites (Mallat, 1999) (Daubechies, 1992) (Lemire, 2006).
Etude des RO Bêta : Application à la RV ZAIED
49
- En vertu du principe d'incertitude, un signal ne peut être finement localisé à la fois
dans le domaine fréquentiel et dans le domaine temporel. Par exemple, plus un signal est
localisé dans le temps, plus son spectre sera étendu. Le cas extrême d'une telle situation est
fourni par l'impulsion de Dirac à l'origine, dont le spectre est la fonction unité constante;
- Le calcul exact de la fonction F s’étend sur une échelle temporelle infinie. Il exige
donc de connaître toutes les valeurs de la fonction f passées et à venir. Ceci n'est, bien
entendu, pas physiquement réalisable pour des signaux observés dans la pratique;
- Dans l'analyse de Fourier, le spectre F fait disparaître toute l'information du domaine
temporel : le début et la fin du signal ne sont plus localisables;
- La fréquence associée à un signal est inversement proportionnelle à sa période. Donc,
si l'on veut obtenir des informations sur un signal basse-fréquence, l'intervalle sur lequel on
doit l'observer devra être grand. Inversement, un signal haute fréquence peut être observé sur
un intervalle de temps court. Il serait en conséquence intéressant de disposer d'une méthode
d'analyse qui puisse prendre en compte la fréquence du signal à analyser.
Ces considérations amènent à envisager des méthodes d’analyse s’appuyant sur une
représentation temps-fréquence.
Un prototype d’analyse par ondelettes avait été proposé au milieu des années 1940 par
le physicien D. Gabor qui suggérait de rendre locale l’analyse de Fourier, en s’aidant de
fenêtres. Une fenêtre est une fonction régulière, lentement variable, et bien localisée (ce qui
signifie qu’elle est nulle en dehors d’une certaine zone de son support). En multipliant la
fonction étudiée par une fenêtre, on obtient une version "locale", dont on peut déterminer le
contenu fréquentiel par l’analyse de Fourier classique. On renouvelle alors l’opération en
déplaçant la fenêtre d’analyse. L’ensemble de ces transformées de Fourier ainsi localisées
forme la transformée de Gabor du signal, et fournit en somme une analyse fréquentielle
locale.
L’analyse par ondelettes, proposée initialement par J. Morlet, est plus récente, elle est
basée sur un concept quelque peu différent du concept de fréquence : le concept d’échelle. Au
lieu de considérer des fonctions oscillantes placées à l’intérieur d’une fenêtre, que l’on fait
ensuite coulisser le long d’un signal à analyser (les Gaborettes), les ondelettes sont davantage
des copies les unes des autres, copies presque conformes puisqu’elles sont de forme constante
et ne diffèrent que par leur taille.
Etude des RO Bêta : Application à la RV ZAIED
50
2.4. Transformée en ondelettes continue
L'analyse par ondelettes a été introduite au début des années 1980, dans un contexte
d'analyse du signal et d'exploration pétrolière. Il s'agissait à l'époque de donner une
représentation des signaux permettant de faire apparaître simultanément des informations
temporelles (localisation dans le temps, durée) et fréquentielles, facilitant par là
l'identification des caractéristiques physiques de la source du signal.
De manière analogue à la théorie des séries de Fourier, les ondelettes sont
principalement utilisées pour la décomposition de fonctions. La décomposition d’une fonction
en ondelettes consiste à l’écrire comme une somme pondérée de fonctions obtenues à partir
d’opérations simples effectuées sur une fonction principale appelée ondelette–mère. Ces
opérations qui consistent en des translations et des dilatations sont choisies de manière
continue ou discrète, on parlera d’une transformée en ondelettes continue ou discrète.
Cette analyse consiste à utiliser une famille de fonctions ψab construite à partir d’une
fonction ψ de L2(IR), à valeurs éventuellement complexes, appelée ondelette mère, ou
ondelette analysante :
,1( ) ( )a b
t btaa
ψ ψ −= (28)
Le paramètre b correspond à un paramètre de translation, le paramètre a à un paramètre
de dilatation. Une transformée en ondelettes est dite continue lorsque les paramètres
structurels des fonctions utilisées (c’est-à-dire les translations et les dilatations) peuvent
prendre n’importe quelle valeur de l’ensemble des réels .
Pour que la transformée en ondelettes d’une fonction existe, il faut que cette fonction
appartienne à l’ensemble des fonctions de carré sommable que l’on note par 2 ( )L .
Autrement dit, il faut que son carré soit fini. Cette condition se traduit par :
2 ( )f x dx < ∞∫ (29)
Etude des RO Bêta : Application à la RV ZAIED
51
Dans ces conditions, la transformée en ondelette continue de la fonction f est définie
comme le produit scalaire de f et de l’ondelette mère ψ (Meyer, 1990) (Meyer, 1992)
(Daubechies, 1992):
1( , ) ( ) ( )x bW a b f x dxaa
ψ −= ∫ (30)
La reconstruction de la fonction f à partir de sa transformée est possible dans le cas où
l’intégrale suivante serait convergente et différente de zéro:
2( )
C dψ
ψ ωω
ω
+∞
−∞
= ∫ (31)
Où ψ est la transformée de Fourier de ψ. Cette dernière condition est également appelée
critère d’admissibilité pour une ondelette. Dans ce cas, f peut être reconstruite à partir de la
relation suivante (Meyer, 1990) (Meyer, 1992) (Daubechies, 1992):
1 1( ) ( , ) ( )R R
x bf x W a b dadbC aaψ
ψ −= ∫ ∫ (32)
La condition de l’équation est très intéressante dans la mesure où elle donne des
informations sur les propriétés que doit vérifier une ondelette mère (si l’on souhaite que la
reconstruction de la fonction transformée soit possible). En particulier, on doit avoir
(0) 0ψ = . En remplaçant ω par 0 dans la définition de la transformée de Fourier de ψ, on voit
que cette condition est équivalente à :
(x) dx = 0 ψ∫ (33)
Etude des RO Bêta : Application à la RV ZAIED
52
2.4.1 Exemple de quelques ondelettes
Figure 19. L’ondelette de Haar. Cette ondelette est l’une des premières crées, elle est très facile à programmer et permet une rapide compréhension de la théorie des ondelettes
Figure 20. Ondelette de Morlet, Morlet fut l’un des premiers à travailler sur la théorie des ondelettes.
2
021( )2
xi xx e e ωψ
π
−−= (34)
-1 0
1
1 2
1 pour 0 ≤x < 1/2 -1 pour 1/2 ≤ x < 1 0 Sinon
)(xψ =
Etude des RO Bêta : Application à la RV ZAIED
53
Figure 21. Cette ondelette est appelée le chapeau mexicain en raison de sa forme très caractéristique.
21
24 22( ) (1 )3
x
x x eψ π− −
= − (35)
2.4.2 Propriétés nécessaires d’une ondelette mère
Les propriétés les plus importantes d’une ondelette sont (Daubechies, 1992) (Ben Amar,
2005):
• L’admissibilité
Soit une fonction ψ appartenant à L2(IR) et TF(ψ) sa transformée de Fourier. Ψ doit
satisfaire la condition d’admissibilité pour quelle soit une ondelette:
2( ( ))TF
dψ ω
ωω
+∞
−∞
< +∞∫ (36)
• La localisation
L’ondelette est une fonction ψ (x) de L2(IR) ayant la propriété de localisation si elle est
à décroissance rapide sur les deux bords de son domaine de définition.
Etude des RO Bêta : Application à la RV ZAIED
54
La localisation signifie que l’énergie d’une ondelette est contenue dans un intervalle
fini. Idéalement, l’ondelette est une fonction nulle en dehors d’un intervalle fini. Autrement
dit c’est une fonction à support compact.
• L’oscillation
Une ondelette est une fonction ψ (x), intégrable et suffisamment oscillante pour être
d’intégrale nulle :
( ) 0 ( ( )) 0t dt TF tψ ψ= ⇔ =∫ (37)
Donc ψ (x) doit avoir un caractère ondulatoire, qui change de signe au moins une fois.
• La translation et la dilatation
L’analyse par ondelettes associe une famille de copies d’elles même, translatées et
dilatées :
,1( ) ( ) , , 0a b
t bt avec a b R aaa
ψ ψ −= ∈ > (38)
2.4.3 Les propriétés souhaitables pour la construction d’une ondelette
On présente ici des propriétés additionnelles souhaitables pour la construction d’une
ondelette (Daubechies, 1992):
• Orthogonalité
Si les ondelettes sont orthogonales, la transformée est parfaite et la décomposition
numérique est stable. Si l’analyse multi-résolution est orthogonale (cela inclut également les
ondelettes biorthogonales), la décomposition est non redondante et la reconstitution est
parfaite.
• Support compact
Pour une analyse Multirésolution avec les ondelettes, une fonction d’échelle φ est
toujours associée à l’ondelette mère ψ. Si ces fonctions sont à support compact, leurs filtres
associés sont à réponses impulsionnelles finies, ce qui est requis dans les implémentations. Si
Etude des RO Bêta : Application à la RV ZAIED
55
elles ne sont pas à support compact, une décroissance rapide est souhaitable de sorte que les
filtres puissent être raisonnablement approchés par des filtres à réponse impulsionnelle finie.
• Coefficients rationnels
Pour une implémentation informatique, on souhaite que les coefficients des filtres
soient rationnels ou mieux dyadiques. En effet, diviser par une puissance de 2 sur un
ordinateur correspond à un simple décalage de bits (donc très rapide).
• Symétrie
Si la fonction d’échelle et l’ondelette sont (anti-) symétriques, alors les filtres sont à
phase linéaire. Si l’on n’a pas cette propriété, cela entraîne une distorsion de phase lors de la
reconstruction.
• Régularité
La régularité d’une ondelette est importante pour des applications de compression. La
compression est souvent réalisée en mettant des coefficients à zéro. Ce qui revient au rejet des
composantes de la fonction originale. Si celle-ci est une image et que l'ondelette n’est pas
assez régulière, l’erreur de reconstruction peut facilement être détectée par l’œil humain. De
surcroît, plus de régularité implique une meilleure localisation fréquentielle des filtres.
• Nombre de moments nuls
Le nombre de moments nuls caractérise la régularité de l’ondelette.
• Expression analytique
Généralement, on ne dispose pas de l’expression analytique de φ ou ψ. Dans certains
cas, elle est disponible et c’est très utile surtout en analyse par ondelette continue.
Il est presque impossible d’avoir toutes ces propriétés avec la même ondelette; d'où le
choix et le compromis reste l’affaire de l’utilisateur, de l’algorithme d’analyse et de
l’exigence de l’application. Alors, on peut favoriser la propriété de la régularité pour la
compression d’images, les coefficients rationnels pour des applications temps réel ou la
symétrie pour des analyses avec banc de filtres d’ondelettes.
2.4.4 Conclusion
Dans cette section, on a évoqué la théorie des ondelettes et sa situation par rapport aux
autres théories d’analyse fonctionnelle. On a présenté la transformée de Fourier et celle de
Gabor puis la transformée en ondelettes d’une fonction quelconque et la méthode de sa
Etude des RO Bêta : Application à la RV ZAIED
56
reconstitution. Cette transformée qui sera exploitée dans notre approche d’apprentissage des
réseaux d’ondelettes sera introduite en détails dans le chapitre suivant.
D’autres méthodes d’analyse par ondelette telle que l’analyse par Banc de filtres
d’ondelettes ou les paquets d’ondelettes n’ont pas été traitées dans cette section vue qu’elles
ne touchent pas l’approche optée pour la reconnaissance de visages.
La section suivante sera consacrée à un rappel sur les réseaux de neurones et aux
architectures neuronales auxquelles les ondelettes peuvent s'ajouter pour construire les
réseaux d’ondelettes.
3. Les réseaux de neurones
3.1. Introduction
Bien que les ordinateurs soient aujourd’hui capables de résoudre de nombreux
problèmes, il reste encore des domaines où les humains le sont plus que ces machines : la
plupart des ordinateurs sont encore incapables de reconnaître quelqu’un ou de mener une
discussion jusqu'au bout, ce qu’un humain même enfant le fait naturellement. Egalement, peu
d’ordinateurs savent raisonner comme l’Homme. Le but de l’intelligence artificielle est de se
rapprocher de l’intelligence humaine, afin de construire des machines plus puissantes et plus
performantes.
Pour pouvoir recréer artificiellement un cerveau humain et reproduire son
fonctionnement, il a fallu recourir aux neurobiologistes qui ont aidé à bien le comprendre.
Avant de passer à l'analyse approfondie des réseaux de neurones, nous donnerons un
aperçu historique sur leur origine. Le reste de cette section s’articule en deux parties, la
première traitera le fondement biologique des réseaux de neurones, et par analogie aux
réseaux de neurones biologiques. La deuxième partie portera sur les réseaux de neurones
artificiels.
3.2. Historique – Généralités
Les réseaux de neurones artificiels sont nés il y a une cinquantaine d’années, grâce aux
efforts combinés de scientifiques issus d’horizons divers et aux motivations variées. Leur
Etude des RO Bêta : Application à la RV ZAIED
57
histoire est jalonnée d’un bon nombre de publications clés, livres ou articles mettant l'accent
essentiellement sur les étapes décisives de leur développement.
Tout a commencé en 1943, lorsque deux biophysiciens de l’université de Chicago
McCulloch et Pitts, s’inspirant de découvertes récentes en neurobiologie, conçurent le premier
modèle de neurone biologique, baptisé neurone formel ou automate à seuil. Un peu plus tard,
un neurophysiologiste nommé, Donald Hebb, proposa en 1949 une formulation du mécanisme
d’apprentissage, sous la forme d’une règle de modification des connexions synaptiques qui
porte encore son nom. Finalement, ce fut en 1958 que Rosenblatt, combinant les idées de ses
prédécesseurs, conçout le Perceptron, un réseau de neurones artificiels inspiré du système
visuel, possédant une couche de neurones perceptive et une couche de neurones décisionnelle.
Ce réseau, qui parvient à identifier des formes simples et à calculer certaines fonctions
logiques, constitue un système artificiel exhibant la capacité d’apprendre par le biais de
l’expérience, est le premier réseau artificiel proprement dit.
Les travaux de Rosenblatt ont suscité au début des années 60 un vif enthousiasme chez
les scientifiques fortement impliqués dans la recherche sur l’intelligence artificielle. Cet
enthousiasme s'est trouvé brusquement refroidie vers 1969 lorsque deux scientifiques
américains de renom, Minsky et Papert, publièrent un livre qui, au terme d’une analyse
mathématique approfondie mit à jour les limites intrinsèques du perceptron , en particulier son
incapacité à résoudre les problèmes non linéairement séparables, tel que le célèbre problème
du XOR. Ces conclusions plongèrent alors la recherche sur les réseaux de neurones artificiels
dans une disgrâce qui ne prit fin que 15 ans plus tard.
Ce qu’ont démontré Minsky et Papert c’est qu’un réseau de neurones de type
perceptron, c’est-à-dire ne possédant qu’une couche de neurones (la couche de neurones
d’entrée, "perceptifs") en plus de la couche de sortie, est incapable de résoudre un ensemble
de problèmes simples (les problèmes non linéairement séparables). Certes, l’utilisation de
couches intermédiaires, "cachées", neurones, permettrait de contourner cette limitation, à
condition de disposer d’un mécanisme d’apprentissage approprié pour ces neurones
additionnels. Cependant c’est précisément ce mécanisme qui à l’époque fit cruellement
défaut. Ce qui a poussé deux savants américains à affirmer qu’un réseau de type perceptron ne
sera jamais capable de faire quoi que ce soit d’intéressant.
Il a fallu attendre le début des années 80 pour voir un regain d’intérêt pour les réseaux
de neurones artificiels. Cela s’explique par les résultats des travaux de Hopfield qui a
Etude des RO Bêta : Application à la RV ZAIED
58
démontré, en 1982, l’utilité des réseaux complètement connectés (les réseaux récurrents, avec
"feed-back", qui constituaient la deuxième grande classe de réseaux avec les réseaux de type
perceptron, aussi qualifiés de "feed-forward") dans la compréhension et la modélisation des
processus de la mémoire et a rendu manifeste la relation existante, sur le plan formel, entre ce
type de réseaux et des systèmes physiques pour lesquels la physique statistique fournit un
cadre théorique parfaitement approprié. Parallèlement aux travaux de Hopfield, Werbos a
conçu un mécanisme d’apprentissage pour les réseaux multicouches de type perceptron : c’est
l’algorithme d’apprentissage par "Back-propagation" (rétropropagation de l’erreur) qui
fournissait un moyen simple d’entraîner les neurones des couches cachées. Cet algorithme
sera réellement popularisé en 1986 par Rumelhart et Al dans un article de Nature et un livre
intitulé "Parallel Distributed Processing" qui a longtemps constitué la "bible" des
connexionnistes.
Cet algorithme, a eu un impact considérable : disposant d’un moyen simple d’entraîner
les neurones cachés, les réseaux de type perceptron munis d’une ou plusieurs couches
cachées, appelés MLP pour Muti-Layer Perceptron qui, contrairement à leur célèbre ancêtre,
ne souffrent d’aucune limitation théorique, ont pu être employés avec succès grandissant pour
résoudre toute une panoplie de problèmes complexes rencontrés dans de nombreux domaines
à la fois scientifiques et techniques.
Depuis la fin des années 80, l’intérêt pour les réseaux de neurones artificiels ne s’est pas
démenti, dans tous les milieux et sur tous les fronts. Du côté théorique, on a pu démontrer
rigoureusement un résultat de grande importance affirmant que les réseaux MLP possédant
seulement deux couches cachées sont capables d’approximer avec une précision arbitraire
n’importe quelle fonction, c’est-à-dire de résoudre de façon optimale n’importe quel problème
pouvant se ramener à un mapping d’un vecteur d’entrée vers un vecteur de sortie (Ben
mansour, 2002) (Chtoutou, 2003).
3.3. Fondements biologiques des neurones
Le fonctionnement des cellules nerveuses est l’idée de base de la mise en œuvre des
réseaux neuromimétiques. C’est pourquoi une étude biologique s'avère nécessaire afin de
comprendre l’analogie.
Les cellules nerveuses, appelées neurones, sont les éléments de base du système
nerveux central qui en possède environ entre cent et mille milliards.
Etude des RO Bêta : Application à la RV ZAIED
59
Au niveau de l’organisation générale, les neurones ne diffèrent pas trop des autres
cellules. Par contre, la grande différence réside dans leurs fonctions propres et spécialisées
qu’ils assurent :
Recevoir des signaux provenant de neurones voisins
Intégrer ces signaux
Engendrer un influx nerveux
Le transmettre à un autre neurone capable de le recevoir
3.3.1 Structure du neurone
Un neurone est composé de trois parties :
Le corps cellulaire
Les dendrites
L’axone
Le neurone, comme toute cellule, est composé d’un corps (ou soma) qui contient son
noyau où se déroulent les activités propres à sa vie cellulaire.
Cependant, il est généralement doté d’un axone et de dendrites, structures spécialisées
dans la communication avec les autres neurones.
Figure 22: Structure d’un neurone.
Etude des RO Bêta : Application à la RV ZAIED
60
3.3.2 Le corps cellulaire (ou soma)
Il fait quelques micromètres de diamètres. Il contient le noyau du neurone et effectue les
transformations biochimiques nécessaires à la synthèse des enzymes et des autres molécules
qui assurent la vie du neurone.
3.3.3 Les dendrites
A chaque neurone correspond une arborisation dendritique, formée à partir de dendrites
primaires qui quittent le corps cellulaire. Les dendrites sont de fines extensions tubulaires de
quelques dixièmes de micromètres. Ce sont les principaux récepteurs du neurone pour capter
les signaux qui leur parviennent, et les acheminer vers le corps du neurone.
3.3.4 L’axone
L’axone qui présente la fibre nerveuse, sert de moyen de transport pour les signaux émis
par le neurone. Il se distingue des dendrites par sa forme et par les propriétés de sa membrane
externe. En effet, il est généralement plus long (sa longueur varie d’un millimètre à plus d’un
mètre) que les dendrites qui se ramifient à son extrémité, là où il communique avec d’autres
neurones. Alors que les ramifications des dendrites se produisent plutôt près du corps
cellulaire.
Pour former le système nerveux, les neurones sont connectés les uns aux autres suivant
des répartitions spatiales complexes. Les connexions entre deux neurones se font en des
endroits appelés synapses où ils sont séparés par un petit espace synaptique de l’ordre d’un
centième de microns.
3.3.5 Fonctionnement des neurones
Les fonctions spécifiques réalisées par un neurone dépendent essentiellement des
propriétés de sa membrane externe (la différence de potentiel entre le milieu intérieur de la
cellule et le milieu extérieur est de –60mV). Lorsque le neurone est excité, un potentiel
électrique, appelé potentiel d’action naît dans le corps cellulaire de neurones et se propage le
long de l’axone. Une fois arrivé à l’extrémité axonique, le potentiel d’action déclenche la
libération d’un médiateur chimique, appelé neurotransmetteur, au niveau de la synapse. La
synapse est un lieu d’interaction fort complexe où le signal électrique de l’impulsion nerveuse
est converti en un signal biochimique.
Etude des RO Bêta : Application à la RV ZAIED
61
Le courant synaptique se propage le long des dendrites jusqu’au corps cellulaire du
neurone cible. A ce niveau, le corps cellulaire traite l’ensemble des courants synaptiques qui
parviennent jusqu’à lui, en effectuant une somme algébrique des courants synaptiques
excitateurs et inhibiteurs. Si le potentiel résultant dépasse un seuil critique d’excitation du
neurone (-10mV), alors le neurone est excité et déclenché à son tour un potentiel d’action qui
se propage le long de son axone. Dans le cas contraire, le neurone est inactif.
Le schéma classique représenté par les biologistes est celui d’un soma effectuant une
sommation des influx nerveux transmis par des dendrites. Si la sommation dépasse un seuil, le
neurone répond par un influx nerveux avec potentiel d’action qui se propage le long de son
axone. Si la sommation est inférieure à ce seuil, le neurone restera inactif. Le schéma faisant
apparaître le principe d’un traitement cellulaire est donné par la (Figure 23).
Figure 23. Schéma de principe d’un traitement cellulaire
3.4. Réseaux de neurones artificiels
Depuis quelques années, les réseaux de neurones formels bénéficient d’une large
attention de la part de la communauté scientifique, et le nombre d’études à leur sujet ne cesse
de croître. Les motivations pour modéliser les neurones et les réseaux de neurones vivants
sont doubles. Un premier aspect concerne l’étude et la compréhension du système nerveux.
Le second a pour objectif de pouvoir utiliser certaines caractéristiques de ce dernier pour
essayer de rendre les machines plus performantes dans des domaines où jusque là elles ont
fait preuve d'inéfficacité. La modélisation correspond toujours à une simplification des
phénomènes naturels ou physiques observés. Dans le cas de la modélisation neurale, cette
simplification est considérable. Cependant, l’idée retenue est qu’il est fort possible qu’une
Axone
Corps cellulaire Dendrites
Etude des RO Bêta : Application à la RV ZAIED
62
simplification, même extrême, puisse permettre d’observer des propriétés émergentes
comparables à celles des systèmes biologiques.
3.4.1 Le neurone formel
La première modélisation d’un neurone date des années quarante. Elle a été réalisée par
MacCulloch et Pitt. S’inspirant de leurs travaux sur les neurones biologiques, ils ont proposé
le modèle suivant :
Un neurone formel fait une sommation pondérée des potentiels d’actions qui lui
parviennent (chacun de ces potentiels est une valeur numérique qui représente l’état du
neurone qui l’a émis), puis s’active suivant la valeur de cette sommation pondérée. Si cette
somme dépasse un certain seuil, le neurone est activé et transmet une réponse (sous forme de
potentiel d’action) dont la valeur est celle de son activation (Ben Abdennour, 2002).
Figure 24. Modèle de McCulloch et Pitts
Si le neurone n’est pas activé, il ne transmettra rien: il s’agit d’un automate booléen.
3.4.2 Structure
Chaque neurone artificiel est un processeur élémentaire. Il reçoit un nombre variable
d’entrées en provenance de neurones amont. A chacune de ces entrées est associé un poids W
(abréviation de weight) représentatif de la force de la connexion. Chaque processeur
élémentaire est doté d’une sortie unique, qui se ramifie ensuite pour alimenter un nombre
variable de neurones avals. A chaque connexion est associé un poids.
θ
Σ f S
Fonction d'activation
Sommateur
W1 W2
Wn
X1 X2
Xn
Entrée Poids Synaptiques
Etude des RO Bêta : Application à la RV ZAIED
63
Un neurone effectue la somme pondérée de ses entrées, puis il calcule sa sortie par une
transformation non linéaire de cette somme. Les pondérations ou les poids représentent
l’intensité synaptique de la cellule nerveuse. La fonction d’activation fait l’analogie avec le
fonctionnement de la cellule.
Les relations mathématiques qui régissent le fonctionnement d’un neurone artificiel
sont :
1
n
j j jij
e x w=
=∑ (39)
( )i iy f e θ= − (40)
Où :
xi : Signaux d’entrée du neurone i
wji : Poids des entrées
yi : La sortie
ei : Entrée globale
θ : Seuil ou niveau d’activation du neurone
3.4.3 Exemples de réseaux de neurones
Le perceptron multi-couches
Le modèle le plus commun de Réseau de Neurones est le perceptron multicouche
(PMC). Ce type de Réseau de Neurones est plus connu sous le nom de "Réseau surveillé"
parce qu'il exige une sortie désirée afin d'apprendre. Le Réseau de Neurones apprend
comment faire l'association entre un ensemble d'entrées et un ensemble correspondant de
sorties désirées en utilisant la série de données historique. Le but est que le Réseau de
Neurones soit utilisé pour prendre des entrées dans un nouvel ensemble et pour produire une
sortie utile quand la sortie désirée est inconnue.
Une représentation graphique d'un PMC est montrée sur la Figure 25. Les PMC et
beaucoup d'autres Réseaux de Neurones apprennent en utilisant un algorithme appelé
rétropropagation. Avec la rétropropagation, la donnée d'entrée est à plusieurs reprises
Etude des RO Bêta : Application à la RV ZAIED
64
présentée au Réseau de Neurones. A chaque présentation, la sortie du Réseau de Neurones est
comparée à la sortie désirée et une erreur est calculée. Cette erreur est alors rétroagie
(rétropropagée) au Réseau de Neurones et employée pour ajuster les poids de façon à ce que
l'erreur diminue avec chaque itération et que le modèle neuronal arrive de plus en plus près de
la reproduction de la sortie désirée. Ce processus s'appelle la " formation " (Chtoutou, 2003).
Figure 25. Modèle du PMC
Le réseau RBF
Les réseaux à fonction radiale (RBF), qui possèdent deux couches forment une classe
particulière de réseaux multi-couches. Chaque cellule de la couche cachée utilise une fonction
noyau (kernel function) telle que la Gaussienne en tant que fonction d'activation. Cette
fonction est centrée au point spécifié par le vecteur de poids associé à la cellule. La position et
la ''largeur'' de ces courbes sont apprises à partir des patrons. Il y a, en général, beaucoup
moins de fonctions noyaux dans un réseau RBF que de patrons d'entrée. Chaque cellule de
sortie implémente une combinaison linéaire de ces fonctions, l'idée étant d'approximer une
fonction par un ensemble de fonctions. De ce fait, les cellules cachées fournissent un
ensemble de fonctions qui forment une base représentant les patrons d'entrées dans l'espace
''couvert'' par les cellules cachées.
Etude des RO Bêta : Application à la RV ZAIED
65
Il existe plusieurs algorithmes d'apprentissage pour les réseaux RBF, le plus classique
met en oeuvre une stratégie d'apprentissage hybride. Il estime la position et la largeur des
fonctions noyaux à l'aide d'un algorithme de classification non supervisé, puis à l'aide d'un
algorithme supervisé basé sur la méthode des moindres carrés, il détermine le poids des
connexions entre la couche cachée et la couche de sortie. Comme les sorties sont linéaires, un
algorithme non itératif peut être utilisé. Une fois cette première approximation effectuée, un
algorithme supervisé de type gradient est utilisé pour affiner les paramètres du réseau.
Cet algorithme hybride utilisé dans le cadre des réseaux RBF converge beaucoup plus
rapidement que la rétro-propagation utilisée dans le cadre des PMC. Cependant, pour de
nombreux problèmes, l'utilisation d'un RBF nécessite beaucoup plus de cellules cachées que
pour un PMC, ce qui conduit à une exécution beaucoup plus lente en phase d'exploitation.
L'efficacité (le ratio erreur/taille du réseau) d'un réseau RBF et d'un PMC est dépendante du
problème traité.
La Figure 26 représente un réseau à base de fonction gaussienne.
La fonction radiale de l’ième domaine réceptif, notée Ri(x), est donnée par l’équation
suivante (Chtourou, 2003):
2( ) exp[ ], 1,...,2
ii
i
x cR x i m
σ−
= − = (41)
Où x et ci sont des vecteurs de dimension n et σi est la variance de iième domaine
réceptif. La sortie est une combinaison linéaire des sorties des unités cachées :
1
( )m
i ii
y w R x=
= ∑ (42)
Etude des RO Bêta : Application à la RV ZAIED
66
Figure 26 : Un réseau à base de fonction radiale
3.5. Conclusion
Dans cette section, nous avons commencé par établir un aperçu historique sur les
réseaux de neurones. Ensuite, nous avons présenté l’analogie entre neurones biologiques et
neurones artificiels. Enfin, nous avons évoqué quelques exemples de réseaux de neurones tels
que le PMC ou le RBF.
Nous parlerons dans la section suivante des réseaux d’ondelettes, nous présenterons
leurs architectures et nous les comparerons aux réseaux de neurones puis ne terminerons par
évoquer leurs différentes applications.
4. Les réseaux d’ondelettes
4.1. Introduction
Les réseaux d’ondelettes (RO) est une combinaison de deux techniques d’analyse de
signaux : La transformée en ondelettes et les réseaux de neurone artificiel. Les RO utilisent
des fonctions ondelettes au lieu de la fonction sigmoïde traditionnelle comme sa fonction de
transfert dans chaque neurone. Deux modèles différents ont été proposés pour différentes
applications (Iyengar, 2002): le premier à été proposé pour des buts généraux telles que la
prédiction quantitative, la classification, et la reconnaissance de formes et le deuxième pour la
compression des signaux.
……
ENTREE SORTIE =
N
∑=
N
jjj sw
1
W1
W2
W3
WN
x1
xn
Etude des RO Bêta : Application à la RV ZAIED
67
4.2. Architectures des réseaux d’ondelettes
4.2.1 Premier modèle des réseaux d’ondelettes
Dans ce modèle, l'architecture est presque exactement la même qu’un réseau RBF. Le
réseau est considéré comme constitué de trois couches. Une première couche avec Ni entrées,
une couche cachée constituée par Nw ondelettes et un sommateur (ou neurone linéaire) de
sortie recevant les sorties pondérées des ondelettes. Les cellules d’une couche sont connectées
à toutes les cellules de la couche suivante, et à celles-ci uniquement. La propagation des
valeurs se fait dans le sens feed-forward, c’est-à-dire des cellules d’entrées vers les cellules de
sortie. Cette architecture est donc tout à fait comparable aux réseaux de neurones utilisant des
fonctions sigmoïdales. Elle présente également une similitude avec l’architecture des réseaux
RBF mais la fonction de transfert est remplacée par une fonction ondelette ψa,b (t).
L’algorithme d’apprentissage de cette version des réseaux d’ondelettes lui aussi est hérité de
celui des réseaux de neurone RBF. L’algorithme d’apprentissage vise à réduire l’erreur
commise entre l’entrée et la sortie du réseau en corrigeant les paramètres de ce réseau. La
fonction de coût quadratique est utilisée pour mesurer cette erreur. L’apprentissage vise ainsi
à minimiser le coût empirique, donné par la quantité :
( ) ( )( )2
12 1
TE t y ty d
t= −∑
= (43)
Où y(t) est la sortie réelle obtenue par le réseau et yd(t) celle désirée.
L’expression de la sortie du réseau est :
1
( ) ( )N
kk k
k k
t by t wa
ψ=
−=∑ (44)
L’algorithme de descente en gradient est utilisée à chaque itération de cet algorithme,
un exemple est présenté au réseau (paire entrée/sortie), on propage le calcul d’une couche à
une autre jusqu’à la couche de sortie. L’algorithme d’apprentissage consiste à modifier les
paramètres dans la direction opposée au gradient de la fonction d’erreur.
Etude des RO Bêta : Application à la RV ZAIED
68
Si Vt représente l’un des paramètres à l’itération t parmi w , a, b, ce paramètre est
modifié suivant la formule (Iyengar, 2002):
( )1EtV Vt t V
ε ∂= −+ ∂
(45)
ε(t) est le pas du gradient à l’itération t.
En posant e(t) = yd(t) – y(t), nous avons les formules de dérivation suivantes: (Lekutai, 1997).
( ) ( )1
T
tij
E e t ψ τω =
∂=
∂ ∑ (46)
( ) ( )1
T
ijti i
E e ta a
ψ τω
=
∂∂=
∂ ∂∑ (47)
( ) ( )1
T
ijti i
E e tb b
ψ τω
=
∂∂=
∂ ∂∑ (48)
Avec i
i
abt −
=τ
Enfin, la modification des différents paramètres s’effectue en appliquant les formules
suivantes (Lekutai, 1997) (Zhang, 1992):
( 1) ( ) Et t avecωω ω μ ω ωω∂
+ = + Δ Δ = −∂
(49)
( 1) ( ) aEa t a t a avec aa
μ ∂+ = + Δ Δ = −
∂ (50)
( 1) ( ) bEb t b t b avec bb
μ ∂+ = + Δ Δ = −
∂ (51)
μw, μa, μb sont les pas d’apprentissage des trois paramètres du réseau.
Etude des RO Bêta : Application à la RV ZAIED
69
Figure 27. Réseau d’ondelettes modèle 1 (RO)
4.2.2 Deuxième modèle des réseaux d’ondelettes
Dans le deuxième modèle, l'entrée est un ensemble de paramètre ti qui décrivent les
positions ordonnées du signal à compresser, donc les entrées ne sont pas des données
proprement dites, mais seulement des valeurs décrivant des positions bien précises du signal à
analyser. La couche cachée contient un ensemble de neurones, dans chaque neurone une
ondelette translatée et dilatée. La couche de sortie contient un seul neurone qui somme les
sorties de la couche cachée pondérées par les poids de connexions iw . L’algorithme de la
décente de gradient est utilisé aussi pour faire l’apprentissage. Ce modèle, introduit pour la
première fois par Zhang et Benveniste (Zhang, 1992) et qui sera présenté en détails dans le
chapitre III, est un cas particulier de l’architecture du premier modèle des réseaux
x1 x2 xn
…..
wik
wkj
…..
y1 ym
∑ ∑
k k
k
t ba
ψ⎛ ⎞−⎜ ⎟⎝ ⎠
2 2
2
t ba
ψ⎛ ⎞−⎜ ⎟⎝ ⎠
1 1
1
t ba
ψ⎛ ⎞−⎜ ⎟⎝ ⎠
1
n
k ik ii
t w x=
=∑
. . . . . . .
Etude des RO Bêta : Application à la RV ZAIED
70
d’ondelettes. C’est pour cela qu’on va garder l’abréviation RO pour le premier modèle et que
l’on va donner le nom ROZ (Réseau d’ondelettes de Zhang) pour ce modèle.
Figure 28. Réseau d’ondelettes modèle 2 (ROZ)
4.3. Comparaison des réseaux d’ondelettes aux réseaux de neurones
Comme on l’a vu, les réseaux d’ondelettes, présentent une certaine proximité
d’architecture avec les réseaux RBF, la principale ressemblance entre ces deux réseaux réside
au fait que les deux réseaux calculent une combinaison linéaire, à paramètres ajustables, de
fonctions non linéaires dont la forme dépend de paramètres ajustables (dilatations et
translations). A titre de comparaison, la formulation la plus classique de la sortie fournie par
un réseau RBF s’écrit :
ti (i=1,2,…,n)
…..
∑
k k
k
t ba
ψ⎛ ⎞−⎜ ⎟⎝ ⎠
2 2
2
t ba
ψ⎛ ⎞−⎜ ⎟⎝ ⎠
1 1
1
t ba
ψ⎛ ⎞−⎜ ⎟⎝ ⎠
kw 2w 1w
Etude des RO Bêta : Application à la RV ZAIED
71
1
( ) ( )C
i ii
s x x tω ϕ=
= −∑ (52)
Où ϕ désigne une fonction, et ǁ.ǁ une norme de n . Les vecteurs ti sont appelés les
centres associés aux cellules cachées. La notion de vecteur de translation des réseaux
d’ondelettes est à rapprocher de la notion de centres que l’on retrouve dans les réseaux RBF.
Mais la différence essentielle entre les réseaux d’ondelettes et les réseaux RBF tient à la
nature des fonctions de transfert utilisées par les cellules cachées. On citera ici ces
différences :
Contrairement aux fonctions utilisées dans les réseaux de neurones, les ondelettes
sont des fonctions qui décroissent rapidement, et tendent vers zéro dans toutes les directions
de l’espace. Elles sont donc locales si a est petit.
Contrairement aux fonctions utilisées dans les réseaux de neurones, la forme de
chaque ondelette monodimentionnelle est déterminée par deux paramètres ajustables
(translation et dilatation) qui sont des paramètres structurels de l’ondelette.
Chaque ondelette monodimensionnelle possède deux paramètres structurels, d’où pour
chaque ondelette multidimensionnelle, le nombre de paramètres ajustables est le double du
nombre de variables.
Dans le paragraphe suivant, nous présenterons brièvement les différents travaux
effectués dans le domaine des réseaux d’ondelettes.
4.4. Applications des réseaux d’ondelettes
Le champs d’application de ces réseaux d’ondelettes a motivé beaucoup d’auteurs qui
ont mis en œuvre différentes réalisations comme nous le verrons dans cette section.
Le domaine des réseaux d’ondelettes est nouveau, bien que quelques tentatives aient eu
récemment lieu pour construire une base théorique et plusieurs applications dans des
domaines très variés. L’utilisation des réseaux d’ondelettes a débuté avec l’utilisation des
ondelettes de Gabor dans la classification et la reconnaissance des images.
Un rapprochement entre réseaux de neurones et fonctions ondelettes fut suggéré par
Daugman. Il utilisait une décomposition sur une base de fonctions de Gabor, pour la
compression d’images 2-D. cette compression a été réalisée par une méthode neuronale,
Etude des RO Bêta : Application à la RV ZAIED
72
permettant de trouver des coefficients minimisant certains critères d’erreur. Le rapprochement
avec les fonctions ondelettes tenait au fait que les fonctions de base de ce réseau de neurones
sont des versions dilatées et translatées de fonctions de Gabor (Baron, 1997).
Les réseaux d’ondelettes sont encore utilisés dans la localisation du trait facial. Cette
technique utilise un réseau d’ondelettes hiérarchiques à deux niveaux basé sur les ondelettes
de Gabor : le premier niveau est utilisé pour égaler le visage afin d’aboutir à une
transformation affine utilisée pour une approximation des emplacements du trait. Le
deuxième niveau permet, pour chaque trait, de régler avec précision les emplacements du
trait. La construction d’une base de données contenant les réseaux d’ondelettes hiérarchiques
de plusieurs visages permet aux traits d’être détectés dans la plupart des visages. Les
expériences montrent que la localisation du trait facial bénéficie considérablement de
l’approche hiérarchique. Les résultats obtenus sont comparables avec d’autres techniques pour
la localisation du trait facial.
Les premiers travaux rapprochant la décomposition en ondelettes et une implémentation
sous forme de réseaux de neurones, sont dûs à Pati et Krishnaprasad. L'ondelette qu'ils
utilisent est construite à partir d'une superposition de fonctions sigmoïdes. Les auteurs
exploitent les résultats de Daubechies : il existe des valeurs des paramètres de dilatation et de
translation, telle que la famille de fonctions générée constitue une structure oblique (frame).
Les valeurs limites possibles pour les bornes A et B de cette structure peuvent être calculées.
Ces valeurs dépendent des paramètres de dilatation a et de translation b. A l'inverse, on peut
se fixer des valeurs pour les bornes A et B, déterminant ainsi la précision de l'approximation
réalisable avec la structure oblique que l'on a définie. En fixant une valeur du paramètre de
dilatation a, on peut aussi déterminer l'intervalle des valeurs de b, de telle façon que la famille
engendrée constitue une frame. L'algorithme de construction de la couche cachée utilise les
propriétés de localisation des fonctions ondelettes, à la fois dans le domaine temporel que
dans celui des fréquences. Ceci permet de sélectionner les fonctions utilisées à l'initialisation
du réseau : ne sont conservées que les fonctions dont la fenêtre temps-fréquence a une
intersection non vide avec la fenêtre temps-fréquence de la fonction à approximer (estimée
par une méthode d'analyse en fréquence). Les coefficients entre les unités cachées et l'unité de
sortie sont alors calculés par une méthode de descente en gradient appliquée à une fonction
d'erreur. Le problème de l'approximation de fonctions vectorielles est abordé, en soulignant le
coût calculatoire important engendré par le changement de dimension. Le modèle proposé
Etude des RO Bêta : Application à la RV ZAIED
73
reste toutefois proche des modèles multicouches à fonctions sigmoïdes, puisque l'ondelette
utilisée est une superposition de telles fonctions.
Bakshi et Stephanopoulos utilisent des familles d'ondelettes orthonormales pour
construire leur réseau, dénommé WaveNet. Ils s'appuient sur la théorie de l'analyse
multirésolution, en utilisant les résultats de Mallat. L'analyse multirésolution consiste à
étudier les approximations d'un signal à différentes résolutions, fonctions de la fréquence à
laquelle ce signal est échantillonné (la résolution devient plus fine lorsque la fréquence
d'échantillonnage augmente). L'approximation à la résolution m est alors définie comme une
projection sur un espace fonctionnel Vm . Mallat a montré qu'il existe une base orthonormée
pour ces espaces, obtenue par dilatation et translation d'une fonction d'origine, appelée
fonction d'échelle. Un changement de résolution correspond à un changement de la fréquence
d'échantillonnage du signal d'origine: l'intervalle entre deux points d’échantillonnage est une
fonction croissante du niveau de résolution m. Les différentes résolutions peuvent donc se
déduire les unes des autres: l'approximation à la résolution de niveau m est obtenue en ne
retenant qu'une partie de l'information présente dans l'approximation à la résolution m–1.
Bakshi et Stephanopoulos proposent ainsi un algorithme de construction de réseaux de
neurones. Certaines cellules de la couche cachée utilisent comme fonction de transfert des
fonctions d’échelle. Elles fournissent une approximation à une certaine résolution. Des
cellules peuvent alors être ajoutées, utilisant des fonctions ondelettes. Elles permettent de
fournir une approximation du détail du signal : c'est en fait la différence d'information entre
deux approximations par des fonctions d'échelle, à des résolutions différentes.
Une autre approche est proposée par Zhang et Benveniste (Zhang, 1992). Utilisant
la propriété des fonctions ondelettes à générer des frames, les auteurs proposent une
architecture de réseau de neurones dont les cellules de la couche cachée utilisent ces fonctions
ondelettes. L'approche de Zhang et Benveniste se sert peu des techniques classiques de
décomposition en ondelettes. Plus que les réseaux proposés par les autres auteurs, leur travail
applique l'algorithme d'apprentissage à l'ensemble des poids du réseau. Une telle démarche
peut être avantageuse dans deux situations :
Lorsque les données concernant la fonction à approximer sont irrégulièrement espacées.
L'algorithme de décomposition proposé par Mallat, suppose une distribution régulière des
données. Lorsque ce n'est pas le cas, on est amené soit à utiliser des techniques de
reconstruction du signal à partir des données disponibles, soit à réduire le nombre de
Etude des RO Bêta : Application à la RV ZAIED
74
fonctions de base, en ne retenant que celles dont la zone d'influence contient au moins une
donnée.
Lorsque l'espace d'entrée est de grande dimension, obtenir une densité satisfaisante des
données est rarement réalisé.
Le calcul des poids du réseau par apprentissage, présente l'avantage d'une adaptativité
importante, selon la nature des données à traiter. Les coefficients de dilatation et de
translation ne sont en effet pas déterminés par une sélection avant apprentissage, mais sont
entièrement déterminés par cette phase. Un réseau d'ondelettes du type de celui de Zhang et
Benveniste est utilisé dans le cadre d'une application de traitement du signal vocal. Les
coefficients du réseau sont calculés par un algorithme de descente en gradient conjugué, afin
de minimiser une erreur utilisant une fonction de coût quadratique. Ceci permet de fournir une
bonne approximation pour des signaux représentant des voyelles. Une seconde application est
proposée, concernant cette fois la classification des signaux vocaux. L'architecture du réseau
d'ondelette doit être en conséquence modifiée, en vue de s'adapter à cette tâche de
classification. Il s'agit de distinguer des signaux bruités appartenant à deux classes distinctes.
Bien que ce problème de classification ne semble pas spécialement ardu (le nombre de
cellules cachées, portant les fonctions ondelettes, est de l'ordre de 5), les résultats présentés
montrent une bonne adaptation des paramètres. Ces travaux ont motivé les applications des
réseaux d'ondelettes à des problèmes de classification. Ces derniers résultats plaident en
faveur d'une implémentation de réseaux d'ondelettes dont les coefficients sont obtenus par
apprentissage (Baron, 1997).
5. Conclusion
Ce chapitre nous a permis de présenter la théorie des ondelettes, les réseaux de neurones
puis les réseaux d’ondelettes. Nous avons évoqué les différentes architectures et l’algorithme
de la rétropropagation pour l’apprentissage des RO. Nous avons montré qu’il s’agit d’un type
spécifique de réseau de neurones en le faisant rapprocher aux réseaux de neurones RBF. Enfin
différentes applications de RO ont été présentées. Dans le chapitre suivant, nous proposerons
un nouvel algorithme d’apprentissage des ROZ basé sur la théorie de "frame" remédiant aux
inconvénients
CHAPITRE III Proposition d’un nouvel algorithme
d’apprentissage du ROZ
Etude des RO Bêta : Application à la RV ZAIED
76
1. Concepts théoriques du deuxième modèle des réseaux d’ondelettes
1.1. Introduction
De point de vue théorique, le modèle de Zhang des réseaux d’ondelettes (ROZ) est issu
de la transformée en ondelette elle-même. Dans cette section, des concepts seront énoncés
telles que la transformée en ondelettes discrète, les frames et les bases orthogonales et
biorthogonales pour introduire les ROZ.
1.2. Les frames et les ROZ
1.2.1 La transformée discrète en ondelettes
Il est connu que la représentation ,a bψ de l'équation (30). est très redondante et que
l’espace continu peut être discrétisé sans perte d'informations (Daubechies, 1992). Dans ce
sens considérons l’ensemble discret *S x⊂ un échantillonnage sur une grille (temps-
fréquence) et par suite ,{ |( , ) }a bB a b Sψ ψ= ∈ définie une famille discrète d’ondelettes.
En utilisant la famille d’ondelettes Bψ , les coefficients d’ondelettes ,( , ) ,a bw a b fψ=< >
pour ( , )a b S∈ sont calculés par l’application de l’équation (30). Dans cette équation, le
double intégral est remplacé par une double somme.
1 1( ) ( , ) ( )t bf t w a bC aaψ
ψ −= ∑∑ (53)
En remplaçant la double somme par une seule somme, la fonction f peut être exprimé
tout simplement par :
( ) i ii
f t wψ=∑ (54)
D’après Daubechies (Daubechies, 1992), cette relation n’est valide que si la famille
d’ondelette obtenue lors de la discrétisation forme une base orthogonale. Pour un cas plus
Etude des RO Bêta : Application à la RV ZAIED
77
général (cas des bases quelconques), des concepts comme les frames et les frames duales ont
besoin d’être introduites pour pouvoir écrire un signal donné en terme de ces coefficients
d’ondelettes.
1.2.2 Les frames
Soit 2 ( )L Rψ ∈ une ondelette, S un échantillonnage sur une gille, et
,{ |( , ) }a bB a b Sψ ψ= ∈ une famille discrète d’ondelettes, on dit que Bψ forme une "frame
d'ondelettes" s’il existe 0A > et B < ∞ tel que pour tout 2 ( )f L R∈ si :
22 2
,( , )
,a ba b S
A f f B fψ∈
≤ < > ≤∑ (55)
Avec 2 2( )f f x dx∞
−∞
= ∫ (l’énergie de la fonction f) et le couple (A,B) les limites de la
frame.
Quand une famille d’ondelettes discrètes forme une frame, elle fournit une
représentation complète et sans perte de toute fonction f de L2 (Daubechies, 1992).
Pour fournir plus de détails, nous introduisons d’autres termes: Bψ est dite base
orthogonale si pour toute ,i j Bψψ ψ ∈ :
,
1,,
0,i j i j
si i jsi i j
ψ ψ δ=⎧
< >= = ⎨ ≠⎩ (56)
Une frame est dite base si pour toute f de L2 la combinaison linéaire k kkf w ψ=∑ est
unique. Une famille d’ondelettes est à la fois orthogonale et base dite base orthogonale.
En général, une frame n'est pas une base orthogonale (seule la condition A = B =1 donne
une base orthogonale). Aussi, elle fournit une représentation redondante de la fonction f.
Le rapport A/B est appelé rapport ou facteur de redondance. Lorsqu'une frame est
redondante, les coefficients d'ondelette, d'un même voisinage sont corrélés entre eux, il en
Etude des RO Bêta : Application à la RV ZAIED
78
résulte une meilleure définition des détails et des structures fines dans la représentation
temps-fréquence.
Pour une base orthogonale, toute fonction f peut être écrite d'une manière unique :
, ,( , ) ( , )
( ) ( , ) ( ) , ( )a b a ba b S a b S
t bf t w a b f ta
ψ ψ ψ∈ ∈
−= = < >∑ ∑ (57)
Pour d’autres valeurs de A et B, cette représentation reste valable, Bψ n’est plus une base
orthogonale mais une base dite biorthogonale, en plus si la représentation de f en combinaison
linéaire d’ondelettes n’est plus unique la famille Bψ est une frame. Dans ces deux derniers cas
on est mené à écrire f en fonction de la frame duale ,{ |( , ) }a bB a b Sψ ψ= ∈ .
, , , ,( , ) ( , )
( ) , ( ) , ( )a b a b a b a ba b S a b S
f t f t f tψ ψ ψ ψ∈ ∈
= < > = < >∑ ∑ (58)
Si la fonctionψ est l’ondelette analysante, les coefficients d’ondelettes sont obtenue par le
calcul du produit scalaire de cette ondelette dilatée et translatée et la fonction à analyser.
L‘ondelette duale est utilisée pour la reconstruction (l’inverse est aussi vrai). Pour une famille
d’ondelettes orthogonales une ondelette est égale à sa duale.
Figure 29. L’ondelette chapeau Mexicain à gauche et sa duale à droite
Etude des RO Bêta : Application à la RV ZAIED
79
Essayons de représenter les ondelettes par des vecteurs, on peut illustrer les trois bases
possibles qui peuvent être reconstruites avec une famille d’ondelettes.
Figure 30: Une base orthogonale à gauche, biorthogonale au milieu et une frame à droite
On peut calculer les coefficients d’ondelettes w i par projection orthogonale du signal f
à analyser sur la base orthogonale de la base des ondelettes analysantes. Pour le cas d’une
base biorthogonale ou une frame la projection du signal f se fait sur une frame duale.
1.2.3 Les ROZ
L'équation (58) donne l'expression d’une fonction f sous forme d’une somme sur toutes
les dilatations et les translations possibles de l'ondelette mère. Admettons que nous ne
disposons que d’un nombre fini de n ondelettes, nous pouvons considérer la relation:
( )1
nf x w i ii
ψ≈ ∑=
(59)
Comme une approximation de la transformée inverse en ondelettes, Zhang a remarqué
qu’il est possible de l'envisager aussi comme une décomposition de la fonction f à une somme
de w i et d’ondelettes iψ (Zhang, 1992) et de la représenter avec une architecture neuronale
(Figure 28).
1 1wψ
2ψ
2w
f f
2ψ
1ψ
f
1ψ 2ψ 3ψ
Frame ("Mercedes Benz frame") Base Biorthogonale (ψ1,ψ2) Base orthogonale (ψ1,ψ2)
Etude des RO Bêta : Application à la RV ZAIED
80
Pour définir donc, un réseau d’ondelettes ROZ, on commence par choisir une famille de
n ondelettes 1 n = { ,..., }ψ ψΨ avec différents paramètres de translations et de dilatations qui
peuvent être choisis à ce point arbitrairement. D'après la théorie d'ondelettes, toute fonction f
qui appartient à l’espace L2(R) peut être représentée, avec une précision arbitraire, par un
réseau de ces n ondelettes (Zhang, 1992).
Supposons qu’on dispose de trois ondelettes 1ψ , 2ψ et 3ψ dilatées et translatées d’une
seule ondelette mère :
Figure 31. L’ondelette mère à gauche et Trois ondelettes dilatées et translatées ( 0,0.5ψ , 10,0.75ψ− , 10,2ψ )
Un réseau d’ondelettes constitué avec ces trois ondelettes peut approximer un signal f
donné (Figure 32):
0 0 5 10 0 75 10 20 5 0 25, . , . ,. .f ψ ψ ψ−≈− + +
Figure 32: Approximation d’une fonction f par un réseau de 3 ondelettes
f 0 0 5 10 0 75 10 20 5 0 25, . , . ,. .ψ ψ ψ−− + +
Etude des RO Bêta : Application à la RV ZAIED
81
Pour trouver le réseau d’ondelettes ROZ optimal d’une fonction f, l’algorithme de la
retropropagation est généralement utilisé pour minimiser la fonction d’énergie :
min1
NE f w niw n iii i
ψ= − ∑=
(60)
Qui met à jour les paramètres du réseau (les poids de connexion, les dilatations et les
translations des ondelettes) à chaque itération.
Zhang et Benveniste (Zhang, 1992) ont abouti dans leurs travaux aux résultats suivants :
• Les réseaux d’ondelettes préservent la propriété d’approximation universelle des
réseaux RBF.
• Un lien direct existe entre les poids du réseau wi et les coefficients d’ondelette.
• Une bonne approximation peut être atteinte avec un réseau d’ondelettes de petite taille.
1.3. Conclusion
Nous avons présenté dans cette section le modèle de Zhang et Benviniste des réseaux
d’ondelettes. Ce modèle se trouve appliqué dans plusieurs domaines tels que la compression
ou l’approximation des signaux. Les ROZ ont hérité l’algorithme de la retropropagation pour
leur apprentissage qui a lui-même conservé ces inconvénients habituels (lenteur, convergence
aux minima locaux, initialisation,…). Nous allons proposer dans la section suivante une
nouvelle méthode d’apprentissage des ROZ basée sur la théorie des frames. Cet algorithme
permettra le calcul direct des poids de connexion. Une stratégie sera mise en évidence pour le
choix des ondelettes de la couche cachée du réseau et un processus d’optimisation sera
détaillé.
Etude des RO Bêta : Application à la RV ZAIED
82
2. Apprentissage des réseaux d’ondelettes par la théorie des frames
2.1. Introduction
Dans cette section nous présenterons notre algorithme d’apprentissage. Nous
commencerons par expliquer la procédure de constitution d’une bibliothèque d’ondelettes
candidates à être utiliser dans la couche cachée de notre réseau. Nous détaillerons la manière
de leurs sélections, puis nous introduiserons les étapes d’optimisation de ce réseau.
2.2. Optimisation des réseaux d’ondelettes par la théorie des frames
Cet algorithme d’apprentissage des réseaux d’ondelettes exploite la théorie des
ondelettes elle même et en particulier la théorie des frames pour son optimisation.
Essayons de bien voir l’équation (58) de la transformée inverse en ondelettes discrètes.
Cette formule n’est valable sauf si la famille d’ondelettes iψ forme une frame (Daubechies,
1992), elle peut être interprétée comme la sortie d’un réseau d’ondelettes. Le problème dans
cette représentation c’est que le nombre de neurones est infini. Dans le paragraphe suivant
nous essayerons de voir comment discrétiser la transformée continue pour obtenir une
frame et limiter ce nombre de neurones en constituant une bibliothèque d’ondelettes
candidates à joindre notre réseau comme fonctions d’activation.
2.2.1 Comment discrétiser la transformée continue pour obtenir une frame ?
Pour obtenir une frame, une discrétisation des paramètres résolution (a) et position (b)
est nécessaire. La transformée en ondelettes mise en œuvre sur des valeurs discrètes de ces
deux derniers paramètres est appelée transformée en ondelettes discrète.
Ces coefficients a et b seront discrétisés de la manière suivante (Daubechies, 1992)
(Antoninni, 1992), ( Antoninni, 2003):
0 0 0 0 0, 1 0m ma a b nb a avec a et b= = > > . Ainsi, pour un signal comportant 0ja points on
calcule alors seulement les coefficients :
/ 2, 0 0 0 0( ) ( ) ( ) 1,..., 1,...,m m j m
m nw f a a t nb f t m j n aψ− − −= − = =∑ (61)
Etude des RO Bêta : Application à la RV ZAIED
83
On remarque qu'on a échantillonné plus finement aux hautes fréquences qu'aux basses
fréquences.
Pour 0 02, 1a b= = l'échantillonnage est dit dyadique.
Figure 33 . Echantillonnage sur une grille de l’espace temps-fréquence
2.2.2 Constitution d’une bibliothèque d’ondelettes pour le réseau
Tout simplement, les ondelettes résultant de l’échantillonnage temps-fréquence vont
constituer la bibliothèque des ondelettes candidates à joindre notre réseau d’ondelettes.
L’échantillonnage dyadique sera utilisé pour sa simplicité. Ce qui va produire une
ondelette, qui a la décroissance la moins rapide, dans la première échelle. Le nombre
d’ondelettes sera multipliées par deux chaque fois qu’on passe à l’échelle suivante. Les
ondelettes d’une même échelle diffèrent seulement par leurs positions (paramètre de
translation) et elles sont réparties sur l’axe de temps pour couvrir la quasi totalité du signal à
analyser.
Etude des RO Bêta : Application à la RV ZAIED
84
Figure 34 : Les sept premières ondelettes de la bibliothèque et le signal à analyser
Le nombre d’ondelettes de la bibliothèque
Il est clair que si le nombre d’ondelettes d’activation est plus grand, le réseau
approximera mieux le signal d’entrée f, mais quel est le nombre d’ondelettes de notre
bibliothèque?
Pour répondre à cette question, il faut calculer le nombre d’ondelettes échantillonnées
sur l‘échelle dyadique de l’espace temps-fréquence.
Puisque les échelles sont prises sur des puissances de 2, on a besoin de 2log ( )j N=
échelles pour couvrir tout le signal, avec N la taille du signal à approximer. Le nombre
d’ondelettes à chaque échelle m donnée est égale à 2 j m− ondelettes translatées.
Le nombre d’ondelettes total est donc : 2 3 j-1 (1 2 )1+2 +2 2 ... 2 2 1 1(1 2)
jj N−
+ + + = = − = −−
ondelettes.
Ce nombre d’ondelettes parait important, mais en pratique, tout ce nombre n’est pas
nécessaire, car généralement une ondelette sera suffisante pour interpoler plus qu’un
échantillon du signal à analyser et bien l’approximer voire de reconstruire avec un nombre
Etude des RO Bêta : Application à la RV ZAIED
85
bien inférieur à celui de notre bibliothèque. En fait, avec peu d’ondelettes (celles de basses
fréquences) une approximation acceptable est atteinte, les autres ondelettes qui sont les plus
nombreuses viennent juste pour affiner cette approximation. Aussi,comme on va le voir dans
ce chapitre, dans le cas où les ondelettes de notre bibliothèque constituent une frame, le signal
peut être reconstruit seulement en utilisant une famille d’ondelettes de cette bibliothèque qui
constitue une base.
2.2.3 Processus d’optimisation du réseau
Pour optimiser un réseau d’ondelettes, l’échantillonnage sur une grille dyadique de la
transformée en ondelette continue sera utilisé, les ondelettes de basses fréquences qui
permettent une approximation grossière du signal à analyser sont introduites les premières,
celles de hautes fréquence viennent pour affiner le signal approximé.
Pour plus de détails, on définit la fonction ˆD f f= − avec f la fonction à approximer
et f la sortie du réseau. Au début du processus d’optimisation 0f = et D f= . Sur la
première échelle dyadique qui contient une seule ondelette analysante (celle de la fréquence la
plus basse), le poids de la première connexion est calculé par 1 1,w fψ=< > , la sortie du
réseau est alors 1 1f w ψ= et la fonction 1 1D f w ψ= − . A une étape donnée de l’apprentissage
1
1
n
i ii
f wψ−
=
=∑ et 1
1
n
i ii
D f wψ−
=
= −∑ l’ondelette suivante sur l’échantillonnage qui constitue une
base avec les (n-1) ondelettes du réseau va s’ajouter à la couche cachée de ce dernier.
La vérification de l’indépendance linéaire de la nouvelle ondelette et les (n-1)
ondelettes du réseau est une opération délicate et longue, alors la condition suivante pour
qu’une ondelette joigne le réseau est proposée:
1
1
, , 0n
n i i ni
D f wψ ψ ψ−
=
< > = < − >≠∑ (62)
Bien entendu, toutes les ondelettes de la bibliothèque vérifient cette condition dans le
cas d’une famille d’ondelettes orthogonales ou biorthogonales puisque ces ondelettes sont
linéairement indépendantes, mais vu que le cas des frames peut se présenter, ce test se trouve
introduit. Les autres ondelettes qui ne vérifient pas cette condition, donc qui forment une
Etude des RO Bêta : Application à la RV ZAIED
86
frame avec les anciennes ondelettes du réseau, ne seront pas totalement rejetées, mais seront
utilisées pour optimiser les poids des connexions du réseau.
L’itération de ce processus continue jusqu'à ce que l’erreur 1
Nf w ni ii
ψ− ∑=
, fixée à
priori soit atteinte.
Figure 35. Processus de calcul des poids et de la sortie du réseau
Preuve de la condition de choix des ondelettes du réseau
Pour approximer le signal f, les ondelettes du réseau doivent former une base, ce qui
revient à dire que ces ondelettes sont linéairement indépendantes. La nouvelle ondelette doit
vérifier cette condition et en conséquence, elle ne doit pas appartenir à l’espace engendré par
les anciennes ondelettes : 1 1,...,n nψ ψ ψ −∉ < > . On procède par l’absurde :
Admettons que 1 1,...,n nψ ψ ψ −∈ < >
: Signal original
: Sortie du réseau
L2(R2))
. w
< ψ >
Rn
ψ
ψ
Etude des RO Bêta : Application à la RV ZAIED
87
On a donc 1 1 1,..., ,...,n nψ ψ ψ ψ−< > = < >
Et en particulier 1 1 1( ,..., ) ( ,..., )n nψ ψ ψ ψ⊥ ⊥−< > = < >
Cela veut dire 1
1( ,..., )n
i i ni
f w ψ ψ ψ−
⊥− ∈ < >∑
Ce qui implique1
, 0n
i i ni
f w ψ ψ−
< − >=∑
Ce qui est contradictoire avec le choix de nψ dans l’étape d’optimisation qui doit
vérifier1
, 0n
i i ni
f w ψ ψ−
< − >≠∑ . Ainsi, toutes les iψ du réseau sont linéairement
indépendantes et forment une base.
2.2.4 Calcul direct des poids
Pour des ondelettes orthogonales, le calcul des poids de connexion à chaque étape est
possible par projection du signal à analyser sur la même famille d’ondelettes: ,i iw f ψ=< > .
Pour une famille d’ondelettes quelconque, il n’est pas possible de calculer les poids par
projection direct de la fonction f sur la même base. Nous expliquons dans cette section qu’un
calcul simple des poids reste toujours possible même avec des ondelettes non orthogonales.
Deux solutions se présentent pour calculer directement les poids de connexions, la
première se base sur la famille duales des ondelettes du réseau et la deuxième dérive de la
théorie de l’algèbre linéaire, on va voir que les deux solutions mènent aux mêmes résultats
sauf que la première présente des avantages du point de vue implémentation informatique et
temps de calcul.
- Solution basée sur les familles duales:
Définition :
Deux familles d’ondelettes iψ et iψ sont dites biorthogonales si pour tous i et j on a :
,,i i i jψ ψ δ< >= (63)
L’ondelette ψ est dite primale alors que l’ondelette ψ est dite duale.
Si i iψ ψ= la famille iψ constitue une base orthogonale.
Etude des RO Bêta : Application à la RV ZAIED
88
L’utilisation des ondelettes biorthogonales permet le calcul direct des poids de
connexion du réseau d’ondelettes :
Soit f un signal, iψ une famille d’ondelettes qui forme une frame et iψ la famille
d’ondelettes duales alors il existe des poids wi tel que :
i ii
f w ψ=∑ (64)
Un poids peut être calculé en exploitant l’ondelette duale :
,k kw f ψ=< > (65)
La preuve est que:
,
, ( )
[ ]
k k
i i ki
i i ki
i i ki
k
f f x dx
w dx
w dx
w
w
ψ ψ
ψ ψ
ψ ψ
δ
< > =
=
=
=
=
∫
∑∫
∑ ∫
∑
Comment calculer la famille des ondelettes duales (Kruger, 2000) ?
A chaque étape du processus d’optimisation on est mené à connaître la famille duale des
ondelettes bêta formant notre réseau d’ondelettes.
La famille d’ondelette duale iψ est calculée par la formule qui suit :
1,
1
( )N
i i j jj
ψ ψ−=
= Ψ∑ (66)
Avec , ,i j i jψ ψΨ =< >
Etude des RO Bêta : Application à la RV ZAIED
89
Pour démontrer que iψ est duale à iψ il suffit de vérifier la condition de
biorthogonalité : ,,i i i jψ ψ δ< >=
1 1, ,
1 1
1,
1
1,
1
1, ,
1
,
, ( ) ( )[ ( ) ]
( ) [ ( ) ]
( ) ,
( )
N N
i k j j i k j jj j
N
k j i jj
N
k j i jj
N
k j j ij
i k
x dx
x dx
ψ ψ ψ ψ
ψ ψ
ψ ψ
δ
− −
= =
−
=
−
=
−
=
< Ψ >= Ψ
= Ψ
= Ψ < >
= Ψ Ψ
=
∑ ∑∫
∑ ∫
∑
∑
- Solution basée sur la théorie d’algèbre linéaire:
La version discrète de l’ondelette iψ est un vecteur qui représente une ondelette à une
échelle et une translation donnée. On définit la matrice Φ avec la ligne numéro i contient iψ .
Les réseaux d’ondelettes approxime une fonction f par la formule ti i
i
f w Wψ= = Φ∑
avec TW est le vecteur des poids des connexions.
Comme il a été proposé dans (Kruger, 2000), le vecteur TW peut être calculé en
utilisant le pseudo inverse de Φ :
tW f+= Φ (67)
Le pseudo inverse +Φ est défini par :
1( )t t+ −Φ = Φ Φ Φ (68)
Comme c’est déjà mentionné, les deux solutions mènent aux mêmes résultats, sauf que
dans le deuxième cas, à chaque étape d’optimisation le pseudo inverse est recalculé de
nouveau, alors en utilisant les ondelettes duales, on peut exploiter la matrice ancienΨ de l’étape
Etude des RO Bêta : Application à la RV ZAIED
90
d’optimisation précédente (n-1) en calculant seulement un vecteur à concaténer sur les lignes
et les colonnes de ancienΨ .
La nouvelle Ψ est obtenue par :
1
2
1 2
n
ancien nNouv
n n nn
vv
v v v
⎛ ⎞⎜ ⎟Ψ⎜ ⎟Ψ =⎜ ⎟⎜ ⎟⎝ ⎠
(69)
Avec ,in i nv ψ ψ=< > et nψ la nouvelle ondelette qui vient s’ajouter au réseau.
2.2.5 Optimisation des poids dans le cas des frames
Dans le cas d’une frame quelconque (famille d’ondelettes ne formant pas une base) les
valeurs des poids ne sont pas optimales vu que lors de l’étape de l’optimisation on a écarté
quelques ondelettes. Supposons que l’on soit à la deuxième étape de l’optimisation et que les
deux premières ondelettes soient linéairement indépendantes, la sortie du réseau est alors :
2 1 1 2 2f w wψ ψ= + (70)
Supposons maintenant qu’à la troisième étape l’ondelette 3ψ ne soit pas linéairement
indépendante avec les deux premières, la projection du signal d’entrée sur la famille duale des
trois ondelettes mène à l’approximation:
3 1 1 2 2 3 3f w w wψ ψ ψ= + + (71)
Puisque 3ψ dépend des deux autres ondelettes, on peut écrire :
3 1 1 2 2 3 3,1 1 3,2 2
1 3 3,1 1 2 3 3,2 2
( )( ) ( )
f w w w v vw w v w w vψ ψ ψ ψ
ψ ψ
= + + +
= + + + (72)
Etude des RO Bêta : Application à la RV ZAIED
91
Les iv sont calculés par une projection sur la base duale de la famille des deux
premières ondelettes. L’équation (72) approxime le signal f avec les deux ondelettes de
l’équation (71), mais en optimisant leurs poids de connexions.
En général, à une étape n, les poids de connexions sont mis à jour par la formule :
,1 1
( )m n
n i j j i ii j m
f w w v ψ= = +
= +∑ ∑ (73)
Avec m est le nombre d’ondelettes du réseau, qui sont bien sûr linéairement
indépendantes, et (n-m) ondelettes d’optimisation des poids des connexions.
2.3. L’apprentissage dans le cas d’un ROZ 2D
2.3.1 Introduction
Lors de l’analyse d’un signal bidimensionnel, l’utilisation d’une ondelette d’activation
monodimensionnelle dans les neurones nécessite la vectorisation de ce signal à analyser, or la
perte de la relation qui existe entre ces échantillons. Pour remédier à cet inconvénient, on a
fait intervenir une ondelette bidimensionnelles comme fonction d’activation.
2.3.2 Les ondelettes bidimensionnelles
Les ondelettes multidimensionnelles, dites séparables, sont les produits d’ondelettes
unidimensionnelles. Une ondelette bidimensionnelle: ,x y x yΨ = Ψ Ψ est une ondelette qui a les
propriétés de dilatation et de translation sur les deux axes (x,y). La propriété de rotation s’y
ajoute pour qu’elle tourne avec un angleφ . Mathématiquement, l’équation de cette ondelette
est (Bishop, 1995) (Tai Sing, 1996):
, , ,
cos sin1( , ) ( ( ), ( ))sin cosx y
yxa b b
y bx bx y R R Ra aa
φ φ φ φ
φ φψ ψ
φ φ− −⎛ ⎞−
= = ⎜ ⎟⎝ ⎠
(74)
Etude des RO Bêta : Application à la RV ZAIED
92
Figure 36. Exemple d’ondelette bidimentionnelle
La transformée en ondelettes continue d’une fonction f bidimensionnelle dans ce cas est :
1( , , , ) ( , ) ( , )yxx y
y bx bw a b b f x y dxdya aa
φφ ψ−−
= ∫ ∫ (75)
La reconstitution de la fonction f reste possible si l’ondelette est admissible :
2
30 0
1 1( , ) ( , , , ) ( , )yxx y x y
y bx bdaf x y db db d w a b bC a a aa
π
φψ
φ φ ψ∞ −−
= ∫ ∫∫ ∫ (76)
Avec Cψ le facteur d’admissibilité, qui certes doit être fini pour que f soit reconstruite
Etude des RO Bêta : Application à la RV ZAIED
93
2 22
0ˆ0 2 ( cos , sin )dwC d w w
wπ
ψ π φ ψ φ φ∞
< = < ∞∫ ∫ (77)
La discrétisation de cette ondelette pour analyser des signaux discrets, conserve le
même schéma d’échantillonnage des translations et des dilatations proposé pour le cas
monodimensionnel :
0 0 0 0 01 0m ma a b nb a a b= = > > (78)
L’angle φ sera échantillonné de la manière suivante :
0 0 0l lφ φ φ= > ∈ (79)
La transformée en ondelettes discrète est définie par :
/ 20 0 0 0 0( , , , ) ( , ) ( , )
l
m m mw m n k l a a x nb a y kb f x yθψ− − −= − −∑∑ (80)
Les coefficients ( , , , )w m n k l sont calculés donc par différentes opérations de filtrage
du signal à analyser par les filtres des ondelettes analysantes. Ces filtres sont obtenus par
variation dyadique des paramètres m, n, k et l de l’ondelette mère. Des ondelettes duales et
leurs filtres associés sont utilisés dans le cas des ondelettes non orthogonales.
Etude des RO Bêta : Application à la RV ZAIED
94
Figure 37. l’ondelette mère Chapeau Mexicain bidimensionnelle et son filtre associé
Etude des RO Bêta : Application à la RV ZAIED
95
La transformé inverse en ondelettes discrètes dans ce cas est obtenu en remplaçant les
intégrales de l’équation (76) par des sommes. Ces sommes écrites sous la forme d’une seule
donnent :
0 0 0 0( , ) ( , , , ) ( , )l
m mf x y w m n k l a x nb a y kbθψ − −= − −∑ (81)
2.3.3 Optimisation d’un ROZ 2D
Comme pour le cas monodimensionnel, l’équation (81) peut être vue comme la sortie
d’un réseau d’ondelettes si on limite le nombre d’ondelettes utilisées.
Un réseau d’ondelettes ROZ bidimensionnelle a la même structure qu’un ROZ
monodimensionnel, excepté que chaque neurone a deux entrées caractérisant les coordonnées
spatiales des échantillons du signal à approximer.
Figure 38. un neurone d’un réseau d’ondelettes ROZ Bidimensionnelle
Dans le cas d’un signal 2D, l’algorithme d’apprentissage reste presque le même que le
cas 1D, l’échantillonnage dyadique des paramètres de dilatation, de translation et de rotation
de la transformée 2D en ondelettes continues est utilisée. Le résultat est une base d’ondelettes
de structure pyramidale constituant une frame 2D, commençant par une échelle contenant une
seule ondelette centrée exactement au milieu, puis à chaque échelle le nombre d’ondelettes est
multiplié par 4 et leurs centres sont disposés sur le support du signal à analyser d’une manière
équidistante.
∏
x
y
Etude des RO Bêta : Application à la RV ZAIED
96
Figure 39. Les centres des ondelettes dans les trois premières échelles
Une fois la base d’ondelettes bidimensionnelle candidates à joindre le réseau est
constituée, le même processus utilisé pour l’apprentissage dans le cas 1D est appliqué dans ce
cas :
Figure 40. Processus de calcul des poids et de la sortie du réseau dans le cas d’un ROZ2D
L2(R2))
.
w
<ψ>
Rn
ψ
ψ
Etude des RO Bêta : Application à la RV ZAIED
97
Admettant qu’on dispose de l’image suivante :
Figure 41. Image à faire apprendre au ROZ2D
L’apprentissage de cette image à un ROZ consiste à trouver la combinaison linéaire
optimale des filtres associés aux ondelettes de notre base d’ondelettes et les poids de
connexions calculés par la technique des ondelettes duales et optimisés par la théorie des
frames. La figure suivante explique ce processus d’approximation.
= W1
+…+Wi+…+Wn
Figure 42. Approximation de l’image de la figure précédente par un ROZ2D
Bien sûr, les ondelettes de la base ne seront pas toutes utilisées comme filtres
d’approximation puisque quelques unes seront exploitées pour mettre à jour les poids de
Etude des RO Bêta : Application à la RV ZAIED
98
connexions de réseau. Sur la figure suivante, on peut remarquer un exemple montrant les
centres d’ondelettes utilisées comme filtres d’approximation.
Figure 43 : Les centres des ondelettes dans les trois premières échelles
3. Conclusion
Ce chapitre nous a permis de présenter les concepts théoriques des réseaux d’ondelettes
ROZ, leurs naissances et leurs relations avec la théorie des frames. Un nouvel algorithme
d’apprentissage de ces réseaux basé sur cette théorie a été proposé. Nous avons montré la
capacité de cet algorithme en termes de calcul direct des poids de connexions et de choix des
ondelettes du réseau. Dans le chapitre suivant, nous détaillerons nos approches de
reconnaissance de visages basés sur les deux types de réseaux d’ondelettes présentés dans les
deux chapitres précédents.
CHAPITRE IV Application des RO Bêta à La
reconnaissance de visages
Etude des RO Bêta : Application à la RV ZAIED
100
1. Introduction
Dans ce chapitre nous présentons dans une première étape les ondelettes Bêta 1D et 2D.
Nous introduisons leurs expressions analytiques et leurs paramètres. Dans une deuxième
étape, nous détaillons nos approches de reconnaissance de visages basées sur les deux
modèles de réseaux d’ondelettes en présentant les phases d’apprentissage et de
reconnaissance.
2. Les Ondelettes Bêta comme fonction d’activation
2.1. Les ondelettes Bêta 1D
La fonction Bêta est définie par (Ben Amar, 2005) (Zaied, 2003):
0 10 1
0 1 0 1
1 00 1
] , [( ; , , , )
0
, ,
p q
c c
c
x x x x si x x xx p q x x x x x x
si non
px qxAvec p q x x et xp q
β
⎧⎛ ⎞ ⎛ ⎞− −⎪ ∈⎜ ⎟ ⎜ ⎟= − −⎨⎝ ⎠ ⎝ ⎠⎪⎩
+< ∈ℜ =
+
(82)
La fonction Bêta possède les propriétés suivantes (Ben Amar, 2005) (Zaied, 2003):
( ) ( ) 00 1
( ) 1
x x
xc
β β
β
= =
= (83)
0
1
x xp cq x xc
−=
− (84)
( )( ) 1 0 ( )( )( )0 1
( ) ( )( ) 0 1 0
px qx p q xd x xdx x x x x
d x d xd xcdx dx dx
β β
β ββ
+ − +=
− −
= = =
(85)
Etude des RO Bêta : Application à la RV ZAIED
101
2 ( ) ( ) ( )
1 1 1( ) ( )( 1) 1 0( )( ) ( ) ( )0 1 1 0
d x x A xdx
Avec A x p q x px pxx x x x x x x x
β β=
⎡ ⎤= ⎢ − − + + + + ⎥
− − − −⎢ ⎥⎣ ⎦
(86)
Figure 44. Différentes formes de la fonction Bêta (x0=-1 ; x1=1).
On note ici que la fonction Bêta peut être considérée comme une fonction linéaire de x
si on prend p=1, q=0 ou p=0, q=1.
La fonction Bêta n’est pas une ondelette puisque elle ne vérifié pas la propriété
d’oscillation, mais Il a été démontré dans (Ben Amar, 2005) (Zaied, 2003) que toutes les
dérivées de la fonction bêta sont des ondelettes admissibles. Nous pouvons aboutir à des
différentes ondelettes par modifications des paramètres fonctionnels de la fonction bêta
x0,x1,q et p . Dans ce mémoire, on va nommer les ondelettes Bêta par les ordres de dérivation
0
2E+29
4E+29
6E+29
8E+29
1E+30
x
0
0,2
0,4
0,6
0,8
1
1,2
x
0
100000
200000
300000
400000
500000
x
0
100000
200000
300000
400000
500000
x
0
5E+49
1E+50
2E+50
2E+50
3E+50
x
0
0,2
0,4
0,6
0,8
1
1,2
x
0
2E+29
4E+29
6E+29
8E+29
1E+30
x
01E+542E+54
3E+544E+545E+546E+547E+548E+54
x
0
0,2
0,4
0,6
0,8
1
1,2
x
p=2 q=10 p=2 q=2 p=1 q=2
p=0.01 q=10
p=50 q=50 p=99 q=20
p=0.01 q=0.01 p=10 q=0.01
p=20 q=99
Etude des RO Bêta : Application à la RV ZAIED
102
de la fonction Bêta, par exemple l’ondelette dérivée première de la fonction Bêta va porter le
nom "Bêta1", l’ondelette dérivée deuxième "Bêta2"…etc. Pour préciser si l’ondelette est
mono ou bidimensionnelle on va ajouter les symboles 1D ou 2D alors que les paramètres
x0,x1,q et p seront précisés entre parenthèses de la manière suivante : Bêta1_1D(x0,x1,q,p) .
Pour une ondelette Bêta 2D, on va ajouter seulement deux paramètres pour le support de
l’ondelette dans le sens de l’axe des y, finalement une ondelette Bêta1 bidimensionnelle par
exemple sera représentée donc dans notre cas par: Bêta1_2D(x0,x1, y0,y1,q,p).
Bêta1_1D(0,100,5,5) Bêta1_1D (0,100,30,30)
Bêta1_1D (0,100,70,70)
Bêta2_1D (0,100,5,5) Bêta2_1D (0,100,30,30)
Bêta2_1D (0,100,70,70)
Bêta3_1D (0,100,30,30) Bêta3_1D (0,100,30,30)
Bêta3_1D (0,100,70,70)
Figure 45. Les ondelettes Bêta1, Bêta2 et Bêta3 pour différentes valeurs de p et q (avec p=q)
Etude des RO Bêta : Application à la RV ZAIED
103
Les ondelettes Bêta ont les propriétés de symétrie ou d’antisymétrie pour des valeurs
égales de p et q (Ondelettes Bêta(i) symétriques si i paire et antisymétrique si i est impaire).
Pour d’autres valeurs de p et q ces ondelettes perdent ces propriétés, voici quelques exemples
sur les deux figures ci-dessous.
Bêta1_1D (0,100,10,12)
Bêta2_1D (0,100,10,12)
Figure 46. Les ondelettes Bêta1, Bêta2 pour deux valeurs de p et q différentes
Figure 47: L’ondelette Bêta1_1D(0,100,15,15) et sa duale
2.2. Les ondelettes Bêta 2D
Une ondelette Bêta 2D, comme toute ondelette séparable, est le produit de deux
ondelettes monodimensionnelles : ( , ) ( ) ( )Bêta x y Bêta x Bêta y= ×
Voici quelques exemples d’ondelettes Bêta bidimensionnelles et leurs filtres associés.
Etude des RO Bêta : Application à la RV ZAIED
104
Bêta1_2D(0,50,0,50,10,10)
Bêta2_2D(0,50,0,50,10,10)
Figure 48. Quelques fonctions Bêta bidimensionnelle et leurs filtres associés
Bêta3_2D(0,50,0,50,10,10)
Etude des RO Bêta : Application à la RV ZAIED
105
3. Reconnaissance de visage par ROB
3.1. Approche utilisée pour la reconnaissance de visage par un RO
3.1.1 Introduction
Cette première technique de reconnaissance de visages mise en valeur dans le cadre de
ce mémoire est basée sur les réseaux d’ondelettes entraînés avec l’algorithme de
rétropropagation pour la phase d’apprentissage. Nous établirons dans cette section
l’architecture de ce réseau d’ondelettes pour la reconnaissance de visages, nous détaillerons
l’algorithme d’apprentissage utilisé puis nous présenterons l’approche de reconnaissance.
Le but est de reconnaître des individus qui montrent des expressions faciales différentes
(heureux, triste, surpris, etc.), des conditions spéciales peuvent également être présentes dans
les visages de ces personnes, citons notamment les cas des lunettes fumées, chapeau, bandeau,
cigares, etc., des changements corporels (par exemple barbe, moustache, maquillage, couleurs
de cheveux, cheveux détachés, etc.) et d’éclairage (par exemple incandescent, directionnel,
etc.).
3.1.2 L’architecture de réseaux d’ondelettes pour la reconnaissance de visages et le principe
d’apprentissage.
Les architectures classiques de reconnaissance de visages par réseaux de neurones
consistent à utiliser des réseaux à trois couches une couche de cellules cachées, et une couche
de cellules de sortie. Les cellules d’une couche sont connectées à toutes les cellules de la
couche suivante, et à celles-ci uniquement. La propagation des valeurs se fait dans le sens
"feedforward", c’est-à-dire des cellules d’entrée vers les cellules de sorties. L’apprentissage
consiste à présenter l’image du visage à l’entrée du réseau et à activer une sortie caractérisant
la personne concernée. Le nombre de neurones de sortie est donc directement lié au nombre
d’individus à discriminer. Cette architecture présente un problème majeur lors de l’ajout
d’une personne à la base d’apprentissage, ce système se trouve obligé à ajuster son
architecture et à refaire toute l’étape d’apprentissage.
Par analogie, les réseaux d’ondelettes pour la reconnaissance de visages ont la même
architecture que celle des réseaux de neurone, seulement la fonction de transfert ψ des cellules
cachées est une fonction ondelette. A chaque étape d’apprentissage, les paramètres du réseau
sont adaptés par la méthode de la rétropropagation de gradient pour aboutir à la sortie désirée.
Etude des RO Bêta : Application à la RV ZAIED
106
Afin de préciser ce que nous entendons par paramètre, nous pouvons nous référer à la
Figure 49. Nous désignons par paramètre, un coefficient quelconque des coefficients de
l’architecture, intervenant dans le calcul de la sortie fournie par le réseau. Ces paramètres sont
donc :
wij : les poids de connexion entre la cellule i de la couche cachée et la cellule de sortie j.
ai : les coefficients de dilatation de la cellule i.
bi : les coefficients de translation de la cellule i
Pour surmonter le problème de l’ajout de personnes à la base d’apprentissage, nous
avons proposé notre propre approche d’apprentissage, cette technique consiste à choisir en
premier lieu une image par personne (nous avons choisi les visages avec les "expressions
normales"), un réseau d’ondelettes ( iψ ,wi) est optimisé pour chacune d’elles
(entrée=sortie=image du visage). Nous aboutissons à une base de réseaux d’ondelettes (un
réseau par personne). Les paramètres de ces réseaux sont enregistrés dans une base appelée
base de paramètres à utiliser ultérieurement pendant la phase de reconnaissance.
Figure 49: principe de la méthode d’apprentissage
x1
xj
xm
y1
yj
ym
w11
w1j
w1m
a1
ak
b1
bk
ai bi wi
Base de paramètres (Un réseau par personne)
ai: paramètre de dilatation de l’ondelette bi : paramètre de translation de l’ondelette wi: Poids des connexions du réseau
Etude des RO Bêta : Application à la RV ZAIED
107
3.1.3 Présentation d’une image de test et processus de reconnaissance
Pour reconnaître un visage d’une personne, nous faisons passer son image par tous les
réseaux d’ondelettes de la base de paramètres.
Le réseau qui approxime mieux l’image est celui de la personne cherchée.
La performance d’approximation des réseaux de la base de paramètres est estimée
en mesurant l’Erreur Quadratique Moyenne (EQM), exprimée par la formule suivante :
( ) ( )( )2
1 1
1 , ,*
N M
i jEQM A i j B i j
M N = =
= −∑ ∑ (87)
Tels que A et B représentent respectivement les coefficients d'entrée du réseau et ceux
de sortie, alors que, M et N leurs dimensions.
La reconstitution de l’image est plus performante quand cette mesure est plus faible.
Le réseau qui à l’EQM la plus petite concerne généralement la personne cherchée.
3.1.4 Détection d’une personne n’appartenant pas à la base d’apprentissage
Peu de chercheurs se sont penchés à détecter la non appartenance d’une personne à la
base d’apprentissage. Pourtant cette application est très recherchée notamment dans le
domaine de sécurité, tel que le contrôle d’accès automatique.
Notre approche de reconnaissance de visages peut détecter la présence d’une image
d’un visage qui n’appartient pas à la base d’apprentissage. L’idée consiste à fixer un seuil
SEQM (Seuil d’Erreur Quadratique Moyenne) et à conclure que la personne est inconnue en
se basant sur ce seuil. Cette conclusion est confirmée si toutes les EQM calculées pendant la
phase de reconnaissance sont au dessus du SEQM.
Le SEQM est estimé suite à un ensemble d’opérations de reconnaissances manuelles.
Ces opérations consistent à tester le système de reconnaissance avec des images de personnes
appartenant à la base de test (c’est à dire qui ont déjà des images entraînées par le système) et
à calculer chaque fois les EQM minimales. La procédure en détail consiste à:
Pour chaque image de test d’une même personne l’EQM minimale de la phase de
reconnaissance est calculée. On aboutit à un ensemble d’EQM minimale concernant
chaque image de chaque personne noté EQMMij.
Etude des RO Bêta : Application à la RV ZAIED
108
Avec i est le numéro de l’image de test de la même personne et j est le numéro de la
personne.
Le Seuil SEQM est égal à au minimum de ces EQM :
ij(EQM ) SEQM MIN= (88)
Figure 50. Exemple d’une personne reconnue par le système
Figure 51. Exemple d’une personne non reconnue par le système
Etude des RO Bêta : Application à la RV ZAIED
109
3.1.5 Architecture du réseau d’ondelettes en utilisant des vecteurs caractéristiques
Nous nous sommes confrontés à la grande taille des informations de l’image à faire
entrer et entraîner à notre réseau, pour une image de 100x100 pixels par exemple, il faut faire
entrer un vecteur de 10000 valeurs, ce qui est énorme et nous laisse douter sur la capacité de
la convergence du réseau. Pour surmonter ce problème, nous avons choisi, comme c’est
proposé pour l’apprentissage des réseaux de neurones dans le paragraphe 0 du premier
chapitre, d’utiliser un vecteur d’entrée composée des coefficients d’eigenface du visage
[ ]1 2, ,..., TMω ω ω à faire apprendre au réseau. Ce qui va nous permettre de réduire le nombre
des valeurs d’entrée.
Pour chaque visage de la base d’apprentissage, nous construisons un réseau d’ondelettes
RO prenant en entrée ces coefficients des eigenfaces, nous approximons ces coefficients, puis
nous sauvegardons les paramètres fonctionnels du réseau dans la base des paramètres.
L’architecture de notre réseau d’ondelettes sera donc comme suit :
Figure 52. Principe de la méthode d’apprentissage en utilisant les eigenfaces et les réseaux d’ondelettes
Pour reconnaître le visage d’une personne, nous faisons passer les coefficients
d’eigenface de son image par tous les réseaux d’ondelettes de la base de paramètres, puis la
procédure utilisant l’approche de L’EQM est appliquée pour prouver l’identité du visage.
x1
xj
xm
y1
yj
ym
w11
w1j
w1m
a1
ak
b1
bk
ai bi wi
Base de paramètres (Un réseau par personne)ai: paramètre de dilatation de l’ondelette
bi : paramètre de translation de l’ondelette wi: Poids des connexions du réseau
1
2
.
.
.
n
ωω
ω
⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦
1
2
.
.
.
n
ωω
ω
⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦
Etude des RO Bêta : Application à la RV ZAIED
110
3.1.6 Conclusion
Cette section nous a permis de présenter une première architecture des réseaux
d’ondelettes pour la reconnaissance de visages. Nous avons montré qu’il s’agit d’un type
spécifique de réseau de neurones. Ainsi nous avons présenté son algorithme d’apprentissage
basé sur la rétropropagation du gradient et l’algorithme de décision de la reconnaissance de
visages.
Cet algorithme d’apprentissage malgré ses résultats fort intéressants, a des
inconvénients remarquables tels que la lenteur, les problèmes d’initialisations des paramètres
et des poids et la convergence à des minimas locaux.
3.2. Approche utilisé pour la reconnaissance de visage par un ROZ
3.2.1 Introduction
La deuxième technique de reconnaissance de visage mise en valeur dans cette thèse est
basée sur les ROZ avec des fonctions d’activations des ondelettes Bêta (ROZB). Dans ce qui
suit, nous commencerons par présenter quelques notions à utiliser avec cette technique, nous
présentons la procédure d’apprentissage puis nous détaillerons l’approche de reconnaissance.
3.2.2 Mesure de la distance euclidienne entre deux réseaux d’ondelettes
Il est intéressant de déterminer la similarité entre deux réseaux d’ondelettes Bêta. Dans
cette section, nous introduisons et discutons deux différentes mesures de distances:
Mesure de la distance entre deux ROZB spécifiques 1( , )vΦ et 2( , )wΦ . Cela permet de
comparer deux objets représentés par deux ROZB différents.
Mesure de la distance entre deux vecteurs de poids 1w et 2w d'une famille spécifique
d'ondelettes ψ ; c'est-à-dire comparaison entre deux ROB 1( , )wψ et 2( , )wψ . Cette mesure
permet de comparer deux objets représentés par le même réseau d'ondelettes.
Calcul direct de la distance entre deux réseaux d'ondelettes quelconques
Supposons qu’on dispose de deux réseaux d’ondelettes 1( , )vΦ et 2( , )wΦ avec deux
familles d’ondelettes 1{ | 1... }i i Nφ = et 2{ | 1... }i i Mφ =
Etude des RO Bêta : Application à la RV ZAIED
111
11
N
i ii
f v φ=∑ (89)
22
M
i ii
f w φ=∑ (90)
Pour comparer ces deux réseaux d’ondelettes, il faut transformer le vecteur Nv ∈ du
réseau d’ondelettes 1Φ à un vecteur ' Mv ∈ du réseau d’ondelettes 2Φ . Pour aboutir à cette
transformation la technique des ondelettes duales est utilisée : dans l’ordre de représenter 1f avec les vecteurs du réseau 2Φ , on applique les ondelettes duales 2Φ des ondelettes 2Φ à 1f .
' 2 2 11v f v= Φ = Φ Φ (91)
Avec cette projection, 'v représente v dans le réseau des ondelettes 2Φ . La même
manipulation peut être faite avec les poids w :
' 1 1 22w f w= Φ = Φ Φ (92)
De ce fait 1f et 2f peuvent être écrites sous cette forme :
' 21
M
i ii
f v φ=∑ (93)
' 12
N
i ii
f w φ=∑ (94)
En utilisant ces formules, on peut comparer les deux réseaux (89) et (90), en comparant
les formules 11
N
i ii
f v φ=∑ et ' 12
N
i ii
f w φ=∑ ou 22
M
i ii
f w φ=∑ et ' 21
M
i ii
f v φ=∑ puisque à chaque
cas les deux réseaux utilisent les mêmes fonctions noyaux et leurs poids de connexions sont
représentés dans les même espaces d’ondelettes. De ce fait, le calcul de la distance entre deux
Etude des RO Bêta : Application à la RV ZAIED
112
réseaux d’ondelettes 1( , )vΦ et 2( , )wΦ est transformé au calcul de la distance entre 1( , )vΦ
et 1 '( , )wΦ ou entre 2( , )wΦ et 2 '( , )vΦ .
Dans le cas de réseaux de tailles différentes, il vaut mieux de faire la projection sur le
réseau qui a la taille supérieure pour ne pas diminuer sa précision.
Mesure de distance entre deux réseaux d’ondelettes de mêmes fonctions noyaux :
Pour comparer deux réseaux d’ondelettes la distance euclidienne est calculée, Cette
mesure est donnée par la formule :
1 1 2
N N
i i j ji j
v wφ φ= =
−∑ ∑ (95)
Quelques transformations algébriques donnent :
1 1 21
2 2
1 1
12 2
1
12
1 1
12
1 1
( ) ( )
( ) ( )
( ) ( )
( ) ( )
N N
i i j ji j
N N
i i j ji j
N
i i i i ii
N N
i j i ji j
N N
i j i ji j
i j
v w
v x w x dx
x dx avec v w
x x dx
x x dx
φ φ
φ φ
δ φ δ
δ δ φ φ
δ δ φ φ
δ δ φ
= =
= =
=
= =
= =
−
⎡ ⎤⎛ ⎞⎢ ⎥= −⎜ ⎟⎢ ⎥⎝ ⎠⎣ ⎦
⎡ ⎤⎛ ⎞= = −⎢ ⎥⎜ ⎟
⎝ ⎠⎢ ⎥⎣ ⎦
⎡ ⎤⎛ ⎞= ⎢ ⎥⎜ ⎟⎢ ⎥⎝ ⎠⎣ ⎦
⎡ ⎤= ⎢ ⎥⎣ ⎦
= <
∑ ∑
∑ ∑∫
∑∫
∑∑∫
∑∑ ∫12
,
( ), ( )i ji j
x xφ⎡ ⎤
>⎢ ⎥⎣ ⎦∑ (96)
La distance euclidienne entre deux réseaux de mêmes fonctions ondelettes peut être
écrite comme suit :
Etude des RO Bêta : Application à la RV ZAIED
113
12
,( ( ) )ti jΔ Φ Δ (97)
Avec 1( ... )tNδ δΔ = et , ,i j i jφ φΦ =< > ; cette matrice est calculée hors ligne, puisqu’elle
est déjà calculée lors de l’étape d’optimisation (équation (66)).
Donc, le calcul de la distance euclidienne entre deux réseaux se fait simplement en
calculant le vecteur différence entre les deux poids des deux RO.
3.2.3 Représentation de visage avec ROZB2D pour une reconnaissance automatique
Dans cette section nous allons discuter l’idée sur laquelle est basée notre approche de
reconnaissance automatique de visages avec les ROZB2D. Premièrement, nous présenterons
comment appliquer une approximation sur un visage pour masquer l’arrière-plan en vue d’une
reconnaissance meilleure. Ensuite, nous allons montrer la particularité de ces réseaux en
termes d’indépendance d’approximation. En fait, si un réseau est optimisé sur un objet il reste
très spécifique à cet objet. Nous présenterons en troisième lieu, la procédure d’apprentissage
et de création de la base d’apprentissage et enfin nous détaillerons l’algorithme de
reconnaissance.
Application d’un masque d’apprentissage.
Pour un taux de reconnaissance meilleur, une élimination de l’arrière-plan des images
d’apprentissage est fortement demandée. Un exemple sur la figure suivante montre une image
originale de visage, son approximation par un réseau d’ondelettes et l’approximation
seulement du visage contenu dans cette image.
Figure 53. Image originale 140x80
Etude des RO Bêta : Application à la RV ZAIED
114
Figure 54. Approximation de l’image de la figure précédente par un ROZB sans et avec masque
Idée générale de la reconnaissance.
Notre algorithme de reconnaissance est basé sur la propriété des ROZB2D
d’approximation d’un objet spécifique, en effet un ROZB2D ( , )WΨ optimisé sur un visage
d’une personne f reste très spécifique à cet individu. Différents visages de la même personne
peuvent être représentés par des ROZB2D '( , )WΨ , pour lesquels la famille d’ondelettes
Ψ est la même, mais les poids 'W sont recalculés. Cependant, pour une autre personne g, il
semble que le ROZB2D optimisé pour f n’est pas une représentation acceptable. En essayant
de reconstruire f en utilisant la famille d’ondelettes Ψ , un nouveau vecteur de poids ''W peut
se manifister, mais la représentation de l’image f par le réseau '',WΨ≺ reste loin d’être
acceptable. Un exemple est représenté sur la figure suivante. A gauche, la reconstruction
d’une image f sur laquelle un ROZB2D ( , )WΨ est optimisé. Au centre, le visage de la même
personne mais avec une image différente est représenté par la même famille d’ondelettes Ψ et
de nouveaux poids 'W . A droite, une image d’une autre personne g représentée par un
ROZB2D ''( , )WΨ . Tous les poids 'W et ''W sont calculés par la méthode de la projection
de ces images sur la base duale des ondelettes Ψ .
Cet exemple montre qu’aucun vecteur de poids ''W , qui donne une bonne
reconstruction, comme c’est le cas pour l’image f ou l’image du milieu sur la figure suivante,
ne peut être trouvé pour représenter d’une façon acceptable l’image g. Cela démontre que si
un ROZB2D ( , )WΨ est optimisé pour un individu f et reste très spécifique à cet individu.
En conséquence, quand on dit qu’un ROZB2D est spécifique à une personne, nous voulons
Etude des RO Bêta : Application à la RV ZAIED
115
dire que la famille d’ondelettes est spécifique à cette personne et nous ignorons le vecteur de
poids W .
Comme un ROZB2D est très spécifique à une personne sur laquelle le sujet est
optimisée, il est raisonnable que si l’on veut trouver le degré de ressemblance d’une image de
test g et une image d’apprentissage f, on peut appliquer le ROZB2D de l’image f sur le visage
g et mesurer la qualité de la reconstruction pour déterminer si les deux visages sont de la
même personne ou non.
En résumé, notre technique de reconnaissance consiste à :
1. Coder chaque image d’apprentissage par un ROZB2D.
2. Coder l’image de test avec les ROZB2D de la base d’apprentissage.
3. Comparer successivement les ROZB2D obtenues de l’image de test avec les ROZB2D de
la base d’apprentissage.
Figure 55. A droite, l’image d’une personne représentée par un ROZB2D, au milieu, une image de la même personne et à droite, l’image d’une autre personne représentées par le
même ROZB2D.
La construction d’une base d’apprentissage par ROZ et le principe d’apprentissage.
Dans cette étape, nous envisageons l’approximation de chaque image de la base
d’apprentissage par un ROZB2D. Nous utiliserons notre technique d’apprentissage de ces
réseaux basée sur la théorie de frames présentée dans le chapitre précédent. L’apprentissage
est achevé lorsqu’une erreur entre l’image originale et l’image reconstruite par le ROZB2D,
prédéfinie à priori, est atteinte.
Etude des RO Bêta : Application à la RV ZAIED
116
Comme dans la section précédente, une base de paramètres des réseaux d’apprentissage
est reconstruite au fur et à mesure qu’on approxime une image d’un visage par un ROZB2D.
Nous avons choisi de localiser l’approximation sur l’image du visage dans le but de
masquer l’arrière-plan. La figure suivante montre l’évolution de la qualité de l’image
approximée en fonction du nombre d’ondelettes par rapport à l’image originale.
Figure 56. Image originale 140x80
2 ondelettes 10 ondelettes 16 ondelettes 32 ondelettes
64 ondelettes 100 ondelettes 142 ondelettes 175 ondelettes
Figure 57. Sortie du réseau en fonction du nombre d’ondelettes utilisé
Etude des RO Bêta : Application à la RV ZAIED
117
3.2.4 L’approche de la reconnaissance.
Reparamétrage du ROZB2D :
Nous avons démontré dans le paragraphe précédent qu’un ROB2D est très spécifique à
un objet sur lequel il a été optimisé. Pour assurer un calcul optimal des poids de connexions et
les filtrations optimales par les ondelettes bêta du réseau sur une image contenant le même
objet, mais avec des positions ou des orientations différentes, les ondelettes ont besoin d’être
replacées sur les zones de la nouvelle image sur les quelles elles sont supposées placées sur
l’image d’apprentissage.
Pour être plus clair, supposons qu’on a un ROZB2D constitué de quatre ondelettes qui
approximent le visage d’une personne. Avec deux ondelettes qui approximent les deux yeux,
une pour le nez et une quatrième pour la bouche, supposons aussi qu’on a une deuxième image
de la même personne, mais avec une position et une orientation différentes qu’on veut
approximer par le même ensemble d’ondelettes. Il est clair qu’il faut repositionner les quatre
ondelettes sur les nouvelles positions des yeux, du nez et de la bouche pour une approximation
optimale de cette deuxième image.
Un exemple est présenté sur la figure suivante ; à gauche, dix ondelettes optimales sont
placées sur le visage f d’une personne en vue de l’approximer par un ROZB2D. Au milieu, un
autre visage g de la même personne à approximer par la même famille d’ondelettes qui ont
gardé leurs mêmes positions alors que les éléments du visage ont changé de positions et
d’orientations. A droite, le même visage g avec les mêmes ondelettes, mais après correction
de leurs paramètres (translations, dilatations et orientations).
Figure 58. Reparamétrage d’un RO optimisé sur un visage d’une personne
Etude des RO Bêta : Application à la RV ZAIED
118
Le reparamétrage d’un réseau d’ondelettes est établi en utilisant une superondelette
(Szu H, 1992) (Kruger, 2000).
Définition :
Une superondelette Ψ est définie comme la combinaison linaire d’un ensemble
d’ondelettes linéairement indépendantes :
( ) ( )n i nii
x w xψΨ =∑ (98)
Avec les paramètres du vecteur ( , , , )x yn a b b θ= de la superondelette Ψ sont la
dilatation a, les deux translations sur les deux axes bx et by et le paramètre de rotation θ .
Une superondelette est une ondelette (Szu H, 1992), qui a les paramètres de translations,
de dilatation et de rotation. Par conséquent, on peut la traiter comme on traite une ondelette
élémentaire.
Pour garantir toutes les déformations affines possibles Kruger, dans (Kruger, 2000), a
ajouté deux paramètres xa et ya pour le vecteur n pour que la superondelette puisse se dilater
indépendamment dans les deux sens.
Pour une nouvelle image g, on peut déformer une superondelette Ψ en optimisant ces
paramètres n pour qu’elle approxime cette image g. Le fait que la superondelette est la
combinaison linéaire d’un ensemble d’ondelettes, les déformations peuvent être généralisées
sur ces ondelettes. Cela veut dire par exemple, que si la superondelette est déplacée par une
translation égale à a dans le sens de l’axe des x, la même translation est appliquée sur les
ondelettes iψ constituant cette superondelette.
Il est clair qu’un ROZB2D ,WΨ≺ , après une phase d’apprentissage, est une
superondelette, alors, pour reparamétrer ce réseau on peut optimiser les paramètres de sa
superondelette.
Nous avons choisi, pour l’optimisation des paramètres de la superondelette, la méthode
de marquardt-levenberg , qui est reconnue parmi les meilleures méthodes d’optimisation.
L’exemple de la figure suivante montre la superondelette optimisée sur le visage d’une
personne f puis sur la figure d’après, les étapes d’optimisation des paramètres de cette
superondelette pour qu’elle approxime une image g.
Etude des RO Bêta : Application à la RV ZAIED
119
On remarque qu’au début de la procédure d’optimisation, la superondelette ne couvre
pas le visage de la personne g, puis au long des itérations les paramètres de translation, de
dilatation et de rotation sont changés et la superondelette à été déformée et replacée pour
couvrir les zones de visage approximées déjà sur l’image f .
Figure 59. Une Superondelette optimisée sur une image
Figure 60. Reparamétrage de la superondelette de l’image f pour approximer l’image g
Les étapes de reconnaissance
Pour reconnaître un visage g d’une personne, en premier lieu, les superondelettes iΨ de
tous les ROZB2D de la base d’apprentissages sont modifiées linéairement pour mieux
approximer l’image g. Nous aboutissons à des nouvelles superondelettes 'iΨ pour chaque
ROZB2D de la base d’apprentissage. Ces modifications peuvent être généralisées sur les
ondelettes de chaque réseau puisque chaque superondelette est la somme pondérée de ses
Etude des RO Bêta : Application à la RV ZAIED
120
ondelettes. Les résultats sont des nouveaux réseaux '( , )i iWΨ . Ces réseaux ne sont pas
parfaitement optimisés pour caractériser l’image g. Des améliorations peuvent être faites en
recalculant leurs poids de connexions. Les nouveaux poids sont obtenus en exploitant la
méthode de projection sur les bases duales d’ondelettes pour obetir enfin à un ensemble de
nouveaux réseaux ' '( , )i i
WΨ .
En deuxième lieu, ces réseaux ' '( , )i i
WΨ sont comparés à leurs origines ( , )i iWΨ de la
base de paramètres reconstruite pendant l’apprentissage, en calculant les distances
euclidiennes. La distance minimale concerne généralement la personne cherchée.
Les figures suivantes représentent ces étapes de reconnaissance :
Figure 61: Le visage g à reconnaître
Etude des RO Bêta : Application à la RV ZAIED
121
Etape 1 :
Etape 2 :
Etape 3 :
' '( (( , ), ( , ))) ?i ii iMIN DISTANCE W WΨ Ψ =
Figure 62: Les trois étapes de la phase de reconnaissance
3.2.5 Conclusion
Dans cette section nous avons présenté notre deuxième technique de reconnaissance de
visages basée sur les réseaux ROZ2D. La phase d’apprentissage de cette approche consiste à
optimiser un ROZB2D pour chaque image d’apprentissage. L’algorithme d’apprentissage
basé sur la théorie des frames a été employé. Ces réseaux sont enregistrés dans une base,
appelé base de paramètres, en vue d’une utilisation ultérieure pendant la phase de
reconnaissance.
. w'
'ψ
' '( , )i iWΨ
Base d’apprentissage ( , )i iWΨ
.
.
Approximer g par
Translations, Dilatations et Rotations des iΨ
( , )i iWΨ
Etude des RO Bêta : Application à la RV ZAIED
122
Nous avons montré que, si un ROZ2D optimisé pour un individu alors il reste très
spécifique à cet individu. De ce fait, nous avions l’idée de l’algorithme de reconnaissance qui
consiste à déformer les superondelettes de chaque réseau d’apprentissage puis de recalculer
leurs poids de connexions pour approximer une image de test. Ces réseaux sont comparés à
leurs origines de la base de d’apprentissage en calculant les distances euclidiennes entre eux.
Nous avons montré également que l’utilisation de cette mesure pour comparer deux
ROZ est conseillée, on a pu la réduire à un calcul direct de la différence entre leurs poids de
connexions.
Dans la section suivante, nous présenterons l’implémentation de ces deux réseaux et
nous montrerons leurs performances dans le domaine de reconnaissance de visages en les
testant sur différentes bases de visages.
4. Implémentation et Résultats
4.1. Introduction
La reconnaissance du visage par vision numérique est, comme démontrée
précédemment, très complexe et très variée. Les différentes méthodes envisageables
possèdent des avantages et des inconvénients qui doivent être considérés lors du design d’un
système complet d’identification. Pour ce faire, il est primordial de valider les techniques
choisies sur des ensembles de données relativement volumineux connus par la commuté
mondiale. Même si de telles images ne représentent pas exactement les conditions réelles
d’utilisation, elles procurent, néanmoins, une idée fiable du comportement des différents
modules dans un environnement contrôlé.
Ainsi, plusieurs bases d’images ont été créées afin de comparer les différentes méthodes
entre elles selon diverses conditions (c’est-à-dire. : éclairage, pose, occultations, etc.). Parmi
celles-ci, il y a notamment la FERET (Jonathon, 2000), AR-face (Aleix, 1998), AT&T
(appelée auparavant Olivetti), X2MVTS (Aleix, 1998), Yale, MIT, Achermann ainsi que
plusieurs autres.
Chacune d’entre elles possède évidemment ses particularités spécifiques ainsi que ses
qualités et défauts.
Etude des RO Bêta : Application à la RV ZAIED
123
Ce dernier chapitre exposera alors à la section II les différentes bases d’images retenues
pour les expérimentations, soient la FERET et AT&T Ensuite, la section III présentera de
nombreux résultats expérimentaux de reconnaissance de visages basés sur les réseaux
d’ondelettes Bêta.
Pour mieux évaluer les performances de ces réseaux d'ondelettes Béta, cette section
comportera aussi des comparaisons à d'autres méthodes de reconnaissance de visages
(Réseaux de neurones (RN), EigenFaces, ADL et EBGM ).
4.2. Mesure de la performance d’un algorithme de reconnaissance de visages
Il existe deux façons pour mesurer la performance d’un algorithme de reconnaissance
du visage :
Le système CMC (pour “Cumulative Match Characteristic” en anglais) est utilisé pour
mesurer la performance d’un système d’identification. Cette mesure donne le pourcentage de
personnes reconnues en fonction d’une variable que l’on appelle le rang. On dit qu’un
système reconnait au rang 1(on utilise aussi le terme de reconnaissance 1 : n) lorsqu’il choisit
la plus proche image comme résultat de la reconnaissance. On dit qu’un système reconnaît au
rang 2, lorsque l’on considère que le résultat est correct même si l’image choisie vient dans le
deuxième rang des images de tests qui correspondent le mieux à l’image d’entrée, etc… On
peut donc dire que, plus le rang augmente, plus le niveau de sécurité correspondant est plus
faible.
Une autre manière d’évaluation du système de reconnaissance est de faire modifier le
nombre d’images d’apprentissage. Ce système s’appelle FRCM (Face Recognition
Committee Machine) il consiste, pour une base qui contient des classes ayant n visages
chacune, de faire l’apprentissage avec une seule image et la reconnaissance sur (n-1) images
pour chaque classe. Ce test est répété n fois en enlevant chaque fois une image de test et en
l’ajoutant au groupe "image d’apprentissage".
4.3. Base d’images
Peu importe le problème de reconnaissance des formes, un point commun demeure
toujours présent : la nécessité d’utiliser un ensemble de données volumineux, représentatif et
Etude des RO Bêta : Application à la RV ZAIED
124
standardisé. Cette particularité est effectivement primordiale pour la comparaison des
techniques ou d’algorithmes, permettant ainsi une évaluation relative des performances.
Cela étant dit, plusieurs points importants sont à considérer lors de la création ou de la
sélection d’une base d’images. Voici donc les particularités majeures à prendre en
considération :
– Nombre de personnes : La quantité d’individus dans une base d’images est
l’un des points le plus important. En effet, ce nombre influence directement le niveau
de difficulté de la base: plus la quantité est élevée, plus la tâche de reconnaissance sera
difficile. De surcroît, la base représentera davantage les tâches d’identification en
situations réelles, qui contiennent au minimum plusieurs milliers de personnes à
identifier.
– Nombre d’images par individu : Une certaine quantité d’images est
habituellement disponible pour chaque personne de la base de données. Un nombre
élevé procure généralement un meilleur apprentissage du module d’identification.
Certaines bases d’images n’offrent cependant qu’une seule image d’entraînement par
individu, ce qui aggrave énormément le problème.
– Hommes/femmes : Le ratio d’hommes et de femmes représente une
particularité intéressante. Etant donné que certaines différences relatives au genre
peuvent être modélisées efficacement1, une base ne contenant que des hommes ne
pourra être de difficulté égale à une autre contenant 50% de femmes. Finalement, il y a
habituellement un plus grand nombre de femmes portant des cheveux longs, ce qui
peut influencer certains algorithmes de reconnaissance.
– Arrière-plan : La plupart des bases d’images contiennent des photos avec un
arrière-plan neutre ou de couleur blanche. Les conditions d’acquisition ne sont par
contre pas toujours idéales, occasionnant parfois la présence d’objets nuisibles ou
d’arrière-plans complexes.
– Dimension des images : La taille en pixels des images n’a généralement pas
beaucoup d’influence sur les algorithmes de reconnaissance. Il existe cependant des
dimensions minimales nécessaires à une représentation fidèle et unique de l’individu;
1 Un exemple de ce type de différence réside dans la taille de la tête. Une fois normalisé à partir des yeux, le visage d’un homme est en moyenne plus grand que celui d’une femme, aidant donc à discriminer certains individus.
Etude des RO Bêta : Application à la RV ZAIED
125
– Couleurs/tons de gris : L’utilisation de couleurs dans les techniques
d’identification est peu répandue. Elle peut par contre s’avérer fort utile pour une
détection des pixels représentant la peau ou pour la pré-classification d’individus de
races différentes.
– Coordonnées cartésiennes des composantes du visage : Ces informations
supplémentaires s’avèrent particulièrement pratiques pour la comparaison de
méthodes de reconnaissance. En effet, les résultats obtenus ne dépendant pas de la
qualité de la détection du visage. Des analyses plus robustes et plus représentatives
peuvent être réalisées.
– Cas particuliers ou difficiles : Des conditions spéciales peuvent également
être présentes dans les bases d’images. Citons notamment, les cas d’occultations (par
exemple lunettes fumées, chapeau, bandeau, cigares, etc.), d’expressions faciales
variées (par exemple sourire, grimace, yeux fermés, etc.), de changements corporels
(par exemple barbe, moustache, maquillage, verres de contact de couleurs, couleurs de
cheveux, cheveux détachés, etc.) et d’éclairage (par exemple incandescent,
directionnel, etc.) ;
– Pose : La pose de la tête de l’individu représente finalement un autre point
important. En effet, la reconnaissance d’un visage de profil sera différente d’un visage
orienté à 45 degrés et nécessitera un ajustement des techniques d’apprentissage.
Il y a donc plusieurs propriétés qu’il conviendrait de vérifier lors de la sélection d’une
base d’images à des fins d’expérimentations. Ces particularités s’appliquent également lors de
la création d’une base d’images.
Dans le cadre de cette thèse, deux bases d’images ont été utilisées, soient la AT&T et la
base FERET.
Trois principaux facteurs ont été à l’origine de leur sélection, entre autres, la nécessité
de tester les approches proposées sur des bases de différentes tailles (AT&T de petite taille et
FERET de grande taille), la degré de complexité (exemple la base FERET dispose
d’expressions faciales des poses et des luminosité différentes, etc.) et enfin pour la
disponibilité des taux de reconnaissance des algorithmes d'identification de visages les plus
connus sur ces bases d'images. Les sous-sections suivantes présenteront chacune de ses bases
d’images avec plus de détails.
Etude des RO Bêta : Application à la RV ZAIED
126
4.3.1 AT&T (ORL)
La base de visages AT&T est composée d'un ensemble de visages pris entre avril 1992
et avril 1994 à l'Olivetti Research Laboratoire (ORL) à Cambridge, Royaume-Uni.
Il y a 10 images de 40 individus différents. Pour chaque individu, les images ont été
prises à des temps et avec des éclairages différents, des expressions faciales variables (yeux
ouverts/fermés, souriant/non-souriant) et avec ou sans accessoires (lunettes).
Les fichiers images sont avec un format .TIF (Tagged Image File Format) en 256
niveaux de gris. La dimension de chaque image est 92 x 112. Les images sont renommées
comme suit: 0x.TIF
Où x varie de 568 à 967. Comme il y a 10 images par individu dans la base ORL, les 5
premières d'entre elles sont utilisées pour l’apprentissage et le reste est utilisé pour les tests.
De plus, des différentes modifications sont effectuées, telles que changer le nombre
d'images d'apprentissage et celui de test afin de voir la réaction des systèmes de
reconnaissance à ces changements.
Figure 63. Les images d’une même personne de la base ORL
Etude des RO Bêta : Application à la RV ZAIED
127
Figure 64. Les 40 personnes de la base ORL
4.3.2 FERET
Le programme FERET fût démarré en 1993 dans le but de comparer les différents
algorithmes de reconnaissance disponibles à ce moment-là. Une série de compétitions entre
différentes institutions (universités) fût également instaurée. Un protocole expérimental a été
alors développé conjointement avec la création d’une base d’images impressionnante pour
uniformiser ces expérimentations.
Tout d’abord, la FERET contient à elle seule 14 126 images de 1 199 hommes et
femmes de toutes races confondues. Les photos qu’elle renferme sont de faibles dimensions
(256×384) et quantifiées en tons de gris sur 8 bits (256 niveaux). La Figure 65 illustre
notamment quelques images extraites de la FERET.
Etude des RO Bêta : Application à la RV ZAIED
128
�
Figure 65. Base d’images FERET : exemples d'images originales (dimension : 256×384)
Chaque individu possède évidemment plusieurs images représentant différentes
caractéristiques :
– Séances différentes et temporellement espacées (c'est-à-dire : plus d’un an).
– Variation de la pose : rotation de la tête selon des angles prédéfinis.
– Acquisition d’images avec des caméras et un éclairage différents.
– Expressions faciales variées.
– Ajout ou élimination d’objets (par exemple lunettes), etc.
Pour faciliter la comparaison des différentes méthodes, un protocole expérimental fût
élaboré. Des sections standards contenant des centaines d’images furent également définies et
se divisant en deux catégories : les gallery et les probe.
Alors que le sous-groupe gallery contient les images d’apprentissage, le sous-groupe
probe regroupe quant à lui les images utilisées lors de la vérification. Un résumé des
différentes sections définies est illustré au Tableau 2.
Etude des RO Bêta : Application à la RV ZAIED
129
Tableau 2. Taille des sections de la base d’images FERET
Catégorie Taille de la base test Taille de la base d’apprentissage
fb 1195 1196
fc 194 1196
duplicate I 722 1196
duplicate II 234 864
Il est intéressant de noter que les trois premières bases de test utilisent la même base
d’apprentissage. Chacune d’entre elles regroupe des images possédant des caractéristiques
similaires, mais différentes de la base d’entraînement : expressions faciales différentes (fb),
images frontales dupliquées (duplicate I), caméra et éclairage variés (fc) et images frontales
dupliquées acquises au moins un an plus tard (duplicate II) (Jonathon, 2000).
Dans tous les cas, les sections de vérification peuvent contenir plusieurs images par
personne2 contre une seule image d’apprentissage; l’objectif est donc, de déterminer l’image
correspondante parmi plusieurs. La catégorie de tests utilisant la section fb contient par
exemple 1195 images de test pour 1196 images d’apprentissage (c'est-à-dire 1 image par
personne donc 1196 individus).
Cela représente en somme un problème très difficile car, contrairement à certains
domaines de reconnaissance des formes qui possèdent peu de classes et beaucoup d’exemples,
la reconnaissance des visages sur la base FERET repose sur un grand nombre de classes
comptant très peu de prototypes.
Finalement, les raisons pour lesquelles la base d’images FERET fut retenue reposent
essentiellement sur sa taille et sa diversité. En effet, vu le nombre élevé d’individus contenus
dans la base, celle-ci représente une tâche complexe d’identification et un bon défi pour tout
système de reconnaissance.
Certains désavantages incombent cependant à son utilisation. Tout d’abord, les
algorithmes utilisant la couleur doivent être rejetés car les images sont en tons de gris. De
2 Certains individus ne sont pas représentés dans la base d’images de test.
Etude des RO Bêta : Application à la RV ZAIED
130
plus, l’identification de personnes avec une seule image d’apprentissage par personne est une
pâle limitation de la réalité et semble peu appropriée pour tester un système devant, par
exemple reconnaître des dizaines de milliers d’individus.
4.4. Résultats de la base ORL
Pour évaluer notre système sur la base ORL, Nous commençons par comparer nos trois
approches de reconnaissances de visages à savoir : l’approche basée sur les ROB avec
l’algorithme de la retropropagation comme algorithme d’apprentissage, celle basée sur les
ROZB1D et la technique basée sur les ROZB2D qui exploitent la théorie des frames pour
l’apprentissage. Nous utilisons le système d’évaluation CMC pour ce premier test.
Tableau 3. Comparaison des trois techniques de reconnaissance de visages basées sur le réseau d’ondelettes Bêta (Base ORL)
Nbr d’images
d’apprentissage ROB(Retropropagation) ROB1D(Frame) BOZB2D (frames)
1 0,707 0,73 0,751
2 0,8201 0,844 0,8694
3 0,89 0,9 0,909
4 0,9182 0,9282 0,9382
5 0,95 0,9591 0,9645
6 0,959 0,964 0,9677
7 0,97 0,978 0,9855
8 0,971 0,979 0,981
9 0,978 0,9801 0,982
Etude des RO Bêta : Application à la RV ZAIED
131
0,7
0,75
0,8
0,85
0,9
0,95
1
1 2 3 4 5 6 7 8 9Nombre d'images d'apprentissage
Tau
x de
rec
onna
issan
ce
ROB(Retropropagation) ROB1D(Frame) BOZB2D (frames)
Figure 66: Comparaison des trois techniques de reconnaissance de visages basées sur le réseaux d’ondelettes Bêta (Base ORL)
Cette figure montre la supériorité de la technique utilisant les ROZB2D qui utilisent la
théorie des frames pour leurs apprentissages par rapport aux deux autres méthodes proposées.
Dans la suite des évaluations, cette méthode sera comparée avec les techniques de
reconnaissance de visages connues à savoir; le ACP, le ADL, le EBGM et les réseaux de
neurones RBF. La comparaison sera faite par l’application des deux méthodes de calcul de
performances d’un système de reconnaissance de visages : le CMC et le FRCM.
Etude des RO Bêta : Application à la RV ZAIED
132
4.4.1 Utilisation du système CMC sur la base ORL :
Dans le tableau et la figure suivants, le système d’évalution CMC est utilisé pour
comparer différentes méthodes de reconnaissance de visages avec notre méthode de
reconnaissance basée sur ROZB2D (Ahonen, 2004) (Marcialis, 2002) (Lu, 2003).
Tableau 4. Comparaison des trois techniques de reconnaissance de visages basées sur le réseaux d’ondelettes Bêta (Base ORL)
Méthode
Rang ROZB2D RBF PCA LDA EBGM
1 0,85 0,825 0,79 0,81 0,81
2 0,88 0,867 0,84 0,82 0,85
3 0,912 0,895 0,86 0,83 0,88
4 0,926 0,9 0,87 0,84 0,885
5 0,93 0,912 0,88 0,845 0,89
6 0,937 0,92 0,885 0,847 0,9
7 0,942 0,9245 0,888 0,8475 0,91
8 0,949 0,937 0,9 0,848 0,93
9 0,951 0,942 0,91 0,85 0,935
10 0,956 0,951 0,92 0,86 0,946
Etude des RO Bêta : Application à la RV ZAIED
133
0,75
0,8
0,85
0,9
0,95
1
1 2 3 4 5 6 7 8 9 10Rang
Tau
x de
rec
onna
issa
nce
RO ZB2DRBFPCALDAEBGM
Figure 67. Comparaison de l’approche proposée (ROZB2D (frames) ) avec d’autres techniques (système CMC sur la Base ORL)
4.4.2 Evaluation du système FRCM sur la base ORL
La comparaison avec les autres techniques est faite en calculant les taux de la
reconnaissance en variant le nombre n d'images d'apprentissage (n=1,...,9). Les images
d'apprentissage de chaque personne sont sélectionnées au hasard pour former les 10-n images
de test (notez que pour n=1 la méthode ADL n'est pas calculable) (Tang, 2004) (Liu, 2004).
Au moins 50 combinaisons d'images d'apprentissage et de test pour chaque valeur de n
sont choisies et les résultats moyens sont calculés et retenus.
Etude des RO Bêta : Application à la RV ZAIED
134
Tableau 5. Comparaison de l’approche proposée (ROZB2D (frames) ) avec d’autres techniques (système FRCM sur la Base ORL)
Nbr d’images
d’apprentissage
ROZB2D RBF PCA LDA EBGM
1 0,751 0,6907 0,5643 - 0,65
2 0,8694 0,8108 0,7119 0,6884 0,75
3 0,909 0,8809 0,7966 0,8174 0,83
4 0,9382 0,9182 0,8492 0,8674 0,88
5 0,9645 0,9464 0,8831 0,8887 0,9
6 0,9677 0,9568 0,9084 0,9086 0,92
7 0,9855 0,968 0,9258 0,9162 0,94
8 0,981 0,971 0,9405 0,9285 0,95
9 0,982 0,979 0,952 0,9375 0,96
Etude des RO Bêta : Application à la RV ZAIED
135
0,55
0,6
0,65
0,7
0,75
0,8
0,85
0,9
0,95
1
1 2 3 4 5 6 7 8 9
Nombre d'images d'apprentissage
Tau
x de
rec
onna
issa
nce
ROZB2D RBF PCA LDA EBGM
Figure 68: Comparaison de l’approche proposée (ROZB2D (frames) ) avec d’autres techniques (système FRCM sur la Base ORL)
Etude des RO Bêta : Application à la RV ZAIED
136
4.5. Résultats de la base FERET
La comparaison des différents algorithmes de reconnaissance de visages est plus facile
avec la base FERET. Les taux de reconnaissance de chaque méthode sont disponibles sur le
site web officiel de cette base. Seul le système d’évaluation CMC est utilisé, puisque les
images d’apprentissage et de test sont fixées dès le début (le système FRCM nécessite une
variation des images d’apprentissage). Les résultats d'identification de quelques approches
avec ceux de notre algorithme basé sur les réseaux d'ondelettes Bêta sont illustrés sur les
figures suivantes (Liu, 2004) (Akalin, 2003) (Kepenekci, 2001).
Tableau 6: Comparaison de l’approche proposée (ROZB2D ) avec d’autres techniques (système CMC sur la Base FERET, Catégorie fb)
Méthode
Rang
ROZB2D RBF PCA LDA EBGM
1 0,91 0,85 0,58 0,62 0,88
5 0,954 0,92 0,73 0,75 0,95
10 0,967 0,95 0,8 0,8 0,96
15 0,975 0,96 0,82 0,82 0,97
20 0,98 0,965 0,86 0,83 0,97
25 0,981 0,969 0,88 0,85 0,975
30 0,985 0,972 0,89 0,86 0,98
35 0,987 0,978 0,9 0,87 0,981
40 0,99 0,98 0,92 0,88 0,982
45 0,992 0,983 0,93 0,89 0,987
50 0,993 0,985 0,94 0,9 0,988
Etude des RO Bêta : Application à la RV ZAIED
137
0,55
0,6
0,65
0,7
0,75
0,8
0,85
0,9
0,95
1
1 5 10 15 20 25 30 35 40 45 50Rang
Tau
x de
rec
onna
issa
nce
ROZB2D RBF PCA LDA EBGM
Figure 69 : Comparaison de l’approche proposée (ROZB2D ) avec d’autres techniques (système CMC sur la Base FERET, Catégorie fb)
Etude des RO Bêta : Application à la RV ZAIED
138
Tableau 7. Comparaison de l’approche proposée (ROZB2D (frames) ) avec d’autres techniques (système CMC sur la Base FERET, Catégorie fc)
Méthode
Rang
ROZB2D RBF PCA LDA EBGM
1 0,47 0,44 0,42 0,28 0,42
5 0,77 0,75 0,72 0,45 0,55
10 0,84 0,82 0,8 0,55 0,68
15 0,86 0,847 0,82 0,6 0,75
20 0,88 0,86 0,84 0,67 0,78
25 0,89 0,869 0,86 0,75 0,8
30 0,9 0,886 0,88 0,76 0,81
35 0,91 0,888 0,88 0,78 0,82
40 0,92 0,9 0,88 0,8 0,84
45 0,93 0,91 0,9 0,85 0,86
50 0,94 0,9156 0,91 0,86 0,87
Etude des RO Bêta : Application à la RV ZAIED
139
0,25
0,35
0,45
0,55
0,65
0,75
0,85
0,95
1 5 10 15 20 25 30 35 40 45 50
Rang
Tau
x de
rec
onna
issa
nce
ROZB2D RBF PCA LDA EBGM
Figure 70: Comparaison de l’approche proposée (ROZB2D (frames) ) avec d’autres techniques (système CMC sur la Base FERET, Catégorie fc)
Etude des RO Bêta : Application à la RV ZAIED
140
Tableau 8. Comparaison de l’approche proposée (ROZB2D ) avec d’autres techniques (système CMC sur la Base FERET, Catégorie duplicate I)
Méthode
Rang
ROZB2D RBF PCA LDA EBGM
1 0,5 0,41 0,18 0,4 0,44
5 0,57 0,52 0,35 0,5 0,58
10 0,63 0,6 0,4 0,54 0,62
15 0,69 0,67 0,45 0,56 0,68
20 0,72 0,7 0,5 0,58 0,71
25 0,77 0,74 0,53 0,6 0,73
30 0,78 0,76 0,55 0,62 0,75
35 0,7952 0,77 0,57 0,64 0,76
40 0,81 0,785 0,59 0,66 0,78
45 0,82 0,81 0,6 0,68 0,8
50 0,85 0,83 0,62 0,69 0,81
Etude des RO Bêta : Application à la RV ZAIED
141
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
1 5 10 15 20 25 30 35 40 45 50
Rang
Tau
x de
rec
onna
issa
nce
ROZB2D (frames) RBF PCA LDA EBGM
Figure 71 : Comparaison de l’approche proposée (ROZB2D (frames) ) avec d’autres techniques (système CMC sur la Base FERET, Catégorie duplicate I)
Etude des RO Bêta : Application à la RV ZAIED
142
Tableau 9. Comparaison de l’approche proposée (ROZB2D) avec d’autres techniques (système CMC sur la Base FERET, Catégorie duplicate II)
Méthode
Rang
ROZB2D RBF PCA LDA EBGM
1 0,3 0,2 0,08 0,14 0,22
5 0,45 0,39 0,22 0,27 0,42
10 0,53 0,49 0,33 0,3 0,49
15 0,623 0,6 0,39 0,37 0,58
20 0,665 0,65 0,43 0,39 0,64
25 0,695 0,68 0,47 0,4 0,68
30 0,745 0,71 0,49 0,42 0,69
35 0,778 0,74 0,5 0,44 0,72
40 0,81 0,79 0,51 0,47 0,76
45 0,84 0,82 0,54 0,49 0,8
50 0,88 0,84 0,55 0,49 0,81
Etude des RO Bêta : Application à la RV ZAIED
143
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
1 5 10 15 20 25 30 35 40 45 50
Rang
Taux
de
reco
nnai
ssan
ce
ROZB2D RBF PCA LDA EBGM
Figure 72 : Comparaison de l’approche proposée (ROZB2D (frames) ) avec d’autres techniques (système CMC sur la Base FERET, Catégorie duplicate II)
Etude des RO Bêta : Application à la RV ZAIED
144
5. Conclusion
Dans ce chapitre, nous avons évoqué notre contribution dans le domaine de
reconnaissance de visages. Nous avons proposé deux approches basées sur les ROB et ROZB
pour l’apprentissage et la reconnaissance des images de visages humains. Nous avons conçu
un système capable d'exécuter la tâche d’identification automatique de visages toute en
introduisant et implémentant un algorithme d’apprentissage des ROZ basé sur la théorie des
"frames".
Nous avons validé nos approches sur deux bases de visages de caractéristiques
différentes (ORL et FERET) et nous l’avons comparé à d’autres techniques de reconnaissance
(ACP, ADL ,EBGM …).
Les performances des réseaux d’ondelettes Bêta comme classificateurs pour la
reconnaissance de visages sont évidentes à travers les résultats. La robustesse et la rapidité de
l’approche ROZB qui se base sur la théorie des frames font valoir les avantages de ces
réseaux.
145
Conclusion et perspectives
Nous avons, dans ce travail, apporté notre contribution à l’utilisation de l’analyse
en ondelettes dans les réseaux de neurones artificiels et leurs applications dans le
domaine de reconnaissance de visages.
Dans un premier temps, nous avons présenté l’état de l’art sur les différentes
méthodes de détection et reconnaissance de visages. Dans un second temps, nous avons
présenté la technique de l’analyse en ondelettes et ses avantages par rapport à l’analyse
de Fourrier.
Les réseaux de neurones sont utilisés dans le problème de la classification et en
particulier dans le domaine de la reconnaissance de visages. Nous avons d’une part,
étudié les particularités des réseaux d’ondelettes dans ce domaine. D’autre part, nous
avons démontré leur capacité de réaliser des taux de reconnaissance élevés. Nous
déduisons que ces réseaux d’ondelettes possèdent cette caractéristique particulière.
Nous avons exploité premièrement les ROB entrainés avec l’algorithme de la
rétropropagation de gradient pour proposer une première approche de reconnaissance de
visages.
Cet algorithme a présenté des inconvénients gênants, comme la lenteur ou la non
garantie de sa convergence. Pour cela nous avons essayé de développer un algorithme
d’apprentissage intelligent plus sophistiqué que celui de la rétropropagation de gradient
pour l’apprentissage. En fait, la théorie des frames permet une représentation exacte et
sans redondance du signal en le projetant simplement sur la base des ondelettes, ce qui
nous a permis le calcul direct et avec une façon optimale les poids de connexions du
réseau.
Nous avons exploité cet algorithme pour l’apprentissage des ROZB et la notion du
SuperOndelette Bêta pour proposer une deuxième approche de reconnaissance de
visages basée sur les ROZB.
La validation de ces algorithmes d’apprentissage et de reconnaissance dans les
deux cas 1D et 2D a été faite sur les deux bases d’images ORL et FERET. Les
taux de reconnaissances obtenues ont montré la supériorité des méthodes proposées par
rapport aux techniques de reconnaissances de visages les plus connues.
146
Toute fois, nous estimons continuer nos recherches, notamment tester notre
algorithme d’apprentissage des réseaux d’ondelettes sur d’autres applications traitant le
visage, telle que la détection ou la suivi de visages dans une séquence vidéo. D’autres
domaines de classifications et plus précisément la reconnaissance biométrique tels que
l’iris ou l’empreinte digitale peuvent être abordés.
De point de vue théorique, nous visons développer notre algorithme
d’apprentissage des ROZ d’une part en essayant de choisir la meilleure ondelette de la
bibliothèque, à chaque itération, pour récupérer la meilleure approximation à la sortie du
réseau puis d’optimiser les paramètres de la fonction Bêta d’autre part pour trouver plus
de dépendance entre les ondelettes de la base pour diminuer le nombre de neurones du
ROZ et diminuer ainsi sa complexité.
147
Abréviations
ACP: Analyse en composantes principales
EV: Espace de visages
ADL: L’analyse à discrimination linéaire
MLP: Multi-Layer Perceptron
DCT: Discrete cosine transform
EBGM: Elastic Bunch Graph Matching
HMM: Hidden Markov Models
MC: multi-classifieur
FFT: Fast Fourier Transform
PMC: Perceptron MultiCouche
RBF: Réseaux de Neurone à fonction radiale
RO: Réseaux d’Ondelettes modèle 1
ROZ: Réseau d’ondelettes modèle 2 (Modèle de Zhang)
ROZ2D: Réseau d’ondelettes de Zhang bidimensionnelle
Bêta1_1D: Ondelette Bêta 1 monodimensionnelle (Dérivée première de la fonction
Bêta)
Bêta2_1D: Ondelette Bêta 2 monodimensionnelle (Dérivée deuxième de la fonction
Bêta)
Bêta3_1D: Ondelette Bêta 3 monodimensionnelle (Dérivée troisième de la fonction
Bêta)
Bêta1_1D: Ondelette Bêta 1 bidimensionnelle
Bêta2_1D: Ondelette Bêta 2 bidimensionnelle
Bêta3_1D: Ondelette Bêta 3 bidimensionnelle
EQM: L’Erreur Quadratique Moyenne
SEQM: Seuil d’Erreur Quadratique Moyenne
148
ROZB: Réseau d’ondelettes de Zhang Bêta
ROZB2D: Réseau d’ondelettes de Zhang Bêta bidimensionnel
CMC: Cumulative Match Characteristic
FRCM: Face Recognition Committee Machine
Fb: Catégorie "expressions faciales différentes" de la base FERET
Fc: Catégorie "caméra et éclairage variés " de la base FERET
duplicate I: Catégorie " images frontales dupliquées " de la base FERET
duplicate II: Catégorie " images frontales dupliquées acquises au moins un an plus tard"
de la base FERET
149
Notations
- Norme lp d’une séquence x:
pi
pip
xx ∑=
- l’ensemble des fonctions de R de carrée intégrable.
L2
- Produit scalaire de deux fonctions de carrée intégrable )(, 2 RLgf ∈ :
∫+∞
∞−>=< dxxgxfgf )()(,
- Transformée de Fourier d’une fonction )(2 RLf ∈ :
( ) ( ) 2i ftF f f t e dtπ+∞
−
−∞
= ∫
- Transformée inverse de Fourier de f :
( ) ( ) 2i ftf t F f e dfπ+∞
−∞
= ∫
- Transformée en ondelette d’une fonction )(2 RLf ∈ :
1( , ) ( ) ( )x bW a b f x dxaa
ψ −= ∫
- Transformée inverse en ondelette de f :
1 1( ) ( , ) ( )R R
x bf x W a b dadbC aaψ
ψ −= ∫ ∫
- Ondelette duale d’une ondelette ψ :
ψ
- Réseau d’ondelette de Zhang constitué par une famille d’ondelette Ψ et des poids W :
( , )WΨ
150
Bibliographie
- Achermann B. and Bunke H., “Classifying range images of human faces with
hausdorff distance”. International Conference on Pattern Recognition (ICPR), pages
813–817, 2000.
- Achermann B. et Bunke H., “Classifying range images of human faces with
hausdorff distance”, International Conference on Pattern Recognition (ICPR), pages
813–817, 2000.
- Ahonen T., Abdenour H., and Pietikäinen, “Face Recognition with Local Binary
Patterns Machine Vision Group”, University of Oulu, Finland, 2004.
- Akalin V., Face recognition using eigenfaces and neurak networks, Master of
science. The graduate school of natural and applied sciences. The Middle East
technical university. Ankara, Turkey December 2003.
- Aleix M. Martinez et R. Benavente: The AR-face database. Rapport technique, CVC
Technical Report #24, June, 1998.
- Arca S., Campadelli P., A Face Recognition System Based On Automatically
Determined Facial Fiducial Points, 2005.
- Antonini M., Barlaud M., Image Coding Using Wavelet Transform. IEEE
Transactions on Image Processing, Pages 205-220, 1992.
- Antonini M., Compression des images et des vidéos numériques. Dix années de
recherches au CNRS. Habilitation à Diriger des Recherches présentée à l'Université
de Nice-Sophia Antipolis, 20 octobre 2003.
- Baron R., Contribution à l’étude des réseaux d’ondelettes, Thèse de doctorat, Ecole
Normale Supérieure de Lyon, Février 1997.
- Ben Abdelkader C., Cutler R. et Davis L., “Motion-based recognition of people in
EigenGait space”. 5th International Conference on Automatic Face and Gesture
Recognition (FG), pages 254–259, May 2002.
151
- Ben Abdennour R., Ltaïef M. et Ksouri M., "Un coefficient d’apprentissage flou
pour les réseaux de neurones artificiels", Journal Européen des Systèmes
Automatisés, Janvier 2002.
- Ben Amar C., Zaied M. and Alimi A. M., “Beta wavelets. Synthesis and application
to lossy image compression”, Advances in Engineering Software, elseiver, special
issue, Advanced Algorithms and Architectures for Signal Processing Volume 36,
Issue 7 , Pages 459 – 474, 2005.
- Ben Mansour H., Identification des systèmes non linéaires par les réseaux de
neurones, Mémoire de projet de fin d’études, Ecole Nationale d’Ingénieurs de
Monastir, Tunisie, Juin 2002.
- Bergevin R., Vision numérique : aspects cognitifs (notes de cours GEL-64793).
Université Laval, Automne 2000.
- Bernard D. Ondelettes orthogonales et biorthogonales, Université de Rennes-I,
Septembre 2003.
- Bishop C.M., Neural Networks for Pattern Recognition. Clarendon Press, Oxford,
1995.
- Blanz V. and Vetter T., “A morphable model for the synthesis of 3D faces”, Proc.
SIGGRAPH, pp. 187-194 (1999).
- Bolme D. S., Elastic Bunch Graph Matching, Master of Science, Colorado State
University, Colorado, 2003.
- Bronstein A.M., Bronstein M. M., Kimmel R. and Spira A., “3D Face Recognition
without Facial Surface Reconstruction”, Technion - Computer Science Department -
Technical Report CIS-2003-05 – 2003.
- Bronstein A.M., Bronstein M. M., Kimmel R., "3-Dimensional face recognition”,
US Provisional patent No. 60/416,243 (2002).
- Brunelli R. and Poggio T., "Face recognition: features versus templates", IEEE
Transactions on Pattern Analysis and Machine Intelligence (PAMI), 15(10):1042–
1052, October 1993.
- Brunelli R. and Poggio T., “Face recognition through geometrical features”.
European Conference on Computer Vision (ECCV), pages 792– 800, 1992.
152
- Choi C.S and al., “A system of analyzing and synthesizing facial images”. In Proc.
IEEE Int. Symposium of Circuit and Syatems (ISCAS91), pages 2665–2668, 1991.
- Chtourou M., Les réseaux de neurones, Support de cours DEA A-II, Année
Universitaire 2002/2003.
- Daubechies I., “The wavelet transform, time-frequency localization and signal
analysis”, IEEE Transactions on Information Theory, 36: 961–1005, 1990.
- Daubechies I., Ten Lectures on Wavelets. Society of Industrial and Applied
Mathematics, 1992.
- Edwards G.J. and al., “Modelling the variability in face images”. In Proc. of the 2nd
Int. Conf. on Automatic Face and Gesture Recognition, IEEE Comp. Soc. Press,
Los Alamitos, CA, 1996.
- El-Bakry H.M., Abo-Elsoud M.A. and Kamel M.S., “Automatic Face Recognition
System Using Neural Networks”, Circuits and Systems, 2000. Proceedings. ISCAS
2000 Geneva. The 2000 IEEE International Symposium, on Volume: 3, On pages:
543-546, 2000.
- Feris R.S., Gemmell J., Toyama K., Krüger V., Facial Feature Detection Using a
Hierarchical Wavelet Face Databases, Microsoft Research Technical Report,
Redmond, 2002
- Franco A., Lumini A. and Maio D., “Eigenspace merging for model updating”. 16th
International Conference on Pattern Recognition (ICPR), volume 2, pages : 156–
159, Québec, Canada, August 2002.
- Hubbard B., “Ondes et ondelettes, La Saga d’un Outil Mathématique”, Belin pour
la science, 1995.
- Iyengar S.S., E.C. Cho and V. Phoha, Foundations of Wavelet Networks and
Applications, Chapman and Hall/CRC Press, June 2002.
- Jamil N., Lqbal S. and Iqbal N., “Face Recognition Using Neural Networks”,
Multi Topic Conference, 2001. IEEE INMIC 2001. Technology for the 21st Century.
Proceedings. IEEE International Volume , Issue , Pages: 277 – 281, 2001.
- Jmaï O., Compression d’image par réseaux d’ondelette, Mémoire de projet de
Master, Ecole Nationale d’Ingénieurs de Sfax, Tunsie Juin 2004.
153
- Jonathon P. P. et al., “The FERET evaluation methodology for face-recognition
algorithms”. IEEE Transactions on Pattern Analysis and Machine Intelligence,
22(10):1090–1104, 2000.
- Kepenekci B., Face Recognition Using Gabor Wavelet Transform, Thesis, Middle
East Technical University, Turkey, 2001.
- Kjetil B. and al. : face recognition, Norwegian University of Science and
Technology, Faculty of Information Technology, Mathematics and Electrical
Engineering, Department of Computer and Information Science, SIF8092 Image
Processing Specialization Project, November 2002.
- Kovacevic J., Life after Wavelets: The War of the Frames, xWaveforms, Electrical
Engineering Colloquium, University of Washington, March 13, 2003
- Krueger V., Gabor Wavelet Networks for Object Representation, Technical report,
Christain-Albrechts University, Kiel, Germany, 2000.
- Kruger V. and Sommer G., “Affine real-time face tracking using gabor wavelet
networks”, IEEE Computer Society Pattern Recognition, Barcelona, Spain, Sept. 3-
8, 2000.
- Lekutai G., Adaptive Self-tuning Neuro Wavelet Network Controllers, Thèse de
Doctorat, Blacksburg-Virgina, Mars 1997.
- Lemieux A., Système d’identification de personnes par vision numérique, Mémoire
présenté à la Faculté des études supérieures de l’Université Laval pour l’obtention
du grade de maîtrises sciences (M.Sc.), décembre 2003.
- Levente Z., Digital processing techniques for humain face recognition, Diploma
thesis, Politehnica university of Timisoara faculty of automatic and computer
science, 2002
- Liu W. and al., Null Space Approach of Fisher Discriminant Analysis for Face
Recognition, Institute of Automation, Chinese Academy of Sciences, Microsoft
Research Asia, Beijing Sigma Center, 100080 Beijing, China, 2004.
- Lu X., Wangy Y., Jain A. K., “Combining classifiers for face recognition”,
appeared in Proc. of ICME, July 2003.
154
- Mallat S., “A Theory for Multiresolution Signal Decomposition: the Wavelet
Representation”, IEEE Transactions on Pattern Analysis and Machine Intelligence,
Vol. 11, No. 7, p. 674-693, 1989
- Mallat S., A Wavelet Tour of Signal Processing, Second edition, Academic Press,
ISBN: 0-12-466606-X, 1999.
- Marcel S. et Bengio S., “Improving face verification using skin color information”.
16th International Conference on Pattern Recognition (ICPR), pages 378–381,
Québec, Canada, August 2002.
- Marcialis G.L. and Roli F., "Fusion of LDA and PCA for Face Recognition", the
Workshop on Machine Vision and Perception, held in the context of the 8th Meeting
of the Italian Association of Artificial Intelligence (AI*IA), Siena, Italy, September
10-13, 2002
- Meyer Y. Ondelettes et opérateurs, Actualités Mathématiques. Current
Mathematical Topics. Hermann, Paris, 1990.
- Meyer Y. Wavelets and operators, volume 37 of Cambridge Studies in Advanced
Mathematics. Cambridge University Press, Cambridge, 1992.
- Morizet N. et al., "Algorithmes PCA, LDA et EBGM utilisées en reconnaissance 2D
du visage pour la biométrie", Conference MajecStic (MAnifestation des Jeunes
Chercheurs STIC), Lorient , France, Novembre 2006.
- Nefian A.V., “Embedded Bayesian Networks for Face Recognition”, IEEE
International Conference on Multimedia and Expo, vol. 2, pp. 133-136, 26 Aug
2002.
- Nefian A.V., Hayes M.H., “Face Recognition Using an Embedded HMM”
Proceedings of the IEEE Conference on Audio and Video-based Biometric Person
Authentication, pp. 19-24, Martie 1999.
- Nefian A.V., Hayes M.H., “Maximum likelihood training of the embedded HMM
for face detection and recognition”, International Conference on Image Processing,
2000. Proceedings. vol.1, pp. 33 – 36, 10-13 Sept 2000.
- Pentland A. and al., “View-based and modular eigenspaces for face recognition”.
Proc. of IEEE Conf. on Computer Vision and Pattern Recognition (CVPR’94),
Seattle, WA, June 1994.
155
- Phillips P. J. and al., “The FERET evaluation methodology for face-recognition
algorithms”. IEEE Transactions on Pattern Analysis and Machine Intelligence,
22(10):1090–1104, 2000.
- Szu H., Telfer B. et Kadambe S., "Neural network adaptative wavelets for signal
representation and classification”. Optical Engineering 31:1907-1961, 1992.
- Tai Sing L., “Image Representation Using 2D Gabor wavelets”. IEEE transactions
on pattern analysis and machine intelligence, Vol. 18, N°. 10, October 1996.
- Tang H., Lyu M. R. and King I., Face recognition committee machine, Department
of Computer Science and Engineering, The Chinese University of Hong Kong
Shatin, Hong Kong, 2004.
- Turk M. and Pentland A, “Eigenfaces for recognition”. Journal of cognitive
neuroscience, 3(1):71–86, 1991.
- Yambor S., Analysis of PCA-Based and Fisher Discriminant-Based Image
Recognition Algorithms, Technical Report, Colorado State University, USA 2000.
- Zaied M., Etude et Implémentation d’une nouvelle ondelette basée sur la fonction
Bêta: Application à la compression d’images, Mémoire de projet de DEA, Ecole
Nationale d’Ingénieurs de Sfax, Tunisie Janvier 2003.
- Zhang Q. and Benveniste A., “Wavelet networks”. IEEE Trans. Neural Networks,
3:889–898, 1992.
- Zhao W., Chellappa R., Krishnaswamy A., “Automatic Face and Gesture
Recognition”, Proceedings. Third IEEE International Conference on Volume, Issue
14-16, Pages: 336–341, April 1998.
- Zhao W.Y., Chellappa R., “Illumination-Insensitive Face Recognition Using
Symmetric Shape-form-Shading”, IEEE Proc. on Computer Vision and Pattern
Recognition (CVPR'00), Vol.1, pp. 1278–1286, May 2000
156
Site Internet
Face Recognition Home page
http://www.face-rec.org
MIT Media Laboratory Vision and Modeling Group Face Recognition Project
http://vismod.www.media.mit.edu/vismod/demos/facerec
MIT AI Lab Center for Computational and Biological Learning Example-based
Image Analysis and Synthesis for Faces Tony Ezzat and Tomaso Poggio
http://cuneus.ai.mit.edu:8000/research/ebias/ebias.php
Face recognition demo page
http://www-white.media.mit.edu/vismod/demos/facerec/
Evaluation of Face Recognition Algorithms :
http://www.cs.colostate.edu/evalfacerec/index.html
Computational Approaches to Face Recognition :
http://www.ski.org/CWTyler_lab/CWTyler/PrePublications/ARVO/1998/Fa
ceRecog/
Face Recognition Bibliography :
http://www.cnl.salk.edu/~wiskott/Bibliographies/FaceRecognition.html
La page de la base de visage FERET :
http://www.itl.nist.gov/iad/humanid/feret/
Eigenfaces Group :
http://www.owlnet.rice.edu/~elec301/Projects99/faces/index.html
Cours sur les valeurs propres et les vecteurs propres d'une matrice
http://mathworld.wolfram.com/Eigenvalue.html
Le site de Amara sur les ondelettes
http://www.amara.com/IEEEwave/IEEEwavelet.html
Forum de discussion sur les ondelettes
Le site de Daniel Lemire http://www.ondelette.com
157
Une presentation du livre de Stephane Mallat :
http://cas.ensmp.fr/~chaplais/Wavetour_presentation/Wavetour_presentation_fr.html
The Engineer’s ultimate guide to wavelet analysis: The Wavelet Tutorial :
http://users.rowan.edu/~polikar/WAVELETS/WTtutorial.html
A Really Friendly Guide to Wavelets :
http://perso.wanadoo.fr/polyvalens/clemens/wavelets/wavelets.html
Etude des réseaux d’ondeletttes Bêta : Application à la reconnaissance de visages
Mourad ZAIED
عرف على بيومتريكس وخصوصا التال استعمال األعمال متابعة تطور هھذتحاول : الخالصة .متعددة الوسائط ثائقالوو فھرسةواألمن يمجال في وجوهالات و في جيموال تنظريّة لشبكاالالدراسة في انيتحانمن ةھماسحاولنا الم ,ه األطروحةفي ھذ
.صورةالتصنيف وجه اإلنسان في و تمييز في ھامع ھدف تطبيق, نھميتمرل ارزمية جديدةتصميم خو علىالذين يحويان FERETو ORLالصور يطة بنكستعملة بواسالمإثبات التقنيات تمو
لمعدل تطويرا ملحوظا Bêta اتجيمو تشبكاأظھرت و لقد. شخص 1196 و 40صور التوالي .األخرى المعروفة التمييز مقارنة بالطرق
Résumé : Ces travaux de recherches essayent de suivre la croissance d’utilisation des techniques biométriques et essentiellement la reconnaissance de visages dans les domaines de la sécurité et de l’indexation de documents multimédia. Dans ce mémoire, nous avons apporté notre contribution à l’étude théorique des réseaux d’ondelettes et à la conception d’un nouvel algorithme de leurs apprentissage, avec comme objectif d'application; la reconnaissance et la classification des visages humains dans une image. La validation des techniques sélectionnées est réalisée à l’aide des bases d’images ORL et FERET contenant respectivement les photos de 40 et 1196 individus. Les ROB procurent des améliorations substantielles du taux de reconnaissance par rapport aux classifieurs les plus connues.
Abstract : During the last twenty years, the scientific research in the biometric domains and especially the face recognition has known an exponential growth in order to have certain use in the fields of the security and multimedia documents indexing. In spite of the different proposed techniques and the achieved progress, a radical solution remained far from being reached. In this memory, we brought our contribution to the theoretical survey of the wavelets networks and to the conception of a new training algorithm, taking as objective of application the recognition and the classification of the human faces in a picture. The validation of the selected techniques is carried out with the use of the ORL and FERET images bases containing respectively the photographs of 40 and 1196 individuals. The ROB get substantial improvements of the recognition rate compared to the most known methods.
Bêtaة جيمو, اتجيموال تشبكا ,وجوهعرف على الالت .. : المفاتيح
Mots clés : Reconnaissance de visages, Réseaux d’ondeletttes, ondelette Bêta Key-words : face recognition, wavelets networks, Beta Wavelet