Rapport These Final

République Tunisienne

Cycle de Formation Doctorale dans la

Discipline Génie Informatique

Ingénierie des Systèmes Informatiques

Thèse de DOCTORAT

N° d’ordre: 2008− 53/07

Ministère de l’Enseignement Supérieur, de la Recherche Scientifique et de la Technologie

Université de Sfax

Ecole Nationale d’Ingénieurs de Sfax

THESE

présentée à

l’Ecole Nationale d’Ingénieurs de Sfax (Département de Génie Informatiques et Mathématiques Appliquées)

en vue de l’obtention du

DOCTORAT

Dans la discipline Ingénierie des Systèmes Informatiques

Nouvelle thèse

par

Mourad ZAIED

(DEA – Automatique-informatique industrielle)

Etude des réseaux d’ondelettes Bêta : Application à la reconnaissance de visages

soutenue le 16 Février 2008, devant le jury composé de :

M. Mohamed JMAIEL Président

M. Mohamed GAMMOUDI Examinateur

M. Marc ANTONINI Rapporteur

M. Kamel HAMROUNI Rapporteur

M. Chokri BEN AMAR Membre

M. Mohamed Adel ALIMI Membre

2

Dédicace

Je dédie ce modeste travail à tous ceux qui me sont chers :

A ma très chère mère, pour son grand amour, pour sa patience dont elle a fait

preuve à mon égard, son soutien moral et les conseils précieux qu’elle n’a

cessé de me prodiguer.

A mon très cher père, en témoignage de profonde gratitude pour le dévouement

et les sacrifices qu’il a toujours consentis.

A mon frère Hammadi, pour son affection et sa générosité.

A mes adorables sœurs Faten et Jalila.

A tous les membres de ma grande famille.

A tous mes amis, et surtout Olfa, Salwa, Nizar, Ridha, ayda, Riadh, et Anis pour

leurs encouragements et leurs aides.

Mourad

3

REMERCIEMENTS

Mes sincères gratitudes à tous ceux qui ont contribué à la réalisation de

ce travail.

J’adresse mes vifs remerciements à Monsieur Adel ALIMI, Professeur à

l’ENIS et responsable du laboratoire REGIM, pour avoir bien voulu m’accepter

membre de son équipe de recherche et pour avoir accepté de m’encadrer dans

ce mémoire de thèse,

Je tiens à remercier plus particulièrement Monsieur, Chokri BEN AMAR

maître de conférence à l’ENIS et membre du laboratoire REGIM, pour avoir

bien voulu me co-encadrer, pour ses précieux conseils, pour ses remarques

pertinentes et pour ses encouragements incessants.

Je remercie également tous mes collègues à l’ISET de Gabès, à l’ENIG

et au laboratoire REGIM pour leurs gentillesses et leurs amabilités. En

particulier mes collègues et amies Madame Olfa Jmai et Madame Salwa Said

qui font partie de notre petite équipe de recherche sur les ondelettes.

Que tous mes sincères remerciements soient adressés à toute ma famille.

Enfin, J’exprime toute ma reconnaissance et ma haute considération à

Monsieur le président du jury, ainsi qu’à Messieurs les membres de jury qui ont

bien voulu me faire l’honneur de juger mon travail.

4

Table des matières Introduction Générale ............................................................................................................ 13

CHAPITRE I Reconnaissance de visages - État de l’art ............................................... 14

1. Introduction ....................................................................................................................... 15 2. Les méthodes globales de reconnaissance du visage ....................................................... 16

2.1. La reconnaissance à base de "L’eigenFaces'' (ACP) ................................................ 17 2.2. L’analyse à discrimination linéaire (ADL) ................................................................ 22 2.3. Les méthodes basées sur les réseaux neuronaux ....................................................... 25 2.4. Le modèle surfacique du visage (3D) ......................................................................... 28 2.5. La reconnaissance à base de déformations de type "morphing'' ............................... 29

3. Les méthodes locales de reconnaissance du visage .......................................................... 29 3.1. Les "EigenObjects" .................................................................................................... 30 3.2. “L’Elastic Bunch Graph Matching” (EBGM) .......................................................... 32 3.3. Les "HMM (Hidden Markov Models)" ....................................................................... 39 3.4. Les mesures et les "ratios" ......................................................................................... 40 3.5. Les Couleurs ............................................................................................................... 41

4. La Combinaison de classifieurs ........................................................................................ 42 5. Conclusion et approche retenue ....................................................................................... 42

CHAPITRE II Les Ondelettes et les réseaux d’ondelettes .............................................. 44

1. Introduction ....................................................................................................................... 45 2. Les ondelettes .................................................................................................................... 45

2.1. Historique ................................................................................................................... 45 2.2. L’analyse de Fourier .................................................................................................. 47 2.3. Inconvénients de l’analyse de Fourier ....................................................................... 48 2.4. Transformée en ondelettes continue ........................................................................... 50

2.4.1 Exemple de quelques ondelettes ........................................................................ 52 2.4.2 Propriétés nécessaires d’une ondelette mère .................................................... 53 2.4.3 Les propriétés souhaitables pour la construction d’une ondelette ................... 54 2.4.4 Conclusion ........................................................................................................ 55

3. Les réseaux de neurones ................................................................................................... 56 3.1. Introduction ................................................................................................................ 56 3.2. Historique – Généralités ............................................................................................ 56 3.3. Fondements biologiques des neurones ....................................................................... 58

3.3.1 Structure du neurone ......................................................................................... 59 3.3.2 Le corps cellulaire (ou soma) ........................................................................... 60 3.3.3 Les dendrites ..................................................................................................... 60 3.3.4 L’axone .............................................................................................................. 60 3.3.5 Fonctionnement des neurones ........................................................................... 60

3.4. Réseaux de neurones artificiels .................................................................................. 61 3.4.1 Le neurone formel ............................................................................................. 62 3.4.2 Structure ............................................................................................................ 62 3.4.3 Exemples de réseaux de neurones ..................................................................... 63

3.5. Conclusion .................................................................................................................. 66 4. Les réseaux d’ondelettes ................................................................................................... 66

5

4.1. Introduction ................................................................................................................ 66 4.2. Architectures des réseaux d’ondelettes ...................................................................... 67

4.2.1 Premier modèle des réseaux d’ondelettes .................................................................... 67 4.2.2 Deuxième modèle des réseaux d’ondelettes ................................................................ 69

4.3. Comparaison des réseaux d’ondelettes aux réseaux de neurones ............................. 70 4.4. Applications des réseaux d’ondelettes ....................................................................... 71

5. Conclusion ........................................................................................................................ 74

CHAPITRE III Proposition d’un nouvel algorithme d’apprentissage du ROZ ........... 75

1. Concepts théoriques du deuxième modèle des réseaux d’ondelettes ................................ 76 1.1. Introduction ................................................................................................................ 76 1.2. Les frames et les ROZ ................................................................................................ 76

1.2.1 La transformée discrète en ondelettes .............................................................. 76 1.2.2 Les frames ......................................................................................................... 77 1.2.3 Les ROZ ............................................................................................................. 79

1.3. Conclusion .................................................................................................................. 81 2. Apprentissage des réseaux d’ondelettes par la théorie des frames .................................. 82

2.1. Introduction ................................................................................................................ 82 2.2. Optimisation des réseaux d’ondelettes par la théorie des frames ............................. 82

2.2.1 Comment discrétiser la transformée continue pour obtenir une frame ? ......... 82 2.2.2 Constitution d’une bibliothèque d’ondelettes pour le réseau ........................... 83 2.2.3 Processus d’optimisation du réseau ................................................................. 85 2.2.4 Calcul direct des poids ...................................................................................... 87 2.2.5 Optimisation des poids dans le cas des frames ................................................. 90

2.3. L’apprentissage dans le cas d’un ROZ 2D ................................................................ 91 2.3.1 Introduction ....................................................................................................... 91 2.3.2 Les ondelettes bidimensionnelles ...................................................................... 91 2.3.3 Optimisation d’un ROZ 2D ............................................................................... 95

3. Conclusion ........................................................................................................................ 98

CHAPITRE IV Application des RO Bêta à La reconnaissance de visages .................... 99

1. Introduction ..................................................................................................................... 100 2. Les Ondelettes Bêta comme fonction d’activation .......................................................... 100

2.1. Les ondelettes Bêta 1D ............................................................................................. 100 2.2. Les ondelettes Bêta 2D ............................................................................................. 103

3. Reconnaissance de visage par ROB ............................................................................... 105 3.1. Approche utilisée pour la reconnaissance de visage par un RO ............................. 105

3.1.1 Introduction ..................................................................................................... 105 3.1.2 L’architecture de réseaux d’ondelettes pour la reconnaissance de visages et le principe d’apprentissage. ......................................................................................... 105 3.1.3 Présentation d’une image de test et processus de reconnaissance ................. 107 3.1.4 Détection d’une personne n’appartenant pas à la base d’apprentissage ..... 107 3.1.5 Architecture du réseau d’ondelettes en utilisant des vecteurs caractéristiques .................................................................................................................................. 109 3.1.6 Conclusion ...................................................................................................... 110

3.2. Approche utilisé pour la reconnaissance de visage par un ROZ ............................. 110 3.2.1 Introduction ..................................................................................................... 110 3.2.2 Mesure de la distance euclidienne entre deux réseaux d’ondelettes .............. 110 3.2.3 Représentation de visage avec ROZB2D pour une reconnaissance automatique .................................................................................................................................. 113

6

3.2.4 L’approche de la reconnaissance. .................................................................. 117 3.2.5 Conclusion ...................................................................................................... 121

4. Implémentation et Résultats ............................................................................................ 122 4.1. Introduction .............................................................................................................. 122 4.2. Mesure de la performance d’un algorithme de reconnaissance de visages ............ 123 4.3. Base d’images .......................................................................................................... 123

4.3.1 AT&T (ORL) ................................................................................................... 126 4.3.2 FERET ............................................................................................................. 127

4.4. Résultats de la base ORL ......................................................................................... 130 4.4.1 Utilisation du système CMC sur la base ORL .............................................. 132 4.4.2 Evaluation du système FRCM sur la base ORL ........................................... 133

4.5. Résultats de la base FERET ..................................................................................... 136 5. Conclusion ...................................................................................................................... 144

Conclusion et perspectives ................................................................................................... 145

Abréviations .......................................................................................................................... 147

Notations ............................................................................................................................... 149

7

Liste des Figures

Figure 1. Les étapes de reconnaissance de visages ................................................................ 15

Figure 2. Principales techniques de reconnaissance de visages .............................................. 16

Figure 3. Une version simplifiée d’un Espace de visages. ....................................................... 20

Figure 4. Image moyenne et les 15 premiers EigenFaces ........................................................ 21

Figure 5. Illustration du principe de séparation optimale des classes par le ADL .................. 22

Figure 6. Une architecture d’un réseau de neurones pour la reconnaissance de visage ........ 26

Figure 7. Image moyenne et les 6 premiers vecteurs propres pour l’oeil gauche et le nez ... 31

Figure 8. Représentation 3D et 2D de la partie réelle d’un filtre de Gabor ............................ 32

Figure 9. Orientation de l’ondelette ......................................................................................... 33

Figure 10. Fréquence centrale de l’ondelette .......................................................................... 34

Figure 11. Phase de l’ondelette ................................................................................................ 34

Figure 12: Support temporel de l’ondelette .............................................................................. 35

Figure 13. Forme de l’enveloppe Gaussienne .......................................................................... 35

Figure 14. Les 80 masques d’ondelettes de Gabor .................................................................. 36

Figure 15. La sélection de points caractéristiques ................................................................... 37

Figure 16. Création du treillis .................................................................................................. 37

Figure 17. Une représentation virtuelle d’un Face Bunch Graph ........................................... 38

Figure 18. Quelques distances utilisées pour la reconnaissance de visages ........................... 41

Figure 19. L’ondelette de Haar ................................................................................................ 52

Figure 20. Ondelette de Morlet ................................................................................................ 52

Figure 21. Ondelette chapeau mexicain ................................................................................... 53

Figure 22: Structure d’un neurone. .......................................................................................... 59

Figure 23. Schéma de principe d’un traitement cellulaire ....................................................... 61

Figure 24. Modèle de McCulloch et Pitts ................................................................................. 62

Figure 25. Modèle du PMC ...................................................................................................... 64

Figure 26 : Un réseau à base de fonction radiale .................................................................... 66

Figure 27. Réseau d’ondelettes modèle 1 (RO) ........................................................................ 69

Figure 28. Réseau d’ondelettes modèle 2 (ROZ) ...................................................................... 70

Figure 29. L’ondelette chapeau Mexicain à gauche et sa duale à droite ................................ 78

Figure 30: Une basee orthogonale, biorthogonale et une frame ............................................. 79

8

Figure 31. L’ondelette mère à gauche et Trois ondelettes dilatées et translatées ................... 80

Figure 32: Approximation d’une fonction f par un réseau de 3 ondelettes .............................. 80

Figure 33 . Echantillonnage sur une grille de l’espace temps-fréquence ................................ 83

Figure 34 : Les sept premières ondelettes de la bibliothèque et le signal à analyser .............. 84

Figure 35. Processus de calcul des poids et de la sortie du réseau ......................................... 86

Figure 36. Exemple d’ondelette bidimentionnelle .................................................................... 92

Figure 37. l’ondelette mère Chapeau Mexicain bidimensionnelle et son filtre associé ........... 94

Figure 38. un neurone d’un réseau d’ondelettes ROZ Bidimensionnelle ................................ 95

Figure 39. Les centres des ondelettes dans les trois premières échelles .................................. 96

Figure 40. Processus de calcul des poids et de la sortie du réseau dans le cas d’un ROZ2D . 96

Figure 41. Image à faire apprendre au ROZ2D ....................................................................... 97

Figure 42. Approximation de l’image de la figure précédente par un ROZ2D ....................... 97

Figure 43 : Les centres des ondelettes dans les trois premières échelles ................................ 98

Figure 44. Différentes formes de la fonction Bêta (x0=-1 ; x1=1). ....................................... 101

Figure 45. Les ondelettes Bêta1, Bêta2 et Bêta3 pour différentes valeurs de p et q ( p=q)... 102

Figure 46. Les ondelettes Bêta1, Bêta2 pour deux valeurs de p et q différentes .................... 103

Figure 47: L’ondelette Bêta1_1D(0,100,15,15) et sa duale ................................................... 103

Figure 48. Quelques fonctions Bêta bidimensionnelle et leurs filtres associés ..................... 104

Figure 49: principe de la méthode d’apprentissage ............................................................... 106

Figure 50. Exemple d’une personne reconnue par le système ............................................... 108

Figure 51. Exemple d’une personne non reconnue par le système ........................................ 108

Figure 52. Méthode d’apprentissage utilisant les eigenfaces et les RO ................................. 109

Figure 53. Image originale 140x80 ........................................................................................ 113

Figure 54: Approximation d’un visage sans et avec masque ................................................. 114

Figure 55. Spécificité d’un RO à un visage donnée ............................................................... 115

Figure 56: Image originale 140x80 ........................................................................................ 116

Figure 57: Sortie du réseau en fonction du nombre d’ondelettes utilisé ................................ 116

Figure 58: Reparamétrage d’un RO optimisé su un visage d’une personne .......................... 117

Figure 59: Une Superondelette optimisée sur une image ....................................................... 119

Figure 60: Reparamétrage de la superondelette de l’image f pour approximer l’image g ... 119

Figure 61: Le visage g à reconnaître ..................................................................................... 120

Figure 62: Les trois étapes de la phase de reconnaissance ................................................... 121

Figure 63: Les images d’une même personne de la base ORL ............................................... 126

Figure 64: Les 40 personnes de la base ORL ......................................................................... 127

9

Figure 65: Base d’images FERET : exemples d'images originales (dimension : 256×384) . 128

Figure 66: Comparaison des trois techniques de reconnaissance de visages basées sur le

réseaux d’ondelettes Bêta (système CMC sur Base ORL) ..................................................... 131

Figure 67. Comparaison de l’approche proposée (ROZB2D (frames) ) avec d’autres

techniques (système CMC sur la Base ORL) ......................................................................... 133

Figure 68: Comparaison de l’approche proposée (ROZB2D (frames) ) avec d’autres

techniques (système FRCM sur la Base ORL) ...................................................................... 135

Figure 69 : Comparaison de l’approche proposée (ROZB2D ) avec d’autres techniques

(système CMC sur la Base FERET, Catégorie fb) ................................................................. 137

Figure 70: Comparaison de l’approche proposée (ROZB2D (frames) ) avec d’autres

techniques (système CMC sur la Base FERET, Catégorie fc) ............................................... 139

Figure 71 : Comparaison de l’approche proposée (ROZB2D (frames) ) avec d’autres

techniques (système CMC sur la Base FERET, Catégorie duplicate I) ................................. 141

Figure 72 : Comparaison de l’approche proposée (ROZB2D (frames) ) avec d’autres

techniques (système CMC sur la Base FERET, Catégorie duplicate II) ............................... 143

10

Liste des Tableaux

Tableau 1. Les quatre possibilités qui apparaissent lors de la phase de reconnaissance ...... 19

Tableau 2. Taille des sections de la base d’images FERET ................................................. 129

Tableau 3. Comparaison des trois techniques de reconnaissance de visages basées sur le

réseau d’ondelettes Bêta (Système CMC sur la Base ORL) .................................................. 130

Tableau 4. Comparaison de l’approche proposée (ROZB2D (frames) ) avec d’autres

techniques (système CMC sur la Base ORL) ........................................................................ 132


techniques (système FRCM sur la Base ORL) ...................................................................... 134

Tableau 6: Comparaison de l’approche proposée (ROZB2D ) avec d’autres techniques

(système CMC sur la Base FERET, Catégorie fb) ................................................................. 136


techniques (système CMC sur la Base FERET, Catégorie fc) ............................................... 138

Tableau 8. Comparaison de l’approche proposée (ROZB2D ) avec d’autres techniques

(système CMC sur la Base FERET, Catégorie duplicate I) ................................................... 140

Tableau 9. Comparaison de l’approche proposée (ROZB2D) avec d’autres techniques

(système CMC sur la Base FERET, Catégorie duplicate II) .................................................. 142

13

Introduction Générale La reconnaissance des visages est pour nous une faculté naturelle, familière, bien plus

que les signaux que nous utilisons aujourd'hui pour communiquer avec une machine. Par

ailleurs le développement des algorithmes s'inscrit dans une démarche visant à rendre

l'ordinateur plus "humain", et va de pair avec la reconnaissance vocale et celle gestuelle.

Cette reconnaissance connait de nombreuses applications dans le domaine de la

sécurité. Citons la restriction d'accès à un lieu ou une machine et la criminologie (retrouver un

visage dans une base de données à partir d'un portrait robot), pour lesquelles des systèmes

sont déjà opérationnels.

Nous allons, dans le premier chapitre, présenter la notion de reconnaissance de visages

et les différents algorithmes utilisés dans ce domaine.

Dans le chapitre 2, nous présenterons en introduction les concepts théoriques des

réseaux d’ondelettes, la technique d’analyse en ondelettes et ses avantages en évoquant les

limites de l’analyse de Fourier. Ensuite, nous décrirons les réseaux de neurones artificiels

ainsi que leurs structures et nous finirons par la description des réseaux d’ondelettes. A ce

niveau, une comparaison entre les réseaux d’ondelettes et d’autres architectures neuronales

sera détaillée. Les architectures possibles des réseaux d’ondelettes seront présentées. Nous

citerons aussi les différentes applications des réseaux d’ondelettes et les divers travaux

effectués dans ce domaine.

Le chapitre 3, sera consacré à la proposition d’un nouvel algorithme d’apprentissage

rapide des réseaux d’ondelettes. Cet algorithme basé sur la théorie des frames, vient pour

remédier aux inconvénients des algorithmes d’apprentissage classique telle que la

rétropropagation de gradient.

Dans le chapitre 4, nous ferons la description des approches proposées et les principes

de la reconnaissance de visages avec deux architectures de réseau d’ondelettes différentes.

Nous détaillerons la procédure d’implémentation de ces réseaux, des expérimentations seront

faites afin de connaître leurs propriétés. Leurs performances seront comparées à d’autres

approches en faisant des tests sur différents visages de différentes bases suite à cette

implémentation.

Le présent mémoire sera clôturé par une conclusion sur les travaux présentés et

quelques perspectives visant l’amélioration des résultats obtenus.

CHAPITRE I

Reconnaissance de visages - État de l’art

Etude des RO Bêta : Application à la RV ZAIED

15

1. Introduction

Plusieurs techniques d’identification biométrique d’individus ont été développées au

cours des dernières années. Parmi elles, on distingue celle qui prend le visage comme une

zone d’analyse pour faire la reconnaissance. Cette approche est un problème de

reconnaissance des formes assez complexe. En effet, contrairement à certaines

problématiques comme la reconnaissance des caractères manuscrits, le nombre de classes à

distinguer est très élevé et chacune ne possède qu’un nombre restreint d’exemples. Ces

conditions particulières nuisent à certaines techniques d’apprentissage automatique qui

nécessitent un grand nombre de données pour un apprentissage efficace.

Grace aux travaux de plusieurs chercheurs, les machines peuvent actuellement

différencier un visage humain d’un autre, et en particulier de chercher un visage dans une

large base de visages. Un système qui permet la reconnaissance automatique de visages dans

une image voit ces applications dans plusieurs domaines, à savoir : la surveillance dans les

aéroports, la recherche des suspects dans le domaine criminologique, l’accès contrôlé aux

sites privés, interactivité homme-ordinateur avancée, etc.

La reconnaissance de visage est une étape parmi quatre étapes de l’opération

d’identification d’une personne par son visage. La chaîne d’identification est constituée donc,

de la phase de l’acquisition de l’image ou de la vidéo, la détection du visage dans la scène, la

normalisation et enfin la reconnaissance de l’identité de la personne.

Figure 1. Les étapes de reconnaissance de visages

Normalisation Reconnaissance

DétectionAcquisition


16

En gros, ces techniques sont divisées en deux grandes catégories : les méthodes

globales, là où on analyse l’intégralité du visage pour des fins de reconnaissance, et les

méthodes locales qui exploitent les éléments de visages tels que le nez, la bouche et les yeux

pour l’analyse et la reconnaissance. Plusieurs techniques appartenant aux deux familles seront

donc décrites dans ce chapitre, entre autres les EigenFaces, les LDA, les réseaux de neurones,

les GraphMatching, etc.

Figure 2. Principales techniques de reconnaissance de visages

2. Les méthodes globales de reconnaissance du visage

La première grande famille de méthodes de reconnaissance concerne celles qui utilisent

le visage au complet comme source d’information et ce, sans segmentation de ses parties.

Dans la majorité des cas, les images sont représentées par un vecteur de pixels généré

par la concaténation de toutes les colonnes de l’image. Ainsi, une image en niveaux de gris de

dimensions de 130×150 pixels possédera une représentation vectorielle de 19 500 éléments.

Techniques de

Reconnaissance de Visages

Mesures et ratios

PCA

EigenObjects

EBGM

Couleurs (yeux,peau,…)

HMM

Méthodes locales

Réseaux neuronaux

LDA

Méthodes globales


17

Finalement, les couleurs ne sont pas habituellement utilisées par les méthodes globales de

reconnaissance, ce qui simplifie un grand nombre d’opérations.

2.1. La reconnaissance à base de "L’eigenFaces'' (ACP)

Il est pratiquement impossible de concevoir un système de reconnaissance du visage

sans envisager la technique très populaire des EigenFaces, introduite en 1991 par Turk et

Pentland (Turk, 1991).

"EigenFaces'' veut dire en allemand visages propres. Cette méthode est tout d’abord

basée sur une analyse en composantes principales (ACP) ou "Principal Component Analysis"

en anglais, appliquée sur l’ensemble de visages d’une base d’entraînement.

Elle consiste essentiellement à effectuer une réduction de dimensionnalité en codant les

visages dans une nouvelle base formée par les premiers vecteurs propres (c'est-à-dire

EigenFaces) provenant du calcul de l’ACP.

Les EigenFaces associés aux plus fortes valeurs propres représentent donc, dans

l’espace des images, les directions dans lesquelles les variations sont les plus marquées.

C’est ainsi que les premiers visages propres représentent habituellement les différences

d’éclairage ainsi que les personnes portant des lunettes ou une barbe.

Apprentissage:

La phase d’apprentissage (ou de modélisation) des EigenFaces se déroule comme suit :

1. Un visage moyen Ψ est calculé à partir de N images d’entraînement I, de dimension

LxH :

1

1 N

ii

IN =

Ψ = ∑ (1)

2. Ce visage moyen est soustrait des images d’apprentissage (on élimine donc les

ressemblances pour se concentrer sur les différences), ce qui génère les vecteurs de

différences iΦ associés à chacune des images :

i iIΦ = −Ψ (2)


18

3. La matrice de covariance C est construite ainsi (approche inter-pixels)

1

1 NT

i ii

CN =

= Φ Φ∑ (3)

Etant donné les dimensions élevées de C (LH × LH), une approche inter-images est

privilégiée. Le calcul se limite (Turk, 1991) à une matrice L = ATA dépendant du nombre

d’images dans la base d’apprentissage (c'est-à-dire N × N).

Chacune des colonnes de A représente un vecteur de différences, soit 1 2[ , ,..., ]NA φ φ φ=

4. Calcul des valeurs et vecteurs propres de la matrice L.

5. Le visage propre ui associé à la ième valeur propre est formé en utilisant les vecteurs

propres vi de la matrice L :

1

N

i ik kk

u v=

= Φ∑ (4)

6. Les M premiers vecteurs propres (EF) (c'est-à-dire qui sont associés aux plus fortes

valeurs propres) sont conservés. Ils définissent ainsi l’espace des visages (face space) ;

7. Les images originales sont projetées dans l’espace des visages pour former une suite de

coefficients d’appartenance, ce qui donne pour une image Ii ;

Où k = 1, ..., M ;Tk k kuω = Φ (5)

8. Ces coefficients forment alors un vecteur représentant l’image Ii :

[ ]1 2, ,...,i Mω ω ωΩ = (6)

Une fois l’apprentissage complété, les différentes représentations d’un individu peuvent

être regroupées afin de former une classe. Ceci peut être réalisé notamment en calculant une

moyenne des différents vecteurs i correspondants à la personne (Turk, 1991).


19

Reconnaissance

Lorsqu’un visage est présenté au système, la procédure d’identification consiste à :

1. Projeter l’image d’entrée I dans l’espace des visages, ce qui engendre un coefficient

d’appartenance wk à un EigenFace uk en utilisant l’équation (5).

2. Les coefficients d’appartenance forment alors un vecteur de représentation de taille M;

Ce dernier est comparé avec ceux obtenus lors de la phase d’apprentissage en appliquant

une métrique de distance particulière telle que la distance euclidienne ou la distance de

Mahalanobis (Morizet, 2006).

Il y a alors, quatre possibilités (Tableau 1 et Figure 3) pour une image d’entrée à être

reconnue ou non : Dans le cas 1, un individu est reconnu et identifié. Dans le cas 2, un

individu inconnu est présent. Les deux derniers cas (3 et 4) indiquent que l’image n’est pas

une image de visage. Pour le cas 3, l’image est éloignée de l’espace de visages (EV) mais la

projection est proche d’une classe connue. On parle alors de fausse acceptation (Morizet,

2006)

Tableau 1. Les quatre possibilités qui apparaissent lors de la phase de reconnaissance

Espace des Visages Classes de Visages

Cas 1 Proche Proche

Cas 2 Proche Eloigné

Cas 3 Eloigné Proche

Cas 4 Eloigné Eloigné


20

Figure 3. La projection d’une image dans un EV, il y a deux vecteurs propres (u1 et u2) et trois classes d’individus connus

Ajout d’une personne

Lorsqu’une nouvelle personne est ajoutée à la base de données, la méthode classique

consiste à refaire l’apprentissage complet (c'est-à-dire l'ACP pour déterminer les nouveaux

visages propres). Il existe cependant deux alternatives à cette solution.

Premièrement, lorsque la base d’apprentissage est relativement grande et que les visages

qu’on y retrouve sont représentatifs, il est possible d’utiliser directement les Eigenfaces

existants afin de calculer les coefficients de projection des nouvelles images.

Il serait par contre intéressant à long terme (et après plusieurs ajouts de personnes) de

réaliser un ré-apprentissage complet afin d’obtenir des visages propres plus représentatifs de

la base de données.

La deuxième méthode est relativement récente et repose sur une fusion d’espaces de

visages (Morizet, 2006). Il est en effet possible de fusionner deux "face space sans toutefois

nuire au processus de reconnaissance (par exemple altération des visages propres). Ainsi en

pratique, un espace temporaire est généré à partir des nouvelles images pour être ensuite

fusionné avec l’espace principal.

Cette opération est également avantageuse en terme de temps de calcul (Franco, 2002)

comparativement à un recalcul complet. Par ailleurs, comme l’espace des visages est modifié,


21

il est primordial de re-projeter tous les visages d’entraînement en vue de reconstruire les

représentations.

Figure 4. L’image moyenne et les 15 premiers EigenFaces

Conclusion

Tout d’abord, l’algorithme ACP est une méthode globale utilisant, en premier lieu, les

niveaux de gris des pixels d’une image, mais il est sensible à la variation de contraste avec

une forte sensibilité aux changements d’éclairement, de pose et d’expression faciale.

Néanmoins, le ACP est connu par sa simplicité à mettre en œuvre et il ne nécessite aucune

connaissance à priori sur l’image.

Le principe selon lequel on peut construire un sous-espace vectoriel en ne retenant que

les "meilleurs" vecteurs propres, tout en conservant beaucoup d’information utile, fait du ACP

un algorithme efficace et couramment utilisé en réduction de dimensionnalité où il peut alors


22

être utilisé en amont d’autres algorithmes (comme l’analyse à discrimination linéaire par

exemple). Enfin, l’étude théorique de l’algorithme ACP est très pédagogique et permet

d’acquérir de solides bases pour la reconnaissance 2D d’un visage.

2.2. L’analyse à discrimination linéaire (ADL)

L’algorithme LDA est né des travaux de Belhumeur et al. de la Yale University (USA)

(Morizet, 2006), en 1997. Il est connu aussi sous le nom de Fisherfaces.

Contrairement à l’algorithme ACP, l’algorithme LDA effectue une véritable séparation

de classes (Figure 1). Pour pouvoir l’utiliser, il faut donc au préalable organiser la base

d’apprentissage d’images en plusieurs classes : une classe par personne et plusieurs images

par classe (Zhao, 1998).

Le LDA analyse les vecteurs propres de la matrice de dispersion des données, avec pour

objectif de maximiser les variations inter-classes tout en minimisant les variations intra-

classes.

Figure 5. Illustration du principe de séparation optimale des classes par le ADL


23

Tout comme dans le ACP, on rassemble les images de la base d’apprentissage dans une

grande matrice d’images Γ où chaque colonne représente une image iΓ , puis on calcule

l’image moyenneΨ . Ensuite, pour chaque classe iC , on calcule l’image moyenne iC

Ψ :

1

1 i

i

q

kCkiq =

Ψ = Γ∑ (7)

Avec iq , le nombre d’images dans la classe iC .

Chaque image iΓ de chaque classe iC est ensuite recentrée par rapport à la moyenne.

On obtient alors une nouvelle image iφ :

ii i Cφ = Γ −Ψ (8)

1. On calcule ensuite les différentes matrices de dispersion. On notera c le nombre total de

classes, iq le nombre d’images dans la classe iC et M le nombre total d’images.

2. La Matrice de Dispersion Intra-Classe ( wS )

1

( )( )i i

k i

cT

w k C k Ci C

S= Γ ∈

= Γ −Ψ Γ −Ψ∑ ∑ (9)

3. La Matrice de Dispersion Inter-Classe ( bS )

1

( )( )i i

cT

b i C Ci

S q=

= Ψ −Ψ Ψ −Ψ∑ (10)

4. La Matrice de Dispersion Totale ( TS )

1

( )( )M

TT i i

i

S=

= Γ −Ψ Γ −Ψ∑ (11)


24

Une fois, ces matrices calculées, nous devons trouver une projection optimale W qui

maximise la dispersion intraclasse, relative à la matrice wS , tout en minimisant la dispersion

inter-classe, relative à la matrice bS .

En d’autres termes, nous devons trouver W qui maximise le critère d’optimisation de

Fisher ( )J t :

arg max( ( ))T

W J T= (12)

max( ( )) |T

b

Tw

T S TJ T T W

T S T⇒ = = (13)

W peut être alors trouvé en résolvant le problème généralisé aux valeurs propres :

b w wS W S Wλ= (14)

Une fois W est trouvé, le même schéma que l’ACP concernant la projection des images

apprises ainsi que la projection d’une image test est appliqué.

Ainsi, la projection vectorielle d’une image apprise réajustée par rapport à la moyenne

iΦ est définie par :

( ) Ti ig WΦ = Φ (15)

La phase de reconnaissance d’une image test tΦ s’effectue en projetant tΦ sur TW :

( ) Tt tg WΦ = Φ (16)

Enfin, on effectue une mesure de distance entre l’image test et l’image projetée sur

l’espace vectoriel engendré par WT. Par exemple, pour la distance Euclidienne, on calcule la

distance tid :


25

( ) ( )ti t id g g= Φ − Φ (17)

d’où :

2

1( ( ) ( ))

c

ti t ik

d g g=

= Φ − Φ∑ (18)

Finalement, une image test est dans la classe dont la distance est minimale par rapport à

toutes les autres distances de classe.

Conclusion

On peut dire que l’algorithme ADL permet d’effectuer une véritable séparation de

classes, selon un critère mathématique qui minimise les variations entre les images d’un

même individu (variations intra-classe) tout en maximisant les variations entre les images

d’individus différents (variations inter-classes). Cependant, pour des problèmes "sous-

échantillonnés" en reconnaissance du visage, c’est-à-dire lorsque le nombre d’individus à

traiter est plus faible que la résolution de l’image, il est difficile d’appliquer le ADL qui peut

alors faire apparaître des matrices de dispersions singulières (non inversibles). Afin de

contourner ce problème, certains algorithmes basés sur le ADL ont récemment été mis au

point (par exemple, les algorithmes UADL, OADL, NADL).

2.3. Les méthodes basées sur les réseaux neuronaux

Les réseaux de neurones sont utilisés comme approches pour résoudre plusieurs

problèmes de reconnaissance de formes.

Pour la reconnaissance de visages, les réseaux de neurones sont utilisés comme engin

d’apprentissage et de reconnaissance. Une architecture "MLP" (Multi-Layer Perceptron) est

généralement utilisée.

Pour débuter, une image brute (ou prétraitée) de dimensions fixes constitue

habituellement la source d’entrée des réseaux. Les dimensions doivent être établies au

préalable car le nombre de neurones sur la couche d’entrée en dépend.


26

Cela étant dit, plus les dimensions de l’image sont élevées, plus la complexité et le

temps d’apprentissage augmentent. En effet, pour une image de dimensions 130×150 pixels,

19 500 neurones seront requis sur la couche d’entrée, ce qui est énorme. L’apprentissage

efficace (c'est-à-dire la convergence) d’un tel réseau est également douteux.

Le nombre de sorties du réseau dépend par ailleurs directement de la quantité

d’individus à discriminer. Il est donc évident qu’un apprentissage incrémental (avec de

nouveaux individus et non de nouveaux exemples) sera difficile et requerra des ajustements

directs à l’architecture.

Certains auteurs ont d’ailleurs utilisé des variantes de la technique de base en modifiant

les données d’entrée. Les coefficients de projections d’images dans un espace des visages

(EigenFaces) peuvent par exemple être utilisés comme source d’informations (Jamil, 2001).

Cette méthode peut évidemment être étendue aux coefficients de DCT (HEl-Bakry, 2000) par

exemple.

L’utilisation des "eigenface" diminue d’une façon claire la complexité de système. La

reconnaissance et d’apprentissage sont plus rapides à cause de la réduction de la taille du

vecteur d’entrée.

La figure suivante montre une architecture typique d’un réseau de neurones pour la

reconnaissance de visages. Nous avons une couche d’entrée contenant les m neurones qui

vont recevoir les vecteurs caractéristiques des visages. Les neurones de cette couche sont

connectés aux neurones de couches de sortie via une ou plusieurs couches de sortie

(Multicouche). Chaque neurone est connecté à la couche suivante par une connexion

contenant un poids.

Figure 6. Une architecture d’un réseau de neurones pour la reconnaissance de visages

w11 x1

xj

xm

Identité 1

Identité n

w1j

w1m

v11

v1m


27

Apprentissage

Dans la plupart des cas de reconnaissance de visages par réseaux de neurones,

l’algorithme de la rétropropagation est utilisé pour l’apprentissage en essayant de réduire

l’erreur commise par le réseau sur les exemples de la base d’apprentissage en corrigeant ces

poids.

La fonction de coût quadratique pour mesurer cette erreur est appliquée.

L’apprentissage vise alors à minimiser le coût empirique, donné par la quantité :

( ) ( )( )2

12 1

TE t ty yd

t= −∑

= (19)

Où y(t) est la sortie réelle obtenue par le réseau et yd(t) celle désirée.

A chaque itération de cet algorithme, un exemple est présenté au réseau (paire

entrée/sortie). On propage le calcul d’une couche à une autre jusqu’à la couche de sortie.

L’algorithme d’apprentissage consiste à modifier les paramètres dans la direction opposée au

gradient de la fonction d’erreur. La modification des différents paramètres s’effectue en

appliquant les formules suivantes (B. Kjetil, 2002):

( 1) ( ) Et t Avecωω ω μ ω ωω∂

+ = + Δ Δ = −∂

(20)

( 1) ( ) Ev t v t v Avec vωμ ω∂

+ = + Δ Δ = −∂

(21)

Reconnaissance

Une fois le réseau entraîné par un algorithme d’apprentissage, il doit être prêt à

identifier des images de visages qu’on lui présente. L’image de test inconnue est transformée

en un vecteur présenté comme entrée au réseau de la même manière que les images de

l’apprentissage. Si le réseau est entraîné d’une manière correcte, il derva donner une sortie

exacte. L’image de test ne doit absolument pas être choisie parmi les images de

l’apprentissage, mais d’autres bases d’images doivent être réservées aux tests.


28

Quelques approches utilisant les réseaux de neurones associés au "Eigenface" ou à la

"DCT" sont testées sur des bases contenant 200 images, avec 20 images pour chaque individu.

Les images contiennent des visages avec différentes orientations et échelles. Les résultats ont

montré que ces réseaux peuvent reconnaître correctement 98% des visages (El-Bakry, 2000).

Conclusion

Les réseaux de neurones sont utilisés dans plusieurs domaines de reconnaissance de

formes, parmi les quelles la reconnaissance de visages. Ces réseaux ont montré leurs preuves

avec des taux de reconnaissances élevés. La représentation d’une image à l’entrée du réseau et

l’apprentissage sont deux facteurs cruciaux pour aboutir à de bons résultats. Le nombre des

couches cachées, le couplage entre les composants du réseau et la fonction de transfert sont

des éléments vitaux pour décider de la fonctionnalité et la performance d’un système de

reconnaissance de visages basées sur les réseaux de neurones

Les taux de reconnaissances d’un tel système dépendent de la taille des bases

d’apprentissage, du test et du nombre d’images par personne.

Le temps d’apprentissage augmente avec le nombre d’images de la base

d’apprentissage, mais une fois l’apprentissage achevé, la reconnaissance est relativement

rapide. La reconnaissance dépend uniquement de la structure du réseau, mais pas du nombre

de visages d’apprentissage.

2.4. Le modèle surfacique du visage (3D)

La prochaine méthode de reconnaissance repose sur l’utilisation d’un modèle

tridimensionnel du visage. Pour que cette technique soit réellement efficace, une vue

rapprochée du visage est nécessaire pour chacune des caméras impliquées dans l’acquisition

(Bronstein, 2002) ( Bronstein, 2003) (Blanz, 1999).

Dans certains cas, il est possible de réaliser de la stéréo dense, c’est-à-dire d’extraire un

grand nombre de points dans une zone relativement restreinte. Celle-ci garanti alors de

meilleures précisions sur les mesures ainsi qu’une résolution accrue. Une fois l’appariement

des points réalisé, le modèle peut être normalisé et stocké dans la base de données.

Lorsqu’un individu se présente devant les caméras, la même procédure va s’appliquer,

mais suivie d’une étape de comparaison. En effet, le modèle à reconnaître doit être comparé à

tous les modèles de la base de données, ce qui représente un travail colossal.


29

Une réduction de calculs est donc impérative pour minimiser la complexité de ce

problème d’optimisation.

Ceci peut être réalisé en alignant les centres des yeux des deux modèles. Il ne reste alors

qu’à mesurer l’erreur entre les deux surfaces. Certains auteurs (Achemann, 2000) ont

d’ailleurs proposé l’utilisation d’une distance d’Hausdorff modifiée pour réaliser ce calcul.

Il est finalement envisageable de prélever certaines mesures sur le modèle du visage,

comme la distance réelle entre les composantes du visage (par exemple distance entre les

yeux) ou leurs dimensions. Ces informations pourraient être utilisées ensuite pour la

reconnaissance, tout comme dans la technique suivante de prises de mesures morphologiques.

2.5. La reconnaissance à base de déformations de type "morphing''

L'approche consiste, à partir de deux photos de visages, à définir d'abord une

déformation de l'espace permettant de superposer ces deux images, puis à calculer l'énergie de

cette déformation pour décider s'il s'agit de la même personne (Choi, 1991) (Edwards, 1996).

Ceci nécessite une extraction automatique de paramètres permettant de calculer la

déformation, puis l'énergie de déformation. On utilise ici le modèle de plaque mince introduit

par Bookstein en 1989. Pour traiter séparément les variations systématiques dues aux

conditions d'acquisition des données (éclairage, orientation du visage, expressions faciales,

coiffure) et les variations biométriques qui permettent d'identifier et de différencier les visages

(distance entre les yeux, le nez et la bouche, etc..), on relaxe les conditions d'interpolation:

l'énergie est alors la somme d'une énergie de déformation et d'une énergie représentant l'écart

entre les points transformés et les points de référence. On attribue à chacun des huit points

caractéristiques un poids dépendant de sa variance spatiale moyenne au sein d'une même

classe.

3. Les méthodes locales de reconnaissance du visage

Le principal désavantage des méthodes globales réside au niveau des détails utilisés. En

effet, lorsqu’une technique s’attarde aux variations dans toute une image, elle tentera de

limiter l’impact des changements locaux et concentrera le maximum d’énergie pour

représenter adéquatement l’ensemble d’images (par exemple l'EigenFaces). Par contre, il

arrive parfois que des personnes possèdent une physionomie faciale très semblable, mais que


30

certains petits détails diffèrent énormément . Ce serait le cas par exemple d’une personne

possédant un nez imposant.

En utilisant une méthode locale, d'avantage d’énergie sera accordée aux détails locaux

assez fins, ce qui évite ainsi le bruit causé par les cheveux, les chapeaux, la barbe, etc. De

plus, certaines parties du visage sont relativement identiques pour une même personne malgré

le changement de certaines expressions faciales; c’est le cas notamment des yeux et du nez.

Ceci demeure vrai tant que ces caractéristiques du visage ne sont pas en occultation. Les

paragraphes qui suivent porteront essentiellement sur les principales techniques de

reconnaissance locales.

3.1. Les "EigenObjects"

La méthode des EigenObjects est avant tout une application plus ciblée des EigenFaces

ayant des zones spécifiques du visage comme régions d’intérêt. Étant donné que certaines

parties du visage sont moins affectées par les expressions faciales, il est intéressant de s’y

attarder pour extraire de l’information. C’est le cas surtout des yeux et du nez, qui demeurent

presque les mêmes pour une même personne et ce, quelle que soit son expression faciale

(Pentland, 1994).

La première étape de prétraitement consiste, tant en phase d’apprentissage qu’en phase

de reconnaissance, à localiser les parties importantes à l’intérieur du visage. La précision du

module de détection du visage est donc cruciale.

Contrairement aux visages, les yeux et le nez se ressemblent davantage entre eux, ce qui

rend les fausses identifications plus fréquentes. Par contre, grâce à la concaténation des

représentations individuelles, certaines ressemblances peuvent être éliminées.

Evidemment, la performance de cette technique dépend fortement de l’efficacité de la

segmentation. Les cas d’occultations (par exemple port de lunettes fumées ou yeux fermés)

nuisent à leur tour aux EigenObjects en y ajoutant du bruit, causant en conséquence de fausses

identifications (Phillips, 2000) (Lemieux, 2003).

Apprentissage


31

Afin d’appliquer la technique des EigenFaces sur les parties des visages, les sous-

images doivent être avant tout extraites et regroupées en trois ensembles (yeux, nez et

bouche). Celles-ci sont utilisées pour calculer les ACP correspondantes, procédure qui génère

de nouvelles bases associées à chacun des EigenObjects.

La phase d’apprentissage utilisée est identique à celle présentée précédemment à la

sous-section EigenFaces. La seule différence réside au niveau du nombre d’opérations à

réaliser. Celui-ci dépend, en effet, de la quantité de caractéristiques à reconnaître.

Les coefficients de projection de chaque caractéristique sont calculés et concaténés

ensemble pour former un seul et unique vecteur pour chaque image. Cette représentation

unifiée facilite légèrement la gestion et le nombre d’opérations à réaliser lors de la phase

d’identification (Phillips, 2000) (Lemieux, 2003).

Reconnaissance

Lors de la phase d’identification, les sous-images représentant les caractéristiques du

visage sont extraites et utilisées indépendamment selon la procédure de reconnaissance des

EigenFaces (Pentland, 1994).

Les représentations individuelles sont ensuite concaténées pour former le vecteur unifié

qui est comparé à celles de la base d’apprentissage en utilisant l’algorithme de comparaison

des distances (Pentland, 1994) (Lemieux, 2003).

Figure 7. EigenObjects: Image moyenne ainsi que les 6 premiers vecteurs propres pour : a) l’oeil gauche et b) le nez


32

3.2. “L’Elastic Bunch Graph Matching” (EBGM)

L’algorithme EBGM est né des travaux de Wiskott et al. de la Southern California

University (USC - USA) et de la Rurh University (Allemagne), en 1997 (Morizet, 2006).

À partir d’une image de visage, on localise des points caractéristiques (coins des yeux,

de la bouche, nez, etc.). Cette localisation peut se faire manuellement ou automatiquement à

l’aide d’un algorithme (Arca, 2005).

Un treillis élastique virtuel est ensuite appliqué sur l’image de visage à partir de ces

points. Chaque point représente un noeud labélisé auquel on associe un jeu de coefficients

d’ondelettes complexes de Gabor, appelés Jet. Pour effectuer une reconnaissance avec une

image test, on fait une mesure de similarité entre les différents Jets et les longueurs des

segments du treillis de deux images.

Un Jet est basé sur une transformée en ondelettes (Hubbard, 1995), défini comme la

convolution d’une image avec une famille de noyaux de Gabor. Ces noyaux de Gabor peuvent

être assimilés à des ondes localisées dans le temps, modulées par une Gaussienne (Figure 14).

On peut parler de transformée en ondelettes car la famille des noyaux de Gabor est

générée à partir d’une ondelette mère par translation, dilatation et rotation.

Figure 8. Représentation 3D (à gauche) et 2D (à droite) de la partie réelle d’un filtre de Gabor


33

Dans l’algorithme EBGM, les ondelettes de Gabor sont des fonctions de type

( , , , , )f θ λ φ σ γ . Voici une explication des 5 paramètres :

L’orientation de l’ondelette ( )θ

Ce paramètre fait pivoter l’ondelette autour de son centre. L’orientation de l’ondelette

détermine l’angle des contours ou des lignes de l’image auxquelles l’ondelette va être

sensible.

Figure 9. Orientation de l’ondelette

La fréquence centrale de l’ondelette λ

Ce paramètre spécifie la longueur d’onde du cosinus ou inversement la fréquence

centrale de l’ondelette. Les ondelettes avec une grande longueur d’onde seront sensibles à des

changements progressifs d’intensité dans une image. Les ondelettes avec une petite longueur

d’onde seront sensibles à des contours et des lignes abruptes.


34

Figure 10. Fréquence centrale de l’ondelette

La phase de la sinusoïde φ

On utilise à la fois la partie réelle et la partie imaginaire de l’ondelette complexe de

Gabor. Ce qui nous donne, en quelque sorte, deux ondelettes : une ondelette paire et une

ondelette impaire. La convolution (incluant alors deux phases) donne un coefficient

complexe basé sur deux ondelettes qui sont déphasées de 2π

Figure 11. Phase de l’ondelette


35

Le support temporel de l’ondelette σ

Ce paramètre spécifie le rayon de la Gaussienne. La taille de la Gaussienne détermine la

quantité de pixels de l’image qui vont être pris en compte dans la convolution.

Figure 12: Support temporel de l’ondelette

L’enveloppe de la Gaussienne γ

Ce paramètre agit sur la forme de l’enveloppe Gaussienne, en l’étirant spatialement. Ce

paramètre a été inclus de manière à ce que les ondelettes puissent approximer certains

modèles biologiques.

La plupart des ondelettes testées avec l’algorithme EBGM du CSU System 5.0

(Morizet, 2006) utilisent une enveloppe Gaussienne avec γ = 1.

Figure 13. Forme de l’enveloppe Gaussienne


36

En utilisant 5 fréquences différentes, 8 orientations différentes, et 2 phases différentes.

On obtient un total de 80 masques d’ondelettes de Gabor différents (Figure 14).

Figure 14. Les 80 masques d’ondelettes de Gabor

Une fois que l’ondelette de Gabor est paramétrée, nous pourrons résumer les différentes

étapes de l’algorithme EBGM.

Sélection de points caractéristiques

Des points caractéristiques d’une image de visage sont sélectionnés (manuellement ou

avec un algorithme).


37

Figure 15. La sélection de points caractéristiques

Création du treillis

Un treillis est construit en reliant les points caractéristiques précédemment trouvés.

Figure 16. Création du treillis

Calcul des Jets

A chaque noeud du treillis correspond un point caractéristique et contient un jeu de

coefficients complexes d’ondelettes de Gabor : le Jet. Les différents Jets sont calculés en

convoluant l’image autour des points caractéristiques avec plusieurs ondelettes de Gabor

paramétrées. Un Jet peut être écrit comme un ensemble de coefficients complexes


38

exp( )i j jJ a iφ= avec une amplitude ja qui varie peu avec la position, et une phase jφ , dont

la variation en rotation est plus importante. La représentation obtenue est appelée “Face

Bunch Graph” (FBG) (Figure 17).

Figure 17. Une représentation virtuelle d’un Face Bunch Graph

Calcul de similarité de deux images

Une fois la structure du FBG trouvée, l’algorithme va effectuer un calcul de similarité

entre une image de la base d’apprentissage et une image test. Pour cela, les points

caractéristiques de l’image test sont trouvés, le treillis est mis en place et les nouveaux Jets

calculés. Précisons une dernière fois que l’on associe au treillis non seulement la localisation

des points caractéristiques mais aussi les différents Jets. La similarité des deux images est


39

alors une fonction de la correspondance des treillis. La reconnaissance finale se fait en

maximisant cette fonction (Morizet, 2006).

Conclusion

L’algorithme EBGM est un des algorithmes locaux. Il ne traite pas directement les

valeurs de niveaux de gris des pixels d’une image de visage ce qui lui confère une plus grande

robustesse aux changements d’éclairement, de pose et d’expression faciale. Cependant il est

plus difficile d’implémenter que les méthodes globales ACP et ADL précédemment exposées,

et le temps de preprocessing s’en retrouve augmenté. Enfin, une partie de son originalité

provient du fait que l’EBGM utilise des ondelettes entièrement paramétrables pour générer

des coefficients complexes qui vont être utilisés lors de la phase de reconnaissance.

3.3. Les "HMM (Hidden Markov Models)"

Les modèles de Markov cachés (HMM) sont utilisés depuis plusieurs années pour la

détection et la reconnaissance du visage (Nefian, 1999). Différentes variantes ont été

également proposées, mais celle des "Embedded HMM" génère des résultats supérieurs aux

méthodes HMM de base (Nefian, 2002).

Les Embedded HMM sont caractérisés par l’utilisation d’un HMM 1D de base,

modélisant l’apparence du visage de haut en bas. Ensuite, chacun des états de ce modèle

général contient un autre HMM 1D, dénommé embedded (ayant pour sens incorporé). Ceux-

ci modélisent cette fois l’apparence du visage de la gauche vers la droite.

S'appuyant sur certains coefficients de la transformée en cosinus discrète (DCT) comme

source d’observations, les Embedded HMM constituent un algorithme de reconnaissance très

performant. Or, les temps d’exécution des phases d’apprentissage et de test sont relativement

élevés et nuisent à leur utilisation en temps réel sur d’immenses bases d’images.

Apprentissage

La phase d’apprentissage des HMM consiste essentiellement à la conception d’un

modèle pour chacun des individus de la base. Ce processus itératif peut être cependant très

long à réaliser.

Les différentes étapes de l’apprentissage sont plus précisément :

1. Segmentation initiale uniforme des images de l’individu. Celles-ci sont divisées en C

rangées (états primaires) composées de Nc régions (états incorporés ou secondaires).


40

2. Etape itérative :

(a) Une segmentation doublement incorporée est utilisée afin de raffiner la séparation

des différentes régions.

(b) Les paramètres du modèle sont estimés à l’aide d’une extension en 2D de

l’algorithme k-means segmentaire (Nefian, 1999).

3. L’apprentissage se termine lorsqu’un seuil appliqué à la segmentation est atteint.

Reconnaissance

Afin d’identifier un individu à l’aide des HMM, tous les modèles sont utilisés et celui

qui possède le maximum de vraisemblance est retenu comme étant celui représentant la

personne à reconnaitre.

Ajout d’une personne

Contrairement aux méthodes EigenFaces et EignenObjects, les HMM ne requièrent pas

l’utilisation simultanée de toutes les images des individus pour réaliser l’apprentissage.

L’ajout d’une personne peut donc être réalisé facilement sans avoir à fusionner des données

ou reprendre l’apprentissage au complet. Pour ce faire, le modèle représentant l’individu est

généré et simplement ajouté à la liste existante.

3.4. Les mesures et les "ratios"

Lorsque la localisation des différentes parties du visage est complétée, certaines

mesures en pixels peuvent être prélevées à des fins de reconnaissance (Brunelli, 1993)

(Brunelli, 1992). Ces différentes valeurs peuvent être regroupées en deux catégories

importantes, soient les dimensions des parties du visage et leurs distances relatives. Les

mesures prélevées peuvent par exemple être les particularités suivantes :

Dimensions de la tête, du nez, de la bouche, etc.

épaisseurs des sourcils, de la bouche, etc.

Forme du menton (représentée par des distances relatives au centre de la bouche).

Positions relatives du nez, des sourcils, de la bouche, etc.

Afin que cette technique soit efficace, l’image doit être préalablement normalisée sans

altérer son ratio original.

De même, la pose du visage doit être semblable à celle observée lors de l’apprentissage.


41

Cette limitation étant difficilement respectée en pratique, l’utilisation de cette approche

ne peut être efficace que dans un environnement contrôlé (à titre d'exemple une personne

devant se présenter à une station d’identification).

Figure 18. Quelques distances utilisées pour la reconnaissance de visages

3.5. Les Couleurs

L'une des caractéristiques les plus discriminantes entre les personnes repose sur la

couleur. En effet, on peut identifier rapidement une personne de notre entourage selon la

couleur de ses cheveux. Il est donc possible d’intégrer plusieurs mesures de couleurs pour la

reconnaissance, notamment pour les yeux, les cheveux et la peau (Marcel, 2002).

Par ailleurs, les mesures dépendent énormément de l’éclairage et sont assez bien

contournables (c'est-à-dire verres de contact, bronzage, perruque, etc.) par un imposteur. Cette

méthode devrait être en principe utilisée conjointement avec d’autres techniques pour

améliorer sa robustesse.

Pour terminer, notons que les caméras utilisées lors des acquisitions influencent le

niveau de performance de cette méthode. Certes, des couleurs différentes peuvent être

obtenues avec une même caméra, dépendant des paramètres sélectionnés. Cette conclusion

s’applique aussi à des caméras de marques différentes.


42

4. La Combinaison de classifieurs

Plusieurs techniques peuvent parfois s’appliquer afin de résoudre un problème de

reconnaissance des formes. Chacune d’entre elles présente des points forts et d'autres faibles

qui, dans la majorité des cas, dépendent de certaines situations (particulièrement la pose,

l'éclairage, les expressions faciales, etc.).

Il est en outre possible d’utiliser une combinaison de classifieurs basés sur des

techniques variées dans le but d’unir les forces de chacun et ainsi de pallier à leurs faiblesses.

Cette approche n’est cependant ni triviale, ni miraculeuse et certaines erreurs de

classification peuvent parfois survenir même lorsque l’un des classifieurs est correct.

Trois problématiques importantes surgissent en somme au moment de l’implantation :

1. Gestion logicielle de création, d’apprentissage et de communication efficace

des différents modules de reconnaissance ;

2. Utilisation d’une base de données unique pour la représentation des objets à

reconnaître ;

3. Configuration du système multi-classifeurs et fusion des résultats.

5. Conclusion et approche retenue

Plusieurs algorithmes de reconnaissance ont été présentés tout au long de ce chapitre.

Parmi eux, ceux qui sont basés sur des analyses globales de visages et d’autres basés sur des

méthodes d’analyse locales. Malgré le degré de performance satisfaisant atteint par les différents algorithmes de

reconnaissance de visage, des conditions spécifiques sont plus favorables à certaines

méthodes, et vice versa. De ce fait, et tout en tenant compte des trois contraintes présentées

dans le paragraphe précédent, l’utilisation d’un multi-classifieur (MC) alliant les forces de

deux ou plusieurs techniques semble être une solution particulièrement intéressante.

Dans ce même ordre de pensée, un classifieur hybride composé d’un engin neuronal et

d’ondelettes peut constituer un système de reconnaissance avec des performances fort

intéressantes. D’une part, les réseaux de neurones sont caractérisés par leur capacité

d’approximation, ce qui facilitera l’apprentissage des visages des personnes à reconnaitre,

d’autre part, ils sont connus par leur propriété de classification démontrée dans plusieurs


43

domaines d’applications. Les ondelettes sont aussi des excellentes approximateurs et

analyseurs de signaux. Leur terrain d’analyse temps-fréquence les laissent toujours un outil

performant et innovant. De plus, leurs résultats remarquables dans le domaine de

reconnaissance de visages (exemple l’ondelette de Gabor avec la méthode de EBGM)

favorisent leur intégration dans un tel système hybride.

Pour unifier les deux approches, nous avons choisi d’étudier dans ce mémoire les

réseaux d’ondelettes (des réseaux de neurones avec des ondelettes comme fonctions noyau) et

les possibilités qu’ils offrent pour concevoir des techniques de reconnaissance automatique de

visages. Les ondelettes choisies à être intégrés dans les réseaux d’ondelettes seront les

ondelettes Bêta qui ont l’avantage, par rapport aux autres ondelettes, d’être paramétrables, ce

qui génère un ensemble infini d’ondelettes et en conséquence un champ de choix multiple. De

plus, ces ondelettes ont prouvé leurs performances dans plusieurs domaines telles que la

compression, la cryptographie et la débruitage d’images. Tester les performances de ces

ondelettes dans le domaine de la reconnaissance biométrique telle que la reconnaissance de

visages reste un espace de recherches à explorer.

CHAPITRE II

Les Ondelettes et les réseaux d’ondelettes


45

1. Introduction

Depuis quelques années, un ensemble de travaux aussi bien théoriques que pratiques se

sont développés sur une famille de fonctions appelées ondelettes. Ces recherches ont eu un

regain d’intérêt d’une part parce qu’elles proposent des algorithmes plus efficaces pour des

problèmes pratiques pour lesquels les techniques classiques avaient montré leurs limites et

d’autre part parce qu’elles apportent un formalisme mathématique attrayant dans la

reformulation de plusieurs problèmes dans différents domaines scientifiques. Cette

reformulation entraîne de nouvelles approches, de solutions et d'interprétations bien au-delà

de ce qui avait été obtenu jusqu’alors.

Dans ce qui suivra, dans une première partie, nous présenterons l’historique des

ondelettes, nous introduirons les limites des techniques classiques d’analyse des signaux puis

nous détaillerons cette nouvelle théorie et ses avantages. Dans la seconde partie, nous

présenterons les réseaux de neurones et leurs relations avec les ondelettes.

Le mariage entre ces deux théories a donné naissance aux réseaux d’ondelettes.

Différentes architectures et applications de ces réseaux seront présentées dans ce chapitre.

2. Les ondelettes

2.1. Historique

Un fait remarquable dans ce développement est la multiplicité des disciplines qui sont

concernées et dont les techniques propres ont contribué à élargir le champ d’investigation. Par

exemple, en traitement du signal où la première application (analyse des signaux sismiques)

est apparue, la transformation de Fourier, malgré sa version FFT (Fast Fourier Transform),

voit sa prépondérance discutée par la nouvelle transformation qui possède déjà un algorithme

rapide (Mallat, 1989) (Mallat, 1999) (Daubechies, 1992). La transformation en ondelettes

permet une représentation temps-fréquence meilleure que celle induite par la transformation

de Gabor où la fenêtre de la plage temporelle d’observation est fixe (Daubechies, 1992). La

possibilité du contrôle des variables temps et fréquence permet à la transformée en ondelettes

de conforter l’utilité de ce nouvel espace de représentation. Dans cet espace, le principe

d’incertitude d’Heiseinberg sur la limite numérique de la localisation de la position et de la


46

fréquence d’une particule s'est amélioré (Daubechies, 1990). Les méthodes temps-fréquence

ou temps-échelle qui tentent de pallier aux insuffisances de l’espace de Fourier sont

complétées par cette nouvelle approche.

L’ensemble de ces développements a conduit, comme le remarque Y. Meyer (Meyer,

1990) (Bernard, 2003), a une théorie cohérente permettant de réunir dans une synthèse

harmonieuse les algorithmes pyramidaux de Burt et Adelson, de S. Mallat en traitement

numérique des images, les filtres miroirs en quadrature utilisés en codage, l’analyse et la

caractérisation de quelques espaces fonctionnels classiques etc…

D’un point de vue formel, les développements sur les ondelettes visent à trouver des

bases hilbertiennes et en particulier celles de L2( ) pour la modélisation des applications ou,

en général, des bases des espaces de Sobolev, de Banach ainsi que ceux qui en découlent pour

l’étude des opérateurs qui y sont définis.

Pour la construction de ces bases d’ondelettes plusieurs approches ont été développées :

l’approche théorie des groupes où l’on montre qu’une ondelette est un vecteur admissible

d’une représentation de carré intégrable d’un groupe localement compact.

La transformée en ondelettes est obtenue en considérant le groupe affine alors que le

groupe de WeilHeiseinberg conduit à la transformée de Gabor sur la droite réelle.

Une approche plus fonctionnelle vient de l’analyse graduée ou analyse multirésolution,

dans laquelle les bases d’ondelettes sont caractérisées en recherchant les bases des espaces

complémentaires de la suite d’espaces vectoriels de multirésolution. Cette approche est à la

base de l’algorithme de S. Mallat (Mallat, 1999) en traitement du signal et de l'image. Notons

au passage que Mallat a donné une interprétation remarquable à la multirésolution concernant

la théorie du signal.

Daubechies a construit des bases d’ondelettes à support compact en partant d’éléments

discrets qui sont les coefficients d’un filtre en quadrature (Bernard, 2003), Cette construction

a relancé les recherches en théorie de bancs de filtres et a permis une meilleure

compréhension et une reformulation mathématique plus rigoureuse. La construction de

Daubechies a marqué une étape très importante dans les investigations sur les bases

d’ondelettes. Les bases orthonormales d’ondelettes à support compact qu’elle a construites

sont préférées à celles obtenues par Lemarie et Battle pour certaines applications numériques

telles que l’analyse et la synthèse des signaux en codage, en analyse numérique etc… La

notion de base est généralisée à celle de repère ou frame dans un espace hilbertien


47

(Daubechies, 1992) (Lemire, 2006). Le lien est fait entre un repère et les états cohérents de la

physique. Cohen et al. construisent en partant de l’approche de Daubechies des repères duaux

qui fournissent des bases biorthogonales (Bernard, 2003).

2.2. L’analyse de Fourier

Analyser un signal à partir de son graphe uniquement est loin de permettre d’accéder à

toutes les informations qu’il contient. Il est souvent nécessaire de le transformer, c’est-à-dire

d’en donner une autre représentation, qui fasse apparaître plus clairement telle ou telle de ses

caractéristiques. Le baron Jean Baptiste Joseph Fourier suggéra que toutes les fonctions

devaient pouvoir s’exprimer de façon simple comme somme de sinusoïdes. Dans " la théorie

analytique de la chaleur ", Fourier obtient les équations aux dérivées partielles décrivant les

transferts de chaleur, et les résolut en les développant en somme infinie de fonctions

trigonométriques.

L’analyse de Fourier décompose les fonctions comme sommes de fonctions

élémentaires. En l’occurrence, il s’agit de fonctions périodiques, comme des fonctions sinus

et cosinus. Etant donné une fonction f(t), supposée périodique pour simplifier, c’est-à-dire tel

que f(t+T) = f(t), on écrit :

0 1 1 2 11 2 2 4 2( ) cos sin cos sin ...2

t t t tf t a a b a bT T T Tπ π π π

= + + + + + (22)

La somme ci-dessus est à priori infinie : elle comporte une infinité de termes. Les

nombres a0, a1, b1, … donnent le poids de chacune des sinusoïdes dans f(t), et sont appelés les

coefficients de Fourier de f(t). Ils se calculent en comparant f(t) avec chacune des fonctions :

2 t 2 tcos , sin ,...T Tπ π (23)


48

Par l’expression suivante :

1

( ) cos(2 / )ka f t k t T dtT

π= ∫ (24)

1 ( )sin(2 / )kb f t k t T dtT

π= ∫ (25)

Pour les phénomènes non périodiques, il est nécessaire d’avoir recours à une intégrale

de Fourier (c’est-à-dire à une somme continue). Cette méthode consiste à représenter le signal

par une superposition d’ondes sinusoïdales de toutes les fréquences possibles. Les amplitudes

associées à ces fréquences représentent, comme pour les séries de Fourier, les importances

respectives des diverses ondes sinusoïdales. Ces amplitudes forment alors une fonction de la

fréquence appelée "spectre continu des fréquences du signal" : c’est la transformée de Fourier

du signal. Elle est calculée à l’aide de l’intégrale de Fourier :

( ) ( ) 2i ftF f f t e dtπ+∞

−

−∞

= ∫ (26)

La transformée inverse permet de reconstruire le signal à partir des sinusoïdes qui le

constituent :

( ) ( ) 2i ftf t F f e dfπ+∞

−∞

= ∫ (27)

Pour que la transformée de Fourier existe, il faut au moins, que le signal soit de carré

sommable c’est-à-dire d’énergie finie. Pour les signaux réels, cette condition est toujours

remplie puisque la mesure est faite sur un temps fini.

2.3. Inconvénients de l’analyse de Fourier

En dépit de son immense succès, la technique de l’analyse de Fourier présente quelques

limites (Mallat, 1999) (Daubechies, 1992) (Lemire, 2006).


49

- En vertu du principe d'incertitude, un signal ne peut être finement localisé à la fois

dans le domaine fréquentiel et dans le domaine temporel. Par exemple, plus un signal est

localisé dans le temps, plus son spectre sera étendu. Le cas extrême d'une telle situation est

fourni par l'impulsion de Dirac à l'origine, dont le spectre est la fonction unité constante;

- Le calcul exact de la fonction F s’étend sur une échelle temporelle infinie. Il exige

donc de connaître toutes les valeurs de la fonction f passées et à venir. Ceci n'est, bien

entendu, pas physiquement réalisable pour des signaux observés dans la pratique;

- Dans l'analyse de Fourier, le spectre F fait disparaître toute l'information du domaine

temporel : le début et la fin du signal ne sont plus localisables;

- La fréquence associée à un signal est inversement proportionnelle à sa période. Donc,

si l'on veut obtenir des informations sur un signal basse-fréquence, l'intervalle sur lequel on

doit l'observer devra être grand. Inversement, un signal haute fréquence peut être observé sur

un intervalle de temps court. Il serait en conséquence intéressant de disposer d'une méthode

d'analyse qui puisse prendre en compte la fréquence du signal à analyser.

Ces considérations amènent à envisager des méthodes d’analyse s’appuyant sur une

représentation temps-fréquence.

Un prototype d’analyse par ondelettes avait été proposé au milieu des années 1940 par

le physicien D. Gabor qui suggérait de rendre locale l’analyse de Fourier, en s’aidant de

fenêtres. Une fenêtre est une fonction régulière, lentement variable, et bien localisée (ce qui

signifie qu’elle est nulle en dehors d’une certaine zone de son support). En multipliant la

fonction étudiée par une fenêtre, on obtient une version "locale", dont on peut déterminer le

contenu fréquentiel par l’analyse de Fourier classique. On renouvelle alors l’opération en

déplaçant la fenêtre d’analyse. L’ensemble de ces transformées de Fourier ainsi localisées

forme la transformée de Gabor du signal, et fournit en somme une analyse fréquentielle

locale.

L’analyse par ondelettes, proposée initialement par J. Morlet, est plus récente, elle est

basée sur un concept quelque peu différent du concept de fréquence : le concept d’échelle. Au

lieu de considérer des fonctions oscillantes placées à l’intérieur d’une fenêtre, que l’on fait

ensuite coulisser le long d’un signal à analyser (les Gaborettes), les ondelettes sont davantage

des copies les unes des autres, copies presque conformes puisqu’elles sont de forme constante

et ne diffèrent que par leur taille.


50

2.4. Transformée en ondelettes continue

L'analyse par ondelettes a été introduite au début des années 1980, dans un contexte

d'analyse du signal et d'exploration pétrolière. Il s'agissait à l'époque de donner une

représentation des signaux permettant de faire apparaître simultanément des informations

temporelles (localisation dans le temps, durée) et fréquentielles, facilitant par là

l'identification des caractéristiques physiques de la source du signal.

De manière analogue à la théorie des séries de Fourier, les ondelettes sont

principalement utilisées pour la décomposition de fonctions. La décomposition d’une fonction

en ondelettes consiste à l’écrire comme une somme pondérée de fonctions obtenues à partir

d’opérations simples effectuées sur une fonction principale appelée ondelette–mère. Ces

opérations qui consistent en des translations et des dilatations sont choisies de manière

continue ou discrète, on parlera d’une transformée en ondelettes continue ou discrète.

Cette analyse consiste à utiliser une famille de fonctions ψab construite à partir d’une

fonction ψ de L2(IR), à valeurs éventuellement complexes, appelée ondelette mère, ou

ondelette analysante :

,1( ) ( )a b

t btaa

ψ ψ −= (28)

Le paramètre b correspond à un paramètre de translation, le paramètre a à un paramètre

de dilatation. Une transformée en ondelettes est dite continue lorsque les paramètres

structurels des fonctions utilisées (c’est-à-dire les translations et les dilatations) peuvent

prendre n’importe quelle valeur de l’ensemble des réels .

Pour que la transformée en ondelettes d’une fonction existe, il faut que cette fonction

appartienne à l’ensemble des fonctions de carré sommable que l’on note par 2 ( )L .

Autrement dit, il faut que son carré soit fini. Cette condition se traduit par :

2 ( )f x dx < ∞∫ (29)


51

Dans ces conditions, la transformée en ondelette continue de la fonction f est définie

comme le produit scalaire de f et de l’ondelette mère ψ (Meyer, 1990) (Meyer, 1992)

(Daubechies, 1992):

1( , ) ( ) ( )x bW a b f x dxaa

ψ −= ∫ (30)

La reconstruction de la fonction f à partir de sa transformée est possible dans le cas où

l’intégrale suivante serait convergente et différente de zéro:

2( )

C dψ

ψ ωω

ω

+∞

−∞

= ∫ (31)

Où ψ est la transformée de Fourier de ψ. Cette dernière condition est également appelée

critère d’admissibilité pour une ondelette. Dans ce cas, f peut être reconstruite à partir de la

relation suivante (Meyer, 1990) (Meyer, 1992) (Daubechies, 1992):

1 1( ) ( , ) ( )R R

x bf x W a b dadbC aaψ

ψ −= ∫ ∫ (32)

La condition de l’équation est très intéressante dans la mesure où elle donne des

informations sur les propriétés que doit vérifier une ondelette mère (si l’on souhaite que la

reconstruction de la fonction transformée soit possible). En particulier, on doit avoir

(0) 0ψ = . En remplaçant ω par 0 dans la définition de la transformée de Fourier de ψ, on voit

que cette condition est équivalente à :

(x) dx = 0 ψ∫ (33)


52

2.4.1 Exemple de quelques ondelettes

Figure 19. L’ondelette de Haar. Cette ondelette est l’une des premières crées, elle est très facile à programmer et permet une rapide compréhension de la théorie des ondelettes

Figure 20. Ondelette de Morlet, Morlet fut l’un des premiers à travailler sur la théorie des ondelettes.

2

021( )2

xi xx e e ωψ

π

−−= (34)

-1 0

1

1 2

1 pour 0 ≤x < 1/2 -1 pour 1/2 ≤ x < 1 0 Sinon

)(xψ =


53

Figure 21. Cette ondelette est appelée le chapeau mexicain en raison de sa forme très caractéristique.

21

24 22( ) (1 )3

x

x x eψ π− −

= − (35)

2.4.2 Propriétés nécessaires d’une ondelette mère

Les propriétés les plus importantes d’une ondelette sont (Daubechies, 1992) (Ben Amar,

2005):

• L’admissibilité

Soit une fonction ψ appartenant à L2(IR) et TF(ψ) sa transformée de Fourier. Ψ doit

satisfaire la condition d’admissibilité pour quelle soit une ondelette:

2( ( ))TF

dψ ω

ωω

+∞

−∞

< +∞∫ (36)

• La localisation

L’ondelette est une fonction ψ (x) de L2(IR) ayant la propriété de localisation si elle est

à décroissance rapide sur les deux bords de son domaine de définition.


54

La localisation signifie que l’énergie d’une ondelette est contenue dans un intervalle

fini. Idéalement, l’ondelette est une fonction nulle en dehors d’un intervalle fini. Autrement

dit c’est une fonction à support compact.

• L’oscillation

Une ondelette est une fonction ψ (x), intégrable et suffisamment oscillante pour être

d’intégrale nulle :

( ) 0 ( ( )) 0t dt TF tψ ψ= ⇔ =∫ (37)

Donc ψ (x) doit avoir un caractère ondulatoire, qui change de signe au moins une fois.

• La translation et la dilatation

L’analyse par ondelettes associe une famille de copies d’elles même, translatées et

dilatées :

,1( ) ( ) , , 0a b

t bt avec a b R aaa

ψ ψ −= ∈ > (38)

2.4.3 Les propriétés souhaitables pour la construction d’une ondelette

On présente ici des propriétés additionnelles souhaitables pour la construction d’une

ondelette (Daubechies, 1992):

• Orthogonalité

Si les ondelettes sont orthogonales, la transformée est parfaite et la décomposition

numérique est stable. Si l’analyse multi-résolution est orthogonale (cela inclut également les

ondelettes biorthogonales), la décomposition est non redondante et la reconstitution est

parfaite.

• Support compact

Pour une analyse Multirésolution avec les ondelettes, une fonction d’échelle φ est

toujours associée à l’ondelette mère ψ. Si ces fonctions sont à support compact, leurs filtres

associés sont à réponses impulsionnelles finies, ce qui est requis dans les implémentations. Si


55

elles ne sont pas à support compact, une décroissance rapide est souhaitable de sorte que les

filtres puissent être raisonnablement approchés par des filtres à réponse impulsionnelle finie.

• Coefficients rationnels

Pour une implémentation informatique, on souhaite que les coefficients des filtres

soient rationnels ou mieux dyadiques. En effet, diviser par une puissance de 2 sur un

ordinateur correspond à un simple décalage de bits (donc très rapide).

• Symétrie

Si la fonction d’échelle et l’ondelette sont (anti-) symétriques, alors les filtres sont à

phase linéaire. Si l’on n’a pas cette propriété, cela entraîne une distorsion de phase lors de la

reconstruction.

• Régularité

La régularité d’une ondelette est importante pour des applications de compression. La

compression est souvent réalisée en mettant des coefficients à zéro. Ce qui revient au rejet des

composantes de la fonction originale. Si celle-ci est une image et que l'ondelette n’est pas

assez régulière, l’erreur de reconstruction peut facilement être détectée par l’œil humain. De

surcroît, plus de régularité implique une meilleure localisation fréquentielle des filtres.

• Nombre de moments nuls

Le nombre de moments nuls caractérise la régularité de l’ondelette.

• Expression analytique

Généralement, on ne dispose pas de l’expression analytique de φ ou ψ. Dans certains

cas, elle est disponible et c’est très utile surtout en analyse par ondelette continue.

Il est presque impossible d’avoir toutes ces propriétés avec la même ondelette; d'où le

choix et le compromis reste l’affaire de l’utilisateur, de l’algorithme d’analyse et de

l’exigence de l’application. Alors, on peut favoriser la propriété de la régularité pour la

compression d’images, les coefficients rationnels pour des applications temps réel ou la

symétrie pour des analyses avec banc de filtres d’ondelettes.

2.4.4 Conclusion

Dans cette section, on a évoqué la théorie des ondelettes et sa situation par rapport aux

autres théories d’analyse fonctionnelle. On a présenté la transformée de Fourier et celle de

Gabor puis la transformée en ondelettes d’une fonction quelconque et la méthode de sa


56

reconstitution. Cette transformée qui sera exploitée dans notre approche d’apprentissage des

réseaux d’ondelettes sera introduite en détails dans le chapitre suivant.

D’autres méthodes d’analyse par ondelette telle que l’analyse par Banc de filtres

d’ondelettes ou les paquets d’ondelettes n’ont pas été traitées dans cette section vue qu’elles

ne touchent pas l’approche optée pour la reconnaissance de visages.

La section suivante sera consacrée à un rappel sur les réseaux de neurones et aux

architectures neuronales auxquelles les ondelettes peuvent s'ajouter pour construire les

réseaux d’ondelettes.

3. Les réseaux de neurones

3.1. Introduction

Bien que les ordinateurs soient aujourd’hui capables de résoudre de nombreux

problèmes, il reste encore des domaines où les humains le sont plus que ces machines : la

plupart des ordinateurs sont encore incapables de reconnaître quelqu’un ou de mener une

discussion jusqu'au bout, ce qu’un humain même enfant le fait naturellement. Egalement, peu

d’ordinateurs savent raisonner comme l’Homme. Le but de l’intelligence artificielle est de se

rapprocher de l’intelligence humaine, afin de construire des machines plus puissantes et plus

performantes.

Pour pouvoir recréer artificiellement un cerveau humain et reproduire son

fonctionnement, il a fallu recourir aux neurobiologistes qui ont aidé à bien le comprendre.

Avant de passer à l'analyse approfondie des réseaux de neurones, nous donnerons un

aperçu historique sur leur origine. Le reste de cette section s’articule en deux parties, la

première traitera le fondement biologique des réseaux de neurones, et par analogie aux

réseaux de neurones biologiques. La deuxième partie portera sur les réseaux de neurones

artificiels.

3.2. Historique – Généralités

Les réseaux de neurones artificiels sont nés il y a une cinquantaine d’années, grâce aux

efforts combinés de scientifiques issus d’horizons divers et aux motivations variées. Leur


57

histoire est jalonnée d’un bon nombre de publications clés, livres ou articles mettant l'accent

essentiellement sur les étapes décisives de leur développement.

Tout a commencé en 1943, lorsque deux biophysiciens de l’université de Chicago

McCulloch et Pitts, s’inspirant de découvertes récentes en neurobiologie, conçurent le premier

modèle de neurone biologique, baptisé neurone formel ou automate à seuil. Un peu plus tard,

un neurophysiologiste nommé, Donald Hebb, proposa en 1949 une formulation du mécanisme

d’apprentissage, sous la forme d’une règle de modification des connexions synaptiques qui

porte encore son nom. Finalement, ce fut en 1958 que Rosenblatt, combinant les idées de ses

prédécesseurs, conçout le Perceptron, un réseau de neurones artificiels inspiré du système

visuel, possédant une couche de neurones perceptive et une couche de neurones décisionnelle.

Ce réseau, qui parvient à identifier des formes simples et à calculer certaines fonctions

logiques, constitue un système artificiel exhibant la capacité d’apprendre par le biais de

l’expérience, est le premier réseau artificiel proprement dit.

Les travaux de Rosenblatt ont suscité au début des années 60 un vif enthousiasme chez

les scientifiques fortement impliqués dans la recherche sur l’intelligence artificielle. Cet

enthousiasme s'est trouvé brusquement refroidie vers 1969 lorsque deux scientifiques

américains de renom, Minsky et Papert, publièrent un livre qui, au terme d’une analyse

mathématique approfondie mit à jour les limites intrinsèques du perceptron , en particulier son

incapacité à résoudre les problèmes non linéairement séparables, tel que le célèbre problème

du XOR. Ces conclusions plongèrent alors la recherche sur les réseaux de neurones artificiels

dans une disgrâce qui ne prit fin que 15 ans plus tard.

Ce qu’ont démontré Minsky et Papert c’est qu’un réseau de neurones de type

perceptron, c’est-à-dire ne possédant qu’une couche de neurones (la couche de neurones

d’entrée, "perceptifs") en plus de la couche de sortie, est incapable de résoudre un ensemble

de problèmes simples (les problèmes non linéairement séparables). Certes, l’utilisation de

couches intermédiaires, "cachées", neurones, permettrait de contourner cette limitation, à

condition de disposer d’un mécanisme d’apprentissage approprié pour ces neurones

additionnels. Cependant c’est précisément ce mécanisme qui à l’époque fit cruellement

défaut. Ce qui a poussé deux savants américains à affirmer qu’un réseau de type perceptron ne

sera jamais capable de faire quoi que ce soit d’intéressant.

Il a fallu attendre le début des années 80 pour voir un regain d’intérêt pour les réseaux

de neurones artificiels. Cela s’explique par les résultats des travaux de Hopfield qui a


58

démontré, en 1982, l’utilité des réseaux complètement connectés (les réseaux récurrents, avec

"feed-back", qui constituaient la deuxième grande classe de réseaux avec les réseaux de type

perceptron, aussi qualifiés de "feed-forward") dans la compréhension et la modélisation des

processus de la mémoire et a rendu manifeste la relation existante, sur le plan formel, entre ce

type de réseaux et des systèmes physiques pour lesquels la physique statistique fournit un

cadre théorique parfaitement approprié. Parallèlement aux travaux de Hopfield, Werbos a

conçu un mécanisme d’apprentissage pour les réseaux multicouches de type perceptron : c’est

l’algorithme d’apprentissage par "Back-propagation" (rétropropagation de l’erreur) qui

fournissait un moyen simple d’entraîner les neurones des couches cachées. Cet algorithme

sera réellement popularisé en 1986 par Rumelhart et Al dans un article de Nature et un livre

intitulé "Parallel Distributed Processing" qui a longtemps constitué la "bible" des

connexionnistes.

Cet algorithme, a eu un impact considérable : disposant d’un moyen simple d’entraîner

les neurones cachés, les réseaux de type perceptron munis d’une ou plusieurs couches

cachées, appelés MLP pour Muti-Layer Perceptron qui, contrairement à leur célèbre ancêtre,

ne souffrent d’aucune limitation théorique, ont pu être employés avec succès grandissant pour

résoudre toute une panoplie de problèmes complexes rencontrés dans de nombreux domaines

à la fois scientifiques et techniques.

Depuis la fin des années 80, l’intérêt pour les réseaux de neurones artificiels ne s’est pas

démenti, dans tous les milieux et sur tous les fronts. Du côté théorique, on a pu démontrer

rigoureusement un résultat de grande importance affirmant que les réseaux MLP possédant

seulement deux couches cachées sont capables d’approximer avec une précision arbitraire

n’importe quelle fonction, c’est-à-dire de résoudre de façon optimale n’importe quel problème

pouvant se ramener à un mapping d’un vecteur d’entrée vers un vecteur de sortie (Ben

mansour, 2002) (Chtoutou, 2003).

3.3. Fondements biologiques des neurones

Le fonctionnement des cellules nerveuses est l’idée de base de la mise en œuvre des

réseaux neuromimétiques. C’est pourquoi une étude biologique s'avère nécessaire afin de

comprendre l’analogie.

Les cellules nerveuses, appelées neurones, sont les éléments de base du système

nerveux central qui en possède environ entre cent et mille milliards.


59

Au niveau de l’organisation générale, les neurones ne diffèrent pas trop des autres

cellules. Par contre, la grande différence réside dans leurs fonctions propres et spécialisées

qu’ils assurent :

Recevoir des signaux provenant de neurones voisins

Intégrer ces signaux

Engendrer un influx nerveux

Le transmettre à un autre neurone capable de le recevoir

3.3.1 Structure du neurone

Un neurone est composé de trois parties :

Le corps cellulaire

Les dendrites

L’axone

Le neurone, comme toute cellule, est composé d’un corps (ou soma) qui contient son

noyau où se déroulent les activités propres à sa vie cellulaire.

Cependant, il est généralement doté d’un axone et de dendrites, structures spécialisées

dans la communication avec les autres neurones.

Figure 22: Structure d’un neurone.


60

3.3.2 Le corps cellulaire (ou soma)

Il fait quelques micromètres de diamètres. Il contient le noyau du neurone et effectue les

transformations biochimiques nécessaires à la synthèse des enzymes et des autres molécules

qui assurent la vie du neurone.

3.3.3 Les dendrites

A chaque neurone correspond une arborisation dendritique, formée à partir de dendrites

primaires qui quittent le corps cellulaire. Les dendrites sont de fines extensions tubulaires de

quelques dixièmes de micromètres. Ce sont les principaux récepteurs du neurone pour capter

les signaux qui leur parviennent, et les acheminer vers le corps du neurone.

3.3.4 L’axone

L’axone qui présente la fibre nerveuse, sert de moyen de transport pour les signaux émis

par le neurone. Il se distingue des dendrites par sa forme et par les propriétés de sa membrane

externe. En effet, il est généralement plus long (sa longueur varie d’un millimètre à plus d’un

mètre) que les dendrites qui se ramifient à son extrémité, là où il communique avec d’autres

neurones. Alors que les ramifications des dendrites se produisent plutôt près du corps

cellulaire.

Pour former le système nerveux, les neurones sont connectés les uns aux autres suivant

des répartitions spatiales complexes. Les connexions entre deux neurones se font en des

endroits appelés synapses où ils sont séparés par un petit espace synaptique de l’ordre d’un

centième de microns.

3.3.5 Fonctionnement des neurones

Les fonctions spécifiques réalisées par un neurone dépendent essentiellement des

propriétés de sa membrane externe (la différence de potentiel entre le milieu intérieur de la

cellule et le milieu extérieur est de –60mV). Lorsque le neurone est excité, un potentiel

électrique, appelé potentiel d’action naît dans le corps cellulaire de neurones et se propage le

long de l’axone. Une fois arrivé à l’extrémité axonique, le potentiel d’action déclenche la

libération d’un médiateur chimique, appelé neurotransmetteur, au niveau de la synapse. La

synapse est un lieu d’interaction fort complexe où le signal électrique de l’impulsion nerveuse

est converti en un signal biochimique.


61

Le courant synaptique se propage le long des dendrites jusqu’au corps cellulaire du

neurone cible. A ce niveau, le corps cellulaire traite l’ensemble des courants synaptiques qui

parviennent jusqu’à lui, en effectuant une somme algébrique des courants synaptiques

excitateurs et inhibiteurs. Si le potentiel résultant dépasse un seuil critique d’excitation du

neurone (-10mV), alors le neurone est excité et déclenché à son tour un potentiel d’action qui

se propage le long de son axone. Dans le cas contraire, le neurone est inactif.

Le schéma classique représenté par les biologistes est celui d’un soma effectuant une

sommation des influx nerveux transmis par des dendrites. Si la sommation dépasse un seuil, le

neurone répond par un influx nerveux avec potentiel d’action qui se propage le long de son

axone. Si la sommation est inférieure à ce seuil, le neurone restera inactif. Le schéma faisant

apparaître le principe d’un traitement cellulaire est donné par la (Figure 23).

Figure 23. Schéma de principe d’un traitement cellulaire

3.4. Réseaux de neurones artificiels

Depuis quelques années, les réseaux de neurones formels bénéficient d’une large

attention de la part de la communauté scientifique, et le nombre d’études à leur sujet ne cesse

de croître. Les motivations pour modéliser les neurones et les réseaux de neurones vivants

sont doubles. Un premier aspect concerne l’étude et la compréhension du système nerveux.

Le second a pour objectif de pouvoir utiliser certaines caractéristiques de ce dernier pour

essayer de rendre les machines plus performantes dans des domaines où jusque là elles ont

fait preuve d'inéfficacité. La modélisation correspond toujours à une simplification des

phénomènes naturels ou physiques observés. Dans le cas de la modélisation neurale, cette

simplification est considérable. Cependant, l’idée retenue est qu’il est fort possible qu’une

Axone

Corps cellulaire Dendrites


62

simplification, même extrême, puisse permettre d’observer des propriétés émergentes

comparables à celles des systèmes biologiques.

3.4.1 Le neurone formel

La première modélisation d’un neurone date des années quarante. Elle a été réalisée par

MacCulloch et Pitt. S’inspirant de leurs travaux sur les neurones biologiques, ils ont proposé

le modèle suivant :

Un neurone formel fait une sommation pondérée des potentiels d’actions qui lui

parviennent (chacun de ces potentiels est une valeur numérique qui représente l’état du

neurone qui l’a émis), puis s’active suivant la valeur de cette sommation pondérée. Si cette

somme dépasse un certain seuil, le neurone est activé et transmet une réponse (sous forme de

potentiel d’action) dont la valeur est celle de son activation (Ben Abdennour, 2002).

Figure 24. Modèle de McCulloch et Pitts

Si le neurone n’est pas activé, il ne transmettra rien: il s’agit d’un automate booléen.

3.4.2 Structure

Chaque neurone artificiel est un processeur élémentaire. Il reçoit un nombre variable

d’entrées en provenance de neurones amont. A chacune de ces entrées est associé un poids W

(abréviation de weight) représentatif de la force de la connexion. Chaque processeur

élémentaire est doté d’une sortie unique, qui se ramifie ensuite pour alimenter un nombre

variable de neurones avals. A chaque connexion est associé un poids.

θ

Σ f S

Fonction d'activation

Sommateur

W1 W2

Wn

X1 X2

Xn

Entrée Poids Synaptiques


63

Un neurone effectue la somme pondérée de ses entrées, puis il calcule sa sortie par une

transformation non linéaire de cette somme. Les pondérations ou les poids représentent

l’intensité synaptique de la cellule nerveuse. La fonction d’activation fait l’analogie avec le

fonctionnement de la cellule.

Les relations mathématiques qui régissent le fonctionnement d’un neurone artificiel

sont :

1

n

j j jij

e x w=

=∑ (39)

( )i iy f e θ= − (40)

Où :

xi : Signaux d’entrée du neurone i

wji : Poids des entrées

yi : La sortie

ei : Entrée globale

θ : Seuil ou niveau d’activation du neurone

3.4.3 Exemples de réseaux de neurones

Le perceptron multi-couches

Le modèle le plus commun de Réseau de Neurones est le perceptron multicouche

(PMC). Ce type de Réseau de Neurones est plus connu sous le nom de "Réseau surveillé"

parce qu'il exige une sortie désirée afin d'apprendre. Le Réseau de Neurones apprend

comment faire l'association entre un ensemble d'entrées et un ensemble correspondant de

sorties désirées en utilisant la série de données historique. Le but est que le Réseau de

Neurones soit utilisé pour prendre des entrées dans un nouvel ensemble et pour produire une

sortie utile quand la sortie désirée est inconnue.

Une représentation graphique d'un PMC est montrée sur la Figure 25. Les PMC et

beaucoup d'autres Réseaux de Neurones apprennent en utilisant un algorithme appelé

rétropropagation. Avec la rétropropagation, la donnée d'entrée est à plusieurs reprises


64

présentée au Réseau de Neurones. A chaque présentation, la sortie du Réseau de Neurones est

comparée à la sortie désirée et une erreur est calculée. Cette erreur est alors rétroagie

(rétropropagée) au Réseau de Neurones et employée pour ajuster les poids de façon à ce que

l'erreur diminue avec chaque itération et que le modèle neuronal arrive de plus en plus près de

la reproduction de la sortie désirée. Ce processus s'appelle la " formation " (Chtoutou, 2003).

Figure 25. Modèle du PMC

Le réseau RBF

Les réseaux à fonction radiale (RBF), qui possèdent deux couches forment une classe

particulière de réseaux multi-couches. Chaque cellule de la couche cachée utilise une fonction

noyau (kernel function) telle que la Gaussienne en tant que fonction d'activation. Cette

fonction est centrée au point spécifié par le vecteur de poids associé à la cellule. La position et

la ''largeur'' de ces courbes sont apprises à partir des patrons. Il y a, en général, beaucoup

moins de fonctions noyaux dans un réseau RBF que de patrons d'entrée. Chaque cellule de

sortie implémente une combinaison linéaire de ces fonctions, l'idée étant d'approximer une

fonction par un ensemble de fonctions. De ce fait, les cellules cachées fournissent un

ensemble de fonctions qui forment une base représentant les patrons d'entrées dans l'espace

''couvert'' par les cellules cachées.


65

Il existe plusieurs algorithmes d'apprentissage pour les réseaux RBF, le plus classique

met en oeuvre une stratégie d'apprentissage hybride. Il estime la position et la largeur des

fonctions noyaux à l'aide d'un algorithme de classification non supervisé, puis à l'aide d'un

algorithme supervisé basé sur la méthode des moindres carrés, il détermine le poids des

connexions entre la couche cachée et la couche de sortie. Comme les sorties sont linéaires, un

algorithme non itératif peut être utilisé. Une fois cette première approximation effectuée, un

algorithme supervisé de type gradient est utilisé pour affiner les paramètres du réseau.

Cet algorithme hybride utilisé dans le cadre des réseaux RBF converge beaucoup plus

rapidement que la rétro-propagation utilisée dans le cadre des PMC. Cependant, pour de

nombreux problèmes, l'utilisation d'un RBF nécessite beaucoup plus de cellules cachées que

pour un PMC, ce qui conduit à une exécution beaucoup plus lente en phase d'exploitation.

L'efficacité (le ratio erreur/taille du réseau) d'un réseau RBF et d'un PMC est dépendante du

problème traité.

La Figure 26 représente un réseau à base de fonction gaussienne.

La fonction radiale de l’ième domaine réceptif, notée Ri(x), est donnée par l’équation

suivante (Chtourou, 2003):

2( ) exp[ ], 1,...,2

ii

i

x cR x i m

σ−

= − = (41)

Où x et ci sont des vecteurs de dimension n et σi est la variance de iième domaine

réceptif. La sortie est une combinaison linéaire des sorties des unités cachées :

1

( )m

i ii

y w R x=

= ∑ (42)


66

Figure 26 : Un réseau à base de fonction radiale

3.5. Conclusion

Dans cette section, nous avons commencé par établir un aperçu historique sur les

réseaux de neurones. Ensuite, nous avons présenté l’analogie entre neurones biologiques et

neurones artificiels. Enfin, nous avons évoqué quelques exemples de réseaux de neurones tels

que le PMC ou le RBF.

Nous parlerons dans la section suivante des réseaux d’ondelettes, nous présenterons

leurs architectures et nous les comparerons aux réseaux de neurones puis ne terminerons par

évoquer leurs différentes applications.

4. Les réseaux d’ondelettes

4.1. Introduction

Les réseaux d’ondelettes (RO) est une combinaison de deux techniques d’analyse de

signaux : La transformée en ondelettes et les réseaux de neurone artificiel. Les RO utilisent

des fonctions ondelettes au lieu de la fonction sigmoïde traditionnelle comme sa fonction de

transfert dans chaque neurone. Deux modèles différents ont été proposés pour différentes

applications (Iyengar, 2002): le premier à été proposé pour des buts généraux telles que la

prédiction quantitative, la classification, et la reconnaissance de formes et le deuxième pour la

compression des signaux.

……

ENTREE SORTIE =

N

∑=

N

jjj sw

1

W1

W2

W3

WN

x1

xn


67

4.2. Architectures des réseaux d’ondelettes

4.2.1 Premier modèle des réseaux d’ondelettes

Dans ce modèle, l'architecture est presque exactement la même qu’un réseau RBF. Le

réseau est considéré comme constitué de trois couches. Une première couche avec Ni entrées,

une couche cachée constituée par Nw ondelettes et un sommateur (ou neurone linéaire) de

sortie recevant les sorties pondérées des ondelettes. Les cellules d’une couche sont connectées

à toutes les cellules de la couche suivante, et à celles-ci uniquement. La propagation des

valeurs se fait dans le sens feed-forward, c’est-à-dire des cellules d’entrées vers les cellules de

sortie. Cette architecture est donc tout à fait comparable aux réseaux de neurones utilisant des

fonctions sigmoïdales. Elle présente également une similitude avec l’architecture des réseaux

RBF mais la fonction de transfert est remplacée par une fonction ondelette ψa,b (t).

L’algorithme d’apprentissage de cette version des réseaux d’ondelettes lui aussi est hérité de

celui des réseaux de neurone RBF. L’algorithme d’apprentissage vise à réduire l’erreur

commise entre l’entrée et la sortie du réseau en corrigeant les paramètres de ce réseau. La

fonction de coût quadratique est utilisée pour mesurer cette erreur. L’apprentissage vise ainsi

à minimiser le coût empirique, donné par la quantité :

( ) ( )( )2

12 1

TE t y ty d

t= −∑

= (43)

Où y(t) est la sortie réelle obtenue par le réseau et yd(t) celle désirée.

L’expression de la sortie du réseau est :

1

( ) ( )N

kk k

k k

t by t wa

ψ=

−=∑ (44)

L’algorithme de descente en gradient est utilisée à chaque itération de cet algorithme,

un exemple est présenté au réseau (paire entrée/sortie), on propage le calcul d’une couche à

une autre jusqu’à la couche de sortie. L’algorithme d’apprentissage consiste à modifier les

paramètres dans la direction opposée au gradient de la fonction d’erreur.


68

Si Vt représente l’un des paramètres à l’itération t parmi w , a, b, ce paramètre est

modifié suivant la formule (Iyengar, 2002):

( )1EtV Vt t V

ε ∂= −+ ∂

(45)

ε(t) est le pas du gradient à l’itération t.

En posant e(t) = yd(t) – y(t), nous avons les formules de dérivation suivantes: (Lekutai, 1997).

( ) ( )1

T

tij

E e t ψ τω =

∂=

∂ ∑ (46)

( ) ( )1

T

ijti i

E e ta a

ψ τω

=

∂∂=

∂ ∂∑ (47)

( ) ( )1

T

ijti i

E e tb b

ψ τω

=

∂∂=

∂ ∂∑ (48)

Avec i

i

abt −

=τ

Enfin, la modification des différents paramètres s’effectue en appliquant les formules

suivantes (Lekutai, 1997) (Zhang, 1992):

( 1) ( ) Et t avecωω ω μ ω ωω∂

+ = + Δ Δ = −∂

(49)

( 1) ( ) aEa t a t a avec aa

μ ∂+ = + Δ Δ = −

∂ (50)

( 1) ( ) bEb t b t b avec bb

μ ∂+ = + Δ Δ = −

∂ (51)

μw, μa, μb sont les pas d’apprentissage des trois paramètres du réseau.


69

Figure 27. Réseau d’ondelettes modèle 1 (RO)

4.2.2 Deuxième modèle des réseaux d’ondelettes

Dans le deuxième modèle, l'entrée est un ensemble de paramètre ti qui décrivent les

positions ordonnées du signal à compresser, donc les entrées ne sont pas des données

proprement dites, mais seulement des valeurs décrivant des positions bien précises du signal à

analyser. La couche cachée contient un ensemble de neurones, dans chaque neurone une

ondelette translatée et dilatée. La couche de sortie contient un seul neurone qui somme les

sorties de la couche cachée pondérées par les poids de connexions iw . L’algorithme de la

décente de gradient est utilisé aussi pour faire l’apprentissage. Ce modèle, introduit pour la

première fois par Zhang et Benveniste (Zhang, 1992) et qui sera présenté en détails dans le

chapitre III, est un cas particulier de l’architecture du premier modèle des réseaux

x1 x2 xn

…..

wik

wkj

…..

y1 ym

∑ ∑

k k

k

t ba

ψ⎛ ⎞−⎜ ⎟⎝ ⎠

2 2

2

t ba

ψ⎛ ⎞−⎜ ⎟⎝ ⎠

1 1

1

t ba

ψ⎛ ⎞−⎜ ⎟⎝ ⎠

1

n

k ik ii

t w x=

=∑

. . . . . . .


70

d’ondelettes. C’est pour cela qu’on va garder l’abréviation RO pour le premier modèle et que

l’on va donner le nom ROZ (Réseau d’ondelettes de Zhang) pour ce modèle.

Figure 28. Réseau d’ondelettes modèle 2 (ROZ)

4.3. Comparaison des réseaux d’ondelettes aux réseaux de neurones

Comme on l’a vu, les réseaux d’ondelettes, présentent une certaine proximité

d’architecture avec les réseaux RBF, la principale ressemblance entre ces deux réseaux réside

au fait que les deux réseaux calculent une combinaison linéaire, à paramètres ajustables, de

fonctions non linéaires dont la forme dépend de paramètres ajustables (dilatations et

translations). A titre de comparaison, la formulation la plus classique de la sortie fournie par

un réseau RBF s’écrit :

ti (i=1,2,…,n)

…..

∑

k k

k

t ba

ψ⎛ ⎞−⎜ ⎟⎝ ⎠

2 2

2

t ba

ψ⎛ ⎞−⎜ ⎟⎝ ⎠

1 1

1

t ba

ψ⎛ ⎞−⎜ ⎟⎝ ⎠

kw 2w 1w


71

1

( ) ( )C

i ii

s x x tω ϕ=

= −∑ (52)

Où ϕ désigne une fonction, et ǁ.ǁ une norme de n . Les vecteurs ti sont appelés les

centres associés aux cellules cachées. La notion de vecteur de translation des réseaux

d’ondelettes est à rapprocher de la notion de centres que l’on retrouve dans les réseaux RBF.

Mais la différence essentielle entre les réseaux d’ondelettes et les réseaux RBF tient à la

nature des fonctions de transfert utilisées par les cellules cachées. On citera ici ces

différences :

Contrairement aux fonctions utilisées dans les réseaux de neurones, les ondelettes

sont des fonctions qui décroissent rapidement, et tendent vers zéro dans toutes les directions

de l’espace. Elles sont donc locales si a est petit.

Contrairement aux fonctions utilisées dans les réseaux de neurones, la forme de

chaque ondelette monodimentionnelle est déterminée par deux paramètres ajustables

(translation et dilatation) qui sont des paramètres structurels de l’ondelette.

Chaque ondelette monodimensionnelle possède deux paramètres structurels, d’où pour

chaque ondelette multidimensionnelle, le nombre de paramètres ajustables est le double du

nombre de variables.

Dans le paragraphe suivant, nous présenterons brièvement les différents travaux

effectués dans le domaine des réseaux d’ondelettes.

4.4. Applications des réseaux d’ondelettes

Le champs d’application de ces réseaux d’ondelettes a motivé beaucoup d’auteurs qui

ont mis en œuvre différentes réalisations comme nous le verrons dans cette section.

Le domaine des réseaux d’ondelettes est nouveau, bien que quelques tentatives aient eu

récemment lieu pour construire une base théorique et plusieurs applications dans des

domaines très variés. L’utilisation des réseaux d’ondelettes a débuté avec l’utilisation des

ondelettes de Gabor dans la classification et la reconnaissance des images.

Un rapprochement entre réseaux de neurones et fonctions ondelettes fut suggéré par

Daugman. Il utilisait une décomposition sur une base de fonctions de Gabor, pour la

compression d’images 2-D. cette compression a été réalisée par une méthode neuronale,


72

permettant de trouver des coefficients minimisant certains critères d’erreur. Le rapprochement

avec les fonctions ondelettes tenait au fait que les fonctions de base de ce réseau de neurones

sont des versions dilatées et translatées de fonctions de Gabor (Baron, 1997).

Les réseaux d’ondelettes sont encore utilisés dans la localisation du trait facial. Cette

technique utilise un réseau d’ondelettes hiérarchiques à deux niveaux basé sur les ondelettes

de Gabor : le premier niveau est utilisé pour égaler le visage afin d’aboutir à une

transformation affine utilisée pour une approximation des emplacements du trait. Le

deuxième niveau permet, pour chaque trait, de régler avec précision les emplacements du

trait. La construction d’une base de données contenant les réseaux d’ondelettes hiérarchiques

de plusieurs visages permet aux traits d’être détectés dans la plupart des visages. Les

expériences montrent que la localisation du trait facial bénéficie considérablement de

l’approche hiérarchique. Les résultats obtenus sont comparables avec d’autres techniques pour

la localisation du trait facial.

Les premiers travaux rapprochant la décomposition en ondelettes et une implémentation

sous forme de réseaux de neurones, sont dûs à Pati et Krishnaprasad. L'ondelette qu'ils

utilisent est construite à partir d'une superposition de fonctions sigmoïdes. Les auteurs

exploitent les résultats de Daubechies : il existe des valeurs des paramètres de dilatation et de

translation, telle que la famille de fonctions générée constitue une structure oblique (frame).

Les valeurs limites possibles pour les bornes A et B de cette structure peuvent être calculées.

Ces valeurs dépendent des paramètres de dilatation a et de translation b. A l'inverse, on peut

se fixer des valeurs pour les bornes A et B, déterminant ainsi la précision de l'approximation

réalisable avec la structure oblique que l'on a définie. En fixant une valeur du paramètre de

dilatation a, on peut aussi déterminer l'intervalle des valeurs de b, de telle façon que la famille

engendrée constitue une frame. L'algorithme de construction de la couche cachée utilise les

propriétés de localisation des fonctions ondelettes, à la fois dans le domaine temporel que

dans celui des fréquences. Ceci permet de sélectionner les fonctions utilisées à l'initialisation

du réseau : ne sont conservées que les fonctions dont la fenêtre temps-fréquence a une

intersection non vide avec la fenêtre temps-fréquence de la fonction à approximer (estimée

par une méthode d'analyse en fréquence). Les coefficients entre les unités cachées et l'unité de

sortie sont alors calculés par une méthode de descente en gradient appliquée à une fonction

d'erreur. Le problème de l'approximation de fonctions vectorielles est abordé, en soulignant le

coût calculatoire important engendré par le changement de dimension. Le modèle proposé


73

reste toutefois proche des modèles multicouches à fonctions sigmoïdes, puisque l'ondelette

utilisée est une superposition de telles fonctions.

Bakshi et Stephanopoulos utilisent des familles d'ondelettes orthonormales pour

construire leur réseau, dénommé WaveNet. Ils s'appuient sur la théorie de l'analyse

multirésolution, en utilisant les résultats de Mallat. L'analyse multirésolution consiste à

étudier les approximations d'un signal à différentes résolutions, fonctions de la fréquence à

laquelle ce signal est échantillonné (la résolution devient plus fine lorsque la fréquence

d'échantillonnage augmente). L'approximation à la résolution m est alors définie comme une

projection sur un espace fonctionnel Vm . Mallat a montré qu'il existe une base orthonormée

pour ces espaces, obtenue par dilatation et translation d'une fonction d'origine, appelée

fonction d'échelle. Un changement de résolution correspond à un changement de la fréquence

d'échantillonnage du signal d'origine: l'intervalle entre deux points d’échantillonnage est une

fonction croissante du niveau de résolution m. Les différentes résolutions peuvent donc se

déduire les unes des autres: l'approximation à la résolution de niveau m est obtenue en ne

retenant qu'une partie de l'information présente dans l'approximation à la résolution m–1.

Bakshi et Stephanopoulos proposent ainsi un algorithme de construction de réseaux de

neurones. Certaines cellules de la couche cachée utilisent comme fonction de transfert des

fonctions d’échelle. Elles fournissent une approximation à une certaine résolution. Des

cellules peuvent alors être ajoutées, utilisant des fonctions ondelettes. Elles permettent de

fournir une approximation du détail du signal : c'est en fait la différence d'information entre

deux approximations par des fonctions d'échelle, à des résolutions différentes.

Une autre approche est proposée par Zhang et Benveniste (Zhang, 1992). Utilisant

la propriété des fonctions ondelettes à générer des frames, les auteurs proposent une

architecture de réseau de neurones dont les cellules de la couche cachée utilisent ces fonctions

ondelettes. L'approche de Zhang et Benveniste se sert peu des techniques classiques de

décomposition en ondelettes. Plus que les réseaux proposés par les autres auteurs, leur travail

applique l'algorithme d'apprentissage à l'ensemble des poids du réseau. Une telle démarche

peut être avantageuse dans deux situations :

Lorsque les données concernant la fonction à approximer sont irrégulièrement espacées.

L'algorithme de décomposition proposé par Mallat, suppose une distribution régulière des

données. Lorsque ce n'est pas le cas, on est amené soit à utiliser des techniques de

reconstruction du signal à partir des données disponibles, soit à réduire le nombre de


74

fonctions de base, en ne retenant que celles dont la zone d'influence contient au moins une

donnée.

Lorsque l'espace d'entrée est de grande dimension, obtenir une densité satisfaisante des

données est rarement réalisé.

Le calcul des poids du réseau par apprentissage, présente l'avantage d'une adaptativité

importante, selon la nature des données à traiter. Les coefficients de dilatation et de

translation ne sont en effet pas déterminés par une sélection avant apprentissage, mais sont

entièrement déterminés par cette phase. Un réseau d'ondelettes du type de celui de Zhang et

Benveniste est utilisé dans le cadre d'une application de traitement du signal vocal. Les

coefficients du réseau sont calculés par un algorithme de descente en gradient conjugué, afin

de minimiser une erreur utilisant une fonction de coût quadratique. Ceci permet de fournir une

bonne approximation pour des signaux représentant des voyelles. Une seconde application est

proposée, concernant cette fois la classification des signaux vocaux. L'architecture du réseau

d'ondelette doit être en conséquence modifiée, en vue de s'adapter à cette tâche de

classification. Il s'agit de distinguer des signaux bruités appartenant à deux classes distinctes.

Bien que ce problème de classification ne semble pas spécialement ardu (le nombre de

cellules cachées, portant les fonctions ondelettes, est de l'ordre de 5), les résultats présentés

montrent une bonne adaptation des paramètres. Ces travaux ont motivé les applications des

réseaux d'ondelettes à des problèmes de classification. Ces derniers résultats plaident en

faveur d'une implémentation de réseaux d'ondelettes dont les coefficients sont obtenus par

apprentissage (Baron, 1997).

5. Conclusion

Ce chapitre nous a permis de présenter la théorie des ondelettes, les réseaux de neurones

puis les réseaux d’ondelettes. Nous avons évoqué les différentes architectures et l’algorithme

de la rétropropagation pour l’apprentissage des RO. Nous avons montré qu’il s’agit d’un type

spécifique de réseau de neurones en le faisant rapprocher aux réseaux de neurones RBF. Enfin

différentes applications de RO ont été présentées. Dans le chapitre suivant, nous proposerons

un nouvel algorithme d’apprentissage des ROZ basé sur la théorie de "frame" remédiant aux

inconvénients

CHAPITRE III Proposition d’un nouvel algorithme

d’apprentissage du ROZ


76

1. Concepts théoriques du deuxième modèle des réseaux d’ondelettes

1.1. Introduction

De point de vue théorique, le modèle de Zhang des réseaux d’ondelettes (ROZ) est issu

de la transformée en ondelette elle-même. Dans cette section, des concepts seront énoncés

telles que la transformée en ondelettes discrète, les frames et les bases orthogonales et

biorthogonales pour introduire les ROZ.

1.2. Les frames et les ROZ

1.2.1 La transformée discrète en ondelettes

Il est connu que la représentation ,a bψ de l'équation (30). est très redondante et que

l’espace continu peut être discrétisé sans perte d'informations (Daubechies, 1992). Dans ce

sens considérons l’ensemble discret *S x⊂ un échantillonnage sur une grille (temps-

fréquence) et par suite ,{ |( , ) }a bB a b Sψ ψ= ∈ définie une famille discrète d’ondelettes.

En utilisant la famille d’ondelettes Bψ , les coefficients d’ondelettes ,( , ) ,a bw a b fψ=< >

pour ( , )a b S∈ sont calculés par l’application de l’équation (30). Dans cette équation, le

double intégral est remplacé par une double somme.

1 1( ) ( , ) ( )t bf t w a bC aaψ

ψ −= ∑∑ (53)

En remplaçant la double somme par une seule somme, la fonction f peut être exprimé

tout simplement par :

( ) i ii

f t wψ=∑ (54)

D’après Daubechies (Daubechies, 1992), cette relation n’est valide que si la famille

d’ondelette obtenue lors de la discrétisation forme une base orthogonale. Pour un cas plus


77

général (cas des bases quelconques), des concepts comme les frames et les frames duales ont

besoin d’être introduites pour pouvoir écrire un signal donné en terme de ces coefficients

d’ondelettes.

1.2.2 Les frames

Soit 2 ( )L Rψ ∈ une ondelette, S un échantillonnage sur une gille, et

,{ |( , ) }a bB a b Sψ ψ= ∈ une famille discrète d’ondelettes, on dit que Bψ forme une "frame

d'ondelettes" s’il existe 0A > et B < ∞ tel que pour tout 2 ( )f L R∈ si :

22 2

,( , )

,a ba b S

A f f B fψ∈

≤ < > ≤∑ (55)

Avec 2 2( )f f x dx∞

−∞

= ∫ (l’énergie de la fonction f) et le couple (A,B) les limites de la

frame.

Quand une famille d’ondelettes discrètes forme une frame, elle fournit une

représentation complète et sans perte de toute fonction f de L2 (Daubechies, 1992).

Pour fournir plus de détails, nous introduisons d’autres termes: Bψ est dite base

orthogonale si pour toute ,i j Bψψ ψ ∈ :

,

1,,

0,i j i j

si i jsi i j

ψ ψ δ=⎧

< >= = ⎨ ≠⎩ (56)

Une frame est dite base si pour toute f de L2 la combinaison linéaire k kkf w ψ=∑ est

unique. Une famille d’ondelettes est à la fois orthogonale et base dite base orthogonale.

En général, une frame n'est pas une base orthogonale (seule la condition A = B =1 donne

une base orthogonale). Aussi, elle fournit une représentation redondante de la fonction f.

Le rapport A/B est appelé rapport ou facteur de redondance. Lorsqu'une frame est

redondante, les coefficients d'ondelette, d'un même voisinage sont corrélés entre eux, il en


78

résulte une meilleure définition des détails et des structures fines dans la représentation

temps-fréquence.

Pour une base orthogonale, toute fonction f peut être écrite d'une manière unique :

, ,( , ) ( , )

( ) ( , ) ( ) , ( )a b a ba b S a b S

t bf t w a b f ta

ψ ψ ψ∈ ∈

−= = < >∑ ∑ (57)

Pour d’autres valeurs de A et B, cette représentation reste valable, Bψ n’est plus une base

orthogonale mais une base dite biorthogonale, en plus si la représentation de f en combinaison

linéaire d’ondelettes n’est plus unique la famille Bψ est une frame. Dans ces deux derniers cas

on est mené à écrire f en fonction de la frame duale ,{ |( , ) }a bB a b Sψ ψ= ∈ .

, , , ,( , ) ( , )

( ) , ( ) , ( )a b a b a b a ba b S a b S

f t f t f tψ ψ ψ ψ∈ ∈

= < > = < >∑ ∑ (58)

Si la fonctionψ est l’ondelette analysante, les coefficients d’ondelettes sont obtenue par le

calcul du produit scalaire de cette ondelette dilatée et translatée et la fonction à analyser.

L‘ondelette duale est utilisée pour la reconstruction (l’inverse est aussi vrai). Pour une famille

d’ondelettes orthogonales une ondelette est égale à sa duale.

Figure 29. L’ondelette chapeau Mexicain à gauche et sa duale à droite


79

Essayons de représenter les ondelettes par des vecteurs, on peut illustrer les trois bases

possibles qui peuvent être reconstruites avec une famille d’ondelettes.

Figure 30: Une base orthogonale à gauche, biorthogonale au milieu et une frame à droite

On peut calculer les coefficients d’ondelettes w i par projection orthogonale du signal f

à analyser sur la base orthogonale de la base des ondelettes analysantes. Pour le cas d’une

base biorthogonale ou une frame la projection du signal f se fait sur une frame duale.

1.2.3 Les ROZ

L'équation (58) donne l'expression d’une fonction f sous forme d’une somme sur toutes

les dilatations et les translations possibles de l'ondelette mère. Admettons que nous ne

disposons que d’un nombre fini de n ondelettes, nous pouvons considérer la relation:

( )1

nf x w i ii

ψ≈ ∑=

(59)

Comme une approximation de la transformée inverse en ondelettes, Zhang a remarqué

qu’il est possible de l'envisager aussi comme une décomposition de la fonction f à une somme

de w i et d’ondelettes iψ (Zhang, 1992) et de la représenter avec une architecture neuronale

(Figure 28).

1 1wψ

2ψ

2w

f f

2ψ

1ψ

f

1ψ 2ψ 3ψ

Frame ("Mercedes Benz frame") Base Biorthogonale (ψ1,ψ2) Base orthogonale (ψ1,ψ2)


80

Pour définir donc, un réseau d’ondelettes ROZ, on commence par choisir une famille de

n ondelettes 1 n = { ,..., }ψ ψΨ avec différents paramètres de translations et de dilatations qui

peuvent être choisis à ce point arbitrairement. D'après la théorie d'ondelettes, toute fonction f

qui appartient à l’espace L2(R) peut être représentée, avec une précision arbitraire, par un

réseau de ces n ondelettes (Zhang, 1992).

Supposons qu’on dispose de trois ondelettes 1ψ , 2ψ et 3ψ dilatées et translatées d’une

seule ondelette mère :

Figure 31. L’ondelette mère à gauche et Trois ondelettes dilatées et translatées ( 0,0.5ψ , 10,0.75ψ− , 10,2ψ )

Un réseau d’ondelettes constitué avec ces trois ondelettes peut approximer un signal f

donné (Figure 32):

0 0 5 10 0 75 10 20 5 0 25, . , . ,. .f ψ ψ ψ−≈− + +

Figure 32: Approximation d’une fonction f par un réseau de 3 ondelettes

f 0 0 5 10 0 75 10 20 5 0 25, . , . ,. .ψ ψ ψ−− + +


81

Pour trouver le réseau d’ondelettes ROZ optimal d’une fonction f, l’algorithme de la

retropropagation est généralement utilisé pour minimiser la fonction d’énergie :

min1

NE f w niw n iii i

ψ= − ∑=

(60)

Qui met à jour les paramètres du réseau (les poids de connexion, les dilatations et les

translations des ondelettes) à chaque itération.

Zhang et Benveniste (Zhang, 1992) ont abouti dans leurs travaux aux résultats suivants :

• Les réseaux d’ondelettes préservent la propriété d’approximation universelle des

réseaux RBF.

• Un lien direct existe entre les poids du réseau wi et les coefficients d’ondelette.

• Une bonne approximation peut être atteinte avec un réseau d’ondelettes de petite taille.

1.3. Conclusion

Nous avons présenté dans cette section le modèle de Zhang et Benviniste des réseaux

d’ondelettes. Ce modèle se trouve appliqué dans plusieurs domaines tels que la compression

ou l’approximation des signaux. Les ROZ ont hérité l’algorithme de la retropropagation pour

leur apprentissage qui a lui-même conservé ces inconvénients habituels (lenteur, convergence

aux minima locaux, initialisation,…). Nous allons proposer dans la section suivante une

nouvelle méthode d’apprentissage des ROZ basée sur la théorie des frames. Cet algorithme

permettra le calcul direct des poids de connexion. Une stratégie sera mise en évidence pour le

choix des ondelettes de la couche cachée du réseau et un processus d’optimisation sera

détaillé.


82

2. Apprentissage des réseaux d’ondelettes par la théorie des frames

2.1. Introduction

Dans cette section nous présenterons notre algorithme d’apprentissage. Nous

commencerons par expliquer la procédure de constitution d’une bibliothèque d’ondelettes

candidates à être utiliser dans la couche cachée de notre réseau. Nous détaillerons la manière

de leurs sélections, puis nous introduiserons les étapes d’optimisation de ce réseau.

2.2. Optimisation des réseaux d’ondelettes par la théorie des frames

Cet algorithme d’apprentissage des réseaux d’ondelettes exploite la théorie des

ondelettes elle même et en particulier la théorie des frames pour son optimisation.

Essayons de bien voir l’équation (58) de la transformée inverse en ondelettes discrètes.

Cette formule n’est valable sauf si la famille d’ondelettes iψ forme une frame (Daubechies,

1992), elle peut être interprétée comme la sortie d’un réseau d’ondelettes. Le problème dans

cette représentation c’est que le nombre de neurones est infini. Dans le paragraphe suivant

nous essayerons de voir comment discrétiser la transformée continue pour obtenir une

frame et limiter ce nombre de neurones en constituant une bibliothèque d’ondelettes

candidates à joindre notre réseau comme fonctions d’activation.

2.2.1 Comment discrétiser la transformée continue pour obtenir une frame ?

Pour obtenir une frame, une discrétisation des paramètres résolution (a) et position (b)

est nécessaire. La transformée en ondelettes mise en œuvre sur des valeurs discrètes de ces

deux derniers paramètres est appelée transformée en ondelettes discrète.

Ces coefficients a et b seront discrétisés de la manière suivante (Daubechies, 1992)

(Antoninni, 1992), ( Antoninni, 2003):

0 0 0 0 0, 1 0m ma a b nb a avec a et b= = > > . Ainsi, pour un signal comportant 0ja points on

calcule alors seulement les coefficients :

/ 2, 0 0 0 0( ) ( ) ( ) 1,..., 1,...,m m j m

m nw f a a t nb f t m j n aψ− − −= − = =∑ (61)


83

On remarque qu'on a échantillonné plus finement aux hautes fréquences qu'aux basses

fréquences.

Pour 0 02, 1a b= = l'échantillonnage est dit dyadique.

Figure 33 . Echantillonnage sur une grille de l’espace temps-fréquence

2.2.2 Constitution d’une bibliothèque d’ondelettes pour le réseau

Tout simplement, les ondelettes résultant de l’échantillonnage temps-fréquence vont

constituer la bibliothèque des ondelettes candidates à joindre notre réseau d’ondelettes.

L’échantillonnage dyadique sera utilisé pour sa simplicité. Ce qui va produire une

ondelette, qui a la décroissance la moins rapide, dans la première échelle. Le nombre

d’ondelettes sera multipliées par deux chaque fois qu’on passe à l’échelle suivante. Les

ondelettes d’une même échelle diffèrent seulement par leurs positions (paramètre de

translation) et elles sont réparties sur l’axe de temps pour couvrir la quasi totalité du signal à

analyser.


84

Figure 34 : Les sept premières ondelettes de la bibliothèque et le signal à analyser

Le nombre d’ondelettes de la bibliothèque

Il est clair que si le nombre d’ondelettes d’activation est plus grand, le réseau

approximera mieux le signal d’entrée f, mais quel est le nombre d’ondelettes de notre

bibliothèque?

Pour répondre à cette question, il faut calculer le nombre d’ondelettes échantillonnées

sur l‘échelle dyadique de l’espace temps-fréquence.

Puisque les échelles sont prises sur des puissances de 2, on a besoin de 2log ( )j N=

échelles pour couvrir tout le signal, avec N la taille du signal à approximer. Le nombre

d’ondelettes à chaque échelle m donnée est égale à 2 j m− ondelettes translatées.

Le nombre d’ondelettes total est donc : 2 3 j-1 (1 2 )1+2 +2 2 ... 2 2 1 1(1 2)

jj N−

+ + + = = − = −−

ondelettes.

Ce nombre d’ondelettes parait important, mais en pratique, tout ce nombre n’est pas

nécessaire, car généralement une ondelette sera suffisante pour interpoler plus qu’un

échantillon du signal à analyser et bien l’approximer voire de reconstruire avec un nombre


85

bien inférieur à celui de notre bibliothèque. En fait, avec peu d’ondelettes (celles de basses

fréquences) une approximation acceptable est atteinte, les autres ondelettes qui sont les plus

nombreuses viennent juste pour affiner cette approximation. Aussi,comme on va le voir dans

ce chapitre, dans le cas où les ondelettes de notre bibliothèque constituent une frame, le signal

peut être reconstruit seulement en utilisant une famille d’ondelettes de cette bibliothèque qui

constitue une base.

2.2.3 Processus d’optimisation du réseau

Pour optimiser un réseau d’ondelettes, l’échantillonnage sur une grille dyadique de la

transformée en ondelette continue sera utilisé, les ondelettes de basses fréquences qui

permettent une approximation grossière du signal à analyser sont introduites les premières,

celles de hautes fréquence viennent pour affiner le signal approximé.

Pour plus de détails, on définit la fonction ˆD f f= − avec f la fonction à approximer

et f la sortie du réseau. Au début du processus d’optimisation 0f = et D f= . Sur la

première échelle dyadique qui contient une seule ondelette analysante (celle de la fréquence la

plus basse), le poids de la première connexion est calculé par 1 1,w fψ=< > , la sortie du

réseau est alors 1 1f w ψ= et la fonction 1 1D f w ψ= − . A une étape donnée de l’apprentissage

1

1

n

i ii

f wψ−

=

=∑ et 1

1

n

i ii

D f wψ−

=

= −∑ l’ondelette suivante sur l’échantillonnage qui constitue une

base avec les (n-1) ondelettes du réseau va s’ajouter à la couche cachée de ce dernier.

La vérification de l’indépendance linéaire de la nouvelle ondelette et les (n-1)

ondelettes du réseau est une opération délicate et longue, alors la condition suivante pour

qu’une ondelette joigne le réseau est proposée:

1

1

, , 0n

n i i ni

D f wψ ψ ψ−

=

< > = < − >≠∑ (62)

Bien entendu, toutes les ondelettes de la bibliothèque vérifient cette condition dans le

cas d’une famille d’ondelettes orthogonales ou biorthogonales puisque ces ondelettes sont

linéairement indépendantes, mais vu que le cas des frames peut se présenter, ce test se trouve

introduit. Les autres ondelettes qui ne vérifient pas cette condition, donc qui forment une


86

frame avec les anciennes ondelettes du réseau, ne seront pas totalement rejetées, mais seront

utilisées pour optimiser les poids des connexions du réseau.

L’itération de ce processus continue jusqu'à ce que l’erreur 1

Nf w ni ii

ψ− ∑=

, fixée à

priori soit atteinte.

Figure 35. Processus de calcul des poids et de la sortie du réseau

Preuve de la condition de choix des ondelettes du réseau

Pour approximer le signal f, les ondelettes du réseau doivent former une base, ce qui

revient à dire que ces ondelettes sont linéairement indépendantes. La nouvelle ondelette doit

vérifier cette condition et en conséquence, elle ne doit pas appartenir à l’espace engendré par

les anciennes ondelettes : 1 1,...,n nψ ψ ψ −∉ < > . On procède par l’absurde :

Admettons que 1 1,...,n nψ ψ ψ −∈ < >

: Signal original

: Sortie du réseau

L2(R2))

. w

< ψ >

Rn

ψ

ψ


87

On a donc 1 1 1,..., ,...,n nψ ψ ψ ψ−< > = < >

Et en particulier 1 1 1( ,..., ) ( ,..., )n nψ ψ ψ ψ⊥ ⊥−< > = < >

Cela veut dire 1

1( ,..., )n

i i ni

f w ψ ψ ψ−

⊥− ∈ < >∑

Ce qui implique1

, 0n

i i ni

f w ψ ψ−

< − >=∑

Ce qui est contradictoire avec le choix de nψ dans l’étape d’optimisation qui doit

vérifier1

, 0n

i i ni

f w ψ ψ−

< − >≠∑ . Ainsi, toutes les iψ du réseau sont linéairement

indépendantes et forment une base.

2.2.4 Calcul direct des poids

Pour des ondelettes orthogonales, le calcul des poids de connexion à chaque étape est

possible par projection du signal à analyser sur la même famille d’ondelettes: ,i iw f ψ=< > .

Pour une famille d’ondelettes quelconque, il n’est pas possible de calculer les poids par

projection direct de la fonction f sur la même base. Nous expliquons dans cette section qu’un

calcul simple des poids reste toujours possible même avec des ondelettes non orthogonales.

Deux solutions se présentent pour calculer directement les poids de connexions, la

première se base sur la famille duales des ondelettes du réseau et la deuxième dérive de la

théorie de l’algèbre linéaire, on va voir que les deux solutions mènent aux mêmes résultats

sauf que la première présente des avantages du point de vue implémentation informatique et

temps de calcul.

- Solution basée sur les familles duales:

Définition :

Deux familles d’ondelettes iψ et iψ sont dites biorthogonales si pour tous i et j on a :

,,i i i jψ ψ δ< >= (63)

L’ondelette ψ est dite primale alors que l’ondelette ψ est dite duale.

Si i iψ ψ= la famille iψ constitue une base orthogonale.


88

L’utilisation des ondelettes biorthogonales permet le calcul direct des poids de

connexion du réseau d’ondelettes :

Soit f un signal, iψ une famille d’ondelettes qui forme une frame et iψ la famille

d’ondelettes duales alors il existe des poids wi tel que :

i ii

f w ψ=∑ (64)

Un poids peut être calculé en exploitant l’ondelette duale :

,k kw f ψ=< > (65)

La preuve est que:

,

, ( )

[ ]

k k

i i ki

i i ki

i i ki

k

f f x dx

w dx

w dx

w

w

ψ ψ

ψ ψ

ψ ψ

δ

< > =

=

=

=

=

∫

∑∫

∑ ∫

∑

Comment calculer la famille des ondelettes duales (Kruger, 2000) ?

A chaque étape du processus d’optimisation on est mené à connaître la famille duale des

ondelettes bêta formant notre réseau d’ondelettes.

La famille d’ondelette duale iψ est calculée par la formule qui suit :

1,

1

( )N

i i j jj

ψ ψ−=

= Ψ∑ (66)

Avec , ,i j i jψ ψΨ =< >


89

Pour démontrer que iψ est duale à iψ il suffit de vérifier la condition de

biorthogonalité : ,,i i i jψ ψ δ< >=

1 1, ,

1 1

1,

1

1,

1

1, ,

1

,

, ( ) ( )[ ( ) ]

( ) [ ( ) ]

( ) ,

( )

N N

i k j j i k j jj j

N

k j i jj

N

k j i jj

N

k j j ij

i k

x dx

x dx

ψ ψ ψ ψ

ψ ψ

ψ ψ

δ

− −

= =

−

=

−

=

−

=

< Ψ >= Ψ

= Ψ

= Ψ < >

= Ψ Ψ

=

∑ ∑∫

∑ ∫

∑

∑

- Solution basée sur la théorie d’algèbre linéaire:

La version discrète de l’ondelette iψ est un vecteur qui représente une ondelette à une

échelle et une translation donnée. On définit la matrice Φ avec la ligne numéro i contient iψ .

Les réseaux d’ondelettes approxime une fonction f par la formule ti i

i

f w Wψ= = Φ∑

avec TW est le vecteur des poids des connexions.

Comme il a été proposé dans (Kruger, 2000), le vecteur TW peut être calculé en

utilisant le pseudo inverse de Φ :

tW f+= Φ (67)

Le pseudo inverse +Φ est défini par :

1( )t t+ −Φ = Φ Φ Φ (68)

Comme c’est déjà mentionné, les deux solutions mènent aux mêmes résultats, sauf que

dans le deuxième cas, à chaque étape d’optimisation le pseudo inverse est recalculé de

nouveau, alors en utilisant les ondelettes duales, on peut exploiter la matrice ancienΨ de l’étape


90

d’optimisation précédente (n-1) en calculant seulement un vecteur à concaténer sur les lignes

et les colonnes de ancienΨ .

La nouvelle Ψ est obtenue par :

1

2

1 2

n

ancien nNouv

n n nn

vv

v v v

⎛ ⎞⎜ ⎟Ψ⎜ ⎟Ψ =⎜ ⎟⎜ ⎟⎝ ⎠

(69)

Avec ,in i nv ψ ψ=< > et nψ la nouvelle ondelette qui vient s’ajouter au réseau.

2.2.5 Optimisation des poids dans le cas des frames

Dans le cas d’une frame quelconque (famille d’ondelettes ne formant pas une base) les

valeurs des poids ne sont pas optimales vu que lors de l’étape de l’optimisation on a écarté

quelques ondelettes. Supposons que l’on soit à la deuxième étape de l’optimisation et que les

deux premières ondelettes soient linéairement indépendantes, la sortie du réseau est alors :

2 1 1 2 2f w wψ ψ= + (70)

Supposons maintenant qu’à la troisième étape l’ondelette 3ψ ne soit pas linéairement

indépendante avec les deux premières, la projection du signal d’entrée sur la famille duale des

trois ondelettes mène à l’approximation:

3 1 1 2 2 3 3f w w wψ ψ ψ= + + (71)

Puisque 3ψ dépend des deux autres ondelettes, on peut écrire :

3 1 1 2 2 3 3,1 1 3,2 2

1 3 3,1 1 2 3 3,2 2

( )( ) ( )

f w w w v vw w v w w vψ ψ ψ ψ

ψ ψ

= + + +

= + + + (72)


91

Les iv sont calculés par une projection sur la base duale de la famille des deux

premières ondelettes. L’équation (72) approxime le signal f avec les deux ondelettes de

l’équation (71), mais en optimisant leurs poids de connexions.

En général, à une étape n, les poids de connexions sont mis à jour par la formule :

,1 1

( )m n

n i j j i ii j m

f w w v ψ= = +

= +∑ ∑ (73)

Avec m est le nombre d’ondelettes du réseau, qui sont bien sûr linéairement

indépendantes, et (n-m) ondelettes d’optimisation des poids des connexions.

2.3. L’apprentissage dans le cas d’un ROZ 2D

2.3.1 Introduction

Lors de l’analyse d’un signal bidimensionnel, l’utilisation d’une ondelette d’activation

monodimensionnelle dans les neurones nécessite la vectorisation de ce signal à analyser, or la

perte de la relation qui existe entre ces échantillons. Pour remédier à cet inconvénient, on a

fait intervenir une ondelette bidimensionnelles comme fonction d’activation.

2.3.2 Les ondelettes bidimensionnelles

Les ondelettes multidimensionnelles, dites séparables, sont les produits d’ondelettes

unidimensionnelles. Une ondelette bidimensionnelle: ,x y x yΨ = Ψ Ψ est une ondelette qui a les

propriétés de dilatation et de translation sur les deux axes (x,y). La propriété de rotation s’y

ajoute pour qu’elle tourne avec un angleφ . Mathématiquement, l’équation de cette ondelette

est (Bishop, 1995) (Tai Sing, 1996):

, , ,

cos sin1( , ) ( ( ), ( ))sin cosx y

yxa b b

y bx bx y R R Ra aa

φ φ φ φ

φ φψ ψ

φ φ− −⎛ ⎞−

= = ⎜ ⎟⎝ ⎠

(74)


92

Figure 36. Exemple d’ondelette bidimentionnelle

La transformée en ondelettes continue d’une fonction f bidimensionnelle dans ce cas est :

1( , , , ) ( , ) ( , )yxx y

y bx bw a b b f x y dxdya aa

φφ ψ−−

= ∫ ∫ (75)

La reconstitution de la fonction f reste possible si l’ondelette est admissible :

2

30 0

1 1( , ) ( , , , ) ( , )yxx y x y

y bx bdaf x y db db d w a b bC a a aa

π

φψ

φ φ ψ∞ −−

= ∫ ∫∫ ∫ (76)

Avec Cψ le facteur d’admissibilité, qui certes doit être fini pour que f soit reconstruite


93

2 22

0ˆ0 2 ( cos , sin )dwC d w w

wπ

ψ π φ ψ φ φ∞

< = < ∞∫ ∫ (77)

La discrétisation de cette ondelette pour analyser des signaux discrets, conserve le

même schéma d’échantillonnage des translations et des dilatations proposé pour le cas

monodimensionnel :

0 0 0 0 01 0m ma a b nb a a b= = > > (78)

L’angle φ sera échantillonné de la manière suivante :

0 0 0l lφ φ φ= > ∈ (79)

La transformée en ondelettes discrète est définie par :

/ 20 0 0 0 0( , , , ) ( , ) ( , )

l

m m mw m n k l a a x nb a y kb f x yθψ− − −= − −∑∑ (80)

Les coefficients ( , , , )w m n k l sont calculés donc par différentes opérations de filtrage

du signal à analyser par les filtres des ondelettes analysantes. Ces filtres sont obtenus par

variation dyadique des paramètres m, n, k et l de l’ondelette mère. Des ondelettes duales et

leurs filtres associés sont utilisés dans le cas des ondelettes non orthogonales.


94

Figure 37. l’ondelette mère Chapeau Mexicain bidimensionnelle et son filtre associé


95

La transformé inverse en ondelettes discrètes dans ce cas est obtenu en remplaçant les

intégrales de l’équation (76) par des sommes. Ces sommes écrites sous la forme d’une seule

donnent :

0 0 0 0( , ) ( , , , ) ( , )l

m mf x y w m n k l a x nb a y kbθψ − −= − −∑ (81)

2.3.3 Optimisation d’un ROZ 2D

Comme pour le cas monodimensionnel, l’équation (81) peut être vue comme la sortie

d’un réseau d’ondelettes si on limite le nombre d’ondelettes utilisées.

Un réseau d’ondelettes ROZ bidimensionnelle a la même structure qu’un ROZ

monodimensionnel, excepté que chaque neurone a deux entrées caractérisant les coordonnées

spatiales des échantillons du signal à approximer.

Figure 38. un neurone d’un réseau d’ondelettes ROZ Bidimensionnelle

Dans le cas d’un signal 2D, l’algorithme d’apprentissage reste presque le même que le

cas 1D, l’échantillonnage dyadique des paramètres de dilatation, de translation et de rotation

de la transformée 2D en ondelettes continues est utilisée. Le résultat est une base d’ondelettes

de structure pyramidale constituant une frame 2D, commençant par une échelle contenant une

seule ondelette centrée exactement au milieu, puis à chaque échelle le nombre d’ondelettes est

multiplié par 4 et leurs centres sont disposés sur le support du signal à analyser d’une manière

équidistante.

∏

x

y


96

Figure 39. Les centres des ondelettes dans les trois premières échelles

Une fois la base d’ondelettes bidimensionnelle candidates à joindre le réseau est

constituée, le même processus utilisé pour l’apprentissage dans le cas 1D est appliqué dans ce

cas :

Figure 40. Processus de calcul des poids et de la sortie du réseau dans le cas d’un ROZ2D

L2(R2))

.

w

<ψ>

Rn

ψ

ψ


97

Admettant qu’on dispose de l’image suivante :

Figure 41. Image à faire apprendre au ROZ2D

L’apprentissage de cette image à un ROZ consiste à trouver la combinaison linéaire

optimale des filtres associés aux ondelettes de notre base d’ondelettes et les poids de

connexions calculés par la technique des ondelettes duales et optimisés par la théorie des

frames. La figure suivante explique ce processus d’approximation.

= W1

+…+Wi+…+Wn

Figure 42. Approximation de l’image de la figure précédente par un ROZ2D

Bien sûr, les ondelettes de la base ne seront pas toutes utilisées comme filtres

d’approximation puisque quelques unes seront exploitées pour mettre à jour les poids de


98

connexions de réseau. Sur la figure suivante, on peut remarquer un exemple montrant les

centres d’ondelettes utilisées comme filtres d’approximation.

Figure 43 : Les centres des ondelettes dans les trois premières échelles

3. Conclusion

Ce chapitre nous a permis de présenter les concepts théoriques des réseaux d’ondelettes

ROZ, leurs naissances et leurs relations avec la théorie des frames. Un nouvel algorithme

d’apprentissage de ces réseaux basé sur cette théorie a été proposé. Nous avons montré la

capacité de cet algorithme en termes de calcul direct des poids de connexions et de choix des

ondelettes du réseau. Dans le chapitre suivant, nous détaillerons nos approches de

reconnaissance de visages basés sur les deux types de réseaux d’ondelettes présentés dans les

deux chapitres précédents.

CHAPITRE IV Application des RO Bêta à La

reconnaissance de visages


100

1. Introduction

Dans ce chapitre nous présentons dans une première étape les ondelettes Bêta 1D et 2D.

Nous introduisons leurs expressions analytiques et leurs paramètres. Dans une deuxième

étape, nous détaillons nos approches de reconnaissance de visages basées sur les deux

modèles de réseaux d’ondelettes en présentant les phases d’apprentissage et de

reconnaissance.

2. Les Ondelettes Bêta comme fonction d’activation

2.1. Les ondelettes Bêta 1D

La fonction Bêta est définie par (Ben Amar, 2005) (Zaied, 2003):

0 10 1

0 1 0 1

1 00 1

] , [( ; , , , )

0

, ,

p q

c c

c

x x x x si x x xx p q x x x x x x

si non

px qxAvec p q x x et xp q

β

⎧⎛ ⎞ ⎛ ⎞− −⎪ ∈⎜ ⎟ ⎜ ⎟= − −⎨⎝ ⎠ ⎝ ⎠⎪⎩

+< ∈ℜ =

+

(82)

La fonction Bêta possède les propriétés suivantes (Ben Amar, 2005) (Zaied, 2003):

( ) ( ) 00 1

( ) 1

x x

xc

β β

β

= =

= (83)

0

1

x xp cq x xc

−=

− (84)

( )( ) 1 0 ( )( )( )0 1

( ) ( )( ) 0 1 0

px qx p q xd x xdx x x x x

d x d xd xcdx dx dx

β β

β ββ

+ − +=

− −

= = =

(85)


101

2 ( ) ( ) ( )

1 1 1( ) ( )( 1) 1 0( )( ) ( ) ( )0 1 1 0

d x x A xdx

Avec A x p q x px pxx x x x x x x x

β β=

⎡ ⎤= ⎢ − − + + + + ⎥

− − − −⎢ ⎥⎣ ⎦

(86)

Figure 44. Différentes formes de la fonction Bêta (x0=-1 ; x1=1).

On note ici que la fonction Bêta peut être considérée comme une fonction linéaire de x

si on prend p=1, q=0 ou p=0, q=1.

La fonction Bêta n’est pas une ondelette puisque elle ne vérifié pas la propriété

d’oscillation, mais Il a été démontré dans (Ben Amar, 2005) (Zaied, 2003) que toutes les

dérivées de la fonction bêta sont des ondelettes admissibles. Nous pouvons aboutir à des

différentes ondelettes par modifications des paramètres fonctionnels de la fonction bêta

x0,x1,q et p . Dans ce mémoire, on va nommer les ondelettes Bêta par les ordres de dérivation

0

2E+29

4E+29

6E+29

8E+29

1E+30

x

0

0,2

0,4

0,6

0,8

1

1,2

x

0

100000

200000

300000

400000

500000

x

0

100000

200000

300000

400000

500000

x

0

5E+49

1E+50

2E+50

2E+50

3E+50

x

0

0,2

0,4

0,6

0,8

1

1,2

x

0

2E+29

4E+29

6E+29

8E+29

1E+30

x

01E+542E+54

3E+544E+545E+546E+547E+548E+54

x

0

0,2

0,4

0,6

0,8

1

1,2

x

p=2 q=10 p=2 q=2 p=1 q=2

p=0.01 q=10

p=50 q=50 p=99 q=20

p=0.01 q=0.01 p=10 q=0.01

p=20 q=99


102

de la fonction Bêta, par exemple l’ondelette dérivée première de la fonction Bêta va porter le

nom "Bêta1", l’ondelette dérivée deuxième "Bêta2"…etc. Pour préciser si l’ondelette est

mono ou bidimensionnelle on va ajouter les symboles 1D ou 2D alors que les paramètres

x0,x1,q et p seront précisés entre parenthèses de la manière suivante : Bêta1_1D(x0,x1,q,p) .

Pour une ondelette Bêta 2D, on va ajouter seulement deux paramètres pour le support de

l’ondelette dans le sens de l’axe des y, finalement une ondelette Bêta1 bidimensionnelle par

exemple sera représentée donc dans notre cas par: Bêta1_2D(x0,x1, y0,y1,q,p).

Bêta1_1D(0,100,5,5) Bêta1_1D (0,100,30,30)

Bêta1_1D (0,100,70,70)

Bêta2_1D (0,100,5,5) Bêta2_1D (0,100,30,30)

Bêta2_1D (0,100,70,70)

Bêta3_1D (0,100,30,30) Bêta3_1D (0,100,30,30)

Bêta3_1D (0,100,70,70)

Figure 45. Les ondelettes Bêta1, Bêta2 et Bêta3 pour différentes valeurs de p et q (avec p=q)


103

Les ondelettes Bêta ont les propriétés de symétrie ou d’antisymétrie pour des valeurs

égales de p et q (Ondelettes Bêta(i) symétriques si i paire et antisymétrique si i est impaire).

Pour d’autres valeurs de p et q ces ondelettes perdent ces propriétés, voici quelques exemples

sur les deux figures ci-dessous.

Bêta1_1D (0,100,10,12)

Bêta2_1D (0,100,10,12)

Figure 46. Les ondelettes Bêta1, Bêta2 pour deux valeurs de p et q différentes

Figure 47: L’ondelette Bêta1_1D(0,100,15,15) et sa duale

2.2. Les ondelettes Bêta 2D

Une ondelette Bêta 2D, comme toute ondelette séparable, est le produit de deux

ondelettes monodimensionnelles : ( , ) ( ) ( )Bêta x y Bêta x Bêta y= ×

Voici quelques exemples d’ondelettes Bêta bidimensionnelles et leurs filtres associés.


104

Bêta1_2D(0,50,0,50,10,10)

Bêta2_2D(0,50,0,50,10,10)

Figure 48. Quelques fonctions Bêta bidimensionnelle et leurs filtres associés

Bêta3_2D(0,50,0,50,10,10)


105

3. Reconnaissance de visage par ROB

3.1. Approche utilisée pour la reconnaissance de visage par un RO

3.1.1 Introduction

Cette première technique de reconnaissance de visages mise en valeur dans le cadre de

ce mémoire est basée sur les réseaux d’ondelettes entraînés avec l’algorithme de

rétropropagation pour la phase d’apprentissage. Nous établirons dans cette section

l’architecture de ce réseau d’ondelettes pour la reconnaissance de visages, nous détaillerons

l’algorithme d’apprentissage utilisé puis nous présenterons l’approche de reconnaissance.

Le but est de reconnaître des individus qui montrent des expressions faciales différentes

(heureux, triste, surpris, etc.), des conditions spéciales peuvent également être présentes dans

les visages de ces personnes, citons notamment les cas des lunettes fumées, chapeau, bandeau,

cigares, etc., des changements corporels (par exemple barbe, moustache, maquillage, couleurs

de cheveux, cheveux détachés, etc.) et d’éclairage (par exemple incandescent, directionnel,

etc.).

3.1.2 L’architecture de réseaux d’ondelettes pour la reconnaissance de visages et le principe

d’apprentissage.

Les architectures classiques de reconnaissance de visages par réseaux de neurones

consistent à utiliser des réseaux à trois couches une couche de cellules cachées, et une couche

de cellules de sortie. Les cellules d’une couche sont connectées à toutes les cellules de la

couche suivante, et à celles-ci uniquement. La propagation des valeurs se fait dans le sens

"feedforward", c’est-à-dire des cellules d’entrée vers les cellules de sorties. L’apprentissage

consiste à présenter l’image du visage à l’entrée du réseau et à activer une sortie caractérisant

la personne concernée. Le nombre de neurones de sortie est donc directement lié au nombre

d’individus à discriminer. Cette architecture présente un problème majeur lors de l’ajout

d’une personne à la base d’apprentissage, ce système se trouve obligé à ajuster son

architecture et à refaire toute l’étape d’apprentissage.

Par analogie, les réseaux d’ondelettes pour la reconnaissance de visages ont la même

architecture que celle des réseaux de neurone, seulement la fonction de transfert ψ des cellules

cachées est une fonction ondelette. A chaque étape d’apprentissage, les paramètres du réseau

sont adaptés par la méthode de la rétropropagation de gradient pour aboutir à la sortie désirée.


106

Afin de préciser ce que nous entendons par paramètre, nous pouvons nous référer à la

Figure 49. Nous désignons par paramètre, un coefficient quelconque des coefficients de

l’architecture, intervenant dans le calcul de la sortie fournie par le réseau. Ces paramètres sont

donc :

wij : les poids de connexion entre la cellule i de la couche cachée et la cellule de sortie j.

ai : les coefficients de dilatation de la cellule i.

bi : les coefficients de translation de la cellule i

Pour surmonter le problème de l’ajout de personnes à la base d’apprentissage, nous

avons proposé notre propre approche d’apprentissage, cette technique consiste à choisir en

premier lieu une image par personne (nous avons choisi les visages avec les "expressions

normales"), un réseau d’ondelettes ( iψ ,wi) est optimisé pour chacune d’elles

(entrée=sortie=image du visage). Nous aboutissons à une base de réseaux d’ondelettes (un

réseau par personne). Les paramètres de ces réseaux sont enregistrés dans une base appelée

base de paramètres à utiliser ultérieurement pendant la phase de reconnaissance.

Figure 49: principe de la méthode d’apprentissage

x1

xj

xm

y1

yj

ym

w11

w1j

w1m

a1

ak

b1

bk

ai bi wi

Base de paramètres (Un réseau par personne)

ai: paramètre de dilatation de l’ondelette bi : paramètre de translation de l’ondelette wi: Poids des connexions du réseau


107

3.1.3 Présentation d’une image de test et processus de reconnaissance

Pour reconnaître un visage d’une personne, nous faisons passer son image par tous les

réseaux d’ondelettes de la base de paramètres.

Le réseau qui approxime mieux l’image est celui de la personne cherchée.

La performance d’approximation des réseaux de la base de paramètres est estimée

en mesurant l’Erreur Quadratique Moyenne (EQM), exprimée par la formule suivante :

( ) ( )( )2

1 1

1 , ,*

N M

i jEQM A i j B i j

M N = =

= −∑ ∑ (87)

Tels que A et B représentent respectivement les coefficients d'entrée du réseau et ceux

de sortie, alors que, M et N leurs dimensions.

La reconstitution de l’image est plus performante quand cette mesure est plus faible.

Le réseau qui à l’EQM la plus petite concerne généralement la personne cherchée.

3.1.4 Détection d’une personne n’appartenant pas à la base d’apprentissage

Peu de chercheurs se sont penchés à détecter la non appartenance d’une personne à la

base d’apprentissage. Pourtant cette application est très recherchée notamment dans le

domaine de sécurité, tel que le contrôle d’accès automatique.

Notre approche de reconnaissance de visages peut détecter la présence d’une image

d’un visage qui n’appartient pas à la base d’apprentissage. L’idée consiste à fixer un seuil

SEQM (Seuil d’Erreur Quadratique Moyenne) et à conclure que la personne est inconnue en

se basant sur ce seuil. Cette conclusion est confirmée si toutes les EQM calculées pendant la

phase de reconnaissance sont au dessus du SEQM.

Le SEQM est estimé suite à un ensemble d’opérations de reconnaissances manuelles.

Ces opérations consistent à tester le système de reconnaissance avec des images de personnes

appartenant à la base de test (c’est à dire qui ont déjà des images entraînées par le système) et

à calculer chaque fois les EQM minimales. La procédure en détail consiste à:

Pour chaque image de test d’une même personne l’EQM minimale de la phase de

reconnaissance est calculée. On aboutit à un ensemble d’EQM minimale concernant

chaque image de chaque personne noté EQMMij.


108

Avec i est le numéro de l’image de test de la même personne et j est le numéro de la

personne.

Le Seuil SEQM est égal à au minimum de ces EQM :

ij(EQM ) SEQM MIN= (88)

Figure 50. Exemple d’une personne reconnue par le système

Figure 51. Exemple d’une personne non reconnue par le système


109

3.1.5 Architecture du réseau d’ondelettes en utilisant des vecteurs caractéristiques

Nous nous sommes confrontés à la grande taille des informations de l’image à faire

entrer et entraîner à notre réseau, pour une image de 100x100 pixels par exemple, il faut faire

entrer un vecteur de 10000 valeurs, ce qui est énorme et nous laisse douter sur la capacité de

la convergence du réseau. Pour surmonter ce problème, nous avons choisi, comme c’est

proposé pour l’apprentissage des réseaux de neurones dans le paragraphe 0 du premier

chapitre, d’utiliser un vecteur d’entrée composée des coefficients d’eigenface du visage

[ ]1 2, ,..., TMω ω ω à faire apprendre au réseau. Ce qui va nous permettre de réduire le nombre

des valeurs d’entrée.

Pour chaque visage de la base d’apprentissage, nous construisons un réseau d’ondelettes

RO prenant en entrée ces coefficients des eigenfaces, nous approximons ces coefficients, puis

nous sauvegardons les paramètres fonctionnels du réseau dans la base des paramètres.

L’architecture de notre réseau d’ondelettes sera donc comme suit :

Figure 52. Principe de la méthode d’apprentissage en utilisant les eigenfaces et les réseaux d’ondelettes

Pour reconnaître le visage d’une personne, nous faisons passer les coefficients

d’eigenface de son image par tous les réseaux d’ondelettes de la base de paramètres, puis la

procédure utilisant l’approche de L’EQM est appliquée pour prouver l’identité du visage.

x1

xj

xm

y1

yj

ym

w11

w1j

w1m

a1

ak

b1

bk

ai bi wi

Base de paramètres (Un réseau par personne)ai: paramètre de dilatation de l’ondelette

bi : paramètre de translation de l’ondelette wi: Poids des connexions du réseau

1

2

.

.

.

n

ωω

ω

⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

1

2

.

.

.

n

ωω

ω

⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦


110

3.1.6 Conclusion

Cette section nous a permis de présenter une première architecture des réseaux

d’ondelettes pour la reconnaissance de visages. Nous avons montré qu’il s’agit d’un type

spécifique de réseau de neurones. Ainsi nous avons présenté son algorithme d’apprentissage

basé sur la rétropropagation du gradient et l’algorithme de décision de la reconnaissance de

visages.

Cet algorithme d’apprentissage malgré ses résultats fort intéressants, a des

inconvénients remarquables tels que la lenteur, les problèmes d’initialisations des paramètres

et des poids et la convergence à des minimas locaux.

3.2. Approche utilisé pour la reconnaissance de visage par un ROZ

3.2.1 Introduction

La deuxième technique de reconnaissance de visage mise en valeur dans cette thèse est

basée sur les ROZ avec des fonctions d’activations des ondelettes Bêta (ROZB). Dans ce qui

suit, nous commencerons par présenter quelques notions à utiliser avec cette technique, nous

présentons la procédure d’apprentissage puis nous détaillerons l’approche de reconnaissance.

3.2.2 Mesure de la distance euclidienne entre deux réseaux d’ondelettes

Il est intéressant de déterminer la similarité entre deux réseaux d’ondelettes Bêta. Dans

cette section, nous introduisons et discutons deux différentes mesures de distances:

Mesure de la distance entre deux ROZB spécifiques 1( , )vΦ et 2( , )wΦ . Cela permet de

comparer deux objets représentés par deux ROZB différents.

Mesure de la distance entre deux vecteurs de poids 1w et 2w d'une famille spécifique

d'ondelettes ψ ; c'est-à-dire comparaison entre deux ROB 1( , )wψ et 2( , )wψ . Cette mesure

permet de comparer deux objets représentés par le même réseau d'ondelettes.

Calcul direct de la distance entre deux réseaux d'ondelettes quelconques

Supposons qu’on dispose de deux réseaux d’ondelettes 1( , )vΦ et 2( , )wΦ avec deux

familles d’ondelettes 1{ | 1... }i i Nφ = et 2{ | 1... }i i Mφ =


111

11

N

i ii

f v φ=∑ (89)

22

M

i ii

f w φ=∑ (90)

Pour comparer ces deux réseaux d’ondelettes, il faut transformer le vecteur Nv ∈ du

réseau d’ondelettes 1Φ à un vecteur ' Mv ∈ du réseau d’ondelettes 2Φ . Pour aboutir à cette

transformation la technique des ondelettes duales est utilisée : dans l’ordre de représenter 1f avec les vecteurs du réseau 2Φ , on applique les ondelettes duales 2Φ des ondelettes 2Φ à 1f .

' 2 2 11v f v= Φ = Φ Φ (91)

Avec cette projection, 'v représente v dans le réseau des ondelettes 2Φ . La même

manipulation peut être faite avec les poids w :

' 1 1 22w f w= Φ = Φ Φ (92)

De ce fait 1f et 2f peuvent être écrites sous cette forme :

' 21

M

i ii

f v φ=∑ (93)

' 12

N

i ii

f w φ=∑ (94)

En utilisant ces formules, on peut comparer les deux réseaux (89) et (90), en comparant

les formules 11

N

i ii

f v φ=∑ et ' 12

N

i ii

f w φ=∑ ou 22

M

i ii

f w φ=∑ et ' 21

M

i ii

f v φ=∑ puisque à chaque

cas les deux réseaux utilisent les mêmes fonctions noyaux et leurs poids de connexions sont

représentés dans les même espaces d’ondelettes. De ce fait, le calcul de la distance entre deux


112

réseaux d’ondelettes 1( , )vΦ et 2( , )wΦ est transformé au calcul de la distance entre 1( , )vΦ

et 1 '( , )wΦ ou entre 2( , )wΦ et 2 '( , )vΦ .

Dans le cas de réseaux de tailles différentes, il vaut mieux de faire la projection sur le

réseau qui a la taille supérieure pour ne pas diminuer sa précision.

Mesure de distance entre deux réseaux d’ondelettes de mêmes fonctions noyaux :

Pour comparer deux réseaux d’ondelettes la distance euclidienne est calculée, Cette

mesure est donnée par la formule :

1 1 2

N N

i i j ji j

v wφ φ= =

−∑ ∑ (95)

Quelques transformations algébriques donnent :

1 1 21

2 2

1 1

12 2

1

12

1 1

12

1 1

( ) ( )

( ) ( )

( ) ( )

( ) ( )

N N

i i j ji j

N N

i i j ji j

N

i i i i ii

N N

i j i ji j

N N

i j i ji j

i j

v w

v x w x dx

x dx avec v w

x x dx

x x dx

φ φ

φ φ

δ φ δ

δ δ φ φ

δ δ φ φ

δ δ φ

= =

= =

=

= =

= =

−

⎡ ⎤⎛ ⎞⎢ ⎥= −⎜ ⎟⎢ ⎥⎝ ⎠⎣ ⎦

⎡ ⎤⎛ ⎞= = −⎢ ⎥⎜ ⎟

⎝ ⎠⎢ ⎥⎣ ⎦

⎡ ⎤⎛ ⎞= ⎢ ⎥⎜ ⎟⎢ ⎥⎝ ⎠⎣ ⎦

⎡ ⎤= ⎢ ⎥⎣ ⎦

= <

∑ ∑

∑ ∑∫

∑∫

∑∑∫

∑∑ ∫12

,

( ), ( )i ji j

x xφ⎡ ⎤

>⎢ ⎥⎣ ⎦∑ (96)

La distance euclidienne entre deux réseaux de mêmes fonctions ondelettes peut être

écrite comme suit :


113

12

,( ( ) )ti jΔ Φ Δ (97)

Avec 1( ... )tNδ δΔ = et , ,i j i jφ φΦ =< > ; cette matrice est calculée hors ligne, puisqu’elle

est déjà calculée lors de l’étape d’optimisation (équation (66)).

Donc, le calcul de la distance euclidienne entre deux réseaux se fait simplement en

calculant le vecteur différence entre les deux poids des deux RO.

3.2.3 Représentation de visage avec ROZB2D pour une reconnaissance automatique

Dans cette section nous allons discuter l’idée sur laquelle est basée notre approche de

reconnaissance automatique de visages avec les ROZB2D. Premièrement, nous présenterons

comment appliquer une approximation sur un visage pour masquer l’arrière-plan en vue d’une

reconnaissance meilleure. Ensuite, nous allons montrer la particularité de ces réseaux en

termes d’indépendance d’approximation. En fait, si un réseau est optimisé sur un objet il reste

très spécifique à cet objet. Nous présenterons en troisième lieu, la procédure d’apprentissage

et de création de la base d’apprentissage et enfin nous détaillerons l’algorithme de

reconnaissance.

Application d’un masque d’apprentissage.

Pour un taux de reconnaissance meilleur, une élimination de l’arrière-plan des images

d’apprentissage est fortement demandée. Un exemple sur la figure suivante montre une image

originale de visage, son approximation par un réseau d’ondelettes et l’approximation

seulement du visage contenu dans cette image.

Figure 53. Image originale 140x80


114

Figure 54. Approximation de l’image de la figure précédente par un ROZB sans et avec masque

Idée générale de la reconnaissance.

Notre algorithme de reconnaissance est basé sur la propriété des ROZB2D

d’approximation d’un objet spécifique, en effet un ROZB2D ( , )WΨ optimisé sur un visage

d’une personne f reste très spécifique à cet individu. Différents visages de la même personne

peuvent être représentés par des ROZB2D '( , )WΨ , pour lesquels la famille d’ondelettes

Ψ est la même, mais les poids 'W sont recalculés. Cependant, pour une autre personne g, il

semble que le ROZB2D optimisé pour f n’est pas une représentation acceptable. En essayant

de reconstruire f en utilisant la famille d’ondelettes Ψ , un nouveau vecteur de poids ''W peut

se manifister, mais la représentation de l’image f par le réseau '',WΨ≺ reste loin d’être

acceptable. Un exemple est représenté sur la figure suivante. A gauche, la reconstruction

d’une image f sur laquelle un ROZB2D ( , )WΨ est optimisé. Au centre, le visage de la même

personne mais avec une image différente est représenté par la même famille d’ondelettes Ψ et

de nouveaux poids 'W . A droite, une image d’une autre personne g représentée par un

ROZB2D ''( , )WΨ . Tous les poids 'W et ''W sont calculés par la méthode de la projection

de ces images sur la base duale des ondelettes Ψ .

Cet exemple montre qu’aucun vecteur de poids ''W , qui donne une bonne

reconstruction, comme c’est le cas pour l’image f ou l’image du milieu sur la figure suivante,

ne peut être trouvé pour représenter d’une façon acceptable l’image g. Cela démontre que si

un ROZB2D ( , )WΨ est optimisé pour un individu f et reste très spécifique à cet individu.

En conséquence, quand on dit qu’un ROZB2D est spécifique à une personne, nous voulons


115

dire que la famille d’ondelettes est spécifique à cette personne et nous ignorons le vecteur de

poids W .

Comme un ROZB2D est très spécifique à une personne sur laquelle le sujet est

optimisée, il est raisonnable que si l’on veut trouver le degré de ressemblance d’une image de

test g et une image d’apprentissage f, on peut appliquer le ROZB2D de l’image f sur le visage

g et mesurer la qualité de la reconstruction pour déterminer si les deux visages sont de la

même personne ou non.

En résumé, notre technique de reconnaissance consiste à :

1. Coder chaque image d’apprentissage par un ROZB2D.

2. Coder l’image de test avec les ROZB2D de la base d’apprentissage.

3. Comparer successivement les ROZB2D obtenues de l’image de test avec les ROZB2D de

la base d’apprentissage.

Figure 55. A droite, l’image d’une personne représentée par un ROZB2D, au milieu, une image de la même personne et à droite, l’image d’une autre personne représentées par le

même ROZB2D.

La construction d’une base d’apprentissage par ROZ et le principe d’apprentissage.

Dans cette étape, nous envisageons l’approximation de chaque image de la base

d’apprentissage par un ROZB2D. Nous utiliserons notre technique d’apprentissage de ces

réseaux basée sur la théorie de frames présentée dans le chapitre précédent. L’apprentissage

est achevé lorsqu’une erreur entre l’image originale et l’image reconstruite par le ROZB2D,

prédéfinie à priori, est atteinte.


116

Comme dans la section précédente, une base de paramètres des réseaux d’apprentissage

est reconstruite au fur et à mesure qu’on approxime une image d’un visage par un ROZB2D.

Nous avons choisi de localiser l’approximation sur l’image du visage dans le but de

masquer l’arrière-plan. La figure suivante montre l’évolution de la qualité de l’image

approximée en fonction du nombre d’ondelettes par rapport à l’image originale.

Figure 56. Image originale 140x80

2 ondelettes 10 ondelettes 16 ondelettes 32 ondelettes

64 ondelettes 100 ondelettes 142 ondelettes 175 ondelettes

Figure 57. Sortie du réseau en fonction du nombre d’ondelettes utilisé


117

3.2.4 L’approche de la reconnaissance.

Reparamétrage du ROZB2D :

Nous avons démontré dans le paragraphe précédent qu’un ROB2D est très spécifique à

un objet sur lequel il a été optimisé. Pour assurer un calcul optimal des poids de connexions et

les filtrations optimales par les ondelettes bêta du réseau sur une image contenant le même

objet, mais avec des positions ou des orientations différentes, les ondelettes ont besoin d’être

replacées sur les zones de la nouvelle image sur les quelles elles sont supposées placées sur

l’image d’apprentissage.

Pour être plus clair, supposons qu’on a un ROZB2D constitué de quatre ondelettes qui

approximent le visage d’une personne. Avec deux ondelettes qui approximent les deux yeux,

une pour le nez et une quatrième pour la bouche, supposons aussi qu’on a une deuxième image

de la même personne, mais avec une position et une orientation différentes qu’on veut

approximer par le même ensemble d’ondelettes. Il est clair qu’il faut repositionner les quatre

ondelettes sur les nouvelles positions des yeux, du nez et de la bouche pour une approximation

optimale de cette deuxième image.

Un exemple est présenté sur la figure suivante ; à gauche, dix ondelettes optimales sont

placées sur le visage f d’une personne en vue de l’approximer par un ROZB2D. Au milieu, un

autre visage g de la même personne à approximer par la même famille d’ondelettes qui ont

gardé leurs mêmes positions alors que les éléments du visage ont changé de positions et

d’orientations. A droite, le même visage g avec les mêmes ondelettes, mais après correction

de leurs paramètres (translations, dilatations et orientations).

Figure 58. Reparamétrage d’un RO optimisé sur un visage d’une personne


118

Le reparamétrage d’un réseau d’ondelettes est établi en utilisant une superondelette

(Szu H, 1992) (Kruger, 2000).

Définition :

Une superondelette Ψ est définie comme la combinaison linaire d’un ensemble

d’ondelettes linéairement indépendantes :

( ) ( )n i nii

x w xψΨ =∑ (98)

Avec les paramètres du vecteur ( , , , )x yn a b b θ= de la superondelette Ψ sont la

dilatation a, les deux translations sur les deux axes bx et by et le paramètre de rotation θ .

Une superondelette est une ondelette (Szu H, 1992), qui a les paramètres de translations,

de dilatation et de rotation. Par conséquent, on peut la traiter comme on traite une ondelette

élémentaire.

Pour garantir toutes les déformations affines possibles Kruger, dans (Kruger, 2000), a

ajouté deux paramètres xa et ya pour le vecteur n pour que la superondelette puisse se dilater

indépendamment dans les deux sens.

Pour une nouvelle image g, on peut déformer une superondelette Ψ en optimisant ces

paramètres n pour qu’elle approxime cette image g. Le fait que la superondelette est la

combinaison linéaire d’un ensemble d’ondelettes, les déformations peuvent être généralisées

sur ces ondelettes. Cela veut dire par exemple, que si la superondelette est déplacée par une

translation égale à a dans le sens de l’axe des x, la même translation est appliquée sur les

ondelettes iψ constituant cette superondelette.

Il est clair qu’un ROZB2D ,WΨ≺ , après une phase d’apprentissage, est une

superondelette, alors, pour reparamétrer ce réseau on peut optimiser les paramètres de sa

superondelette.

Nous avons choisi, pour l’optimisation des paramètres de la superondelette, la méthode

de marquardt-levenberg , qui est reconnue parmi les meilleures méthodes d’optimisation.

L’exemple de la figure suivante montre la superondelette optimisée sur le visage d’une

personne f puis sur la figure d’après, les étapes d’optimisation des paramètres de cette

superondelette pour qu’elle approxime une image g.


119

On remarque qu’au début de la procédure d’optimisation, la superondelette ne couvre

pas le visage de la personne g, puis au long des itérations les paramètres de translation, de

dilatation et de rotation sont changés et la superondelette à été déformée et replacée pour

couvrir les zones de visage approximées déjà sur l’image f .

Figure 59. Une Superondelette optimisée sur une image

Figure 60. Reparamétrage de la superondelette de l’image f pour approximer l’image g

Les étapes de reconnaissance

Pour reconnaître un visage g d’une personne, en premier lieu, les superondelettes iΨ de

tous les ROZB2D de la base d’apprentissages sont modifiées linéairement pour mieux

approximer l’image g. Nous aboutissons à des nouvelles superondelettes 'iΨ pour chaque

ROZB2D de la base d’apprentissage. Ces modifications peuvent être généralisées sur les

ondelettes de chaque réseau puisque chaque superondelette est la somme pondérée de ses


120

ondelettes. Les résultats sont des nouveaux réseaux '( , )i iWΨ . Ces réseaux ne sont pas

parfaitement optimisés pour caractériser l’image g. Des améliorations peuvent être faites en

recalculant leurs poids de connexions. Les nouveaux poids sont obtenus en exploitant la

méthode de projection sur les bases duales d’ondelettes pour obetir enfin à un ensemble de

nouveaux réseaux ' '( , )i i

WΨ .

En deuxième lieu, ces réseaux ' '( , )i i

WΨ sont comparés à leurs origines ( , )i iWΨ de la

base de paramètres reconstruite pendant l’apprentissage, en calculant les distances

euclidiennes. La distance minimale concerne généralement la personne cherchée.

Les figures suivantes représentent ces étapes de reconnaissance :

Figure 61: Le visage g à reconnaître


121

Etape 1 :

Etape 2 :

Etape 3 :

' '( (( , ), ( , ))) ?i ii iMIN DISTANCE W WΨ Ψ =

Figure 62: Les trois étapes de la phase de reconnaissance

3.2.5 Conclusion

Dans cette section nous avons présenté notre deuxième technique de reconnaissance de

visages basée sur les réseaux ROZ2D. La phase d’apprentissage de cette approche consiste à

optimiser un ROZB2D pour chaque image d’apprentissage. L’algorithme d’apprentissage

basé sur la théorie des frames a été employé. Ces réseaux sont enregistrés dans une base,

appelé base de paramètres, en vue d’une utilisation ultérieure pendant la phase de

reconnaissance.

. w'

'ψ

' '( , )i iWΨ

Base d’apprentissage ( , )i iWΨ

.

.

Approximer g par

Translations, Dilatations et Rotations des iΨ

( , )i iWΨ


122

Nous avons montré que, si un ROZ2D optimisé pour un individu alors il reste très

spécifique à cet individu. De ce fait, nous avions l’idée de l’algorithme de reconnaissance qui

consiste à déformer les superondelettes de chaque réseau d’apprentissage puis de recalculer

leurs poids de connexions pour approximer une image de test. Ces réseaux sont comparés à

leurs origines de la base de d’apprentissage en calculant les distances euclidiennes entre eux.

Nous avons montré également que l’utilisation de cette mesure pour comparer deux

ROZ est conseillée, on a pu la réduire à un calcul direct de la différence entre leurs poids de

connexions.

Dans la section suivante, nous présenterons l’implémentation de ces deux réseaux et

nous montrerons leurs performances dans le domaine de reconnaissance de visages en les

testant sur différentes bases de visages.

4. Implémentation et Résultats

4.1. Introduction

La reconnaissance du visage par vision numérique est, comme démontrée

précédemment, très complexe et très variée. Les différentes méthodes envisageables

possèdent des avantages et des inconvénients qui doivent être considérés lors du design d’un

système complet d’identification. Pour ce faire, il est primordial de valider les techniques

choisies sur des ensembles de données relativement volumineux connus par la commuté

mondiale. Même si de telles images ne représentent pas exactement les conditions réelles

d’utilisation, elles procurent, néanmoins, une idée fiable du comportement des différents

modules dans un environnement contrôlé.

Ainsi, plusieurs bases d’images ont été créées afin de comparer les différentes méthodes

entre elles selon diverses conditions (c’est-à-dire. : éclairage, pose, occultations, etc.). Parmi

celles-ci, il y a notamment la FERET (Jonathon, 2000), AR-face (Aleix, 1998), AT&T

(appelée auparavant Olivetti), X2MVTS (Aleix, 1998), Yale, MIT, Achermann ainsi que

plusieurs autres.

Chacune d’entre elles possède évidemment ses particularités spécifiques ainsi que ses

qualités et défauts.


123

Ce dernier chapitre exposera alors à la section II les différentes bases d’images retenues

pour les expérimentations, soient la FERET et AT&T Ensuite, la section III présentera de

nombreux résultats expérimentaux de reconnaissance de visages basés sur les réseaux

d’ondelettes Bêta.

Pour mieux évaluer les performances de ces réseaux d'ondelettes Béta, cette section

comportera aussi des comparaisons à d'autres méthodes de reconnaissance de visages

(Réseaux de neurones (RN), EigenFaces, ADL et EBGM ).

4.2. Mesure de la performance d’un algorithme de reconnaissance de visages

Il existe deux façons pour mesurer la performance d’un algorithme de reconnaissance

du visage :

Le système CMC (pour “Cumulative Match Characteristic” en anglais) est utilisé pour

mesurer la performance d’un système d’identification. Cette mesure donne le pourcentage de

personnes reconnues en fonction d’une variable que l’on appelle le rang. On dit qu’un

système reconnait au rang 1(on utilise aussi le terme de reconnaissance 1 : n) lorsqu’il choisit

la plus proche image comme résultat de la reconnaissance. On dit qu’un système reconnaît au

rang 2, lorsque l’on considère que le résultat est correct même si l’image choisie vient dans le

deuxième rang des images de tests qui correspondent le mieux à l’image d’entrée, etc… On

peut donc dire que, plus le rang augmente, plus le niveau de sécurité correspondant est plus

faible.

Une autre manière d’évaluation du système de reconnaissance est de faire modifier le

nombre d’images d’apprentissage. Ce système s’appelle FRCM (Face Recognition

Committee Machine) il consiste, pour une base qui contient des classes ayant n visages

chacune, de faire l’apprentissage avec une seule image et la reconnaissance sur (n-1) images

pour chaque classe. Ce test est répété n fois en enlevant chaque fois une image de test et en

l’ajoutant au groupe "image d’apprentissage".

4.3. Base d’images

Peu importe le problème de reconnaissance des formes, un point commun demeure

toujours présent : la nécessité d’utiliser un ensemble de données volumineux, représentatif et


124

standardisé. Cette particularité est effectivement primordiale pour la comparaison des

techniques ou d’algorithmes, permettant ainsi une évaluation relative des performances.

Cela étant dit, plusieurs points importants sont à considérer lors de la création ou de la

sélection d’une base d’images. Voici donc les particularités majeures à prendre en

considération :

– Nombre de personnes : La quantité d’individus dans une base d’images est

l’un des points le plus important. En effet, ce nombre influence directement le niveau

de difficulté de la base: plus la quantité est élevée, plus la tâche de reconnaissance sera

difficile. De surcroît, la base représentera davantage les tâches d’identification en

situations réelles, qui contiennent au minimum plusieurs milliers de personnes à

identifier.

– Nombre d’images par individu : Une certaine quantité d’images est

habituellement disponible pour chaque personne de la base de données. Un nombre

élevé procure généralement un meilleur apprentissage du module d’identification.

Certaines bases d’images n’offrent cependant qu’une seule image d’entraînement par

individu, ce qui aggrave énormément le problème.

– Hommes/femmes : Le ratio d’hommes et de femmes représente une

particularité intéressante. Etant donné que certaines différences relatives au genre

peuvent être modélisées efficacement1, une base ne contenant que des hommes ne

pourra être de difficulté égale à une autre contenant 50% de femmes. Finalement, il y a

habituellement un plus grand nombre de femmes portant des cheveux longs, ce qui

peut influencer certains algorithmes de reconnaissance.

– Arrière-plan : La plupart des bases d’images contiennent des photos avec un

arrière-plan neutre ou de couleur blanche. Les conditions d’acquisition ne sont par

contre pas toujours idéales, occasionnant parfois la présence d’objets nuisibles ou

d’arrière-plans complexes.

– Dimension des images : La taille en pixels des images n’a généralement pas

beaucoup d’influence sur les algorithmes de reconnaissance. Il existe cependant des

dimensions minimales nécessaires à une représentation fidèle et unique de l’individu;

1 Un exemple de ce type de différence réside dans la taille de la tête. Une fois normalisé à partir des yeux, le visage d’un homme est en moyenne plus grand que celui d’une femme, aidant donc à discriminer certains individus.


125

– Couleurs/tons de gris : L’utilisation de couleurs dans les techniques

d’identification est peu répandue. Elle peut par contre s’avérer fort utile pour une

détection des pixels représentant la peau ou pour la pré-classification d’individus de

races différentes.

– Coordonnées cartésiennes des composantes du visage : Ces informations

supplémentaires s’avèrent particulièrement pratiques pour la comparaison de

méthodes de reconnaissance. En effet, les résultats obtenus ne dépendant pas de la

qualité de la détection du visage. Des analyses plus robustes et plus représentatives

peuvent être réalisées.

– Cas particuliers ou difficiles : Des conditions spéciales peuvent également

être présentes dans les bases d’images. Citons notamment, les cas d’occultations (par

exemple lunettes fumées, chapeau, bandeau, cigares, etc.), d’expressions faciales

variées (par exemple sourire, grimace, yeux fermés, etc.), de changements corporels

(par exemple barbe, moustache, maquillage, verres de contact de couleurs, couleurs de

cheveux, cheveux détachés, etc.) et d’éclairage (par exemple incandescent,

directionnel, etc.) ;

– Pose : La pose de la tête de l’individu représente finalement un autre point

important. En effet, la reconnaissance d’un visage de profil sera différente d’un visage

orienté à 45 degrés et nécessitera un ajustement des techniques d’apprentissage.

Il y a donc plusieurs propriétés qu’il conviendrait de vérifier lors de la sélection d’une

base d’images à des fins d’expérimentations. Ces particularités s’appliquent également lors de

la création d’une base d’images.

Dans le cadre de cette thèse, deux bases d’images ont été utilisées, soient la AT&T et la

base FERET.

Trois principaux facteurs ont été à l’origine de leur sélection, entre autres, la nécessité

de tester les approches proposées sur des bases de différentes tailles (AT&T de petite taille et

FERET de grande taille), la degré de complexité (exemple la base FERET dispose

d’expressions faciales des poses et des luminosité différentes, etc.) et enfin pour la

disponibilité des taux de reconnaissance des algorithmes d'identification de visages les plus

connus sur ces bases d'images. Les sous-sections suivantes présenteront chacune de ses bases

d’images avec plus de détails.


126

4.3.1 AT&T (ORL)

La base de visages AT&T est composée d'un ensemble de visages pris entre avril 1992

et avril 1994 à l'Olivetti Research Laboratoire (ORL) à Cambridge, Royaume-Uni.

Il y a 10 images de 40 individus différents. Pour chaque individu, les images ont été

prises à des temps et avec des éclairages différents, des expressions faciales variables (yeux

ouverts/fermés, souriant/non-souriant) et avec ou sans accessoires (lunettes).

Les fichiers images sont avec un format .TIF (Tagged Image File Format) en 256

niveaux de gris. La dimension de chaque image est 92 x 112. Les images sont renommées

comme suit: 0x.TIF

Où x varie de 568 à 967. Comme il y a 10 images par individu dans la base ORL, les 5

premières d'entre elles sont utilisées pour l’apprentissage et le reste est utilisé pour les tests.

De plus, des différentes modifications sont effectuées, telles que changer le nombre

d'images d'apprentissage et celui de test afin de voir la réaction des systèmes de

reconnaissance à ces changements.

Figure 63. Les images d’une même personne de la base ORL


127

Figure 64. Les 40 personnes de la base ORL

4.3.2 FERET

Le programme FERET fût démarré en 1993 dans le but de comparer les différents

algorithmes de reconnaissance disponibles à ce moment-là. Une série de compétitions entre

différentes institutions (universités) fût également instaurée. Un protocole expérimental a été

alors développé conjointement avec la création d’une base d’images impressionnante pour

uniformiser ces expérimentations.

Tout d’abord, la FERET contient à elle seule 14 126 images de 1 199 hommes et

femmes de toutes races confondues. Les photos qu’elle renferme sont de faibles dimensions

(256×384) et quantifiées en tons de gris sur 8 bits (256 niveaux). La Figure 65 illustre

notamment quelques images extraites de la FERET.


128

�

Figure 65. Base d’images FERET : exemples d'images originales (dimension : 256×384)

Chaque individu possède évidemment plusieurs images représentant différentes

caractéristiques :

– Séances différentes et temporellement espacées (c'est-à-dire : plus d’un an).

– Variation de la pose : rotation de la tête selon des angles prédéfinis.

– Acquisition d’images avec des caméras et un éclairage différents.

– Expressions faciales variées.

– Ajout ou élimination d’objets (par exemple lunettes), etc.

Pour faciliter la comparaison des différentes méthodes, un protocole expérimental fût

élaboré. Des sections standards contenant des centaines d’images furent également définies et

se divisant en deux catégories : les gallery et les probe.

Alors que le sous-groupe gallery contient les images d’apprentissage, le sous-groupe

probe regroupe quant à lui les images utilisées lors de la vérification. Un résumé des

différentes sections définies est illustré au Tableau 2.


129

Tableau 2. Taille des sections de la base d’images FERET

Catégorie Taille de la base test Taille de la base d’apprentissage

fb 1195 1196

fc 194 1196

duplicate I 722 1196

duplicate II 234 864

Il est intéressant de noter que les trois premières bases de test utilisent la même base

d’apprentissage. Chacune d’entre elles regroupe des images possédant des caractéristiques

similaires, mais différentes de la base d’entraînement : expressions faciales différentes (fb),

images frontales dupliquées (duplicate I), caméra et éclairage variés (fc) et images frontales

dupliquées acquises au moins un an plus tard (duplicate II) (Jonathon, 2000).

Dans tous les cas, les sections de vérification peuvent contenir plusieurs images par

personne2 contre une seule image d’apprentissage; l’objectif est donc, de déterminer l’image

correspondante parmi plusieurs. La catégorie de tests utilisant la section fb contient par

exemple 1195 images de test pour 1196 images d’apprentissage (c'est-à-dire 1 image par

personne donc 1196 individus).

Cela représente en somme un problème très difficile car, contrairement à certains

domaines de reconnaissance des formes qui possèdent peu de classes et beaucoup d’exemples,

la reconnaissance des visages sur la base FERET repose sur un grand nombre de classes

comptant très peu de prototypes.

Finalement, les raisons pour lesquelles la base d’images FERET fut retenue reposent

essentiellement sur sa taille et sa diversité. En effet, vu le nombre élevé d’individus contenus

dans la base, celle-ci représente une tâche complexe d’identification et un bon défi pour tout

système de reconnaissance.

Certains désavantages incombent cependant à son utilisation. Tout d’abord, les

algorithmes utilisant la couleur doivent être rejetés car les images sont en tons de gris. De

2 Certains individus ne sont pas représentés dans la base d’images de test.


130

plus, l’identification de personnes avec une seule image d’apprentissage par personne est une

pâle limitation de la réalité et semble peu appropriée pour tester un système devant, par

exemple reconnaître des dizaines de milliers d’individus.

4.4. Résultats de la base ORL

Pour évaluer notre système sur la base ORL, Nous commençons par comparer nos trois

approches de reconnaissances de visages à savoir : l’approche basée sur les ROB avec

l’algorithme de la retropropagation comme algorithme d’apprentissage, celle basée sur les

ROZB1D et la technique basée sur les ROZB2D qui exploitent la théorie des frames pour

l’apprentissage. Nous utilisons le système d’évaluation CMC pour ce premier test.

Tableau 3. Comparaison des trois techniques de reconnaissance de visages basées sur le réseau d’ondelettes Bêta (Base ORL)

Nbr d’images

d’apprentissage ROB(Retropropagation) ROB1D(Frame) BOZB2D (frames)

1 0,707 0,73 0,751

2 0,8201 0,844 0,8694

3 0,89 0,9 0,909

4 0,9182 0,9282 0,9382

5 0,95 0,9591 0,9645

6 0,959 0,964 0,9677

7 0,97 0,978 0,9855

8 0,971 0,979 0,981

9 0,978 0,9801 0,982


131

0,7

0,75

0,8

0,85

0,9

0,95

1

1 2 3 4 5 6 7 8 9Nombre d'images d'apprentissage

Tau

x de

rec

onna

issan

ce

ROB(Retropropagation) ROB1D(Frame) BOZB2D (frames)

Figure 66: Comparaison des trois techniques de reconnaissance de visages basées sur le réseaux d’ondelettes Bêta (Base ORL)

Cette figure montre la supériorité de la technique utilisant les ROZB2D qui utilisent la

théorie des frames pour leurs apprentissages par rapport aux deux autres méthodes proposées.

Dans la suite des évaluations, cette méthode sera comparée avec les techniques de

reconnaissance de visages connues à savoir; le ACP, le ADL, le EBGM et les réseaux de

neurones RBF. La comparaison sera faite par l’application des deux méthodes de calcul de

performances d’un système de reconnaissance de visages : le CMC et le FRCM.


132

4.4.1 Utilisation du système CMC sur la base ORL :

Dans le tableau et la figure suivants, le système d’évalution CMC est utilisé pour

comparer différentes méthodes de reconnaissance de visages avec notre méthode de

reconnaissance basée sur ROZB2D (Ahonen, 2004) (Marcialis, 2002) (Lu, 2003).

Tableau 4. Comparaison des trois techniques de reconnaissance de visages basées sur le réseaux d’ondelettes Bêta (Base ORL)

Méthode

Rang ROZB2D RBF PCA LDA EBGM

1 0,85 0,825 0,79 0,81 0,81

2 0,88 0,867 0,84 0,82 0,85

3 0,912 0,895 0,86 0,83 0,88

4 0,926 0,9 0,87 0,84 0,885

5 0,93 0,912 0,88 0,845 0,89

6 0,937 0,92 0,885 0,847 0,9

7 0,942 0,9245 0,888 0,8475 0,91

8 0,949 0,937 0,9 0,848 0,93

9 0,951 0,942 0,91 0,85 0,935

10 0,956 0,951 0,92 0,86 0,946


133

0,75

0,8

0,85

0,9

0,95

1

1 2 3 4 5 6 7 8 9 10Rang

Tau

x de

rec

onna

issa

nce

RO ZB2DRBFPCALDAEBGM

Figure 67. Comparaison de l’approche proposée (ROZB2D (frames) ) avec d’autres techniques (système CMC sur la Base ORL)

4.4.2 Evaluation du système FRCM sur la base ORL

La comparaison avec les autres techniques est faite en calculant les taux de la

reconnaissance en variant le nombre n d'images d'apprentissage (n=1,...,9). Les images

d'apprentissage de chaque personne sont sélectionnées au hasard pour former les 10-n images

de test (notez que pour n=1 la méthode ADL n'est pas calculable) (Tang, 2004) (Liu, 2004).

Au moins 50 combinaisons d'images d'apprentissage et de test pour chaque valeur de n

sont choisies et les résultats moyens sont calculés et retenus.


134

Tableau 5. Comparaison de l’approche proposée (ROZB2D (frames) ) avec d’autres techniques (système FRCM sur la Base ORL)

Nbr d’images

d’apprentissage

ROZB2D RBF PCA LDA EBGM

1 0,751 0,6907 0,5643 - 0,65

2 0,8694 0,8108 0,7119 0,6884 0,75

3 0,909 0,8809 0,7966 0,8174 0,83

4 0,9382 0,9182 0,8492 0,8674 0,88

5 0,9645 0,9464 0,8831 0,8887 0,9

6 0,9677 0,9568 0,9084 0,9086 0,92

7 0,9855 0,968 0,9258 0,9162 0,94

8 0,981 0,971 0,9405 0,9285 0,95

9 0,982 0,979 0,952 0,9375 0,96


135

0,55

0,6

0,65

0,7

0,75

0,8

0,85

0,9

0,95

1

1 2 3 4 5 6 7 8 9

Nombre d'images d'apprentissage

Tau

x de

rec

onna

issa

nce


Figure 68: Comparaison de l’approche proposée (ROZB2D (frames) ) avec d’autres techniques (système FRCM sur la Base ORL)


136

4.5. Résultats de la base FERET

La comparaison des différents algorithmes de reconnaissance de visages est plus facile

avec la base FERET. Les taux de reconnaissance de chaque méthode sont disponibles sur le

site web officiel de cette base. Seul le système d’évaluation CMC est utilisé, puisque les

images d’apprentissage et de test sont fixées dès le début (le système FRCM nécessite une

variation des images d’apprentissage). Les résultats d'identification de quelques approches

avec ceux de notre algorithme basé sur les réseaux d'ondelettes Bêta sont illustrés sur les

figures suivantes (Liu, 2004) (Akalin, 2003) (Kepenekci, 2001).

Tableau 6: Comparaison de l’approche proposée (ROZB2D ) avec d’autres techniques (système CMC sur la Base FERET, Catégorie fb)

Méthode

Rang


1 0,91 0,85 0,58 0,62 0,88

5 0,954 0,92 0,73 0,75 0,95

10 0,967 0,95 0,8 0,8 0,96

15 0,975 0,96 0,82 0,82 0,97

20 0,98 0,965 0,86 0,83 0,97

25 0,981 0,969 0,88 0,85 0,975

30 0,985 0,972 0,89 0,86 0,98

35 0,987 0,978 0,9 0,87 0,981

40 0,99 0,98 0,92 0,88 0,982

45 0,992 0,983 0,93 0,89 0,987

50 0,993 0,985 0,94 0,9 0,988


137

0,55

0,6

0,65

0,7

0,75

0,8

0,85

0,9

0,95

1

1 5 10 15 20 25 30 35 40 45 50Rang

Tau

x de

rec

onna

issa

nce


Figure 69 : Comparaison de l’approche proposée (ROZB2D ) avec d’autres techniques (système CMC sur la Base FERET, Catégorie fb)


138

Tableau 7. Comparaison de l’approche proposée (ROZB2D (frames) ) avec d’autres techniques (système CMC sur la Base FERET, Catégorie fc)

Méthode

Rang


1 0,47 0,44 0,42 0,28 0,42

5 0,77 0,75 0,72 0,45 0,55

10 0,84 0,82 0,8 0,55 0,68

15 0,86 0,847 0,82 0,6 0,75

20 0,88 0,86 0,84 0,67 0,78

25 0,89 0,869 0,86 0,75 0,8

30 0,9 0,886 0,88 0,76 0,81

35 0,91 0,888 0,88 0,78 0,82

40 0,92 0,9 0,88 0,8 0,84

45 0,93 0,91 0,9 0,85 0,86

50 0,94 0,9156 0,91 0,86 0,87


139

0,25

0,35

0,45

0,55

0,65

0,75

0,85

0,95

1 5 10 15 20 25 30 35 40 45 50

Rang

Tau

x de

rec

onna

issa

nce


Figure 70: Comparaison de l’approche proposée (ROZB2D (frames) ) avec d’autres techniques (système CMC sur la Base FERET, Catégorie fc)


140

Tableau 8. Comparaison de l’approche proposée (ROZB2D ) avec d’autres techniques (système CMC sur la Base FERET, Catégorie duplicate I)

Méthode

Rang


1 0,5 0,41 0,18 0,4 0,44

5 0,57 0,52 0,35 0,5 0,58

10 0,63 0,6 0,4 0,54 0,62

15 0,69 0,67 0,45 0,56 0,68

20 0,72 0,7 0,5 0,58 0,71

25 0,77 0,74 0,53 0,6 0,73

30 0,78 0,76 0,55 0,62 0,75

35 0,7952 0,77 0,57 0,64 0,76

40 0,81 0,785 0,59 0,66 0,78

45 0,82 0,81 0,6 0,68 0,8

50 0,85 0,83 0,62 0,69 0,81


141

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

1 5 10 15 20 25 30 35 40 45 50

Rang

Tau

x de

rec

onna

issa

nce

ROZB2D (frames) RBF PCA LDA EBGM

Figure 71 : Comparaison de l’approche proposée (ROZB2D (frames) ) avec d’autres techniques (système CMC sur la Base FERET, Catégorie duplicate I)


142

Tableau 9. Comparaison de l’approche proposée (ROZB2D) avec d’autres techniques (système CMC sur la Base FERET, Catégorie duplicate II)

Méthode

Rang


1 0,3 0,2 0,08 0,14 0,22

5 0,45 0,39 0,22 0,27 0,42

10 0,53 0,49 0,33 0,3 0,49

15 0,623 0,6 0,39 0,37 0,58

20 0,665 0,65 0,43 0,39 0,64

25 0,695 0,68 0,47 0,4 0,68

30 0,745 0,71 0,49 0,42 0,69

35 0,778 0,74 0,5 0,44 0,72

40 0,81 0,79 0,51 0,47 0,76

45 0,84 0,82 0,54 0,49 0,8

50 0,88 0,84 0,55 0,49 0,81


143

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

1 5 10 15 20 25 30 35 40 45 50

Rang

Taux

de

reco

nnai

ssan

ce


Figure 72 : Comparaison de l’approche proposée (ROZB2D (frames) ) avec d’autres techniques (système CMC sur la Base FERET, Catégorie duplicate II)


144

5. Conclusion

Dans ce chapitre, nous avons évoqué notre contribution dans le domaine de

reconnaissance de visages. Nous avons proposé deux approches basées sur les ROB et ROZB

pour l’apprentissage et la reconnaissance des images de visages humains. Nous avons conçu

un système capable d'exécuter la tâche d’identification automatique de visages toute en

introduisant et implémentant un algorithme d’apprentissage des ROZ basé sur la théorie des

"frames".

Nous avons validé nos approches sur deux bases de visages de caractéristiques

différentes (ORL et FERET) et nous l’avons comparé à d’autres techniques de reconnaissance

(ACP, ADL ,EBGM …).

Les performances des réseaux d’ondelettes Bêta comme classificateurs pour la

reconnaissance de visages sont évidentes à travers les résultats. La robustesse et la rapidité de

l’approche ROZB qui se base sur la théorie des frames font valoir les avantages de ces

réseaux.

145

Conclusion et perspectives

Nous avons, dans ce travail, apporté notre contribution à l’utilisation de l’analyse

en ondelettes dans les réseaux de neurones artificiels et leurs applications dans le

domaine de reconnaissance de visages.

Dans un premier temps, nous avons présenté l’état de l’art sur les différentes

méthodes de détection et reconnaissance de visages. Dans un second temps, nous avons

présenté la technique de l’analyse en ondelettes et ses avantages par rapport à l’analyse

de Fourrier.

Les réseaux de neurones sont utilisés dans le problème de la classification et en

particulier dans le domaine de la reconnaissance de visages. Nous avons d’une part,

étudié les particularités des réseaux d’ondelettes dans ce domaine. D’autre part, nous

avons démontré leur capacité de réaliser des taux de reconnaissance élevés. Nous

déduisons que ces réseaux d’ondelettes possèdent cette caractéristique particulière.

Nous avons exploité premièrement les ROB entrainés avec l’algorithme de la

rétropropagation de gradient pour proposer une première approche de reconnaissance de

visages.

Cet algorithme a présenté des inconvénients gênants, comme la lenteur ou la non

garantie de sa convergence. Pour cela nous avons essayé de développer un algorithme

d’apprentissage intelligent plus sophistiqué que celui de la rétropropagation de gradient

pour l’apprentissage. En fait, la théorie des frames permet une représentation exacte et

sans redondance du signal en le projetant simplement sur la base des ondelettes, ce qui

nous a permis le calcul direct et avec une façon optimale les poids de connexions du

réseau.

Nous avons exploité cet algorithme pour l’apprentissage des ROZB et la notion du

SuperOndelette Bêta pour proposer une deuxième approche de reconnaissance de

visages basée sur les ROZB.

La validation de ces algorithmes d’apprentissage et de reconnaissance dans les

deux cas 1D et 2D a été faite sur les deux bases d’images ORL et FERET. Les

taux de reconnaissances obtenues ont montré la supériorité des méthodes proposées par

rapport aux techniques de reconnaissances de visages les plus connues.

146

Toute fois, nous estimons continuer nos recherches, notamment tester notre

algorithme d’apprentissage des réseaux d’ondelettes sur d’autres applications traitant le

visage, telle que la détection ou la suivi de visages dans une séquence vidéo. D’autres

domaines de classifications et plus précisément la reconnaissance biométrique tels que

l’iris ou l’empreinte digitale peuvent être abordés.

De point de vue théorique, nous visons développer notre algorithme

d’apprentissage des ROZ d’une part en essayant de choisir la meilleure ondelette de la

bibliothèque, à chaque itération, pour récupérer la meilleure approximation à la sortie du

réseau puis d’optimiser les paramètres de la fonction Bêta d’autre part pour trouver plus

de dépendance entre les ondelettes de la base pour diminuer le nombre de neurones du

ROZ et diminuer ainsi sa complexité.

147

Abréviations

ACP: Analyse en composantes principales

EV: Espace de visages

ADL: L’analyse à discrimination linéaire

MLP: Multi-Layer Perceptron

DCT: Discrete cosine transform

EBGM: Elastic Bunch Graph Matching

HMM: Hidden Markov Models

MC: multi-classifieur

FFT: Fast Fourier Transform

PMC: Perceptron MultiCouche

RBF: Réseaux de Neurone à fonction radiale

RO: Réseaux d’Ondelettes modèle 1

ROZ: Réseau d’ondelettes modèle 2 (Modèle de Zhang)

ROZ2D: Réseau d’ondelettes de Zhang bidimensionnelle

Bêta1_1D: Ondelette Bêta 1 monodimensionnelle (Dérivée première de la fonction

Bêta)

Bêta2_1D: Ondelette Bêta 2 monodimensionnelle (Dérivée deuxième de la fonction

Bêta)

Bêta3_1D: Ondelette Bêta 3 monodimensionnelle (Dérivée troisième de la fonction

Bêta)

Bêta1_1D: Ondelette Bêta 1 bidimensionnelle



EQM: L’Erreur Quadratique Moyenne

SEQM: Seuil d’Erreur Quadratique Moyenne

148

ROZB: Réseau d’ondelettes de Zhang Bêta

ROZB2D: Réseau d’ondelettes de Zhang Bêta bidimensionnel

CMC: Cumulative Match Characteristic

FRCM: Face Recognition Committee Machine

Fb: Catégorie "expressions faciales différentes" de la base FERET

Fc: Catégorie "caméra et éclairage variés " de la base FERET

duplicate I: Catégorie " images frontales dupliquées " de la base FERET

duplicate II: Catégorie " images frontales dupliquées acquises au moins un an plus tard"

de la base FERET

149

Notations

- Norme lp d’une séquence x:

pi

pip

xx ∑=

- l’ensemble des fonctions de R de carrée intégrable.

L2

- Produit scalaire de deux fonctions de carrée intégrable )(, 2 RLgf ∈ :

∫+∞

∞−>=< dxxgxfgf )()(,

- Transformée de Fourier d’une fonction )(2 RLf ∈ :

( ) ( ) 2i ftF f f t e dtπ+∞

−

−∞

= ∫

- Transformée inverse de Fourier de f :

( ) ( ) 2i ftf t F f e dfπ+∞

−∞

= ∫

- Transformée en ondelette d’une fonction )(2 RLf ∈ :

1( , ) ( ) ( )x bW a b f x dxaa

ψ −= ∫

- Transformée inverse en ondelette de f :

1 1( ) ( , ) ( )R R

x bf x W a b dadbC aaψ

ψ −= ∫ ∫

- Ondelette duale d’une ondelette ψ :

ψ

- Réseau d’ondelette de Zhang constitué par une famille d’ondelette Ψ et des poids W :

( , )WΨ

150

Bibliographie

- Achermann B. and Bunke H., “Classifying range images of human faces with

hausdorff distance”. International Conference on Pattern Recognition (ICPR), pages

813–817, 2000.

- Achermann B. et Bunke H., “Classifying range images of human faces with

hausdorff distance”, International Conference on Pattern Recognition (ICPR), pages

813–817, 2000.

- Ahonen T., Abdenour H., and Pietikäinen, “Face Recognition with Local Binary

Patterns Machine Vision Group”, University of Oulu, Finland, 2004.

- Akalin V., Face recognition using eigenfaces and neurak networks, Master of

science. The graduate school of natural and applied sciences. The Middle East

technical university. Ankara, Turkey December 2003.

- Aleix M. Martinez et R. Benavente: The AR-face database. Rapport technique, CVC

Technical Report #24, June, 1998.

- Arca S., Campadelli P., A Face Recognition System Based On Automatically

Determined Facial Fiducial Points, 2005.

- Antonini M., Barlaud M., Image Coding Using Wavelet Transform. IEEE

Transactions on Image Processing, Pages 205-220, 1992.

- Antonini M., Compression des images et des vidéos numériques. Dix années de

recherches au CNRS. Habilitation à Diriger des Recherches présentée à l'Université

de Nice-Sophia Antipolis, 20 octobre 2003.

- Baron R., Contribution à l’étude des réseaux d’ondelettes, Thèse de doctorat, Ecole

Normale Supérieure de Lyon, Février 1997.

- Ben Abdelkader C., Cutler R. et Davis L., “Motion-based recognition of people in

EigenGait space”. 5th International Conference on Automatic Face and Gesture

Recognition (FG), pages 254–259, May 2002.

151

- Ben Abdennour R., Ltaïef M. et Ksouri M., "Un coefficient d’apprentissage flou

pour les réseaux de neurones artificiels", Journal Européen des Systèmes

Automatisés, Janvier 2002.

- Ben Amar C., Zaied M. and Alimi A. M., “Beta wavelets. Synthesis and application

to lossy image compression”, Advances in Engineering Software, elseiver, special

issue, Advanced Algorithms and Architectures for Signal Processing Volume 36,

Issue 7 , Pages 459 – 474, 2005.

- Ben Mansour H., Identification des systèmes non linéaires par les réseaux de

neurones, Mémoire de projet de fin d’études, Ecole Nationale d’Ingénieurs de

Monastir, Tunisie, Juin 2002.

- Bergevin R., Vision numérique : aspects cognitifs (notes de cours GEL-64793).

Université Laval, Automne 2000.

- Bernard D. Ondelettes orthogonales et biorthogonales, Université de Rennes-I,

Septembre 2003.

- Bishop C.M., Neural Networks for Pattern Recognition. Clarendon Press, Oxford,

1995.

- Blanz V. and Vetter T., “A morphable model for the synthesis of 3D faces”, Proc.

SIGGRAPH, pp. 187-194 (1999).

- Bolme D. S., Elastic Bunch Graph Matching, Master of Science, Colorado State

University, Colorado, 2003.

- Bronstein A.M., Bronstein M. M., Kimmel R. and Spira A., “3D Face Recognition

without Facial Surface Reconstruction”, Technion - Computer Science Department -

Technical Report CIS-2003-05 – 2003.

- Bronstein A.M., Bronstein M. M., Kimmel R., "3-Dimensional face recognition”,

US Provisional patent No. 60/416,243 (2002).

- Brunelli R. and Poggio T., "Face recognition: features versus templates", IEEE

Transactions on Pattern Analysis and Machine Intelligence (PAMI), 15(10):1042–

1052, October 1993.

- Brunelli R. and Poggio T., “Face recognition through geometrical features”.

European Conference on Computer Vision (ECCV), pages 792– 800, 1992.

152

- Choi C.S and al., “A system of analyzing and synthesizing facial images”. In Proc.

IEEE Int. Symposium of Circuit and Syatems (ISCAS91), pages 2665–2668, 1991.

- Chtourou M., Les réseaux de neurones, Support de cours DEA A-II, Année

Universitaire 2002/2003.

- Daubechies I., “The wavelet transform, time-frequency localization and signal

analysis”, IEEE Transactions on Information Theory, 36: 961–1005, 1990.

- Daubechies I., Ten Lectures on Wavelets. Society of Industrial and Applied

Mathematics, 1992.

- Edwards G.J. and al., “Modelling the variability in face images”. In Proc. of the 2nd

Int. Conf. on Automatic Face and Gesture Recognition, IEEE Comp. Soc. Press,

Los Alamitos, CA, 1996.

- El-Bakry H.M., Abo-Elsoud M.A. and Kamel M.S., “Automatic Face Recognition

System Using Neural Networks”, Circuits and Systems, 2000. Proceedings. ISCAS

2000 Geneva. The 2000 IEEE International Symposium, on Volume: 3, On pages:

543-546, 2000.

- Feris R.S., Gemmell J., Toyama K., Krüger V., Facial Feature Detection Using a

Hierarchical Wavelet Face Databases, Microsoft Research Technical Report,

Redmond, 2002

- Franco A., Lumini A. and Maio D., “Eigenspace merging for model updating”. 16th

International Conference on Pattern Recognition (ICPR), volume 2, pages : 156–

159, Québec, Canada, August 2002.

- Hubbard B., “Ondes et ondelettes, La Saga d’un Outil Mathématique”, Belin pour

la science, 1995.

- Iyengar S.S., E.C. Cho and V. Phoha, Foundations of Wavelet Networks and

Applications, Chapman and Hall/CRC Press, June 2002.

- Jamil N., Lqbal S. and Iqbal N., “Face Recognition Using Neural Networks”,

Multi Topic Conference, 2001. IEEE INMIC 2001. Technology for the 21st Century.

Proceedings. IEEE International Volume , Issue , Pages: 277 – 281, 2001.

- Jmaï O., Compression d’image par réseaux d’ondelette, Mémoire de projet de

Master, Ecole Nationale d’Ingénieurs de Sfax, Tunsie Juin 2004.

153

- Jonathon P. P. et al., “The FERET evaluation methodology for face-recognition

algorithms”. IEEE Transactions on Pattern Analysis and Machine Intelligence,

22(10):1090–1104, 2000.

- Kepenekci B., Face Recognition Using Gabor Wavelet Transform, Thesis, Middle

East Technical University, Turkey, 2001.

- Kjetil B. and al. : face recognition, Norwegian University of Science and

Technology, Faculty of Information Technology, Mathematics and Electrical

Engineering, Department of Computer and Information Science, SIF8092 Image

Processing Specialization Project, November 2002.

- Kovacevic J., Life after Wavelets: The War of the Frames, xWaveforms, Electrical

Engineering Colloquium, University of Washington, March 13, 2003

- Krueger V., Gabor Wavelet Networks for Object Representation, Technical report,

Christain-Albrechts University, Kiel, Germany, 2000.

- Kruger V. and Sommer G., “Affine real-time face tracking using gabor wavelet

networks”, IEEE Computer Society Pattern Recognition, Barcelona, Spain, Sept. 3-

8, 2000.

- Lekutai G., Adaptive Self-tuning Neuro Wavelet Network Controllers, Thèse de

Doctorat, Blacksburg-Virgina, Mars 1997.

- Lemieux A., Système d’identification de personnes par vision numérique, Mémoire

présenté à la Faculté des études supérieures de l’Université Laval pour l’obtention

du grade de maîtrises sciences (M.Sc.), décembre 2003.

- Levente Z., Digital processing techniques for humain face recognition, Diploma

thesis, Politehnica university of Timisoara faculty of automatic and computer

science, 2002

- Liu W. and al., Null Space Approach of Fisher Discriminant Analysis for Face

Recognition, Institute of Automation, Chinese Academy of Sciences, Microsoft

Research Asia, Beijing Sigma Center, 100080 Beijing, China, 2004.

- Lu X., Wangy Y., Jain A. K., “Combining classifiers for face recognition”,

appeared in Proc. of ICME, July 2003.

154

- Mallat S., “A Theory for Multiresolution Signal Decomposition: the Wavelet

Representation”, IEEE Transactions on Pattern Analysis and Machine Intelligence,

Vol. 11, No. 7, p. 674-693, 1989

- Mallat S., A Wavelet Tour of Signal Processing, Second edition, Academic Press,

ISBN: 0-12-466606-X, 1999.

- Marcel S. et Bengio S., “Improving face verification using skin color information”.

16th International Conference on Pattern Recognition (ICPR), pages 378–381,

Québec, Canada, August 2002.

- Marcialis G.L. and Roli F., "Fusion of LDA and PCA for Face Recognition", the

Workshop on Machine Vision and Perception, held in the context of the 8th Meeting

of the Italian Association of Artificial Intelligence (AI*IA), Siena, Italy, September

10-13, 2002

- Meyer Y. Ondelettes et opérateurs, Actualités Mathématiques. Current

Mathematical Topics. Hermann, Paris, 1990.

- Meyer Y. Wavelets and operators, volume 37 of Cambridge Studies in Advanced

Mathematics. Cambridge University Press, Cambridge, 1992.

- Morizet N. et al., "Algorithmes PCA, LDA et EBGM utilisées en reconnaissance 2D

du visage pour la biométrie", Conference MajecStic (MAnifestation des Jeunes

Chercheurs STIC), Lorient , France, Novembre 2006.

- Nefian A.V., “Embedded Bayesian Networks for Face Recognition”, IEEE

International Conference on Multimedia and Expo, vol. 2, pp. 133-136, 26 Aug

2002.

- Nefian A.V., Hayes M.H., “Face Recognition Using an Embedded HMM”

Proceedings of the IEEE Conference on Audio and Video-based Biometric Person

Authentication, pp. 19-24, Martie 1999.

- Nefian A.V., Hayes M.H., “Maximum likelihood training of the embedded HMM

for face detection and recognition”, International Conference on Image Processing,

2000. Proceedings. vol.1, pp. 33 – 36, 10-13 Sept 2000.

- Pentland A. and al., “View-based and modular eigenspaces for face recognition”.

Proc. of IEEE Conf. on Computer Vision and Pattern Recognition (CVPR’94),

Seattle, WA, June 1994.

155

- Phillips P. J. and al., “The FERET evaluation methodology for face-recognition

algorithms”. IEEE Transactions on Pattern Analysis and Machine Intelligence,

22(10):1090–1104, 2000.

- Szu H., Telfer B. et Kadambe S., "Neural network adaptative wavelets for signal

representation and classification”. Optical Engineering 31:1907-1961, 1992.

- Tai Sing L., “Image Representation Using 2D Gabor wavelets”. IEEE transactions

on pattern analysis and machine intelligence, Vol. 18, N°. 10, October 1996.

- Tang H., Lyu M. R. and King I., Face recognition committee machine, Department

of Computer Science and Engineering, The Chinese University of Hong Kong

Shatin, Hong Kong, 2004.

- Turk M. and Pentland A, “Eigenfaces for recognition”. Journal of cognitive

neuroscience, 3(1):71–86, 1991.

- Yambor S., Analysis of PCA-Based and Fisher Discriminant-Based Image

Recognition Algorithms, Technical Report, Colorado State University, USA 2000.

- Zaied M., Etude et Implémentation d’une nouvelle ondelette basée sur la fonction

Bêta: Application à la compression d’images, Mémoire de projet de DEA, Ecole

Nationale d’Ingénieurs de Sfax, Tunisie Janvier 2003.

- Zhang Q. and Benveniste A., “Wavelet networks”. IEEE Trans. Neural Networks,

3:889–898, 1992.

- Zhao W., Chellappa R., Krishnaswamy A., “Automatic Face and Gesture

Recognition”, Proceedings. Third IEEE International Conference on Volume, Issue

14-16, Pages: 336–341, April 1998.

- Zhao W.Y., Chellappa R., “Illumination-Insensitive Face Recognition Using

Symmetric Shape-form-Shading”, IEEE Proc. on Computer Vision and Pattern

Recognition (CVPR'00), Vol.1, pp. 1278–1286, May 2000

156

Site Internet

Face Recognition Home page

http://www.face-rec.org

MIT Media Laboratory Vision and Modeling Group Face Recognition Project

http://vismod.www.media.mit.edu/vismod/demos/facerec

MIT AI Lab Center for Computational and Biological Learning Example-based

Image Analysis and Synthesis for Faces Tony Ezzat and Tomaso Poggio

http://cuneus.ai.mit.edu:8000/research/ebias/ebias.php

Face recognition demo page

http://www-white.media.mit.edu/vismod/demos/facerec/

Evaluation of Face Recognition Algorithms :

http://www.cs.colostate.edu/evalfacerec/index.html

Computational Approaches to Face Recognition :

http://www.ski.org/CWTyler_lab/CWTyler/PrePublications/ARVO/1998/Fa

ceRecog/

Face Recognition Bibliography :

http://www.cnl.salk.edu/~wiskott/Bibliographies/FaceRecognition.html

La page de la base de visage FERET :

http://www.itl.nist.gov/iad/humanid/feret/

Eigenfaces Group :

http://www.owlnet.rice.edu/~elec301/Projects99/faces/index.html

Cours sur les valeurs propres et les vecteurs propres d'une matrice

http://mathworld.wolfram.com/Eigenvalue.html

Le site de Amara sur les ondelettes

http://www.amara.com/IEEEwave/IEEEwavelet.html

Forum de discussion sur les ondelettes

Le site de Daniel Lemire http://www.ondelette.com

157

Une presentation du livre de Stephane Mallat :

http://cas.ensmp.fr/~chaplais/Wavetour_presentation/Wavetour_presentation_fr.html

The Engineer’s ultimate guide to wavelet analysis: The Wavelet Tutorial :

http://users.rowan.edu/~polikar/WAVELETS/WTtutorial.html

A Really Friendly Guide to Wavelets :

http://perso.wanadoo.fr/polyvalens/clemens/wavelets/wavelets.html

Etude des réseaux d’ondeletttes Bêta : Application à la reconnaissance de visages

Mourad ZAIED

عرف على بيومتريكس وخصوصا التال استعمال األعمال متابعة تطور هھذتحاول : الخالصة .متعددة الوسائط ثائقالوو فھرسةواألمن يمجال في وجوهالات و في جيموال تنظريّة لشبكاالالدراسة في انيتحانمن ةھماسحاولنا الم ,ه األطروحةفي ھذ

.صورةالتصنيف وجه اإلنسان في و تمييز في ھامع ھدف تطبيق, نھميتمرل ارزمية جديدةتصميم خو علىالذين يحويان FERETو ORLالصور يطة بنكستعملة بواسالمإثبات التقنيات تمو

لمعدل تطويرا ملحوظا Bêta اتجيمو تشبكاأظھرت و لقد. شخص 1196 و 40صور التوالي .األخرى المعروفة التمييز مقارنة بالطرق

Résumé : Ces travaux de recherches essayent de suivre la croissance d’utilisation des techniques biométriques et essentiellement la reconnaissance de visages dans les domaines de la sécurité et de l’indexation de documents multimédia. Dans ce mémoire, nous avons apporté notre contribution à l’étude théorique des réseaux d’ondelettes et à la conception d’un nouvel algorithme de leurs apprentissage, avec comme objectif d'application; la reconnaissance et la classification des visages humains dans une image. La validation des techniques sélectionnées est réalisée à l’aide des bases d’images ORL et FERET contenant respectivement les photos de 40 et 1196 individus. Les ROB procurent des améliorations substantielles du taux de reconnaissance par rapport aux classifieurs les plus connues.

Abstract : During the last twenty years, the scientific research in the biometric domains and especially the face recognition has known an exponential growth in order to have certain use in the fields of the security and multimedia documents indexing. In spite of the different proposed techniques and the achieved progress, a radical solution remained far from being reached. In this memory, we brought our contribution to the theoretical survey of the wavelets networks and to the conception of a new training algorithm, taking as objective of application the recognition and the classification of the human faces in a picture. The validation of the selected techniques is carried out with the use of the ORL and FERET images bases containing respectively the photographs of 40 and 1196 individuals. The ROB get substantial improvements of the recognition rate compared to the most known methods.

Bêtaة جيمو, اتجيموال تشبكا ,وجوهعرف على الالت .. : المفاتيح

Mots clés : Reconnaissance de visages, Réseaux d’ondeletttes, ondelette Bêta Key-words : face recognition, wavelets networks, Beta Wavelet

Documents

Rapport These Final