238
THESE THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III - Paul Sabatier Discipline ou spécialité : Intelligence Artificielle JURY Sylvie Galichet, Rapporteur Frédéric Alexandre, Rapporteur Etienne Koechlin, Rapporteur Claudette Cayrol, Examinateur Jean-Philippe Ranjeva, Examinateur Josette Pastor, Directeur Henri Prade, Directeur Ecole doctorale : MITT Unité de recherche : Inserm U825/IRIT Directeur(s) de Thèse : Josette Pastor (Directeur), Henri Prade (Co-directeur) Rapporteurs : Présentée et soutenue par Julien ERNY Le 19 Décembre 2008 Titre : Modélisation Du Traitement De l'Information Cérébrale Dans Les Réseaux À Grande Échelle : Une Approche Fondée Sur La Similarité Et La Logique Floue

THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

THESETHESE

En vue de l'obtention du

DOCTORAT DE L’UNIVERSITÉ DE TOULOUSEDOCTORAT DE L’UNIVERSITÉ DE TOULOUSE

Délivré par l'Université Toulouse III - Paul Sabatier Discipline ou spécialité : Intelligence Artificielle

JURY Sylvie Galichet, Rapporteur

Frédéric Alexandre, Rapporteur Etienne Koechlin, Rapporteur

Claudette Cayrol, Examinateur Jean-Philippe Ranjeva, Examinateur

Josette Pastor, Directeur Henri Prade, Directeur

Ecole doctorale : MITT

Unité de recherche : Inserm U825/IRIT

Directeur(s) de Thèse : Josette Pastor (Directeur), Henri Prade (Co-directeur) Rapporteurs :

Présentée et soutenue par Julien ERNY Le 19 Décembre 2008

Titre : Modélisation Du Traitement De l'Information Cérébrale Dans Les Réseaux À Grande Échelle :

Une Approche Fondée Sur La Similarité Et La Logique Floue

Page 2: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III
Page 3: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

Remerciements

Avant toute chose, un immense merci à Josette Pastor et Henri Prade pour m’avoirdirigé et soutenu tout au long de ces quatre années, et ce malgré les épreuves.Merci de votre confiance et de votre amitié, j’espère m’en montrer digne.

Je tenais aussi à remercier chaleureusement :

Frédéric Alexandre, Sylvie Galichet et Etienne Koechlin pour avoir acceptéd’être mes rapporteurs, pour l’intérêt dont ils ont fait preuve pour mon travail,et pour avoir fait le déplacement jusque Toulouse.

Claudette Cayrol et Jean-Philippe Ranjeva pour avoir eu la gentillesse d’exami-ner mon travail et d’assister à mon jury.

Mes plus profondes amitiés vont aussi aux membres de l’unité U825. Les nommertous me fait prendre le risque d’en oublier certains, j’espère qu’il me le pardonne-ront :

Les directeurs successifs de l’U825, François Cholet et Pierre Celsis, pourm’avoir accueilli au sein du laboratoire.

Jean-François Démonet, pour m’avoir accueilli au sein de l’équipe 2 et pour sesanecdotes à l’heure du repas, toujours intéressantes bien que malheureusementtrop rares.

Irène Delcroix pour son professionnalisme sans faille et sa personnalité sansconcession. Son départ à la retraite a laissé un grand vide dans l’unité.

Nicolas Chauveau, Gérard Viallard, Hélène Gros, Isabelle Loubinoux, FlorentAubry et Kader Boulanouar pour leurs remarques avisées et conseils précieux.

L’ensemble des étudiants de l’unité : présents, partis, sur le départ, fraîchementarrivés, vous avez animés mes quatre années à l’unité bien plus que n’aurais pul’espérer.

Merci à l’hôpital Purpan qui, par sa (non) politique de restauration, nous a

3

Page 4: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

permit de partager nos repas à l’unité et, grâce à cela, d’avoir de passionnantesdiscussions sur tous les sujets possibles et imaginables.

Un grand merci aussi à tous les amis de Toulouse et d’ailleurs. See you soon at theDe Danù !

Mes pensées vont aussi bien-sûr vers ma famille qui m’a soutenue tout au long dema thèse. Merci tout particulièrement à mes parents, mes frères (et leurs enfants)et mon grand-père.

Finalement, mille millions de mercis à ma Némou adorée sans qui je ne sais pas ceque j’aurais fait.

Toulouse, le 30 décembre 2008.

4

Page 5: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

Table des matières

Table des matières 5

Liste des figures 7

Liste des tableaux 10

Introduction 11

1 État de l’art 151.1 Différents niveaux d’analyse . . . . . . . . . . . . . . . . . . . . . . 17

1.2 Les modèles du cerveau . . . . . . . . . . . . . . . . . . . . . . . . . 19

1.2.1 Généralités et définitions . . . . . . . . . . . . . . . . . . . . . . . 19

1.2.2 Les neurones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

1.2.3 Les populations de neurones . . . . . . . . . . . . . . . . . . . . . 29

1.3 Les modèles de l’esprit . . . . . . . . . . . . . . . . . . . . . . . . . . 43

1.3.1 Formalisations de la cognition . . . . . . . . . . . . . . . . . . . . 44

1.3.2 Informations imprécises et incertaines . . . . . . . . . . . . . . . . 47

1.3.3 Les réseaux de neurones formels . . . . . . . . . . . . . . . . . . . 61

1.3.4 Catégorisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

1.4 Les modèles «hybrides» . . . . . . . . . . . . . . . . . . . . . . . . . . 68

1.4.1 Modèles intégrés du cerveau . . . . . . . . . . . . . . . . . . . . . 69

1.4.2 Décomposition des modèles de l’esprit . . . . . . . . . . . . . . . 80

1.4.3 Les réseaux causaux à grande échelle . . . . . . . . . . . . . . . . 82

Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

2 Modélisation 892.1 Représenter les réseaux . . . . . . . . . . . . . . . . . . . . . . . . . 91

2.1.1 Réseaux structurels . . . . . . . . . . . . . . . . . . . . . . . . . . 91

2.1.2 Réseaux fonctionnels . . . . . . . . . . . . . . . . . . . . . . . . . 93

2.2 Représenter l’information . . . . . . . . . . . . . . . . . . . . . . . 95

5

Page 6: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

2.2.1 Stimulation extérieure . . . . . . . . . . . . . . . . . . . . . . . . 95

2.2.2 Activation d’une population . . . . . . . . . . . . . . . . . . . . . 97

2.2.3 Formalisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

2.2.4 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

2.3 Traiter l’information . . . . . . . . . . . . . . . . . . . . . . . . . . 109

2.3.1 Contraintes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

2.3.2 Une première approche utilisant des règles d’inférence floues . . . 112

2.3.3 Un nouveau point de départ : propagation des fréquences de décharge118

2.3.4 La sélectivité d’une population . . . . . . . . . . . . . . . . . . . . 119

2.3.5 Activation synaptique . . . . . . . . . . . . . . . . . . . . . . . . 122

2.3.6 Activation neuronale . . . . . . . . . . . . . . . . . . . . . . . . . 123

2.3.7 Génération de la sortie . . . . . . . . . . . . . . . . . . . . . . . . 126

2.4 Vue d’ensemble . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130

2.5 Implémentation et discussion . . . . . . . . . . . . . . . . . . . . . 130

2.5.1 Implémentation pratique . . . . . . . . . . . . . . . . . . . . . . . 130

2.5.2 Comparaison avec le modèle classique de fréquence de décharge . 144

2.5.3 Comparaison avec les modèles causaux . . . . . . . . . . . . . . . 145

2.5.4 Comparaison avec le premier formalisme à base de règles floues . 147

Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148

3 Applications 1513.1 L’effet McGurk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153

3.1.1 Description du contexte . . . . . . . . . . . . . . . . . . . . . . . 153

3.1.2 Modélisation et résultats . . . . . . . . . . . . . . . . . . . . . . . 157

3.2 Le Wisconsin Card Sorting Test . . . . . . . . . . . . . . . . . . . . 171

3.2.1 Un test clinique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171

3.2.2 Modélisation et résultats . . . . . . . . . . . . . . . . . . . . . . . 176

Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186

4 Discussion 1894.1 Les formalismes de traitement de l’information cérébrale . . 191

4.2 Limites et perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . 193

4.2.1 Des réseaux peu contraints . . . . . . . . . . . . . . . . . . . . . . 193

4.2.2 L’apprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194

4.2.3 Des validations expérimentales encore insuffisantes . . . . . . . . 196

4.2.4 Développements théoriques . . . . . . . . . . . . . . . . . . . . . 196

4.3 Les questions ouvertes . . . . . . . . . . . . . . . . . . . . . . . . . . 197

6

Page 7: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

4.3.1 Le «Binding Problem» . . . . . . . . . . . . . . . . . . . . . . . . 197

4.3.2 Le «Grounding Problem» . . . . . . . . . . . . . . . . . . . . . . . 198

Conclusion générale 201

Bibliographie 203

A Annexes 227A.1 Les équations de fréquence de décharge . . . . . . . . . . . . . . 229

A.1.1 Le courant synaptique total . . . . . . . . . . . . . . . . . . . . . 229

A.1.2 La fréquence de décharge . . . . . . . . . . . . . . . . . . . . . . 230

A.2 Résolution numérique des équations différentielles . . . . . . . 230

A.2.1 La méthode d’Euler . . . . . . . . . . . . . . . . . . . . . . . . . . 230

A.2.2 La méthode de Runge-Kutta d’ordre 2 . . . . . . . . . . . . . . . . 231

A.2.3 La méthode d’Euler-Maruyama . . . . . . . . . . . . . . . . . . . 232

Notations 233

Liste des figures

1.1 Anatomie externe de l’encéphale . . . . . . . . . . . . . . . . . . . . . 21

1.2 Localisations anatomiques des ganglions de la base et du thalamus . 21

1.3 Diagramme de trois neurones . . . . . . . . . . . . . . . . . . . . . . . 23

1.4 Diagramme simplifié d’une synapse . . . . . . . . . . . . . . . . . . . 24

1.5 Courbe de sélectivité d’un neurone de V1 . . . . . . . . . . . . . . . . 26

1.6 Courbe de sélectivité d’un neurone moteur . . . . . . . . . . . . . . . 26

1.7 Le modèle integrate and fire de Lapicque . . . . . . . . . . . . . . . . . 28

1.8 Exemples de comportements électriques de neurone . . . . . . . . . . 30

1.9 Découpage anatomique du cerveau en aires de Brodmann . . . . . . 30

1.10 Découpage en aires fonctionnelles du cortex cérébral . . . . . . . . . 33

1.11 Visualisation de la somatotopie . . . . . . . . . . . . . . . . . . . . . . 33

1.12 Carte corticale de sensibilité à l’orientation et de dominance oculaire 34

1.13 Sigmoïde et approximation par morceaux . . . . . . . . . . . . . . . . 38

1.14 L’approche «mean-field» . . . . . . . . . . . . . . . . . . . . . . . . . . 40

7

Page 8: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

1.15 Tracé d’une réponse hémodynamique standard . . . . . . . . . . . . 42

1.16 Exemple de réseau bayésien . . . . . . . . . . . . . . . . . . . . . . . . 51

1.17 Fonction d’appartenance de l’ensemble flou Fchaud «chaud» dans lecontexte de l’eau. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

1.18 α-coupe, support et noyau d’un ensemble flou. . . . . . . . . . . . . . 55

1.19 Mesure de possibilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

1.20 Mesure de la nécessité que x réalise l’événement A. . . . . . . . . . . 57

1.21 Représentation graphique d’un neurone formel . . . . . . . . . . . . 62

1.22 Quatre des cinq boucles fronto-striatales . . . . . . . . . . . . . . . . . 76

1.23 Architecture simplifiée d’un modèle neuronal pouvant passer leWCST. Adapté de Dehaene et Changeux (1991) . . . . . . . . . . . . . 79

1.24 Architecture en cascade, traduite de Koechlin et coll. (2003) . . . . . 80

1.25 Le concept de magnitude et de type de l’information. Même magni-tude, types différents . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

1.26 Le concept de magnitude et de type de l’information. Même type,magnitudes différentes . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

2.1 Réseau d’aires cérébrales impliquées dans une tâche de détectionphonémique, d’après Démonet et coll. (1994) . . . . . . . . . . . . . . 92

2.2 Exemple de réseau fonctionnel . . . . . . . . . . . . . . . . . . . . . . 95

2.3 Illustration du passage aux patterns de neurones binaires . . . . . . 101

2.4 Illustration de la diffusion de l’activation d’un pattern vers un autre 103

2.5 Exemple de transformation d’un espace 2D «discrétisé» en une suitede positions symboliques . . . . . . . . . . . . . . . . . . . . . . . . . 103

2.6 Représentation du type sous forme d’ensemble flou . . . . . . . . . . 105

2.7 Comparaison de deux ensembles flous . . . . . . . . . . . . . . . . . . 108

2.8 Exemple de comparaison de deux ensembles flous . . . . . . . . . . . 108

2.9 Représentations schématiques des différents patterns activés en fonc-tion de la stimulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

2.10 Schéma fonctionnel illustrant la décomposition d’une population ensous-populations réceptrices et émettrice . . . . . . . . . . . . . . . . 113

2.11 Représentation des types en entrée d’une population décodant desformes de couleur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124

2.12 Évolution de l’activation synaptique des prototypes en réponse à laprésentation d’un rectangle rouge . . . . . . . . . . . . . . . . . . . . 124

2.13 Évolution de l’activation synaptique des prototypes en réponse à laprésentation d’un rectangle rouge, sans inhibitions latérales. . . . . . 127

8

Page 9: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

2.14 Évolution de l’activation synaptique des prototypes en réponse à laprésentation d’un rectangle rouge, avec inhibitions latérales. . . . . . 129

2.15 Construction du type de sortie . . . . . . . . . . . . . . . . . . . . . . 129

2.16 Vue d’ensemble . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132

2.17 Activation des différents prototypes de l’intégrateur forme-couleur . 134

2.18 Comparaison de l’activation du prototype carre − rouge pour deuxvaleurs différentes de τr . . . . . . . . . . . . . . . . . . . . . . . . . . 134

2.19 Comparaison de l’activation du prototype carre− rouge en utilisantla méthode d’Euler et de Runge-Kutta d’ordre 2 . . . . . . . . . . . . 136

2.20 Détecteur de début de stimulus à deux populations . . . . . . . . . . 136

2.21 Activation des populations du détecteur de début d’un stimulus . . 137

2.22 Activation des populations du détecteur de début d’un stimulus,avec bruit élevé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137

2.23 Détecteur de début et de fin d’un stimulus . . . . . . . . . . . . . . . 139

2.24 Comparaison entre le formalisme de Wilson et Cowan et SimBa . . . 145

2.25 Comparaison entre les règles utilisées dans les deux approches pré-sentées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149

3.1 Performances pour les patients ayant reçus un implant cochléaire(CI) et de sujets normo-entendants (NH) dans les conditionscongruentes unimodale et bimodale . . . . . . . . . . . . . . . . . . . 158

3.2 Performances globales de catégorisation du mode et du lieu d’articu-lation de sujets normo-entendants et de patients implantés cochléairedans la conditions incongruente visuo-auditive (McGurk) . . . . . . 159

3.3 Modèlisation du réseau fonctionnel impliqué dans la compréhensionphonémique visuo-auditive . . . . . . . . . . . . . . . . . . . . . . . . 162

3.4 Résultats de la simulation du modèle en réponse aux stimuli nonambigus, présentés de manière unimodale ou multimodale . . . . . 167

3.5 Résultats de la simulation du modèle présentés sous forme de ma-trices de confusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167

3.6 Matrices de confusion en catégorisation phonémique pour les su-jets normo-entendants en conditions auditive seule et visuelle seule.Adapté et traduit de Rouger et coll. (2008) . . . . . . . . . . . . . . . 168

3.7 Résultats du modèle pour les stimuli incongruents du type ga plus/ba/, /pa/ ou /ma/ . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168

3.8 Résultats du modèle pour les stimuli incongruents du type ba plus/da/, /ta/ ou /na/ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169

9

Page 10: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

3.9 Matériel utilisé dans le Wisconsin Card Sorting Test . . . . . . . . . . 172

3.10 Modèlisation du réseau fonctionnel impliqué dans la réalisation duWCST . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178

3.11 Exemple de simulation des populations Couleur, Forme, Nombre,et Decision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181

3.12 Exemple de simulation des populations Erreur, MemErreur,Regles, et Integration . . . . . . . . . . . . . . . . . . . . . . . . . . . 181

3.13 Résultats de la simulation comparés aux résultats de sujets sains . . 182

Liste des tableaux

2.1 Résumé des équations fondamentales du modèle . . . . . . . . . . . 131

3.1 Consonnes occlusives classées en fonction de leur mode et lieu d’ar-ticulation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155

3.2 Similarités entre les prototypes du nœud Auditif . . . . . . . . . . . 164

3.3 Similarités entre les prototypes du nœud Visuel . . . . . . . . . . . . 164

3.4 Paramètres de nœud utilisés par défaut. . . . . . . . . . . . . . . . . . 164

3.5 Matrice de connectivité donnant le poids des liens entre les nœudsdu réseau. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165

3.6 Paramètres spécifiques à certains nœuds. . . . . . . . . . . . . . . . . 165

3.7 Paramètres de nœud utilisés par défaut. . . . . . . . . . . . . . . . . . 179

3.8 Paramètres spécifiques à certains nœuds. . . . . . . . . . . . . . . . . 179

3.9 Matrice de connectivité donnant le poids des liens entre les nœudsdu réseau. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180

10

Page 11: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

Introduction

Enjeux et motivation

Malgré les progrès considérables qui ont été réalisés au cours des cinquantedernières années, le fonctionnement du cerveau reste encore en grande partie mys-térieux. Sa complexité défie les modèles simplificateurs, les chercheurs ne soule-vant un bout du voile que pour découvrir des complications encore insoupçon-nées. Pourtant, le foisonnement de découvertes des dernières années et l’accentrécent mis par les pouvoirs publics sur la recherche contre les maladies neurodé-génératives laissent espérer des avancées significatives dans la prochaine décennie.Ainsi, en ce qui concerne la pratique clinique, l’utilisation de plus en plus systé-matique de techniques de neuroimagerie, comme l’imagerie par résonance magné-tique (IRM), et l’amélioration permanente de ces techniques, permettent d’espérerune compréhension à terme des pathologies neurologiques dont la prévalence necesse d’augmenter avec les progrès de la thérapeutique dans les autres domainesmédicaux et en raison du vieillissement de la population (dans un rapport à l’As-semblée Nationale, Gallez (2005) estimait à près de 860 000 les cas de démence detype Alzheimer dans la population des plus de 65 ans). En ajoutant à ces donnéesmédicales un nombre sans cesse croissant d’enregistrements de neurones en acti-vité chez le primate, de nombreuses données s’offrent aux chercheurs. Mais sansthéorie solide pour les interpréter, il est à craindre que l’abondance ne débouchesur la confusion. Même si des approches de simulation du cerveau, détaillées àl’extrême et s’appuyant sur la force brute des super-ordinateurs (Markram 2006),peuvent à terme offrir des outils précieux d’investigation expérimentale, l’absencede théorie et de modèle explicatif sous-jacent laisse à penser que les données neseront pas plus faciles à interpréter que les enregistrements de neurones aujour-d’hui. C’est pourquoi, en marge des efforts importants consentis pour la compré-hension des mécanismes biologiques du cerveau, la mise en correspondance de cesconnaissances avec la pratique quotidienne clinique peut déboucher sur des mo-dèles intéressants à plusieurs titres : (i) ils peuvent fournir un cadre théorique pour

11

Page 12: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

12 Introduction

interpréter de nouvelles découvertes neurobiologiques, (ii) ils peuvent être direc-tement utilisés par les praticiens au jour le jour et (iii) ils peuvent être confrontésaux patients, permettant ainsi de mieux comprendre le lien entre neurobiologie etcomportement, ce qui est finalement à ce jour l’aspect le plus mystérieux du cer-veau. C’est dans cette optique qu’a été entrepris le travail présenté ici et qui vise àmettre à profit les techniques et les formalismes issus des travaux en intelligenceartificielle pour essayer de mieux comprendre le comportement humain dans sarelation au substrat neurologique qui en est à l’origine.

Objectifs et approche générale

L’observation systématique, depuis le XIXème et Broca (1861), de l’effet délétèreet spécifique des lésions cérébrales sur les fonctions cognitives a permis d’émettrel’hypothèse d’un lien étroit entre la structure anatomique du cerveau et ses fonc-tions. La nature de ce lien reste encore en grande partie inconnue, même si desprogrès importants ont pu être effectués. Ainsi, la neuropsychologie, qui étudieles troubles comportementaux et tente de les associer à une déficience fonction-nelle de la structure cérébrale sous-jacente, a connu de nombreux succès, dontles premiers ont été l’identification de deux régions cérébrales différentes asso-ciées au langage (Broca 1861, Wernicke 1874). L’apport des techniques modernesd’imagerie cérébrale (électroencéphalographie ou EEG, tomographie par émissionde positrons ou TEP, IRM) a permis des avancées, notamment en montrant quela mise en œuvre d’une fonction cognitive nécessite un réseau d’aires cérébrales(Mesulam 1990, Bressler 1995) et non pas de régions uniques, comme les travauxfondateurs le laissaient supposer. Néanmoins, on ne peut répondre qu’à une partiedes questions et le puzzle reste incomplet : on peut savoir où le cerveau s’activepour une certaine tâche, on peut savoir en partie quelles sont les relations ana-tomiques et fonctionnelles existant entre les différents sites d’activation, et doncen déduire partiellement pourquoi un site s’active. En revanche, on ignore encorecomment activation et fonction cognitive sont liées. La réponse à cette questionne peut passer que par la compréhension des mécanismes biologiques mis en jeulors de l’activation cérébrale. Et pourtant, là encore, malgré les progrès effectués, lepassage de l’activation des neurones à la réalisation de tâches cognitives évoluéesreste difficile. C’est avec l’intention de contribuer à combler ce manque que nousavons entrepris ce travail. Les objectifs étaient doubles : (i) bâtir un formalisme demodélisation qui soit exploitable dans la recherche clinique, et donc avec des pré-

Page 13: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

Introduction 13

dictions pouvant être testées avec les moyens expérimentaux disponibles (IRMf –imagerie par résonance magnétique fonctionnelle, EEG, TEP), (ii) s’appuyer sur lesconnaissances neurobiologiques (pour répondre à la question du comment) et es-sayer de les appliquer à une échelle d’observation où le lien structure-fonction n’apas encore totalement disparu. Il y a donc une part nécessaire d’interpolation pourpartir du comportement assez bien connu de quelques neurones et arriver à la dy-namique d’activation d’un réseau de populations suffisamment large pour qu’onpuisse dire qu’il remplit une fonction significative en termes cognitifs. Tout au longde ce manuscrit, nous tâcherons donc de garder à l’esprit ces deux aspects : un an-crage dans les connaissances neurobiologiques mais un refus de perdre la facultéd’interpréter fonctionnellement les modèles. Ce qui nous obligera à un grand écartpermanent entre la précision biologique et la complexité des phénomènes cognitifsqu’on aimerait pouvoir modéliser, mais avec l’espoir de poser les jalons d’un pontentre ces deux rives éloignées des neurosciences.

Le premier chapitre dressera un état de l’art du domaine, ou plutôt des do-maines, qui nous intéressent. En effet, les efforts pour comprendre le fonctionne-ment du cerveau sont venus de nombreuses branches a priori éloignées. Ainsi, aumilieu du XXème siècle, la recherche en intelligence artificielle s’est lancée dans unesérie de travaux pour percer les secrets de l’intelligence humaine et en doter lesordinateurs. Près de 50 ans après la déclaration de principe de Dartmouth (McCar-thy et coll. 1956) qui a fixé les objectifs que devait viser la recherche en intelligenceartificielle comme, par exemple, l’interprétation automatique du langage, l’appren-tissage automatique ou encore le raisonnement créatif, de nombreux progrès ontété accomplis, mais les objectifs sont encore loin d’être remplis. Parallèlement, avecl’amélioration de la compréhension des mécanismes biologiques à l’œuvre dans lecerveau, les chercheurs en neurosciences ont pu mettre au point des modèles deplus en plus détaillés. Dans le premier chapitre, nous essaierons donc de rendrecompte de ces deux routes et des problèmes spécifiques qu’elles rencontrent. Lespoints de concordance et les apports mutuels possibles seront aussi mis en avant.

Le deuxième chapitre détaillera le modèle proposé pour répondre en partie auxquestions posées. En s’appuyant sur les pistes évoquées dans le chapitre précédent,la démarche suivie pour mettre au point le modèle sera expliquée de façon dé-taillée. Une fois les étapes de la construction bien spécifiées, le formalisme pourraêtre défini clairement.

Dans le troisième chapitre, nous présenterons deux applications de ce forma-

Page 14: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

14 Introduction

lisme. La première application est une modélisation d’une illusion visuo-auditivebien connue : l’effet McGurk. Elle permettra d’illustrer sur un exemple volontai-rement simplifié quelques-uns des avantages spécifiques du formalisme présenté.La deuxième application, plus complexe, est la modélisation des mécanismes cé-rébraux qui pourraient être impliqués lors de la réalisation d’un test neuropsycho-logique, le Wisconsin Card Sorting Test (WCST). Cette section montrera commentles modèles peuvent être exprimés dans le formalisme proposé et ensuite testésexpérimentalement.

Une discussion des avantages et des inconvénients de ce travail par rapport àd’autres modèles existants constituera le quatrième et dernier chapitre de ce travail.

Page 15: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

État de l’art 1

L’étude du cerveau est un processus difficile de par la complexité du systèmelui-même mais aussi en raison du foisonnement d’initiatives en provenance de

milieux scientifiques parfois très éloignés (on va de la biologie cellulaire à l’intel-ligence artificielle formelle). Les langages utilisés par les différentes communautéssont discordants alors qu’elles parlent du même objet. C’est pourquoi il convient,avant de faire un tour d’horizon du domaine, de définir quelque peu le vocabulaireque nous allons utiliser tout au long de ce mémoire. Cela sera fait dans la premièresection. Ensuite, comme annoncé dans l’introduction, l’état de l’art va s’organiseren suivant deux directions historiques de développement des modèles du cerveau.Dans un premier temps, la voie suivie par les neurosciences sera explorée, ce quipermettra d’introduire dans un même temps des notions de physiologie cérébrale.Nous présenterons les modèles issus de ces recherches et leurs cheminements verstoujours plus de complexité pour intégrer des fonctions cognitives de plus en plusévoluées. Dans un deuxième temps, l’approche issue de l’intelligence artificiellesera exposée. Nous verrons les efforts réalisés dans la formalisation du raisonne-ment et de l’intelligence, et nous détaillerons quelques formalismes qui se sontrévélés intéressants dans la modélisation de la cognition. Dans une troisième sec-tion, seront présentés les modèles qui s’inspirent des deux approches, ne pouvantêtre classés franchement dans l’un au l’autre «camp», et qui caractérisent au mieuxnotre démarche.

15

Page 16: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III
Page 17: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

1.1. Différents niveaux d’analyse 17

1.1 Différents niveaux d’analyse

La nomenclature qui va être présentée dans cette section est largement inspiréepar Arbib (2003, part. I).

Le cerveau est un système extrêmement complexe qui nécessite, comme toutsystème complexe dont on cherche à comprendre le fonctionnement, un décou-page en constituants qu’on espère plus simples, puis l’étude des interactions deces constituants pour percer la dynamique globale. Le problème avec le cerveauest qu’il n’en existe pas une décomposition unique, et que les décompositionsvarient fortement en fonction de la taille, de la nature des constituants, des tech-niques d’analyse du système, des modèles et des communautés. Ainsi, des sciencescomme la psychologie ou la linguistique abordent la cognition de l’extérieur, en ob-servant le système comme un tout interagissant avec son environnement. C’estaussi l’approche qui a été suivie largement en intelligence artificielle, avec la for-malisation du raisonnement et la mise au point des logiques de haut niveau.

À un niveau de granularité plus fin, la neuropsychologie étudie l’interaction dedifférentes régions cérébrales pour expliquer des anomalies du comportement. Nepouvant se contenter de tester le comportement, les techniques changent doncaussi, avec l’utilisation de l’IRMf, de l’EEG et de la TEP, qui permettent d’obser-ver de manière non invasive (mais indirecte) l’activité du cerveau in vivo. De lamême manière, du point de vue de l’intelligence artificielle, la décomposition desystèmes complexes en sous-systèmes en interaction se fait depuis longtemps, et ontente de plus en plus de rapprocher ces sous-systèmes de contreparties cérébralespour créer des modèles «à la façon du cerveau» (ce qui débouche parfois sur desmodèles qui peuvent effectivement être mis en correspondance avec des donnéesexpérimentales (Anderson et coll. 2007)).

A l’autre bout de la chaîne, la neurophysiologie s’intéresse au fonctionnement desneurones espérant ainsi mieux comprendre leurs interactions au sein des réseauxcérébraux et expliquer à terme l’émergence de fonctions cognitives de haut niveau.À nouveau, les techniques utilisées diffèrent, puisque les méthodes non invasivesne suffisent plus. Les données expérimentales sont récoltées en enregistrant direc-tement la réponse électrique des neurones au moyen d’électrodes implantées. Lanature de cette démarche implique de ne travailler presqu’exclusivement sur desanimaux (à l’exception des quelques mesures effectuées en neurochirurgie (Pen-field et Jasper 1954) et chez les épileptiques), ce qui limite les fonctions cognitives

Page 18: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

18 Chapitre 1. État de l’art

que l’on peut étudier. Les meilleurs résultats ont été obtenus sur des systèmes«simples» tels que les systèmes visuel ou moteur primaires (Hubel et Wiesel 1962,Mountcastle 1957), tandis que le langage reste encore l’apanage de la neuropsy-chologie. Une fois encore, il existe une approche quelque peu analogue en intelli-gence artificielle : les systèmes connexionnistes. Ces derniers consistent à construire,à partir d’unités de calcul s’inspirant des neurones (McCulloch et Pitts 1943), desréseaux formels qui peuvent être entraînés (on parle d’apprentissage) pour réaliserdes tâches bien plus complexes que l’apparente somme de leurs constituants.

Cependant, il y a une problématique commune parmi toutes ces approches,c’est l’interaction constante entre la structure et la fonction, entre les modèles et lesdonnées expérimentales. Il s’agit toujours, à un niveau d’analyse donné, de fairecorrespondre les fonctions cognitives observées aux structures cérébrales connues,même si, bien entendu, il n’y a pas de correspondance unique : une structure peutêtre impliquée dans plusieurs fonctions et une fonction fait presque toujours in-tervenir de nombreuse structures. Ainsi, comme c’est le cas dans la plupart desdomaines scientifiques, un cycle d’enrichissement mutuel se crée : les modèles for-mels, déjà contraints expérimentalement, imposent des caractéristiques à la struc-ture sous-jacente, caractéristiques qui peuvent être testées et éventuellement inva-lidées expérimentalement, ce qui impose de nouvelles contraintes sur les modèlesqui peuvent être dès lors améliorés. De même, il n’y a pas de barrière entre les dif-férents niveaux d’analyse. Un bon modèle, quelque soit sa granularité, devra, à unmoment ou à un autre, puiser dans les niveaux d’analyse plus fins pour y trouverdes contraintes expérimentales, tout en gardant un lien avec les niveaux supérieurspour y trouver des directions de développement. Mais ce passage permanent de lastructure à la fonction et d’un niveau d’analyse à l’autre peut être source de confu-sion si on n’est pas attentif au langage employé. Tout au long de ce mémoire, noustâcherons de suivre la norme suivante : nous appellerons structure neuronale ungroupement de neurones effectué uniquement sur des bases anatomiques ; tandisque nous parlerons de population neuronale pour désigner un groupe de neuronesliés fonctionnellement. Structure et population pourront parfois coïncider, ce seramême le but recherché. Les termes structure et population sont volontairement peuprécis pour accommoder des groupes de neurones qui peuvent être de toutes taillescomme on le verra dans la section suivante. Nous utiliserons le terme de primitivefonctionnelle pour les résultats de la décomposition d’une fonction complexe en ac-tions plus simples. Une primitive fonctionnelle est sous-tendue anatomiquementpar une population neuronale (mais une même primitive peut être répétée dans

Page 19: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

1.2. Les modèles du cerveau 19

d’autres populations neuronales) et les interactions anatomiques entre les diffé-rentes populations permettent les interactions fonctionnelles entre les primitives,ce qui reconstitue la fonction complexe ainsi décomposée. On voit apparaître laproblématique de superposition des réseaux anatomiques ou structurels et des ré-seaux fonctionnels.

1.2 Les modèles du cerveau

Une compréhension fine des mécanismes biologiques qui interviennent dansle cerveau devrait pouvoir fournir des informations permettant peut-être de per-cer les secrets de la cognition humaine. Cet objectif est celui des chercheurs enneurosciences depuis plus d’un siècle. Des premières études mettant en relationtraumatismes cérébraux et pathologies cognitives, aux observations détaillées et invivo du cerveau en fonctionnement grâce aux méthodes plus récentes de neuroi-magerie, la connaissance des mécanismes cérébraux n’a pas cessé de progresser,rendant possibles des modèles de plus en plus détaillés d’une part, et réalisant destâches de plus en plus complexes, d’autre part1.

1.2.1 Généralités et définitions

Derrière l’ensemble du cycle permanent auquel tout être pensant obéit Sensa-tion - Traitement - Action, se trouve le système nerveux central (SNC). Il peut êtredécomposé en trois parties distinctes : le système périphérique, c’est-à-dire les nerfsvéhiculant les informations dans l’ensemble du corps, la moelle épinière, et l’encéphalequi va nous intéresser tout particulièrement. Cet encéphale se divise lui-même entrois parties principales : le cerveau, le cervelet et le tronc cérébral qui fait la liaisonentre le cerveau et la moelle épinière. Le cervelet est principalement impliqué dansla coordination motrice et l’apprentissage, surtout l’apprentissage moteur (Doyonet coll. 2003). Le cerveau constitue de loin la plus grosse partie de l’encéphale. Il sedivise en deux hémisphères (droit et gauche) où se concentre la plus grande partiede l’activité reliée aux principales fonctions cognitives.

1On verra que l’un exclut souvent l’autre, la complexité des fonctions simulées étant générale-ment en relation inverse avec le niveau des détails biologiques inclus dans le modèle

Page 20: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

20 Chapitre 1. État de l’art

1.2.1.1 Le néocortex

Le volume des hémisphères est constitué essentiellement d’une structure peuépaisse mais fortement plissée et repliée sur elle-même : le cortex cérébral. Ses cir-convolutions permettent de diviser anatomiquement le cortex en plusieurs lobes (fi-gure 1.1) : frontal, temporal, pariétal, occipital. Collectivement, ces structures formentle néocortex.

1.2.1.2 Structures sous-corticales

Les hémisphères contiennent aussi des structures neuronales dites sous-corticales. La complexité de leur anatomie empêche que leur description complèteentre dans le cadre de cet aperçu. Mais, dans la mesure où nombre de ces structuresapparaîtront dans les modèles décrits dans ce manuscrit, une rapide présentations’impose. La figure 1.2 illustre la localisation de quelques-unes des structures sous-corticales appelées les ganglions de la base. Ils comprennent entre autres le striatum(qui se décompose en putamen et noyau caudé), le pallidum (externe et interne), lasubstance noire et le noyau subthalamique. Aux ganglions de la base, il faut rajouter lethalamus, l’amygdale, et l’hypothalamus pour obtenir les noyaux gris centraux. Ils sontimpliqués dans l’émotion, la mémoire, le traitement d’informations sensorielles etle contrôle de la motricité. Ces structures sont fortement connectées à l’ensembledu néocortex. La dégénérescence de telles structures dans les pathologies commela maladie de Huntington ou de Parkinson peut provoquer des perturbations cog-nitives de haut niveau, même à des stades relativement précoces de la maladie.

Le vocabulaire général étant introduit, l’exploration des différents modèles ducerveau commence par le composant à la base de tout, le neurone.

1.2.2 Les neurones

1.2.2.1 Anatomie

Bien qu’il s’agisse d’une simplification, le neurone peut être considéré commel’unité fondamentale du système nerveux en termes de traitement de l’informa-tion. Le nombre de neurones est de l’ordre de 1011. Il en existe de très nombreuses

Page 21: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

1.2. Les modèles du cerveau 21

Fig. 1.1 – Anatomie externe de l’encéphale faisant apparaître le découpage en lobes. (a) face externegauche, (b) face interne droite.

Fig. 1.2 – Localisations anatomiques des ganglions de la base et du thalamus

Page 22: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

22 Chapitre 1. État de l’art

sortes mais qui partagent des caractéristiques communes spécifiques les différen-ciant des autres cellules de l’organisme. Les neurones produisent et propagent desimpulsions électriques qui sont le vecteur principal de l’information circulant dansle SNC. Pour cela, ils présentent des spécialisations morphologiques importantes(voir figure 1.3) : se ramifiant à partir du corps cellulaire, appelé soma, les dendritesreçoivent l’information provenant d’autres neurones et l’axone propage celle prove-nant du soma vers d’autres cellules. La structure extrêmement complexe de l’arbredendritique permet à un neurone de recevoir les signaux provenant d’un très grandnombre de neurones à travers des connexions synaptiques. Ainsi, le neurone pyra-midal 1.3A et l’interneurone 1.3C reçoivent des milliers de signaux synaptiques et,pour la cellule de Purkinje 1.3B, le nombre de connexions dépasse les cent mille. Enmoyenne, on estime à 104 - 105 le nombre de synapses par neurone, ce qui donneun total de plus de 1015 synapses dans le cerveau ! Notons enfin que les axones re-présentés sur la figure 1.3 ne sont pas représentés dans leur totalité. Leur longueurréelle est en moyenne dix fois plus longue que la longueur totale moyenne des den-drites. La principale notion à retenir de cette section, c’est l’idée d’interconnexiontrès forte des neurones entre eux : deux neurones proches dans le cerveau ont degrandes chances d’être connectés. Ces connexions entre neurones ne sont pas ano-dines, une grande partie de la spécificité du traitement de l’information dans lesréseaux de neurones vient justement de la transmission synaptique. C’est ce quenous allons voir dans le paragraphe suivant.

1.2.2.2 Synapses

La figure 1.4 montre le diagramme d’une synapse2. Lorsqu’une impulsion élec-trique arrive sur la synapse (propagée le long de l’axone du neurone pré-synaptique),une réaction a lieu et provoque la libération de molécules, appelées neurotransmet-teurs dans la fente synaptique (espace entre deux neurones mesurant environ 20 nm).Ces molécules sont captées par des récepteurs situés sur la paroi du neurone post-synaptique, de l’autre côté de la fente. Ces récepteurs déclenchent ensuite une ré-action biologique complexe impliquant des courants ioniques divers qui modifient

2Il existe en réalité un deuxième type de synapse : la synapse électrique (par opposition à sy-napse chimique) qui se caractérise par un temps de réaction et donc de transmission presque 10 foisplus rapide mais qui ne présente pas la polyvalence de la transmission par neurotransmetteurs.Ces synapses étant bien moins répandues chez l’humain que les synapses chimiques, elles serontnégligées dans la plupart des modèles.

Page 23: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

1.2. Les modèles du cerveau 23

dendrites

dendrites

apicalesdendrites

soma

soma

soma

axone

axone

axone

basalesdendrites

axonescollatéraux

A B

C

Fig. 1.3 – Diagramme de trois neurones. (A) Cellule pyramidale du cortex cérébral. (B) Cellule dePurkinje du cervelet (C) Interneurone du cortex cérébral. Dessin de Cajal (1911). Figure adaptée deDayan et Abbot (2005).

Page 24: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

24 Chapitre 1. État de l’art

Fig. 1.4 – Diagramme simplifié d’une synapse. L’impulsion électrique provenant du neurone pré-synaptique est transmise au neurone post-synaptique par l’intermédiaire des neurotransmetteurs

le potentiel électrique de la membrane post-synaptique (potentiel post-synaptiqueou PPS), modification qui va être propagée jusqu’au corps cellulaire du neurone,où les PPS de toutes les synapses sont intégrés. Si le potentiel électrique résultantdépasse un certain seuil, appelé seuil de décharge, une réaction en chaîne se produitet le neurone génère une impulsion électrique nommée potentiel d’action (PA) quisera activement3 propagée le long de l’axone. Il faut aussi noter qu’il y a un grandnombre de neurotransmetteurs différents qui ont des effets divers sur le neuronepost-synaptique, et les synapses se différencient en fonction des neurotransmet-teurs qu’elles expriment. Ainsi, certaines sont excitatrices : leur PPS est positif, fa-vorisant la génération d’un PA (le neurotransmetteur «excitateur» le plus répanduest le glutamate), alors que d’autres sont inhibitrices, caractérisées par un PPS négatifqui rend plus difficile l’émission d’un PA par le neurone post-synaptique (le neuro-transmetteur «inhibiteur» le plus répandu est l’acide gamma-aminobutyrique, ouGABA). Il s’agit là d’une simplification grossière d’un mécanisme qui, aujourd’huiencore, fait l’objet de recherches. Mais elle est suffisante au regard du niveau dedétail qui nous intéresse.

3Seuls les PA sont propagés activement, c’est-à-dire qu’ils sont régénérés au fur et à mesure lorsde leur propagation le long de l’axone, ce qui leur permet de couvrir de grandes distances. Lesfluctuations de potentiel inférieur au seuil de décharge sont atténuées très rapidement (1 mm oumoins)

Page 25: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

1.2. Les modèles du cerveau 25

1.2.2.3 Sélectivité

Seules les propriétés permettant l’émission de PA ont été décrites jusqu’ici.Nous n’avons pas expliqué pourquoi les neurones les émettaient. En effet, les neu-rones agissent comme des détecteurs, ils exhibent une activité spécifique lors-qu’une information particulière se trouve en entrée. La nature de cette informationest en grande partie codée dans la configuration des poids synaptiques et dansle seuil de décharge du neurone, mais aussi dans la nature des neurorécepteursexprimés par ce neurone, la géométrie de ses dendrites, etc. Connaître ce à quoiles neurones sont sélectifs est d’une importance fondamentale pour comprendre lerôle fonctionnel de la région cérébrale qui les contient. Des enregistrements élec-trophysiologiques (électrodes implantées dans le cortex) d’un neurone isolé chezl’animal permettent d’étudier le lien entre un stimulus présenté et le comportementdu neurone enregistré, qui est couramment caractérisé par la fréquence de décharge,définie comme le nombre de PA émis par seconde. En faisant varier le stimulus se-lon une dimension, il est alors possible de tracer une courbe de sélectivité (en anglaistuning curve) qui lie la fréquence de décharge du neurone à la dimension étudiée.De nombreuses études ont étudié ces courbes, principalement pour des neuronessitués dans les aires primaires du néocortex car le lien «stimulus-fréquence de dé-charge» y est bien plus direct et donc plus facile à isoler. La figure 1.5 montre unetelle courbe mesurée à partir d’enregistrements d’un neurone du cortex visuel pri-maire (V1) du chat. Une barre lumineuse se déplace selon différentes orientationsdans le champ récepteur du neurone (partie du champ visuel pour laquelle le neu-rone reçoit effectivement des informations). Le neurone décharge à des fréquencesdifférentes en fonction de l’orientation de la barre. La courbe de sélectivité peutdans ce cas être approchée par une courbe gaussienne (Rieke et coll. 1997, Dayanet Abbot 2005) :

f (s) = rmax exp

−12

(s− smax

σf

)2 (1.1)

où s est l’orientation de la barre, smax l’orientation entraînant la plus grande ré-ponse rmax (avec s− smax dans l’intervalle [−90◦, +90◦]) et σf la largeur de la courbede sélectivité. smax étant l’orientation qui provoque la réponse la plus importante,elle est appelée orientation préférée. Dans le cas de la génération de mouvement, lescourbes de sélectivité caractérisent plutôt un lien «fréquence de décharge-action»,

Page 26: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

26 Chapitre 1. État de l’art

A60

50

40

30

20

10

0-40 -20 0 20 40

s (angle de l'orientation en degrés)

f (H

z)

B

Fig. 1.5 – (A) Enregistrement de la réponse d’un neurone de V1 d’un singe lors de la présentationdans son champ récepteur d’une barre lumineuse mouvante orientée selon différents angles. Lechamp récepteur et l’angle de la barre sont représentés dans la colonne de gauche et les réponsesassociées du neurone dans la colonne de droite. (B) Courbe de sélectivité obtenue avec une expériencesimilaire chez le chat. Figure traduite de Dayan et Abbot (2005).

A 60

50

40

30

20

10

0350300250200150100500

s (direction du mouvement en degrés)

f (H

z)

B

Fig. 1.6 – (A) Enregistrement de la réponse d’un neurone de M1 d’un singe alors qu’il déplace sonbras suivant différents angles, le mouvement partant du centre et allant dans le sens des flèches.La réponse du neurone est présentée sous une forme appelée raster, qui montre les PA émis durantl’ensemble des répétitions. (B) Courbe de sélectivité obtenue à partir des même données. Figuretraduite de Dayan et Abbot (2005).

Page 27: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

1.2. Les modèles du cerveau 27

comme montré sur la figure 1.6, qui illustre la fréquence de décharge d’un neuronedu cortex moteur primaire (M1) du singe lorsque celui-ci bouge son bras dans dif-férentes directions. Cette fois, la relation peut être approchée au mieux par unefonction cosinus (Rieke et coll. 1997, Dayan et Abbot 2005) :

f (s) = [r0 + (rmax − r0) cos(s− smax)]+ (1.2)

où s désigne l’angle du déplacement, smax l’angle associé avec la plus grande ré-ponse du neurone rmax, et r0 est la fréquence de décharge du neurone au repos([]+ dénote la rectification positive de la fonction de manière à ne pas avoir de fré-quence négative, ce qui est impossible). De nombreux autres types de courbes desélectivité ont été obtenues (fonction de Gabor, fonction sigmoïde) démontrant lagrande souplesse, et la grande complexité, de la sélectivité neuronale.

1.2.2.4 Modèles

Étant donné que c’est l’impulsion électrique qui semble transporter l’informa-tion, il apparaît raisonnable de se concentrer sur cet aspect lorsqu’on cherche àmodéliser le fonctionnement du neurone. C’est pourquoi la plupart des modèlesformels de neurones s’appuient sur une analogie avec un circuit électrique équi-valent. Le plus simple a été proposé par Lapicque en 1909 (Abbott 1999) et estreprésenté sur la figure 1.7. Appelé modèle leaky integrate and fire (LIF), il est régipar une équation différentielle liant le potentiel de membrane au courant injectédans le neurone. Lorsque ce potentiel dépasse un seuil de décharge, un potentield’action est généré et le potentiel est remis à une valeur inférieure au seuil. Un cou-rant de fuite assure que le potentiel redescendra à sa valeur de repos en l’absencede stimulation. Formellement, on a :

τmdVdt

= Vrest −V + R.I (1.3)

où Vrest est le potentiel de repos, R la résistance de la membrane, V le potentielde membrane, I le courant injecté (c’est-à-dire la somme des courants synaptiquesen entrée) et τm est la constante de temps de la membrane (τm = C.R, avec C lacapacitance de la membrane). Ce modèle très simple est encore utilisé aujourd’huipour les simulations d’un grand nombre de neurones afin d’étudier la dynamiquedes réseaux (voir par exemple Brunel et Wang (2001), Amit et Brunel (1997)). Il

Page 28: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

28 Chapitre 1. État de l’art

Fig. 1.7 – Le modèle integrate and fire de Lapicque. (A) Le circuit électrique équivalent avec lacapacitance de la membrane C et sa résistance R. V est le potentiel de membrane, Vrest le potentiel derepos, et I le courant injecté en entrée. (B) La trajectoire suivie par le voltage. Lorsque V atteint lepotentiel de décharge, un potentiel d’action est généré et V est remis à une valeur sous le seuil. (C)Un neurone integrate and fire dirigé par un courant variant au cours du temps. La trace du dessusest le potentiel de membrane, celle du dessous est le courant. Figure traduite de Abbott (1999)

comporte l’avantage de ne pas nécessiter de ressources computationnelles impor-tantes tout en capturant le mécanisme des potentiels d’action. De plus, il a étémontré par Partridge (1966) qu’il s’agit d’un cas simplifié du modèle bien connude Hodgkin et Huxley (1952). Ce dernier incorpore les différents courants ioniquesintervenant au sein de la synapse et est probablement le modèle par analogie élec-trique le plus détaillé à ce jour. Il est d’une grande utilité pour modéliser un petitnombre de neurones de manière précise et pour étudier, par exemple, les dyna-miques des différents neurotransmetteurs et leur implication dans la génération dePA. Néanmoins, la précision a un prix en termes de ressources computationnellesnécessaires à la simulation, ce qui pose un problème pour passer à l’échelle : il estaujourd’hui inconcevable de vouloir simuler des réseaux à grande échelle commeon peut les observer en IRMf, en utilisant un modèle de neurone détaillé commecelui de Hodgkin et Huxley. Il y a deux raisons à cela : (i) les ressources computa-tionnelles ne sont pas (encore) disponibles et (ii) on perdrait rapidement la capacitéd’interpréter fonctionnellement les phénomènes macroscopiques pouvant émergerd’un tel réseau, ce qui, rappelons-le, est inacceptable dans le cadre de ce travail. Ilapparaîtra par la suite que, dans le cadre d’une modélisation des populations deneurones (par opposition à la modélisation des neurones individuels), tenir comptede la fréquence globale d’émission de PA permet de caractériser partiellement ladynamique de ces populations, sans devoir générer individuellement ces PA. Pourconclure sur la modélisation du neurone individuel, il faut noter que le PA isolé

Page 29: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

1.2. Les modèles du cerveau 29

n’est qu’un exemple, bien que ce soit le plus représentatif, parmi de multiples com-portements de décharge observés expérimentalement. Certains neurones peuventpar exemple émettre des PA de manière très rapide et en paquet, appelés bursts. Ilfaut aussi noter que les neurones peuvent grandement différer dans leur compor-tement face à un courant injecté en entrée : certains neurones vont émettre des PAde manière régulière tant que le courant est maintenu, alors que d’autres ne vontémettre qu’un seul PA au début du stimulus et rester silencieux ensuite. La figure1.8 représente ces différents comportements et Izhikevich (2004) les recense de ma-nière exhaustive (il y en a vingt !) pour classer les différents modèles de neuronesen fonction de leur capacité à les capturer. Une des grandes questions à laquelle lesneurosciences computationnelles vont devoir répondre dans les années à venir estde savoir si, pour comprendre la cognition, un modèle se doit de reproduire l’en-semble de ces phénomènes ou si certains peuvent être négligés. La complexité desmécanismes peut prêter au découragement si on ne peut en négliger (et il ne s’agitque des phénomènes électriques, les mécanismes chimiques au sein des synapsesintroduisant une complexité encore bien plus grande). Quel est le niveau de détailssuffisant ? Nécessaire ? Les questions restent ouvertes.

1.2.3 Les populations de neurones

1.2.3.1 Anatomie

La question que l’on se pose maintenant est de savoir s’il est possible de regrou-per des neurones ayant des propriétés neuroanatomiques communes. La premièreobservation est que le cortex présente une structure en couches. Au nombre de sixdans le néocortex, elles se différencient par la densité et la nature des neuronesqui les composent (on parle de cytoarchitecture). Révélant ces différences grâce àdes marqueurs colorés, Brodmann (1909) a pu établir un découpage du cortexen régions anatomiquement cohérentes (voir figure 1.9). Ces aires de Brodmannsont encore utilisées aujourd’hui comme références de localisation dans le cortex.De manière plus intéressante pour nous, de nombreuses études ont pu mettre encorrespondance certaines de ces aires avec des fonctions cognitives (par exemplel’aire visuelle primaire V1 est l’aire de Brodmann 17). Une autre structure neuro-nale d’intérêt est la colonne corticale. Elle est en général définie fonctionnellement

Page 30: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

30 Chapitre 1. État de l’art

(A) décharge tonique (B) décharge phasique

(C) burst tonique (D) burst phasique

20 msCourant continu injecté

Fig. 1.8 – Exemples de comportements électriques de neurone. (A) Décharge dite tonique : leneurone décharge régulièrement tant qu’un courant est injecté. (B) Décharge phasique uniquementau début de la stimulation. (C) Burst tonique et (D) burst phasique. Figure adaptée de Izhikevich(2004)

Fig. 1.9 – Découpage anatomique du cerveau en aires de Brodmann. Gauche : vue externe. Droite :coupe sagittale médiane

Page 31: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

1.2. Les modèles du cerveau 31

(c’est-à-dire en fonction de l’information qui est traitée par les neurones qui lacomposent) mais il en existe un pendant plus structurel4 qui désigne une organisa-tion des neurones qui se fait perpendiculairement à la surface du cortex, traversanttoute son épaisseur (et donc les six couches) et dont la surface à la base est trèsréduite (quelque dizaines de µm de diamètre). Rakic (1995) observe dans la cytoar-chitecture de telles structures qui dérivent du développement du cortex (on parlede colonnes ontogéniques). Mountcastle (1978), à qui l’on doit les colonnes corticales«fonctionnelles», proposera le terme mini-colonnes dans une tentative d’unificationde la structure et de la fonction.

Pour terminer cette section sur les structures neuronales, on peut aussi men-tionner les structures de grande taille comme les lobes, déjà mentionnés dans lasection 1.2.1, qui se situent à un niveau de granularité encore bien supérieur.

1.2.3.2 Architecture en réseaux

Toutes ces structures sont interconnectées les unes aux autres et forment desréseaux complexes et entremêlés, à l’échelle du neurone, on l’a déjà dit, mais aussià l’échelle des différentes structures. Les interconnexions au niveau des colonnescorticales par exemple dépendent de la couche corticale à laquelle on se place (Fel-leman et Van Essen 1991, Watts et Thomson 2005). Elles sont majoritairement ver-ticales : les neurones d’une couche projetant principalement (mais pas unique-ment) vers les couches adjacentes de la même colonne (connexions intra-colonnes),mais peuvent aussi être horizontales : les neurones projetant vers les neuronesde la même couche mais situés dans des colonnes adjacentes (connexions inter-colonnes locales) ou même dans des colonnes éloignées (connexions inter-colonnesdistales) (Burnod 1991, Guigon et coll. 1994). Les liaisons longue distance ou dis-tales vont permettre les interactions entre régions cérébrales éloignées. En effet, lesprojections axonales se regroupent en faisceaux qui vont connecter des aires céré-brales, comme le révèlent les études en imagerie et en anatomie (Mesulam 1990,Bressler 1995). On parle alors de réseaux à grande échelle. Les constituants de ces ré-seaux sont des réseaux de plus fine granularité, constitués par exemple de colonnescorticales, elles-mêmes constituées de réseaux de neurones.

4A tel point que beaucoup d’efforts ont été consentis pour montrer que les secondes étaient lesupport biologique des premières, sans résultat définitif à ce jour (Horton et Adams 2005)

Page 32: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

32 Chapitre 1. État de l’art

1.2.3.3 Caractérisation fonctionnelle

Le découpage anatomique n’est pas le seul possible. Depuis plus d’un siècle,grâce à des cas cliniques comme celui de Phineas Gage (Harlow 1848, puis décrit ànouveau par Damasio et coll. 1994) et aux premières découvertes de Broca (1861),nous savons que certaines régions du cortex sont majoritairement impliquées danscertaines fonctions cognitives. En étudiant les déficits cognitifs provoqués par deslésions cérébrales, et avec les apports plus récents de la neuroimagerie fonctionnellequi permet d’observer le cerveau en activité, une carte sommaire de la localisationde certaines grandes fonctions a pu être établie (voir figure 1.10).

Ce découpage fait apparaître des aires dites primaires qui sont les premièresaires en contact avec le système nerveux périphérique, autrement dit, avec l’en-vironnement. Une caractéristique majeure de ces aires est qu’elles présentent unestructure topique, c’est à dire une structure fonctionnelle organisée en rapport avecles caractéristiques physiques des stimuli traités. Les cortex moteur et somatosen-soriel primaires, par exemple, sont organisés de façon somatotopique, dans le sensoù chaque partie du corps va activer une population bien précise dont la positionsur le cortex est en relation avec la position dans le corps de la partie considé-rée (Walshe 1948, Penfield et Rasmussen 1950). La figure 1.11 permet de visualisercette somatotopie par le biais des homoncules, dont les parties du corps sont repré-sentées proportionnellement à la taille du cortex (somatosensoriel ou moteur) quileur est consacrée. On va aussi retrouver une organisation topique dans le cortexauditif primaire, la tonotopie : des neurones répondant à des fréquences prochessont eux-mêmes proches sur le cortex (Ardila 1993). De même, il existe une réti-notopie du cortex visuel primaire où les neurones sont organisés spatialement enfonction de la position sur la rétine à laquelle ils réagissent le plus (Rosa 2002). Lecas de l’aire visuelle primaire est intéressant car il a été étudié de manière exten-sive chez l’animal, et en particulier chez le chat, dont le système visuel est un assezbon modèle du nôtre. Hubel et Wiesel (1962) ont ainsi montré qu’en plus de la ré-tinotopie, les neurones répondent de manière sélective en fonction de l’orientationd’un stimulus visuel, en l’occurrence il s’agissait de lignes parallèles orientées selondes angles divers qui traversaient le champ visuel. Ces mêmes neurones réagissentaussi différemment selon que le stimulus est dans la moitié droite ou gauche duchamp visuel (on parle d’hémichamp droit ou gauche). Les très nombreuses mesures

Page 33: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

1.2. Les modèles du cerveau 33

!"#$%&%'$#!()* +&* ,'-(!.#!* /!*0-#&.$(0!(* /1&0,+$2$#&%$3.* 34* 4.!* &#%$5$%-*03%$5-!* ,&'* +&* '!#6!'#6!*

/14.* -%&%* /!* (%&7$+$%-* 894'.3/* :;<=*>4$?3.! "#! $%&* :;@A)* +&* 23.#%$3.* (,-#$2$B4!* $0,+-0!.%-!*,&'*4.!*

#3+3..!*/-,!./*/!*(!(*'!+&%$3.(*$.%!'.!(*!%*!"%!'.!()*/3.#*/!(*,'3,'$-%-(*/!*(!(*#34#6!(C*

D.!*&$'!*&.&%30$B4!*!(%*4.*'-(!&4*/!*#3+3..!(*#3'%$#&+!(C*E&*23.#%$3.*$0,+-0!.%-!*,&'*4.*'-(!&4*

/-,!./* F* +&* 23$(* /!* +&* %3,3+3?$!* /4* '-(!&4)* !%* /!(* ,'3,'$-%-(* 23.#%$3..!++!(* /!(* -+-0!.%(* B4$* +!*

#3.(%$%4!.%C* G&'* #3.(-B4!.%)* ($* +!(* 23.#%$3.(* /!(* #3+3..!(* #3'%$#&+!(* 5&'$!.%* (4$5&.%* +!4'(*

#&'&#%-'$(%$B4!(* &.&%30$B4!()* &+3'(* 3.* ,!4%* 2&$'!* +16H,3%6I(!* B4!* +!(* 23.#%$3.(* /1&$'!(* #-'-7'&+!(*

&H&.%* /!(* #H%3&'#6$%!#%4'!(* /$22-'!.%!(* 5&'$!.%* -?&+!0!.%C* J!* 0K0!* ,34'* +!(* (%'4#%4'!(* (34(L

#3'%$#&+!()*/3.%*+!(*.!4'3.!(*,'-(!.%!.%*-?&+!0!.%*/!(*/$22-'!.#!(*/13'/'!*&.&%30$B4!C*

!"#"!" $%&'()*+,-.'/&01'//,2-

E!(*-%4/!(*!.*&#%$5&%$3.* M#C2C*,&'&?'&,6!*NC@O)*B4$* (3.%*5!.4!(*#30,+-%!'* +!(*-%4/!(*&.&%30$B4!()*

3.%*-%-*4%$+$(-!(*,34'*5&+$/!'*#!%%!*6H,3%6I(!)*!.*,!'0!%%&.%*4.*/-#34,&?!*23.#%$3..!+*,&'%$!+*/4*

#3'%!"* #-'-7'&+C* P!* /-#34,&?!* %!.%!* /1&((3#$!'* /!(* '-?$3.(* F* /!(* 23.#%$3.(* #3?.$%$5!(* 34*

(!.(3'$03%'$#!(* (,-#$2$B4!(C*E!(* '-?$3.(* 23.#%$3..!++!(*,!45!.%*/$22-'!'*/!(* '-?$3.(*37%!.4!(*,&'*

4.*/-#34,&?!*,4'!0!.%*&.&%30$B4!*8Q!(4+&0*:;RA*%!+(*B4!*#!+4$*/!*9'3/0&..C*D.!*/!(*'&$(3.(*!(%*

B41$+*.1!(%*,&(*,3(($7+!*/!*,'!./'!*!.*#30,%!*%34%!(*+!(*/$22-'!.#!(*,6H($B4!(*8S3+&./*T*U$++!(*:;VA*

+3'(* /4* /-#34,&?!* &.&%30$B4!* M(!4+!* +&* #H%3&'#6$%!#%4'!* !(%* #3.($/-'-!* /&.(* +!* #&(* /!(* &$'!(* /!*

9'3/0&..OC*J!*#!*2&$%)*+!(*2'3.%$I'!(*23.#%$3..!++!(*(3.%*$0,'-#$(!()*/1&4%&.%*,+4(*B4!*+!*/-#34,&?!*

&.&%30$B4!* !(%* +4$L0K0!* (340$(* &4"* 5&'$&%$3.(* &.&%30$B4!(* /4* #3'%!"* !"$(%&.%* /14.* $./$5$/4* F*

+1&4%'!C**

*NN

*

W$?4'!*XC<CY*Z*/-#34,&?!*23.#%$3..!+*/4*#3'%!"*#-'-7'&+C*

!"#$%&'

(#)*#"+$,-

!"#$%&'."$%/#'

,00"12,$2*

!"#$%&'."$%/#'

(#2.,2#%

!"#$%&',/32$2*'

(#2.,2#%

!"#$%&',/32$2*'

,00"12,$2*

!"#$%&'

,00"12,$2*'

!"#$%&'420/%-'

,00"12,$2*'

!"#$%&'420/%-'

(#2.,2#%'

!"#$%&'0".,$"5

0%+02$2*',00"12,$2*'

!"#$%&'0".,$"5

0%+02$2*'(#2.,2#%'

Fig. 1.10 – Découpage en aires fonctionnelles du cortex cérébral

Parties génitales

Orteils

Pied

Jam

beH

anch

eTr

onc

Cou

Tête

Epau

leBr

asCo

ude

Avan

t-br

asPo

igne

tM

ain

Auricu

laire

Annul

aire

Doigt

s

Maj

eur

Index

Pouce

Oeil

A Homoncule sensoriel B Homoncule moteur

Médiale MédialeLatérale Latérale

Nez

Visage

Lèvre supérieure

Lèvre inférieure

Dents, gencives, palais

Langue

PharynxIntra-abdominal

OrteilsCheville

GenouH

ancheTroncEpauleCoudePoignet

Main

Auriculaire

Annulaire

Doigts

Majeur

Index

Pouce Cou

Sourcil

Paupière et globe oculaire

Visage

Lèvres

MâchoireLangueDéglutition

(Mas

ticat

ion)

(Sal

ivat

ion) Vo

calis

atio

n

Fig. 1.11 – Visualisation de la somatotopie. (A) Les parties du corps humain sont représentées, d’unepart à la position qui leur correspond dans le cortex somatosensoriel, et d’autre part, avec une tailleproportionnelle à la taille du cortex qui leur est consacré. (B) idem mais pour le cortex moteur.

Page 34: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

34 Chapitre 1. État de l’art

Fig. 1.12 – (A) Carte de V1 représentant les neurones dans des couleurs correspondant à leurorientation préférée. L’organisation en disques couvrant toutes les orientations est visible. (B) Cartede dominance oculaire où les neurones sélectifs pour l’hémichamp droit sont en foncé et ceux sélectifpour l’hémichamp gauche sont en clair. La légende à droite donne l’orientation de l’image par rapportau reste du crâne (A : antérieur, P : postérieur, L : latéral, M : médian). Ces deux cartes sontsuperposables et les centres des disques se trouvent approximativement au milieu des bandes dedominance oculaire. Figure adaptée de Hubel et Wiesel (1962)

Page 35: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

1.2. Les modèles du cerveau 35

effectuées ont permis de dresser une carte fonctionnelle de V1 (fig.1.12) où les neu-rones sont représentés dans une couleur correspondant à leur orientation préférée.Il est frappant de voir que les neurones s’organisent spontanément en disques quicouvrent l’ensemble des orientations. Quant à la sélectivité à l’hémichamp, ellepermet de dresser une autre carte fonctionnelle, où des bandes alternées de sélec-tivité à droite puis à gauche se succèdent. Ces deux cartes, une fois superposées,montrent que les centres des disques se trouvent sensiblement au milieu de cesbandes.

On voit bien l’importance de l’information traitée même au niveau de l’orga-nisation neuronale, ce qui exclut a priori une caractérisation purement anatomiquedes groupes de neurones. La structure et la fonction sont toujours intimement liées.

Après traitement dans les aires primaires, l’information circule vers les aires as-sociatives. C’est dans ces aires que les intégrations multi-modale et multi-sensoriellevont se faire. Bien que l’organisation topique y soit moins nette, elle semble exister(Alexander et coll. 1992), mais elle est aussi probablement plus complexe et doncmoins facile à observer expérimentalement (Rosa 2002). Il est à noter que les airesprimaires sont aussi parfois directement interconnectées (Falchier et coll. 2002),suggérant une intégration multi-modale précoce. Les aires associatives constituentla plus grande partie du cortex chez l’humain et les traitements qu’elles effec-tuent peuvent être extrêmement variés. Le cortex pariétal postérieur, par exemple,construit la représentation spatiale d’un objet en intégrant toutes les modalités (An-dersen et coll. 1997, Bremmer et coll. 2001). Les aires associatives peuvent aussiintégrer des informations ne provenant que d’une seule modalité pour construiredes représentations plus évoluées. Le traitement visuel, par exemple, s’effectue demanière hiérarchique : les populations recevant directement l’information prove-nant de la rétine ne traitent qu’une petite partie du champ visuel (organisationrétinotopique), mais au fur et à mesure des traitements, les populations élargissentleur zone de sensibilité (on parle de champ récepteur) jusqu’à construire une repré-sentation des objets présents sur l’ensemble du champ visuel.

Notons aussi que les connexions entre aires primaires et associatives ne sontpas unidirectionnelles, mais qu’il existe des liaisons dites en feedback, c’est-à-direque le traitement effectué au niveau des aires associatives peut avoir des répercus-sions sur les aires primaires, en venant par exemple renforcer un percept devenudominant (Hupe et coll. 1998, Roelfsema et coll. 1998).

Les aires préfrontales, quant à elles, reçoivent de l’information des aires primaires,

Page 36: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

36 Chapitre 1. État de l’art

des aires associatives mais aussi, massivement, des structures sous-corticales. Cesdernières peuvent avoir des rôles très variés dans la perception et l’expression desémotions, la liaison avec le système nerveux autonome, la production de neuro-transmetteurs, etc. , ce qui permet aux aires préfrontales de traiter plusieurs typesde tâches fondamentales : la planification et la gestion de la temporalité dans l’ac-tion, le contrôle cognitif des émotions, le raisonnement abstrait, etc.

1.2.3.4 Architecture en réseaux

Cependant cette association entre aires cérébrales et tâches cognitives ne doitpas faire perdre de vue que leur fonctionnement passe nécessairement par unedistribution en réseaux complexes et entrecroisés. Ainsi par exemple, les struc-tures sous-corticales sont souvent considérées comme permettant la modificationdynamique de ces réseaux en fonction du contexte, par le biais d’une successiond’inhibitions ciblées (O’Reilly 2006). Ou encore, comme nous l’avons déjà men-tionné au paragraphe précédent, par le biais de liaisons rétrogrades ou feedback, unjeu de renforcements successifs peut se mettre en place entre les aires primaires etassociatives. Ceci a de multiples avantages par rapport à un traitement purementhiérarchique : (i) la représentation de haut niveau d’un objet peut s’appuyer surdes éléments très succincts et imprécis, ce qui a pour effet de considérablementaccélérer le traitement (Kirchner et Thorpe 2006) ; (ii) de plus, lorsque l’interpréta-tion des stimuli est ambiguë ou demande une attention plus soutenue aux détails,les liaisons rétrogrades permettent l’activation plus ciblée et donc plus efficace desaires primaires (van der Velde et de Kamps 2001, Motter 1993, Deco et Rolls 2005).Ce type de fonctionnement distribué est très flexible et permet l’implication d’unepopulation dans de nombreux réseaux. Mais cela rend la tâche d’identification durôle fonctionnel d’une population au mieux difficile, au pire illusoire.

1.2.3.5 Modèles

Lorsqu’on parle de modèles de populations neuronales, il est utile de faire unedistinction entre ceux issus des modèles de neurones individuels qui cherchentdonc à «re-générer» le comportement des populations, et ceux qui abordent lapopulation comme un tout et donc qui reproduisent le comportement observé.Dans les deux cas, les techniques expérimentales de validation ne sont pas lesmêmes.

Page 37: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

1.2. Les modèles du cerveau 37

Du neurone à la population. Dans ce premier cas, ce sont des modèles provenantde la neurophysiologie et s’appuyant sur des enregistrements de neurones chezl’animal qui sont utilisés. Le principe est de partir de modèles détaillés du neuronecomme ceux évoqués dans la section 1.2.2.4 et de calculer mathématiquement ladynamique de ces modèles lorsqu’un très grand nombre de neurones sont mis enréseau. Au prix en général de quelques hypothèses simplificatrices, on peut décrirecette dynamique analytiquement avec le très grand avantage de s’appuyer sur desdonnées expérimentales solides et donc de pouvoir contraindre précisément lesparamètres des équations générées. Le plus connu de ces modèles est probable-ment celui proposé par Wilson et Cowan (1972) et développé par Amit et Tsodyks(1991a;b) et Abbott (1994). Il décrit la dynamique d’une population en termes defréquence de décharge, mais pour obtenir cela, seules deux échelles de temps sontconsidérées. En effet, ce qui rend la modélisation des populations de neurones sicomplexe, c’est la très grande variété des dynamiques intervenant simultanément,chacune avec sa propre échelle de temps. En en négligeant la plupart pour neconserver que celles gouvernant, d’une part, la génération des potentiels d’actionet, d’autre part, l’intégration synaptique, on peut caractériser la dynamique d’unepopulation homogène5 de neurones au moyen de deux équations différentiellesdu premier ordre (pour la dérivation complète de ces équations : voir annexe) :

τsdSdt

= −S + w · u (1.4)

τrdrdt

= −r + F(S(t)) (1.5)

où S est le courant synaptique total entrant dans la population et τs caractérise lavitesse avec laquelle il atteint un état stationnaire après une fluctuation des cou-rants extérieurs u (la notation en caractère gras indiquant qu’il s’agit d’un vecteur).w dénote le vecteur des poids accordés à chacun des courants en entrée. r est lafréquence de décharge, qui atteint un état stationnaire en τr suite à une fluctua-tion de S. F est la fonction d’activation qui caractérise la réaction de la populationà un courant en entrée. En général, il s’agit d’une fonction à seuil, saturant au-delà d’une valeur maximum, comme la sigmoïde (ou son approximation linéairepar morceaux si la dérivation de F n’est pas un problème) représentée sur la fi-gure 1.13. Cette modélisation a le grand avantage d’être simple à mettre en place

5Plus les neurones qui composent la population sont semblables en termes de dynamique, plusl’hypothèse sous-jacente à la modélisation par fréquence de décharge est valable.

Page 38: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

38 Chapitre 1. État de l’art

0

0,25 0,

5

0,75 1

1,25 1,

5

1,75 2

0

0,25

0,5

0,75

1

0

0

1

Fig. 1.13 – Fonction sigmoïde et son approximation par une fonction linéaire par morceaux. Elle apour expression analytique y = c/(1 + e−a(x−b)) où a détermine la pente (a = 10 sur la figure),b est l’abscisse du centre de symétrie (ici b = 1) et où c est le gain (c = 1). L’approximation parmorceaux a pour équation y = max(min(c, a.c

4 (x + 2a − b)), 0).

dans le cadre de réseaux à grande échelle. Elle a été utilisée avec succès dans lamodélisation de nombreux réseaux du système visuel (Pouget et Sejnowski 1995;1997), mais aussi pour l’étude des réseaux récurrents (Abbott 1994), pour la modé-lisation de la mémoire de travail caractérisée par une activation prolongée dans letemps des populations neuronales (modélisation par Compte et coll. 2000 d’aprèsles observations résumées par Goldman-Rakic 1995), et plus généralement pourl’étude de la stabilité et des attracteurs des réseaux récurrents (Rinzel et Ermen-trout 1998). Un formalisme plus récent, appelé analyse «mean-field», développépar Amit et Brunel (1997), Brunel et Sergi (1998) et généralisé par Brunel et Wang(2001), met en relation de façon bien plus précise la fréquence de décharge d’unepopulation avec les paramètres caractérisant les neurones individuels, en particu-lier ceux gouvernant la dynamique des différents courants synaptiques. La philo-sophie derrière est cependant bien différente puisque cette méthode est appliquéedans le cadre de la simulation de très grands réseaux de neurones de type leakyintegrate and fire. Comme le choix des paramètres impliqués dans ces simulationsne peut pas toujours être contraint par des données expérimentales, une modé-lisation de la dynamique du réseau dans un état stationnaire est faite au moyendu formalisme «mean-field». Une fois les équations déterminées, on fait ce qu’onappelle une analyse des bifurcations, qui consiste à séparer l’espace des paramètresen plusieurs régions où le réseau se comporte de manières différentes (oscillationsrégulières ou irrégulières, synchronisation des neurones ou, au contraire, asynchro-

Page 39: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

1.2. Les modèles du cerveau 39

nie, etc). On sélectionne alors le comportement du réseau désiré, ce qui contraintles paramètres qui peuvent être ré-injectés dans la simulation dynamique (par op-position à stationnaire). La démarche est résumée dans la figure 1.14. On voit bienqu’à la différence du formalisme précédent, il ne s’agit pas de simuler un réseau aumoyen des fréquences de décharge mais bien de déterminer les paramètres d’unesimulation de neurones émettant des PA.

Le codage par population. Les courbes de sélectivité des neurones caractérisenten partie la manière dont un neurone seul code l’information. La courbe permetune estimation partielle de la valeur du stimulus traité en fonction de la fréquencede décharge. En raisonnant à l’échelle des populations, il est possible d’aller plusloin en complexifiant la quantité d’information qui peut être encodée. Ainsi, dansle cadre des neurones du cortex moteur primaire, Georgopoulos et coll. (1986; 1988)utilise le vecteur de population, caractérisant l’activation d’une population de N neu-rones i dont la direction de mouvement préférée est pointée par le vecteur vi, etqui est défini par :

vpop =N

∑i=1

(r− r0

rmax

)i.vi (1.6)

où(

r−r0rmax

)i

désigne la fréquence de décharge du neurone i, relative à sa fréquencede décharge maximum rmax et sa fréquence de décharge au repos r0. Il a été mon-tré qu’en moyenne, si N est suffisamment grand et si les directions préférées sontuniformément réparties dans toutes les directions, le vecteur de population poin-tera dans la direction du mouvement effectué : la population code la direction dumouvement. Cette méthode de décodage a été utilisée dans de nombreuses études,parmi lesquelles Humphrey et coll. (1970), Van Gisbergen et coll. (1987), Lee et coll.(1988).

Il est intéressant de constater que, dans le formalisme du vecteur de popula-tion, l’information n’est pas codée par la fréquence de décharge d’un neurone enparticulier au sein d’une population mais bien par la répartition des activités desneurones dans la population. Cette représentation est robuste et permet à un mêmeneurone de contribuer à la représentation de plusieurs valeurs d’un même attributsans que sa contribution ne soit cruciale. Le taux de perte des cellules neuronalesexclut en effet toute représentation de l’information qui s’appuierait sur des neu-rones isolés. La redondance doit assurer la robustesse du code neuronal. Cepen-

Page 40: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

40 Chapitre 1. État de l’art

non-stationnaire

choix desparamètres

stationnaire

Modèle de neurone LIFincluant les différentesdynamiques synaptiques

Décomposition en po-pulations homogèneset modélisation «mean-field» des fréquences dedécharge

Simulation complète avecdynamique des PA

Diagramme de bifurcation

Dynamique 1

Dynamique 2

Dynamique 3

Espace des paramètres

Fig. 1.14 – L’approche «mean-field» : partant d’une simulation d’un grand réseau de neuronesLIF dont on veut étudier la dynamique, on simplifie d’abord l’analyse par le biais d’une analyse«mean-field». Cela permet, après une analyse des bifurcations, de trouver un jeu de paramètres cor-respondant à la dynamique désirée. On utilise ensuite les paramètres ainsi trouvés dans la simulationcomplète.

dant, la fréquence de décharge de la population donne aussi une information quin’est pas prise en compte par le vecteur de population. Koechlin et Burnod (1996),Koechlin et coll. (1996) proposent une représentation duale de l’information ausein d’une population, qui prend en compte à la fois la répartition des activitésdes neurones et l’activation globale de la population qui encode la pertinence de lareprésentation distribuée.

Finalement, le vecteur de population est défini pour des neurones dont lescourbes de sélectivité sont approchées par des fonctions cosinus. Ce n’est pas lecas général comme il a été vu. Pouget et Sejnowski (1995; 1997) généralisent cemodèle en s’appuyant sur la décomposition d’une fonction dans une base de fonc-tions. Ce principe mathématique permet d’approcher avec une précision arbitraireune fonction quelconque par une combinaison linéaire de fonctions particulières. Lesfonctions cosinus et sinus permettent de définir une telle base (il s’agit alors d’unedécomposition de Fourier), mais il en est de même pour les fonctions gaussienneset sigmoïdes. L’intérêt de cette approche est qu’on utilise cette fois l’intégralité dela courbe de sélectivité, non-linéarité incluse, sans se limiter à la valeur préférée.Cette approche englobe dans un même formalisme le codage par vecteur, le codagedual et l’élargit à des populations de neurones dont les courbes ne sont pas descosinus.

Page 41: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

1.2. Les modèles du cerveau 41

A la lumière de ces considérations, lorsqu’il s’agit de représenter la dynamiquede l’activation des populations dans un réseau, représenter cette activation commel’intégrale des fréquences de décharge des neurones qui la composent n’est passuffisant pour pouvoir introduire la sélectivité de cette population à l’information.Ben-Yishai et coll. (1995) et Pouget et Sejnowski (1995; 1997) proposent des modi-fications du modèle décrit par les équations 1.4 et 1.5 où les poids attribués auxactivations reçues par une population (le vecteur w) dépendent de la sélectivité.Ces modèles modulent donc l’activation d’une population en fonction de la na-ture de l’information qu’elle traite à ce moment. La sélectivité de la population estcaractérisée à partir de la sélectivité des neurones individuels, par le biais d’uneintégrale.

La neuroimagerie synthétique. Un objectif logique de la simulation d’un grandnombre de neurones serait de pouvoir reproduire les activations observées enIRMf. En effet, le signal BOLD (blood-oxygen-level dependent, dépendant du tauxd’oxygène dans le sang) qui est mesuré par l’IRMf est une mesure indirecte del’activité des neurones. Lorsqu’ils émettent des PA, les neurones consomment del’énergie qui est renouvelée par la consommation locale d’oxygène dans le sang. Enréaction, la teneur en oxygène est restaurée par une augmentation locale du débitsanguin. C’est cette teneur en oxygène locale qui est mesurée par l’intermédiairedu signal BOLD (Sabbah et coll. 1995). En revanche, si la précision spatiale de ladétection du signal est satisfaisante, la précision temporelle, c’est-à-dire l’adéqua-tion entre le moment précis de l’activation neuronale et le moment où on peutobserver le signal BOLD, n’est pas très bonne. On appelle réponse hémodynamiquela courbe suivie par le signal BOLD après une activation neuronale (voir figure1.15). On peut voir sur la figure que, là où l’échelle de temps d’une activation neu-ronale se compte en milli-secondes, la réponse hémodynamique se mesure plutôten secondes. Elle agit donc comme un filtre passe-bas, gommant les variations ra-pides pour ne rendre compte que de l’activité globale sur un intervalle de tempsde plusieurs secondes. Si on est capable de simuler une grande quantité de neu-rones en gardant leur dynamique individuelle, alors il est possible de calculer unsignal BOLD synthétique en réalisant la convolution de l’activité synaptique to-tale du réseau avec la réponse hémodynamique. L’activité synaptique est utiliséecar Logothetis et coll. (2001) ont montré que le signal IRMf serait plus corrélé àl’activité synaptique qu’aux potentiels d’action. La différence réside dans le fait

Page 42: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

42 Chapitre 1. État de l’art

-0,2

0

0,2

0,4

0,6

0,8

1

1,2

0 2 4 6 8 10 12 14 16 18 20Temps (en secondes)

Sign

al n

orm

alis

é

Fig. 1.15 – Tracé d’une réponse hémodynamique standard. Une bonne approximation analytique de

ce tracé est donnée par l’expression h(t) = c1tn1 e−t/t1 − a2c2tn2 e−t/t2 , ci = max(tni e−tti ) où t est

le temps et c1, c2, a2, n1 et n2 sont des paramètres à estimer

qu’un PA en entrée du neurone contribue toujours positivement à l’activité synap-tique mais qu’il peut contribuer négativement à l’émission d’un PA en sortie si lessynapses sont inhibitrices. En termes plus formels, lorsqu’il s’agit de calculer l’ac-tivité synaptique totale d’un réseau, ce sont les activités en valeur absolue qui sontintégrées, alors que dans le cas du calcul de l’activité neuronale globale, ce sontles valeurs relatives des activations qui sont intégrées, l’inhibition se soustrayant àl’excitation. Le résultat final pourra être comparé avec des enregistrements expé-rimentaux réels (voir par exemple Deco et coll. 2004, Deco et Rolls 2005, Stemmeet coll. 2007).

Même si la puissance de calcul, en constante augmentation, permet de simulerde plus en plus de neurones et donc de plus en plus de populations, une telleapproche très détaillée prenant en compte de nombreux aspects de la dynamiqueneuronale est difficile à mettre en place pour de grands réseaux. Arbib et collabo-rateurs (1995) ont proposé une autre approche pour simuler des résultats de neu-roimagerie, moins précise mais plus facilement extensible. Dans un premier temps,il s’agissait de simuler des résultats de tomographie par émission de positrons. La TEPest une technique d’imagerie médicale plus ancienne que l’IRM (Tim 1954) et quia aussi une application en neuroimagerie fonctionnelle. Elle s’appuie sur l’obser-vation au moyen d’une caméra spéciale, appelée caméra à positrons, de l’évolutiond’un traceur radioactif injecté dans l’organisme. En étudiant les concentrations lo-

Page 43: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

1.3. Les modèles de l’esprit 43

cales du traceur, on peut obtenir une mesure du débit sanguin régional, ce quipermet de localiser dans le cerveau les zones en activité. La résolution temporellede la TEP est encore plus faible que celle de l’IRMf, de l’ordre de 40 secondes.La technique proposée par Arbib et collaborateurs (1995), et généralisée à l’IRMfdans (Arbib et coll. 2000), est la suivante : partant d’un réseau de neurones LIF, etsachant que l’augmentation locale du débit sanguin est corrélée à l’activité synap-tique, en intégrant celle-ci spatialement sur toute la population et temporellementsur toute la durée de l’acquisition TEP ou IRMf, on obtient une mesure qui peutêtre ramenée qualitativement (par opposition à une simulation quantitative commepour l’approche précédente) à la mesure de neuroimagerie. Une simple règle detrois permet une comparaison des valeurs relatives entre la valeur simulée et lavaleur réelle. Bien que la valeur ainsi calculée ne puisse pas être directement com-parée aux valeurs expérimentales, il est possible d’étudier ses variations relatives cequi permet de faire des prédictions réfutables expérimentalement. On retrouve uneapproche similaire chez Horwitz et coll. (1999). Notons que l’activation de réseauxde populations qui apparaît en IRMf est bien prise en compte dans ces travaux quimodélisent des réseaux de réseaux de neurones. Les réseaux sont en effet séparésen différents modules dans le but d’isoler en partie certains aspects fonctionnelsdu traitement.

Il est aussi possible de construire des modèles du cerveau sans passer par lasimulation d’un grand nombre de neurones. Ces approches intégrées utilisent desformalismes numériques (Taylor et coll. 2000) qui peuvent être, par exemple, ins-pirés des équations de Wilson et Cowan (1972) (voir paragraphe 1.2.3.5, p.36), oubien utiliser des approches plus symboliques issues de l’intelligence artificielle (IA).C’est cette dernière possibilité que nous avons adoptée pour notre modèle et c’estpourquoi, avant de décrire plus avant les modèles intégrés, les modèles issus del’IA vont être détaillés, afin de bien comprendre les contributions respectives desneurosciences et de l’IA aux modèles qui s’inspirent de ces disciplines.

1.3 Les modèles de l’esprit

Est-il possible de reproduire l’intelligence ? Pour répondre à cette question, ilfaut définir ce qu’on entend par l’intelligence, et aujourd’hui encore, il n’y a pasde réponse admise par tous. En août 1956, dans le cadre de la conférence de Dart-mouth, McCarthy et ses collègues ont proposé de résoudre en 10 ans des problèmes

Page 44: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

44 Chapitre 1. État de l’art

qui sont encore actuellement les questions fondatrices de la recherche en intelli-gence artificielle et donc très loin d’être «résolus» : le traitement automatique dulangage, le raisonnement, l’apprentissage, la créativité, etc. La naïveté de l’époquea été remplacée par une conscience aiguë des difficultés à surmonter. Longtempsnourries par des allers-retours constants entre la psychologie expérimentale et lamodélisation formelle, les théories mathématiques globales de l’intelligence ontévolué vers des réponses plus spécifiques à des problèmes pratiques mieux définiset mieux contrôlés. Le lien entre l’IA et la psychologie dans l’étude de la cognitionse transforme de plus en plus en un lien avec les neurosciences cognitives qui sefocalisent plus sur ce qui est l’origine de la cognition, comme si finalement, l’in-telligence ne pouvait se concevoir en dehors d’une meilleure compréhension dufonctionnement cérébral.

Cette section adopte une organisation opposée à la précédente, en lien par-tiel avec les développements historiques des théories de la cognition. Partant desthéories globales de l’intelligence et de la formalisation logique du raisonnement,l’accent sera ensuite mis sur l’évolution vers toujours plus de plausibilité biolo-gique, pour finalement converger vers les modèles les plus abstraits issus des neu-rosciences computationnelles, illustrant par là la complémentarité de plus en plusévidente entre ces deux branches de développement. Cependant, il va sans direqu’il y a probablement autant d’approches de l’intelligence artificielle qu’il y a dechercheurs dans la discipline et que toute tentative d’«étiquetage» de ces travauxest vouée à être injuste ou erronée. Ce tour d’horizon n’est donc en rien une clas-sification ferme mais plutôt une présentation organisée des travaux sur lesquels cetravail s’appuie.

1.3.1 Formalisations de la cognition

1.3.1.1 La logique et l’automatisation du raisonnement

La formalisation du raisonnement est en un sens aussi vieille que les mathéma-tiques. Toute démonstration d’un théorème est une manière de formaliser préci-sément la démarche intellectuelle qui a permis d’aboutir à la conclusion. Malheu-reusement, si le raisonnement mathématique permet d’exprimer et de manipulerrigoureusement des concepts, la résolution de problèmes s’avère complexe (Pólya1957), trop proche du langage naturel en un sens, pour qu’on puisse facilement

Page 45: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

1.3. Les modèles de l’esprit 45

l’automatiser au moyen d’un ordinateur, même pour des problèmes relativementsimples.

Au milieu du XIXème siècle, Georges Boole (1848) propose une forme simplifiéede raisonnement logique qui se limite à des assertions ne pouvant être que vraiesou fausses. On parle de logique binaire ou booléenne du nom de son inventeur.Cette logique s’avère décisive pour le développement de l’informatique au milieudu XXème siècle lorsque Shannon (1938) prouve que des problèmes d’algèbre boo-léenne peuvent être résolus par des circuits électriques (qui deviendront plus tarddes circuits électroniques avec le développement du transistor). Il devient doncpossible d’automatiser un raisonnement logique, de tirer des conclusions à partirde faits établis sans passer par un intermédiaire humain. C’est le début de la forma-lisation du raisonnement et de la connaissance, avec, par exemple, le premier dé-monstrateur automatique de théorèmes mathématiques (Newell et coll. 1956). Cesdéveloppements ont aussi permis de commencer à formaliser logiquement le lan-gage naturel, et les premiers systèmes capables de dialoguer (partiellement !) avecun humain voient le jour (ELIZA (Weizenbaum 1966) en est le premier exemple).Des formes de logiques plus évoluées, comme la logique des prédicats (Frege 1879),sont ensuite adaptées à l’informatique pour étendre la gamme de problèmes ac-cessibles, et des langages informatiques comme PROLOG (Colmerauer et Roussel1996) sont mis au point pour permettre l’automatisation du raisonnement logiqueet d’autres formes de logiques, dites «non-classiques», sont développées pour ré-soudre des problèmes insolubles par la logique classique. Cette dernière s’avèreinsuffisante, par exemple, pour gérer les exceptions à une règle. Or, il s’agit dequelque chose qu’un humain fait facilement. La logique des défauts (Reiter 1980)est un des cadres proposés par l’intelligence artificielle pour prendre en comptede telles exceptions. De fait, de nombreuses logiques dites non-monotones ont étéproposées pour traiter des exceptions (LéaSombé 1990).

1.3.1.2 La représentation de la connaissance

Pour que cette approche symbolique du raisonnement puisse rivaliser avecl’homme, il semble nécessaire de construire d’importantes bases de connaissance,un regroupement d’assertions considérées comme vraies, énoncées sous forme de

Page 46: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

46 Chapitre 1. État de l’art

règles de déduction connues (les oiseaux volent par exemple6). Ces bases de connais-sance posent un problème majeur : la connaissance accumulée sur le monde parun unique être humain est gigantesque. Ce qu’on appelle le «bon sens» semblemettre en œuvre une somme de connaissances tellement importante qu’il appa-raît impossible de construire «à la main» une base de connaissance qui la capturecomplètement. Des initiatives comme CYC (Lenat 1995) ont permis de bâtir desbases importantes mais la tâche semble sans fin sans un moyen d’acquérir de laconnaissance automatiquement. Or, représenter l’environnement et la connaissances’y rapportant en clauses logiques bien formées est encore une tâche qui n’a paspu être automatisée.

Si représenter l’intégralité du monde en clauses logiques est encore hors de por-tée, cela ne veut pas dire que les méthodes de déduction logique ne présentent pasd’intérêt. Si la base de connaissance est limitée à un champ de connaissances bienspécifique, une spécialité médicale par exemple, alors elle peut être suffisammentcomplète pour qu’un système capable de raisonner logiquement et automatique-ment puisse l’utiliser pour produire des conclusions et des diagnostics à partir defaits observés. De tels systèmes, connus sous le nom de systèmes experts, ont connuun grand succès à partir des années 70 (l’exemple le plus connu est probablementMYCIN (Shortliffe 1974) qui permet de faire le diagnostic d’infections du sang etde prescrire les remèdes correspondants) et sont encore aujourd’hui quotidienne-ment utilisés dans de nombreux domaines comme l’industrie, l’attribution de prêtsbancaires ou l’aide informatique.

Nous avons déjà mentionné, avec la logique des défauts, le problème du rai-sonnement lorsque l’information est incomplète, c’est-à-dire le problème de la dé-finition de connaissances qui utilisent une information juste mais parcellaire (Léa-Sombé 1990). Un autre écueil auquel doivent faire face les systèmes symboliquesest la nature parfois incertaine des informations qui constituent la base de connais-sance. Cette incertitude peut provenir du caractère imprécis voire vague de l’in-formation disponible, ou du caractère aléatoire d’un événement. Plusieurs for-malismes ont été mis au point pour pallier cette situation. La section suivantepasse brièvement en revue les principaux formalismes (même s’il en existe d’autrescomme la théorie des fonctions de croyance de Shafer (1976)).

6Ce qui nous donne en même temps un exemple de l’intérêt de la logique des défauts : lesoiseaux volent sauf l’autruche, le manchot, etc. Pouvoir conserver un cadre de déduction formellevalide malgré ces exceptions est primordial pour représenter la connaissance sur le monde.

Page 47: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

1.3. Les modèles de l’esprit 47

1.3.2 Informations imprécises et incertaines

1.3.2.1 La connaissance imparfaite

Toutes les approches présentées précédemment s’appuient sur une vision idéalede la représentation de la connaissance. Dans la réalité, la connaissance est loind’être parfaite. La description des faits relatifs au cas particulier auquel on chercheà appliquer la connaissance peut être notamment incomplète. Or, s’il manque desfaits, les mécanismes de déduction issus de la logique classique sont souvent inca-pables d’aboutir à des conclusions dans la mesure où les règles de déduction né-cessitent la vérification de toutes leurs prémisses pour que la conclusion soit valide(en supposant que les règles spécifient toutes les exceptions envisageables, ce quirendrait d’ailleurs leur acquisition très compliquée). Dans certains cas, pourtant,on aimerait pouvoir conclure au moins provisoirement, surtout si on sait qu’ob-tenir la connaissance d’une prémisse est difficile, coûteux, voire impossible. Laconnaissance utilisée peut aussi se révéler incertaine. Si la source qui nous a per-mis de dire qu’un fait est vrai n’est pas fiable, alors les conclusions qui pourrontêtre tirées de ce fait seront entachées d’incertitude. Il peut donc être important depouvoir préciser voire quantifier la confiance que l’on accorde à un fait et doncaux conclusions qu’il entraîne. Enfin, la connaissance peut être imprécise : si ondemande la taille de Jacques à Paul, il ne répondra pas forcément «1,90 m», maisprobablement «il est grand». Ce n’est pas faux, mais c’est imprécis et relativementvague. Pourtant, l’information contenue dans cette phrase doit pouvoir suffire àtirer des conclusions dans un certain nombre de cas où la taille exacte n’est pasrequise.

Ce genre de problème est très courant dans la réalité. Dans les systèmes ex-perts, par exemple, pour construire la base de connaissance initiale qui permettrad’alimenter les déductions, il faut formaliser en termes logiques la connaissancehumaine sur le domaine. Des experts doivent donc réussir à restituer de manièreprécise et organisée des connaissances qu’ils ont acquises de manière souvent em-pirique et désordonnée. Cette tâche est en général difficile et au pire impossible :il arrive que ces experts soient tout simplement incapables de formaliser explicite-ment des raisonnements qui sont passés d’un statut déclaratif à un statut implicite.Et construire la base de connaissance n’est pas la seule source de problèmes. Pourqu’un système expert fonctionne, il utilise aussi des faits nouveaux qui peuventprovenir de capteurs, dans le cas d’un système industriel, ou de symptômes ob-

Page 48: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

48 Chapitre 1. État de l’art

servés chez un patient, dans le cas d’un système médical. Dans le premier cas, lescapteurs peuvent être mal réglés, ce qui entraîne des erreurs, ou peu précis, ce quientraîne des imprécisions. Dans le deuxième cas, des symptômes peuvent ne pasapparaître, pourtant on veut quand même pouvoir proposer un diagnostic, mêmeprovisoire.

En résumé, le raisonnement en présence d’informations imprécises, incertainesou simplement manquantes, une chose que l’être humain fait de manière naturelle,ne peut pas être abordé avec la logique classique. Il existe de très nombreux for-malismes qui abordent ce problème. Les approches les plus répandues s’appuientsur une quantification de l’erreur grâce à des techniques probabilistes.

1.3.2.2 L’inférence probabiliste

Définitions. L’outil mathématique le plus ancien et donc le plus développé pourprendre en compte l’incertitude quant à la nature de l’information traitée est lathéorie des probabilités. Considérons un événement A. Sa fonction de vérité est la fonc-tion qui lui associe des valeurs traduisant son adéquation avec le monde. Ainsi enlogique classique, cette fonction ne peut prendre que deux valeurs, 0 (ce fait estfaux) ou 1 (il est vrai). Considérant l’ensemble des faits connus, appelé un monde,soit une valeur de vérité peut être attribuée, soit elle ne le peut pas et A ne faitpas partie du monde et rien ne peut être dit sur sa nature. En revanche, dans l’ap-proche probabiliste, loin de se limiter au seul monde décrit par les faits connus,l’ensemble des mondes possibles à partir des ces faits est considéré dans sa globa-lité. Dans un certain nombre de ces mondes possibles, A sera vrai, mais dans lereste il sera faux. Le rapport du nombre de mondes où A est vrai par le nombretotal de mondes possibles définit la probabilité que A soit vrai, et elle est en géné-ral notée p(A). Un grand nombre de propriétés sur les probabilités peuvent êtredérivées de cette définition, en particulier la propriété caractéristique d’additivité(P(A ∪ B) = P(A) + P(B) si A ∩ B = ∅). Nous rappelons maintenant la notiond’indépendance et de probabilité conditionnelle.

– Soit deux événements A et B. On note A ∩ B l’événement «A et B sont simul-tanément vrais». Alors p(A ∩ B) = p(A).p(B) si et seulement si A et B sontstochastiquement indépendants, c’est à dire que le fait que A soit vrai ou fauxn’influe en rien sur la nature de B. Un exemple simple de l’indépendancede deux événements est le lancer de deux pièces de monnaie. Si on supposequ’elles n’entrent pas en collision alors le fait qu’une des pièces tombe sur

Page 49: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

1.3. Les modèles de l’esprit 49

face n’influe en rien sur le résultat de l’autre lancer. Il en résulte que, commela probabilité qu’une pièce tombe sur face est de 1

2 , la probabilité que les deuxpièces tombent sur face est égale à 1

2 ×12 = 1

4 .– Il est possible de calculer la probabilité d’un événement A dans le cas res-

treint des mondes où un autre événement B est vrai. Cette probabilité p(A|B)(probabilité de A sachant B) est appelée probabilité conditionnelle et est définiepar :

p(A|B) =p(A ∩ B)

p(B)(1.7)

Cette définition permet de démontrer la formule d’inversion suivante :

p(B|A) =P(A|B).P(B)

P(A)(1.8)

Cette formule est connue sous le nom de théorème de Bayes et est le fondement del’inférence probabiliste bayésienne. En effet, «inférer» consiste à prendre en compteun fait nouveau pour en tirer des conclusions. Donc si e est ce fait nouveau, mettreà jour les probabilités des événements sachant e revient à calculer, pour un évé-nement A quelconque, p(A|e), c’est-à-dire ici, passer de probabilités a priori à desprobabilités a posteriori sachant le fait nouveau.

On définit aussi la notion de variable aléatoire. Une variable aléatoire (v.a) estune variable qui associe une valeur unique à chaque réalisation possible d’uneexpérimentation ou d’un jeu de hasard. Par exemple, la durée de vie d’une am-poule électrique qu’on laisse brûler en permanence (v.a continue) ou le nombred’ampoules électriques défectueuses dans une boîte (v.a discrète). La distribution deprobabilités πV associée à une v.a V est la fonction qui, à une valeur v possible pourcette variable, associe la probabilité p(V = v) si V est à valeurs discrètes, et qui estdéfinie par P(a < v < b) =

∫ ba πV(v)dv lorsque V est à valeurs continues (on parle

alors de densité de probabilité).

Classifieur bayésien naïf. La formule de Bayes est à l’origine d’une méthodede classification probabiliste appelée classification bayésienne naïve. Cette méthodeconsiste à calculer la probabilité qu’un objet, décrit par un ensemble d’attri-buts {Fi}i∈[1,...,n], appartienne à une classe C en calculant P(C|F1, F2, . . . , Fn).Sous l’hypothèse (forte, ce qui explique la dénomination de classification naïve)d’indépendance des attributs entre eux, on peut écrire (en utilisant le théorème de

Page 50: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

50 Chapitre 1. État de l’art

Bayes et la propriété d’indépendance) :

P(C|F1, F2, . . . , Fn) =1Z

p(C)n

∏i=1

p(Fi|C) (1.9)

où Z est une constante et où les quantités P(C) et p(Fi|C) peuvent être apprisesà partir du jeu de données à disposition. Pour ensuite classifier l’objet dans unecertaine classe, une manière simple de procéder consiste à prendre la classe la plusprobable compte tenu des attributs. Cette méthode est appelée maximum a posteriori(MAP). Le paragraphe suivant présente un formalisme qui permet de faire de laclassification en exploitant des indépendances stochastiques conditionnelles entrevariables.

Réseaux bayésiens. Ce sont des graphes acycliques et orientés dont les nœudssont les différentes variables aléatoires qui décrivent le système observé et dontla structure définit des relations d’indépendances conditionnelles stochastiquesentre v.a, chacune des variables ne dépendant que de ses parents dans legraphe (Pearl 1988) (voir fig. 1.16). Plus exactement, pour un système décrit par unensemble de v.a. {Ai}i∈[1,..,n], connaître la probabilité conjointe p(A1, A2, . . . , An)des {Ai}i ∈ [1, .., n] (c’est-à-dire la probabilité que l’ensemble des variables prenneun ensemble de valeurs données) permet de le décrire complètement. Or, calculercette probabilité conjointe, pour un ensemble de v.a important, est particulièrementcoûteux en termes de calculs. S’il existe des indépendances stochastiques entre cesvariables, il est alors possible de factoriser cette distribution conjointe en élémentsplus simples à calculer. Décrire le système revient alors à fournir les probabilitésconditionnelles traduites par les arcs et les probabilités a priori des variables en en-trée du graphe. Le graphe des relations, les probabilité a priori et les probabilitésconditionnelles, suffisent à caractériser la distribution conjointe. Dans l’exemple dela figure 1.16, les distributions a priori et conditionnelles nécessaires à la descriptioncomplète du système sont les probabilités que :

– il pleuve (a priori)– l’arroseur fonctionne SACHANT qu’il a plu (si l’arroseur a un détecteur de

pluie) (conditionnelle)– l’arrosage se mette en route (si l’arroseur n’a pas de détecteur de pluie) (a

priori)– la pelouse du voisin soit mouillée SACHANT qu’il a plu (conditionnelle)

Page 51: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

1.3. Les modèles de l’esprit 51

Pluie Arroseur

Pelousevoisin Pelouse

Fig. 1.16 – Réseau bayésien formalisant les interactions des variables décrivant un système d’ar-rosage de jardin. Le jardin est mouillé s’il a plu ou si le système d’arrosage s’est allumé. S’il a plu,le jardin du voisin est aussi mouillé. Le graphe représente ces dépendances (en traits pleins). Onpeut imaginer que le système d’arrosage est équipé d’un détecteur qui annule son déclenchement encas de pluie, ce qui rajoute une nouvelle dépendance (en pointillés sur la figure). Traduit de Pearl(1988).

– ma pelouse soit mouillée SACHANT qu’il a plu (conditionnelle)– ma pelouse soit mouillée SACHANT que l’arroseur a fonctionné (condition-

nelle)A partir des ces probabilités conditionnelles et a priori il est possible de calculerles probabilités associées à chacune des v.a du graphe en utilisant entre autres lethéorème de Bayes. Ces probabilités sont appelées probabilités a posteriori ou révisées.Lorsqu’on effectue une inférence probabiliste en s’appuyant sur le théorème deBayes, on parle d’inférence bayésienne.

Il est facile de voir que les réseaux bayésiens peuvent être appliqués à la classi-fication dans le cas où les attributs ne sont pas indépendants (cf. 1.3.2.2, p.48).

Applications des réseaux bayésiens. Les réseaux bayésiens sont aujourd’hui ap-pliqués dans beaucoup de domaines. Les dix dernières années ont vu une explo-sion de leur nombre et de leurs applications. De la détection de messages électro-niques indésirables au contrôle industriel, en passant par le diagnostic de panne,la liste est longue. Plus intéressant dans le cadre de ce manuscrit, il a été postuléà maintes reprises que l’inférence bayésienne est aussi un bon modèle de la pen-sée humaine (Dawes et Kagan 1988). L’idée est de dire que nous construisons unmodèle du monde qui prend en compte, entre autres, les relations causales exis-tant entre différents événements (le réseau). Ce modèle s’appuie sur les observa-tions répétées du monde qui nous permettent d’établir les faits qui sont fortementsusceptibles de se produire ou pas (les probabilités a priori évaluées de manière

Page 52: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

52 Chapitre 1. État de l’art

fréquentielle). A partir de ce modèle et des a priori, nous avons des attentes, descraintes et des hypothèses sur des événements futurs. Ces hypothèses peuvent êtrevues comme des probabilités a posteriori évaluées à partir du modèle du monde.Toute information nouvelle qui vient modifier la valeur d’une variable entraîneune réévaluation de ces attentes, ou, autrement dit, une révision des probabilités aposteriori. Si on ne peut nier que le formalisme bayésien permet de modéliser ef-ficacement un certain nombre de problèmes liés à la prise de décision (Cyert etDeGroot 1987, Berger 1985), considérer que la pensée humaine dans son ensembleobéit à des lois bayésiennes semble un peu plus douteux. La question des probabi-lités a priori, pour commencer, est délicate : pour raisonner efficacement de manièrebayésienne, il est nécessaire d’évaluer correctement la probabilité des événementsdu monde (savoir si tel événement est fréquent, rare, rarissime, etc.). Or, il a étéétabli que le système sensoriel est fortement limité lorsqu’il s’agit d’extraire desrégularités statistiques de l’environnement (Fiser et Aslin 2001; 2002a;b).Le pro-blème majeur de cette vision bayésienne de la pensée humaine est que, dans la trèsgrande majorité des cas, le raisonnement suivi par les individus n’est pas valided’un point de vue bayésien. Lorsqu’on demande à des médecins d’évaluer la pro-babilité qu’une femme ait un cancer du sein si elle présente un résultat positif àune mammographie, connaissant les probabilités de faux positifs et faux négatifsde la mammographie, seuls 15% d’entre eux fournissent un résultat correct car ilsne raisonnent pas instinctivement de manière bayésienne (Gigerenzer et Hoffrage1995). Ces remarques restent à nuancer par le fait que le formalisme des réseauxbayésiens peut être utilisé malgré des probabilités a priori faussées. On verra dansla section suivante que le formalisme bayésien est aussi massivement utilisé dansle cadre de la modélisation cérébrale.

Avantages et inconvénients de l’inférence probabiliste. L’inférence bayésiennea l’avantage d’être bien connue et maîtrisée depuis longtemps. De plus, connaîtrela distribution de probabilités caractérisant une v.a est extrêmement utile. Premiè-rement, cela répond au problème de l’information manquante : avec un systèmeexpert classique, tant qu’aucun nouveau fait n’est connu, aucune déduction nou-velle ne peut être établie ; en revanche, si un réseau bayésien décrivant le systèmeétudié peut être construit, il est possible d’obtenir des informations sur le compor-tement probable du système, même en l’absence d’information supplémentaire.Deuxièmement, un réseau bayésien tient naturellement compte de l’imprécision etdes erreurs possibles dans les mesures par le biais des probabilités a priori.

Page 53: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

1.3. Les modèles de l’esprit 53

Cependant, ces probabilités a priori sont aussi la plus grande faiblesse de l’in-férence bayésienne. Il a été évoqué dans le paragraphe 1.3.2.1 le problème de larécolte d’informations auprès d’experts. S’il leur est déjà difficile de formaliser lo-giquement les règles qu’ils utilisent parfois inconsciemment, leur demander de lescaractériser en termes de probabilités l’est parfois encore plus. Une solution pos-sible à ce problème passe par l’estimation de ces probabilités par des méthodesstatistiques (Pearl 1988). Une autre limitation des réseaux bayésiens est leur faiblecapacité d’évolution. Si la description du système modélisé vient à changer, il fautreconstruire le graphe des dépendances et calculer à nouveau toutes les probabili-tés. Or ces calculs sont computationnellement coûteux.

Il existe cependant un autre formalisme qui permet de prendre en compte l’in-certitude, les ensembles flous et la théorie des possibilités. Les ensembles flous, quiautorisent des transitions continues entre appartenance et non-appartenance, per-mettent de représenter des propriétés graduelles. La théorie des possibilités permetde représenter des informations imprécises ou incertaines au moyen d’une distri-bution de possibilités qui s’avère être un ensemble flou particulier. Une différencefondamentale entre les théories possibiliste et probabiliste réside dans l’interpré-tation qui est faite de l’incertitude. La théorie des probabilités considère l’incer-titude comme le fruit d’un aléa, tandis que la théorie des possibilités manipulel’incertitude comme provenant de l’imprécision sur l’information et de situationsd’ignorance partielle. Nous la détaillons dans la section suivante.

1.3.2.3 La théorie des ensembles flous et des possibilités

Les ensembles flous. Les ensembles flous ont été introduits par Zadeh (1978)dans le but de modéliser le langage naturel. Celui-ci est, en effet, caractérisé par destermes vagues dont il est parfois difficile de décider avec précision s’ils s’appliquentà tel ou tel objet : grand, chaud, etc. Un ensemble flou F, défini sur un domaine U,est caractérisé par une fonction d’appartenance µF telle que :

∀u ∈ U, 0 ≤ µF(u) ≤ 1 (1.10)

µF(u) est appelé degré d’appartenance de l’élément u à l’ensemble F. Les degrésd’appartenance µF(u) = 1 et µF(u) = 0 signifient respectivement que u appartientet n’appartient pas à F. Dans le cas où les degrés d’appartenance sont toujours 0 et1, F est un ensemble classique, si des degrés intermédiaires sont possibles, F est dit

Page 54: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

54 Chapitre 1. État de l’art

flou. La figure 1.17 représente l’ensemble flou capturant la notion de «chaud» dansla phrase «l’eau est chaude». Cet ensemble Fchaud est défini sur le domaine [0, 100].On définit aussi l’α-coupe, notée Fα, comme étant l’ensemble des éléments de degréd’appartenance au moins α :

Fα = {u ∈ U, µF(u) ≥ α} (1.11)

Enfin, on distingue particulièrement le support, F = {u ∈ U, µF(u) > 0},qui contient tous les éléments appartenant un tant soit peu à F, et le noyau,F = {u ∈ U, µF(u) = 1} qui contient tous les éléments appartenant complète-ment à F (fig.1.18).

Opérations sur les ensembles flous. Les opérations possibles sur les ensemblesflous sont les mêmes que pour les ensembles classiques : union, intersection, etc.En revanche, la généralisation de la fonction d’appartenance implique que la défi-nition de tels opérateurs n’est plus unique comme pour les ensembles classiques.L’inclusion, par exemple, peut être définie comme le fait que tout élément dans unensemble appartient au moins autant à un ensemble le contenant :

F ⊆1 G ⇔ µF ≤ µG (1.12)

Ou elle peut être vue comme le fait que le noyau d’un ensemble est au moins inclusdans le support de l’ensemble contenant :

F ⊆2 G ⇔ F ⊆ G (1.13)

00

100u

1

µF(u)

Fig. 1.17 – Fonction d’appartenance de l’ensemble flou Fchaud «chaud» dans le contexte de l’eau.

Page 55: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

1.3. Les modèles de l’esprit 55

00

1

α

support

α-coupe

noyau

Fig. 1.18 – α-coupe, support et noyau d’un ensemble flou.

Les définitions les plus courantes pour l’union et l’intersection sont celles de Zadeh(1965) :

µF∪G(u) = max(µF(u), µG(u)) (1.14)

µF∩G(u) = min(µF(u), µG(u)) (1.15)

Théorie des possibilités. Revenons sur l’exemple précédent de l’eau chaude :soit une variable x qui caractérise la température d’une eau. Sachant que cetteeau est chaude (sans plus de précision), alors la possibilité πx(u) que x prenne lavaleur u est prise égale à µFchaud(u). πx est appelée distribution de possibilité de x.Les ensembles et les variables flous permettent de définir la théorie des possibilitésqui caractérise l’incertitude et l’imprécision d’événements. Soit une variable flouex, définie sur U, et de distribution πx. Soit A un sous-ensemble (éventuellementflou) de U (i.e. un événement). x réalise A quand sa valeur appartient à A. La mesurede possibilité de A, notée Π(A), représente la possibilité que A se réalise (Zadeh1978) et est définie par :

Π(A) = supu∈U

min(µA(u), πx(u)) (1.16)

Si A est un ensemble classique, la définition se simplifie en Π(A) = supa∈A

πx(a).

Graphiquement, si l’intersection de A et de πx est vide, l’événement est impossibleet Π(A) = 0 (voir B dans figure 1.19). Notons les propriétés suivantes :

Page 56: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

56 Chapitre 1. État de l’art

A Bx

0

1

Π(A)

Π(B) = 0

Fig. 1.19 – Mesure de la possibilité que x réalise l’événement A et l’événement B dans le cas où Aet B sont des ensembles classiques.

Π(∅) = 0 (1.17)

Π(⋃

Ai) = max(Π(Ai)) (1.18)

Π(⋂

Ai) ≤ min(Π(Ai)) (1.19)

où Ai est un ensemble dénombrable d’événements. Enfin, si Π(U) = 1, on dit quela mesure de possibilités est normalisée, et on a :

Π(A ∪ A) = max(Π(A), Π(A)) = 1 (1.20)

où A désigne le complémentaire de A dans U. Soulignons que l’équation 1.19 n’estbien qu’une inégalité car si A1 = A et A2 = A, on a bien Π(A, A) = 0 tandis queΠ(A) et Π(A) peuvent tous les deux être positifs en cas d’ignorance partielle.

Remarquons qu’à la différence des ensembles flous définis précédemment, l’en-semble correspondant à une distribution de possibilités est défini de manière dis-jonctive, c’est-à-dire que la variable à laquelle est associée la distribution de pos-sibilités ne peut prendre qu’une valeur, mais que cette valeur est incertaine. Al’inverse, les ensembles flous «classiques» peuvent être vus comme la conjonction(pondérée) des éléments qui les composent.

A la mesure de possibilité Π(A) est associée une mesure de nécessité N(A) (Du-bois et Prade 1980) définie comme suit (fig.1.20) :

N(A) = infu∈U

max(µA(u), 1− πx(u)) = 1−Π(A) (1.21)

Remarquons que (i) N(A) > 0⇒ Π(A) = 1, et (ii) si A contient le support de πx,alors Π(A) = 0 et donc N(A) = 1. L’événement A est alors dit certain.

Page 57: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

1.3. Les modèles de l’esprit 57

A x

N(A) = 0

Π(A) = 1A x

0

1

Π(A)

N(A)

Fig. 1.20 – Mesure de la nécessité que x réalise l’événement A.

Comme pour la théorie des probabilités, on peut définir la notion de lien condi-tionnel entre deux variables floues. Le problème vient du fait que ce lien peut êtredéfini d’un grand nombre de manières (Walley et de Cooman 1999). Ainsi, Duboiset Prade (1994) distinguent deux principales familles d’interprétations : ordinale etnumérique. La première interprétation consiste à voir dans les possibilités une ma-nière qualitative d’ordonner les différents niveaux d’incertitude (par opposition àla théorie des probabilités qui quantifie cette incertitude). Dans ce cas, la possibilitéconditionnelle la plus générale se définit par :

Π(A ∩ B) = min(Π(A|B), Π(B)) (1.22)

Cela se traduit de deux manières :

Si Π(A ∩ B) < Π(B) alors Π(A|B) = Π(A ∩ B) (1.23)

Si Π(A ∩ B) = Π(B) alors Π(A ∩ B) ≤ Π(A|B) ≤ 1 (1.24)

et on prend Π(A|B) = 1 qui est la solution la moins restrictive en vertu du principede minimum de spécificité.

L’interprétation numérique, en revanche, considère la mesure de possibilitécomme la borne supérieure d’une mesure de probabilité mal connue (et la me-sure de nécessité comme la borne inférieure de cette même mesure). Dans ce cas,la possibilité conditionnelle est définie de manière similaire à celle utilisée pour lesprobabilités :

Π(A|B) =Π(A ∩ B)

Π(B)avec Π(B) 6= 0 (1.25)

Page 58: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

58 Chapitre 1. État de l’art

Classification floue. Un intérêt particulier du formalisme flou est qu’il tient na-turellement compte de la nature graduelle de la cognition humaine. Il est connudepuis de nombreuses années, par exemple, que les frontières existant entre caté-gories mentales (types d’outils, couleurs, etc.) ne sont pas nettes (Rosch 1973). Ily a un recouvrement partiel des catégories et donc une incertitude : par exemple,déterminer qu’un objet est un «bol» ou une «coupelle» dépend du contexte et dela taille de l’objet et il y a un fort recouvrement des catégories pour les objetsde tailles intermédiaires (Labov 1973). Le formalisme flou étant particulièrementadapté pour rendre compte de cela, différentes approches de classification baséessur les ensembles flous ont été mises au point (Dubois et coll. 2003). L’algorithmedes c-moyennes floues (Bezdek 1981) permet de construire des catégories à partird’un jeu de données en le séparant en c groupes les plus différenciés possibles.Le pattern matching flou, introduit par Dubois et coll. (1988), s’appuie sur des pro-totypes, définis comme des ensembles flous, qui sont comparés à des donnéesà classer. Plus formellement, chaque classe Cj est représentée par une collectiond’ensembles C1

j , . . . , Cnj définis sur X1, . . . , Xn respectivement, Ci

j représentant l’en-semble des valeurs typiques prises par l’attribut i pour la classe Cj. Une nouvelledonnée x est modélisée par une distribution de possibilité πx(x1, . . . , xn), repré-sentant la distribution des localisations possibles de la vraie valeur (inconnue)de x dans ×n

i=1Xi. Si les attributs sont considérés comme non interactifs, alorsπx(x1, . . . , xn) = ∧n

i=1πi(xi), où π1 ∧ π2 = min(π1, π2) et π1 ∨ π2 = max(π1, π2).Les degrés de possibilité et nécessité que la donnée x appartienne à la classe Cj

relativement à l’attribut i sont donnés par :

Ππi(Cij) = sup

xi∈Xi

(Cij(xi) ∧ πi(xi)) (1.26)

Nπi(Cij) = inf

xi∈Xi(Ci

j(xi) ∨ (1− πi(xi))) (1.27)

La première quantité représente le degré de recouvrement entre les valeurs typiquesde la classe et la valeur possible de la donnée, tandis que la seconde est un degréd’inclusion de l’ensemble des valeurs possibles de xi dans Ci

j. Si x est une donnéeprécise, πx se réduit à un point, et les deux quantités se confondent. Ces degrésd’appariement (matching) sont calculés sur un seul attribut et il faut donc les agré-ger pour calculer l’appariement avec la classe. La manière de le faire dépend dela façon dont la classe Cj est construite. Si elle est définie de manière conjonctive(x ∈ Cj si (x1 ∈ C1

j ) ET (x2 ∈ C2j ) ET . . . ET (xn ∈ Cn

j )), alors, sous une même

Page 59: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

1.3. Les modèles de l’esprit 59

hypothèse de non-interactivité des xi, on a :

Ππ(Cj) =n∧

i=1

Ππi(Cij) (1.28)

Nπ(Cj) =n∧

i=1

Nπi(Cij) (1.29)

De même, si la classe est construite de manière disjonctive, par une conjonctionpondérée, ou par une disjonction pondérée, le résultat est toujours valable, en rem-plaçant le minimum par un maximum, un minimum pondéré ou un maximumpondéré respectivement. En fonction du degré de recouvrement et du degré d’in-clusion des données avec les différents prototypes, il est possible de déterminerquel prototype est le plus «proche» d’un objet à classer.

Une autre manière de faire utilise les règles d’inférence, similaires à celles dessystèmes experts. Il existe de nombreuses manières de construire des règles d’in-férence dans le cadre de la logique floue (Dubois et Prade 1996) et nous n’en pré-senterons que deux. Les règles incertaines ont pour sémantique : «plus x est A,plus il est certain que y est B». Ces règles servent généralement à introduire unerelation entre une variable et une classe ou une propriété. La partie gauche (ou pré-misse) caractérise un intervalle de valeurs prises par cette variable et la partie droite(ou conclusion) détermine à quel point le fait d’être dans cet intervalle permet d’af-firmer que la propriété est vraie (Dubois et Prade 1996). En revanche, les règlesgraduelles (Dubois et Prade 1992), ont pour sémantique «plus x est A, plus y estB». Cette fois, la règle formalise plutôt une relation existant entre deux variables :les valeurs prises par x contraignent les valeurs possibles pour y. Ces règles restentassez peu utilisées pour la classification à proprement parler. Signalons, cependant,l’exception notable constituée par le travail de Ayoun et Grabisch (1997). Notonsaussi que les règles graduelles permettent de décrire des classes de fonctions à desfins de classification (Galichet et coll. 2004).

Le raisonnement approché. L’utilisation de règles de déduction floues permetune forme généralisée de raisonnement logique appelé raisonnement approché. Ilrepose sur une généralisation aux règles floues du modus ponens permettant deconclure B à partir de la règle «Si A, alors B» et de l’observation de A. Une présen-tation précise du modus ponens généralisé sort du cadre de cette présentation, maisl’idée principale est la suivante : si A, A∗, B et B∗ sont des ensembles éventuelle-

Page 60: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

60 Chapitre 1. État de l’art

ment flous, si x est A∗, et si on sait que «si x est A, alors y est B», alors on peutconclure que y est B∗. L’important est de voir que x n’a pas besoin de correspondreexactement à A pour que quelque chose puisse être conclu sur la valeur de y, maisplus A∗ est proche de A, plus B∗ sera proche de B. Ceci permet, à partir d’une basede règles floues, d’effectuer des inférences à partir d’informations imprécises.

Une des applications les plus utilisées dans l’industrie de ce principe d’infé-rence est constituée par les systèmes de commandes floues (SCF). Cette techniqueconsiste à contrôler la valeur d’une variable numérique en fonction d’un certainnombre de relations fonctionnelles qui sont modélisées sous forme de règles floues.Deux principaux formalismes de contrôle flou ont été successivement développés.Le premier SCF, celui de Mamdani (Mamdani et Assilian 1975), s’appuie sur desrègles floues de type «si x1 est Aj

1, x2 est Aj2,..., xn est Aj

n, alors y est Bj» où y estla valeur à contrôler et les {xi} sont les différents paramètres qui servent à déter-miner la valeur souhaitable pour y. Une valeur numérique utilisable est ensuiteobtenue à partir du niveau d’appartenance de y à l’union des Bj, pondérée par lesdegrés de satisfaction des parties conditions des règles, et par un procédé appelédéfuzzification. Un SCF de type Mamdani effectue donc une forme d’interpolationdes valeurs de y entre les points définis par chacune des règles.

Le SCF de type Takagi-Sugeno (Takagi et Sugeno 1985) opère un peu différem-ment. Les règles floues utilisées sont du type «si r est A, alors y1 = f (x1, x2, . . . , xn)où f est une fonction affine (ou constante). La valeur finale de la variable y est ob-tenue par une somme des {yi}, pondérée par les degrés de satisfaction des partiesconditions des règles. L’un des intérêts de cette méthode est qu’elle ne nécessite pasd’étape de défuzzification, coûteuse dans l’approche de Mamdani. Un système derègles floues, utilisé en commande, réalise la synthèse d’une loi de commande, lessystèmes de règles floues ayant, de manière générale, la propriété d’approximateuruniversel.

Les SCF ont fait l’objet d’un grand nombre d’applications et certains sont quo-tidiennement utilisés dans l’industrie. Par ailleurs, des équivalences ont pu êtreétablies entre les systèmes de commandes classiques, basés sur une modélisationdu système à commander en termes d’équations différentielles linéaires, et lesSCF (Galichet et Foulloy 1995). Mais les SCF, en raison de la nature linguistiquedes règles qu’ils utilisent, peuvent être plus faciles à construire à partir de connais-sances expertes ou d’observations de la façon dont procèdent les experts (Galichetet Foulloy 2003).

Page 61: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

1.3. Les modèles de l’esprit 61

Les réseaux possibilistes. Il existe une contrepartie possibiliste aux réseaux bayé-siens. En utilisant le même support, les graphes orientés acycliques, pour représen-ter les dépendances entre variables, des réseaux causaux possibilistes permettantde faire de l’inférence ont pu être définis (Fonck 1994, Borgelt et Gebhardt 2000,Benamor et coll. 2007). Il est intéressant de constater que, comme la notion depossibilité conditionnelle, et donc d’indépendance, peut être définie de plusieursmanières, il existe plusieurs définitions des réseaux possibilistes. S’ils utilisent lavision numérique du conditionnement (eq.1.25), les réseaux et les algorithmes d’in-férence ressemblent fortement à leurs contreparties bayésiennes tout en étant sim-plifiés par la nature maxitive des possibilités (Benferhat et Smaoui 2005; 2007, Gar-cia et Sabbadin 2008). Les différences sont plus marquées pour les graphes défi-nis à partir du conditionnement ordinal (eq.1.23 et 1.24) (Benamor et coll. 2007).Plus récemment, l’équivalent possibiliste des réseaux bayésiens dynamiques et desgraphes d’influences a aussi été proposé (Heni et Alimi 2007, Heni et coll. 2007,Garcia et Sabbadin 2006).

La théorie des possibilités est donc un formalisme complet qui permet de repré-senter une grande gamme de problèmes liés à l’incertitude issue de l’imprécisiondans l’information. De nombreux développements théoriques ont de plus permisde la lier aux autres grands formalismes de l’incertitude. Elle est particulièrementadaptée au traitement de l’information symbolique de par sa nature qualitative.

1.3.3 Les réseaux de neurones formels

Toutes les approches discutées précédemment ont comme point commun demanipuler des symboles. Une autre voie a été explorée qui s’inspire du fonction-nement du cerveau (mais sans chercher à le reproduire).

Les neurones formels. McCulloch et Pitts (1943) ont proposé un modèle de neu-rone formel qui imite le fonctionnement d’un neurone, mais uniquement en tantqu’intégrateur d’informations provenant d’autres neurones formels. La dynamiqueest complètement laissée de côté, c’est uniquement le traitement de l’informationqui importe. L’idée est de réaliser des calculs similaires à ceux effectués par lesneurones biologiques mais en considérant que la traduction in silico peut s’affran-chir des complexités observées expérimentalement. La figure 1.21 représente un

Page 62: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

62 Chapitre 1. État de l’art

x1

xn

fa → fs

w1

wn

y

Fig. 1.21 – Représentation graphique d’un neurone formel

neurone formel. Il s’agit d’une fonction f ayant pour paramètres {wi}i∈[1...n] (ap-pelés poids synaptiques), pour entrées {xi}i∈[1...n] et pour sortie y. Plus précisément,f est la composition d’une fonction d’activation fa, qui intègre les entrées, et d’unefonction de transfert ou de seuil fs, qui calcule la valeur de sortie. Ceci par analogieavec d’une part l’intégration synaptique ( fa) et la génération des PA en sortie ( fs).D’où :

f (x1, . . . , xn) = fs( fa(x1, . . . , xn)) (1.30)

En général, la fonction d’activation est définie comme la somme pondérée desentrées (par analogie à la nature majoritairement additive de l’intégration synap-tique) :

fa(x1, . . . , xn) = ∑i∈[1...n]

wi.xi (1.31)

La fonction de seuil est une fonction non-linéaire définie sur [0, 1], généralement àseuil et à saturation (voir sigmoïde figure 1.13). Remarquons qu’une synapse inhi-bitrice (respectivement excitatrice) sera modélisée par un poids synaptique négatif(respectivement positif). Un réseau construit avec ces neurones formels est appeléréseau de neurones formels (RNF) (par opposition aux réseaux de neurones biolo-giques (RNB)). Strictement parlant, les réseaux de neurones de type leaky integrateand fire sont aussi des RNF, c’est-à-dire des réseaux composés de modèles formelsde neurones. En pratique, nous ne nommerons RNF que les réseaux de neuronesqui négligent la dynamique d’activation des neurones et qui n’ont donc que peude prétentions quant à la plausibilité biologique.

Apprentissage. Ce formalisme tel qu’il est défini ici possède néanmoins unmanque rédhibitoire s’il n’est pas compensé : la nature profondément distribuée

Page 63: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

1.3. Les modèles de l’esprit 63

du traitement de l’information rend la construction d’un RNF dédié à la résolu-tion d’une tâche spécifique possible uniquement dans les cas triviaux. En effet, ilest pratiquement impossible d’établir de manière extérieure tous les paramètresassociés à ce réseau. Il manque un aspect capital des RNB, l’apprentissage. Là où lesRNB sont capables de se modifier pour mieux traiter l’information les traversant,les RNF restent statiques. C’est pourquoi ce formalisme ne rencontra que peu desuccès avant les travaux de Rumelhart et McClelland (1986), eux-mêmes renduspossibles par l’avancée de Rosenblatt (1962) : les RNF avaient été munis d’un al-gorithme d’apprentissage, appelé error back-propagation. Le principe est de calculerl’erreur aux moindres carrés entre la sortie du réseau et la réponse attendue à unjeu donné d’entrées. Cette erreur est ensuite utilisée pour corriger les poids synap-tiques du réseau en calculant par une descente de gradient, pour chaque connexion,la contribution à l’erreur de cette connexion. Le nom de l’algorithme vient du faitqu’il procède en partant des neurones de sortie et en remontant vers les neuronesd’entrée, propageant l’erreur en reculant. Puisqu’il s’agit de calculer une erreurpar rapport à une réponse connue, on parle d’un apprentissage supervisé : le ré-seau est entraîné sur un ensemble d’exemples connus, de manière à l’adapter aumieux à la tâche, puis on observe ses performances sur des exemples qui n’ont passervi lors de l’apprentissage, en espérant que le réseau sera capable de généraliser.Il a été montré qu’un RNF associé à l’algorithme de back-propagation est capablede fournir une approximation arbitrairement précise de toute fonction. Cette pro-priété d’approximateur universel est l’une des raisons du très grand engouement deces dernières années pour les RNF. Notons que si l’algorithme de back-propagationest de loin le plus utilisé, il existe d’autres formes d’apprentissage supervisé. Larègle delta (Widrow et Hoff 1960, Widrow et Stearns 1985) en est un exemple.

Cependant, l’apprentissage supervisé est assez éloigné de la manière dont l’ap-prentissage s’effectue dans les RNB. Même si la question de l’apprentissage dansles RNB n’est pas encore entièrement résolue, on sait néanmoins que les réseauxs’adaptent sans l’aide d’un jeu d’exemples connus. L’apprentissage biologique esten grande partie non supervisé. L’information circule dans les réseaux et ceux-ci semodifient spontanément, majoritairement en fonction des propriétés statistiquesde celle-ci (corrélations, fréquence, etc.). Hebb (1949) a proposé une formalisationde ce qui se passait au niveau des synapses, qui peut être résumée comme suit :si deux neurones déchargent en même temps, alors la connexion les reliant serenforce. Cette loi a été appliquée aux RNF, permettant de définir des formes d’ap-prentissage non supervisé. Cet apprentissage étant en général moins efficace que

Page 64: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

64 Chapitre 1. État de l’art

l’apprentissage supervisé, les problèmes auxquels on le destine sont différents etgénéralement insolubles par un apprentissage supervisé. Si, dans les applicationspratiques, par exemple industrielles, on utilise beaucoup les RNF supervisés pourfaire de la classification (classer des objets dans des catégories connues à l’avance),lorsqu’il s’agit de faire de la catégorisation (créer des catégories ayant un sens àpartir d’un ensemble indifférencié d’objets), seul un RNF non supervisé est adapté.

Une des applications les plus connues de RNF non supervisés est appelée carteauto-organisatrice de Kohonen (Kohonen 1982). Il s’agit de réseaux composés de deuxcouches de neurones : une couche d’entrée et une couche de sortie. La couchede sortie est généralement organisée sous la forme d’une grille à deux dimen-sions (d’où le terme de carte). Les neurones de sortie sont généralement connectésuniquement à leurs voisins par des relations inhibitrices. Quand un stimulus estprésenté, on détermine le neurone vainqueur, c’est-à-dire le neurone de la cartequi, par ses poids synaptiques, est le plus proche de cette entrée. En phase d’uti-lisation, c’est le seul neurone qui décharge (on parle de sélection winner-takes-all).En phase d’apprentissage, le processus consiste à renforcer les poids de ce neuronemais aussi ceux de ses voisins proches spatialement parlant. Ce mécanisme d’ap-prentissage permet de faire apparaître une organisation topologique, c’est-à-direque la structure existant au sein de données va être projetée sur l’espace à deuxdimensions de la grille de sortie. Remarquons la similitude existant avec l’organi-sation fonctionnelle observée sur les cortex primaires en relation avec la nature desstimuli traités : les organisations topiques sont des projections sur deux dimen-sions (la surface du cortex) de l’espace des attributs décrivant les stimuli. Commepour les organisations topiques, il est possible de visualiser la carte obtenue à lafin de l’apprentissage. Pour cela, on utilise les poids synaptiques pour calculer lesdistances entre les neurones de la couche de sortie. Les neurones sont alors repré-sentés par des points disposés suivant ces distances. Cette représentation prendla forme de points, représentant chacun une classe déterminée lors de l’apprentis-sage.

Intéressants aussi, mais cette fois en termes de modélisation de la cognitionhumaine, sont les réseaux de Hopfield (Hopfield 1982) qui implémentent une mé-moire associative. Une fois que le réseau est stabilisé, il est capable de restituer uneinformation apprise à partir d’une version partielle ou bruitée.

Page 65: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

1.3. Les modèles de l’esprit 65

Limitations. La capacité à entraîner les RNF pour accomplir une tâche spécifiqueen a fait un outil extrêmement populaire ces dernières années, en particulier pourrésoudre des problèmes particulièrement difficiles à formaliser et donc hors deportée des systèmes symboliques classiques. La classification d’objets complexescomme les images ou les sons en est un bon exemple. Il suffit d’avoir un nombresuffisant d’images classées «à la main» pour entraîner un RNF à faire la mêmechose et ce, sans avoir besoin d’établir des règles de classification particulièrementpénibles à formaliser. Il faut noter ici une des limitations majeures des RNF : avoirentraîné un réseau pour résoudre une tâche ne donnera probablement aucuneinformation sur la manière dont il s’acquitte de cette tâche. Exactement commepour les réseaux biologiques évoqués dans la section précédente, les RNF ont unetransparence sémantique extrêmement faible. Ils se comportent comme des «boîtesnoires» qui réalisent ce pourquoi elles ont été entraînées mais qui donnent peud’informations sur la manière effective de résoudre cette tâche (on retrouve la pro-blématique du «comment» en introduction de cette thèse).

Une autre limitation des RNF est leur faible capacité d’évolution. Entraîner unréseau peut s’avérer une tâche difficile et longue. Or, si le problème pour lequel leréseau a été entraîné venait à être modifié légèrement, comme il est impossible decomprendre comment le réseau résout le problème, il faut entraîner à nouveau leréseau sur la version modifiée du problème. Il n’est en général pas possible d’adap-ter un réseau pour le faire fonctionner sur des problèmes similaires ou proches. Parcomparaison avec un système à base de règles, il suffit en général de rajouter oude retirer certaines règles pour adapter le système à un nouveau paradigme.

1.3.4 Catégorisation

Cette section s’éloigne un peu du domaine de l’IA pour explorer un pan pluspsychologique, à savoir la manière dont l’humain catégorise les perceptions (Co-hen et Lefebvre 2005). La perception peut être graduelle, comme la perception denuances de gris, ou elle peut être plus discrète, comme la perception des couleursprimaires et secondaires. Dans le premier cas, on parle de perception continue, etdans le second, de perception catégorielle (Harnad 2003). Longtemps cantonnée à laperception du langage et des couleurs, le perception catégorielle s’est révélée êtreplus générale, et les modèles de catégorisation comme les cartes auto-organisées de

Page 66: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

66 Chapitre 1. État de l’art

Kohonen (1982) constituent une hypothèse quant à la manière dont la perceptioncatégorielle peut être effectivement sous-tendue par des réseaux de neurones.

Les études comportementales ont montré à de nombreuses reprises que les hu-mains catégorisent principalement les percepts de manière ferme, quitte à oscillerdans le temps entre deux interprétations d’égale plausibilité, plutôt que de conser-ver deux interprétations en parallèle. Cela n’empêche pas le cerveau de conserverune évaluation de l’imprécision de la catégorisation, d’autant plus que la sépara-tion entre ces catégories n’est en général pas bien définie (Rosch 1973). Une étuderécente suggère cependant que cela mobilise un processus impliquant le cortex pré-frontal, processus qui n’est pas intrinsèque à la représentation des catégories (Grin-band et coll. 2006). La perception catégorielle est caractérisée par une perceptionsimilaire de stimuli différents mais appartenant à une même catégorie7. Le pas-sage (brusque) d’une catégorie à l’autre est appelé frontière catégorielle. Il existe denombreux cas de perception catégorielle, comme, par exemple, la perception desphonèmes du langage : Liberman et collaborateurs (1957) ont ainsi montré qu’enmixant un [pa] et un [ta] pour obtenir un continuum et en jouant sur la proportionrelative des deux phonèmes, les sujets ne percevaient que [pa] ou [ta], jamais unmélange des deux, et que le passage de l’un à l’autre se faisait de manière trèsabrupte.

D’un point de vue plus neuropsychologique, de nombreuses études ont étu-dié les corrélats cérébraux de la catégorisation, aussi bien chez l’homme que chezl’animal, et pour des modalités diverses, comme la catégorisation de stimuli vi-suels (Freedman et coll. 2001, Sigala et coll. 2002) ou de stimuli langagiers (Ruffet coll. 2003). Ces études impliquent en général de construire un continuum entredeux catégories spécifiques ce qui permet d’explorer la frontière catégorielle, dansle même esprit que le continuum [pa]-[ta] de Liberman et collaborateurs (1957).Elles permettent, en plus d’établir des liens entre les structures cérébrales et lacatégorisation, de déterminer dans quelle mesure ces stimuli font l’objet d’uneperception catégorielle ou continue. Pulvermüller a aussi beaucoup étudié la re-présentation neuronale des mots du langage, catégories par excellence, en fonctionde leur sens, montrant que des mots se référant à des sens différents (liés au corpset au mouvement ou liés à la vision, par exemple) activent des régions différentes :les zones du langage dans les deux cas, mais aussi les cortex moteur et prémo-

7Plus exactement, deux stimuli dans une même catégorie semblent plus similaires que deuxstimuli dans deux catégories différentes, même si les caractéristiques physiques les différenciant lesplacent à une même distance

Page 67: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

1.3. Les modèles de l’esprit 67

teur pour des mots liés au mouvement, et le cortex visuel pour les mots liés à lavision, suggérant que les mots comme les catégories, peuvent être encodés en demultiples endroits dans le cerveau (Pulvermuller 1999, Hauk et coll. 2004, Pul-vermuller et Hauk 2006). Ces études sont néanmoins à nuancer par la difficultéqui existe à analyser les activations observées en neuroimagerie en tant qu’activa-tions spécifiques d’un type de catégorisation particulier, la précision de l’imagerieétant encore peu adaptée à un niveau aussi fin d’analyse (Pernet et coll. 2007). Entout état de cause, s’il est difficile de comprendre, à partir d’études en activation,la manière dont l’humain catégorise les informations qu’il perçoit, il est possiblenéanmoins de bâtir des modèles putatifs proposant un mécanisme possible et pou-vant ensuite être comparés aux résultats expérimentaux. C’est là un des objectifsprincipaux de notre travail.

La théorie de la perception catégorielle a été mise en doute par de nombreusesétudes qui montrent que, dans le cadre de la compréhension du langage, l’hommeperçoit bien les différences acoustiques entre deux phonèmes d’une même catégo-rie mais qu’il catégorise fermement à une étape ultérieure du traitement (Barclay1972). Cette étude et d’autres ont mené à une remise en cause de la notion de per-ception catégorielle au profit d’une perception plus continue (Massaro 1998). Enfait, il se pose le problème de la différence entre perception catégorielle et classi-fication. La première implique que les détails fins permettant de discriminer deuxstimuli dans une même catégorie sont perdus lors de la perception tandis que laseconde implique que les détails sont perçus mais que, suite à l’étape de catégori-sation, seule l’appartenance à la catégorie est conservée pour les traitements ulté-rieurs. Des modèles interactifs modélisant, en plus du traitement hiérarchique (oubottom-up) des signaux acoustiques (du signal acoustique au mot, en passant par lesphonèmes), les effets top-down de la reconnaissance lexicale sur la reconnaissancede bas niveau des phonèmes, comme, par exemple, le modèle TRACE (McClellandet Elman 1986), offrent une explication possible à cette question. En effet, si lesdifférences fines des signaux acoustiques sont effectivement perçues de manièrecontinue, la reconnaissance, aux étapes suivantes du traitement, de phonèmes etde mots influe par le biais de liaisons en retour (ou feedback) sur ces traitements debas niveau, en biaisant l’activation en faveur des neurones codant pour les attributscorrespondant effectivement au mot reconnu et en réalisant une amplification sé-lective du signal. Le mécanisme est en tout point similaire au mécanisme de biaisattentionnel modélisé par Deco et Rolls (2005). Cette boucle (formée par les liaisonshiérarchiques et les liaisons en retour) a pour effet de stabiliser les représentations

Page 68: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

68 Chapitre 1. État de l’art

catégorielles, réduisant de manière efficace les effets du bruit et filtrant les repré-sentations parasites, mais au prix d’une réduction de la gamme des différencesperçues entre des stimuli proches. Toutefois, les différences fines sont potentiel-lement présentes et une concentration volontaire sur ces détails permet d’y avoirpartiellement accès, comme proposé dans le modèle du traitement inverse (reversehierarchy) proposé par Ahissar et Hochstein (2004).

Conclusion

Dans cette section sur les modèles de l’esprit, nous avons vu des formalismesqui ont été développés dans le cadre de l’IA pour permettre à des ordinateurs deraisonner et de résoudre des problèmes qui nécessiteraient le recours à l’intelli-gence humaine. Le but de ces modèles est de reproduire les effets de l’intelligence,sans forcément chercher à en reproduire les causes. C’est une approche différentede la modélisation cérébrale mais qui n’est pourtant pas tout à fait indépendante.En effet, les modèles du cerveau utilisent très régulièrement des formalismes issusde l’IA pour :

– compenser les manques de connaissances biologiques et de données expéri-mentales, particulièrement lorsqu’il s’agit de modéliser des fonctions cogni-tives spécifiques à l’humain pour lesquelles il n’existe pas de modèle animal.

– interpréter de manière intégrée la complexité de la réalité biologique, c’est-à-dire pour construire des théories qui permettent de fournir des pistes quantà la manière dont l’information est traitée dans des réseaux de neuronesopaques à l’interprétation.

Réciproquement, l’IA s’inspire des mécanismes du cerveau pour adapter ou créerdes théories de l’intelligence. Nombreux sont les modèles formels qui ne se satis-font plus d’exhiber des mécanismes ressemblant à l’intelligence humaine, mais quirecherchent une validation expérimentale visant à démontrer cette ressemblance.Ces interactions sont étudiées dans la section suivante.

1.4 Les modèles «hybrides»

Jusqu’à présent, il était assez facile d’attribuer à l’une ou l’autre communauté(neurosciences ou IA) la paternité des modèles décrits. La section qui suit ne per-met pas une telle dichotomie. Les deux communautés se sont toujours inspirées

Page 69: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

1.4. Les modèles «hybrides» 69

mutuellement, amorçant une convergence qui devient aujourd’hui de plus en plusévidente. Les modèles du cerveau utilisant des techniques et des formalismes del’IA sont en augmentation, et ceux qui s’intéressent encore à la cognition hu-maine se tournent de plus en plus vers la biologie pour y trouver des réponses.La frontière devient floue et les interactions sont nombreuses. La part croissantede modèles mêlant la manipulation des symboles et des mécanismes connexion-nistes (Lallement et coll. 1995, Sun et Alexandre 1997) est un exemple frappant decette interaction.

1.4.1 Modèles intégrés du cerveau

1.4.1.1 Modélisation à l’échelle des systèmes.

Comme nous savons, grâce à la neuroimagerie, que les fonctions cognitivesmettent en jeu des réseaux de populations neuronales, il est naturel de chercherà reconstruire ces réseaux dans un modèle qui puisse reproduire les observationsexpérimentales. L’intérêt d’un tel modèle est double : (i) le fait de travailler à cetteéchelle nécessite de comprendre très en détail les mécanismes mis en jeu, ce quiincite à puiser dans les connaissances anatomiques pour compléter ce que la neu-roimagerie ne peut pas encore révéler, et (ii) les modèles ainsi construits peuventservir de base exploratoire pour examiner l’effet de lésions, ou simplement poursuggérer de nouvelles expériences (voir section 1.1). Au deuxième point se rajoutele fait que, pratiquement, en se plaçant au niveau des populations et des systèmes àgrande échelle, il est plus facile de comprendre, et donc de construire, les modèlesd’un point de vue fonctionnel et structurel. L’intérêt est qu’il est alors envisageabled’utiliser de tels formalismes dans la pratique clinique, ce qui est impossible avecdes simulations biologiquement détaillées. Il apparaît donc qu’il s’agit d’une dé-marche intermédiaire qui permet de lier le microscopique (les neurones) et le ma-croscopique (le comportement). On peut parler d’une approche mésoscopique. Cepassage d’une échelle à l’autre est aussi décrit par Arbib et Erdi (2000), dont lathéorie des schémas en offre un cadre linguistique et formel.

D’un point de vue méthodologique, travailler à ce niveau consiste à êtrecontraint par les réseaux de populations cérébrales mais à s’autoriser à abstraireles populations par un formalisme qui est potentiellement plus transparent sé-mantiquement que les réseaux de neurones. Le fait que les réseaux de neurones

Page 70: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

70 Chapitre 1. État de l’art

soient des approximateurs universels de fonctions (voir 1.3.3) et les travaux liantles logiques non-monotones (classe de logiques contenant entre autres la logiquedes défauts et la logique possibiliste8) et les RNF (Balkenius et Gärdenfors 1991)permettent d’avoir une certaine latitude dans la conception de ces modèles. Bienévidemment, rien n’oblige à utiliser des formalismes différents des réseaux de neu-rones pour modéliser les populations, et de ce point de vue, les approches suiviespar Arbib et coll. (2000) pour la neuroimagerie synthétique (voir 1.2.3.5) et parDeco et Rolls (2005) avec la méthode «mean-field» sont déjà des approches méso-scopiques. Dans cette section, néanmoins, nous nous intéresserons surtout aux tra-vaux qui tentent d’abstraire les réseaux de neurones, soit pour pallier un manquede données microscopiques expérimentales (comme c’est le cas pour les fonctionscognitives supérieures où le modèle animal ne peut pas s’appliquer), soit pour per-mettre une meilleure compréhension du traitement de l’information (la questiondu comment qui nous intéresse dans ce travail) et une simplification du processusde modélisation.

L’inférence bayésienne et la modélisation cérébrale. Le formalisme bayésien aété appliqué dans un très grand nombre de travaux de modélisation cérébrale. Lanature bruitée de l’activation neuronale, l’incertitude introduite par le système sen-soriel lui-même (la rétine, par exemple, n’a qu’un nombre limité de cellules ce quirend impossible une représentation parfaite du signal visuel) et l’imprécision liéeaux techniques de mesure de l’activité cérébrale sont une forte motivation pourutiliser un formalisme prenant en compte l’incertitude. La théorie des probabili-tés et en particulier l’inférence bayésienne semble bien adaptée, d’autant que decertaines études psychologiques laissent penser que la perception est un processusd’inférence probabiliste (Helmholtz 1925). L’analyse bayésienne dans le contextedu codage et du décodage neuronal a été étudiée en détail et s’avère être optimalelà où le décodage par vecteurs de population (cf.1.2.3.5) ne l’est pas (voir Dayanet Abbot (2005) pour une présentation exhaustive). On peut donc naturellementtrouver de nombreux modèles du cerveau utilisant ce formalisme. Tous s’appuientsur l’idée que les neurones, ou plutôt les populations de neurones, ne s’activentpas pour encoder la valeur d’un stimulus mais plutôt une distribution de probabi-lités caractérisant cette valeur et l’incertitude qui l’entoure (Knill et Pouget 2004).

8Extension de la logique classique dans laquelle on associe des poids aux formules proposition-nelles. Ces poids représentent l’incertitude quant à la proposition et sont formellement des mesuresde la possibilité et de la nécessité que la proposition soit valide

Page 71: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

1.4. Les modèles «hybrides» 71

Selon cette approche, consciemment nos perceptions sont fermes et déterminées,mais inconsciemment, les populations encodent l’incertitude liée aux perceptions,et la propagent, jusqu’à ce qu’une action ou une décision soit prise, «écroulant»les probabilités en un choix unique. Il y a donc plusieurs aspects importants : lareprésentation de l’incertitude par les populations, la propagation et l’intégrationdes incertitudes pouvant provenir de sources différentes et le choix, si possibleoptimal, d’une valeur représentant la décision ou l’instruction motrice. Deneveet coll. (2001) proposent, par exemple, un modèle où des informations de positionspatiale d’un stimulus, provenant à la fois des modalités visuelle et auditive, sontreprésentées par des distributions de probabilités, elles-mêmes supportées par despopulations de neurones. Ces distributions sont intégrées permettant de générerune estimation optimale de la position du stimulus en utilisant les deux modalités.L’intérêt de ce modèle est qu’il accorde naturellement un poids plus important àla distribution la plus informative (et donc à la modalité la plus intéressante pourcette tâche). Un modèle antérieur, proposé par Koechlin et coll. (1996), adopte aussiune approche bayésienne pour la modélisation de populations, en considérant queles populations réalisent un processus de décision bayésien qui s’appuie sur unereprésentation distribuée de l’information d’une part, et sur l’activation globale dela population d’autre part. Le formalisme est appliqué à la modélisation de neu-rones de MT (une aire visuelle impliquée dans la perception du mouvement) et deM1 (l’aire motrice primaire, où sont générées les commandes motrices destinées ausystème nerveux périphérique).

Le formalisme des réseaux bayésiens dynamiques, comme le filtre de Kal-mann (Kalman 1960), est utilisé pour la modélisation de systèmes numériquescontinus dynamiques à relations linéaires. Ils ont été utilisés pour la modélisa-tion des processus d’intégration sensorimotrice (Wolpert et coll. 1995, Wolpert etGhahramani 2000). Ce type de modèle repose sur l’hypothèse qu’il est possibled’effectuer une décomposition modulaire de la fonction modélisée. Par exemple,dans le cas des mécanismes moteurs, un mouvement complexe est supposé dé-composable en un ensemble de primitives motrices (Ghahramani 2000, Wolpert etGhahramani 2000).

Ces modèles exploitent la puissance du formalisme bayésien fournissant desexplications détaillées et bien étayées mathématiquement pour de nombreux phé-nomènes cérébraux. Néanmoins, l’hypothèse selon laquelle les populations de neu-rones encodent des distributions de probabilités reste à être validée par des études

Page 72: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

72 Chapitre 1. État de l’art

expérimentales. Allant dans ce sens, un travail récent en IRMf de Summerfield etKoechlin (2008) étudie l’influence des connaissances et des attentes préalables surl’inférence sensorielle et montre des différences d’activation en fonction des at-tentes a priori. Beaucoup de ces modèles postulent le caractère idéal de l’inférencebayésienne qui serait effectuée par les populations de neurones. Or, Fiser et As-lin (2001; 2002a;b) laissent à penser que les capacités de notre système sensorielà percevoir les régularités statistiques sont limitées. Ce n’est pas nécessairementcontradictoire dans la mesure où, si le mécanisme est exact, des erreurs dans lesdistributions de probabilités a priori peuvent être corrigées par l’observation etl’expérience. Néanmoins, le caractère bayésien du traitement de l’information cé-rébrale sera peut-être à nuancer quand plus de données expérimentales pourrontêtre récoltées.

Connectivités fonctionnelle et effective. Une approche plus statistique de la mo-délisation à l’échelle des systèmes est celle que Friston (1994) applique à l’analysedes données de neuroimagerie. L’idée est de réussir à distinguer la connectivitéfonctionnelle de la connectivité effective entre deux régions cérébrales. La premièreest caractérisée par des variations corrélées d’activité du signal d’activation dedeux régions, ce qui suggère un lien au moins fonctionnel entre ces deux popula-tions, mais sans assurer un lien anatomique direct ou indirect. En injectant l’activitédes populations dans une modélisation par équations structurelles (MES) permettantd’émettre des hypothèses quant aux connexions anatomiques réelles, on peut éva-luer la connectivité effective. Le modèle structurel utilisé peut provenir de diversessources mais en pratique, on fait l’hypothèse que tous les liens possibles existent eton garde a posteriori ceux qui sont le plus activés. Seule la tractographie (techniquede neuroimagerie permettant le suivi partiel des fibres nerveuses) permettrait devalider ces liens anatomiques (Audoin et coll. 2007). Il est important de comprendreque le modèle structurel a ici valeur d’hypothèse, et que si un bon accord (fit) statis-tique est trouvé entre ce modèle et les données d’imagerie, cela appuie la validité decette hypothèse. Cette méthode a été utilisée dans des domaines très variés, allantde l’apprentissage associatif (Buchel et coll. 1999) aux fonctions auditives (McIn-tosh et Gonzalez-Lima 1991), et est aujourd’hui un complément d’analyse courantà de nombreuses études en neuroimagerie.

Les modèles plus intégrés permettent aussi d’élargir le champ d’investigationà des fonctions dites de «haut-niveau», là où les modèles s’appuyant sur la neu-

Page 73: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

1.4. Les modèles «hybrides» 73

rophysiologie se cantonnent souvent à l’étude de fonctions cognitives de «bas-niveau», c’est-à-dire mettant en jeu des populations neuronales situées principa-lement dans les aires cérébrales primaires et impliquant des mécanismes souventautomatiques et inconscients, mais mieux connus grâce aux études sur modèleanimal (perception et contrôle moteur). L’utilisation de modèles neuronaux plussimples, la modélisation directe des populations et l’utilisation de formalismes is-sus de l’IA permettent de s’attaquer à des fonctions cognitivement plus complexescomme le langage, la prise de décision ou encore le raisonnement abstrait.

1.4.1.2 Les fonctions cérébrales supérieures

Par fonction cérébrale supérieure, nous entendons toute fonction caractéristiquede la cognition humaine, et qui ne peut donc pas être étudiée par le biais d’un mo-dèle animal. Les techniques de neuroimagerie non invasives et les formalismesabstraits sont alors les seuls moyens permettant de postuler des modèles les re-présentant. Parmi ces fonctions, citons le langage, le contrôle des émotions et lesfonctions exécutives (voir plus loin). Toutes ces fonctions mettent en jeu des méca-nismes spécifiques (ex : l’inhibition d’une réponse automatique incompatible avecun objectif à atteindre, ou encore le maintien actif en mémoire d’un objet ou d’uncontexte pour utilisation ultérieure) qui semblent supportés en partie par le cortexpréfrontal (CPF). Cependant, comme pour toute fonction cérébrale, la localisationd’une région impliquée dans une fonction n’est en rien suffisante pour en com-prendre le fonctionnement tant que le réseau auquel elle appartient reste inconnu.

Le langage. Le langage a été étudié de manière très intensive et le réseau sous-jacent est aujourd’hui assez bien connu. Nous avons déjà mentionné les aires deBroca et de Wernicke, impliquées respectivement dans la production et la compré-hension du langage, et qui sont situées respectivement sur la partie postérieure dulobe frontal gauche et sur la partie supérieure médiane du lobe temporal gauche.Près de l’aire de Wernicke, se trouvent aussi le gyrus angulaire et le gyrus supramar-ginal impliqués respectivement dans les processus sémantiques et dans les proces-sus de compréhension phonologique et d’articulation. Ensemble, ces deux régionsconstituent une aire associative multimodale, intégrant des informations auditives,visuelles et somatosensorielles, ce qui en fait un carrefour neuronal parfaitementadapté à la compréhension et à la catégorisation des objets. Il faut bien évidem-ment ajouter à ces quatre régions les aires primaires auditives, visuelles et motrices

Page 74: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

74 Chapitre 1. État de l’art

impliquées dans la compréhension orale, la lecture et l’articulation respectivement.Finalement, on peut souvent trouver une implication du PFC dans la compréhen-sion du langage lorsque la charge attentionnelle devient importante (texte difficileà comprendre, plusieurs tâches à effectuer en parallèle), lorsque la compréhensiond’un discours a un impact émotionnel qu’il faut contrôler, ou si le discours im-plique de choisir des interprétations sémantiques différentes (et donc d’en inhibercertaines) en fonction du contexte ou du but poursuivi (Gabrieli et coll. 1998). Si lalocalisation des régions impliquées dans le langage n’est guère remise en cause, lamanière dont elles interagissent est toujours sujet à polémique. La vision classiquedu modèle séquentiel et localisé de Wernicke-Geschwind (Goodglass et Geschwind1976) a laissé la place à une vision plus distribuée mais organisée en modules (Dé-monet et coll. 1994) (voir fig.2.1).

L’étude du substrat neuronal sous-jacent au langage a été surtout réalisée parles neuropsychologues dans le contexte des pathologies associées (aphasie, dys-lexie, etc.). Face au grand nombre de modèles descriptifs (postulant un réseau pos-sible à partir d’études en neuroimagerie), on trouve assez peu de modèles génératifs(c’est-à-dire visant à reproduire les causes de l’activité cérébrale). Parmi ces der-niers, Just et collaborateurs (1999) proposent 4CAPS, un modèle distribué à base derègles de production logiques, dont les résultats peuvent être comparés à des don-nées d’activation cérébrale. Ou encore, van der Velde et de Kamps (2006) proposentl’architecture du tableau noir neural (neural blackboard architecture) pour résoudre, aumoyen des seuls mécanismes biologiques, les problèmes spécifiques à la compré-hension du langage, et en particulier le problème de liaison de variables (en anglais,le binding problem). Ce problème apparaît quand on se pose la question de com-ment des représentations visuelles, auditives ou tactiles d’un même objet, qui sonttraitées en parallèle par le cerveau, avec des temps de traitement pouvant variergrandement, peuvent être intégrées ensemble comme provenant du même objet.La question se complexifie encore quand on sait qu’une scène comprend en géné-ral un grand nombre d’objets dont les attributs doivent rester distincts. Le langageest soumis massivement à ce problème. Par exemple, dans «le chat mange la sou-ris» et «la souris mange le fromage», le mot «souris» est tantôt sujet de l’actionet tantôt agent de l’action. Pourtant, c’est le même mot, qui sera reconnu de lamême manière, mais qui sera lié différemment aux autres mots de la phrase. Lebinding problem est complexe et la manière dont le cerveau s’en accommode est en-core mal comprise. On pourra voir dans la section 4.3.1 comment notre modèle sepositionne vis à vis de cette question. Notons aussi le modèle FLMP (Fuzzy Logical

Page 75: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

1.4. Les modèles «hybrides» 75

Model of Perception) de Massaro (Oden et Massaro 1978) qui propose un modèlede catégorisation des phonèmes à partir d’attributs les représentant. La spécificitéde ce modèle est d’utiliser (i) le formalisme des ensembles flous pour représen-ter de manière continue la présence partielle de certains attributs, et (ii) une basede prototypes qui représentent les différents phonèmes. La représentation par en-sembles flous dans le modèle FLMP permet un passage continu d’un phonème àun autre, s’opposant à une théorie purement catégorielle de la perception. Commementionné dans la section 1.3.4, l’idée de perception continue n’est pas nécessaire-ment incompatible avec la notion de continuum découpé en catégories distinctes,pour peu que la reconnaissance de catégories influe, par des liaisons feedback, surles traitements ayant permis cette reconnaissance.

Des approches plus connexionnistes ont aussi été proposées pour modéliserla perception du langage comme par exemple le modèle d’interaction dynamiqueTRACE de McClelland et Elman (1986), ou encore une approche impliquant desréseaux de colonnes corticales (Guyot et coll. 1989).

Les fonctions exécutives. En dehors du langage, l’autre grande catégorie de fonc-tions cognitives supérieures est celle des fonctions exécutives. Elles désignent lesfonctions cognitives impliquées dans l’élaboration de l’action dirigée vers un but etl’adaptation à des situations nouvelles ou changeantes (Elliott 2003, Miyake et coll.2000, Royall et coll. 2002). Elles comprennent la définition de buts, la sélection d’in-formations pertinentes, la planification de l’action, le raisonnement, la résolutionde problèmes, la prise de décision, le contrôle et l’adaptation au changement. Celainclut la redéfinition des buts, l’inhibition des actions non pertinentes, la remémo-ration, le maintien actif et la manipulation d’informations en mémoire de travail.Elles partagent un certain nombre de processus, comme le contrôle exécutif, avecl’attention (Posner et coll. 2006) et la mémoire de travail (Baddeley et Della Sala1996). Différentes régions du CPF (Stuss et Alexander 2000), d’autres régions corti-cales comme les aires pariétales (Collette et coll. 2005) et le cortex cingulaire anté-rieur (Kondo et coll. 2004, MacDonald et coll. 2000), ainsi que des boucles cortico-subcorticales (Brown et coll. 1997, Heyder et coll. 2004) sont impliquées dans cesfonctions.

La possible existence de cinq boucles cortico-striatales (voir fig.1.22) (reliant lecortex et le striatum) fonctionnellement différenciées, tel que le proposent Alexan-

Page 76: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

76 Chapitre 1. État de l’art

Putamen

Motrice

SNGPi

GPeNST

DL-PF

Spatiale

CPP

SNGPi

VL-PFCIT

Noyau caudéputamen

Visuelle

GTS

SNGPi

COFCCA

ventralStriatum

Affective

HyppAmyg

Pallidumventral

Thalamus Thalamus Thalamus Thalamus

Noyaucaudé

CPMCSS

Fig. 1.22 – Quatre des cinq boucles différenciées avec leur possible fonction associée indiquée au-dessus. Abréviations : CPM - cortex prémoteur, CSS - cortex somatosensoriel, CPP - cortex pariétalpostérieur, DL-PF et VL - PF - cortex préfrontal dorsolatéral et ventrolatéral, CIT - cortex inférotem-poral, ST - gyrus temporal supérieur, COF - cortex orbitofrontal, CCA - cortex cingulaire antérieur,Hipp - hippocampe, Amyg - amygdale, P(i,e) - pallidum interne et externe, SN - substance noire,NST - noyau subthalamique. Les flèches en pointillés représentent l’influence inhibitrice provenantindirectement du striatum. Adaptée de Lawrence et coll. (1998).

Page 77: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

1.4. Les modèles «hybrides» 77

der et coll. (1986) et Andrews et Brooks (1998), pourrait expliquer la très largegamme de déficits exécutifs qui peuvent être entraînés par des lésions focales oudégénératives de ces boucles (Tekin et Cummings 2002), ou par une modificationdes équilibres neurochimiques, principalement dopaminergiques (Nieoullon 2002).Le système frontostriatal, très impliqué dans les fonctions exécutives, comprendune voie dorsale et une voie ventrale (Leh et coll. 2007). La voie dorsale est liée à l’at-tention partagée, au contrôle des informations en mémoire de travail (Leh et coll.2007), à la coordination des actions motrices ou au changement de contexte at-tentionnel (Chudasama et Robbins 2006), ainsi qu’à l’apprentissage conditionné,par le biais du calcul des erreurs dans la prédiction de la récompense. La voieventrale, quant à elle, est plus impliquée dans le traitement spatial et la remémo-ration, dans l’inhibition des associations stimulus-réponse-récompense, ainsi quedans le «désapprentissage». Dans cette architecture complexe, la dopamine (unneurotransmetteur) joue un rôle important dans les mécanismes neuronaux sous-tendant la mémoire de travail. Ce neurotransmetteur possède deux types de récep-teurs synaptiques D-1 et D-2. Lorsque l’activation est dominée par les récepteursD-1, les représentations neurales actives sont stables dans les circuits du CPF et ré-sistent aux interférences, tandis que si ce sont les récepteurs D-2 qui dominent, lemaintien actif est perturbé et le système répond aux nouveaux stimuli (Durstewitzet coll. 2000). La dopamine est aussi impliquée dans le maintien et le changementrapide permis par le routage adaptatif résultant des circuits de désinhibition pas-sant par les ganglions de la base et le CPF (O’Reilly 2006), et elle semble fournirle signal traduisant la différence entre une récompense attendue et celle obtenuedans le contexte d’un comportement dirigé vers un but (Rougier et coll. 2005).

Le vaste éventail de comportements couverts par les fonctions exécutives im-plique que pour tenter de les modéliser, il est préférable de se restreindre à uncadre expérimental contrôlé comme celui des tests neuropsychologiques utiliséspour les étudier dans la pratique clinique. Un des plus connus d’entre eux est leWisconsin Card Sorting Test (WCST) (Berg 1948). Il est supposé donner des infor-mations sur la capacité d’un sujet à raisonner de manière abstraite, à apprendreà discriminer, et sur sa flexibilité mentale et son contrôle exécutif (Eling et coll.2008, Royall et coll. 2002). Une description détaillée de ce test pourra être trouvéeen section 3.2, mais nous en donnons ici une présentation succincte : le matérielexpérimental est constitué de cartes comprenant un nombre variable de figuresgéométriques de différentes couleurs et de différentes formes. La tâche consiste àclasser les cartes par rapport à des exemples sans que la règle de classement (cou-

Page 78: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

78 Chapitre 1. État de l’art

leur, forme ou nombre de figures) soit énoncée. Le sujet doit donc procéder paressais/erreurs. C’est un terrain fertile pour les modèles dans la mesure où cetteépreuve met en jeu des mécanismes évolués dans un contexte contrôlé présentantpeu de variables. Le modèle déjà évoqué du routage adaptatif (O’Reilly 2006) aainsi fait l’objet d’une application au WCST (entre autres tâches impliquant le CPF)par Rougier et coll. (2005). La caractéristique principale de ce modèle est d’êtrecapable d’apprendre de manière non supervisée des règles abstraites permettantde résoudre une tâche particulière. Avant cela, Dehaene et Changeux (1991) ontproposé un modèle basé sur des réseaux de neurones formels (voir fig. 1.23). Lesattributs des cartes (couleur, forme, nombre) sont encodés et transmis pour êtreconservés en mémoire de travail. De là, en fonction de la règle active, une inten-tion est calculée et transmise en sortie. Le signal de récompense, correspondant àune réponse négative ou positive, permet alors de sélectionner, le cas échéant, unenouvelle règle à appliquer. La boucle mémoire-intention-récompense-règle implé-mente une boucle d’auto-évaluation qui permet au système de s’adapter lorsquela règle change. Amos (2000) propose un modèle plus détaillé, faisant intervenirexplicitement les boucles cortico-striato-thalamo-corticales. Similairement, on peutmentionner le modèle de Monchi et coll. (2000), très détaillé anatomiquement, etqui présente l’avantage d’être suivi d’une étude en IRMf, destinée à confirmer lesprédictions du modèle (Monchi et coll. 2001). Il est intéressant de noter que tous cesmodèles s’appuient sur une représentation multi-stable des règles de classification :par le jeu d’inhibitions latérales entre les groupes de neurones censés représenterces règles, une seule règle est activée à la fois (principe du winner-takes-all). Enrevanche, lorsqu’un signal d’erreur est perçu, la stabilité de la règle est pertur-bée et le système doit sélectionner à nouveau une règle (si possible différente). Cecomportement est en tout point similaire aux mécanismes de la dopamine décritspar Durstewitz et coll. (2000) et O’Reilly (2006) puis modélisés par Rougier et coll.(2005).

Dans tous les modèles précédents, le cortex préfrontal, en conjonction avec lesganglions de la base, est vu comme régissant le contrôle exécutif mais il est abordéd’un seul bloc. Même le modèle de Monchi et coll. (2000), biologiquement trèsdétaillé, modélise le PFC comme un seul module. Or, pour comprendre commentle PFC peut être impliqué dans la grande gamme de fonctions cognitives qui luisont attribuées, une décomposition fonctionnelle en processus plus simples est unatout précieux. Koechlin et coll. (2003), Koechlin et Summerfield (2007) proposent

Page 79: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

1.4. Les modèles «hybrides» 79

Récompense

Entrée

Module d'erreurModule

de codage desrègles

Boucled'auto-évaluation

Intentioncourante

Sortie

Mémoire

couleur

forme

nombre

Fig. 1.23 – Architecture simplifiée d’un modèle neuronal pouvant passer le WCST. Adapté de De-haene et Changeux (1991)

l’architecture en cascade qui sépare les différents traitements de contrôle attribués auPFC. En plus de la sélection d’une action en réponse à un stimulus (cortex prémo-teur, situé entre le PFC et le cortex moteur primaire), il faut prendre en compte lecontexte dans lequel se fait cette sélection (PFC postérieur ou caudal), et les souve-nirs concernant des situations similaires déjà rencontrées (mémoire épisodique) quipermettent d’interpréter le contexte (PFC antérieur ou rostral) (voir fig.1.24).

Cette section a traité des modèles principalement issus des neurosciences quiintroduisent une part plus ou moins importante d’abstraction de manière à pou-voir aborder des problèmes qui sont encore difficilement accessibles à la simu-lation biologiquement détaillée. Il existe une démarche symétrique au sein desmodèles d’IA. Longtemps nourris par les théories psychologiques qui offrent uncadre d’analyse du comportement humain, les modèles d’IA, qui cherchent à re-produire ce comportement, se sont de plus en plus tournés vers des théories quiexpliquent comment ce comportement peut être le fruit du fonctionnement de lamachine biologique. La modélisation des effets n’ayant pas permis de comprendrel’émergence de la cognition, les modèles abstraits en IA incorporent de plus enplus des connaissances quant à ses causes. Pour cela, les fondements psycholo-

Page 80: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

80 Chapitre 1. État de l’art

Événementdu passé

Stimulus &contexte

Réponsemotrice

Temps

Contrôleépisodique

Contrôlecontextuel

Contrôlesensoriel

Signauxcontextuels

Épisode PFCrostral

PFCcaudal

Cortexprémoteur

Stimulus

Fig. 1.24 – Architecture en cascade, traduite de Koechlin et coll. (2003)

giques de ces théories tendent à devenir des fondements neuropsychologiques, etparfois des fondements neurophysiologiques. On assiste donc à une convergencedes démarches, puisqu’à l’inverse les modèles issus des neurosciences computa-tionnelles introduisent de plus en plus d’abstractions. La section suivante détailleun peu plus ces modèles de la cognition qui s’inspirent de la biologie.

1.4.2 Décomposition des modèles de l’esprit

Après les premiers développements importants de l’IA entre les années 50 et lesannées 90, en butte aux problèmes apparemment insolubles de la modélisation del’intelligence, les projets de recherche ont évolué. Il est possible de grossièrementdistinguer deux approches : l’IA pragmatique et l’IA fondamentale. L’IA pragmatiquese «limite» à résoudre des problèmes bien définis, provenant souvent de l’indus-trie ou de domaines ciblés des sciences, et développe pour cela des formalismesadaptés, qui éventuellement trouvent des applications plus larges qu’originelle-ment prévu. Cette approche a abandonné, du moins en apparence, l’objectif deconstruire un ordinateur intelligent au sens humain du terme mais se concentresur la résolution utile d’une question précise. Cette manière de fonctionner estaujourd’hui la plus répandue. Cependant une part non négligeable des travauxd’IA s’intéressent toujours à des systèmes artificiels qui imiteraient l’intelligencehumaine. Il est à noter que depuis la création de l’IA, celle-ci a toujours nourrides relations étroites avec la psychologie expérimentale, et la frontière est parfoisténue entre une théorie psychologique de la cognition qui est formalisée et implé-

Page 81: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

1.4. Les modèles «hybrides» 81

mentée sur un ordinateur, comme, par exemple, la théorie de la cohérence de PaulThagard et une de ses implémentations ACME (Holyoak et Thagard 1989), et unethéorie formelle issue de l’IA mais dont les fondements proviennent de la psy-chologie, comme la théorie de la «société de l’esprit» de Marvin Minsky (Minsky1988). Cependant, les approches purement logiques et abstraites n’ayant pas portéles fruits escomptés, de plus en plus de ces modèles se tournent vers la biologiepour y trouver l’inspiration.

Un des modèles les plus connus de la cognition est probablement ACT-R (An-derson 1993). A l’origine c’est un modèle de la cognition de haut-niveau qui a, aufil du temps, été raffiné pour être de plus en plus proche de la réalité biologique. Lecoeur du système s’appuie sur des règles de production qui permettent d’utiliserdes connaissances factuelles qui proviennent des entrées du système. Par analogieaux modèles cognitifs de la mémoire et de la connaissance, les auteurs parlent deconnaissance procédurale pour les règles de production (connaissance qui est en gé-néral implicite) et de connaissance déclarative pour les informations factuelles (quiest explicite et pourrait être communiquée à autrui). Un problème particulier peutêtre décrit par des règles adaptées et un système sous-jacent sub-symbolique (etutilisant des réseaux de neurones formels) permet de déterminer la stratégie de sé-lection des règles et donc de recherche de la solution. Partant de cette descriptionassez abstraite de la cognition, Anderson et coll. (1997) tentent de contraindre lesystème en lui adjoignant d’une part un module visuel, qui inclut un mécanismed’attention visuelle biologiquement plausible limitant la quantité d’informationsfactuelles disponibles, et un module d’interface, qui permet au système d’interagiravec l’ordinateur sur lequel s’affiche le test en cours. Le système a ensuite été sanscesse complexifié pour prendre en compte le plus de phénomènes biologiques etcognitifs possible. Anderson et coll. (2003; 2007) tracent un parallèle entre le traite-ment de l’information dans ACT-R et le cerveau, associant les différents modulesdu système à des régions cérébrales connues pour être impliquées dans des fonc-tions cognitives similaires, une étude IRMf venant appuyer cette analyse. Notonsque cette approche diffère de la neuroimagerie synthétique, dans la mesure où lelien entre ACT-R et le cerveau est établi a posteriori et uniquement sur la base d’unecorrespondance «point à point» entre modules et régions cérébrales. A aucun mo-ment, les interactions entre régions cérébrales ne sont prises en compte, ce quilimite nécessairement l’intérêt de ce rapprochement lorsque la question de l’acti-vation des réseaux de régions se pose. Néanmoins, ACT-R a démontré une granderobustesse et une grande flexibilité dans la modélisation de problèmes cognitifs

Page 82: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

82 Chapitre 1. État de l’art

de haut niveau, comme la question complexe de la perception du temps (Taatgenet coll. 2004; 2005a;b), ou le langage (Taatgen 1996, Taatgen et Anderson 2002).

Il existe bien d’autres systèmes modélisant la cognition humaine et qui s’ap-puient sur des considérations psychologiques et neurobiologiques. Nous ne cite-rons que deux des plus importants (en plus de ACT-R), SOAR (Laird et coll. 1987,Newell 1990) (qui au départ était un système expert pour la configuration d’or-dinateurs) et EPIC (Meyer et Kieras 1997a;b), tous deux utilisant des règles deproduction pour déterminer leurs actions en fonction du but poursuivi et des faitsobservés. EPIC met principalement l’accent sur l’aspect multi-tâche de la cogni-tion, explicitant la compétition pour les ressources attentionnelles entre les diffé-rents modules cognitifs spécialisés. L’utilisation par ce système de buffers dédiésaux différentes modalités sensorielles sera reprise par ACT-R (Anderson et coll.2003).

1.4.3 Les réseaux causaux à grande échelle

Les modèles présentés dans la section précédente proposent tous un mécanismepermettant de reproduire les observations biologiques, mais ils ne permettent pasde déterminer comment l’activation cérébrale résulte du traitement de l’informa-tion. Cette question, qui est au coeur des modèles issus des neurosciences com-putationnelles, a été abordée tout au long de la section 1.2 du point de vue desréseaux biologiquement plausibles. Ici, nous y revenons mais avec une approcheplus intégrée utilisant des formalismes abstraits. La notion de connectivité causale aoriginellement été introduite par Pastor et coll. (2000). Il s’agit, en prenant commecontrainte structurelle les réseaux à grande échelle de régions cérébrales tels ceuxmis en lumière par les études en neuroimagerie, de proposer un formalisme per-mettant de générer l’activation observée, et ce d’une manière qui soit à la fois bio-logiquement plausible et informative en termes de traitement de l’information ausein de ces réseaux. De manière similaire à l’utilisation des MES (cf.1.4.1.1) pourcalculer la connectivité effective d’un réseau, les aires cérébrales sont modéliséespar une fonction mathématique. Mais là où, pour les MES, la fonction est une ré-gression linéaire, fonction mathématiquement réversible qui n’impose donc pas desens à la connexion, en modélisation causale, la fonction prend en compte la re-lation causale existant entre deux régions cérébrales (qui provient du fait que lesaxones sont orientés et donc que l’information ne circule que dans un sens). Plu-

Page 83: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

1.4. Les modèles «hybrides» 83

sieurs formalismes ont été mis au point sur ce principe et le travail décrit dans cemémoire s’inscrit dans le même projet de recherche. Notons qu’en parallèle de cetteapproche, Friston et coll. (2003) décrivent la modélisation causale dynamique (ou DCMpour dynamic causal modelling) qui affine la nature des MES utilisés pour calculer laconnectivité effective en introduisant un aspect génératif qui tente, de manière sim-plifiée, d’expliquer la cause de l’activation. Les modèles de DCM sont purementlinéaires (et plus récemment bilinéaires (Marreiros et coll. 2008)) et souffrent doncde ne pas pouvoir représenter la non-linéarité présente à tous les niveaux du traite-ment cérébral. L’estimation statistique des nombreux paramètres des modèles quipar construction ne sont pas toujours adaptés aux données récoltées rend l’appli-cation pratique de cette technique souvent difficile. Elle a néanmoins été appliquéedans un certain nombre d’études en neuroimagerie (Lee et coll. 2006, Penny et coll.2004, Summerfield et Koechlin 2008).

BioCaEn. BioCaEn, pour Biological Causal Engine, a été principalement déve-loppé par Pastor et coll. (1997; 2000) et Lafon et coll. (1997), à partir d’un simula-teur qualitatif dédié aux processus physiques (Trave-Massuyes et coll. 1993). Lesrégions cérébrales (c’est-à-dire les nœuds du réseau simulé) sont modélisées pardes fonctions de transfert qualitatives linéaires. En accord avec la notion de réseauà grande échelle où chaque nœud du réseau est lui-même un réseau, chaque airepeut au besoin être décomposée en un sous-réseau qualitatif causal de primitivesfonctionnelles (Pastor et coll. 2000). Un autre aspect important de ce formalisme estla représentation de l’information cérébrale. En effet, au niveau intégré des popu-lations de neurones, l’information n’est caractérisée que partiellement par l’activitéintégrée de cette population, la façon dont les activations des neurones individuelssont réparties dans la population étant, elle aussi, importante. C’est l’idée que l’onretrouve dans l’organisation topique des aires primaires et, dans une moindre me-sure, associatives. Là où l’activation d’une population peut être calculée quantita-tivement (en intégrant les activités des neurones la composant), la configurationspatiale de ces mêmes neurones ne peut être considérée que qualitativement etsymboliquement. C’est ce qui explique que dans le modèle BioCaEn, l’informationest représentée de manière duale, quantitativement et qualitativement (ou encorenumériquement et symboliquement). Néanmoins, BioCaEn est limité (i) la linéaritédu formalisme diminue la plausibilité biologique du modèle et (ii) le calcul d’in-tervalles entraîne une certaine instabilité numérique (Lafon et coll. 1999, Pastoret coll. 2000).

Page 84: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

84 Chapitre 1. État de l’art

Les RAGE. Pour pallier ces problèmes, le modèle RAGE (pour Réseaux Artificielsà Grande Échelle) a été développé par Labatut et Pastor (2003), Labatut (2003),Labatut et coll. (2004).

Le formalisme des RAGE reprend les idées déjà présentées des réseaux cau-saux à grande échelle. La démarche part donc des réseaux structurels tel que celuireprésenté dans la figure 2.1. A ces réseaux est adjoint un formalisme permettantd’une part de générer l’activation cérébrale de manière à pouvoir la comparer auxdonnées expérimentales, et d’autre part d’expliquer comment l’information circuleau sein de ces réseaux et permet l’apparition des comportements observés.

L’information y est là encore représentée de manière duale. Une partie numé-rique modélise l’activité globale des populations de neurones. L’interprétation quien est faite est proche de l’idée de pertinence proposée par Koechlin et Burnod(1996), dans la mesure où elle encode la puissance du signal traité. Selon la naturesémantique de cette information, elle peut donc avoir différentes interprétations :si la population encode du son, elle peut modéliser le volume sonore, alors ques’il s’agit d’une information de type visuel, elle peut être interprétée comme uneluminosité. Cet attribut est appelé magnitude de l’information. L’autre aspect del’information est symbolique et modélise la configuration des neurones qui se sontactivés au sein de la population. Il est appelé type de l’information. Le type repré-sente la valeur d’un attribut qui est encodé par la population. Dans les exemplesprécédents, le type codera la fréquence sonore, ou la position du stimulus dansle champ visuel. Cette nomenclature est suffisamment souple pour convenir à desattributs de toutes natures. Les exemples donnés ne font état que d’attributs ty-piques des fonctions sensorielles primaires, mais des attributs de plus haut niveau,comme des formes géométriques, des outils manufacturés, des animaux ou encoredes visages, auraient aussi pu être pris. Les figures 1.25 et 1.26 illustrent ces notionsde type et de magnitude.

De ces concepts découle qu’une population neuronale dans ces réseaux codepour un attribut défini sur un domaine de définition spécifique. La transmission del’information d’une population à l’autre passe donc par un passage du domaine dedéfinition en amont au domaine de définition en aval. Par exemple, dans la cadredu traitement visuel, si une population de neurones de V1 code la position et laluminosité d’un stimulus dans son champ récepteur, une population située plusloin dans la chaîne de traitement et recevant, entre autres, des informations de la

Page 85: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

1.4. Les modèles «hybrides» 85

!"#$%&'"#$!"#$%&#'(($'")*"%%"+%$,"$)"-)./'")$,"#$0+1.)*2%0.+#$,34)052+%$,"#$2#'"4%#$,0113)"+%#$,6/+"$

0+1.)*2%0.+($"+$*2+0'/72+%$'7/#0"/)#$482*'#$42%3-.)0"7#$"+$*9*"$%"*'#:$;"%%"$)"')3#"+%2%0.+$,"$

760+1.)*2%0.+$+6"#%$</"$ %)2+#0%.0)"($ "77"$ "#%$ %./=./)#$2##.403"$>$/+$*342+0#*"$,"$ %)20%"*"+%$</0$ 72$

%)2+#1.)*"$"+$/+$%&'"$#0*'7"$,"#%0+3$>$9%)"$').'2-3:$

!"#" $%&'()&*+,-./,)01*201*3405%&'%2-+,*20

!"#$ ,"/?$ 4.*'.#2+%"#$ #.+%$ "?%)9*"*"+%$ ,0113)"+%"#($ "%$ "77"#$ +"$ ,3'"+,"+%$ '2#$ 76/+"$ ,"$ 762/%)":$

@77"#$ #.+%$ %./%"1.0#$ %)A#$ 4.*'73*"+%20)"#:$ ;.*'73*"+%20)"#$ %./%$ ,62B.),$ ,2+#$ 72$ ,"#4)0'%0.+$ ,"$

760+1.)*2%0.+$43)3B)27"($'/0#</"$4.+#0,3)3"#$#3'2)3*"+%($72$*2-+0%/,"$"%$7"$%&'"$+"$'")*"%%"+%$'2#$

,"$42)24%3)0#")$4"%%"$0+1.)*2%0.+:$C2)$"?"*'7"($07$"#%$'.##0B7"$</"$,"/?$0+1.)*2%0.+#$'.##A,"+%$/+$

+05"2/$-7.B27$,624%052%0.+$#0*0720)"($"%$#.0"+%$,.+4$)"')3#"+%3#$'2)$72$*9*"$*2-+0%/,":$D20#$4"%%"$

*9*"$24%052%0.+$'"/%$4.))"#'.+,)"$>$,"$+.*B)"/#"#$4.+10-/)2%0.+#$'.##0B7"#$,2+#$ 72$'.'/72%0.+$

3*"%%)04"($ "%$ ,.+4$ >$ ,"$ +.*B)"/?$ %&'"#$ ,0113)"+%#($ 4"$ </0$ '")*"%$ ,"$ ,0113)"+40")$ 7"#$ ,"/?$

0+1.)*2%0.+#$EF0-/)"$GH:I:IJ:$

$KLM

$

F0-/)"$GH:I:I$N$077/#%)2%0.+$,"#$4.+4"'%#$,"$*2-+0%/,"$"%$,"$%&'":$

E2J$N$ 2/$ +05"2/$ ,6/+"$ '.'/72%0.+$ +"/).+27":$ EBJ$N$ 2/$ +05"2/$,6/+$ 120#4"2/$ ,62?.+"#:$!"#$ ,"/?$

0+1.)*2%0.+#$'.##A,"+%$72$*9*"$*2-+0%/,"($*20#$7"#$%&'"#$#.+%$,0113)"+%#:0

EBJ$E2J$

!"#$%&'(")*

)+$,")&%+*

-&(./+&$*

01&2")+.*32")+.*4+$,")+.*

*

5+,.*$)+*&$',+*

#"#$%&'(")*

)+$,")&%+*

Information

1

4(6+&$*

01&/'(6&'(")*7*

*Information 8%+69*

2

4$%

Fig. 1.25 – Le concept de magnitude et de type de l’information, vu au niveau des populationsneuronales et des faisceaux d’axones. Dans ce cas, les deux informations sont de même magnitudemais ont des types différents. Tirée de Labatut (2003)

!" #$%&'()*(+" #(*",(-." %&/0)123%0&*"4(-'(&3"50))(*40&,)("6" #2"171("50&/%8-)23%0&",$253%'23%0&+" (3"

,0&5" 73)(" ,95)%3*" 42)" #(" 171(" 3:4(;" <2%*" %#" (*3" 40**%=#(" >-(" #(*" &%'(2-." ,$253%'23%0&" *0%(&3"

,%//9)(&3*+"5(">-%"%14#%>-(",(-."128&%3-,(*",%//9)(&3(*"?@%8-)("AB;C;DE;"

"FDF

"

Information

1

!Information

2

@%8-)("AB;C;D"G"%##-*3)23%0&",(*"50&5(43*",("128&%3-,("(3",("3:4(;""

H(33(" /0%*+" #(*" ,(-." %&/0)123%0&*" 40**I,(&3" #(" 171(" 3:4(+" 12%*" #(-)*" 128&%3-,(*" *0&3"

,%//9)(&3(*;!

J2" 5014#91(&32)%39" (*3" 982#(1(&3" 4)9*(&3(" 2-" &%'(2-" ,(" #$-3%#%*23%0&" ,(*" ,(-." 50140*2&3(*" G" #2"

128&%3-,("'2"*$2'9)()"-3%#(",-"40%&3",("'-(",("#$%&3()4)9323%0&",(",0&&9(*",("&(-)0%128()%(+"2#0)*"

>-("#("3:4("*()'%)2"6"93-,%()"#("3)2%3(1(&3"508&%3%/",("#$%&/0)123%0&"59)9=)2#(;"K&"(//(3+"#2"128&%3-,("

(*3" 2**(L" 4)05M(" ,(*"1(*-)(*" %**-(*" ,(*" 3(5M&%>-(*" ,$%128()%(" 59)9=)2#(;" K##(" &(" )(4)9*(&3(" 42*"

,%)(53(1(&3" -&(" '2)%23%0&",(",9=%3" *2&8-%&"0-",(" 5M214"9#(53)0128&93%>-(+" 5(4(&,2&3" (##(" 4(-3"

73)("%&3()4)939("5011(")(/#932&3"-&("8)2&,(-)"=%0#08%>-(">-%"%&/#-(&5("5("3:4(",("1(*-)(*;"J("3:4(+"

#-%+" &(" 50&*3%3-(" 42*" -&(" '2#(-)" 1(*-)2=#(" 42)" &(-)0%128()%(;" N&" &$2" ,0&5" 2-5-&" 10:(&" ,("

#$0=*()'()" ,2&*" #(" *:*3I1(" )9(#;" A#" (*3" &92&10%&*" (**(&3%(#" 6" #2" 10,9#%*23%0&" (3" 2-" 4)05(**-*" ,("

*%1-#23%0&+" 52)" #2" &23-)(" ,(" #$%&/0)123%0&" >-%" 3)2&*%3(" ,2&*" #(*" OHPK" ,93()1%&(" (&" 42)3%(" #("

3)2%3(1(&3">-%" (*3" (//(53-9;"K&"4#-*",(" *0&" )Q#(",2&*" #2" 4)042823%0&",(" #$%&/0)123%0&+" #(" 3:4(" '2"

982#(1(&3" %&3()'(&%)" ,2&*" #(*" 1952&%*1(*" ,$244)(&3%**28(+" ,95)%3*" 4#-*" #0%&;" K&/%&+" #(*" 3:4(*"

4()1(33(&3",(",0&&()"-&("5()32%&("3)2&*42)(&5("*912&3%>-("RS2##25(!"#!$%&"TUDV"6"&03)("/0)12#%*1(+"

4)04)%939">-%"(*3"2=*(&3("0-+",-"10%&*+"4)9*(&3("6"-&"&%'(2-"3)I*"/2%=#(+",2&*"#(*"OW@"-3%#%*9*"(&"

10,9#%*23%0&"59)9=)2#(;"

Fig. 1.26 – Le concept de magnitude et de type de l’information. Cette fois, les deux informationsont le même type mais des magnitudes différentes. Tirée de Labatut (2003)

Page 86: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

86 Chapitre 1. État de l’art

première pourra par exemple coder pour l’orientation des lignes droites détectéesdans son champ récepteur. Il y a donc un passage d’un domaine de définitiondécrivant des positions dans l’espace à un domaine de définition décrivant l’angledes différentes orientations.

Au sein d’une population neuronale, le type de l’information arrivant par lesdifférentes entrées est agrégé pour être ensuite comparé à des prototypes reconnuspar la population. Ce pattern matching est utilisé ensuite pour moduler le traitementnumérique qui modélise le traitement (non-linéaire a priori) de cette population surl’information incidente. Le résultat de ce traitement, combiné au résultat du patternmatching permet de générer d’une part la partie numérique de l’information ensortie et d’autre part la partie symbolique, le changement de domaine de définitiondes symboles s’effectuant par le biais d’une correspondance prototype -> symbole desortie. Un mécanisme d’apprentissage est proposé pour apprendre les prototypesà partir de l’information circulant dans la population. Il s’agit d’un apprentissagenon supervisé qui s’appuie sur les régularités détectées de manière incrémentaledans le flot d’informations.

La gestion de l’incertitude dans la représentation de l’information est prise encompte pour la partie numérique grâce à l’utilisation du formalisme des réseauxbayésiens dynamiques. La partie numérique est donc traitée en partie comme unev.a continue pour tout ce qui concerne la propagation, même si lorsqu’elle estutilisée dans le traitement non-linéaire caractérisant l’action de la population, seulela moyenne de cette v.a est prise en compte. En revanche, il n’y a pas de réelleprise en compte de l’incertitude dans la représentation symbolique, si ce n’est parle biais des interactions entre type et magnitude au cours du traitement. Lorsquele pattern matching est effectué, un calcul de similarité permet de déterminer laliste des prototypes partiellement correspondant, et le type de sortie est défini parla combinaison pondérée des différents symboles correspondant à ces prototypes.Cette représentation laisse de côté un problème fondamental, à savoir les relationsde proximité pouvant exister entre les prototypes. Cela vient du fait que pourdéfinir de manière générale les domaines de définition des populations, ils n’ontpas de distance associée. Cela se comprend bien lorsque le domaine de définitionest composé, par exemple, de formes géométriques : la distance entre un carré etun cercle n’est pas réellement intuitive. Nous reviendrons sur ce problème dans lechapitre suivant.

Page 87: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

1.4. Les modèles «hybrides» 87

Ce formalisme sera le point de départ de notre modèle, présenté dans le cha-pitre suivant.

Conclusion du chapitre

Il y aurait probablement encore beaucoup à dire sur la modélisation des pro-cessus cérébraux. Nous avons essayé de proposer un panorama le plus completpossible tout en restant au plus près des problématiques spécifiques à ce travail.Au vu du grand nombre d’approches, de modèles et de formalismes qui ont été ap-pliqués à la modélisation cérébrale, il paraît intéressant de dégager de ce chapitrequelques idées fortes qui guideront la conception de notre modèle.

Rappelons que nos objectifs sont de proposer un formalisme permettant deprendre en compte les réseaux mis à jour grâce aux techniques de neuroimagerie,mais modélisant le traitement de l’information de telle manière qu’il soit possiblede comprendre comment un comportement ou une fonction cognitive peut résulterde l’activation de ce réseau, comment le traitement effectué par une population deneurones, et transmis au reste du réseau, peut influencer la réussite ou l’échec dela tâche en cours.

Pour répondre à ces questions, il faut, bien-sûr, comprendre au mieux la dy-namique sous-jacente à l’activation neuronale. Il faut donc s’inspirer des modèlesbiologiquement détaillés issus des neurosciences computationnelles. Mais déjà là,des choix sont à faire quant au niveau de détails à incorporer. Il a été vu que trop dedétails nuisent généralement à l’«interprétabilité» des résultats, c’est l’effet «boîtenoire» des réseaux de neurones. De plus, la neuroimagerie ne permet pas d’obser-ver des neurones isolés, mais bien des populations. Il semble donc raisonnable departir des formalismes décrivant la dynamique des populations de neurones. Dece point de vue, un formalisme dérivé des équations de Wilson et Cowan (1972)apparaît comme prometteur car offrant un bon compromis entre la plausibilitébiologique et un traitement intégré de l’activité des populations neuronales.

Il faut aussi tenir compte de la sélectivité des populations, mais par la naturemême des réseaux à grande échelle, il est nécessaire ici d’être prudent. En effet,ces réseaux couvrent facilement de grandes zones du cortex et si la sélectivité desneurones, et donc des populations, est bien caractérisée dans les cortex primaires,elle l’est bien moins dans les cortex associatifs et préfrontaux. Pourtant, le forma-

Page 88: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

88 Chapitre 1. État de l’art

lisme se doit de proposer une approche unifiée du traitement de l’information dansune population, quelle que soit sa localisation. Le calcul de la sélectivité de la po-pulation à partir de la sélectivité des neurones comme proposé par Ben-Yishai etcollaborateurs (1995) ou Pouget et Sejnowski (1995; 1997) semble donc irréalisable.Une caractérisation qualitative de cette sélectivité apparaît alors comme un boncompromis : lorsque les données expérimentales le permettent, elle peut être ren-due précise mais sinon, elle permet de rester prudent. Nous opterons donc pourune superposition du numérique (l’activation des populations), grâce aux équa-tions de Wilson et Cowan (1972), et du symbolique (la configuration de l’activationdes populations) comme proposé par Koechlin et Burnod (1996), Pastor et coll.(2000) et Labatut et Pastor (2003).

Le formalisme adopté pour l’aspect symbolique devra prendre en compte l’in-certitude de la représentation, et permettre de raisonner malgré le manque de don-nées expérimentales contraignant cette représentation. Le formalisme de la théoriedes possibilités semble un bon candidat. Comme pour les modèles de type RAGE,nous raisonnerons à partir de prototypes, ce qui implique une forme de patternmatching flou (Dubois et coll. 1988).

L’essentiel du travail va donc consister à définir un formalisme englobant cesdifférentes approches et qui permettra de moduler l’activation des populations enfonction de l’information les traversant et de leur sélectivité.

Page 89: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

Modélisation 2

Dans ce chapitre, nous nous situons au cœur du problème. La présentation desenjeux et des formalismes y répondant partiellement ayant été faite, nous

nous attachons dans la première section à décrire en détail la notion de réseauxà grande échelle telle que nous la concevons, en distinguant en particulier les no-tions de réseau structurel et de réseau fonctionnel. La deuxième section décrit ce qu’estl’information cérébrale dans notre modèle et comment elle est représentée formel-lement. La troisième et dernière section s’attache au traitement de cette informationau sein d’une population, traitement qui est décomposé en trois étapes successives.Nous discutons aussi dans cette section des caractéristiques du formalisme, et plusparticulièrement des différents paramètres à estimer.

89

Page 90: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III
Page 91: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

2.1. Représenter les réseaux 91

2.1 Représenter les réseaux

Il a été bien établi au chapitre précédent que les fonctions cognitives étaientle fruit de l’activation de réseaux. Il faut donc, avant de définir un formalisme detraitement de l’information, préciser la manière de construire ces réseaux à partir,d’une part, des données structurelles et anatomiques disponibles, et d’autre part,des données et hypothèses fonctionnelles précisant le rôle des populations dansces réseaux.

2.1.1 Réseaux structurels

La construction d’un modèle de réseau à grande échelle repose d’abord surdes données structurelles provenant de la neuroanatomie, de la neurophysiologieet, plus récemment, de la neuroimagerie fonctionnelle et de l’imagerie du tenseurde diffusion. Elles permettent d’isoler les régions anatomiques concernées par latâche modélisée ainsi que les faisceaux d’axones qui transportent l’information. Lafigure 2.1 donne un exemple d’un tel réseau structurel construit à partir d’une étudeen TEP de détection phonémique (Démonet et coll. 1994). Les stimuli phonémiquesentrent dans le réseau par le cortex auditif primaire, passent par l’aire de Wernicke,puis l’information peut circuler dans deux boucles : la première, associée à l’airede Broca, est mobilisée dans un traitement classique sans ambiguïté, tandis quela seconde, impliquant le cortex cingulaire antérieur, est principalement activéelorsqu’il y a une ambiguïté perceptive. Lafon (2000) propose une définition desréseaux structurels, reprise par Labatut (2003), et adaptée à notre modèle :

Définition 2.1 un nœud structurel représente une structure neuronale fonc-tionnellement homogène et définie anatomiquement de façon relativementprécise (identifiable et localisable).

Définition 2.2 Un réseau structurel décrit un réseau de structures céré-brales. Chaque nœud de ce réseau est un nœud structurel, et chaque lien estorienté et représente une liaison anatomique.

La définition d’un nœud structurel n’implique donc rien quant à la nature de lapopulation de neurones qui le constitue. Les hypothèses faites quant à la sélectivitéde cette population, ou l’information qu’elle traite sont très vagues : tout au plus,dans la mesure où ces réseaux peuvent en général être isolés grâce à des études en

Page 92: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

92 Chapitre 2. Modélisation!"#$%&'()&*+,-.#+/-+0'1)&(+2345454+6(+7-.'8&(+!/)#+1%.%&-/(*+".+!()$+$&")9(&+,-.#+/(+&%#(-)+#$-$':)(+

,(#+;<;/(#+"&'(.$%#+'7!/':)-.$+!/)#+,(+,()=+.>),#+?+".+.@-+,".;+!-#+';'+).+&%#(-)+;-)#-/4++

!"#$%&$%

'$#(")*$%+,#-$.%

/0&"-"1%

2#"3/"#$%

+55A

!

+

0'1)&(+234545+?+(=(7!/(+,(+&%#(-)+#$&);$)&(/4+

B(+7",8/(+&(!&%#(.$(+/(#+-'&(#+'7!/':)%(#+,-.#+).+!&";(##)#+,(+,%$(;$'".+!C".%7':)(*+,@-!&8#+

D6%7".($!"#!$%&+EAFG4+

H-&I"'#*+/(#+,"..%(#+-.-$"7':)(#+!(&7($$(.$+,(+,%;"7!"#(&+).(+!"!)/-$'".+.()&".-/(+(.+!/)#'()&#+

#")#J!"!)/-$'".#+ K;4I4+ ;C-!'$&(+ 2454L45M*+ ;"77(+!-&+ (=(7!/(+ /-+ ,%;"7!"#'$'".+ #"7-$"$"!':)(+ ,)+

;"&$(=+7"$()&+!&'7-'&(4+N)+.'9(-)+,)+7",8/(*+;(/-+#(+$&-,)'$+!-&+/-+!"##'O'/'$%+,(+,%;"7!"#(&+).+

.>),+#$&);$)&(/+(.+).+&%#(-)+,(+.>),#+#$&);$)&(/#4+PC-:)(+.>),+,(+;(+&%#(-)+&(!&%#(.$(+).(+!($'$(+

!"!)/-$'".+.()&".-/(*+1%"1&-!C':)(7(.$+;".$(.)(+,-.#+/-+!"!)/-$'".+'.'$'-/(4++

"#"#$# %&'()*(+, ,(-./(-'!,(--0110.

N!&8#+ /@-#!(;$+ !C<#':)(*+ /-+ #(;".,(+ ;-$%1"&'(+ ,@'.I"&7-$'".+ ,%;&'9-.$+ /(#+ !"!)/-$'".#+ .()&".-/(#+

;".;(&.(+/()&#+-#!(;$#+I".;$'"..(/#4+NI'.+,(+/(#+(=!&'7(&+,-.#+."#+7",8/(#*+.")#+'.$&",)'#".#+/(+

;".;(!$+,(+.>),!'()*#+())"%*+:)'+%$(.,+/-+,%I'.'$'".+,(+Q-&;+B-I".+DB-I".+ERRG+?+

2345./(-'!,(--01+?+).+.>),+I".;$'"..(/+&(!&%#(.$(+/-+I".;$'".+'7!/%7(.$%(+!-&+).(+

!"!)/-$'".+.()&".-/(4+P($$(+,(&.'8&(+.@(#$+!-#+I"&;%7(.$+ ',(.$'I'%(+")+ /";-/'#%(*+7-'#+

,"'$+.%-.7"'.#+S$&(+I".;$'"..(//(7(.$+;"C%&(.$(*+($+$"!"1&-!C':)(7(.$+,%/'7'$%(+!-&+

/@(.#(7O/(+,(#+;"..(='".#+:)'+/@).'##(.$+-9(;+/(#+-)$&(#+!"!)/-$'".#4+

!"#$%&$%

4#,)/%

+,#-$.%

)"(506/"#$%

/(-7#"$0#%

89/6/30:%

+,#-$.%

)"(506/"#$%

2,:-7#"$0#%

;<#0:%

10:"1,#3$%

;<#0:%

-$32,#/6%

"(17#"$0#%

CAP

AB AW

GTI

GF

T

CCA CCP

Fig. 2.1 – Réseau d’aires cérébrales impliquées dans une tâche de détection phonémique, d’aprèsDémonet et coll. (1994)

neuroimagerie fonctionnelle, il est possible d’avoir une idée de la contribution decette population dans la tâche cognitive étudiée. Ce qui importe réellement dans ladéfinition d’un réseau structurel, ce sont les relations existant entre les différentesrégions. Dans ce sens, les réseaux structurels sont ceux qui sont modélisés dansl’approche MES (Friston 1994). Les populations neuronales susceptibles de consti-tuer un nœud structurel vont correspondre aux structures décrites au chapitre pré-cédent : aires de Broadmann, colonnes corticales (ici, dans leur sens structurel),mais aussi des régions plus vastes, comme des structures sous-corticales ou desparties de cortex. (cf. sections 1.2.1 et 1.2.3.1).

Les arcs d’un réseau structurel sont constitués par des liaisons anatomiquestransportant l’information entre les nœuds. Ils sont constitués des faisceauxd’axones déjà décrits. Individuellement, les axones ne transportent l’informationque dans un seul sens, mais dans les faisceaux, il est courant d’observer des fibresallant dans les deux sens, auquel cas, deux arcs allant chacun dans un sens maté-rialisent les deux directions de propagation de l’information (voir fig.2.1, entre legyrus fusiforme et le cortex cingulaire postérieur, par exemple).

Si les données anatomiques le permettent, il est possible de décomposer un

Page 93: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

2.1. Représenter les réseaux 93

nœud structurel en constituants structurels (au sens de la définition 2.1) plus petits,dont on espère que la fonction sera plus facile à isoler. Ainsi, le cortex frontalvu comme un nœud structurel peut être décomposé en constituants plus petits àsavoir le cortex préfrontal, les aires motrices, etc. Ou encore, dans la figure 2.1, lenœud structurel qu’est le cortex primaire auditif peut être décomposé de manièreà refléter la tonotopie de cette région. Chaque sous-nœud ne traitera alors qu’unegamme de fréquence réduite. Cette décomposition n’est néanmoins possible quesi les liens anatomiques entre les différentes sous-régions sont connus. Si tel est lecas, elle permet, dans le contexte du traitement des sons, d’attribuer une fonctionsimple à chaque nœud structurel. Il n’est pas toujours possible de procéder ainsi,et dans ce cas, il est possible de proposer une décomposition purement fonctionnelled’un nœud structurel.

2.1.2 Réseaux fonctionnels

En parallèle de la décomposition en réseaux structurels, il est possible de dé-composer une fonction cognitive complexe en sous-fonctions en interaction. Théo-riquement, chaque nœud structurel «implémente» une fonction, mais celle-ci peutêtre complexe et mal définie. Il est alors possible de la décomposer en fonctionsplus simples. Si des données anatomiques appuient cette décomposition, commedans l’exemple de la tonotopie, structure et fonction coïncident encore, mais enl’absence de telles données, cette décomposition fait office d’hypothèse quant à lamanière dont la population neuronale peut réaliser son rôle. Cette décompositionest alors purement fonctionnelle. Une définition de cette décomposition est proposéepar Labatut (2003) et nous l’avons adaptée à notre approche :

Définition 2.3 un nœud fonctionnel représente la fonction implémentée parune population neuronale. Cette dernière n’est pas forcément identifiée oulocalisée, mais doit néanmoins être fonctionnellement cohérente, et topogra-phiquement délimitée par l’ensemble des connexions qui l’unissent avec lesautres populations.

Définition 2.4 Un réseau fonctionnel décrit le traitement de l’informationimplémenté par un nœud structurel de niveau hiérarchique plus élevé. Il n’yapparaît pas nécessairement de décomposition anatomique.

La notion de hiérarchie mentionnée dans la définition 2.4 fait référence aux dif-férents niveaux de décomposition possibles : un nœud structurel avec un nœud

Page 94: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

94 Chapitre 2. Modélisation

fonctionnel unique correspondant peut être décomposé structurellement (et doncaussi fonctionnellement) ou uniquement fonctionnellement, mais dans les deuxcas, les nœuds du sous-réseau résultant sont considérés comme de plus bas niveau,les réseaux étant en quelque sorte emboîtés. Un réseau à grande échelle (structurelou fonctionnel) peut être vu comme une hypothèse sur la manière dont une fonc-tion cognitive est implémentée par le cerveau, et dans cette optique, un réseau fonc-tionnel est une hypothèse plus forte qu’un réseau structurel, dans le sens où ellerepose sur moins de données expérimentales. Cependant, la décomposition hiérar-chique structurelle, puis fonctionnelle, permet d’utiliser au maximum les donnéesdisponibles en construisant le réseau structurel le plus détaillé possible, puis depoursuivre la décomposition de manière purement fonctionnelle pour générer unehypothèse réfutable quant à la manière dont le réseau structurel peut assurer latâche cognitive qui lui est imputée.

Même en présence de données anatomiques précises, une décomposition pure-ment fonctionnelle peut être utile. Une population neuronale typique du néocortexcomprend des neurones excitateurs aussi bien qu’inhibiteurs (dans une proportiond’environ 80% d’excitateurs pour 20% d’inhibiteurs). Ces neurones inhibiteurs, gé-néralement GABAergiques, sont répartis de manière uniforme dans la populationet ne peuvent donc pas être modélisés par un nœud structurel dans une décom-position en réseaux de cette population. En revanche, la fonction bien définie deces neurones, l’inhibition, permet de les regrouper en un nœud fonctionnel (ou endeux nœuds si on entre dans la distinction des deux récepteurs GABAA et GABAB

qui induisent des inhibitions ayant des dynamiques et des actions différentes) quiva probablement avoir une influence sur la plupart des autres nœuds du réseau enraison du caractère distribué des neurones GABAergiques. Il est ainsi possible deséparer fonctionnellement les neurones en fonction des neurotransmetteurs qu’ilsexpriment majoritairement, de leur comportement électrique, de leur sélectivité,etc. (voir fig.2.2). Un réseau fonctionnel traduit les interactions des populations deneurones dans le contexte du traitement de l’information, là où un réseau structurelcaractérise le substrat physique qui permet les communications entre ces popula-tions. Au vu de ces définitions, il est clair que si les réseaux structurels sont lepoint de départ des modèles, les objectifs de ce travail impliquent que l’effort demodélisation se portera principalement sur le caractère fonctionnel des réseaux àgrande échelle.

Page 95: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

2.2. Représenter l’information 95

!"#$ %&%'()%*$ +,-./01#,-.$ )%$ #1.%"2$ 3,-+4/,--%)$ 01+#/4$ ("#$ )"$ 5/62#%$ 789:9;9$ 7)$ +,##%.(,-0$ <$ 2-$

',0=)%$ 61-1#/>2%$ 0?"/#%$ +,#4/+")%$ @A"3,-! "#! $%&$ BCDE9$ A"$ 5/62#%$ 789:9F9"$ ',-4#%$ 2-%$ (#%'/=#%$

/-.4"-+/"4/,-$0%$ +%$',0=)%*$ 24/)/.1%$(,2#$ #%(#1.%-4%#$ )%$ +,#4%&$G/.2%)$ @!".4,#! "#! $%&$ BHHE9$A"$5/62#%$

789:9F9I$',-4#%$2-%$.%+,-0%$ /-.4"-+/"4/,-*$0/331#%-4%$0%$ )"$(#%'/=#%*$24/)/.1%$(,2#$',01)/.%#$2-%$

"/#%$"20/4/G%$"..,+/"4/G%$ @A"I"424! "#! $%&$ BH;"E9$J"-.$ )"$(#%'/=#%$ /-.4"-+/"4/,-*$ )%$-K20$0%$'1',/#%$

LM$02$',0=)%$61-1#/>2%$%.4$#%'()"+1$("#$2-$#1.%"2$0%$4#,/.$-K20.*$3,#'"-4$2-$+N+)%$,#/%-41$./$,-$

/-+)24$)?OPM$02$+,#4%&9$Q%$#1.%"2$+,'(#%-0$4#,/.$-K20.$3,-+4/,--%).$R$)?%-4#1%$%4$)"$.,#4/%$0?2-%$

.4#2+42#%$4S")"'/>2%*$%4$2-$-K20$',01)/."-4$2-$.%2/)$0?"+4/G"4/,-9$$

!"#$%

$&'()'*'+',(

!"#$%&'#("&)*$%!"#$%$-%

.,/+'-%

$:TT

$

5/62#%$789:9;$R$%&%'()%$0%$',0=)%$61-1#/>2%$0?2-%$"/#%$+,#4/+")%$U"0"(41$0%$ )"$#%(#1.%-4"4/,-$

6#"(S/>2%$(#,(#%$<$V/,Q"W-X$@A"3,-!"#!$%&$BCDE9%

$

5/62#%$789:9F$R$0%2&$/-.4"-+/"4/,-.$02$',0=)%$61-1#/>2%$01+#/4$0"-.$)"$5/62#%$789:9;9$

U"X$R$',0=)%$0%$+,#4%&$G/.2%)$U"0"(41$0%$)"$#%(#1.%-4"4/,-$6#"(S/>2%$(#,(#%$<$V/,Q"W-X$@!".4,#!

"#!$%&$BHHE9$UIX$R$',0=)%$0?"/#%$"20/4/G%$"..,+/"4/G%$@A"I"424!"#!$%&$BH;"E9%

J"-.$ )"$ .%+,-0%$ /-.4"-+/"4/,-*$ LM$ %.4$ 4#"-.3,#'1$ %-$ 2-$ -K20$ 0%$ .%2/)$ 5YM$ U."$ 3,-+4/,-$ %.4$

',0/3/1%X9$O-$#%'"#>2%$"2../$)?"(("#/4/,-$0?2-$-,2G%"2$-K20$A7M*$>2/$G/%-4$+,'()14%#$)%$',0=)%$

61-1#/>2%$"3/-$0%$)?"0"(4%#$<$+%$+".$(#1+/.$0?24/)/."4/,-9$7)$3"24$."G,/#$>2%$)%$#1.%"2$(#1.%-41$0"-.$)"$

+)#("$%,-%&'#($.%)-,"("/%

IN

OGN

AN

U"X$ UIX$

FTN

0'#($.%1"2-$*%

IN

OGN

AN

IGN FTN

IGN

OGN

3(#-&(-#$%(4)*)5"6-$

IGN

LIN

!"#$%

$&01+'20+',(

!"#$%$-%

343,'/-%

IN

OGN

AN

IGN !"#$%

$&-(+/4-%MN

Fig. 2.2 – Exemple de réseau fonctionnel mettant en évidence plusieurs processus en interaction ausein d’une aire cérébrale. Un nœud IGN traite l’information incidente, et la transmet à un nœudOGN, en charge de l’information en sortie. L’inhibition au sein de la population est matérialiséepar le nœud IN et enfin le nœud MN implémente une forme de mémoire de travail locale. Le nœudAN ne représente pas à proprement parler une population de neurones mais il accumule au coursdu temps les activations générées par les autres nœuds dans un but de comparaison avec les donnéesIRMf. Ce modèle fonctionnel générique a été appliqué dans le contexte du cortex visuel (Lafon et coll.1997) mais aussi auditif (Labatut et Pastor 2003). Figure issue de Labatut (2003).

2.2 Représenter l’information

Comme il a été dit dans la conclusion du chapitre précédent, nous adoptonsune représentation duale de l’information, avec une composante numérique et unecomposante symbolique. Dans cette section nous rentrons un peu plus dans lesdétails quant à ce que cela implique pour la modélisation. En particulier nousdistinguerons les différentes interprétations de ces deux composantes, lorsque l’in-formation considérée concerne :

– le stimulus extérieur qui provoque l’activation cérébrale,– l’activité d’une population,– l’influx propagé au travers des faisceaux d’axones.

2.2.1 Stimulation extérieure

L’information qui transite dans les réseaux cérébraux peut être de deux natures :elle peut désigner le stimulus à l’origine de l’activation cérébrale, ou elle peutdésigner l’activation cérébrale elle-même, telle que propagée entre les différentsnœuds des réseaux. La première causant la seconde, ces deux interprétations nesont pas indépendantes. Un stimulus extérieur tel que perçu par le cerveau est en

Page 96: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

96 Chapitre 2. Modélisation

général une construction complexe impliquant plusieurs modalités et qui peut êtredécrite par un grand nombre d’attributs physiques (longueur d’onde de la lumière,orientation d’un objet, fréquence d’un son, etc.). La représentation neuronale étantcausée par la stimulation, l’idée est de renverser conceptuellement cette relationet de choisir de contraindre la représentation de la stimulation extérieure par sareprésentation neuronale. Donc les attributs utilisés pour décrire un stimulus nesont que ceux qui sont encodés par le cerveau.

Dans la suite, lorsque nous parlerons de stimulation extérieure, nous feronssouvent référence à un stimulus «simple», souvent uni-modal et contrôlé, sem-blable à ceux manipulés expérimentalement : un point lumineux, éventuellementcoloré, une fréquence sonore pure, une stimulation tactile localisée, etc.

Dans la quasi-totalité de ces situations, ce stimulus peut être décrit complète-ment par deux quantités. L’une d’elle représente l’intensité de la stimulation etl’autre sa nature.

2.2.1.1 La magnitude d’un stimulus extérieur

La magnitude d’un stimulus correspond à l’intensité de la stimulation : la lu-minosité du point lumineux, le volume sonore du ton pur, la pression exercée surla peau par la stimulation tactile, etc. Cette quantité varie continûment de 0 à unmaximum indéterminé mais qui dépend de la nature du stimulus.

2.2.1.2 Le type d’un stimulus extérieur

La deuxième quantité qui décrit un stimulus représente les propriétés psycho-physiques autres que son intensité. La pertinence de cette seconde quantité, quenous appelons type du stimulus, dépend bien-sûr de la nature de la stimulationeffectuée. Par exemple, un point lumineux pourra être présenté à des positions va-riables dans le champ visuel, ou il pourra être de couleurs variables. Pour une sti-mulation sonore, il est possible de jouer sur la fréquence du son. La différence entrela magnitude et cette seconde quantité est leur domaine de définition : la magni-tude caractérise toujours une puissance, une quantité positive variant continûment,tandis que le type n’est pas limité dans ses variations. Il n’est même pas nécessai-rement défini sur un domaine continu : des nombres entiers à lire forment ainsiun domaine de variation discret pour un stimulus. Cette décomposition en type

Page 97: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

2.2. Représenter l’information 97

et magnitude peut s’appliquer à des stimuli très divers, très simples (point lumi-neux, ton pur) ou plus abstraits (des formes géométriques, des images d’animaux,etc.). En résumé, le type est défini par les propriétés du stimulus qui peuvent êtretransformées en impulsion électrique par le cerveau.

2.2.1.3 Exemple

Tout au long de ce chapitre, un exemple sera détaillé pour illustrer les différentsconcepts introduits.

Considérons une stimulation visuelle qui consiste en une forme géométriquesimple (un carré, un rectangle ou un triangle) qui peut être de différentes couleurs(rouge, orange ou bleu), placée au centre du champ visuel. Un stimulus peut êtredécrit par deux attributs distincts :

– la forme, dont la magnitude peut être le contraste de la forme par rapport aufond, et dont le type représente une des trois formes.

– la couleur, dont la magnitude est la saturation de cette couleur, et dont letype représente une des trois couleurs. Ces couleurs provenant des longueursd’ondes de la lumière perçues, cela suggère l’existence d’un continuum lesreliant.

2.2.2 Activation d’une population

Si la représentation au moyen de la magnitude et du type peut s’appliquer auxstimuli extérieurs, elle devient véritablement intéressante lorsqu’elle s’applique auxpopulations neuronales.

2.2.2.1 Contraintes

«Abstraire» les potentiels d’actions. Représenter l’activation d’une populationde neurones implique un certain nombre de contraintes. Elle est le fruit de l’acti-vation de tous les neurones qui la composent. Il a été vu dans le premier chapitreque ces neurones encodent principalement l’information au moyen des potentielsd’action (PA). Il existe encore aujourd’hui une controverse importante quant à lamanière dont l’information est effectivement encodée par ces PA (Rieke et coll.1997, Dayan et Abbot 2005). Classiquement, on caractérise la réponse d’un neurone

Page 98: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

98 Chapitre 2. Modélisation

en observant sa fréquence d’émission de PA en fonction de la stimulation (codagepar fréquence). Il a été néanmoins avancé que l’encodage ne se faisait pas tantpar la fréquence que par l’intervalle de temps séparant les PA (codage temporel).Pour être tout à fait précis dans la représentation de l’activation d’une population,et pour ne pas perdre de l’information encodée, il faudrait pouvoir prendre encompte la totalité des PA émis par les neurones de cette population. En pratiquecependant, sans une simulation précise et biologiquement plausible des neuronescomposant cette population, c’est impossible. Cela, d’autant plus que les popula-tions que nous cherchons à modéliser ne sont pas toujours bien définies (surtoutles populations purement fonctionnelles), aussi bien au niveau de la nature desneurones, que de leurs connexions. Il s’agit donc de trouver une représentation del’information qui soit à la fois compacte et le plus proche possible de la réalité.

Fréquence de décharge et patterns d’activité. Il a été vu dans le premier chapitreque de nombreux modèles utilisent la fréquence de décharge globale de la popu-lation comme une bonne caractérisation de son activation. Les équations 1.4 et 1.5fournissent la dynamique de cette fréquence en fonction des entrées. Cependant,en ne prenant en compte que la fréquence globale, la configuration spatiale desneurones qui ont déchargé est perdue (voir fig.1.25). Or, il a aussi été vu que cetteconfiguration spatiale revêt une importance particulière dans l’encodage de l’infor-mation : l’organisation topique des neurones, au moins dans les cortex primaires et,probablement, plus profondément dans la chaîne de traitement (Alexander et coll.1992), établit un lien fort entre la position spatiale des neurones activés et la naturede la stimulation. En considérant la population fonctionnelle constituée par le cor-tex primaire auditif, par exemple, deux sons purs d’un même volume sonore et defréquences différentes, génèrent sensiblement la même fréquence de décharge glo-bale, mais les neurones qui la génèrent sont différents. Caractériser cette configu-ration spatiale des neurones déchargeant, ce que nous appelons le pattern d’activité,apparaît donc comme un aspect important de la représentation de l’informationneuronale.

Bruit de l’activation neuronale. Un autre aspect particulièrement important del’activité neuronale est son caractère bruité. Individuellement, les neurones ré-agissent à une stimulation de manière peu précise (ou du moins en prenant encompte des phénomènes qui échappent aux expérimentateurs et qui ne peuventdonc être contrôlés). C’est pourquoi beaucoup de modèles de neurones impliquent

Page 99: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

2.2. Représenter l’information 99

un processus de génération des PA en partie stochastique. Cela a comme consé-quence que la fréquence de décharge d’une population est elle aussi entachée d’er-reurs. Toutefois, en moyenne, une population répond de manière consistante à desstimulations répétées. Il en est évidemment de même pour le pattern d’activité :deux patterns générés par une même stimulation peuvent varier (neurones déchar-geant en plus ou en moins) mais en moyenne, une même stimulation induit unmême pattern d’activité. Néanmoins, une bonne représentation de l’activité d’unepopulation ne peut pas complètement négliger le bruit qui fait partie intégrante dutraitement (un exemple de traitement s’appuyant sur le bruit est donné dans lesapplications du modèle, chapitre 3).

Similarité des représentations. L’observation du paragraphe précédent concer-nant la consistance des patterns suite à deux stimulations identiques, couplée auxobservations concernant l’organisation topique des cortex primaires, entraîne uneautre propriété qui s’avère fondamentale à notre modèle. Deux informations denatures similaires génèrent en moyenne des patterns similaires d’activité. Eneffet, tous les cortex primaires traitant les différentes modalités provenant de l’ex-térieur possèdent une organisation fonctionnelle qui reproduit la structure des sti-muli qu’ils décodent : tonotopie, rétinotopie, somatotopie, etc. Prenons la figure1.12 (p.34) représentant une partie de V1 chez le chat : il est facile de voir quedeux orientations proches activent des neurones proches (même si l’inverse n’estpas vrai). De plus, les neurones s’activant préférentiellement pour une orientations’activent partiellement pour une orientation proche (cf section 1.2.2.3, p.25 expli-quant la dépendance de la fréquence de décharge à l’orientation). On en déduit queles patterns d’activités correspondant à deux orientations proches se chevauchentet sont donc proches spatialement. Cette notion de similarité entre patterns et decorrespondance entre la proximité des stimuli et des patterns d’activité qu’ils pro-voquent est au coeur de ce travail.

Les contraintes ayant été posées, il est possible maintenant de proposer unereprésentation de l’information qui les prend en compte du mieux possible.

2.2.2.2 Magnitude

La fréquence globale de décharge de la population, si elle n’est pas suffisante,est néanmoins une bonne caractérisation de l’activation d’une population. De plus,

Page 100: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

100 Chapitre 2. Modélisation

elle est facilement mise en relation avec le signal BOLD en IRMf. C’est une quan-tité numérique, positive, variant continûment, et c’est donc naturellement que nousl’appelons magnitude de l’activation de la population, par analogie avec la magnitudedes stimuli extérieurs. Il est intéressant de noter que deux stimuli extérieurs detype identique mais de magnitudes différentes entraînent, dans les populationsqui les traitent directement, des fréquences de décharge différentes mais des pat-terns d’activité sensiblement identiques. Une magnitude d’activation importanteimplique (i) un stimulus de magnitude suffisamment importante, et (ii) que cestimulus soit «bien traité» par cette population (la suite rendra plus précise cetteassertion). Résumons cette définition :

Définition 2.5 On appelle magnitude de l’activation d’une population ousimplement magnitude, la fréquence globale de décharge de la population(obtenue en intégrant sur l’ensemble des neurones leur fréquence de dé-charge) en réponse à un stimulus spécifique. La magnitude de l’activationencode la pertinence et/ou l’intensité avec laquelle cette population s’activeen réponse au stimulus.

La dynamique de la magnitude d’une population est décrite par les équations1.4 et 1.5 que nous allons modifier pour prendre en compte l’autre composante del’information.

2.2.2.3 Type

Chaque neurone d’un pattern participe à la fréquence globale d’une manièrequi lui est propre. Il faudrait donc non seulement connaître la position des neu-rones déchargeant mais aussi leurs activations relatives. Cela reviendrait à modé-liser tous les neurones individuellement. Nous adoptons donc une solution inter-médiaire qui complète la fréquence globale tout en restant compacte. Les neuronessont considérés comme binaires : ils déchargent ou non. Cela nous permet de nepas prendre en compte les activations relatives des neurones au sein du pattern,tout en gardant une bonne approximation de la configuration spatiale (voir fig.2.3).Pour une population de neurones donnée, il y a donc un nombre fini de patternspossibles (même si c’est un très grand nombre, puisqu’il est de l’ordre de n! pourune population de n neurones). Chacune de ces configurations est indexée par unsymbole unique, et, ensemble, elles forment le domaine de définition d’une po-pulation. Toujours par analogie avec la représentation d’un stimulus extérieur, ce

Page 101: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

2.2. Représenter l’information 101

=⇒

Activation

Forte

Faible

Fig. 2.3 – Illustration du passage aux patterns de neurones binaires. Le pattern de droite estconstruit en ne conservant que les neurones activés à plus de 50%

pattern d’activité simplifié est appelé le type de l’activation de la population. Le pa-rallèle existant entre ces deux représentations apparaît maintenant pleinement : lamagnitude d’activation représente l’intensité avec laquelle cette population s’ac-tive, tandis que le type représente la nature de l’information pour laquelle elles’active. La définition suivante résume ce qui a été dit :

Définition 2.6 On appelle type de l’activation d’une population ou simple-ment type, le pattern des neurones activés, ceux-ci étant considérés commebinaires, dans une population donnée, en réponse à une information inci-dente.

La représentation binaire des patterns est une simplification pratique mais quiimpose néanmoins certaines limitations. En particulier, un tel pattern représenteen quelque sorte le codage spatial maximal par la population de la valeur d’unattribut. Cette représentation ne permet pas de prendre en compte simplement lephénomène d’habituation : lorsqu’une même information est présentée de manièrerépétée à une population, celle-ci y réagit de façon de plus en plus efficace, c’est-à-dire qu’elle recrute moins de neurones. Dans la représentation par type d’acti-vation, pour une information répétée, le pattern activé devrait être composé d’unefraction des neurones composant le pattern «maximal». Il est possible de modélisercela partiellement en prenant le pattern maximal activé avec une magnitude reflé-tant l’activation partielle mais cette solution n’est pas tout à fait satisfaisante carelle ne permet pas de faire une différence entre activation efficace recrutant moinsde neurones et une activation faible de l’ensemble du pattern suite à une stimula-tion de faible magnitude par exemple. Nous reviendrons sur cette limitation dansle chapitre 4.

Page 102: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

102 Chapitre 2. Modélisation

2.2.2.4 Relation entre les valeurs du type : distance entre patterns

La représentation des différents patterns par une liste de symboles présenteun inconvénient majeur : il n’est plus possible de dire si deux patterns sont simi-laires en ce qui concerne les neurones qu’ils impliquent. En effet, si considérer lesneurones comme binaires ne permet plus de passer continûment d’un pattern àun autre, il est possible d’établir une relation de similarité entre eux en évaluantla fraction des neurones d’un pattern déchargeant à la fois pour les stimuli d’unpattern et de l’autre. Ces neurones sont donc partagés par les deux patterns etl’activation de l’un entraîne «mécaniquement» l’activation partielle de l’autre. Enfonction de cette fraction, il est possible de conclure à une certaine similarité entreces patterns et, par extension, entre les stimuli qui provoquent leur activation res-pective.

Mais les neurones communs ne sont pas l’unique manière d’affirmer que deuxpatterns représentent des informations similaires : les connexions reliant les neu-rones qui les composent peuvent impliquer que l’activation de l’un se propageà l’autre. Là encore, caractériser toutes les connexions pour calculer précisémentcette propagation est impossible. Cependant, on sait que la probabilité pour deuxneurones d’être connectés diminue avec la distance. En considérant le comporte-ment moyen à l’échelle d’un pattern suffisamment grand de neurones, l’hypothèsesuivante peut être faite : l’activation d’un pattern se diffuse autour de lui endiminuant avec la distance. Si d’autres patterns se trouvent à proximité (ou le che-vauchent), ils seront activés indirectement (voir fig.2.4). En résumé, la proximitéentre des patterns à la surface du cortex est une bonne indication de la proximitéentre les informations qu’ils représentent. Par exemple, si on considère une orga-nisation rétinotopique des neurones, les neurones sont organisés en fonction de lazone du champ visuel à laquelle ils sont sensibles (voir fig.2.5 ). En considérantune population les englobant, une stimulation visuelle localisée génère un patternd’activation qui dépend de la position dans le champ du stimulus. Il y a doncune projection de la distance existant entre deux points du champ visuel sur lasurface (approximativement en deux dimensions) du cortex. «Mettre à plat» cetteorganisation avec une liste de symboles fait perdre beaucoup d’informations. Poury remédier, à chaque symbole de pattern est associé une liste des patterns proches,où chaque élément est pondéré par une évaluation qualitative de sa similarité aupattern de référence.

Page 103: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

2.2. Représenter l’information 103

P2

P1

Neurones

P3

=⇒

Patterns

P2

P1

P3

Magnitude

Forte

Faible

Fig. 2.4 – Illustration de la diffusion de l’activation d’un pattern vers un autre : l’activation de P1diffuse vers les deux autres patterns P2 et P3, en fonction de leur distance à P1.

0 1 2 3 40

1

2

3

4

=⇒ {pos11, pos12, . . . , pos44}

Fig. 2.5 – Exemple de transformation d’un espace 2D «discrétisé» en une suite de positions symbo-liques. La grille représente de manière très schématique une organisation rétinotopique des neurones.Chaque carré symbolise un groupe de neurones dont les champs récepteurs correspondent à une po-sition dans l’espace à deux dimension constitué par le champ visuel entier. La distance entre lesdifférentes positions est a priori perdue dans la «mise à plat».

Page 104: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

104 Chapitre 2. Modélisation

2.2.3 Formalisation

Soit une information I, composée d’une magnitude mI et d’un type TI . mI estune variable numérique, positive et non nécessairement bornée. En pratique, dansla réalité biologique, les mécanismes de génération et de transmission des PA ga-rantissent qu’elle ne prend pas des valeurs trop importantes. En effet, (i) générerdes PA demande de l’énergie aux neurones, qui est apportée par l’oxygène du sanget est donc disponible en quantité limitée, et (ii) la dynamique d’activation des neu-rones implique qu’ils ne peuvent pas décharger avec une fréquence arbitrairementhaute. Comme dans la réalité, la magnitude dans nos modèles sera maintenuebornée par l’action des mécanismes et par les interactions entre les différentes po-pulations. Idéalement, seules les interactions devraient suffire à assurer cela, maisl’échelle de modélisation est ici trop variable et les interactions entre neurones nesont pas prises en compte assez finement pour le permettre.

2.2.3.1 Représentation par ensembles flous

TI est formalisé de manière compacte par un ensemble flou défini sur le do-maine de définition du type, DI . Le noyau de cet ensemble constitue le patterneffectivement représenté tandis que le support contient les patterns connus pourêtre similaires à celui-ci, les degrés d’appartenance étant une évaluation qualitativedes similarités (voir fig.2.6).

Cette relation entre similarité et degré d’appartenance1 repose sur l’ordre par-tiel, et implicite, entre les différents patterns, ordre induit par l’organisation to-pique de la population considérée. Cette définition implique que le noyau doit êtreréduit à un singleton. Il s’agit là d’une contrainte liée à l’interprétation en termesde similarité des degrés d’appartenance. En effet, si le degré d’appartenance estune évaluation qualitative de la similarité des autres patterns avec le pattern re-présenté par l’ensemble, seul le pattern lui-même est complètement similaire aveclui-même. Cela implique en particulier, qu’il n’y a pas d’ambiguïté possible dansla représentation d’une information sous forme de pattern neuronal. Il s’agit làd’une hypothèse importante du formalisme et qui s’appuie sur un recouvrementnon redondant, au sein d’une population fonctionnelle, du domaine de définition du

1qui est sous-entendue dans le cas d’un ensemble défini sur un domaine continu (et donc or-donné).

Page 105: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

2.2. Représenter l’information 105

A

p1 p2 p3

B

0p1 p2 p3

1

Fig. 2.6 – Représentation du type sous forme d’ensemble flou. La population A est activée avec lepattern p1 et envoie cette information à la population B. p1 est donc le noyau de l’ensemble flou, etle support est {p1, p2, p3}.

type par les patterns. Les implications de cette hypothèse sont facilement visiblessur la figure 2.5 : nous considérons qu’il existe un et un seul pattern correspondantà une position dans l’espace et si la position se trouve être juste à la frontière entredeux patterns (c’est-à-dire entre deux – ou même quatre – carrés sur la figure), unseul pattern sera toujours considéré comme plus représentatif (même si les autrespatterns candidats feront parties de la représentation floue avec une forte simila-rité). Nous verrons que par le biais du bruit dans le traitement de l’information,il est toujours possible de faire basculer vers un pattern unique la représentation.Il faut cependant bien insister sur le fait que ce recouvrement non redondant estlimité à une population fonctionnelle. En effet, la redondance fait partie des carac-téristiques majeures du cerveau et une même information peut être représentée parun grand nombre de neurones ou de groupes de neurones. L’idée est de considé-rer que le recouvrement non redondant n’est valable que dans un rôle fonctionnelbien défini. Deux populations fonctionnelles différentes recevant les mêmes in-formations coderont chacune une information donnée avec un pattern unique etdonc, collectivement, elles opèrent un recouvrement redondant du domaine. Cettecaractéristique permet d’établir une première limite au rôle fonctionnel qu’une po-pulation peut remplir : si une population doit représenter des entrées avec despatterns redondants, elle doit être décomposée en plusieurs populations fonction-

Page 106: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

106 Chapitre 2. Modélisation

nelles en interaction jusqu’à ce que la redondance disparaisse. Cette possibilitéde représenter la même information dans plusieurs populations fonctionnelles etdonc potentiellement dans plusieurs régions cérébrales différentes est tout à faitconsistante avec les arguments de Pulvermüller (Hauk et coll. 2004, Pulvermul-ler et Hauk 2006) en faveur d’une représentation en de multiples endroits d’unmême concept. Mais, là où Pulvermüller ne parle que de la représentation d’unmot du langage en de multiples endroits, nous considérons l’encodage du motcomme étant une représentation de l’information correspondante parmi d’autres.Ainsi, l’action d’observer une personne fléchir le bras sera encodée dans les zonesdu langage en tant que verbe «fléchir» mais elle sera aussi encodée dans les cortexprémoteur et moteur en tant que répétition mentale de l’action. Une même infor-mation sous-tend ces deux représentations et c’est l’activation des deux qui permetde lier les représentations. En revanche, le problème de la manière dont s’effectuela liaison des représentations est un problème complexe, appelé le binding problem,qui sera discuté au chapitre 4.

Un autre aspect important de la définition est le fait que le support d’un en-semble flou représentant un type est constitué par les patterns dont on sait qu’ilssont similaires au pattern représenté. L’absence d’un pattern de ce support peutdonc vouloir dire qu’il n’est pas du tout similaire au pattern considéré ou qu’onne sait rien de sa similarité. Ceci s’explique par le fait qu’en général, le référentielsur lequel l’ensemble est défini n’est pas connu et donc qu’on ne peut rien dire desrelations d’un pattern avec tous les autres imaginables. Cela a pour conséquenceque la similarité d’un pattern avec ses voisins, telle que représentée par l’ensembleflou dont il est le noyau, est une information centrée sur ce pattern. Cette similaritén’est, bien entendu, pas transitive.

La représentation sous forme d’ensemble flou sert plusieurs buts. D’une part,elle permet d’exprimer de manière conjointe la valeur du type (le noyau de l’en-semble) et les patterns proches. D’autre part, elle a un sens en termes de théorie despossibilités. En effet, dire que deux patterns sont très similaires c’est dire qu’il estpossible qu’en raison des imprécisions et du bruit, la valeur réelle du type soit undes patterns proches. Une seule représentation permet ainsi de prendre en comptel’imprécision de la représentation et les relations de similarité entre les patterns. Lanature même des degrés d’appartenance, qui sont des évaluations qualitatives dessimilarités entre les patterns, renforce encore l’interprétation floue.

Une interprétation probabiliste des similarités aurait pu être possible : à par-

Page 107: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

2.2. Représenter l’information 107

tir des similarités, une distribution de probabilités sur les valeurs du type peutêtre construite. Mais la nature peu précise des similarités s’accommode mal d’unedistribution de probabilités, par essence plus quantitative. De plus, l’interpréta-tion diffère : l’interprétation probabiliste implique que le type possède une valeurprécise inconnue mais qui, si elle venait à être connue, rendrait toutes les autresvaleurs fausses, ou, en d’autres termes, qu’il n’y a qu’un pattern responsable de latotalité de l’activation et que si une méthode nous permettait d’affiner le modèle, ladistribution se réduirait à un point. Dans l’interprétation possibiliste, en revanche,l’information représentée par un pattern précis peut tout aussi possiblement êtrereprésentée par un pattern proche, et même si le pattern codant l’information estconnu avec précision, les patterns proches n’en restent pas moins valables.

Il faut ici bien faire la différence entre le symbole qui étiquette les patterns etl’ensemble flou associé à un pattern qui inclut cette étiquette mais y ajoute lessimilarités avec les autres patterns. Cependant dans la suite, par abus de langage,on confondra souvent les deux.

2.2.3.2 Comparaison entre types

Les outils issus de la théorie des possibilités offrent un moyen simple de compa-rer entre eux des types définis sur un même domaine D. La compatibilité c(T1, T2)entre deux types T1 et T2 est donnée par le degré de recouvrement (on utilise lanotation classique qui consiste à noter T(x) le degré d’appartenance de l’élémentx à l’ensemble T) :

c(T1, T2) = supx∈D

min(T1(x), T2(x)) (2.1)

Deux types de même noyau sont donc parfaitement compatibles, ce qui est normalpuisqu’ils représentent le même pattern. La figure 2.7 illustre cette comparaison.D’après la définition que nous avons donnée des ensembles flous représentant lestypes, et sachant que si l’évaluation de la similarité entre deux patterns est correcte,elle est symétrique, le calcul de c(T1, T2) revient à regarder directement sur un desdeux ensembles sa similarité à l’autre, comme c’est le cas dans la figure 2.7, etdans ce cas la compatibilité entre T1 et T2 se confond avec la similarité entre lesdeux patterns qu’ils représentent. Le calcul devient nécessaire si les similaritéssous-jacentes aux deux ensembles ne sont pas les mêmes. L’utilisation du degré derecouvrement (et la non-utilisation du degré d’inclusion, cf. section 1.3.2.3) trouve

Page 108: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

108 Chapitre 2. Modélisation

0e1 e2 e3 e4 e5

10.8

T1

0e1 e2 e3 e4 e5

0.81

T2

=⇒ c(T1, T2) = 0.8

Fig. 2.7 – Comparaison de deux ensembles flous T1 et T2. Ils représentent respectivement les patternse1 et e2 et la similarité entre ces deux patterns est de 0.8. La similarité entre les deux ensembles flousest donc logiquement de 0.8.

alors une explication simple. En effet, le degré de recouvrement mesure à quelpoint les deux ensembles représentent des informations compatibles tandis que ledegré d’inclusion mesure plutôt à quel point une information est une spécialisationde l’autre, ce qui n’est pas ce qui est désiré ici. Dans l’exemple des ensemblesreprésentés figure 2.8, si on compare T1 à T2, le degré d’inclusion de T2 dans T1 estégal à 0. Or T2, qui représente e2, code le fait que l’élément e1 a une similarité de0.6 avec e2, et comme T1 représente e1, la similarité de T1 avec T2 devrait être égaleà 0.6.

0e1

1

T1

0e1 e2

0.6

1

T2

Fig. 2.8 – Deux ensembles flous illustrant l’intérêt dans le modèle du degré de recouvrement face audegré d’inclusion. c(T1, T2) = 0.6, alors que le degré d’inclusion de T1 dans T2 est égal à 0 et quecelui de T2 dans T1 est égal à 0.6.

Page 109: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

2.3. Traiter l’information 109

2.2.4 Exemple

Reprenons l’exemple de la stimulation visuelle représentant une forme géomé-trique de couleur. Soit une population fonctionnelle hypothétique reconnaissantces formes. Une de ces entrées, notée E f , encode la forme du stimulus, tandis quel’autre, notée Ec, encode la couleur. L’interprétation de la magnitude et du typede ces entrées a été faite précédemment. La population s’active avec la même fré-quence de décharge qu’on lui présente un carré rouge ou un triangle bleu, ce quiveut dire qu’elle reconnaît aussi bien les deux informations. Cependant le patternd’activité n’est pas le même (voir fig.2.9, A). De la même manière, deux carrésrouges de contrastes et saturations différents déclenchent le même pattern d’acti-vité mais des fréquences de décharge différentes (voir fig.2.9, B). De manière plusintéressante, on observe aussi qu’à contraste et saturation égals, un carré rouge etun carré orange déclenchent des patterns d’activités différents pour une mêmemagnitude, mais que ces patterns sont proches et impliquent des neurones encommun (voir fig.2.9, C). Les similarités entre les patterns d’activités générés parchaque stimulation permettent de les représenter sous forme d’ensembles flous.

2.3 Traiter l’information

Cette section présente la manière dont l’information est traitée au sein d’unepopulation neuronale fonctionnelle, notée X. Lorsqu’on parlera d’une information

A

B

R

B

R+

R-

C

R

O

Fig. 2.9 – Représentations schématiques des différents patterns activés en fonction de la stimulation(les nuances de gris symbolisent la magnitude, de noir – pour activité maximale – à blanc – pourpas d’activité). La forme géométrique est représentée comme telle et la couleur est donnée au centre(R – rouge, B – bleu, O – orange, R+ R- réprésentent des rouges de saturations différentes).

Page 110: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

110 Chapitre 2. Modélisation

présente I en entrée de X, il sera sous-entendu que cette information varie aucours du temps et devrait en toute exactitude être notée I(t). Cependant, sauf encas d’ambiguïté, nous ne mentionnerons pas la dépendance au temps, et ce pourgarder les notations claires.

Le traitement effectué par une population fonctionnelle peut être très variable,d’autant plus que les populations peuvent être de tailles (et donc de complexi-tés) différentes. Néanmoins, il est possible d’isoler des aspects communs dans lamanière dont le type et la magnitude de l’information interagissent, et dans ladynamique gouvernant l’émission d’une sortie.

2.3.1 Contraintes

Les formalismes qui ont précédé ce travail, et en particulier BioCaEn, caracté-risent le traitement ayant lieu au sein d’une population en termes de fonctions detransfert. Cette manière de voir est très générale et c’est le point de vue que nousallons adopter dans la suite : des informations arrivent aux différentes entrées de lapopulation, et une fonction leur est appliquée pour générer l’information en sortie.Ceci soulève un certain nombre de points qui demandent à être détaillés :

a) Information duale. A la différence des fonctions de transfert «classiques» quimanipulent uniquement des quantités numériques, ici l’information est duale, quiplus est, avec une composante symbolique. Il faut donc déterminer de quelle ma-nière les deux composantes s’influent l’une l’autre au cours du traitement et com-ment elles influent sur la fonction de transfert.

b) Intégration des entrées. Une population fonctionnelle possède potentielle-ment de multiples entrées. Au niveau du neurone individuel, la plupart des mo-dèles de neurone considèrent que les entrées sont intégrées linéairement. Si cer-taines populations intègrent linéairement leurs entrées, dans le cas général, dans lamesure où une population peut être de nature très variable, il n’est pas raisonnablede se limiter à ce seul cas.

La manière dont la population intègre ses entrées fait partie des opérationsqui caractérisent son comportement et donc sa fonction au sein du réseau. Elle est

Page 111: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

2.3. Traiter l’information 111

donc potentiellement grandement variable d’une population à l’autre et sera peucontrainte par le formalisme.

c) Dynamique neuronale et fonction de transfert. Les magnitudes des entrées re-présentent des fréquences de décharge de populations en amont du traitement, etla magnitude en sortie représente la fréquence de décharge de cette population. Ily a des contraintes biologiques quant à la dynamique avec laquelle cette fréquenceévolue en fonction des entrées. Ces contraintes sont modélisées partiellement parles équation 1.4 et 1.5. Nous nous appuyons donc naturellement sur elles pour cal-culer la magnitude de l’information émise. Cependant, les types des informationset leur adéquation avec la sélectivité de la population modulent cette fréquence.Les équations impliquent deux étapes dans le traitement : (i) la transformation defréquences de décharge incidentes en un courant synaptique, puis (ii) la conversiondu courant synaptique en une fréquence de décharge.

Ces équations définissent aussi une fonction d’activation qui caractérise commentla population décharge en fonction du courant synaptique total. Cette fonction est,tout comme l’intégration des entrées, caractéristique de la fonction globale de lapopulation dans le réseau. Elle devra donc être peu contrainte par le formalismegénéral, pour pouvoir accommoder des populations aux fonctions variées.

d) Émission de la sortie. Le type de chaque entrée est défini sur un domainespécifique. Il en est de même pour le type de la sortie. Il y a donc nécessité depasser des domaines en entrée à un domaine de sortie qui représente les patternsd’activité potentiels de la population.

Deux approches successives ont été développées pour répondre à cescontraintes. La première, s’appuyant sur une base de règles d’inférence a per-mis de prendre en compte la sélectivité des populations, tout en permettantd’interpoler de manière continue entre les différentes valeurs du type de sortie.Des limites liées à la plausibilité biologique, ainsi qu’à un nombre trop impor-tant de paramètres, ont conduit au développement d’un second formalisme plusadapté.

Page 112: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

112 Chapitre 2. Modélisation

2.3.2 Une première approche utilisant des règles d’inférence

floues

La première solution que nous avons explorée pour prendre en compte cescontraintes s’appuie sur une base de règles d’inférence permettant de modéliser lasélectivité de la population et sur une décomposition de la population fonctionnelleen plusieurs sous-populations chargées de la réception de l’information entranteet de l’émission de la sortie (Erny et coll. 2006c;a).

2.3.2.1 Décomposition de la population

Une population fonctionnelle se découpe en autant de sous-populations ré-ceptrices qu’il y a d’entrées. D’un point de vue biologique, ces sous-populationsreprésentent les neurones recevant directement l’influx provenant des faisceauxd’axones correspondant à ces entrées. Aux populations réceptrices s’ajoute unesous-population émettrice regroupant les neurones qui déchargent vers l’extérieurde la population. Au sein des sous-populations réceptrices se trouvent des pat-terns récepteurs (PR) qui s’activent pour un certain type d’information incidente.Ces patterns récepteurs sont reliés à des patterns émetteurs (PE) qui représententles configurations spatiales des neurones déchargeant. Les relations entre les PR etPE sont modélisées par des règles d’inférence qui les lient en tant que prémisses etconclusion (voir figure 2.10). Notons qu’il existe une règle d’inférence par valeurpossible du type de sortie.

2.3.2.2 Activation des patterns et principe d’inférence

Comme présenté précédemment, à chaque pattern est associé un ensemble flou.Lorsqu’une information se présente, pour chaque PR, la compatibilité entre le typede l’information et celui-ci est calculée au moyen de l’équation 2.1. En fonctionde cette compatibilité et de la magnitude de l’entrée, une activation du patternest calculée. Lorsqu’elle dépasse un certain seuil, le pattern est considéré commedéchargeant. Cette activation est dynamique, c’est-à-dire qu’elle dépend de l’infor-mation entrante mais aussi de l’activation au temps précédent. Lorsque tous les PRassociés à une règle déchargent, la règle est considérée comme active et l’activationdu PE correspondant est calculée en fonction de l’activation de ses PR. La manière

Page 113: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

2.3. Traiter l’information 113

Fig. 2.10 – Schéma fonctionnel illustrant la décomposition d’une population en sous-populationsréceptrices et émettrice.

dont les activations des PR est combinée pour calculer l’activation du PE est parcombinaison linéaire pondérée. Les poids de chaque PR dans cette combinaisonsont dépendants de l’entrée et non de chaque règle, c’est-à-dire que pour toutes lesrègles, les PR d’une même entrée auront le même poids. Enfin, la prise en comptedu seuil de décharge étant faite au niveau des PR, les PE ne possèdent pas de seuilde décharge, c’est-à-dire qu’ils déchargent dès qu’ils sont activés.

2.3.2.3 Formalisation

Soit un nœud fonctionnel X à n entrées. Une information propagée est uncouple (M, T) où M est la magnitude de l’information et T, son type. La magnitudeM est un réel positif et le type T est un ensemble flou défini sur un domaine DT

discret. On note (Mini , Tin

i ) l’information arrivant sur l’attribut i et (Mout, Tout) l’in-formation émise par le nœud. Pour alléger les notations, le domaine de définitionde Tin

i est noté Di et celui de Tout, Dout.

Soit la base de règles d’inférence BR = {Ri}i∈[1,p]. On note PRji l’ensemble

flou modélisant le pattern récepteur correspondant à l’attribut i pour la règle Rj, etPEj l’ensemble flou modélisant le pattern émetteur correspondant à la conclusion

Page 114: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

114 Chapitre 2. Modélisation

de la règle Rj. On note aussi naji (resp. saj

i) le niveau d’activation (resp. le seuild’activation) du pattern récepteur PRj

i . decji est le niveau de déclenchement, c’est-

à-dire la marge de dépassement du seuil, pour le pattern PRji , et qui est égal à

max(0, naji − saj

i). Enfin, decj est le niveau d’activation (et donc de déclenchement)du pattern émetteur PEj et on suppose que decj(t) = f j(decj

1(t− 1), · · · , decjn(t−

1)).

Activation en réception. A chaque pas de temps, pour chaque règle Rj et pourchaque attribut i, le degré de compatibilité cij de Tin

i est calculé, avec PRji (cf.

équation 2.1). Cela permet de mettre à jour le niveau d’activation à l’instant t :

naji(t) = relax(1)

X .naji(t− 1) + k. fact(cj

i , Mi(t)). fre f ract(decji(t− 1)) (2.2)

où,– fact est croissante, définie de [0, 1]× [0, 1] dans [0, 1], et elle permet de modu-

ler l’activation en fonction de la magnitude. En effet, lorsque la magnitudeest trop faible, même si l’information est bien reconnue par la règle, elle amoins d’impact. Pour manipuler de manière transparente la magnitude dansle modèle, quelque soit la nature de l’information (la magnitude peut en effetprendre des valeurs très diverses), une magnitude normalisée M = fnorm(M)est utilisée, où fnorm est une fonction définie sur les réels dans [0, 1] et quidépend de la nature de l’information qualifiée par la magnitude M. En clair,il peut y avoir une fonction normalisatrice différente par attribut. Pour ne passystématiquement réduire l’activation, même lorsque la magnitude (norma-lisée) est proche de 1, la réduction devrait être sensible à partir d’un certainseuil. Nous proposons la fonction suivante qui utilise une sigmoïde commefonction seuil, mais d’autres sont possibles :

fact =cj

i

1 + e−a(Mi−b)(2.3)

– fre f ract est une fonction définie sur [0, 1] à valeurs dans [0, 1] et décroissante,qui modélise la période de réfraction du pattern. Il s’agit d’un mécanismeneuronal qui empêche un neurone qui a déchargé de s’activer pendant uncertain laps de temps. Il est transposé à l’échelle du pattern neuronal. Parexemple, une réfraction linéaire ( fre f rac(dec) = 1− dec) est possible, ou encore,

Page 115: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

2.3. Traiter l’information 115

une sigmoïde décroissante. Elle doit répondre néanmoins aux contraintes sui-vantes : fre f rac(0) = 1 et fre f rac(1) = 0.

– relax(1)X est appelé paramètre de relaxation et modélise à quel point le pattern

intègre temporellement. C’est un réel appartenant à [0, 1]. Si sa valeur est0, il n’y aucune intégration temporelle alors que s’il est égal à 1, le niveaud’activation ne pourra que progresser sans redescendre jusqu’à atteindre sonmaximum.

Activation en émission. Il s’agit ensuite de calculer decj pour chaque règle Rj,et il faut donc caractériser f j. En premier lieu, les populations émettrices intègrenttemporellement l’information. Cela se traduit par une mise à jour incrémentalesimilaire à l’activation en réception :

decj(t) = relax(2)X .decj(t− 1) + val(decj

1(t− 1), · · · , decjn(t− 1)) (2.4)

où val traduit la nature des connexions neuronales qui existent entre les patternsrécepteurs et le pattern émetteur, liés par la règle Rj. En l’absence d’information surces connexions, des hypothèses de modélisation sont faites. En premier lieu, val estsupposée linéaire en fonction de chacune de ses variables (il s’agit d’une extrapo-lation à partir du comportement des neurones qui font une intégration pondéréede leurs entrées) :

decj(t) = relax(2)X .decj(t− 1) +

n

∑i=1

µji .decj

i(t− 1) (2.5)

Donc il reste n.p paramètres à évaluer (les µji). D’où la deuxième hypothèse : une

fonction de combinaison dépend du nœud et non d’une règle. Nous considéronsen effet que la contribution d’un PR à l’activation d’un PE dépend uniquementde l’entrée à laquelle il appartient, et non de la relation entre ce PR particulieret le PE. Cette hypothèse est bien plus forte que la première mais il s’agit d’unesimplification nécessaire pour rendre la modélisation sous cette forme possible (entermes de paramètres à évaluer). Formellement, cela se traduit par ∀j ∈ [1, p], µ

ji =

µi. Il reste donc n nouveaux paramètres à déterminer qui correspondent aux poidsdes attributs dans la combinaison. Ces paramètres dépendent du nœud et de lanature de celui-ci. Ils seront déterminés par des essais successifs en vue d’obtenirla simulation la plus proche possible de la réalité.

Page 116: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

116 Chapitre 2. Modélisation

Combinaison des émissions. Si une seule règle est déclenchée, il n’y a rien àfaire : Tout = PEk, où k est l’indice de la règle active. En revanche, lorsque plu-sieurs règles Rk1 , · · · , Rkq sont déclenchées simultanément, il y a concurrence entreles réponses possibles. Il faut donc déterminer quel pattern émetteur remporte leconflit. L’idée est que les activations se cumulent. En effet, chaque règle contribueprincipalement à l’émission d’une valeur du type (celle qui lui est associée), maispar similarité, elle contribue aussi partiellement à l’activation des patterns proches.Il est donc possible de calculer, pour toutes les valeurs possibles du type de sortieC ∈ Dk1 ∪ · · · ∪Dkq , le niveau d’activation de C en sommant les activations prove-nant des règles activées. Formellement, cela se traduit de la manière suivante : siregle(C) désigne la règle associée à la valeur de sortie C, alors :

decregle(C) = ∑i∈{k1,··· ,kq}

PEi(C).deci (2.6)

Une fois les niveaux d’activation calculés, deux situations sont possibles : soit unseul pattern est plus activé que tous les autres, et dans ce cas, la réponse est trou-vée : si Cmax est le pattern le plus activé, Tout = PEregle(Cmax). Soit il y a plusieurspatterns également activés qui dominent les autres. Cette dernière situation bienque très peu probable est théoriquement possible. Dans ce cas, c’est un véritableconflit et aucun pattern émetteur ne décharge. Au pas de temps suivant, le nœudse sera modifié et le conflit sera probablement résolu.

Calcul de la magnitude de sortie. La magnitude de sortie dépend de deux fac-teurs. D’une part, elle dépend de la nature du nœud lui-même qui effectue untraitement particulier en fonction de son rôle dans le réseau fonctionnel, et d’autrepart elle dépend du niveau de reconnaissance de l’information en entrée, c’est-à-dire du niveau de déclenchement du pattern émetteur déchargeant. Formellement,

Mout(t) = f (1)X (decmax(t)). f (2)

X (Min(t− 1), u) (2.7)

où Min(t− 1) est la moyenne sur l’ensemble des attributs des magnitudes en en-trée à l’instant t− 1, u est une variable aléatoire modélisant le bruit et les donnéesnon-modélisées, et decmax le taux d’activation du pattern émetteur déchargeant ensortie à l’instant t. La fonction f (1) est définie de [0, 1] dans [0, 1], et est croissante.Elle permet d’exprimer l’idée que moins un type est reconnu, moins la magnitudede l’information émise est grande. Là encore, la notion de seuil critique peut inter-

Page 117: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

2.3. Traiter l’information 117

venir, faisant de la sigmoïde un bon candidat pour f (1). f (2) est définie sur les réelset peut être linéaire ou non-linéaire.

2.3.2.4 Critique de ce premier formalisme.

Cette première tentative de formalisation souffre d’un certain nombre de pro-blèmes. En premier lieu, il ne satisfait pas la contrainte b) (cf. section 2.3.1) quidit qu’il faut éviter de forcer les entrées à être intégrées de manière linéaire, cequi est pourtant le cas ici. Ensuite, le traitement très séparé de la magnitude etdu type est assez gênant dans la mesure où ces deux quantités sont fortementliées. L’introduction de l’équation 2.7 est en fait liée à la première critique puisquele traitement uniquement linéaire sur les entrées contraint à devoir introduire untraitement, non-linéaire celui-ci, pour prendre en compte la grande variété de com-portements possibles des nœuds fonctionnels. La prise en compte de la dynamiquen’est pas non plus satisfaisante, et ce, pour deux raisons. Les équations 2.2 et 2.5,obtenues de manière empirique, ne sont finalement pas très éloignées de versionsdiscrètes de l’équation de fréquence de décharge 1.5 et gagneraient probablementà être modifiée pour y correspondre tout à fait, gagnant de la sorte en plausibilitébiologique. Un autre problème, qui n’est pas listé dans les contraintes mais quis’avère important, réside dans la manière dont le type de sortie est calculé. Que cesoit dans la modélisation des processus de catégorisation inspirés de la biologie,comme les cartes de Kohonen (Kohonen 1982), où dans les observations expéri-mentales de populations de neurones (Gierer et Meinhardt 1974), la compétitioninduite par les inhibitions latérales est un aspect important. Or, dans ce modèle,il n’y aucune inhibition latérale entre les différentes valeurs du type de sortie, cequi induit une quantité d’activation incompatible avec les observations expérimen-tales. La dernière critique est plus d’ordre général quant à la décomposition ensous-populations. Cette décomposition résulte de l’hypothèse faite que des infor-mations différentes vont être traitées par des sous-populations différentes. Il est,dès lors, légitime de se demander pourquoi un tel nœud fonctionnel ne serait pasdécomposé en des populations fonctionnelles plus simples, avec chacune un en-semble de patterns associés qui détermine sa sélectivité. Les relations entre cespopulations deviendraient des paramètres de connexion entre ces nœuds.

En revanche, l’association de pattern d’information en entrée à un pattern desortie est un aspect fondamental du modèle sur lequel repose toute la notion desélectivité d’une population. Il faut aussi noter le grand intérêt de cette représenta-

Page 118: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

118 Chapitre 2. Modélisation

tion par règles floues, qui ressemble à un SFC de type Mamdani avec entrées floues(dans la mesure où les règles ont des parties conditions et conclusions floues), oùles valeurs des entrées permettent d’obtenir la valeur de sortie par une interpola-tion entre différentes valeurs typiques. C’est là un apport majeur par rapport auxformalismes dont nous nous sommes inspirés (RAGE en particulier) qui sont in-capables d’interpoler entre les différents prototypes de sortie, faute de prendre encompte les relations entre eux, comme nous le faisons avec les similarités.

C’est donc avec l’objectif de conserver cette avancée que nous avons entreprisde redéfinir un formalisme plus adapté à nos contraintes. Au travers d’évolutionssuccessives (Erny et coll. 2006b; 2007), le nouveau formalisme s’appuie, non plussur une base de règles, mais sur une base de prototypes, chacun associé à unevaleur unique du type de sortie. La décomposition en sous-populations a aussi étéabandonnée.

2.3.3 Un nouveau point de départ : propagation des fréquences de

décharge

Les équations de traitement de l’information présentées dans le reste de le sec-tion sont dérivées des équations de propagation des fréquences de décharge 1.4 et1.5, introduites à la section 1.2.3.5. Elles sont rappelées ici :

τsdSdt

= −S + w · u (2.8)

τrdrdt

= −r + F(S(t)) (2.9)

où S est le courant synaptique total entrant dans la population et τs caractérise lavitesse avec laquelle il atteint un état stationnaire après une fluctuation des cou-rants extérieurs u (la notation en caractère gras indiquant qu’il s’agit d’un vecteur).w dénote le vecteur des poids accordés à chacun des courants en entrée. r est lafréquence de décharge, qui atteint un état stationnaire en τr suite à une fluctuationde S. F est la fonction d’activation qui caractérise la réaction de la population à uncourant en entrée.

Le reste de la section considère chacun des termes de ces équations et lesadapte aux contraintes de ce modèle. En particulier, de manière analogue au tra-

Page 119: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

2.3. Traiter l’information 119

vail de Ben-Yishai et collaborateurs (1995), la sélectivité des populations est priseen compte en modifiant le terme w · u pour définir ce qui sera appelée la fonctiond’agrégation (voir section 2.3.4). La seconde équation sera modifiée pour prendre encompte le caractère stochastique de la décharge neuronale (voir section 2.3.6).

2.3.4 La sélectivité d’une population

2.3.4.1 Prototypes

Deux stimuli de même type mais de magnitudes différentes entraînent deuxactivations de même type mais de magnitudes différentes. L’inverse n’est en re-vanche vrai que si les deux types sont également reconnus par la population.Déjà à l’échelle du neurone individuel, la fréquence de décharge dépend aussibien de l’intensité de la stimulation que du type de la stimulation (courbe de sé-lectivité). Si un type de stimulation n’est pas reconnu par la population, elle nes’activera pas ou peu. Cela implique un mécanisme qui permet d’associer à cer-tains types d’informations en entrée, des patterns d’activité spécifiques en sortie.Ainsi, au même titre qu’un neurone est sélectif à certaines valeurs de ses entrées,la population sera sélective à certains types. Ces types reconnus par la populationsont appelés prototypes. De plus, à chaque prototype est associé un pattern d’acti-vité qui représente l’activation de la population lorsque le prototype est reconnuen entrée. Cette association répond à la contrainte d) concernant le type de l’infor-mation émise en sortie puisqu’elle permet de coupler des domaines d’entrées (lesprototypes) à un domaine de sortie (les patterns d’activité en sortie). Le mécanismede la sélectivité est ensuite assez simple : on compare le type de l’information enentrée aux différents prototypes au moyen de l’équation 2.1, et cette compatibilitéest utilisée ensuite pour calculer l’activation du pattern associé à chaque proto-type au moyen des équations 2.8 et 2.9. Notons enfin que, comme la populationpeut avoir plusieurs entrées, un prototype prend en compte nécessairement toutesles entrées, c’est-à-dire que pour une population possédant n entrées, le prototypesera un vecteur d’ensembles flous de dimension n, chaque composante du vecteurétant reliée à une entrée et une seule. Plus formellemenent, un prototype P d’unepopulation X, ayant n entrées E1, E2, . . . , En, est le vecteur (P(1), P(2), . . . , P(n)), oùchaque composante P(i) représente le type reconnu par ce prototype pour l’entréeEi. P(i) est défini sur le même domaine de définition Di que le type Ti de Ei. Parcontre, à la différence de Ti qui représente un pattern unique, P(i) peut représen-

Page 120: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

120 Chapitre 2. Modélisation

ter plusieurs types à la fois, voire une plage de valeurs du type, tout comme unneurone seul peut être sélectif à plusieurs valeurs de ses entrées. A ce titre, les en-sembles flous (P(1), P(2), . . . , P(n)) ne sont pas soumis à la même contrainte d’avoirun noyau réduit à un singleton. De fait, ces ensembles correspondent à une dis-jonction pondérée des entrées correspondant à ce prototype et donc ne remettentpas en cause la consistance de la similarité évaluée en amont de la population.En revanche, l’hypothèse de non redondance du recouvrement s’applique aux en-sembles flous associés à ces prototypes et qui représentent les relations entre lesdifférentes valeurs possibles du type de sortie.

2.3.4.2 Intégration des entrées

La multiplicité des entrées a aussi pour conséquence que la similarité entre lesentrées et le prototype va impliquer une forme de combinaison. Au même titreque dans l’équation 2.8, les entrées sont combinées (avec leur poids associé), aumoyen d’un produit scalaire. Nous avons aussi évoqué en section 1.2.3.5, p.39,les travaux de Ben-Yishai et collaborateurs (1995) dans lesquels la sélectivité desneurones est utilisée pour modifier les poids des entrées dans l’équation 2.8. Lasolution adoptée est inspirée de cette approche puisque la combinaison pour unprototype P implique le vecteur des magnitudes incidentes, noté m (qui corres-pond au vecteur u dans l’eq.2.8), et le vecteur c = ci∈[1,...,n] des similarités entreles entrées et le prototype : ∀i ∈ [1, . . . , n], ci = c(Ti, P(i)). En revanche, commeprécisé dans la deuxième contrainte sur l’intégration des entrées, la combinaisonn’est pas nécessairement linéaire et est effectuée par une fonction d’agrégation, notéeG. Elle permet la conversion des fréquences de décharge incidentes en courantssynaptiques pour chaque prototype de la population. Elle caractérise en partie lafonction de la population et fait donc partie des points critiques à déterminer lorsde la construction d’un modèle. La conversion de fréquences en courants imposecomme contrainte sur G d’être à valeurs réelles relatives car à la différence desfréquences de décharge, les courants peuvent être négatifs. Suivent deux exemplesd’agrégation d’entrées.

Page 121: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

2.3. Traiter l’information 121

Agrégation «disjonctive». Une première manière de combiner les entrées est li-néaire et est exactement le pendant du produit scalaire de l’équation 2.8.

G(m, c) = ∑i∈[1,...,n]

mi.ci (2.10)

Nous appelons cette agrégation disjonctive car il suffit qu’une des entrées soit re-connue et ait une magnitude non nulle pour que la valeur de la combinaison aug-mente, et plus il y a d’entrées reconnues, plus elle augmentera. Une telle combi-naison est utile pour fusionner des entrées transportant des informations de mêmenature mais provenant de sources différentes (de différentes modalités sensoriellespar exemple) : une seule source peut générer une activité mais si plusieurs sourcesconcordent, l’activité en sera augmentée. Notons aussi que sous cette forme, lamême importance est accordée à chacune des entrées dans la combinaison. L’ap-pellation «disjonctive» dans un contexte d’ensembles flous peut légitimement fairepenser à une combinaison utilisant l’opérateur max. Dans cette situation, si on peuttout à fait envisager ce type d’agrégation, une forme plus «numérique» lui a étépréférée de manière à obtenir des activations qui soient plus continues, et non sac-cadées comme cela aurait été le cas avec un max. Le max ne sélectionne, de plus,que la plus grande entrée, négligeant l’aspect d’accumulation des entrées qui estdésiré en général.

Agrégation «conjonctive». Une seconde manière de combiner est la suivante :

G(m, c) = mini∈[1,...,n]

(mi.ci) (2.11)

Une telle combinaison interviendra pour une population réalisant, par exemple,une détection de coïncidences, tâche pour laquelle la cooccurrence des informa-tions (évaluée par ce type de combinaison) est primordiale.

Comme pour l’agrégation disjonctive, toutes les entrées ont la même impor-tance. En revanche, les deux formes de combinaisons peuvent être aisément modi-fiées pour faire intervenir des pondérations des entrées, attribuant plus de poids àcertaines entrées par rapport aux autres.

Page 122: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

122 Chapitre 2. Modélisation

2.3.5 Activation synaptique

Le calcul de l’activation synaptique des différents prototypes est fourni par lafonction d’agrégation décrite précédemment, mais la mise à jour de cette activiténe suit pas instantanément un changement des entrées. Il obéit à une dynamiqueimposée par la capacité des synapses à prendre en compte les entrées. Cette dy-namique a été modélisée par Wilson et Cowan (1972), puis par Amit et Tsodyks(1991a;b) et Abbott (1994) et est donnée par l’équation 2.8. Elle est ici modifiéepour prendre en compte la sélectivité de la population. L’activation synaptique Sd’un prototype P en réponse aux entrées E de magnitudes m et dont la similaritédes types T avec P est donnée par c, est fournie par :

τsdSdt

= −S + G(m, c) (2.12)

où τs est la constante de temps synaptique (commune à tous les prototypes), et fagr

la fonction d’agrégation décrite précédemment. Après l’intégration «spatiale» desdifférentes entrées, il y a donc une intégration «temporelle» du nouveau courantsynaptique avec celui de l’instant précédent. En fonction de la constante de tempsτs, l’intégration se fait sur une fenêtre temporelle plus ou moins grande. L’équationagit comme un filtre passe-bas, rendant l’activation insensible aux fluctuations ra-pides des entrées. Plus τs est importante, plus les fluctuations seront absorbées. Cecomportement est tout à fait désirable pour filtrer le bruit inhérent à toute activa-tion neuronale, mais, en contrepartie, il rend aussi la population moins réactive faceà une mise à jour rapide des entrées. Il y a donc un compromis à trouver. Il est inté-ressant de noter qu’on peut observer ces deux types de comportements dans le cer-veau. Dans le cortex préfrontal, par exemple, O’Reilly (2006) décrit des populationsqui maintiennent des représentations de manière stable, en restant largement in-sensibles aux stimulations extérieures (mémoire de travail) et d’autres qui changentrapidement en fonction des entrées (adaptabilité). τs est à mettre en rapport avecla constante de temps gouvernant la dynamique des synapses physiologiques. Ce-pendant, les synapses n’ont pas nécessairement les mêmes dynamiques, celles-cidépendant des neurotransmetteurs qu’elles expriment. La constante τs sera doncà évaluer en fonction de la nature des entrées (excitatrices, inhibitrices, etc.). Unevaleur typique pour une connexion excitatrice dans un réseau «classique» utilisantles équations 2.8 et 2.9 est autour de 10 ms.

Page 123: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

2.3. Traiter l’information 123

2.3.5.1 Exemple

Reprenons l’exemple des formes de couleur. La population reçoit les entrée E f

et Ec, dont les types et magnitudes sont notés respectivement m f ,Tf et mc,Tc. Lapopulation possède quatre prototypes : Pcr qui reconnaît les types carré et rouge, Pcb

qui reconnaît les types carré et bleu, Ptr qui reconnaît les types triangle et rouge, etPtb qui reconnaît les types triangle et bleu. Les deux composantes du prototype Pcr

sont illustrées en exemple figure 2.11.

La fonction d’agrégation de la population est l’agrégation disjonctive (voireq.2.10), et sa fonction d’activation est l’approximation linéaire par morceaux d’unesigmoïde, de pente égale à 1 et de centre de symétrie égale à 0.5. Les constantes detemps sont prises égales à 10 ms pour τs et 30 ms pour τr. La force des inhibitionslatérales kinh est prise égale à 1.

À l’instant t0, les entrées ont comme valeurs m f = 1, mc = 0.8, Tf ={(rectangle, 1); (carre, 0.7)}, Tc = {(rouge, 1)} (la représentation «à plat» des en-sembles flous indique juste après un symbole son degré d’appartenance à l’en-semble, voir fig.2.11 pour une représentation plus classique). Les activations desprototypes sont nulles au départ. Pour le calcul numérique des équations différen-tielles, on suppose un pas de temps dt = 1 ms. Le vecteur des similarités entre lesentrées et le prototype Pcr est (0.7, 1). L’application de l’équation 2.10 lui donnedonc une activation à l’état stationnaire qui est égale à 0.75 ((1 ∗ 0.7 + 0.8 ∗ 1)/2).La courbe 2.12 trace l’évolution de l’activation synaptique des quatre prototypesen fonction du temps telle que donnée par l’équation 2.12 si la stimulation resteconstante.

2.3.6 Activation neuronale

Une fois calculées les activations synaptiques des différents prototypes, il fautcalculer leur fréquence de décharge. Là encore, elle se fait en deux temps : unefonction de transfert, dite d’activation, donne la fréquence de décharge en fonctionde l’intensité du courant synaptique, mais cette fréquence n’est pas atteinte instan-tanément, elle obéit à une dynamique similaire à l’activation synaptique et qui estdonnée par l’équation 2.9.

Page 124: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

124 Chapitre 2. Modélisation

0carre

1

P(1)cr

0rouge

1

P(2)cr

0carre rectangle

0.7

1

Tf

0rouge

1

Tc

Fig. 2.11 – Représentation des types en entrée d’une population décodant des formes de couleur. Tfest le type de l’entrée correspondant à l’attribut «forme», et Tc celui de l’entrée «couleur».

0 20 40 60 80 100 120 140 160 180 200!0.1

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

N1

Temps (ms)

Activ

atio

n

carre!bleucarre!rougetriangle!bleutriangle!rouge

Fig. 2.12 – Évolution de l’activation synaptique des prototypes en réponse à la présentation d’unrectangle rouge

Page 125: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

2.3. Traiter l’information 125

2.3.6.1 Fonction de transfert

Cette fonction caractérise la réponse, en fréquence de décharge de la popu-lation, à une intensité de courant synaptique variable. Tout comme la fonctiond’agrégation, la fonction d’activation, notée F, caractérise en partie le rôle fonction-nel de la population considérée. Néanmoins, parce qu’elle modélise l’activationneuronale, il y a un certain nombre de remarques qui peuvent être faites. En pre-mier lieu, la fonction doit être bornée : les neurones ne déchargent pas avec unefréquence arbitrairement grande, mais ils atteignent un état de saturation. Dans lamesure où la définition de la magnitude n’impose pas qu’elle soit bornée, elle doitêtre maintenue «sous contrôle» par les mécanismes de traitement de l’information.Deuxièmement, la fonction est généralement seuillée : cela a d’autant plus de sensque l’activation synaptique dépend de la sélectivité de la population, et qu’il estnormal que la population ne décharge pas si l’information en entrée n’est pas suf-fisamment reconnue. Ce n’est cependant pas obligatoire. On observe, par exemple,des populations qui déchargent régulièrement même en l’absence de stimulation,mais qui, lorsqu’une stimulation survient, voient leur activité spontanée inhibée.Un grand nombre de comportements sont possibles, et c’est pour cela que les fonc-tions d’agrégation et d’activation sont peu contraintes : la généralité du modèle està ce prix. Néanmoins, dans la plupart des cas et avec un bon choix de la fonctiond’agrégation, il est possible de se ramener à la fonction d’activation classiquementutilisée pour les équations 2.8 et 2.9, à savoir une fonction de type sigmoïde (ouson approximation linéaire par morceaux).

2.3.6.2 Dynamique

La fréquence de décharge r d’un prototype P en réponse à un courant synap-tique S est donnée par :

τrdrdt

= −r + F(S(t)) + knoise.ξ(t) (2.13)

Il ne s’agit que de la transcription de l’équation 1.5 dans les notations introduitesprécédemment, à laquelle s’ajoute un terme de bruit gaussien additif, de moyennenulle et d’écart type égal à knoise. Ce terme modélise le caractère stochastique del’activation neuronale. τr, paramètre de la population, caractérise la vitesse à la-quelle la fréquence de décharge s’adapte à un changement de l’activation synap-

Page 126: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

126 Chapitre 2. Modélisation

tique. Cette constante est moins facilement comparable à une valeur expérimen-tale que la constante τs. En effet, en raison de la manière dont ces équations sontdérivées, τr ne peut pas être directement reliée à la constante de membrane desneurones qui caractérise en partie la dynamique de la fréquence de décharge desneurones biologiques. Cependant, son ordre de grandeur est de quelques dizainesde milli-secondes.

2.3.6.3 Exemple

En revenant à l’exemple des formes de couleur, si la fonction d’activation estl’approximation linéaire par morceaux d’une sigmoïde, de pente égale à 1 et decentre de symétrie égale à 0.5, et si τr = 30 ms, alors l’application de la fonctiond’activation à Scr puis de l’équation 2.13 donne la courbe d’évolution de la fré-quence de décharge rcr au cours du temps (voir fig.2.13). Le bruit a été négligépour cet exemple (knoise = 0) pour mieux illustrer la dynamique des différentesquantités, mais des simulations plus complexes incorporant du bruit sont présen-tées plus loin.

2.3.7 Génération de la sortie

2.3.7.1 Compétition

Une fois les fréquences de décharge calculées pour chaque prototype, il fautconstruire l’information en sortie. Tous les prototypes activés (ou plus exactementles patterns associés aux prototypes) représentent des interprétations, ou des clas-sifications, différentes des entrées par la population. De manière similaire à ce quiest fait dans les modèles neuronaux effectuant de la classification et de la caté-gorisation (voir les cartes de Kohonen, cf. section 1.3.3, p.62), ces interprétationssont en compétition. Plus exactement, les prototypes sont en relation inhibitriceles uns avec les autres. Ces inhibitions latérales amplifient les différences d’activa-tion en faveur du pattern le plus activé. Si elles sont suffisamment fortes, il seproduit le phénomène de winner-takes-all : seul le pattern le plus activé reste activé,les autres voyant leur activation ramenée à 0. En revanche, des inhibitions laté-rales faibles laisseront plusieurs patterns activés simultanément, qui participerontcollectivement à l’information en sortie. Les deux comportements ont des inté-

Page 127: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

2.3. Traiter l’information 127

0 20 40 60 80 100 120 140 160 180 200!0.1

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

N1

Temps (ms)

Activ

atio

n

carre!bleucarre!rougetriangle!bleutriangle!rouge

Fig. 2.13 – Évolution de l’activation synaptique des prototypes en réponse à la présentation d’unrectangle rouge, sans inhibitions latérales.

rêts fonctionnels différents : une compétition de type winner-takes-all force le choixd’un pattern et un seul, même en cas d’ambiguïté, auquel cas, la choix du patternle plus activé sera dicté par le bruit dans le système. Cependant ce comportementn’est pas toujours souhaitable. Ainsi, pour construire une population servant demémoire à court terme, on veut pouvoir activer plusieurs patterns simultanémentqui représenteront les informations ayant circulé récemment par celle-ci (voir 3.2pour un exemple). L’importance des inhibitions latérales est discutée plus en détailen section 2.5.1.3. La compétition se traduit formellement par un autre terme dansl’équation 2.13. Soit {Pj}j∈[1,...,p] la liste de prototypes de la population X. Soit{rj}j∈[1,...,p] leurs activations neuronales telles que calculées par l’équation 2.13.Après compétition, pour tout j, rj est mis à jour comme suit :

τrdrj

dt= kinh. ∑

i∈[1,...,m], i 6=j−ri(t) (2.14)

En pratique, la fréquence ne pouvant pas devenir négative, on prend le maximumentre 0 et la valeur de rj ainsi mise à jour. kinh caractérise la force des inhibitionslatérales au sein de cette population.

Page 128: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

128 Chapitre 2. Modélisation

2.3.7.2 Exemple

Le tracé des courbes de la figure 2.13 présuppose en fait que les inhibitionslatérales sont nulles. Avec une valeur de kinh égale à 1, seul Pcr reste activé à terme(voir fig.2.14), l’activité des autres prototypes étant maintenue à 0.

2.3.7.3 Construction du type de sortie

Le type de sortie Tout est défini sur le domaine de définition Dout créé par lespatterns associés aux prototypes. La magnitude de sortie mout est égale à l’activationrmax du pattern le plus activé après compétition. C’est aussi le type Tmax associé àce pattern qui sera à la base de Tout. Par contre, les autres prototypes sont aussipris en compte, mais à hauteur de leur activation et ce, de la manière suivante :on calcule l’activation des patterns relativement à celle du pattern vainqueur endivisant leur activation par mmax, puis on fait le max de tous les ensembles flousassociés aux patterns, mais pondéré par ces magnitudes. Donc, pour les patterns{Tj}j∈[1,...,p] et les magnitudes {rj}j∈[1,...,p], associés aux prototypes {Pj}j∈[1,...,p], ona :

Tout = maxi∈[1,...,p]

(rj

rmax· Tj) (2.15)

où l’opération a · T, avec a un scalaire et T un ensemble flou, représente la multi-plication élément par élément des degrés d’appartenance des membres de T par a.Il est facile de voir que dans le cas du winner-takes-all, Tout = Tmax. La figure 2.15

illustre cette équation sur un exemple.

2.3.7.4 Exemple

Avec kinh = 1, on est dans un cas winner-takes-all et la sortie est facile à calculerpuisque le type sera (cr, 1), et la magnitude 0.7 une fois stabilisée. cr est le sym-bole du pattern associé à Pcr et le type associé est réduit à ce seul élément. A lalumière des relations existant entre carré et rectangle (qui ont été présentés commeproches en entrée), il serait possible de modifier les relations entre les patterns dela population pour prendre cette similarité en compte et ainsi pouvoir la propageraux populations suivantes.

Page 129: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

2.3. Traiter l’information 129

0 20 40 60 80 100 120 140 160 180 200!0.1

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

N1

Temps (ms)

Activ

atio

n

carre!bleucarre!rougetriangle!bleutriangle!rouge

Fig. 2.14 – Évolution de l’activation synaptique des prototypes en réponse à la présentation d’unrectangle rouge, avec inhibitions latérales.

P1

P2

P3

=⇒

Activationrelative

1

0

Fig. 2.15 – Construction du type de sortie de manière disjonctive. Trois prototypes sont représentés,P1, P2 et P3. A droite de chacun, le disque représente graphiquement l’activation relative de ceprototype. Celle-ci est obtenue en divisant l’activation de ce prototype par l’activation du prototypele plus activé. Au vu de l’échelle fournie, P1 est le prototype activé maximalement. Le type de sortieest donc construit à partir de celui-ci, mais en prenant en compte de manière conjonctive les autresprototypes, au pro-rata de leur activation relative.

Page 130: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

130 Chapitre 2. Modélisation

Cet exemple illustre une des capacités du formalisme qui est la reconnaissancepartielle. La population ne possède pas de prototype pour reconnaître un rectangle.Mais la similarité du rectangle avec le carré permet quand même de conclure etdonc de continuer le traitement.

2.4 Vue d’ensemble

Cette section fournit un résumé des différents mécanismes présentés. La figure2.16 retrace les différentes étapes du traitement de l’information au sein d’unepopulation fonctionnelle. Les équations associées à ces étapes sont rappelées dansle tableau 2.1.

Ce formalisme a été baptisé SimBa (pour SIMilarity BAsed). La section suivanteprésente les détails de son implémentation pratique et discute de la manière deconstruire des réseaux fonctionnels.

2.5 Implémentation et discussion

Le formalisme théorique présenté, cette section détaille quelques considéra-tions pratiques concernant son implémentation. La première partie de la sections’attache à l’implémentation elle-même, en précisant les méthodes de résolutionnumérique utilisées et en montrant quelques simulations. La stabilité de ces si-mulations vis à vis des différents paramètres est aussi discutée. La seconde partiediscute le modèle à la lumière des formalismes dont il s’inspire, mettant en évi-dence ses apports.

2.5.1 Implémentation pratique

Le formalisme SimBa a été implémenté sur ordinateur en C++. Cette implé-mentation est appelée SimBa++, pour rendre claire la différence entre formalismemathématique et son implémentation informatique.

Page 131: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

2.5. Implémentation et discussion 131

Compatibilité entre deux types

c(T1, T2) = supx∈D

min(T1(x), T2(x)) 2.1

Fonctions d’agrégation communes

Combinaison disjonctive : G(m, c) = ∑i∈[1,...,n]

mi.ci 2.10

Combinaison conjonctive : G(m, c) = mini∈[1,...,n]

(mi.ci) 2.11

Activation synaptique S d’un prototype P

τsdSdt

= −S + G(m, c) 2.12

Fonction d’activation classique

Sigmoïde de pente a, de centre de symétrie b et de gain c : F(S) =c

1 + e−a(S−b)

Approximation par morceaux : F(S) = max(min(c,a.c4

(S +2a− b)), 0)

(cf. figure 1.13)

Activation neuronale r d’un prototype P

τrdrdt

= −r + F(S(t)) + knoise.ξ(t) 2.13

Émission de la sortie (Tout, mout)

Compétition affectant Pj, ∀j ∈ [1, . . . , m] : τrdrj

dt= kinh. ∑

i∈[1,...,m], i 6=j−ri(t) 2.14

Combinaison : Tout = maxi∈[1,...,p]

(rj

rmax· Tj), mout = mmax 2.15

Tab. 2.1 – Résumé des équations fondamentales du modèle

Page 132: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

132 Chapitre 2. Modélisation

E1

E2

Entr

ées Activation

synaptique(chaque

prototype)

Activationneuronale(chaque

prototype)

Compétition

Générationde la sortie

Fig. 2.16 – Résumé des étapes successives du traitement de l’information par une population fonc-tionnelle. Les entrées permettent de calculer l’activation synaptique de chaque prototype. Cette ac-tivation est ensuite utilisée pour calculer la fréquence de décharge de chacun. Ces fréquences dedécharge sont modifiées suite à la compétition (inhibitions latérales) entre les prototypes, pour quefinalement l’information en sortie puisse être émise.

2.5.1.1 Résolution numérique des équations différentielles

Les différentes populations d’un réseau fonctionnel sont simulées informati-quement de manière synchrone, sur un temps échantillonné. Le traitement danschaque population implique des équations différentielles. Une méthode de résolu-tion numérique est donc nécessaire pour permettre la mise à jour des activations àchaque pas de temps. Pour l’équation 2.12, une méthode d’Euler est utilisée. Ellepermet une simulation rapide, ce qui, vu le grand nombre d’équations à simulerpour un grand réseau et la longueur des simulations (qui peuvent couvrir plusieursdizaines de minutes en temps simulé), est crucial en termes de temps de calcul. Laméthode d’Euler, cependant, génère des erreurs d’approximation vis-à-vis de lasolution réelle qui peuvent devenir importantes en s’accumulant. L’importance del’erreur étant directement proportionnelle à la finesse de l’échantillonnage, un pasde temps suffisamment petit (1 ms) permet de la conserver raisonnable. De plus,de manière plus globale, le modèle SimBa s’attache à reproduire la dynamiquede l’activation plus que des valeurs quantitatives précises, et la méthode d’Eulerdonne de bons résultats dans ce contexte. En ce qui concerne l’équation 2.13, ellefait intervenir un terme stochastique, et il faut donc utiliser une méthode de réso-lution adaptée. C’est la méthode d’Euler-Maruyama qui a été choisie : elle utilisele même principe que la méthode d’Euler, mais en prenant en compte le bruit.Formellement, soit un prototype P, d’activation synaptique S, et d’activation neu-ronale r. Les expressions permettant de calculer S(tn+1) et de r(tn+1) à partir de

Page 133: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

2.5. Implémentation et discussion 133

S(tn) et de r(tn) (tn+1 = tn + ∆t) sont données par :

S(tn+1) = S(tn) +∆tτs

(−S(tn) + G(c, m)) (2.16)

r(tn+1) = r(tn) +∆tτr

(−r(tn) + F(S(tn))) +knoise

τr.√

∆t.N (0, 1) (2.17)

où N (0, 1) dénote un échantillon aléatoire provenant d’une distribution normalede moyenne nulle et de variance égale à 1. Une description des méthodes d’Euleret d’Euler-Maruyama se trouve en annexe, avec la dérivation des expressions 2.16

et 2.17.

Une simulation est présentée dans la section suivante et servira de base à unediscussion sur la stabilité du modèle et sur l’importance des différents paramètres.

2.5.1.2 Tests et simulations

Deux simulations sont proposées dans cette section. La première complètel’exemple simple du chapitre précédent en y ajoutant le bruit et en démontrantdifférents comportements de la population en fonction des divers paramètres. Laseconde simulation montre un petit réseau composé de trois populations qui agitcomme un détecteur de début d’un stimulus.

Intégrateur couleur-forme. Cette simulation reprend la population décrite enexemple dans les sections précédentes. En plus des paramètres déjà détaillés, dubruit a été inclus en donnant au paramètre knoise une valeur de 0.1. Le stimulusest cette fois un carré rouge, avec des magnitudes de 1 pour chacun des attributs(voir fig.2.17). La durée totale de la stimulation est de 1, 5 secondes, le stimuluscommençant au bout de 500 ms et s’arrêtant au bout de 1000 ms. La figure 2.18

montre l’activation du pattern carre− rouge pour différentes valeurs de τr. Cettecomparaison fait apparaître les effets de la constante τr sur le filtrage du bruit in-troduit par l’équation 2.13. Les deux constantes de temps ont une action filtrante,mais la constante τs influe uniquement sur le filtrage des entrées, tandis que τr

influe sur le filtrage des entrées et du bruit interne à la population. Le manque deréactivité induit par une constante de temps élevée peut s’observer par le fait quele prototype n’atteint pas sa valeur d’activation maximale avant la fin du stimulus.

Page 134: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

134 Chapitre 2. Modélisation

0 500 1000 1500

0

0.2

0.4

0.6

0.8

1

N1

Temps (ms)

Activ

atio

n

carré!bleucarré!rougetriangle!bleutriangle!rouge

Fig. 2.17 – Activation des différents prototypes de l’intégrateur forme-couleur, avec knoise = 0.1. Lestimulus est un carré rouge pur, avec des magnitudes égales à 1 pour les deux attributs.

0 500 1000 1500

0

0.2

0.4

0.6

0.8

1

N1

Temps (ms)

Activ

atio

n

!r = 10

!r = 100

Fig. 2.18 – Comparaison de l’activation du prototype carre− rouge pour deux valeurs différentesde τr. Il apparaît clairement qu’un τr important permet de filtrer le bruit introduit dans l’équation2.13. En revanche, dans ce cas, une constante de temps trop importante ne permet pas au prototyped’atteindre une activation maximale avant que le stimulus ne disparaisse.

Page 135: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

2.5. Implémentation et discussion 135

Enfin, la figure 2.19 compare les résultats de la simulation en utilisant non pas laméthode d’Euler pour la résolution numérique de l’équation 2.12, mais une mé-thode plus précise, la méthode de Runge-Kutta d’ordre 2 (voir annexe). On peutvoir que les deux courbes sont indiscernables graphiquement, et un calcul plusprécis montre que l’écart moyen relatif entre les valeurs calculées est de 0, 25.10−3

pour cet exemple. D’autres tests montrent qu’il reste de l’ordre de 10−3 pour peuque l’échantillonnage du temps reste petit. Dans toutes les simulations présentéesdans ce mémoire, l’échantillonnage est constant avec ∆t = 1 ms.

Détecteur de début d’un stimulus. Pour illustrer la construction d’un réseau pluscomplexe, un autre exemple est proposé. Il s’agit de construire un réseau capablede détecter le début d’un stimulus de longue durée. Une telle capacité est indispen-sable, par exemple, pour déterminer la durée d’un événement. La solution propo-sée n’utilise pas la notion de type (c’est-à-dire que les populations ne sont pas sé-lectives et traitent uniquement la magnitude) mais il serait aisé d’étendre ce designà des populations sélectives. Le réseau s’appuie sur deux populations X1 et X2 quireçoivent le stimulus simultanément, X1 ayant une connexion inhibitrice vers X2 etla constante de temps τ

(X1)r de X1 est plus grande que celle de X2 (voir figure 2.20).

Lorsqu’un stimulus est présent, l’activation des deux populations croît, puis, avecun retard qui dépend du délai de transmission et de la différence τ

(X1)r − τ

(X2)r , la

connexion inhibitrice vers X2 rétablit l’activation au niveau de base (il faut doncpour cela que l’inhibition compense l’activation due au stimulus), alors que le sti-mulus continue. Un pic d’activité de la population X2 peut alors être interprétécomme le début d’un stimulus par une population en aval. La hauteur de ce picdépend de la différence τ

(X1)r − τ

(X2)r : plus elle est grande, plus l’activation de X1

pourra monter et donc plus le pic sera haut. Les résultats de la simulation de ceréseau sont illustrés figure 2.21. La détection est robuste si on augmente l’inten-sité du bruit, comme illustré figure 2.22. En fait, même avec des valeurs d’intensitédu bruit très importantes (knoise = 0.5 ou 0.6), la détection reste valide malgré unrapport signal sur bruit assez faible. Ceci montre que le filtrage passe-bas effectuéà toutes les étapes du traitement limite l’accumulation du bruit dans les réseaux.Cet exemple ne comprend que deux populations, mais nous verrons dans les ap-

Page 136: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

136 Chapitre 2. Modélisation

0 500 1000 1500!0.1

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

N1

Temps (ms)

Activ

atio

n

EulerRunge!Kutta 2

Fig. 2.19 – Comparaison de l’activation du prototype carre− rouge en utilisant la méthode d’Euleret de Runge-Kutta d’ordre 2. Les deux courbes sont indiscernables. Pour mieux mettre en évidenceles différences introduites par le calcul numérique, il n’y a pas de bruit dans cette simulation.

X1

X2

Fig. 2.20 – Détecteur de début de stimulus à deux populations. Les flèches représentent desconnexions excitatrices et les cercles vides des connexions inhibitrices. La population X1 a uneconstante de temps τ

(X1)r plus élevée que celle de X2, ce qui influe sur le retard de l’inhibition vers

X2.

Page 137: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

2.5. Implémentation et discussion 137

0 200 400 600 800 1000 1200 1400 1600 1800

0

0.2

0.4

0.6

0.8

1

Temps (ms)

Activ

atio

n

X1X2

Fig. 2.21 – Activation des populations X1 et X2 au cours du temps. Le stimulus est présenté aubout de 500 ms et s’arrête au bout de 1300 ms. Pour cette simulation, τ

(X1)r = 60ms, τ

(X2)r = 30ms,

τs = 10ms pour les deux populations, knoise = 0.1 et la stimulation est de magnitude 1.

200 400 600 800 1000 1200 1400 1600 1800

0

0.2

0.4

0.6

0.8

1

Temps (ms)

Activ

atio

n

X1X2

Fig. 2.22 – Même simulation qu’à la figure 2.21 mais avec knoise = 0.3. La détection reste robustemême pour des valeurs d’intensité du bruit de 0.5 ou 0.6, ce qui correspond à un rapport signalsur bruit assez faible. On peut aussi voir que la hauteur du pic marquant le début du stimulus estplus élevée car, dans cet cet exemple, τ

(X2)r = 20ms, ce qui augmente la différence des constantes de

temps par rapport à la simulation 2.21.

Page 138: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

138 Chapitre 2. Modélisation

plications du chapitre suivant des réseaux comprenant bien plus de populations etrestant stables face au bruit.

Pour conclure sur cet exemple de simulation, il est aisé de l’adapter pour qu’ildétecte aussi la fin du stimulus. Pour cela, la population X2 doit être activée passi-vement, c’est-à-dire qu’elle a une activité non nulle au repos. Lorsque le stimulusarrive, il se passe la même chose que précédemment (sauf que cette fois le pic dedébut est observé relativement à l’activité de repos de X2). En revanche, lorsque lestimulus s’arrête, l’activation qu’il entraîne dans X2 chute et X2 est inhibée en-deçàde son activité de repos par X1. Puis l’inhibition cesse et X2 retrouve son activationde base. Un pic «négatif» (par rapport à l’activité de base) marque donc la fin dustimulus. Pour obtenir une activation de base, il est possible de jouer sur la fonc-tion G ou F. La figure 2.23 illustre le cas où c’est la fonction G qui est modifiéepour fournir une activité non nulle au repos.

2.5.1.3 Stabilité vis-à-vis des paramètres

Comme pour toute simulation numérique s’appuyant sur un modèle complexe,il y a un certain nombre de paramètres qui doivent être évalués pour obtenir lesrésultats attendus. Certains auront une importance particulière car une valeur in-correcte pourra entraîner des résultats de simulation entièrement faux. Un modèlerobuste se caractérise en particulier par une certaine tolérance vis-à-vis des pa-ramètres numériques, lui permettant de fournir des résultats exploitables mêmelorsque les paramètres sont mal choisis (mais qu’ils restent dans une fourchetteraisonnable). SimBa, en particulier, n’est pas doté d’un mécanisme d’évaluationautomatique des paramètres et le choix des paramètres est laissé libre. Pour cer-tains d’entre eux, cependant, il est possible de contraindre leurs valeurs possiblespar des considérations sur leur nature biologique éventuelle. C’est ce que nousallons voir dans cette section.

Les constantes de temps. Les deux équations différentielles 2.12 et 2.13 font inter-venir des constantes de temps qui sont des paramètres liés à une population. En cequi concerne la première équation, τs peut être reliée à la dynamique des synapsesde la population considérée. Si la population est particulièrement homogène, ellepeut être établie à partir de mesures expérimentales. Selon la nature des neurones,

Page 139: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

2.5. Implémentation et discussion 139

0 200 400 600 800 1000 1200 1400 1600 1800

0

0.2

0.4

0.6

0.8

1

Temps (ms)

Activ

atio

n

X1X2

Fig. 2.23 – Détecteur de début et de fin d’un stimulus. La population X2 a un niveau d’activationau repos non nul par le biais de la fonction d’agrégation G (knoise = 0.1).

elle peut aller de quelques millisecondes pour des récepteurs glutamatergiquesde type AMPA à plus d’une dizaine de millisecondes pour un récepteur GABAB,mais reste en général faible. Si la population est moins homogène, une mesure ex-périmentale n’est plus possible, mais la nature des connexions incidentes permetune évaluation grossière de τs. Les simulations montrent que les modèles sont engénéral peu sensibles à de légères variations de τs.

En ce qui concerne τr, il y a moins de contraintes. En effet, en raison de la ma-nière dont l’équation 2.13 est construite (voir annexe), il semblerait qu’elle puisseêtre reliée à la constante de temps de la membrane neuronale dont la valeur s’éche-lonne typiquement de 10 ms à 100 ms. Cependant, la constante de membrane serapporte à la dynamique du potentiel électrique de la membrane neuronale etpas à la fréquence de décharge proprement dite, qui obéit à une autre dynamique.L’ordre de grandeur reste néanmoins le même (quelques dizaines de millisecondes)ce qui permet quand même de contraindre τr. Une valeur plus précise sera dictéepar le rôle de la population et par les neurones qui la composent. En effet, commeil est possible de l’observer figure 2.18, la constante influe sur la réactivité de lapopulation aux changements dans ses entrées. Plus elle est élevée, moins la popu-lation réagira vite aux changements, mais moins elle sera sensible au bruit. Il s’agitdonc d’un équilibre à trouver. Les simulations effectuées montrent qu’une fois lecomportement recherché obtenu pour une certaine valeur de τr, cette valeur peutvarier d’une dizaine de millisecondes sans changer fondamentalement le compor-

Page 140: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

140 Chapitre 2. Modélisation

tement du système. De manière générale, un réseau qui s’appuierait sur un réglagetrès précis des constantes de temps est probablement à éviter, et ce, en raison (i) ducaractère qualitatif général de la simulation qui est peu compatible avec un réglagefin et sensible des paramètres numériques, et (ii) du lien faible des constantes detemps du modèle avec des grandeurs mesurables expérimentalement, ce qui peutentraîner des écarts entre la réalité biologique et sa simulation.

Les inhibitions latérales. La force des inhibitions latérales est un autre paramètreimportant d’une population fonctionnelle. En fonction de sa valeur, la populationeffectue une catégorisation plus ou moins «ferme». On peut mettre ce compor-tement en parallèle avec la perception catégorielle décrite à la section 1.3.4. Unepopulation avec de fortes inhibitions latérales effectuera localement une forme deperception catégorielle forte, tandis que, si plusieurs prototypes peuvent être ac-tivés simultanément, la sortie de la population pourra être une composition deplusieurs catégories ce qui correspond à une perception continue. Il est possiblede moduler cette perception catégorielle en modifiant la valeur des inhibitionslatérales. Pratiquement, lorsque kinh est supérieur ou égal à 1, la perception caté-gorielle est totale, et lorsque kinh est égale à 0, elle est parfaitement linéaire. Si lemodèle construit se rapporte à des perceptions sensorielles, la valeur de kinh peutdonc être évaluée à partir de données psychophysiques concernant les informa-tions que traitent ce modèle, si elles existent, sinon elle sera déterminée par le rôlede la population dans le réseau.

L’importance des inhibitions latérales apparaît aussi lorsqu’on la met en pers-pective avec la définition des ensembles flous en tant que types dans notre modèle.En particulier, ces inhibitions jouent un rôle dans l’observation faite au paragraphe2.2.3.1 concernant le fait que le noyau des ensembles devrait être un singleton.Puisque le type de l’information en sortie de la population est déterminé par lesprototypes activés en fin de traitement, autoriser l’activation parallèle de plusieursprototypes fait courir le risque de rendre la similarité inconsistante dans les étapessuivantes du traitement. En pratique, en raison du bruit dans le système, il y a tou-jours un prototype plus activé qu’un autre, mais un trop grand nombre de proto-types fortement activés en même temps tend à diminuer la valeur informationnelledu type. Les observations physiologiques confirment l’importance des inhibitionslatérales, qui permettent au système cérébral de fonctionner en utilisant un mini-mum d’énergie et surtout en diminuant fortement le bruit : les neurones ayant une

Page 141: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

2.5. Implémentation et discussion 141

nature hautement bruitée, il est plus efficace, pour transporter l’information, delimiter les informations concurrentes propagées en même temps, et d’utiliser lesgroupes de neurones pour coder ensemble une seule information à la fois.

Il y a cependant un autre effet entraîné par une catégorisation de type winner-takes-all, qui est l’effacement des traces laissées par les informations traitées récem-ment : dès qu’un prototype est activé, il inhibe les autres prototypes dont l’acti-vation pouvait dépendre des informations récemment traitées. Il en résulte quedes inhibitions latérales faibles permettent à la sortie de la population d’encoderà la fois l’appartenance partielle à plusieurs catégories de l’information en coursde traitement, mais aussi, dans une certaine mesure, la séquence des informationsqui ont été traitées, la persistance de cette «mémoire» dépendant des constantes detemps de la population. Un tel effet peut avoir une importance pour modéliser unemémoire à court terme par exemple.

Le bruit. Le bruit introduit dans l’équation 2.13 sert plusieurs buts : il prenden compte de manière compacte (i) la nature stochastique de la décharge neuro-nale et (ii) les phénomènes non modélisés. Le deuxième point englobe à la foisles phénomènes internes à la population et les phénomènes externes comme lesautres connexions provenant de sources non modélisées par le réseau. Il s’agitdonc d’une prise en compte très grossière de sources d’imprécision qui sont mul-tiples et complexes. C’est pourquoi il est impératif que les réseaux construits avecSimBa soient le plus robuste possible face à cette perturbation, dans la mesure oùil s’agit très certainement d’une sous-estimation des perturbations existant réelle-ment au niveau biologique. Les simulations présentées précédemment démontrentune bonne résistance à une élévation de l’intensité du bruit et les applications duchapitre suivant en feront aussi la démonstration. En général, l’intensité du bruitest fixée à 10% du signal utile, mais les réseaux continuent à produire de bonsrésultats lorsqu’elle est bien plus grande (50 à 60%). Pour les mêmes raisons quepour les constantes de temps, les réseaux modélisés par SimBa ne devraient pasnécessiter une intensité du bruit trop faible pour bien fonctionner.

Il a été vu dans la section précédente que la nature de filtre passe-bas des équa-tions différentielles permet d’empêcher que l’impact du bruit se cumule le longd’une chaîne de traitements. Il existe cependant un risque d’explosion de l’impré-cision lorsqu’une population introduit un gain important en termes de fréquencede décharge vis à vis de ces entrées. Ce gain multiplie les variations aléatoires et

Page 142: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

142 Chapitre 2. Modélisation

peut provoquer un effondrement du comportement du réseau. D’une façon géné-rale, toute fonction d’agrégation ou d’activation qui augmente fortement le rapportsignal sur bruit peut avoir cet effet et c’est un aspect auquel il faut être attentif lorsde la construction d’un modèle.

2.5.1.4 Les caractéristiques fonctionnelles d’une population

En plus des paramètres numériques discutés précédemment, une populationest fonctionnellement caractérisée par ses fonctions d’agrégation, d’activation etpar ses prototypes.

Les fonctions d’agrégation et d’activation. Définir une population fonctionnellerevient principalement à définir les deux fonctions d’agrégation G et d’activationF. Elles déterminent le comportement de la population presque entièrement et sontdonc critiques pour le modèle. Certaines contraintes et caractéristiques ont pu êtredonnées en même temps que leur définition, ce qui permet de limiter quelque peules possibilités. Cependant, elles constituent, avec les prototypes, les paramètres lesplus libres du modèle.

En ce qui concerne la fonction d’agrégation, une interprétation logique de sonaction permet de la construire en accord avec le rôle que doit remplir la population.Ainsi les exemples donnés d’agrégation conjonctive ou disjonctive constituent unbon point de départ. Des pondérations sur les entrées peuvent être ajoutées pourmodéliser les poids différents des divers attributs. Ainsi, la fonction d’agrégationutilisée pour le détecteur de début et de fin d’un stimulus (cf.2.23) revient à ajou-ter de manière disjonctive une entrée non typée de magnitude constante égale à0.5 à l’entrée existante. Les possibilités sont nombreuses car les réseaux fonction-nels peuvent être variés. Cependant, dans la plupart des cas qui ont été testés, unedisjonction ou une conjonction pondérée des entrées suffit à obtenir les comporte-ments souhaités.

La fonction d’activation est moins versatile. Elle est en effet contrainte par lanature de la décharge neuronale en fonction du courant synaptique total. Dans lagrande majorité des cas, une fonction de type sigmoïde ou son approximation parmorceaux convient. Cela ramène le choix de la fonction au choix de trois para-mètres : la pente de la sigmoïde, son centre de symétrie et la valeur de saturation.La pente peut être vue comme un gain : plus elle est élevée, plus la population

Page 143: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

2.5. Implémentation et discussion 143

aura un comportement binaire, activée au maximum ou pas du tout. Le centre desymétrie revient à définir le seuil à partir duquel le courant synaptique est suffi-sant pour déclencher une activation. La relation entre la valeur s du seuil et celledu centre de symétrie b est donnée par : s = b− 2

a , où a est la pente de la sigmoïde(ce qui correspond à une pente égale à a

4 pour son approximation par morceaux).Par exemple, toujours en reprenant le cas du détecteur de début et fin de stimulus,pour obtenir une population qui ne s’active que lorsque le stimulus commence,il suffit d’ajouter au réseau une population X3 recevant une connexion excitatricede X2 et dont le seuil d’activation est fixé à 0.5. X3 s’activera uniquement au dé-but du stimulus et filtrera l’activation au repos provenant de X2. Une quatrièmepopulation X4, passivement activée avec une magnitude de 0.4 et recevant uneconnexion inhibitrice de X2, verrait, quant à elle, l’inhibition levée uniquement àla fin du stimulus et ne s’activerait qu’à ce moment là. On observe fréquemmentdans le cerveau de tels enchaînements d’excitation et d’inhibition qui permettentde bloquer ou libérer des populations en fonction du contexte.

Les prototypes. Presque aussi importants que les fonctions d’agrégation et d’ac-tivation, les prototypes peuvent s’avérer délicats à définir. En effet, si le domainede définition du type associé à une population peut être établi assez facilement,les similarités entre les différentes valeurs du domaine sont, en l’état actuel dumodèle, laissées à l’arbitraire du modélisateur. Nous verrons dans le chapitre 4

quelques pistes pour introduire un apprentissage automatique de ces similaritésdans le formalisme. Lorsqu’il existe une distance naturelle sur le domaine, le pro-blème est partiellement résolu, même si rien en général ne permet d’affirmer que ladistance physique correspond à la distance psychophysique. La relation entre cesdeux distances ne peut être établie que dans les toutes premières phases du trai-tement cérébral. Des expériences comme celle menée par Sigala et collaborateurs(2002) permettent aussi d’évaluer les relations entre les différentes catégories, et detelles données doivent être utilisées dans les modèles lorsqu’elles sont disponibles.Si aucune donnée expérimentale n’est disponible, les similarités introduites dansun modèle constituent une hypothèse et les résultats d’une simulation les utilisantpeuvent être réfutés expérimentalement par la suite.

Après avoir décrit les caractéristiques du modèle SimBa, il est intéressant deles comparer en détail avec les formalismes dont il s’inspire. SimBa étant ainsiprésenté comme une extension des modèles de fréquence de décharge issus des

Page 144: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

144 Chapitre 2. Modélisation

neurosciences computationnelles, une analyse de ses qualités comparées à cellede ces modèles est présentée. Nous le comparerons aussi aux modèles de réseauxcausaux à grande échelle, dont il hérite directement.

2.5.2 Comparaison avec le modèle classique de fréquence de dé-

charge

Comme il a été expliqué dans la section 2.3, le modèle SimBa a été construit àpartir des équations de Wilson et Cowan, qui ont été modifiées pour prendre encompte la sélectivité des populations et la nature duale de l’information manipulée.Cependant, l’expressivité des équations originelles a été conservée et SimBa est unsur-ensemble strict du modèle de Wilson et Cowan (que nous désignerons dans lasuite par MWC). Pour s’en convaincre, il suffit de regarder l’exemple du détecteurde début et de fin d’un stimulus (cf section 2.5.1.2) qui n’utilise à aucun moment lanotion de type et qui aurait pu être modélisé par les équations 1.4 et 1.5. La grandedifférence entre le MWC et SimBa tient au fait que les populations ne sont plus sé-lectives par construction. En effet, dans le MWC, la nature de l’information traitéepar une population est entièrement déterminée par les poids des connexions inci-dentes. Prenons l’exemple du décodage d’une couleur à partir de trois attributs λR,λV et λB, qui sont les intensités des longueurs d’onde rouge, verte et bleue dans lalumière perçue2. Pour décoder une certain couleur C1, définie par une combinai-son linéaire des trois attributs (C1 ≡ x1

RλR + x1VλV + x1

BλB), une modélisation MWCfait intervenir une population qui reçoit les trois attributs avec des poids affectésaux connexions qui correspondent aux coefficients de la combinaison linéaire (voirfig.2.24). L’activation de cette population correspond à une reconnaissance de lacouleur C1 dans les entrées. Cependant, pour détecter une deuxième couleur C2,il faut une autre population qui recevra les mêmes entrées mais avec des poidsdifférents. De plus, pour mettre les deux populations en compétition, il faut ex-plicitement rajouter les inhibitions latérales entre elles. SimBa permet de n’avoirqu’une seule population englobant la reconnaissance des couleurs. En termes deconstruction et d’interprétation du modèle, même si la séparation en différentes po-pulations a un sens au niveau biologique, il est plus facile de construire par étapes

2Il s’agit d’une simplification du processus de perception de la couleur biologique, qui fait enréalité intervenir, entre autres, des cellules qui réagissent au contraste entre ces longueurs d’onde,lumineux contre sombre, bleu contre jaune et rouge contre vert

Page 145: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

2.5. Implémentation et discussion 145

C1

C2

λR

λV

λB

x1R

x1V

x1B

x2R

x2V

x2B

A B

X

λR

λV

λB

P1 → C1P2 → C2

X

Fig. 2.24 – Comparaison entre le formalisme de Wilson et Cowan et SimBa. (A)- Pour décoder lescouleurs à partir des quantités de longueur d’onde rouge, verte et bleue dans la lumière perçue,il faut une population par couleur à décoder : ici, deux couleur C1 et C2, qui correspondent àdeux combinaisons linéaires différentes des entrées. Les deux populations sont en compétition parinhibition latérale. (B)- SimBa permet de n’utiliser qu’une seule population avec deux prototypes P1et P1 qui correspondent respectivement aux couleurs C1 et C2.

allant du générique vers le plus spécifique, quand les données expérimentales lepermettent. De plus, pour faire le lien avec des réseaux observables en neuroima-gerie, il est plus facile et intuitif de travailler sur une unique population traitant lescouleurs. SimBa étant un sur-ensemble du MWC, rien n’empêche de décomposerla population par la suite pour avoir un contrôle plus fin sur les divers paramètres.En résumé, SimBa apporte une couche d’abstraction supplémentaire par rapportau MWC qui permet de passer facilement d’une échelle de modélisation à uneautre sans changer de formalisme.

2.5.3 Comparaison avec les modèles causaux

Il a été dit précédemment que SimBa était la prolongation d’un effort de modé-lisation des réseaux à grande échelle d’un point de vue causal, effort qui a donnénaissance au modèle BioCaEn et au modèle RAGE (cf. section 1.4.3). Il convientdonc de comparer SimBa à ces deux modèles, et en particulier avec RAGE dontil hérite directement. En ce qui concerne BioCaEn, le problème principal de cemodèle venait du formalisme utilisé pour calculer les activations des populationsfonctionnelles. En effet, le calcul d’intervalles a pour effet secondaire de démul-tiplier les erreurs de calcul, ce qui rendait le modèle rapidement inutilisable. Lesinstabilités numériques ont largement contribué à la mise au point d’un nouveaumodèle, RAGE, utilisant un formalisme plus adapté. Cependant avant de parler

Page 146: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

146 Chapitre 2. Modélisation

des RAGE, notons l’autre caractéristique majeure de BioCaEn, à savoir, les fonc-tions de transfert modélisant les transformations imposées à l’information par lesdifférentes populations fonctionnelles. De ce point de vue, SimBa reprend cette vi-sion qui permet de décomposer un système complexe en processus plus simples etdonc mieux modélisables, mais en conservant une interprétabilité satisfaisante quipermet de comprendre comment le système fonctionne dans son ensemble.

Les RAGE introduisent le formalisme bayésien dans les réseaux causaux àgrande échelle. Les incertitudes numériques concernant l’activation des popula-tions sont prises en compte grâce à un réseau bayésien dynamique, qui permet deconserver l’erreur dans des proportions raisonnables. Ce formalisme est caracté-risé par des traitements non linéaires ayant lieu au niveau des populations fonc-tionnelles et qui s’effectue sur les moyennes d’un échantillon aléatoire généré dessignaux transmis. Puis, à partir des ces moyennes, des variables aléatoires conti-nues sont créées pour prendre en compte l’incertitude sur l’activation. La propaga-tion de l’information imprécise est alors entièrement prise en charge par le réseaubayésien dynamique.

En comparaison, SimBa ne calcule pas sur la moyenne du signal mais bien sursa valeur instantanée. L’adjonction au modèle existant d’équations modélisant ladynamique neuronale, et qui introduisent d’elles-même une incertitude, permetde générer un signal d’activation bruité mais d’une manière plus naturelle. Deplus, ces mêmes équations, qui génèrent en partie l’incertitude, agissent commeun contrôle sur celle-ci grâce à leur comportement de filtre passe-bas. D’une cer-taine manière, SimBa calcule quand même sur des moyennes, qui sont elles-mêmescalculées sur une fenêtre temporelle glissante dépendant des constantes de tempsutilisées. De plus, dans les RAGE, la gestion de l’incertitude ne concernait réel-lement que la partie numérique de l’information, tandis que SimBa prend aussien compte l’incertitude au niveau symbolique grâce à l’utilisation des ensemblesflous.

Enfin, la différence conceptuelle probablement la plus importante entre lesRAGE et SimBA vient là encore de l’utilisation des ensembles flous mais cettefois dans leur interprétation en termes de similarités. En effet, les RAGE utilisentaussi une base de prototypes liée à chaque population fonctionnelle. L’informationsymbolique arrivant est comparée aux prototypes et l’information en sortie dépendde ce pattern matching. La grande différence, c’est que les prototypes n’ont pas derelation entre eux. Or, nous avons montré que ces prototypes correspondent à des

Page 147: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

2.5. Implémentation et discussion 147

groupes de neurones s’activant pour une valeur précise des entrées mais qui nesont pas indépendants les uns des autres. En fonction de leur position relative àla surface du cortex, l’activation de l’un peut mécaniquement entraîner l’activa-tion partielle d’un autre. Le formalisme SimBa tente de prendre ce phénomène encompte, au moins qualitativement, ce qui lui permet d’interpoler entre différentesvaleurs du type de sortie. Ce mécanisme autorise la modélisation de phénomènes,comme l’effet McGurk (cf. section 3.1), qui apparaissent difficilement modélisablespar les RAGE.

2.5.4 Comparaison avec le premier formalisme à base de règles

floues

Par rapport au premier formalisme proposé dans cette section, le second for-malisme en reprend les points les plus importants (la sélectivité des populationsau type de l’information et l’interpolation entre les différentes valeurs du typeau moyen des similarités), mais dans une formulation plus proche de la réalitébiologique. En particulier, l’hypothèse sous-jacente à la décomposition en sous-populations n’est plus nécessaire. La dynamique du second modèle est plus fidèleaux modèles issus des neurosciences computationnelles et est moins empiriqueque dans la première version. Une différence importante est aussi la réduction dunombre de paramètres (qui restent pourtant nombreux). La manière de sélectionnerle type de sortie a également été modifiée. En effet, une des critiques du premierformalisme était l’absence d’inhibitions latérales, qui garantissent une forte atté-nuation des activations parasites au sein de la population. Elles sont en revancheprésentes dans la seconde approche.

La notion de base de règles d’inférence n’a pas non plus disparu, mais elle esten quelque sorte masquée. En effet, l’association «Prototype −→ Pattern de sortie»correspond bien aux règles définies dans le premier modèle. Il y a cependant desdifférences notables. En premier lieu, le calcul du degré de satisfaction des parties«conditions» dans le premier modèle était dynamique, tandis que le pattern mat-ching avec les prototypes (la partie condition des règles dans le second modèle)est instantané. Seule l’activation des patterns associés aux prototypes (la partieconclusion des règles) est dynamique. La manière dont sont combinés les degrésde satisfaction correspondant aux différentes entrées pour calculer l’activation dela conclusion est elle aussi différente puisque, dans la première approche, elle est

Page 148: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

148 Chapitre 2. Modélisation

nécessairement linéaire en fonction des entrées alors que dans le second forma-lisme, la fonction d’agrégation est a priori quelconque. La figure 2.25 résume lesdifférence entre les deux type de règles.

Conclusion du chapitre

Nous avons vu dans ce chapitre comment le formalisme a pu être construiten partant des équations caractérisant la dynamique de la fréquence de décharged’une population, et en y ajoutant la sélectivité grâce à un ensemble de prototypes.

Cette sélectivité repose sur la notion de similarité entre les patterns neuronaux.La similarité entre deux patterns est reliée à leur proximité sur la surface corticaleet à leur éventuel chevauchement. Cette définition permet de considérer qu’à partirdu moment où un stimulus physique est encodé par une population neuronale, ilexiste une distance entre les différentes valeurs de ce stimulus, même lorsque cettedistance n’est pas intuitive a priori (distance entre deux formes géométriques).

C’est cette notion de similarité qui permet au formalisme d’exhiber des capaci-tés d’interpolation entre les valeurs du type de sortie, ce qui lui permet de prendreen compte des phénomènes graduels que ne pouvaient pas modéliser ses prédé-cesseurs.

Les équations de Wilson et Cowan, additionnées à cette sélectivité basée sur lasimilarité, nous ont permis de définir un formalisme général qui peut être utilisépour modéliser des réseaux de populations effectuant des tâches dites de «bas-niveau» (traitements visuel ou auditif primaires par exemple), mais aussi des ré-seaux impliqués dans des fonctions cognitives de plus haut niveau, qui nécessitentla manipulation de symboles abstraits.

Le chapitre 3 présente deux exemples d’applications à des problèmes issus dela neuropsychologie.

Page 149: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

2.5. Implémentation et discussion 149

=⇒

=⇒

Activationdynamique

Activationdynamique

Combinaisonlinéaire

=⇒

=⇒

=⇒

=⇒

matchinginstantané

Activationdynamique

Agrégationquelconque

Fig. 2.25 – Comparaison entre les règles dans le premier formalisme (à gauche) et le second (àdroite), dans le cas d’une population ayant deux entrées et deux valeurs possibles du type de sortie.Les carrés blancs représentent des ensembles flous. Les flèches doubles représentent les entrées etelles pointent là où elles interviennent. Dans le premier formalisme, les parties conditions des règlessont regroupées par sous-populations réceptrices tandis que dans le second, elles sont regroupées parprototypes.

Page 150: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III
Page 151: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

Applications 3

Maintenant que le formalisme SimBa est défini, voyons quelques applicationsconcrètes de ses principes. Le première section couvre une modélisation de

l’effet McGurk, une illusion visuo-auditive. Cette application a pour but (i) d’illus-trer comment le formalisme SimBa peut être appliqué à un exemple issu de laneuropsychologie expérimentale, (ii) de montrer que SimBa s’applique aussi bien àdes phénomènes cognitifs de «bas-niveau», comme c’est le cas pour l’effet McGurk,qu’à des fonctions plus évoluées comme nous le verrons dans la seconde applica-tion, et enfin (iii) de proposer une organisation fonctionnelle qui puisse expliquerle phénomène étudié, en prenant en compte les développements expérimentaux lesplus récents.

La seconde section décrira une modélisation des réseaux impliqués lors de laréalisation du Wisconsin Card Sorting Test (WCST). Cette application démontrela capacité de SimBa à s’accommoder de fonctions cognitives abstraites, définiessur des domaines symboliques non nécessairement ordonnés. Les résultats de lasimulation seront comparés à des résultats expérimentaux.

151

Page 152: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III
Page 153: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

3.1. L’effet McGurk 153

3.1 L’effet McGurk

Dans le contexte de la perception auditive du langage, il est connu depuisde nombreuses années que voir le locuteur articuler le discours en permet unemeilleure compréhension. Parmi les premières observations dans ce sens, Sumbyet Pollack (1954) ont montré, que dans un environnement bruité, voir le locuteuraugmente les performances de compréhension de manière significative. Ces résul-tats ont longtemps été interprétés comme un phénomène n’intervenant que dansles cas d’un rapport signal sur bruit faible, où la dimension visuelle n’interviendraitqu’en complément d’une perception auditive insuffisante. Cette interprétation futremise en cause par la découverte de l’effet McGurk (McGurk et MacDonald 1976).Il fut en effet observé qu’en présence d’un phonème auditif couplé artificiellementà la perception visuelle d’un autre phonème, le phonème effectivement perçu parle sujet était modifié et ce, même si la qualité auditive est bonne. Cette observationa remis en cause l’importance donnée à la dimension visuelle dans la perceptiondu langage.

3.1.1 Description du contexte

3.1.1.1 Compréhension du langage parlé

La perception du langage parlé est un phénomène complexe qui a été étudiédepuis de nombreuses années, tant en comportement par la psychologie expéri-mentale (Sumby et Pollack 1954, Liberman et coll. 1957, McGurk et MacDonald1976) que, plus récemment, en neuroimagerie par la neuropsychologie (Démonetet coll. 1994, Campbell 2007). A première vue, la perception du langage oral re-pose principalement sur l’audition et sur l’interprétation de séquences acoustiquescomplexes en tant que phonèmes, puis en tant que mots et phrases. Le signalacoustique transportant le discours varie grandement au cours du temps et y re-connaître des phonèmes implique un traitement dynamique rapide par les réseauxcérébraux impliqués. Cependant, à la différence des perceptions auditives non re-connues comme du langage, l’interprétation du discours semble reposer sur ladétection d’un certain nombre d’invariants acoustiques qui permettent de carac-tériser les phonèmes de manière robuste, même dans un environnement bruité(Sumby et Pollack 1954, Liberman et coll. 1957). Le signal acoustique correspon-dant à des phonèmes est ainsi caractérisé par les formants, c’est-à-dire les maxima

Page 154: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

154 Chapitre 3. Applications

en fréquence du signal. En fonction de leurs valeurs et de leurs positions tempo-relles relatives, il est possible de discriminer la quasi totalité des phonèmes. Il estd’usage de nommer ces formants F1, F2, etc. en fonction de leur ordre d’apparitiondans la trame temporelle du signal acoustique (F1 désigne le premier formant, F2

le second et ainsi de suite). En général, les trois premiers formants sont considéréscomme particulièrement importants dans la mesure où ils suffisent à discriminerla plupart des phonèmes. Un autre attribut acoustique important est appelé le voi-sement et caractérise la vibration des cordes vocales qui introduit des fréquencesspécifiques dans le signal acoustique.

Une autre manière de caractériser les sons du langage consiste à considérerla manière dont les sons ont été produits. En effet, les phonèmes sont produitspar l’appareil phonatoire humain qui a des caractéristiques physico-acoustiquescontraignant les sons qu’il peut produire. La phonétique articulatoire étudie cescaractéristiques (par opposition à la phonétique acoustique). Dans cette section,une importance particulière est donnée aux consonnes dites occlusives, caractéri-sées par un blocage de l’écoulement de l’air au niveau de la bouche, du pharynxou de la glotte, et le relâchement soudain de ce blocage. En français, il en existe10 : [p], [t], [k], [b], [d], [g], [m], [n], [N] (comme dans pagne) et [ñ] (comme à la finde parking). Trois dimensions permettent de les décrire en totalité1 : le lieu d’arti-culation décrit l’endroit où a eu lieu le blocage de l’air, le voisement caractérise lavibration des cordes vocales, et enfin la cavité où a résonné le son produit par lavibration des cordes vocales constitue la troisième dimension. En ce qui concerne lelieu d’articulation, il peut se faire au niveau des lèvres (on parle de phonème labial,comme [b] ou [p]), au niveau des dents (on parle de phonème dental, comme [d] ou[t]) ou au niveau du palais (et on parle de phonème vélaire, comme [g] ou [k]). En cequi concerne le voisement, le son peut impliquer une vibration des cordes vocalescomme pour [b], [d], ou [g], qui sont des consonnes sonores, ou non, comme pour[p], [t] et [k] qui sont des consonnes sourdes. Lorsqu’il y a eu un voisement, le sonproduit peut résonner dans la bouche comme c’est le cas pour [b], [d], et [g] mais ilpeut aussi résonner dans les fosses nasales comme pour [m], [n], [N] et [ñ] qui sontdonc des consonnes nasales. Notons que les nasales sont considérées comme dessonores puisqu’elles impliquent un voisement. La vibration, présente ou non, descordes vocales ainsi que le lieu de résonance du son sont désignés collectivementpar le terme de mode d’articulation. Le tableau 3.1 représente 8 de ces 10 occlusives

1Mais les dimensions articulatoires nécessaires pour décrire tous les phonèmes de la langue sontbien plus nombreuses

Page 155: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

3.1. L’effet McGurk 155

en fonction de leur lieu et mode d’articulation. L’étude de Liberman et collabo-

Tab. 3.1 – Consonnes occlusives classées en fonction de leur mode et lieu d’articulation.

PPPPPPPPPModeLieu Labiale Dentale Vélaire

Sonore b d g

Sourde p t k

Nasale m n

rateurs (1957) mettant en évidence le phénomène de perception catégorielle (cf.section 1.3.4) a donné une importance toute particulière aux attributs articulatoiresdes phonèmes et proposé une théorie articulatoire de la perception du langage.L’hypothèse avancée est que nous ne sommes capables de percevoir en tant quelangage que ce que nous pouvons produire, et que les perceptions auditives dulangage sont comparées à des schémas moteurs articulatoires pour être perçuescomme des phonèmes. Cette hypothèse a depuis été mise en doute (Gentilucci etCattaneo 2005) et il est généralement considéré que la compréhension du langagerepose sur une extraction dynamique d’invariants auditifs qui caractérisent les dif-férents phonèmes (Greenberg 2004). Les schémas moteurs articulatoires semblentcependant intervenir en cas d’ambiguïté, lorsqu’il y a mise en oeuvre de la bouclearticulatoire (Démonet et coll. 1994, Greenberg 2004). De plus, les attributs arti-culatoires sont corrélés, comme on peut s’y attendre, aux attributs acoustiqueset permettent de caractériser d’une manière souvent plus intuitive et compacteles différents phonèmes. Ainsi le voisement est une caractéristique articulatoire etacoustique, et le lieu d’articulation est corrélé à la position temporelle et à la valeurdes formants F1 et F2.

3.1.1.2 L’importance de la dimension visuelle et l’effet McGurk

Si l’importance de la dimension visuelle pour comprendre un discours dans unenvironnement auditif dégradé est connue depuis plus de cinquante ans, ce n’estque depuis la découverte de l’effet McGurk (McGurk et MacDonald 1976) que cettedimension est considérée comme ayant une grande importance même lorsque lesconditions d’écoute sont bonnes. L’effet McGurk se produit lorsqu’un stimulus

Page 156: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

156 Chapitre 3. Applications

est artificiellement construit pour introduire une incongruence entre l’auditif et levisuel : une vidéo montre un locuteur articulant un son simple (aba ou aga) maisla bande-son de la vidéo est modifiée pour qu’un autre son soit entendu (/aga/ou /aba/ respectivement). Lorsque les sujets sont interrogés, ils rapportent avoirentendu «ada» pour un aga visuel couplé à un /aba/ auditif (on parle de fusion desstimuli), ou «agba» et «abga» pour un aba visuel couplé à un /aga/ auditif (on parlede combinaison des stimuli)2. Et lorsque seuls les stimuli auditifs sont présentés, ilssont correctement reconnus. Cette expérience a montré que la dimension visuellepouvait influencer la perception d’un stimulus auditif de bonne qualité au pointde provoquer un changement perceptif.

La manière dont les informations peuvent être intégrées dans le cerveau a faitl’objet de nombreuses études (Campbell 1988, Rosenblum et Saldaña 1996, Genti-lucci et Cattaneo 2005, Campbell 2007). Le modèle FLMP (cf section 1.3.4) a, parexemple, été adapté pour prendre en compte les deux dimensions (Massaro 1999,Massaro et Cohen 2000). Dans un article de revue, Campbell (2007) étudie les cor-rélats cérébraux de l’intégration visuo-auditive du langage et localise les zonesd’intégration dans la partie postérieure du sulcus temporal supérieur, à la jonctiondes lobes temporal et pariétal (principalement dans l’hémisphère gauche). Cettelocalisation est intéressante dans la mesure où les intégrations multi-modales sontconsidérées en général comme principalement localisées dans le lobe pariétal. Ilsemblerait que, dans le cas du langage, l’intégration soit déplacée vers la voie detraitement auditive du lobe temporal, axe principal de la compréhension du lan-gage (Miller et D’Esposito 2005). D’autres études suggèrent des interactions multi-modales en dehors du lobe pariétal, parfois dès les cortex primaires (Cappe etBarone 2005).

Dans une étude récente, Rouger et coll. (2008) explorent les capacités de dis-crimination de stimuli de type McGurk qu’ils soient congruents ou non, et qu’ilssoient perçus de manière purement auditive, purement visuelle ou multimodale,et ce, chez des patients devenus sourds et ayant reçu un implant cochléaire, et chezdes sujets sains. Cette étude a montré les rôles différents joués par les dimensionsauditive et visuelle dans la perception des différentes caractéristiques articulatoiresdes phonèmes.

Ainsi, lorsqu’ils sont confrontés à un stimulus purement visuel, patients et su-2Tout au long de cette section, nous utiliserons la convention suivante : un stimulus visuel est

noté en italique (aga), un stimulus auditif est noté entre barres obliques (/aga/) et un stimulusperçu par un sujet est noté entre guillemets («aga»)

Page 157: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

3.1. L’effet McGurk 157

jets sains ont des performances médiocres mais le lieu d’articulation est très signi-ficativement mieux reconnu que le mode, ce qui est normal au vu de la naturetrès visuelle du lieu d’articulation (conformation de la bouche, mouvements deslèvres, de la langue, etc.) et celle, plus auditive, du mode (mais qui présente quandmême des corrélations en termes d’articulation qui rendent possible l’identificationpurement visuelle). En revanche, les sujets normo-entendants ne commettent prati-quement aucune erreur pour les stimuli congruents présentés de manière auditiveou visuo-auditive (figure 3.1).

Dans le cas des stimuli incongruents de type McGurk, les réponses fourniespar les sujets normo-entendants diffèrent selon le type de stimuli. En effet, deuxtype de stimuli incongruents sont utilisés : un aga visuel est couplé avec /aba/, un/apa/ ou un /ama/ auditif, ou un aba visuel est couplé avec un /ada/, un /ata/ou un /ana/. Dans le premier cas le phonème perçu résulte d’une fusion des lieuxd’articulation en un troisième lieu : aga+/aba/ donne «ada». Dans le second cas,un phonème composé est perçu : aba+/ada/ donne «abda». Les patients, quant àeux, perçoivent des phonèmes correspondant plus au lieu d’articulation visuelle.(figure 3.2).

Enfin, une observation plus détaillée des résultats met en lumière plusieurséléments clés : (i) le mode d’articulation est une dimension presqu’exclusivementauditive et ne semble pas jouer de rôle dans le traitement visuel, et (ii) le lieud’articulation est assez bien discriminé en visuel pur, mais les labiales sont mieuxdiscriminées que les dentales et les vélaires.

Ces résultats constituent un cadre tout à fait adapté pour un modèle s’appuyantsur le formalisme SimBa. Il est décrit dans la section suivante, avec des résultats desimulation.

3.1.2 Modélisation et résultats

3.1.2.1 Description du modèle

Nous proposons un modèle s’appuyant sur le formalisme SimBa qui vise àreproduire les résultats obtenus par Rouger et collaborateur (2008) chez les sujetsnormo-entendants. Rappelons les observations faites à la section précédente :

Page 158: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

158 Chapitre 3. Applications

seulseulseulseul

seulseul

Identification des phonèmes

Catégorisation du mode Catégorisation du lieu

Fig. 3.1 – Performances pour les patients ayant reçus un implant cochléaire (CI) et de sujets normo-entendants (NH) dans les conditions congruentes unimodale et bimodale. (A) Score d’identificationpour tous les sujets. (B) Score de catégorisation du mode d’articulation pour tous les sujets. (C) Scorede catégorisation du lieu d’articulation pour tous les sujets. Les graphiques (B) et (C) illustrent lebiais perceptif de l’audition et la vision pour, respectivement, le mode et le lieu d’élocution. Adaptéet traduit de Rouger et coll. (2008) avec autorisation de Elsevier Ltd.

Page 159: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

3.1. L’effet McGurk 159

Perception du lieu auditif

Perception dulieu visuel

Combinaison du lieu visuel et auditif

Perception du lieu auditif

Perception dulieu visuel

Fusion du lieu visuel et auditif

Perception dumode auditif

Perception dumode visuel

Perception dumode auditif

Perception dumode visuel

McGurk (Dentale A) : catégorisation du mode

McGurk (Labiale A) : catégorisation du mode

McGurk (Dentale A) : catégorisation du lieu

McGurk (Labiale A) : catégorisation du lieu

Fig. 3.2 – Performances globales de catégorisation du mode et du lieu d’articulation de sujets normo-entendants et de patients implantés cochléaire dans la conditions incongruente visuo-auditive (Mc-Gurk). (A) et (B) Catégorisation du lieu et du mode d’articulation pour les stimuli visuo-auditifsincongruents comprenant une dentale auditive (/ada/, /ata/, /ana/), couplée à une labiale visuelle.(C) et (D) Catégorisation du lieu et du mode d’articulation pour les stimuli visuo-auditifs incon-gruents comprenant une labiale auditive (/aba/, /apa/, /ama/), couplée à une vélaire visuelle. Lesgraphiques (A) et (C) illustrent la perception auditive inférieure du mode d’articulation pour lespatients implantés cochléaire. Les graphiques (B) et (D) illustrent les différences dans les stratégiesvisuo-auditives utilisées par les sujets normo-entendants et les patients. Traduit de Rouger et coll.(2008) avec autorisation de Elsevier Ltd.

Page 160: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

160 Chapitre 3. Applications

– La catégorisation phonémique peut se faire avec l’audition seule.– Une information purement visuelle est plus utile pour trouver le lieu d’arti-

culation mais ne donne aucune idée quant au mode.– Les labiales sont mieux discriminées des dentales et des vélaires que les den-

tales ne le sont des vélaires.– Que ce soit en termes d’activation observée par IRMf ou en termes de théorie

de l’information, l’intégration visuo-auditive est supra-additive lorsqu’il ya congruence et sub-additive lorsqu’il y a incongruence (Massaro et Cohen2000, Campbell 2007, Rouger et coll. 2007).

Le premier point implique que dans le réseau, il doit exister une voie de traitementefficace purement auditive. Le second implique que l’information visuelle n’ap-portera rien en ce qui concerne le mode d’articulation. Le troisième point impliqueque la similarité, dans la voie visuelle, entre les patterns activés par une articula-tion labiale et ceux activés par des articulations dentales ou vélaires est faible maisque celle entre les patterns correspondant aux dentales et vélaires est forte. Fina-lement, la quatrième observation se traduit, dans le formalisme SimBa, par unecombinaison conjonctive plutôt que disjonctive. A partir de ces contraintes, nousavons construit un réseau fonctionnel qui constitue une hypothèse de fonctionne-ment de la région cérébrale effectuant l’intégration visuo-auditive des phonèmes etqui, d’après la littérature, se situerait dans la partie postérieure du sulcus temporalsupérieur (pSTS) (Hamilton et coll. 2006, Campbell 2007).

L’accent est mis sur la manière dont les informations auditives et visuelles sontintégrées et, pour cette raison, les mécanismes de traitement primaires permet-tant d’extraire des dimensions à partir des signaux acoustiques et rétiniens sonten partie négligés. L’information arrivant dans le réseau résulte donc d’un pré-traitement qui est supposé avoir eu lieu dans régions en amont du pSTS. Dans lamesure où il a été dit que le mode et le lieu d’articulation sont corrélés aux ca-ractéristiques acoustiques et articulatoires du signal, nous prenons ces dimensionscomme symbolisant l’information entrante. Elles sont néanmoins dédoublées pourprendre en compte la dimension visuelle et auditive. Il y a donc quatre pointsd’entrée dans le réseau, le mode visuel, le lieu visuel, le mode auditif et le lieuauditif. Ces quatre entrées arrivent sur deux nœuds : un premier nœud est encharge de l’interprétation phonémique à partir des seules informations auditives,tandis que l’autre réalise la même tâche à partir des seules informations visuelles.Un troisième nœud intègre les deux modalités de manière conjonctive. Cependant,l’agrégation conjonctive implique qu’il n’y a aucune activité si une des modali-

Page 161: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

3.1. L’effet McGurk 161

tés n’est pas présente (c’est-à-dire dont la magnitude est nulle ou très faible), orla détection phonémique peut évidemment se faire de manière unimodale. Pourcela, les résultats des traitements auditif et visuel sont envoyés vers un nœud quiles intègre de manière disjonctive avec le résultat de l’intégration multimodale. Lapriorité est en revanche donnée au résultat de l’intégration multimodale, ce qui sefait grâce à des liens inhibiteurs partant du nœud d’intégration multimodale et quiviennent empêcher la contribution des dimensions auditive et visuelle seules à ladécision finale. La figure 3.3 illustre l’architecture du réseau décrit.

3.1.2.2 Choix des paramètres

Similarités. La difficulté majeure dans la construction de ce modèle réside dansle choix des similarités. En effet, selon notre hypothèse fonctionnelle, pour que lephénomène de fusion des lieux d’articulation survienne, il faut que la similaritéentre le lieu visuel et le lieu fusionné et celle entre le lieu auditif et le lieu fu-sionné soient suffisamment importantes pour que la combinaison des activationscorrespondant à ce lieu fusionné soit plus importante que les activations pour cha-cun des lieux unimodaux. Si on prend l’exemple du stimulus incongruent aga et/aba/, la similarité auditive entre /aba/ et /ada/ et celle visuelle entre aga etada expliquent que ce soit «ada» qui sorte vainqueur d’une compétition visant àconcilier les deux modalités incongruentes. En revanche, l’autre série de stimuli(labiale visuelle et dentale auditive) montre que lorsqu’il n’y a pas de candidat na-turel entre les deux, les deux percepts incompatibles coexistent (/aba/ + ada sontperçus comme «abda»). Le nœud Auditi f a huit prototypes qui correspondent auxhuit phonèmes utilisés dans cette simulation. Le fait d’avoir les huit prototypes dèsl’intégration auditive reflète le fait que la détection phonémique peut se faire demanière efficace en utilisant uniquement l’audition. Pour construire les similaritésentre les prototypes d’Auditi f , nous avons utilisé les observations récoltées dansla littérature ainsi que les résultats de discrimination purement auditive provenantde Rouger et coll. (2008), que nous avons traduits de manière qualitative. Cela im-plique que les valeurs exactes sont moins importantes que leurs écarts relatifs. Enparticulier, il faut noter que si le mode d’articulation est bien discriminé (dimen-sion plus «auditive»), les lieux d’articulation sont plus proches les uns des autres etqu’il y a donc un écrasement des distances. Chaque prototype est défini de manièrepure à partir de la table 3.1, par exemple le prototype BA est défini simplement

Page 162: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

162 Chapitre 3. Applications

ModeAuditi fext

LieuAuditi fext

ModeVisuelext

LieuVisuelext

Auditi f

Visuel

Integration

RelaisA

RelaisV

Decision

Fig. 3.3 – Modèlisation du réseau fonctionnel impliqué dans la compréhension phonémique visuo-auditive. Les entrées du réseau sont indicées par ext et donnent le lieu et le mode auditif(ModeAuditif

ext , LieuAuditifext ) et visuel (ModeVisuel

ext , LieuVisuelext ). Le nœud Auditif intègre le lieu

et le mode provenant de la modalité auditive, tandis que le nœud Visuel intègre le lieu et le modevisuel. Le nœud Integration intègre les informations provenant des deux modalités. Les résultatsde l’intégration purement auditive et purement visuelle sont transmis à un nœud en charge de ladécision finale (Decision) par le biais de nœud «relais» (RelaisA et RelaisV respectivement).Ces relais sont inhibés par Integration, ce qui a pour résultat de toujours privilégier l’intégrationmultimodale si elle est possible, et de ne discriminer de manière unimodale que si une des modalitésest manquante.

Page 163: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

3.1. L’effet McGurk 163

comme Labiale et Sonore. Les similarités entre les prototypes du nœud Auditi fsont reproduites table 3.2.

Le nœud Visuel possède uniquement trois prototypes qui correspondent auxtrois valeurs possibles du lieu d’articulation, indépendamment du mode. Cela re-flète le fait qu’il n’est pas réellement possible de différencier par la vue unique-ment, des phonèmes ayant un même lieu d’articulation. Là encore, les similaritésont été construites à partir de la littérature, et en particulier, elles reflètent le faitque les labiales sont bien discriminées par rapport aux dentales et aux vélaires,ainsi que le fait que les dentales et les vélaires soient mal différenciées entre elles.Ces trois prototypes sont définis uniquement en fonction du lieu d’articulation, lemode participant à l’activation de manière non sélective. Les similarités entre lesprototypes sont reproduites table 3.3.

Le nœud Integrateur possède les huit prototypes correspondant aux huit pho-nèmes. Leur activation se fait là encore de manière pure et intuitive : le prototypeBA de Integration s’active pour des informations de type BA en auditif et de typeBAPAMA en visuel. Pour conserver le modèle le plus simple possible, aucune si-milarité n’est introduite pour ces prototypes, ce qui n’influe pas sur les résultatscomme nous le verrons par la suite. Les nœuds RelaisV et RelaisA se contententde reproduire exactement les mêmes prototypes que les nœuds Visuel et Auditi frespectivement, avec une association bijective (par exemple, le prototype BA deRelaisA s’active uniquement pour une entrée de type BA). Enfin, le nœud Decisionpossède aussi les huit mêmes prototypes qui s’activent là encore de manière pure :le prototype BA de Decision s’active pour une entrée de type BA en auditif, pourune entrée de type BAPAMA en visuel, ou pour une entrée de type BA provenantde Integration.

Autres paramètres. En ce qui concerne le choix des autres paramètres, unegrande partie est commune à tous les nœuds et est reproduite dans la tableau 3.4.En particulier, les fonctions d’activation sont toutes des approximations par mor-ceaux de sigmoïdes dont les paramètres (a, b et c) sont aussi reproduits sur la table3.4. Les fonctions d’agrégation sont toujours des disjonctions pondérées, sauf pourIntegration où c’est une conjonction pondérée. Les poids des liens dans les disjonc-

Page 164: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

164 Chapitre 3. Applications

Tab. 3.2 – Similarités entre les prototypes du nœud Auditif. Chaque ligne (ou colonne) décritl’ensemble flou représentant le pattern associé à chaque prototype.

BA DA GA PA TA KA MA NA

BA 1 0.8 0.6 0.5 0.4 0.3 0 0

DA 0.8 1 0.8 0.4 0.5 0.4 0 0

GA 0.6 0.8 1 0.3 0.4 0.5 0 0

PA 0.5 0.4 0.3 1 0.8 0.6 0.3 0.4

TA 0.4 0.5 0.4 0.8 1 0.8 0.4 0.3

KA 0.3 0.4 0.5 0.6 0.8 1 0.3 0.4

MA 0 0 0 0.3 0.4 0.3 1 0.8

NA 0 0 0 0.4 0.3 0.4 0.8 1

Tab. 3.3 – Similarités entre les prototypes du nœud Visuel. Chaque ligne (ou colonne) décritl’ensemble flou représentant le pattern associé à chaque prototype.

BAPAMA DATANA GAKA

BAPAMA 1 0.5 0

DATANA 0.5 1 0.8

GAKA 0 0.8 1

Tab. 3.4 – Paramètres de nœud utilisés par défaut.

τr τs a b c knoise kin

50 10 4 0.7 1 0.3 1

Page 165: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

3.1. L’effet McGurk 165

Tab. 3.5 – Matrice de connectivité donnant le poids des liens entre les nœuds du réseau.

Auditi f Visuel Integration RelaisV RelaisV Decision

Auditi f 0 0 0 0 0 0

Visuel 0 0 0 0 0 0

Integration 1 0.4 0 0 0 0

RelaisV 0 1 -1 0 0 0

RelaisA 1 0 -1 0 0 0

Decision 0 0 1 1 1 0

tions et la conjonction sont reproduits dans le tableau 3.5 Certains paramètres sontnéanmoins spécifiques à certains nœuds (table 3.6). Ainsi, la pente de la fonction

Tab. 3.6 – Paramètres spécifiques à certains nœuds.

Integration c 2

RelaisA kin 0

RelaisA kin 0

d’activation du nœud Integration est plus importante pour accentuer encore l’ef-fet supra-additif de la fonction d’agrégation, et l’intensité des inhibitions latéralesest moins importante. De plus, les nœud RelaisV et RelaisA n’ont pas d’inhibitionslatérales, ce qui a pour effet de les rendre tout à fait «transparents» en terme desimilarité : le type de la sortie de RelaisA, par exemple, est exactement le mêmeque celui de l’entrée, c’est-à-dire que la sortie de Auditi f (avec quand même leslégères modifications introduites par le bruit au niveau de RelaisV).

Les stimuli. Les stimuli sont définis très simplement à partir des caractéristiquesdu phonème correspondant. Ainsi le type de l’entrée ModeAuditi f

ext est un ensembleflou réduit à un singleton et de noyau {Sonore} tandis que le type de LieuAuditi f

ext

est le singleton {Labial}. Les autres stimuli sont définis de la même manière, enfonction de la table 3.1.

Page 166: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

166 Chapitre 3. Applications

3.1.2.3 Résultats de la simulation

Les résultats du modèle pour les stimuli non ambigus sont représentés sur lafigure 3.4, où ils sont comparés avec les observations équivalentes réalisées chezl’homme (Rouger et coll. 2008). Comme les sujets normo-entendants, le modèlecatégorise parfaitement les huits phonèmes proposés, que ce soit à partir de laseule dimension auditive, ou à partir d’une stimulation visuo-auditive. La stimu-lation visuelle permet de catégoriser correctement le lieu d’articulation, comme ilapparaît plus clairement sur la matrice de confusion représentée sur la figure 3.5.Pour comparaison, les matrices de confusion obtenues par Rouger et coll. (2008)pour les sujets normo-entendants en auditif et visuel seuls sont reproduites sur lafigure 3.6.

En ce qui concerne les stimuli de type McGurk, ils se divisent en deux séries.La première série comprend trois stimuli différents composés d’une informationvisuelle correspondant à un ga et d’une information auditive correspondant à un/ba/, un /pa/ ou un /ma/. Dans ce cas, les sujets perçoivent respectivement «da»,«ta» et «na». Les résultats du modèle sur ces stimuli correspondent à cette observa-tion, comme montré sur la figure 3.7. La deuxième série de stimuli incongruents estcomposée d’une information visuelle correspondant à un ma et d’une informationauditive pouvant être un /da/, un /ta/ ou un /na/. Les expériences montrentque ces stimuli génèrent les perceptions «bda», «pta» et «mna» respectivement.Cette fois, le modèle fournit des résultats sensiblement différents même s’ils y sontquand même liés (cf. figure 3.8). Cela est dû à un manque dans le modèle que nousdiscuterons par la suite.

3.1.2.4 Analyse

Comparaison avec les sujets normo-entendants. Dans l’ensemble, même ce mo-dèle très simple d’intégration visuo-auditive du langage parlé donne de bons ré-sultats par rapport aux résultats expérimentaux. En particulier, il réalise très bien lafusion des lieux d’articulation. Cependant, pour la deuxième série de stimuli incon-gruents (labiale visuelle et dentale auditive), le modèle ne fournit pas de résultats

Page 167: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

3.1. L’effet McGurk 167

A

0

10

20

30

40

50

60

70

80

90

100

V AV

Rouger et col., 2008

SimBa

Fig. 3.4 – Résultats de la simulation du modèle en réponse aux stimuli non ambigus, présentésde manière unimodale ou multimodale. Les résultats du modèles sont comparés avec les résultatsobtenus par Rouger et collaborateurs (2008). Le groupe A montre les résultats pour les stimulipurement auditifs, le groupe V pour les stimuli purement visuels, et le groupe AV pour les stimulivisuo-auditifs.

Phon

èmes

per

çus

Auditif seul Visuel seul Visuo-auditif

Matrices de confusion

Fig. 3.5 – Résultats de la simulation du modèle présentés sous forme de matrices de confusion.Les stimuli sont affichés en horizontal et les réponses en vertical. Parmi les réponses perçues, lesréponses de type composition («BDA», «PTA», etc.) sont obtenues quand, malgré les inhibitionslatérales qui tendent à forcer un vainqueur unique, plusieurs prototypes sont activés d’une manièrequi ne permet pas de décider avec certitude quelle est la réponse. Il apparaît clairement sur la matricecorrespondant aux réponses à partir d’une stimulation purement visuelle que le lieu d’articulationau moins est reconnu (structure par blocs).

Page 168: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

168 Chapitre 3. Applications

Auditif seul Visuel seul

Fig. 3.6 – Matrices de confusion en catégorisation phonémique pour les sujets normo-entendants enconditions auditive seule et visuelle seule. Les stimuli sont affichés en horizontal et les réponses envertical. La structure par bloc dans la condition visuelle seule apparaît bien, mettant en évidence lepeu d’influence du mode d’articulation sur la modalité visuelle. Adapté et traduit de Rouger et coll.(2008) avec autorisation de Elsevier Ltd.

0

10

20

30

40

50

60

70

80

90

100

0

10

20

30

40

50

60

70

80

90

100

Rouger et col., 2008

SimBa

Perception dumode auditif

Perception dumode visuel

Perception dulieu auditif

Fusion deslieux A et V

Combinaison des lieux A et V

Perception dumode visuel

Catégorisation du mode Catégorisation du lieu

Stimuli McGurk : Labiale A et Vélaire V

Fig. 3.7 – Résultats du modèle pour les stimuli incongruents du type ga plus /ba/, /pa/ ou /ma/. Lesrésultats sont comparés avec ceux de Rouger et collaborateurs (2008).

Page 169: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

3.1. L’effet McGurk 169

0

10

20

30

40

50

60

70

80

90

100

0

10

20

30

40

50

60

70

80

90

100

Rouger et col., 2008

SimBa

Perception dumode auditif

Perception dumode visuel

Perception dulieu auditif

Combinaison des lieux A et V

Perception dumode visuel

Catégorisation du mode Catégorisation du lieu

Stimuli McGurk : Dentale A et Labiale V

Fig. 3.8 – Résultats du modèle pour les stimuli incongruents du type ba plus /da/, /ta/ ou /na/. Lesrésultats sont comparés avec ceux de Rouger et collaborateurs (2008).

hybrides comme observés dans les expérimentations. Par exemple, au lieu de ré-pondre «bda» pour un stimulus aba+/ada/, il répond «da». La raison de cela estdouble. Premièrement, le réseau construit est simple et ne prend pas en compte ungrand nombre de mécanismes intervenant en amont de l’intégration. Plus précisé-ment, le traitement visuel est connu pour être plus rapide que le traitement auditif,ce qui introduit un décalage entre les deux modalités. L’information concernantl’articulation visible arrive donc en premier, ce qui devrait temporairement biai-ser l’intégration du côté d’une labiale dans notre exemple. Deuxièmement, le for-malisme SimBa est particulièrement conçu pour reconnaître des patterns spatiauxd’activité neuronale. Or, la prononciation du langage est un processus hautementdynamique. Les valeurs des attributs que nous utilisons (mode et lieu d’articu-lation) ne sont pas instantanées, mais il s’agit plutôt de schémas étalés dans letemps. Ainsi, l’articulation d’une labiale part de lèvres fermées qui s’ouvrent brus-quement, tandis que les dentales et les vélaires sont articulées avec les lèvres ou-vertes tout le long. On peut considérer que le type labiale représente tout le schémaarticulatoire d’une manière compacte et le fait que les schémas pour une labialeet une dentale commencent tout à fait différemment pour ensuite être similairesest difficile à capturer avec les similarités de SimBa. En résumé, le formalismeSimBa ne peut pas facilement s’accommoder de patterns spatio-temporels. Il estpossible de contourner ce problème en décomposant un pattern spatio-temporelen une séquence de sous-patterns spatiaux qui peuvent être reconnus par des po-pulations successives. Cette solution impose donc un niveau de modélisation bienplus fin que celui qui est proposé pour cette application. Cette limitation illustre

Page 170: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

170 Chapitre 3. Applications

un des aspects fondamentaux de la modélisation par SimBa (et de toute modélisa-tion utilisant des réseaux de populations de neurones) : l’échelle de modélisationimpose des restrictions quant à ce qui est modélisable ou non. C’est particulière-ment visible pour l’effet McGurk, dans la mesure où le percept stable et réellementsaillant en réponse à un stimulus ba+/da/ est «da», l’apparition de la consonne «b»ne constituant qu’un phénomène transitoire probablement induit par le décalagetemporelle entre la vision et l’audition. En revanche, pour un stimulus ga+/ba/, lepercept stable est bien «da». C’est ce qui est capturé par le modèle, les phénomènestransitoires étant «lissés» par l’échelle de modélisation choisie. Ce lissage apparaîtde manière très «graphique» sur les matrices de confusion, en particulier dans lacondition visuelle seule, où les réponses des sujets sont plus dispersées que cellesdu modèle. Notons cependant qu’il y a plus de stimuli et donc de réponses dansl’expérience de Rouger et coll. (2008) que dans notre modèle, ce qui accentue cettedispersion.

Simuler le handicap. Les données comparées aux résultats du modèle SimBa in-cluent les informations sur la manière dont des patients ayant reçu un implantcochléaire perçoivent et intègrent le langage parlé. Il aurait donc été intéressantde pouvoir modifier le modèle, en le lésant, pour pouvoir reproduire les mêmesperformances que les patients. Pour Rouger et coll. (2008), les performances d’en-codage auditif de la prothèse, inférieures à celles d’une oreille, sont à l’originedes performances dégradées des patients. Une manière de prendre cela en compteserait de dégrader la qualité de l’information auditive. Les patients ayant aussi dé-veloppé leur capacité de discrimination visuelle, ils sont aussi de meilleurs intégra-teurs visuo-auditifs (Rouger et coll. 2007), ce qui suggère en plus une modificationdes poids en faveur de l’entrée visuelle dans l’intégration. Nous n’avons cependantpas pu reproduire les performances des patients avec ce modèle. Le traitement tropintégré de l’audition en est probablement la raison. La prothèse dégrade le son enenlevant les hautes fréquences. Or celles-ci sont utilisées pour «désambiguiser» desperceptions, en particulier dans un environnement bruité. Un modèle représentantde manière plus détaillée les étapes du traitement auditif pourrait probablementmieux tenir compte des dégradations spécifiques dues à la prothèse.

Page 171: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

3.2. Le Wisconsin Card Sorting Test 171

3.2 Le Wisconsin Card Sorting Test

3.2.1 Un test clinique

Le test de tri de cartes du Wisconsin (WCST pour Wisconsin Card Sorting Test)est un test neuropsychologique de flexibilité mentale largement utilisé pour évaluercertains aspects du syndrome dysexécutif.

3.2.1.1 Méthode

Quatre cartes portant des symboles différants en nombre, couleur ou forme(voir figure 3.9) sont placées par l’examinateur devant le sujet, auquel on donneun jeu de cartes de réponse. On lui demande alors de mettre une carte réponse enface de la carte stimulus appropriée, en se fondant sur une règle de tri que l’exa-minateur a fixée (trier par nombre, par couleur ou par forme), mais qu’il ne luicommunique pas. L’examinateur lui indique ensuite par oui ou non si la réponseest juste et c’est le seul indice qui lui est donné en retour. Après dix bonnes ré-ponses consécutives, l’examinateur change la règle en disant simplement « non ».Le sujet doit alors trouver la nouvelle règle de tri et réussir dix bons essais. La règleest alors changée à nouveau jusqu’à ce que six tours aient été effectués ou que lepaquet de cartes soit épuisé.

3.2.1.2 Usage clinique

Milner (1963) montra que les patients atteints de lésion du lobe frontal pré-sentent des troubles caractéristiques dans l’exécution du Wisconsin Card SortingTest. En comparant avec des patients porteurs de lésions cérébrales identifiées,suite à une intervention neurochirurgicale dans le cas d’épilepsie ou de tumeurs,Milner parvint à montrer que ces troubles sont relativement spécifiques des lobesfrontaux. Il est particulièrement frappant que les patients «frontaux» soient inca-pables d’utiliser les informations antérieures pour guider leur choix. La sensibilitédu Wisconsin Card Sorting Test aux perturbations fonctionnelles du lobe frontal està mettre en lien avec l’implication de celui-ci dans la mémoire de travail, l’attentionet surtout l’inhibition des actions programmées pour s’adapter à un contexte chan-geant, trois aspects mis à contribution par le WCST. Pour répondre correctement,

Page 172: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

172 Chapitre 3. Applications

Couleur Nombre Forme Hasard ?

Cartes Stimuli

Cartes Réponses

Fig. 3.9 – Matériel utilisé dans le Wisconsin Card Sorting Test (adapté de Dehaene et Changeux1991). Le patient doit placé chaque carte réponse sous une des quatre cartes stimuli. L’expérimen-tateur l’informe ensuite de la validité de son choix. Sur la base de cette information, le patient doitdécouvrir la règle de tri correcte : couleur, nombre ou forme.

Page 173: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

3.2. Le Wisconsin Card Sorting Test 173

le sujet doit retenir les informations concernant l’essai précédent et les utiliser pourguider son comportement aux essais suivants, mais il doit aussi changer sa règlede comportement lorsqu’elle devient caduque.

En clinique, ce test est largement utilisé par les neuropsychologues chez les pa-tients atteints de lésions cérébrales et de maladies neurodégénératives pour mettreen évidence de manière différentielle un syndrome dysexécutif, c’est-à-dire unedéficience des fonctions exécutives (cf. section 1.4.1.2, p.75). En particulier, les pa-tients présentant des lésions du cortex frontal dorso-latéral qui font un plus grandnombre d’erreurs « persévératives » que les sujets contrôles (Milner 1963). Ayantcompris la première règle de tri, ils continuent souvent de trier les cartes en fonc-tions de celle-ci bien après qu’elle ait expiré. Une analyse factorielle récente duWCST de Greve et coll. (2005) a montré que ces erreurs persévératives seraientla mesure la plus efficace et la plus statistiquement valable pour le diagnostic delésion frontale. Le WCST a été (et est encore) utilisé dans des paradigmes expé-rimentaux PET et IRMf où son exécution provoque chez les sujets des activationsdans le cortex préfrontal dorso-latéral (Berman et coll. 1995). Il est aussi beaucouputilisé dans l’étude de la schizophrénie qui implique aussi un syndrome dysexécu-tif (Rossi et coll. 2006, Cannon et coll. 2005).

3.2.1.3 Les modèles existants

Modéliser les fonctions cognitives impliquées dans le WCST requiert d’iden-tifier précisément les principaux systèmes cérébraux impliqués dans cette tâche.Une manière « naturelle » de décomposer le traitement cérébral qui se produitlorsqu’un sujet subit le WCST est de suivre la propagation de l’information dansles différents sous-systèmes cérébraux : le traitement visuel et l’extraction des di-verses dimensions du stimulus, le maintien en mémoire de travail, l’application dela règle de tri en cours, la génération de la réponse et finalement la prise en comptedu retour de l’examinateur pour modifier ou non la règle courante.

Le traitement visuel. La solution la plus simple pour modéliser le traitementvisuel est de considérer trois populations neuronales chacune spécialisée dans letraitement d’une dimension (couleur, forme et nombre). En fait, il faut deux foistrois populations, puisque trois populations serviront d’entrées au réseau et troispopulations serviront de mémoire de travail dédiée au maintien du stimulus. Cette

Page 174: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

174 Chapitre 3. Applications

solution est celle adoptée dans Dehaene et Changeux (1991) qui, les premiers, ontproposé une modélisation cérébrale des processus impliqués dans le WCST. On re-trouve aussi cette solution dans les travaux plus récents de O’Reilly et coll. (2002),Rougier et O’Reilly (2002) et Rougier et coll. (2005). C’est aussi cette approche quiest adoptée dans les travaux de Stemme et coll. (2005; 2007) traitant spécifique-ment du contrôle exécutif par le cortex préfrontal (PFC). Cependant, dans d’autrestravaux impliquant aussi le PFC, mais impliquant des simulations de plus grandeenvergure, ces populations sont remplacées par une simulation détaillée, à l’échelledu neurone, des aires primaires visuelles V1 et V4 (Deco et Lee 2004, Deco et Rolls2004; 2005). Cette dernière approche permet d’extraire les dimensions visuellessans recourir à des populations artificiellement séparées et constitue un exempled’analyse «mean-field» (cf. paragraphe 1.2.3.5, p.37). Elle permet de mener de frontune simulation détaillée à l’échelle du neurone et une interprétation plus fonction-nelle en termes de populations.

On pourra aussi remarquer la possibilité de séparer les dimensions traitéesici comme appartenant plus à la voie dorsale du traitement visuel (le nombre deformes peut être interprété comme différentes positions dans le champ visuel) ou àla voie ventrale (la couleur et la forme) (voir Felleman et Van Essen 1991, pour unedescription détaillée des différents traitements visuels spécifiques des voies ven-trale ou dorsale). Cette distinction est encore plus évidente si on utilise la tâche deWisconsin-like Delayed Match to Sample (WDMS) proposée dans Stemme et coll.(2005; 2007), où le nombre de dimensions est réduit à 2 : la forme de l’objet et saposition dans l’écran. Cette distinction entre voie ventrale et dorsale peut être inté-ressante lorsqu’on s’intéresse aux interactions existant entre ces deux voies. Decoet Rolls (2005) ont ainsi proposé un modèle où la reconnaissance de l’objet influe,au travers de liaisons en feedback, sur la localisation saillante (c’est-à-dire générantune activité stable et soutenue) et inversement, par le biais du PFC.

Le traitement visuel et son maintien en mémoire de travail achevé, le processusse poursuit sous le contrôle du PFC qui a la charge, entre autres, d’appliquer la(bonne) règle de tri courante.

L’implication du cortex préfrontal. Le PFC rempli des fonctions extrêmementvariées et complexes. Il est responsable de la flexibilité cognitive qui nous permetde passer d’une tâche à une autre en modifiant nos buts et donc notre manièred’agir (Dias et coll. 1997, Owen et coll. 1993, Roberts et coll. 1988). En pratique, la

Page 175: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

3.2. Le Wisconsin Card Sorting Test 175

manière dont le PFC effectue ces tâches reste en grande partie inconnue. Rougier etO’Reilly (2002) insistent plus, quant à eux, sur le rôle du PFC dans la mémoire detravail. Les capacités de contrôle cognitif du PFC semblent provenir de sa capacitéà maintenir une représentation des règles abstraites qui s’appliquent à la tâche encours et à passer de l’une à l’autre en fonction du contexte (Cohen et coll. 1990).Il est d’ailleurs remarquable que Dehaene et Changeux (1991) aient prédit (parun modèle décrivant les processus cognitifs mis en jeu par le WCST) l’existencede neurones codant spécifiquement pour ces règles abstraites, neurones qui serontensuite découverts expérimentalement chez le primate par White et Wise (1999).

Comme mentionné au paragraphe 3.2.1.2, un dysfonctionnement frontal qu’ilsoit causé par une lésion (accident vasculaire cérébral, traumatisme crânien) ouqu’il soit la conséquence d’une maladie dégénérative, provoque une chute nettedes performances au WCST. Plus exactement, les patients frontaux persévèrentsignificativement plus que les sujets sains dans l’utilisation d’une règle devenueerronée (Milner 1963). C’est aussi vrai pour toute perturbation des boucles striato-frontales : les patients atteints de la maladie de Parkinson, qui ne présentent pasd’atteinte directe du cortex frontal montrent les mêmes déficiences au WCST, lais-sant penser que ces boucles sont impliquées dans cette tâche (?). De nombreux tra-vaux de modélisation ont proposé des explications possibles à ce comportement.Ainsi pour Dehaene et Changeux (1991), des boucles striato-frontales endomma-gées impliqueraient une incapacité à prendre en compte la réponse de l’examina-teur. Rougier et coll. (2005) proposent un modèle où des lésions du PFC entraînentdes problèmes pour apprendre correctement les règles abstraites. Enfin, Stemmeet coll. (2005) semblent plus pencher pour des raisons multiples incluant l’impos-sibilité à maintenir correctement les stimuli et les règles, une mauvaise intégrationde la réponse, et des problèmes de type attentionel.

Les erreurs ne concernent pas uniquement les patients présentant des lésionsdes boucles striato-frontales. Les sujets sains aussi font des erreurs. Parmi elles, ontrouve des erreurs isolées, imputables probablement à une perturbation attention-nelle transitoire. Un modèle tout à fait précis de la tâche de WCST devrait doncreproduire et expliquer ces erreurs. Là où Dehaene et Changeux (1991) ignorentce problème, Rougier et O’Reilly (2002) ne le négligent pas. Mais ils concèdent (etStemme et coll. (2007) insisteront à nouveau) que leur solution n’est pas tout àfait satisfaisante : lorsque survient une récompense négative (et donc un mauvaisfeedback), une nouvelle règle est sélectionnée. Si cette erreur était isolée et injus-

Page 176: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

176 Chapitre 3. Applications

tifiée, cela provoque une instabilité du système qui va chercher à nouveau unerègle inutilement. La solution de Rougier et O’Reilly (2002) consiste à introduireun délai avant la récompense par le biais d’une moyenne sur les récompenses desessais précédents. Cela évite de changer de règle à cause d’une erreur isolée maiscela empêche aussi de chercher immédiatement une nouvelle règle après le premierfeedback négatif lors d’un changement de règle. Cela augmente donc artificiellementle nombre d’erreurs dues à la persévération. En introduisant un facteur attention-nel, Stemme et coll. (2007) dépasse cette limitation, au prix d’une complexificationdu modèle et d’une plus grande difficulté à comprendre les actions du modèle.

3.2.2 Modélisation et résultats

3.2.2.1 Le réseau

En s’inspirant des divers modèles cités précédemment, la prise en compte duPFC dans un formalisme de type SimBa peut se faire de la manière suivante :

– comme retrouvé classiquement dans les modèles du WCST, trois populationsreçoivent les informations concernant la carte en cours et agissent comme desmémoires de travail dédiées à chacun des trois attributs décrivant une carte.

– une population représente les neurones sélectifs aux règles abstraites (De-haene et Changeux 1991, Rougier et O’Reilly 2002, Rougier et coll. 2005,Stemme et coll. 2007).

– une population reçoit le signal d’erreur (qui peut provenir du circuit dopa-minergique comme suggéré dans Rougier et O’Reilly (2002)) qui va venircontrôler (et perturber) en partie le maintien des règles abstraites.

– à la population recevant le signal d’erreur est couplée une population agissantcomme une mémoire à moyen terme des règles récemment rejetées. Cettepopulation permet de ne pas choisir une règle qui a déjà été rejetée justeavant et donc de doter le système d’une mémoire (Dehaene et Changeux1991).

– Une entrée supplémentaire représente l’attention et vient influencer le main-tien des règles. C’est l’attention qui permet de conserver une règle active etdes fluctuations au niveau de cette entrée peuvent provoquer une mauvaisecatégorisation.

– Une population intègre les informations provenant des trois entrées repré-

Page 177: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

3.2. Le Wisconsin Card Sorting Test 177

sentant la carte, ainsi que la règle en cours et extrait la valeur de l’attributcorrespondant.

– Enfin, une population utilise cette information pour sélectionner une descartes réponse.

La figure 3.10 illustre le réseau ainsi construit.

La manière dont le réseau fonctionne est la suivante. Les nœuds Couleur, Formeet Nombre reçoivent l’information concernant la carte en cours. Ils ont donc cha-cun quatre prototypes correspondant aux quatre valeurs possibles de chacun desattributs (Rouge, Jaune, Vert, Bleu pour Couleur, Triangle, Carré, Disque, Etoilepour Forme, et Un, Deux, Trois, Quatre pour Nombre). L’entrée correspondant àl’attention vient en même temps exciter (de manière non sélective) le nœud Reglesqui possède trois prototypes correspondant aux trois règles de tri (Couleur, Formeet Nombre). Un de ces prototypes se stabilise au hasard (ce sont les perturbationsdues au bruit qui donnent un avantage à un prototype et les inhibitions latéralesqui amplifient cette différence). Le nœud Integration reçoit donc les informationsdes trois nœuds d’entrée, ainsi que la règle sélectionnée. Il possède douze attributs,qui associent à une valeur d’un des trois attributs la règle qui lui correspond : parexemple, le prototype Rouge de Integration s’active pour une information de typeRouge provenant de Couleur et pour une information de type Couleur provenantde Regles. L’activité des entrées y est agrégée de manière disjonctive. Le prototypedu nœud Integration «vainqueur» est ensuite envoyé vers Decision qui comptequatre prototypes, un par carte réponse. Ils sont définis de manière simple : le pro-totype qui correspond à la première carte, par exemple, et qui représente un seultriangle rouge, s’active pour une information de type Rouge, Triangle ou Un. Lacarte qui correspond à la valeur de l’attribut sélectionné grâce à la règle est doncchoisie. En fonction de la validité de la réponse, l’entrée alimentant Erreur est miseà jour : si elle est juste, il ne se passe rien et elle reste inactive, en revanche s’ily a une erreur, elle devient active et Erreur voit son activation augmenter. Erreurest connecté de manière inhibitrice avec Regles avec un poids important. La règleen cours est donc violemment inhibée et une autre émerge parmi les deux res-tantes. Le nœud MemErreur permet de s’assurer que la même règle ne sera paschoisie à nouveau car il handicape de manière durable les règles récemment inhi-bées : la durée de cette inhibition durable est contrôlée par le poids de l’autapse(connexion du nœud avec lui-même) qui compense en partie la fuite naturelle del’activité. Lorsque le prochain stimulus est présenté, une nouvelle règle est donc

Page 178: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

178 Chapitre 3. Applications

Couleurext Formeext Nombreext

Couleur Forme NombreAttentionext

ExtractionReglesErreurErreurext

IntentionMemoireErreur

Fig. 3.10 – Modèlisation du réseau fonctionnel impliqué dans la réalisation du WCST. Les entréesdu réseau (indicées par ext) fournissent les informations concernant la carte en cours (Couleurext,Formeext, Nombreext), la réponse (Oui/Non) de l’examinateur (Erreurext) et la valeur de l’atten-tion (Attentionext). Les erreurs successives sont d’abord reçues par Erreur, puis sont mémoriséesun temps grâce à la mémoire de l’erreur (Memoire Erreur). Les règles abstraites sont codées par lenœud Regles, tandis que le nœud Extraction réalise l’attribut correspondant à la règle en cours.Enfin, le nœud Intention utilise la valeur de cet attribut pour sélectionner une des quatre cartesréponses.

Page 179: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

3.2. Le Wisconsin Card Sorting Test 179

utilisée jusqu’à trouver la bonne. Notons que l’entrée correspondant à l’attentionpeut fluctuer, et éventuellement résulter en la perte d’une règle pourtant valide etdonc à la sélection d’une autre règle. Ceci à pour but de simuler des erreurs duesà l’inattention, comme observé lors des passations du test chez le sujet sain.

3.2.2.2 Le choix des paramètres

A la différence de l’application précédente sur l’effet McGurk, il n’y a pas, pource modèle, de difficulté concernant le choix des similarités. En effet, les différentesvaleurs des attributs sont considérées comme bien différenciées et il n’y a donc pasd’interaction entre les prototypes autres que les inhibitions latérales. Il reste doncà définir les autres paramètres du modèle. Les paramètres utilisés par défaut pourles nœuds sont donnés dans le tableau 3.7. Tous les nœuds agrègent l’information

Tab. 3.7 – Paramètres de nœud utilisés par défaut.

τr τs a b c knoise kin

30 10 4 1 1 0.3 1

de manière disjonctive. En ce qui concerne les paramètres spécifiques à certainsnœuds, ils sont listés dans le tableau 3.8. La constante de temps τr de Erreur re-

Tab. 3.8 – Paramètres spécifiques à certains nœuds.

Erreur τr 10

MemErreur kin 0

flète une réactivité très forte de ce nœud qui agit par bursts d’inhibition violente.L’absence d’inhibitions latérales pour le nœud MemErreur se justifie par le fait quece nœud conserve pendant un certain temps une mémoire des différentes règlesinhibées. L’absence de compétition permet donc de maintenir plusieurs prototypesactifs simultanément. Enfin, la matrice de connectivité donnant les poids des liensentre les nœuds est donnée dans le tableau 3.9.

Page 180: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

180 Chapitre 3. Applications

Tab. 3.9 – Matrice de connectivité donnant le poids des liens entre les nœuds du réseau.

Couleur Forme Nombre Erreur Regles MemErreur Integration Decision

Couleur 0 0 0 0 0 0 0 0

Forme 0 0 0 0 0 0 0 0

Nombre 0 0 0 0 0 0.9 0 0

Erreur 0 0 0 0 0 0 0 0

Regles 0 0 0 -10 0 -0.5 0 0

MemErreur 0 0 0 1 0 0 0 0

Integration 1 1 1 0 1 0 0 0

Decision 0 0 0 0 0 0 1 0

3.2.2.3 Résultats de la simulation

Les figures 3.11 et 3.12 montrent le comportement des huit nœuds durant lasimulation (seul le début de la simulation est montré). La figure 3.11 permet devoir les cartes présentées et les réponses associées (pour rappel, les cartes réponsesauxquelles sont associés les prototypes de Decision sont, dans l’ordre, «un trianglerouge», «deux étoiles vertes», «trois carrés jaunes» et «quatre disques bleus»). Lafigure 3.12 permet de voir les activations intermédiaires qui permettent ce résultat.En particulier, il est possible de voir que la règle qui se stabilise spontanément avanttout feedback est la règle «Forme», ce qui provoque la sélection par Integration duprototype Triangle, qui entraîne la sélection de la première carte. Or la réponseattendue était la quatrième carte (pour la couleur bleue). Une erreur est donc gé-nérée qui provoque le changement de règle. La règle sélectionnée est cette fois labonne, et la réponse suivante est, par conséquent, juste. Notons aussi l’effet dubruit qui est plus important au niveau du nœud Erreur, et ce en raison de sa faibleconstante de temps τr. Trente simulations complètes ont été faites et les résultats,en termes de nombre d’erreurs ont été comparés aux résultats obtenus par des su-jets sains ayant passé une version informatisée du test dans le cadre d’un protocolede recherche local (figure 3.13). La comparaison montre une bonne adéquation dumodèle avec les résultats expérimentaux.

Page 181: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

3.2. Le Wisconsin Card Sorting Test 181

0 200 400 600 800 1000 1200 1400 1600 1800 2000

0

0.2

0.4

0.6

0.8

1

Couleur

Temps (ms)

Activ

atio

n

0 200 400 600 800 1000 1200 1400 1600 1800 2000

0

0.2

0.4

0.6

0.8

1

Forme

Temps (ms)

Activ

atio

n

0 200 400 600 800 1000 1200 1400 1600 1800 2000

0

0.2

0.4

0.6

0.8

1

Nombre

Temps (ms)

Activ

atio

n

0 200 400 600 800 1000 1200 1400 1600 1800 2000

−0.1

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

Decideur

Temps (ms)

Activ

atio

n

BleuJauneRougeVert

CarreDisqueEtoileTriangle

DeuxQuatreTroisUn

Carte1Carte2Carte3Carte4

Fig. 3.11 – Exemple de simulation des populations Couleur, Forme, Nombre, et Decision. Lescartes réponses auxquelles sont associés les prototypes de Decision sont, dans l’ordre, «un trianglerouge», «deux étoiles vertes», «trois carrés jaunes» et «quatre disques bleus».

! "!! #!! $!! %!! &!!! &"!! &#!! &$!! &%!! "!!!

!!'"

!

!'"

!'#

!'$

!'%

&

Erreur

()*+,-.*,/

0123452367

-

-

! "!! #!! $!! %!! &!!! &"!! &#!! &$!! &%!! "!!!

!!'&

!

!'&

!'"

!'8

!'#

!'9

!'$

!':

MemErreur

()*+,-.*,/

0123452367

-

-

! "!! #!! $!! %!! &!!! &"!! &#!! &$!! &%!! "!!!

!!'"

!

!'"

!'#

!'$

!'%

&

Regles

()*+,-.*,/

0123452367

-

-

! "!! #!! $!! %!! &!!! &"!! &#!! &$!! &%!! "!!!

!

!'"

!'#

!'$

!'%

&

Integrateur

()*+,-.*,/

0123452367

-

-

;6<=)<>

?6>*)

@6*A>)

;6<=)<>

?6>*)

@6*A>)

;6<=)<>

?6>*)

@6*A>)

B=)<

;5>>)

C)<D

C3,E<)

F263=)

G5<7)

H<52>)

I6<J)

(>357J=)

(>63,

K7

L)>2

Fig. 3.12 – Exemple de simulation des populations Erreur, MemErreur, Regles, et Integration.

Page 182: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

182 Chapitre 3. Applications

Cartes Correctes Fausses Persistantes Incoherentes0

10

20

30

40

50

60

70

80

90

100

SimulationSujets Sains

Fig. 3.13 – Résultats de la simulation comparés aux résultats de sujets sains. De gauche à droite, lesbarres représentent le nombre de cartes nécessaires pour finir le test, le nombre de bonnes réponses,le nombre de mauvaises réponses, le nombre d’erreurs de persévération et le nombre d’erreurs inco-hérentes. Les déviations standard sont représentées avec chaque moyenne.

Page 183: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

3.2. Le Wisconsin Card Sorting Test 183

3.2.2.4 Analyse

Comparaison avec les sujets sains. Les résultats obtenus par le modèle sont toutà fait proches de ceux obtenus par les sujets sains, ce qui, en soi, remplit en partiel’objectif fixé pour cette simulation. La différence observée au niveau des dévia-tions standard peut s’expliquer par plusieurs raisons. En premier lieu, comme ila été dit pour l’effet McGurk, le modèle capture un comportement moyen à unecertaine échelle de modélisation. Cela a pour effet de «gommer» un grand nombrede variations existant dans le système réel et qui sont génératrices de divergenceset d’erreurs. Il est donc normal d’avoir des résultats plus stables avec un modèle telque celui-ci, surtout compte tenu de sa simplicité par rapport à la complexité desmécanismes réels mis en jeux. En second lieu, le modèle fait abstraction de partiesimportantes du traitement, à savoir les traitements primaires qui permettent d’ob-tenir la représentation des couleurs, des formes et de leur nombre sur une carte, etles traitements visant à réaliser le mouvement de classification de la carte en courssous la bonne carte réponse. Les deux mécanismes sont eux aussi générateurs devariations, même si les variations introduites par les traitements primaires ne sontprobablement pas à l’origine de plus d’erreurs étant donnée leur simplicité. Lestraitements moteurs sont potentiellement à l’origine d’erreurs même s’il est difficiled’être affirmatif. En effet, les sujets passant le WCST se plaignent couramment des’être trompé de carte, alors qu’ils savaient où la classer. Généralement interprétécomme des erreurs dans la décision, on ne peut exclure complètement de rare casd’erreurs véritablement dues à une mauvaise planification du mouvement. Quoiqu’il en soit, ces deux traitements n’étant pas modélisés ici, il est impossible decomparer les temps de réaction obtenus par le modèle avec ceux obtenus par lessujets.

Comparaison avec les autres modèles. Notre modèle a l’avantage d’une repré-sentation compacte qui ne nécessite pas de modéliser séparément toutes les po-pulations impliquées dans la détection de chacune des valeurs des attributs. Lasélectivité est incluse dans les populations et pas dans la construction du réseau :pour rajouter une cinquième couleur au WCST, il n’est pas nécessaire de recons-truire le réseau, il suffit de rajouter les prototypes correspondants. En revanche,en termes de fonctionnement du réseau (et pas de sélectivité des populations),d’autres modèles proposent des architectures fonctionnelles différentes, même sien grande partie similaires.

Page 184: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

184 Chapitre 3. Applications

Monchi et coll. (2000) proposent un modèle avec une organisation très sem-blable où des populations situées dans le PFC intègrent l’information en fonctionde règles de tri, elles aussi encodées dans le PFC. Le maintien des règles est per-turbé en cas de mauvaise réponse par une inhibition provenant de l’amygdale (cir-cuits de la récompense). A la différence du modèle proposé ici, cependant, Monchiet coll. (2000) modélisent en détail les boucles baso-frontales qui jouent un rôledans la sélection de l’attribut pertinent. Cette décomposition constitue une pistepour décomposer fonctionnellement le nœud Integration du modèle qui sembleimpliquer le PFC et le striatum.

Dehaene et Changeux (1991) proposent quant à eux un modèle où sont pré-sents les mêmes éléments à l’exception d’une population effectuant explicitementla sélection de l’attribut correspondant à la règle en cours. La sélection se fait parune inhibition sélective des connexions liant les nœuds d’entrée aux nœuds encharge de la décision. Dehaene et Changeux (1991) discutent aussi de la manièredont les erreurs successives peuvent être mémorisées pour optimiser la stratégiede recherche de la bonne règle. Ils utilisent la vitesse de récupération des règlesaprès une inhibition pour simuler une mémoire des règles récemment inhibées,mécanisme similaire à la mémoire des erreurs utilisée dans notre modèle, qui dé-prime aussi les règles récemment inhibées. En fonction de la longueur du maintiende cette mémoire, un comportement de recherche plus ou moins aléatoire est ob-tenu. Ils proposent en plus un mécanisme d’auto-évaluation permettant de fairedes inférences de haut niveau pour éliminer toutes les règles qu’une erreur peutimpliquer et pas uniquement la règle en cours. Si cet ajout permet effectivementune recherche optimale des règles, il confère au modèle des capacités supérieuresaux capacités des sujets sains : le modèle doté de la boucle d’auto-évaluation necommet plus d’autre erreur que celles qui sont inévitables (à chaque changementimplicite de stratégie). En revanche, le modèle sans cette boucle mais avec unemémoire des erreurs commet environ 12% d’erreurs persévératives, ce qui est dumême ordre de grandeur que ce qui est observé chez les sujets sains, ainsi que dansle modèle SimBa.

Rougier et coll. (2005) proposent un modèle général qui permet l’apprentissageautomatique de règles abstraites s’appliquant à des tâches diverses. Ils proposentainsi une application de ce formalisme au WCST, mais il s’agit d’une version sim-plifiée qui ne permet pas la comparaison directe avec le modèle SimBa. Cependant,il est notable que le modèle de Rougier et coll. (2005) est particulièrement dépen-

Page 185: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

3.2. Le Wisconsin Card Sorting Test 185

dant d’un système de règles pouvant fonctionner dans deux états : un état stablede maintien actif des règles et un état instable permettant le changement rapide derègles en fonction du contexte. Cette transition est appelée adaptive gating (O’Reilly2006) et est implémentée par des circuits dopaminergiques cortico-basaux. Toutcomme pour le modèle de Monchi et coll. (2000), cette précision donne une bonneindication quant à la manière de décomposer fonctionnellement le nœud Erreurde manière à prendre plus finement en compte les mécanismes de gestion de larécompense.

Parmi les autres modèles des réseaux impliqués dans la réalisation du WCST,notons aussi le modèle proposé par Stemme et coll. (2005; 2007) qui implique des si-mulations d’un très grand nombre de neurones dans le cadre de l’approche «mean-field». Ce modèle a l’avantage de générer de manière très précise les activités despopulations impliquées, activités qui sont qualitativement similaires aux activitésgénérées par notre modèle. L’architecture du réseau, cependant, est différente : despopulations maintenant les règles de tri viennent inhiber les populations encodantles attributs non pertinents au lieu de contribuer à l’activation d’une populationeffectuant la sélection comme dans le modèle SimBa.

Simuler les pathologies. Les patients atteints de la maladie de Parkinson (MP)et de Huntington (MH) sont connus pour obtenir des résultats déficitaires auWCST (Taylor et coll. 1986, Weinberger et coll. 1988). Il serait donc intéressantde voir comment le modèle décrit peut simuler ces pathologies. La maladie deParkinson provoque une dégénérescence de la substance noire qui est elle-mêmefortement connectée au striatum. La substance noire produit aussi la dopamineet sa dégénérescence entraîne un profond déséquilibre dans la transmission de ceneurotransmetteur. La maladie de Huntington détruit, quant à elle, des connexionsinnervant le striatum et en particulier les voies de réception de la dopamine. Léserle modèle pour simuler la MH impliquerait donc de modifier les caractéristiquesdes nœud Integration et Erreur, tandis que simuler la MP impliquerait de modi-fier Erreur. Cependant, le niveau de modélisation du modèle ne permet pas desmodifications suffisamment fines et il serait nécessaire de décomposer de manièreplus précise ces deux nœuds, par exemple en s’inspirant des modèles plus détaillésdécrits précédemment.

Page 186: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

186 Chapitre 3. Applications

Généraliser le WCST. L’apport de la notion de similarité n’est pas évident danscette application, qui illustre plus les capacités du formalisme à modéliser desphénomènes cognitifs de haut-niveau aussi bien que de bas-niveau. Cependant,la capacité du modèle à gérer naturellement les similarités lui confère une certainerobustesse que les autres systèmes n’ont pas, pour peu que le protocole expérimen-tal soit légèrement modifié. En effet, le modèle SimBa continuerait de fonctionnersans problème pour un WCST généralisé, où les couleurs des cartes stimuli, parexemple, pourraient varier légèrement autour des quatre couleurs déjà existantes.En revanche, si les variations de couleurs devenaient importantes, jusqu’à être àl’origine d’erreurs de classification (un violet plus proche du bleu classé en rougepar exemple), le modèle aurait probablement besoin d’être modifié pour pouvoirrépondre au problème de l’attribution de la responsabilité de l’erreur : un sujetpourra probablement deviner que l’erreur obtenue est due à une mauvaise clas-sification des couleurs, mais le modèle, tel qu’il est conçu, traduira toujours uneerreur par un changement de règle. Une prise en compte plus fine du mécanismed’erreur serait donc probablement nécessaire pour rendre compte de ce protocolemodifié.

Conclusion du chapitre

Dans cette section, deux applications du formalisme SimBa ont été présen-tées. La première propose une hypothèse fonctionnelle simple d’intégration visuo-auditive du langage qui permet de reproduire l’effet McGurk, et ce, avec des per-formances qui peuvent être comparées aux résultats obtenus par des sujets normo-entendants. Le modèle reste cependant très simple et ne constitue qu’une hypo-thèse de fonctionnement, sans prétendre que c’est de cette manière que l’intégra-tion est faite. Sa simplicité ne lui permet pas non plus de rendre compte des perfor-mances spécifiques aux patients implantés cochléaire. Des pistes pour l’améliorersont néanmoins proposées.

La seconde application est un modèle du réseau impliqué dans la résolutionde la tâche de Wisconson Card Sorting Test, un test neuropsychologique mettanten évidence des troubles dysexécutifs. Les résultats du modèle reproduisent demanière satisfaisante les performances des sujets sains. Le modèle doit cependantêtre encore détaillé pour pouvoir reproduire les effets de pathologies qui influentsur les performances au WCST.

Page 187: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

3.2. Le Wisconsin Card Sorting Test 187

Malgré leurs manques, ces deux applications visent à démontrer la polyvalencedu formalisme SimBa. Il peut être appliqué à des problèmes de natures diverses,que ce soient des fonctions d’assez bas niveau comme les premières étapes dutraitement du langage, ou des fonctions plus évoluées comme le contrôle exécutifà partir de règles abstraites dans le PFC. Les manques des deux modèles proposéssont dus à leur construction même, et non au formalisme. Les pistes évoquées pourles améliorer sont exploitables dans le cadre de SimBa. C’est même là la principaleforce du formalisme de pouvoir s’adapter aux changements d’échelles.

Dans le chapitre suivant, nous discutons des caractéristiques de SimBa et dela manière dont il se positionne face à quelques uns des problèmes majeurs de lamodélisation cérébrale. Les perspectives d’amélioration seront aussi discutées, enparticulier en ce qui concerne le problème de l’apprentissage et de la plasticité.

Page 188: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III
Page 189: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

Discussion 4

Les différents aspects de SimBa ayant été discuté en détail dans les chapitres 2

et 3, cette discussion sera volontairement très synthétique. Dans un premiertemps, nous discuterons de son intérêt en regard des autres approches existantes.Les limites et manques du formalisme seront aussi mis en perspective et des voiesd’amélioration et de développement seront proposées. Nous discuterons enfin de laposition de SimBa face à quelques grands problèmes théoriques de la modélisationdu traitement de l’information cérébrale.

189

Page 190: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III
Page 191: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

4.1. Les formalismes de traitement de l’information cérébrale 191

4.1 Les formalismes de traitement de l’information

cérébrale

A l’origine de ce travail se trouvait la volonté de mettre au point un forma-lisme permettant de décrire, d’une manière qui soit la plus biologiquement plau-sible, les mécanismes du traitement de l’information dans les réseaux cérébraux àgrande échelle. Dans cette optique, un des problèmes auquel il a fallu faire faceest la multiplicité des échelles de modélisation possibles de ces réseaux. De l’unitéfondamentale de traitement cérébral qu’est le neurone, aux régions importantesfonctionnellement mises en évidence par les techniques de neuroimagerie, la largegamme de traitements possibles de l’information nécessite un formalisme flexiblecapable de capturer leurs caractéristiques communes tout en permettant des com-portements très divers. Nous avons fait l’hypothèse que le traitement commun àtoutes les échelles de représentation est un pattern matching de l’information en-trante avec des prototypes, qui a lieu à toutes les étapes du traitement. Ces pat-terns sont comparés à des représentations internes aux unités de traitement (lesprototypes). Le traitement effectué à partir de cette identification des patterns peutensuite varier grandement d’une population à l’autre, et d’une échelle à l’autre.D’un comportement très contraint et limité à l’échelle d’un neurone individuel,il peut devenir très complexe pour une population de grande taille. Cependantla complexité n’est jamais que déplacée : la simplicité du traitement effectué parun neurone est compensée à l’échelle du réseau par la complexité de ses relationsaux autres neurones. A l’opposé, un réseau constitué de populations larges pourraêtre décrit avec peu de connexions mais les traitements opérés en leur sein seranécessairement complexe. Pour construire un modèle, il est, sans conteste, plus fa-cile de partir d’un réseau de populations assez importantes dont les interactionspeuvent être conceptualisées relativement aisément. Les études en neuroimage-rie sont pour cela une source riche de réseaux. Une fois ce «squelette» à grandeéchelle posé, il est possible d’en détailler les composants, et le formalisme SimBapermet de le faire de manière transparente d’un point de vue formel. Au plus basniveau de modélisation, les populations peuvent être remplacées par des réseauxde neurones individuels. L’important dans cette démarche, par rapport à d’autresapproches similaires comme l’analyse «mean-field» (Amit et Brunel 1997, Brunel etWang 2001) est, qu’en procédant par décompositions successives, l’interprétationfonctionnelle peut être conservée, ce qui permet de comprendre comment l’infor-mation est traitée, ce qui est rarement possible lorsque de larges populations de

Page 192: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

192 Chapitre 4. Discussion

neurones générées aléatoirement sont simulées. Ce processus par étapes maîtriséesva à l’encontre des simulations massives de neurones qui reposent sur le phéno-mène d’émergence.

Le processus de modélisation par SimBa apparaît donc comme fondamenta-lement top-down. Cependant, les mécanismes sur lesquels il repose trouvent leurorigine dans la dynamique neuronale. Il peut donc être vu comme une approchebottom-up pour modéliser des phénomènes cognitifs de haut niveau, comme laréalisation du WCST. C’est pour cette raison que nous affirmons que le forma-lisme SimBa, ainsi que les autres formalismes de réseaux causaux à grande échelle(RAGE, BioCaEe), constituent une approche intermédiaire, permettant de rendrecompte de modèles symboliques de haut niveau de la cognition, mais en fournis-sant un cadre pour y incorporer autant de données neurophysiologiques que dis-ponibles. Sa représentation de l’information d’une manière duale, symbolique etnumérique, constitue pour cela une interface naturelle entre modèles symboliqueset numériques. Ces modèles hybrides permettent ainsi la synergie entre ces deuxdisciplines cousines que sont l’intelligence artificielle et les neurosciences compu-tationnelles (Sun et Alexandre 1997). L’approche SimBa se différencie donc d’ini-tiatives comme ACT-R qui, partant de modèles purement cognitifs, tentent de lesadapter a posteriori au fonctionnement cérébral : les modèles SimBa sont ancrésdès la conception dans la dynamique cérébrale et peuvent être ensuite dévelop-pés dans une direction plus cognitive ou plus connexionniste en fonction des butsrecherchés.

Un formalisme tout aussi ancré dans la dynamique neuronale existe pourtantdéjà pour décrire des réseaux de populations neuronales. Il s’agit des modèles parfréquences de décharge utilisant les équations de Wilson et Cowan (1972). A deséchelles de modélisation trop larges, ils souffrent, cependant, de limitations, dansla mesure où ils ne prennent pas en compte de manière aisée la sélectivité despopulations. Cette sélectivité est en revanche bien capturée par des formalismescomme les cartes auto-organisées de Kohonen (Kohonen 1982). Ces formalismesont été utilisés pour reproduire de manière convaincante la sélectivité de régionscérébrales importantes (Erwin et coll. 1995, Obermayer et coll. 1995). D’une manièretrès synthétique, il est possible de voir le formalisme SimBa comme apportant unmécanisme de cartes corticales abstraites aux modèle de Wilson et Cowan, avec ladifférence majeure que ces cartes ne sont pas auto-organisées (cf. section 4.2).

L’introduction de la sélectivité est permise par l’utilisation originale de tech-

Page 193: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

4.2. Limites et perspectives 193

niques provenant de l’intelligence artificielle : la théorie des ensembles flous et despossibilités. Celle-ci permet au formalisme de modéliser les interactions existantesentre les différents patterns d’activité et ce, d’une manière compacte. La théorie despossibilités permet, par essence, une représentation qualitative de ces relations, cequi correspond parfaitement au fait que manipuler les patterns d’activité commedes symboles est une approximation finalement assez grossière. Comme discutéà la section 2.2.2.3, la représentation des patterns de manière binaire en particu-lier, constitue une simplification importante. De ce fait, il serait déraisonnable devouloir calculer précisément des relations entre ces patterns, alors même que cespatterns sont eux-même très imprécis. La nature qualitative de la représentationpar ensembles flous est donc parfaitement adaptée. De plus, cette représentationouvre la voie à l’utilisation de tout l’éventail des techniques qui leur sont dédiées,tel que le pattern matching flou. L’aspect possibiliste du formalisme SimBa permetaussi d’envisager comment certains modèles pourront être plus symboliques, etd’autres plus numériques. En effet, plus la quantité d’informations biologiques estimportante, plus un modèle pourra tendre vers une simulation purement numé-rique nécessitant un minimum d’approximation symbolique, tandis qu’un modèled’un système mal connu fera appel de manière plus systématique à la souplesse dela représentation symbolique. En résumé, le volet symbolique du formalisme per-met de faire le lien avec la représentation macroscopique du modèle telle qu’ellepeut être conçue par le modélisateur : si cette représentation est toute l’informationdont il dispose, le modèle ne pourra pas être plus détaillé. En revanche, dans lecas contraire, la simulation pourra être détaillée numériquement tout en gardantl’interprétation symbolique indispensable à une bonne visibilité du traitement del’information dans le réseau.

Le formalisme SimBa possède cependant un certain nombre de manques et li-mitations qui demanderont à être améliorés dans l’avenir. C’est l’objet de la sectionsuivante.

4.2 Limites et perspectives

4.2.1 Des réseaux peu contraints

Un des aspects problématiques des modèles construits à partir du formalismeSimBa est le grand nombre de paramètres qu’il faut ajuster. Les similarités entre

Page 194: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

194 Chapitre 4. Discussion

les prototypes, par exemple, sont très peu contraintes par le formalisme et laissentle modélisateur face à la tâche ardue de les ajuster. A ces similarités, il faut rajouterles paramètres des nœuds tels que les constantes de temps ou l’intensité des inhibi-tions latérales, ainsi que les poids des connexions entre les nœuds. Il en résulte desmodèles qui sont en général sous-contraints. En fonction du modèle, il est possibled’apporter des contraintes extérieures, par exemple grâce à des résultats compor-tementaux qui informent sur les similarités probables. C’est ce qui a été fait pour lamodélisation de l’effet McGurk, où les similarités entre les prototypes ont pu êtreévaluées à partir des résultats expérimentaux de discrimination. La connectivitéentre les populations peut aussi être contrainte par des connaissances anatomiquesou par des études de connectivité en neuroimagerie. Il reste néanmoins difficilede contraindre fermement des modèles à cette échelle, les données étant trop raresou trop imprécises. Lors de la présentation du formalisme, nous avons essayé defournir, lorsque c’était possible, des valeurs admissibles pour les paramètres, maisla marge de variation reste large.

Cette limitation enlève de la valeur explicative aux modèles construits avec leformalisme, mais l’objectif même du formalisme SimBa impose en quelque sortecette sous-définition. Pour pouvoir s’adapter à différentes échelles de modélisation,une certaine flexibilité est nécessaire et, face à la grande variété des traitements cé-rébraux existants, cette flexibilité doit être grande. Plus l’échelle est large, plus lespopulations pourront jouer un rôle complexe dans les réseaux. Les modèles les pluscontraints, en tout cas en ce qui concerne les similarités et les fonctions d’agréga-tion, sont construits à une échelle très fine, là où les traitements dans chaque nœudsont peu complexes et où les patterns d’activités sont réduits. Le paragraphe sui-vant pose les jalons en vue d’une solution pour contraindre automatiquement unegrande partie des paramètres libres, à savoir les similarités.

4.2.2 L’apprentissage

L’absence d’un mécanisme d’apprentissage automatique des similarités est unmanque important du formalisme. Il a été dit que l’ensemble des prototypes d’unnœud pouvait être vu comme une carte corticale abstraite. Or, le propre des cartescorticales est qu’elles sont en général auto-organisées. Pouvoir apprendre automa-tiquement les similarités permettrait de réduire de manière drastique le nombre deparamètres libres des modèles.

Page 195: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

4.2. Limites et perspectives 195

Construire un mécanisme d’apprentissage pour SimBa doit reposer sur plu-sieurs aspects. En premier lieu, il doit s’agir d’un apprentissage non-supervisé,utilisant uniquement l’information circulant dans le nœud. En second lieu, il doitpermettre la création et la mise à jour de la base de prototypes, ainsi que l’établis-sement des similarités entre les prototypes. L’apprentissage étant non-supervisé,la similarité entre deux patterns doit émerger de leur co-occurrence. En s’inspi-rant du mécanisme d’apprentissage développé pour les RAGE (Labatut 2003), ilest possible de faire l’hypothèse de sept mécanismes qui pourraient intervenir, lescinq premiers traitant des prototypes eux-mêmes et les deux derniers traitant dessimilarités entre eux :

– L’introduction de prototype intervient lorsqu’une information non reconnuesurvient de manière répétée. Un prototype lui correspondant est alors ajoutéà la base.

– La fusion de prototypes se produit lorsque la similarité entre eux dépasse uncertain seuil et qu’ils peuvent être considérés comme représentant la mêmeinformation.

– Le glissement de prototype est le phénomène qui consiste à continuellementajuster les prototypes pour représenter au plus près l’information qu’ils cap-turent

– L’oubli désigne l’effacement d’un prototype devenu obsolète car n’étant plusactivé.

– Le renforcement consiste, à l’inverse de l’oubli, à donner plus d’importance àun prototype souvent activé, et ainsi le prémunir contre l’oubli.

– La co-occurrence consiste à augmenter la similarité entre deux prototypes quisont activés simultanément.

– La spécialisation est le mécanisme dual de la co-occurrence, qui, dans le casd’un prototype activé tout seul, diminue sa similarité avec tous les autres.

Ces mécanismes fonctionnent tous par paire, excepté le glissement, et devraients’équilibrer les uns les autres, de manière à obtenir une base de prototypes rela-tivement stable après la phase d’apprentissage. A ces mécanismes devraient êtreassociées des dynamiques de modification dont les échelles de temps seraient com-patibles avec les dynamiques de la plasticité cérébrale. Ces dynamiques devraientdans tous les cas être plus lentes que la dynamique d’activation et avoir des effetsà moyen et long termes.

Page 196: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

196 Chapitre 4. Discussion

4.2.3 Des validations expérimentales encore insuffisantes

Ce travail s’est principalement focalisé sur l’aspect théorique du formalisme. Ilreste cependant à construire des modèles pouvant être confrontés de manière ro-buste à l’expérience. Les applications proposées vont dans ce sens mais demandentà être encore détaillées pour pouvoir prendre en compte des pathologies associées.

Cette limitation est à nuancer par le fait que SimBa n’est pas une théorie dufonctionnement de telle ou telle partie du cerveau. Les applications proposées nefont que reprendre des architectures proposées précédemment. SimBa constitueplus un langage formel permettant de poser des hypothèses fonctionnelles et quirepose sur quelques considérations générales sur le fonctionnement du cerveau.Ces bases constituent les seules hypothèses du formalisme quant au fonctionne-ment du cerveau. C’est en particulier le cas du pattern matching et de l’organisationtopique généralisée à l’ensemble des traitements cérébraux. Cela n’enlève rien aufait que pour valider SimBa en tant que langage de modélisation cérébral, des mo-dèles solides s’appuyant sur ses mécanismes sont encore nécessaires.

Un autre aspect important du formalisme, à savoir son lien avec les réseauxmis en évidence par les études en neuroimagerie, reste aussi à être exploité. Enréalisant la convolution des activités neuronales générées par un modèle SimBaavec une réponse hémodynamique, il est possible de faire des comparaisons entreles résultats d’une simulation et des mesures faites en neuroimagerie, et ce demanière localisée. Mais l’interaction marche aussi dans l’autre sens, car SimBa acomme vocation, à terme, d’être un outil pour les neuroimageurs avec lequel ilspourront tester facilement une hypothèse fonctionnelle correspondant à un réseaude régions activées observé expérimentalement.

4.2.4 Développements théoriques

Il existe des perspectives intéressantes de développement de ce travail dans sonaspect plus théorique. En effet, il existe un certain nombre de «ponts» théoriquesexistants entre différents formalismes liés à SimBa. Ainsi, Balkenius et Gärdenfors(1991) ont montré qu’il était possible de faire de l’inférence non-monotone avecdes réseaux de neurones. Or les règle floues, qui sont sous-jacentes à l’associationprototype-pattern dans les nœuds du formalisme SimBa, permettent justement defaire de l’inférence non-monotone. Il pourrait donc être intéressant de montrer qu’il

Page 197: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

4.3. Les questions ouvertes 197

existe une équivalence entre un réseau de neurones et un système de règles flouestel que celui utilisé par un nœud fonctionnel. Il existe de nombreux travaux allantdans ce sens (Jang et Sun 1993, Benitez et coll. 1997, Jin et Sendhoff 2003, Mantaset coll. 2006).

4.3 Les questions ouvertes

Dans la modélisation du traitement de l’information cérébrale, le passage de lamodélisation des neurones à la modélisation des processus cognitifs de haut ni-veau, comme le langage dans son acceptation la plus complexe ou le raisonnementabstrait, pose certains problèmes théoriques complexes. Nous nous situons vis àvis de deux d’entre eux, à savoir le binding problem et le grounding problem.

4.3.1 Le «Binding Problem»

Le binding problem (BP) se pose lorsqu’on considère que le traitement cérébralest massivement parallèle, que les différentes modalités sensorielles sont traitéesdans un premier temps largement indépendamment et que pourtant ces infor-mations traitées en parallèle sont liées ensemble pour permettre la formation deconcepts évolués et utilisant les informations de toutes les modalités (von derMalsburg 1995, van der Velde et de Kamps 2002; 2006). La manière dont les neu-rones atteignent ce niveau de synchronisation, avec une telle robustesse, et malgrédes dynamiques largement variables reste un mystère. Ce problème devient par-ticulièrement important si on considère que l’observation d’une scène génère unnombre gigantesque de concepts qui sont tous multimodaux et qui doivent être liéscorrectement : «un enfant sur le trottoir jouant avec un ballon alors qu’une voiturepasse dans la rue» est une scène qui implique de «lier» le bruit du moteur avecl’image de la voiture et le bruit du ballon qui rebondit avec l’image du ballon, etrien ne garantit que l’image de la voiture ne «précède»1 pas celle de l’enfant dansles réseaux cérébraux alors que le son du ballon précède celui de la voiture.

Le BP constitue un des arguments principaux en faveur d’un codage neuronal

1La notion de position dans la chaîne des traitements est un raccourci commode mais, bien-sûr,inexact. Les traitements étant massivement parallèles, il est fort probable que l’image de l’enfant etde la voiture soient fragmentées et complètement mélangées dans les réseaux, image qui constitueencore une approximation commode mais inexacte...

Page 198: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

198 Chapitre 4. Discussion

de l’information s’appuyant sur des phénomènes de synchronisation et accordantplus d’importance au temps séparant deux potentiels d’action qu’à leur fréquence.Une autre proposition pour résoudre partiellement ce problème s’appuie sur l’uti-lisation massive des connexions en feedback : considérons un concept lié à deuxvaleurs spécifique des entrées qui proviennent de deux modalités différentes ; laprésence d’une des deux valeurs provoque l’activation partielle de ce concept, cequi, par activation feedback, entraine une pré-activation pour l’autre valeur qui serépercute tout le long de la chaîne de traitement, facilitant d’autant l’établisse-ment de cette autre valeur si elle est présente (Deco et Rolls 2005, van der Velde etde Kamps 2006). Ce phénomène de boucles de feedback peut facilement être adaptédans un modèle SimBa en créant des connexions en retour. Cependant, une telleconnexion implique l’adaptation de tous les prototypes pour qu’ils reconnaissentle type transporté par cette connexion. Si ces connexions sont systématiques, celapeut poser problème. Une solution probablement plus élégante est de considérerles connexions entre deux noeuds comme partiellement bi-directionnelles. L’ac-tivation circule bien dans un seul sens, mais une facilitation circule dans l’autre.Lorsqu’un prototype est activé, il facilite l’activation des prototypes en amont quil’activent. De cette façon, si seule une partie des informations l’activant est pré-sente, l’autre partie pourra lui parvenir plus facilement.

4.3.2 Le «Grounding Problem»

Le grounding problem (GP) se pose surtout pour les systèmes symboliques etest défini comme la nécessité pour les symboles d’être ancrés (grounded) dans laperception et l’action pour avoir un sens en tant qu’information (Harnad 1990). Entermes neuronaux, cela se traduit par le fait que si nous pouvons traiter des entitéssymboliques comme les mots du langage, ils doivent avoir un ancrage dans unereprésentation neuronale (Pulvermuller 1999). Ce problème est particulièrementvisible lorsqu’on considère le problème de 2, ou le problème de la duplication dessymboles. Il survient lorsqu’on cherche, par exemple, à comprendre comment lecerveau peut traiter une phrase comprenant plusieurs instances d’un même motcomme «la petite étoile est derrière une grande étoile», c’est à dire comment sefait la liaison entre les structures représentant «petite», «grande» et «étoile» sansqu’émerge le concept de «petite grande étoile» (van der Velde et de Kamps 2006).En termes plus généraux, la particularité des symboles est d’être faciles à dupli-quer, mais s’ils sont ancrés dans une structure qui leur donne leur sens, la dupli-

Page 199: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

4.3. Les questions ouvertes 199

cation devient problématique. Et considérer qu’il y a une structure neuronale pourtoutes les positions possibles du mot dans la phrase n’est pas raisonnable.

L’association systématique d’un pattern de neurone à un symbole dans le for-malisme SimBa en fait une réponse naturelle au GP : tous les symboles sont ancrésdans une réalité neurologique. En revanche, le problème de la duplication resteentier. D’autant plus que, comme mentionné au paragraphe 3.1.2.4 (p.166), SimBaest mal adapté pour traiter les patterns spatio-temporels alors qu’une manière detraiter la phrase «la petite étoile est derrière une grande étoile» repose sur unegestion précise de la séquentialité.

Page 200: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III
Page 201: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

Conclusion générale

Au cours de ce travail de thèse, nous avons défini un formalisme permettant deconstruire des modèles du traitement de l’information dans les réseaux cérébrauxà grande échelle. Ce formalisme a comme caractéristique principale de pouvoirs’adapter à différentes échelles de modélisation. L’information qui y circule est re-présentée de manière duale, une partie numérique (la magnitude) représente l’in-tensité de l’activation neuronale tandis qu’une partie symbolique (le type) repré-sente la configuration spatiale des neurones ayant déchargé. Formellement, le typeest représenté de manière originale par un ensemble flou qui permet de prendre encompte les relations entre les différentes valeurs d’un même attribut, même s’il està valeurs discrètes non ordonnées. Les mécanismes communs à toutes les échellesde modélisation sont d’une part la dynamique de l’activation cérébrale et d’autrepart l’association d’une base de prototypes à chaque population de neurones. Cesprototypes sont comparés au type de l’information en entrée et en fonction de cepattern matching flou, le traitement de l’information est modulé.

Ce formalisme a été utilisé pour construire deux modèles applicatifs. Le pre-mier était un modèle d’intégration visuo-auditive du langage, reproduisant l’effetMcGurk. Les résultats de ce modèle ont pu être comparés avec succès avec les résul-tats obtenus par des sujets normo-entendants. Le second modèle était un modèledu réseau impliqué dans la réalisation du Wisconsin Card Sorting Test. Là encore,ce modèle a permis de reproduire des résultats obtenus par des sujets sains.

Malgré un certain nombre de manques, en particulier l’absence de mécanismed’apprentissage automatique des prototypes et de leurs similarités, ce formalismepropose une approche originale, qui essaie d’expliquer la fonction cognitve commela résultante de l’activité biologique du réseau à grande échelle qui l’implémente.Cette approche qui lie donc fonction et activité de régions cérébrales constitue doncune base naturelle pour une interprétation des données de neuroimagerie, non pasà partir du signal mesuré, mais à partir du traitement de l’information dans lesubstrat neuronal.

201

Page 202: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III
Page 203: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

Bibliographie

Scanning the brain. Time Magazine, 1954. (Cité page 42.)

Abbott, L. F. Decoding neuronal firing and modelling neural networks. Q RevBiophys, 27(3) :291–331, 1994. (Cité pages 37, 38 et 122.)

Abbott, L. F. Lapicque’s introduction of the integrate-and-fire model neuron (1907).Brain Res Bull, 50(5-6) :303–304, 1999. (Cité pages 27 et 28.)

Ahissar, M. et Hochstein, S. The reverse hierarchy theory of visual perceptuallearning. Trends in Cognitive Sciences, 8(10) :457–464, 2004. (Cité page 68.)

Alexander, G. E., DeLong, M. R., et Strick, P. L. Parallel organization of functionallysegregated circuits linking basal ganglia and cortex. Annu Rev Neurosci, 9 :357–381, 1986. (Cité page 75.)

Alexander, G., Delong, M., et Crutcher, M. Do cortical and basal ganglionic motorarea use "motor programs" to control movement ? Behav. Brain Sci, 15 :656–65,1992. (Cité pages 35 et 98.)

Amit, D. J. et Brunel, N. Model of global spontaneous activity and local structuredactivity during delay periods in the cerebral cortex. Cereb Cortex, 7(3) :237–252,1997. (Cité pages 27, 38 et 191.)

Amit, D. J. et Tsodyks, M. V. Quantitative study of attractor neural network retrie-ving at low spike rates : I. substrate-spikes, rates and neuronal gain. Network :Computation in Neural Systems, 2(3) :259–273, 1991a. (Cité pages 37 et 122.)

Amit, D. J. et Tsodyks, M. V. Quantitative study of attractor neural networks retrie-ving at low spike rates : Ii. low-rate retrieval in symmetric networks. Network :Computation in Neural Systems, 2(3) :275–294, 1991b. (Cité pages 37 et 122.)

Amos, A. A computational model of information processing in the frontal cortexand basal ganglia. J Cogn Neurosci, 12(3) :505–519, 2000. (Cité page 78.)

203

Page 204: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

204 Bibliographie

Andersen, R. A., Snyder, L. H., Bradley, D. C., et Xing, J. Multimodal representationof space in the posterior parietal cortex and its use in planning movements. AnnuRev Neurosci, 20 :303–330, 1997. (Cité page 35.)

Anderson, J. R., Matessa, M., et Lebiere, C. Act-r : A theory of higher level cognitionand its relation to visual attention. Human-Computer Interaction, 12(4) :439–462,1997. (Cité page 81.)

Anderson, J. R., Qin, Y., Jung, K.-J., et Carter, C. S. Information-processing modulesand their relative modality specificity. Cogn. Psych., 54 :185–217, 2007. (Citépages 17 et 81.)

Anderson, J. R., Qin, Y., Sohn, M.-H., Stenger, V. A., et Carter, C. S. An information-processing model of the bold response in symbol manipulation tasks. PsychonBull Rev, 10(2) :241–261, 2003. (Cité pages 81 et 82.)

Anderson, J. Rules of the Mind. Lawrence Erlbaum Associates, 1993. (Cité page 81.)

Andrews, T. C. et Brooks, D. J. Advances in the understanding of early huntington’sdisease using the functional imaging techniques of pet and spet. Mol Med Today,4(12) :532–539, 1998. (Cité page 77.)

Arbib, M. A., Billard, A., Iacoboni, M., et Oztop, E. Synthetic brain imaging :grasping, mirror neurons and imitation. Neural Netw, 13(8-9) :975–997, 2000.(Cité pages 43 et 70.)

Arbib, M. A. et Erdi, P. Precis of neural organization : structure, function, anddynamics. Behav Brain Sci, 23(4) :513–533, 2000. (Cité page 69.)

Arbib, M., Bischoff, A., Fagg, A., et Grafton, S. Synthetic pet : Analyzing large-scaleproperties of neural networks. Human Brain Mapping, 2(4) :225–233, 1995. (Citépages 42 et 43.)

Arbib, M. A., éditeur. The Handbook of Brain Theory and Neural Networks, 2nd Ed.,2003. MIT Press, Cambridge, MA. (Cité page 17.)

Ardila, A. Toward a model of phoneme perception. Int J Neurosci, 70(1-2) :1–12,1993. (Cité page 32.)

Audoin, B., Guye, M., Reuter, F., Au Duong, M.-V., Confort-Gouny, S., Malikova,I., Soulier, E., Viout, P., Cherif, A. A., Cozzone, P. J., Pelletier, J., et Ranjeva, J.-P. Structure of wm bundles constituting the working memory system in early

Page 205: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

Bibliographie 205

multiple sclerosis : a quantitative dti tractography study. Neuroimage, 36(4) :1324–1330, 2007. (Cité page 72.)

Ayoun, A. et Grabisch, M. Tracks real-time classification based on fuzzy rules. Int.j. intell. sys., 12(11-12) :865–876, 1997. (Cité page 59.)

Baddeley, A. et Della Sala, S. Working memory and executive control. Philos TransR Soc Lond B Biol Sci, 351(1346) :1397–1403, 1996. (Cité page 75.)

Balkenius, C. et Gärdenfors, P. Nonmonotonic inferences in neural networks. DansProc. of the 2nd Int. Conf. on Principles of Knowledge Representation and Reasoning(KR’91), pages 32–39, 1991. (Cité pages 70 et 196.)

Barclay, J. Noncategorical perception of a voiced stop : A replication. Perception &Psychophysics, 11 :269–273, 1972. (Cité page 67.)

Ben-Yishai, R., Bar-Or, R. L., et Sompolinsky, H. Theory of orientation tuning invisual cortex. Proc Natl Acad Sci U S A, 92(9) :3844–3848, 1995. (Cité pages 41, 88,119 et 120.)

Benamor, N., Benferhat, S., Mellouli, K., et Smaoui, S. Inférence dans les ré-seaux possibilistes basés sur le conditionnement ordinal. Modèles graphiques nonprobabilistes(RSTI- RIA), pages 489–519, 2007. (Cité page 61.)

Benferhat, S. et Smaoui, S. Possibilistic networks with locally weighted knowledgebases. Dans Proceedings of the Fourth International Symposium on Imprecise Probabi-lities and Their Applications (ISIPTA’05). Brightdocs, Pittsburgh, USA, 2005. (Citépage 61.)

Benferhat, S. et Smaoui, S. Hybrid possibilistic networks. International Journal ofApproximate Reasoning, 44(3) :224–243, 2007. (Cité page 61.)

Benitez, J. M., Castro, J. L., et Requena, I. Are artificial neural networks blackboxes ? Dans IEEE transactions on neural networks, volume 8, pages 1156–1164,1997. (Cité page 197.)

Berg, E. A simple objective technique for measuring flexibility in thinking. Journalof General Psychology, 39(1) :5–22, 1948. (Cité page 77.)

Berger, J. Statistical Decision Theory and Bayesian Analysis. Springer Verlag, Berlin.DE, 1985. (Cité page 52.)

Page 206: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

206 Bibliographie

Berman, K. F., Ostrem, J. L., Randolph, C., Gold, J., Goldberg, T. E., Coppola, R.,Carson, R. E., Herscovitch, P., et Weinberger, D. R. Physiological activation ofa cortical network during performance of the wisconsin card sorting test : apositron emission tomography study. Neuropsychologia, 33(8) :1027–1046, 1995.(Cité page 173.)

Bezdek, J. Pattern Recognition with Fuzzy Objective Function Algorithms. KluwerAcademic Publishers Norwell, MA, USA, 1981. (Cité page 58.)

Boole, G. The calculus of logic. Cambridge and Dublin Mathematical Journal, III :183–98, 1848. (Cité page 45.)

Borgelt, C. et Gebhardt, J. Possibilistic graphical models. Dans Computational Intel-ligence in Data Mining. Springer, 2000. (Cité page 61.)

Bremmer, F., Schlack, A., Shah, N. J., Zafiris, O., Kubischik, M., Hoffmann, K.,Zilles, K., et Fink, G. R. Polymodal motion processing in posterior parietal andpremotor cortex : a human fmri study strongly implies equivalencies betweenhumans and monkeys. Neuron, 29(1) :287–296, 2001. (Cité page 35.)

Bressler, S. L. Large-scale cortical networks and cognition. Brain Res Brain Res Rev,20(3) :288–304, 1995. (Cité pages 12 et 31.)

Broca, P. Remarques sur le siège de la faculté du language articulé, suives d’uneobservation d’aphémie (perte de la parole). Bull Soc Anat, 36 :330–57, 1861. (Citépages 12 et 32.)

Brodmann, K. Vergleichende Lokalisationslehre der Grosshirnrinde, volume 324. Leip-zig : Barth (English translation by LJ Garey : London : Smith-Gordon. Localizationin the Cerebral Cortex), 1909. (Cité page 29.)

Brown, L. L., Schneider, J. S., et Lidsky, T. I. Sensory and cognitive functions of thebasal ganglia. Curr Opin Neurobiol, 7(2) :157–163, 1997. (Cité page 75.)

Brunel, N. et Sergi, S. Firing frequency of leaky intergrate-and-fire neurons withsynaptic current dynamics. J Theor Biol, 195(1) :87–95, 1998. (Cité page 38.)

Brunel, N. et Wang, X. J. Effects of neuromodulation in a cortical network modelof object working memory dominated by recurrent inhibition. J Comput Neurosci,11(1) :63–85, 2001. (Cité pages 27, 38 et 191.)

Page 207: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

Bibliographie 207

Buchel, C., Coull, J. T., et Friston, K. J. The predictive value of changes in effec-tive connectivity for human learning. Science, 283(5407) :1538–1541, 1999. (Citépage 72.)

Burnod, Y. Organizational levels of the cerebral cortex : an integrated model. ActaBiotheor, 39(3-4) :351–361, 1991. (Cité page 31.)

Cajal, S. Histologie du système nerveux de l’homme et des vertébrés. Paris :Maloine, 2 :891–942, 1911. (Cité page 23.)

Campbell, R. The processing of audio-visual speech : empirical and neural bases.Philos Trans R Soc Lond B Biol Sci, 2007. (Cité pages 153, 156 et 160.)

Campbell, R. Tracing lip movements : Making speech visible. Visible language, 22

(1) :32–57, 1988. (Cité page 156.)

Cannon, T. D., Glahn, D. C., Kim, J., Van Erp, T. G. M., Karlsgodt, K., Cohen,M. S., Nuechterlein, K. H., Bava, S., et Shirinyan, D. Dorsolateral prefrontalcortex activity during maintenance and manipulation of information in workingmemory in patients with schizophrenia. Arch Gen Psychiatry, 62(10) :1071–1080,2005. (Cité page 173.)

Cappe, C. et Barone, P. Heteromodal connections supporting multisensory inte-gration at low levels of cortical processing in the monkey. Eur J Neurosci, 22(11) :2886–2902, 2005. (Cité page 156.)

Chudasama, Y. et Robbins, T. W. Functions of frontostriatal systems in cognition :comparative neuropsychopharmacological studies in rats, monkeys and humans.Biol Psychol, 73(1) :19–38, 2006. (Cité page 77.)

Cohen, H. et Lefebvre, C., éditeurs. Handbook of categorization in cognitive science.Elsevier, 2005. (Cité page 65.)

Cohen, J. D., Dunbar, K., et McClelland, J. L. On the control of automatic processes :a parallel distributed processing account of the stroop effect. Psychol Rev, 97(3) :332–361, 1990. (Cité page 175.)

Collette, F., Van der Linden, M., Laureys, S., Delfiore, G., Degueldre, C., Luxen,A., et Salmon, E. Exploring the unity and diversity of the neural substrates ofexecutive functioning. Hum Brain Mapp, 25(4) :409–423, 2005. (Cité page 75.)

Page 208: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

208 Bibliographie

Colmerauer, A. et Roussel, P. The birth of prolog. Dans et Richard G. Gibson,T. J. B., éditeur, History of Programming Languages. ACM Press/Addison-Wesley,1996. (Cité page 45.)

Compte, A., Brunel, N., Goldman-Rakic, P. S., et Wang, X. J. Synaptic mechanismsand network dynamics underlying spatial working memory in a cortical networkmodel. Cereb Cortex, 10(9) :910–923, 2000. (Cité page 38.)

Cyert, R. et DeGroot, M. Bayesian Analysis and Uncertainty in Economic Theory. Row-man & Littlefield, 1987. (Cité page 52.)

Damasio, H., Grabowski, T., Frank, R., Galaburda, A. M., et Damasio, A. R. Thereturn of phineas gage : clues about the brain from the skull of a famous patient.Science, 264(5162) :1102–1105, 1994. (Cité page 32.)

Dawes, R. et Kagan, J. Rational choice in an uncertain world. San Diego : HarcourtBrace Jovanovich, 1988. (Cité page 51.)

Dayan, P. et Abbot, L. Theoretical Neuroscience : computational and mathematical mo-deling of neural systems. MIT Press, 2005. (Cité pages 23, 25, 26, 27, 70 et 97.)

Deco, G. et Lee, T. S. The role of early visual cortex in visual integration : a neu-ral model of recurrent interaction. Eur J Neurosci, 20(4) :1089–1100, 2004. (Citépage 174.)

Deco, G. et Rolls, E. T. A neurodynamical cortical model of visual attention andinvariant object recognition. Vision Res, 44(6) :621–642, 2004. (Cité page 174.)

Deco, G. et Rolls, E. T. Attention, short-term memory, and action selection : aunifying theory. Prog Neurobiol, 76(4) :236–256, 2005. (Cité pages 36, 42, 67, 70,174 et 198.)

Deco, G., Rolls, E. T., et Horwitz, B. "what" and "where" in visual working me-mory : a computational neurodynamical perspective for integrating fmri andsingle-neuron data. J Cogn Neurosci, 16(4) :683–701, 2004. (Cité page 42.)

Dehaene, S. et Changeux, J. P. The wisconsin card sorting test : theoretical analy-sis and modeling in a neuronal network. Cereb Cortex, 1(1) :62–79, 1991. (Citépages 8, 78, 79, 172, 174, 175, 176 et 184.)

Page 209: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

Bibliographie 209

Démonet, J. F., Price, C., Wise, R., et Frackowiak, R. S. A pet study of cognitive stra-tegies in normal subjects during language tasks. influence of phonetic ambiguityand sequence processing on phoneme monitoring. Brain, 117 ( Pt 4) :671–682,1994. (Cité pages 8, 74, 91, 92, 153 et 155.)

Deneve, S., Latham, P. E., et Pouget, A. Efficient computation and cue integrationwith noisy population codes. Nat Neurosci, 4(8) :826–831, 2001. (Cité page 71.)

Dias, R., Robbins, T. W., et Roberts, A. C. Dissociable forms of inhibitory controlwithin prefrontal cortex with an analog of the wisconsin card sort test : restrictionto novel situations and independence from "on-line" processing. J Neurosci, 17

(23) :9285–9297, 1997. (Cité page 174.)

Doyon, J., Penhune, V., et Ungerleider, L. G. Distinct contribution of the cortico-striatal and cortico-cerebellar systems to motor skill learning. Neuropsychologia,41(3) :252–262, 2003. (Cité page 19.)

Dubois, D. et Prade, H. Fuzzy Sets and Systems : Theory and Applications. AcademicPress New York, 1980. (Cité page 56.)

Dubois, D. et Prade, H. Ensemble flou et théorie des possibilités : notions de base.Dans OFTA, éditeur, Logique Floue. Masson, 1994. (Cité page 57.)

Dubois, D., Grasbisch, M., Mouzon, O. D., et Prade, H. Classification et diagnostic.Dans Bouchon-Meunier, B. et Marsala, C., éditeurs, Logique Floue, Principes, Aideà la Décision, pages 149–204. Hermès-Lavoisier, 2003. (Cité page 58.)

Dubois, D. et Prade, H. Gradual inference rules in approximate reasoning. Inform.Sci., 61(1-2) :103–122, 1992. (Cité page 59.)

Dubois, D. et Prade, H. What are fuzzy rules and how to use them. Fuzzy Sets andSystems, 84(17) :169–185, September 1996. (Cité page 59.)

Dubois, D., Prade, H., et Testemale, C. Weighted fuzzy pattern matching. FuzzySets and Systems, 28(3) :313–331, 1988. (Cité pages 58 et 88.)

Durstewitz, D., Seamans, J. K., et Sejnowski, T. J. Dopamine-mediated stabilizationof delay-period activity in a network model of prefrontal cortex. J Neurophysiol,83(3) :1733–1750, 2000. (Cité pages 77 et 78.)

Eling, P., Derckx, K., et Maes, R. On the historical and conceptual background ofthe wisconsin card sorting test. Brain Cogn, 67(3) :247–253, 2008. (Cité page 77.)

Page 210: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

210 Bibliographie

Elliott, R. Executive functions and their disorders. Br Med Bull, 65 :49–59, 2003.(Cité page 75.)

Erny, J., Pastor, J., et Prade, H. A similarity and fuzzy logic-based approach tocerebral categorisation. Dans Brewka, G., Coradeschi, S., Perini, A., et Traverso,P., éditeurs, Proc. of the 17th Euro. Conf. on Artificial Intelligence (ECAI’06), pages21–25, Riva del Garda, Italy, August 2006a. IOS Press (http ://www.iospress.nl/).(Cité page 112.)

Erny, J., Pastor, J., et Prade, H. Simba : A fuzzy similarity-based modelling fra-mework for large-scale cerebral networks. Dans Joachim Marques de Sá, L. A.,Alexandre, W., et Duch, D. P. M., éditeurs, International Conference in ArtificialNeural Network (ICANN 2007), volume 4669 de Lecture Notes in Computer Science,pages 29 – 38, Porto, Portugal, 2007. Springer. (Cité page 118.)

Erny, J., Pastor, J., et Prade., H. Le traitement de l’information cérébrale : une ap-proche basée sur la similarité. Dans Conférence en Neurosciences Computationnelles(NeuroComp 2006), Pont-à-Mousson, 2006b. (Cité page 118.)

Erny, J., Pastor, J., et Prade, H. Une approche basée sur la similarité et la logiquefloue pour la catégorisation cérébrale. Dans Reconnaissance des Formes et Intelli-gence Artificielle (RFIA 2006), Tours, France, 2006c. Association Française pour laReconnaissance et l’Interprétation des Formes (AFRIF). (Cité page 112.)

Erwin, E., Obermayer, K., et Schulten, K. Models of orientation and ocular domi-nance columns in the visual cortex : a critical comparison. Neural Comput, 7(3) :425–468, 1995. (Cité page 192.)

Falchier, A., Clavagnier, S., Barone, P., et Kennedy, H. Anatomical evidence ofmultimodal integration in primate striate cortex. J Neurosci, 22(13) :5749–5759,2002. (Cité page 35.)

Felleman, D. J. et Van Essen, D. C. Distributed hierarchical processing in the pri-mate cerebral cortex. Cereb Cortex, 1(1) :1–47, 1991. (Cité pages 31 et 174.)

Fiser, J. et Aslin, R. N. Unsupervised statistical learning of higher-order spatialstructures from visual scenes. Psychol Sci, 12(6) :499–504, 2001. (Cité pages 52

et 72.)

Page 211: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

Bibliographie 211

Fiser, J. et Aslin, R. N. Statistical learning of higher-order temporal structure fromvisual shape sequences. J Exp Psychol Learn Mem Cogn, 28(3) :458–467, 2002a.(Cité pages 52 et 72.)

Fiser, J. et Aslin, R. N. Statistical learning of new visual feature combinations byinfants. Proc Natl Acad Sci U S A, 99(24) :15822–15826, 2002b. (Cité pages 52

et 72.)

Fonck, P. Reseaux d’inference pour le raisonnement possibiliste. PhD thesis, Universitéde Liège, Faculté des Sciences, 1994. (Cité page 61.)

Freedman, D., Riesenhuber, M., Poggio, T., et Miller, E. Categorical representa-tion of visual stimuli in the primate prefrontal cortex. Science, 191, 2001. (Citépage 66.)

Frege, G. Begriffsschrift, a formula language, modeled up on that of arithme-tic, for pure thought. Dans van Heijenoort, J., éditeur, From Frege to Gödel.Stephan Bauer-Mengelberg (trans.), Harvard University Press, Cambridge, MA,1879. (Cité page 45.)

Friston, K. J., Harrison, L., et Penny, W. Dynamic causal modelling. Neuroimage, 19

(4) :1273–1302, 2003. (Cité page 83.)

Friston, K. J. Functional and effective connectivity in neuroimaging : A synthesis.Human Brain Mapping, 2 :56–78, 1994. (Cité pages 72 et 92.)

Gabrieli, J. D., Poldrack, R. A., et Desmond, J. E. The role of left prefrontal cortexin language and memory. Proc Natl Acad Sci U S A, 95(3) :906–913, 1998. (Citépage 74.)

Galichet, S., Dubois, D., et Prade, H. Imprecise specification of ill-known functionsusing gradual rules. International Journal of Approximate Reasoning, 35(3) :205–222,2004. (Cité page 59.)

Galichet, S. et Foulloy, L. Fuzzy controllers : synthesis and equivalences. IEEETransactions on Fuzzy Systems, 3(2) :140–148, 1995. (Cité page 60.)

Galichet, S. et Foulloy, L. Integrating expert knowledge into industrial controlstructures. Computers in Industry, 52(3) :235–251, 2003. (Cité page 60.)

Page 212: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

212 Bibliographie

Gallez, C. Rapport sur la maladie d’alzheimer et les maladies apparentées. Rapport2454, Office Parlementaire d’Évaluation de la Santé de l’Assemblée Nationale,Juillet 2005. (Cité page 11.)

Garcia, L. et Sabbadin, R. Possibilistic influence diagrams. Frontiers in ArtificialIntelligence and Applications, 141 :372, 2006. (Cité page 61.)

Garcia, L. et Sabbadin, R. Complexity results and algorithms for possibilistic in-fluence diagrams. Artificial Intelligence, 172(8-9) :1018–1044, 2008. (Cité page 61.)

Gentilucci, M. et Cattaneo, L. Automatic audiovisual integration in speech percep-tion. Exp Brain Res, 167(1) :66–75, 2005. (Cité pages 155 et 156.)

Georgopoulos, A. P., Kettner, R. E., et Schwartz, A. B. Primate motor cortex andfree arm movements to visual targets in three-dimensional space. ii. coding ofthe direction of movement by a neuronal population. J Neurosci, 8(8) :2928–2937,1988. (Cité page 39.)

Georgopoulos, A. P., Schwartz, A. B., et Kettner, R. E. Neuronal population codingof movement direction. Science, 233(4771) :1416–1419, 1986. (Cité page 39.)

Ghahramani, Z. Computational neuroscience. building blocks of movement. Na-ture, 407(6805) :682–683, 2000. (Cité page 71.)

Gierer, A. et Meinhardt, H. Biological pattern formation involving lateral inhi-bition. Dans Some Mathematical Questions in Biology VI : Mathematical Aspects ofChemical and Biochemical Problems and Quantum Chemistry 7. American Mathema-tical Society, 1974. (Cité page 117.)

Gigerenzer, G. et Hoffrage, U. How to improve bayesian reasoning without ins-truction : Frequency formats. Psychological Review, 102(4) :684–704, 1995. (Citépage 52.)

Goldman-Rakic, P. S. Cellular basis of working memory. Neuron, 14(3) :477–485,1995. (Cité page 38.)

Goodglass, H. et Geschwind, N. Language disorder. Dans E, C. et Friedman, M.,éditeurs, Handbook of perception, volume 7, pages 389–4. 1976. (Cité page 74.)

Greenberg, S. Speech Processing in the Auditory System. Springer, 2004. (Citépage 155.)

Page 213: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

Bibliographie 213

Greve, K. W., Stickle, T. R., Love, J. M., Bianchini, K. J., et Stanford, M. S. Latentstructure of the wisconsin card sorting test : a confirmatory factor analytic study.Arch Clin Neuropsychol, 20(3) :355–364, 2005. (Cité page 173.)

Grinband, J., Hirsch, J., et Ferrera, V. P. A neural representation of categoriza-tion uncertainty in the human brain. Neuron, 49(5) :757–763, March 2006. (Citépage 66.)

Guigon, E., Grandguillaume, P., Otto, I., Boutkhil, L., et Burnod, Y. Neural net-work models of cortical functions based on the computational properties of thecerebral cortex. J Physiol Paris, 88(5) :291–308, 1994. (Cité page 31.)

Guyot, F., Alexandre, F., et Haton, J. Toward a continuous model of the cortical co-lumn : Application tospeech recognition. Dans International Conference on Acous-tics, Speech, and Signal Processing (ICASSP’89), pages 37–40, 1989. (Cité page 75.)

Hamilton, R. H., Shenton, J. T., et Coslett, H. B. An acquired deficit of audiovisualspeech processing. Brain Lang, 98(1) :66–73, 2006. (Cité page 160.)

Harlow, J. Passage of an iron rod through the head. Boston Medical and SurgicalJournal, 39 :389–393, 1848. (Cité page 32.)

Harnad, S. The symbol grounding problem. Physica, 42 :335–346, 1990. (Citépage 198.)

Harnad, S. Categorical perception. Dans Encyclopedia of Cognitive Science. NaturePublishing Group/Macmillan, 2003. (Cité page 65.)

Hauk, O., Johnsrude, I., et Pulvermuller, F. Somatotopic representation of actionwords in human motor and premotor cortex. Neuron, 41(2) :301–307, 2004. (Citépages 67 et 106.)

Hebb, D. The Organization of Behavior : A Neuropsychological Theory. John Wiley &Sons, 1949. (Cité page 63.)

Helmholtz, H. Treatise on physiological optics, volume The Perceptions of Vision.Optical Society of America, Rochester, 1925. (Cité page 70.)

Heni, A. et Alimi, A. Approximate inference in dynamic possibilistic networks.Dans Proceedings of EEE Congress on Evolutionary Computation (CEC’07), pages1240–1246, 2007. (Cité page 61.)

Page 214: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

214 Bibliographie

Heni, A., Amor, N., Benferhat, S., et Alimi, A. Dynamic possibilistic networks : Re-presentation and exact inference. Dans Proceedings of IEEE International Conferenceon Computational Intelligence for Measurement Systems and Applications (CIMSA’07),pages 1–8, 2007. (Cité page 61.)

Heyder, K., Suchan, B., et Daum, I. Cortico-subcortical contributions to executivecontrol. Acta Psychol (Amst), 115(2-3) :271–289, 2004. (Cité page 75.)

Hodgkin, A. L. et Huxley, A. F. A quantitative description of membrane current andits application to conduction and excitation in nerve. J Physiol, 117(4) :500–544,1952. (Cité page 28.)

Holyoak, K. et Thagard, P. Analogical mapping by constraint satisfaction. CognitiveScience, 13(3) :295–355, 1989. (Cité page 81.)

Hopfield, J. Neural networks and physical systems with emergent collective com-putational abilities. Proc. Natl Acad. Sci. USA, 79(8) :2554–2558, 1982. (Citépage 64.)

Horton, J. C. et Adams, D. L. The cortical column : a structure without a function.Philosophical Transactions of the Royal Society B : Biological Sciences, 360(1456) :837–862, 2005. (Cité page 31.)

Horwitz, B., Tagamets, M., et McIntosh, A. Neural modeling, functional brainimaging, and cognition. Trends Cogn Sci, 3(3) :91–98, 1999. (Cité page 43.)

Hubel, D. H. et Wiesel, T. N. Receptive fields, binocular interaction and functionalarchitecture in the cat’s visual cortex. J Physiol, 160 :106–154, 1962. (Cité pages 18,32 et 34.)

Humphrey, D. R., Schmidt, E. M., et Thompson, W. D. Predicting measures ofmotor performance from multiple cortical spike trains. Science, 170(959) :758–762, 1970. (Cité page 39.)

Hupe, J. M., James, A. C., Payne, B. R., Lomber, S. G., Girard, P., et Bullier, J. Corticalfeedback improves discrimination between figure and background by v1, v2 andv3 neurons. Nature, 394(6695) :784–787, 1998. (Cité page 35.)

Izhikevich, E. M. Which model to use for cortical spiking neurons ? IEEE TransNeural Netw, 15(5) :1063–1070, 2004. (Cité pages 29 et 30.)

Page 215: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

Bibliographie 215

Jang, J. et Sun, C. Functional equivalence between radial basis function networksand fuzzy inference systems. Neural Networks, IEEE Transactions on, 4(1) :156–159,1993. (Cité page 197.)

Jin, Y. et Sendhoff, B. Extracting interpretable fuzzy rules from rbf networks. NeuralProcessing Letters, 17(2) :149–164, 2003. (Cité page 197.)

Just, M. A., Carpenter, P. A., et Varma, S. Computational modeling of high-levelcognition and brain function. Hum Brain Mapp, 8(2-3) :128–136, 1999. (Citépage 74.)

Kalman, R. A new approach to linear filtering and prediction theory. Trans. ASMEJ. Basic Eng, 82 :35–45, 1960. (Cité page 71.)

Kirchner, H. et Thorpe, S. J. Ultra-rapid object detection with saccadic eye mo-vements : visual processing speed revisited. Vision Res, 46(11) :1762–1776, 2006.(Cité page 36.)

Knill, D. C. et Pouget, A. The bayesian brain : the role of uncertainty in neuralcoding and computation. Trends Neurosci, 27(12) :712–719, 2004. (Cité page 70.)

Koechlin, E., Anton, J. L., et Burnod, Y. Dynamical computational properties oflocal cortical networks for visual and motor processing : a bayesian framework.J Physiol Paris, 90(3-4) :257–262, 1996. (Cité pages 40 et 71.)

Koechlin, E. et Burnod, Y. Dual population coding in the neocortex : A model ofinteraction between representation and attention in the visual cortex. Journal ofCognitive Neuroscience, 8(4) :353–370, 1996. (Cité pages 40, 84 et 88.)

Koechlin, E., Ody, C., et Kouneiher, F. The architecture of cognitive control in thehuman prefrontal cortex. Science, 302(5648) :1181–1185, 2003. (Cité pages 8, 78

et 80.)

Koechlin, E. et Summerfield, C. An information theoretical approach to prefrontalexecutive function. Trends Cogn Sci, 11(6) :229–235, 2007. (Cité page 78.)

Kohonen, T. Self-organized formation of topologically correct feature maps. Biolo-gical Cybernetics, 43(1) :59–69, 1982. (Cité pages 64, 66, 117 et 192.)

Kondo, H., Morishita, M., Osaka, N., Osaka, M., Fukuyama, H., et Shibasaki, H.Functional roles of the cingulo-frontal network in performance on working me-mory. Neuroimage, 21(1) :2–14, 2004. (Cité page 75.)

Page 216: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

216 Bibliographie

Labatut, V. Réseaux causaux probabilistes à grande échelle : un nouveau formalisme pourla modélisation du traitement de l’information cérébrale. PhD thesis, Université PaulSabatier, Toulouse III, Toulouse, 2003. (Cité pages 84, 85, 91, 93, 95 et 195.)

Labatut, V. et Pastor, J. Modeling the cerebral activity with dynamic probabilisticnetworks. Dans Proceedings of BioMedicine V, pages 459–468, Southampton, 2003.WIT Press. (Cité pages 84, 88 et 95.)

Labatut, V., Pastor, J., Ruff, S., Démonet, J.-F., et Celsis, P. Cerebral modeling anddynamic bayesian networks. Artificial Intelligence in Medicine, 30(2) :119–139, 2004.(Cité page 84.)

Labov, W. The boundaries between words and their meanings. Dans Bailey, C.-J.et Shuy, R. W., éditeurs, New ways of analyzing variation in English, pages 340–373.Georgetown University Press, Washington DC, 1973. (Cité page 58.)

Lafon, M. Modélisation de la propagation de l’information cérébrale par graphes causauxqualitatifs. PhD thesis, Université Paul Sabatier, Toulouse, 2000. (Cité page 91.)

Lafon, M., Travé-Massuyes, L., et Pastor, J. Hierarchical causal modeling of cerebralinformation propagation mechanisms. Dans Proceedings of Qualitative and Mo-del Based Reasoning for Complex Systems and their Control, International Joint Confe-rence on Aratificial Intelligence, pages 26–32, Stockholm, Suède, August 1999. (Citépage 83.)

Lafon, M., Trave-Massuyes, L., et Pastor, J. Biocaen : A causal qualitative modelsimulator for cerebral dynamics. Unpublished, 1997. (Cité pages 83 et 95.)

Laird, J., Newell, A., et Rosenbloom, P. Soar : an architecture for general intelli-gence. Artificial Intelligence, 33(1) :1–64, 1987. (Cité page 82.)

Lallement, Y., Hilario, M., et Alexandre, F. Neurosymbolic integration : Cognitivegrounds and computational strategies. Dans Proceedings of WOCFAI’95, pages193–203, 1995. (Cité page 69.)

Lawrence, A., Sahakian, B., et Robbins, T. Cognitive functions and corticostriatalcircuits : insights from huntington’s disease. Trends in Cognitive Sciences, 2(10) :379–388, 1998. (Cité page 76.)

LéaSombé. Reasoning under incomplete information in artificial intelligence : A compari-son of formalisms using a single example. Wiley, 1990. Groupe LéaSombé : Philippe

Page 217: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

Bibliographie 217

Besnard, Marie-Odile Cordier, Didier Duboi, Luis Fariñas del Cerro, ChristineFroidevaux, Yves Moinard, Henri Prade, Camilla Schwind, Pierre Siegel. (Citépages 45 et 46.)

Lee, C., Rohrer, W. H., et Sparks, D. L. Population coding of saccadic eye move-ments by neurons in the superior colliculus. Nature, 332(6162) :357–360, 1988.(Cité page 39.)

Lee, L., Friston, K., et Horwitz, B. Large-scale neural models and dynamic causalmodelling. Neuroimage, 30(4) :1243–1254, 2006. (Cité page 83.)

Leh, S. E., Ptito, A., Chakravarty, M. M., et Strafella, A. P. Fronto-striatal connectionsin the human brain : a probabilistic diffusion tractography study. Neurosci Lett,419(2) :113–118, 2007. (Cité page 77.)

Lenat, D. B. Cyc : a large-scale investment in knowledge infrastructure. Communi-cations of the ACM, 38(11) :33–38, 1995. (Cité page 46.)

Liberman, A. M., Harris, K. S., Hoffman, H. S., et Griffith, B. C. The discriminationof speech sounds within and across phoneme boundaries. J Exp Psychol, 54(5) :358–368, 1957. (Cité pages 66, 153 et 155.)

Logothetis, N. K., Pauls, J., Augath, M., Trinath, T., et Oeltermann, A. Neurophy-siological investigation of the basis of the fmri signal. Nature, 412(6843) :150–157,2001. (Cité page 41.)

MacDonald, A. W. r., Cohen, J. D., Stenger, V. A., et Carter, C. S. Dissociatingthe role of the dorsolateral prefrontal and anterior cingulate cortex in cognitivecontrol. Science, 288(5472) :1835–1838, 2000. (Cité page 75.)

Mamdani, E. H. et Assilian, S. An experiment in linguistic synthesis with a fuzzylogic controller. International Journal of Man-Machine Studies, 7(1) :1–13, 1975. (Citépage 60.)

Mantas, C., Puche, J., et Mantas, J. Extraction of similarity based fuzzy rules fromartificial neural networks. International Journal of Approximate Reasoning, 43(2) :202–221, 2006. (Cité page 197.)

Markram, H. The blue brain project. Nat Rev Neurosci, 7(2) :153–160, 2006. (Citépage 11.)

Page 218: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

218 Bibliographie

Marreiros, A. C., Kiebel, S. J., et Friston, K. J. Dynamic causal modelling for fmri :a two-state model. Neuroimage, 39(1) :269–278, 2008. (Cité page 83.)

Massaro, D. W. et Cohen, M. M. Tests of auditory-visual integration efficiencywithin the framework of the fuzzy logical model of perception. J Acoust Soc Am,108(2) :784–789, 2000. (Cité pages 156 et 160.)

Massaro, D. Categorical perception : Important phenomenon or lasting myth. DansMannell, R. H. et Robert-Ribes, J., éditeurs, Proceedings of ICSL’98, volume 6,pages 2275–2278, Sydney, Australia, 1998. (Cité page 67.)

Massaro, D. Speechreading : illusion or window into pattern recognition. TrendsCogn Sci, 3(8) :310–317, 1999. (Cité page 156.)

McCarthy, J., Minsky, M., Rochester, N., et Shannon, C. A proposal for the dart-mouth summer research project on artificial intelligence, 1956. (Cité page 13.)

McClelland, J. L. et Elman, J. L. The trace model of speech perception. CognitPsychol, 18(1) :1–86, 1986. (Cité pages 67 et 75.)

McCulloch, W. et Pitts, W. A logical calculus of the ideas immanent in nervousactivity. Bulletin of Mathematical Biophysics, 5 :115–133, 1943. (Cité pages 18 et 61.)

McGurk, H. et MacDonald, J. Hearing lips and seeing voices. Nature, 264(246-248),1976. (Cité pages 153 et 155.)

McIntosh, A. R. et Gonzalez-Lima, F. Structural modeling of functional neuralpathways mapped with 2-deoxyglucose : effects of acoustic startle habituationon the auditory system. Brain Res, 547(2) :295–302, 1991. (Cité page 72.)

Mesulam, M. M. Large-scale neurocognitive networks and distributed processingfor attention, language, and memory. Ann Neurol, 28(5) :597–613, 1990. (Citépages 12 et 31.)

Meyer, D. E. et Kieras, D. E. A computational theory of executive cognitive pro-cesses and multiple-task performance : Part 1. basic mechanisms. Psychol Rev,104(1) :3–65, 1997a. (Cité page 82.)

Meyer, D. E. et Kieras, D. E. A computational theory of executive cognitiveprocesses and multiple-task performance : Part 2. accounts of psychologicalrefractory-period phenomena. Psychol Rev, 104(4) :749–791, 1997b. (Cité page 82.)

Page 219: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

Bibliographie 219

Miller, L. M. et D’Esposito, M. Perceptual fusion and stimulus coincidence in thecross-modal integration of speech. J Neurosci, 25(25) :5884–5893, 2005. (Citépage 156.)

Milner, B. Effects of different brain lesions on card sorting. Archives of Neurology,9 :90–100, 1963. (Cité pages 171, 173 et 175.)

Minsky, M. The Society of the Mind. Touchstone Book, New-York, 1988. (Citépage 81.)

Miyake, A., Friedman, N. P., Emerson, M. J., Witzki, A. H., Howerter, A., et Wager,T. D. The unity and diversity of executive functions and their contributions tocomplex "frontal lobe" tasks : a latent variable analysis. Cognit Psychol, 41(1) :49–100, 2000. (Cité page 75.)

Monchi, O., Petrides, M., Petre, V., Worsley, K., et Dagher, A. Wisconsin card sortingrevisited : distinct neural circuits participating in different stages of the taskidentified by event-related functional magnetic resonance imaging. J Neurosci, 21

(19) :7733–7741, 2001. (Cité page 78.)

Monchi, O., Taylor, J. G., et Dagher, A. A neural model of working memory pro-cesses in normal subjects, parkinson’s disease and schizophrenia for fmri designand predictions. Neural Netw, 13(8-9) :953–973, 2000. (Cité pages 78, 183, 184

et 185.)

Motter, B. C. Focal attention produces spatially selective processing in visual cor-tical areas v1, v2, and v4 in the presence of competing stimuli. J Neurophysiol, 70

(3) :909–919, 1993. (Cité page 36.)

Mountcastle, V. Modality and topographic properties of single neurons of cat’ssomatic sensory cortex. J Neurophysiol, 20(4) :408–434, 1957. (Cité page 18.)

Mountcastle, V. An organizing principle for cerebral function : the unit moduleand the distributed system. Dans Edelman, G. M. et Montcastle, V., éditeurs, TheMindful Brain, pages 7–50. Massachusetts : MIT Press, 1978. (Cité page 31.)

Newell, A. Unified Theories of Cognition. Harvard University Press, 1990. (Citépage 82.)

Newell, A., Shaw, J., et Simon, H. Problem solving in humans and computers. TheRand Corporation, 987, 1956. (Cité page 45.)

Page 220: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

220 Bibliographie

Nieoullon, A. Dopamine and the regulation of cognition and attention. Prog Neu-robiol, 67(1) :53–83, 2002. (Cité page 77.)

Obermayer, K., Sejnowski, T., et Blasdel, G. G. Neural pattern formation via acompetitive hebbian mechanism. Behav Brain Res, 66(1-2) :161–167, 1995. (Citépage 192.)

Oden, G. C. et Massaro, D. W. Integration of featural information in speech per-ception. Psychological Review, 85(3) :172–191, 1978. (Cité page 75.)

O’Reilly, R. C. Biologically based computational models of high-level cognition.Science, 314(5796) :91–94, 2006. (Cité pages 36, 77, 78, 122 et 185.)

O’Reilly, R. C., Noelle, D. C., Braver, T. S., et Cohen, J. D. Prefrontal cortex and dy-namic categorization tasks : representational organization and neuromodulatorycontrol. Cereb Cortex, 12(3) :246–257, 2002. (Cité page 174.)

Owen, A. M., Roberts, A. C., Hodges, J. R., Summers, B. A., Polkey, C. E., et Rob-bins, T. W. Contrasting mechanisms of impaired attentional set-shifting in pa-tients with frontal lobe damage or parkinson’s disease. Brain, 116 ( Pt 5) :1159–1175, 1993. (Cité page 174.)

Partridge, L. D. A possible source of nerve signal distortion arising in pulse rateencoding of signals. J Theor Biol, 11(2) :257–281, 1966. (Cité page 28.)

Pastor, J., Lafon, M., Trave-Massuyes, L., Démonet, J. F., Doyon, B., et Celsis, P.Information processing in large-scale cerebral networks : the causal connectivityapproach. Biol Cybern, 82(1) :49–59, 2000. (Cité pages 82, 83 et 88.)

Pastor, J., Travé-Massuyès, L., Démonet, J., Doyon, B., et Celsis, P. Information pro-cessing in large-scale cerebral networks : the causal connectivity approach. DansIroni, L., éditeur, Proceedings of the 11th International Workshop on Qualitative Rea-soning, pages 305–315, Pavia, 1997. Instituto di Analisi Numerica Pubblicazioni1036, CNR. (Cité page 83.)

Pearl, J. Probabilistic Reasoning in Intelligent Systems : Networks of Plausible Inference.Morgan Kaufmann Publishers, 1988. (Cité pages 50, 51 et 53.)

Penfield, W. et Jasper, H. Epilepsy and the Functional Anatomy of the Human Brain.Little, Brown, 1954. (Cité page 17.)

Page 221: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

Bibliographie 221

Penfield, W. et Rasmussen, T. The cerebral cortex of man : a clinical study of localizationof function. Macmillan, New York, 1950. (Cité page 32.)

Penny, W. D., Stephan, K. E., Mechelli, A., et Friston, K. J. Modelling functionalintegration : a comparison of structural equation and dynamic causal models.Neuroimage, 23 Suppl 1 :S264–74, 2004. (Cité page 83.)

Pernet, C., Schyns, P. G., et Démonet, J. F. Specific, selective or preferential : Com-ments on category specificity in neuroimaging. NeuroImage, 35 :991–997, 2007.(Cité page 67.)

Pólya, G. How to solve it : a new aspect of mathematical method. - 2d ed. Garden City,N.Y. : Doubleday, 1957. (Cité page 44.)

Posner, M. I., Sheese, B. E., Odludas, Y., et Tang, Y. Analyzing and shaping humanattentional networks. Neural Netw, 19(9) :1422–1429, 2006. (Cité page 75.)

Pouget, A. et Sejnowski, T. Spatial representations in the parietal cortex may usebasis functions. Advances in Neural Information Processing Systems 7, 1995. (Citépages 38, 40, 41 et 88.)

Pouget, A. et Sejnowski, T. J. Spatial transformations in the parietal cortex using ba-sis functions. Journal of Cognitive Neuroscience, 9(2) :222–237, 1997. (Cité pages 38,40, 41 et 88.)

Pulvermuller, F. Words in the brain’s language. Behav Brain Sci, 22(2) :253–279,1999. (Cité pages 67 et 198.)

Pulvermuller, F. et Hauk, O. Category-specific conceptual processing of color andform in left fronto-temporal cortex. Cereb Cortex, 16(8) :1193–1201, 2006. (Citépages 67 et 106.)

Rakic, P. Radial versus tangential migration of neuronal clones in the developingcerebral cortex. Proc Natl Acad Sci U S A, 92(25) :11323–11327, Ë 1995. (Citépage 31.)

Reiter, R. A logic for default reasoning. Artificial Intelligence, pages 81–132, 1980.(Cité page 45.)

Rieke, F., Warland, D., de Ruyter van Steveninck, R., et Bialek, W. Spikes : Exploringthe Neuronal Code. MIT Press, Cambridge, MA, 1997. (Cité pages 25, 27 et 97.)

Page 222: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

222 Bibliographie

Rinzel, J. et Ermentrout, G. B. Analysis of neural excitability and oscillations. DansKoch, C. et Segev, I., éditeurs, Methods in neuronal modeling : From synapses tonetworks, pages 251–292. MIT Press, Cambridge, MA, USA, 1998. (Cité page 38.)

Roberts, A. C., Robbins, T. W., et Everitt, B. J. The effects of intradimensional andextradimensional shifts on visual discrimination learning in humans and non-human primates. Q J Exp Psychol B, 40(4) :321–341, 1988. (Cité page 174.)

Roelfsema, P. R., Lamme, V. A., et Spekreijse, H. Object-based attention in theprimary visual cortex of the macaque monkey. Nature, 395(6700) :376–381, 1998.(Cité page 35.)

Rosa, M. Visual maps in the adult primate cerebral cortex : some implications forbrain development and evolution. Braz J Med Biol Res, 35(12) :1485–98, 2002. (Citépages 32 et 35.)

Rosch, E. On the internal structure of perceptual and semantic categories. DansMoore, T., éditeur, Cognitive development and the acquisition of language, volume 12,page 308. Academic Press, New York, USA, 1973. (Cité pages 58 et 66.)

Rosenblatt, F. Principles of Neurodynamics. Spartan Book, 1962. (Cité page 63.)

Rosenblum, L. et Saldaña, H. An audiovisual test of kinematic primitives for vi-sual speech perception. Journal of Experimental Psychology Human Perception andPerformance, 22 :318–331, 1996. (Cité page 156.)

Rossi, A., Daneluzzo, E., Tomassini, A., Struglia, F., Cavallaro, R., Smeraldi, E., etStratta, P. The effect of verbalization strategy on wisconsin card sorting test per-formance in schizophrenic patients receiving classical or atypical antipsychotics.BMC Psychiatry, 6 :3, 2006. (Cité page 173.)

Rouger, J., Lagleyre, S., Fraysse, B., Deneve, S., Deguine, O., et Barone, P. Evidencethat cochlear-implanted deaf patients are better multisensory integrators. ProcNatl Acad Sci U S A, 104(17) :7295–7300, 2007. (Cité pages 160 et 170.)

Rouger, J., Fraysse, B., Deguine, O., et Barone, P. Mcgurk effects in cochlear-implanted deaf subjects. Brain Res, 1188 :87–99, 2008. (Cité pages 9, 156, 157,158, 159, 161, 166, 167, 168, 169 et 170.)

Rougier, N. P., Noelle, D. C., Braver, T. S., Cohen, J. D., et O’Reilly, R. C. Prefrontalcortex and flexible cognitive control : rules without symbols. Proc Natl Acad SciU S A, 102(20) :7338–7343, 2005. (Cité pages 77, 78, 174, 175, 176 et 184.)

Page 223: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

Bibliographie 223

Rougier, N. et O’Reilly, R. Learning representations in a gated prefrontal cortexmodel of dynamic task switching. Cognitive Science, 26(4) :503–520, 2002. (Citépages 174, 175 et 176.)

Royall, D. R., Lauterbach, E. C., Cummings, J. L., Reeve, A., Rummans, T. A., Kau-fer, D. I., LaFrance, W. C. J., et Coffey, C. E. Executive control function : a reviewof its promise and challenges for clinical research. a report from the committeeon research of the american neuropsychiatric association. J Neuropsychiatry ClinNeurosci, 14(4) :377–405, 2002. (Cité pages 75 et 77.)

Ruff, S., Marie, N., Celsis, P., Cardebat, D., et Demonet, J.-F. Neural substrates ofimpaired categorical perception of phonemes in adult dyslexics : an fmri study.Brain Cogn, 53(2) :331–334, 2003. (Cité page 66.)

Rumelhart, D. et McClelland, J., éditeurs. Parallel distributed processing : Explorationsin the microstructure of cognition, volume I et II. MIT Press, 1986. (Cité page 63.)

Sabbah, P., Simond, G., Levrier, O., Habib, M., Trabaud, V., Murayama, N., Mazoyer,B. M., Briant, J. F., Raybaud, C., et Salamon, G. Functional magnetic resonanceimaging at 1.5 t during sensorimotor and cognitive task. Eur Neurol, 35(3) :131–136, 1995. (Cité page 41.)

Shafer, G. A mathematical theory of evidence. Princeton University Press Princeton,NJ, 1976. (Cité page 46.)

Shannon, C. A symbolic analysis of relay and switching circuits. Transactions of theAmerican Institute of Electrical Engineers, 1938. (Cité page 45.)

Shortliffe, E. H. MYCIN : A rule-based computer program for ad- vising physiciansregarding antimicrobial therapy selection. PhD thesis, Stanford University, 1974.(Cité page 46.)

Sigala, N., Gabbiani, F., et Logothetis, N. K. Visual categorization and object repre-sentation in monkeys and humans. J Cogn Neurosci, 14(2) :187–198, 2002. (Citépages 66 et 143.)

Stemme, A., Deco, G., et Busch, A. The neuronal dynamics underlying cognitiveflexibility in set shifting tasks. J Comput Neurosci, 23(3) :313–331, 2007. (Citépages 42, 174, 175, 176 et 185.)

Page 224: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

224 Bibliographie

Stemme, A., Deco, G., Busch, A., et Schneider, W. X. Neurons and the synapticbasis of the fmri signal associated with cognitive flexibility. Neuroimage, 26(2) :454–470, 2005. (Cité pages 174, 175 et 185.)

Stuss, D. T. et Alexander, M. P. Executive functions and the frontal lobes : a concep-tual view. Psychol Res, 63(3-4) :289–298, 2000. (Cité page 75.)

Sumby, W. H. et Pollack, I. Visual contribution to speech intelligibility in noise. J.Acoust. Soc. Am., 26 :212—215, 1954. (Cité page 153.)

Summerfield, C. et Koechlin, E. A neural representation of prior information du-ring perceptual inference. Neuron, 59(2) :336–347, 2008. (Cité pages 72 et 83.)

Sun, R. et Alexandre, F., éditeurs. Connectionist-Symbolic Integration : From Unified toHybrid Approaches. Lawrence Erlbaum Associates, Inc., Mahwah, NJ, USA, 1997.(Cité pages 69 et 192.)

Taatgen, N. A. A model of free-recall using the act-r architecture and the pho-nological loop. Dans van den Herik, H. J. et Weijters, T., éditeurs, Proceedingsof Benelearn-96, pages 169–178, Maastricht, the Netherlands, 1996. UniversiteitMaastricht. (Cité page 82.)

Taatgen, N. A. et Anderson, J. R. Why do children learn to say "broke" ? a model oflearning the past tense without feedback. Cognition, 86(2) :123–155, 2002. (Citépage 82.)

Taatgen, N. A., Anderson, J. R., Dickinson, D., et van Rijn, H. Time interval esti-mation : Internal clock or attentional mechanism ? Dans Bara, B., Barsalou, L., etBucciarelli, M., éditeurs, Proceedings of the 27th Annual Conference of the CognitiveScience Society, 2005a. (Cité page 82.)

Taatgen, N. A., van Rijn, H., et Anderson, J. R. Time perception : Beyond simpleinterval estimation time perception : Beyond simple interval estimation. DansProceedings of the Sixth International Conference on Cognitive Modeling, pages 296–301, Pittsburgh, PA : Carnegie Mellon University/University of Pittsburgh, 2004.(Cité page 82.)

Taatgen, N. A., van Rijn, H., et Anderson, J. R. An integrated theory of prospectivetime interval estimation : The role of cognition, attention and learning. Submit-ted, 2005b. (Cité page 82.)

Page 225: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

Bibliographie 225

Takagi, T. et Sugeno, M. Fuzzy identification of systems and applications to model-ling and control. IEEE Transactions on Systems, Man and Cybernetics, 15 :116–132,1985. (Cité page 60.)

Taylor, A. E., Saint-Cyr, J. A., et Lang, A. E. Frontal lobe dysfunction in parkinson’sdisease. the cortical focus of neostriatal outflow. Brain, 109(5) :845–883, 1986.(Cité page 185.)

Taylor, J. G., Krause, B., Shah, N. J., Horwitz, B., et Mueller-Gaertner, H. W. On therelation between brain images and brain neural networks. Hum Brain Mapp, 9

(3) :165–182, 2000. (Cité page 43.)

Tekin, S. et Cummings, J. L. Frontal-subcortical neuronal circuits and clinical neu-ropsychiatry : an update. J Psychosom Res, 53(2) :647–654, 2002. (Cité page 77.)

Trave-Massuyes, L., Bousson, K., Evrard, J., Guerrin, F., Lucas, B., Missier, A., To-masena, M., et Zimmer, L. Non-causal versus causal qualitative modelling andsimulation. Intelligent Systems Engineering, 2(3) :159–182, 1993. (Cité page 83.)

van der Velde, F. et de Kamps, M. From knowing what to knowing where : mo-deling object-based attention with feedback disinhibition of activation. J CognNeurosci, 13(4) :479–491, 2001. (Cité page 36.)

van der Velde, F. et de Kamps, M. Synchrony in the eye of the beholder : Ananalysis of the role of neural synchronization in cognitive processes. Brain andMind, 3(3) :291–312, 2002. (Cité page 197.)

van der Velde, F. et de Kamps, M. Neural blackboard architectures of combinatorialstructures in cognition. Behav Brain Sci, 29(1) :37–70, 2006. (Cité pages 74, 197

et 198.)

Van Gisbergen, J. A., Van Opstal, A. J., et Tax, A. A. Collicular ensemble codingof saccades based on vector summation. Neuroscience, 21(2) :541–555, 1987. (Citépage 39.)

von der Malsburg, C. Binding in models of perception and brain function. CurrOpin Neurobiol, 5(4) :520–526, 1995. (Cité page 197.)

Walley, P. et de Cooman, G. Coherence of rules for defining conditional possibility.International Journal of Approximate Reasoning, 21(1) :63–107, 1999. (Cité page 57.)

Walshe, F. Critical Studies in Neurology. Williams & Wilkins, 1948. (Cité page 32.)

Page 226: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

226 Bibliographie

Watts, J. et Thomson, A. M. Excitatory and inhibitory connections show selectivityin the neocortex. J Physiol, 562(Pt 1) :89–97, 2005. (Cité page 31.)

Weinberger, D. R., Berman, K. F., Iadarola, M., Driesen, N., et Zec, R. F. Prefron-tal cortical blood flow and cognitive function in huntington’s disease. J NeurolNeurosurg Psychiatry, 51(1) :94–104, 1988. (Cité page 185.)

Weizenbaum, J. Eliza—a computer program for the study of natural languagecommunication between man and machine. Communications of the ACM, 9(1) :36–45, 1966. (Cité page 45.)

Wernicke, C. Der aphasische symptomenkomplex. Breslau, Germany : Cohn undWeigert, 1874. (Cité page 12.)

White, I. M. et Wise, S. P. Rule-dependent neuronal activity in the prefrontal cortex.Exp Brain Res, 126(3) :315–335, 1999. (Cité page 175.)

Widrow, B. et Hoff, M. Adaptive switching circuits. Dans WESCON ConventionRecord, volume 4, pages 96–104, 1960. (Cité page 63.)

Widrow, B. et Stearns, S. Adaptive signal processing. Prentice-Hall, Englewood Cliffs,NJ, USA, 1985. (Cité page 63.)

Wilson, H. R. et Cowan, J. D. Excitatory and inhibitory interactions in localizedpopulations of model neurons. Biophys J, 12(1) :1–24, 1972. (Cité pages 37, 43, 87,88, 122 et 192.)

Wolpert, D. M. et Ghahramani, Z. Computational principles of movement neuros-cience. Nat Neurosci, 3 Suppl :1212–1217, 2000. (Cité page 71.)

Wolpert, D. M., Ghahramani, Z., et Jordan, M. I. An internal model for sensorimo-tor integration. Science, 269(5232) :1880–1882, 1995. (Cité page 71.)

Zadeh, L. Fuzzy sets. Information and Control, 8 :338–353, 1965. (Cité page 55.)

Zadeh, L. A. Pruf–a meaning representation language for natural languages. In-ternational Journal of Man-Machine Studies, 10(4) :395–460, 1978. (Cité pages 53

et 55.)

Page 227: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

Annexes A

227

Page 228: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III
Page 229: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

A.1. Les équations de fréquence de décharge 229

A.1 Les équations de fréquence de décharge

A.1.1 Le courant synaptique total

Considérons un neurone recevant N entrées synaptiques. La fréquence de dé-charge de l’entrée b est notée ub, b ∈ 1, 2, . . . , N. Considérons un potentiel d’action(PA) arrivant par l’entrée b au temps t = 0. Le courant généré dans le soma autemps t est alors égal à wb.Ks(t), où wb est le poids synaptique et Ks(t) est le noyausynaptique. Le noyau décrit la dynamique du courant synaptique en réponse à unPA au temps t = 0 (Ks(t) ≥ 0). Le noyau est normalisé de sorte que son intégralesur l’ensemble des instants t est égale à 1. Pour simplifier, nous considérons Ks(t)identique pour toutes les synapses. En faisant l’hypothèse que tous les PA agissentde manière indépendante, le courant synaptique total à l’instant t, en réponse àune séquence de PA arrivant par l’entrée b aux temps {ti} est donné par :

wb. ∑ti<t

Ks(t− ti) = wb

∫ t

−∞dτKs(t− τ)ρb(τ) (A.1)

où ρb est la fonction de réponse neuronale qui décrit la séquence de PA émise par leneurone en amont. S’il n’y a pas d’interactions linéaires entre les différentes entréessynaptiques, le courant total est obtenu par une somme :

S =N

∑b=1

wb

∫ t

−∞dτKs(t− τ)ρb(τ) (A.2)

Une seconde approximation est faite ici, en remplaçant la fonction de réponse neu-ronale par la fréquence de décharge ub. Ce choix est justifié si on considère que lesPA ne sont pas corrélés entre eux. Ce qui donne :

S =N

∑b=1

wb

∫ t

−∞dτKs(t− τ)ub(τ) (A.3)

Un noyau synaptique couramment utilisé, Ks(t) = exp(−t/τs)/τs, permet de ré-écrire cette formule sous la forme d’une équation différentielle :

τsdSdt

= −S +N

∑b=1

wb.ub = −S + w.u (A.4)

Page 230: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

230 A. Annexes

A.1.2 La fréquence de décharge

Il reste à déterminer la fréquence de décharge r du neurone en fonction deS. Pour des entrées synaptiques constantes, r = F(S), où F est appelée fonctiond’activation. Et comme, si les entrées synaptiques sont constantes, Is atteint son étatstationnaire, on a r = F(w.u). Si les entrées ne sont pas constantes, la premièreapproximation est de considérer que l’égalité tient toujours ce qui donne :

τsdSdt

= −S + w.u avec v = F(S) (A.5)

Une autre manière de faire consiste à dire que la fréquence de décharge ne suitpas immédiatement les variations de courant synaptique. En raison de la capaci-tance de la membrane, le potentiel de membrane agit comme un filtre passe-bas ducourant, ce qui incite à modéliser la fréquence de décharge aussi comme un filtrepasse-base du courant synaptique :

τrdrdt

= −r + F(S(t)) (A.6)

Notons que τr n’est pas la constante de membrane : l’argument utilisé plus hautn’est valable que pour le potentiel de membrane, pas pour la fréquence de dé-charge. Notons aussi que si τs � τr, le système de deux équations A.4 et A.6 seréduit à :

τrdrdt

= −r + F(w.u) (A.7)

Et inversement, si τr � τs, on revient à l’équation A.5.

A.2 Résolution numérique des équations différen-

tielles

A.2.1 La méthode d’Euler

La méthode d’Euler est une méthode de résolution numérique d’un équationdifférentielle du premier ordre. Elle permet de calculer de proche en proche unesuite de valeurs qui constitue une approximation de la fonction recherchée. Soit

Page 231: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

A.2. Résolution numérique des équations différentielles 231

une équation différentielle du premier ordre :

∀x ∈ I, u′(x) = f (x, u(x)) (A.8)

où I est un intervalle de R et f une fonction réelle sur I × R. Alors pour unecondition initiale x0,

u(x + ∆x) = u(x) + ∆x. f (x, u(x)) (A.9)

où ∆x est le pas (constant) d’approximation. Plus ∆x est proche de 0, plus la so-lution est précise. Ce calcul revient à avancer de ∆x à partir de u(x) en suivant latangente à u au point u(x). Selon la concavité de la fonction, la méthode d’Eulersous-évalue (concave) ou sur-évalue (convexe) la réponse exacte.

La résolution de l’équation 2.12 par la méthode d’Euler est immédiate :

S(tn+1) = S(tn) +∆tτs

(−S(tn) + G(c, m)) (A.10)

A.2.2 La méthode de Runge-Kutta d’ordre 2

La méthode Runge-Kutta d’ordre 2 améliore la méthode d’Euler. Au lieu den’avancer qu’en suivant la tangente au point courant, on fait cette fois la moyennede la position en montant de ∆x en suivant la tangente au point courant et endescendant de ∆x en suivant la tangente au point suivant. Formellement, pour lamême équation qu’à la section précédente, on a :

p1 = f (x, u(x))

p2 = f (x + ∆x, u(x + ∆x))

u(x + ∆x) = u(x) +∆x2

(p1 + p2) (A.11)

On en déduit donc la résolution de 2.12 :

p1 =1τs

(−S(tn) + G(c, m))

S(tn+1)∗ = S(tn) +∆tτs

(−S(tn) + G(c, m))

Page 232: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

232 A. Annexes

doncp2 =

1τs

(−(S(tn) +∆tτs

(−S(tn) + G(c, m))) + G(c, m))

d’où

S(tn+1) = S(tn) +∆tτs

(−S(tn) + G(c, m))− 12

(∆τs

)2

(−S(tn) + G(c, m)) (A.12)

A.2.3 La méthode d’Euler-Maruyama

La méthode d’Euler-Maruyama n’est que l’extension de la méthode d’Euler aucas stochastique. Soit une équation différentielle stochastique du premier ordreécrite sous forme différentielle :

u(t) = u0 +∫ t

0f (u(s))ds +

∫ t

0g(u(s))dW(s) (A.13)

où f et g sont deux fonctions réelles et où dW est un pas de temps brownien,défini comme étant égal à

√δtN (0, 1), où δt correspond à une discrétisation de

l’espace associé à ce mouvement brownien. L’équation précédente peut se réécriresous forme différentielle :

du(t) = f (u(t))dt + g(u(t))dW(t), u(0) = u0 (A.14)

En choisissant le même pas de temps que celui qui a servi à discrétiser le mouve-ment brownien, l’approximation d’Euler nous donne :

u(t + ∆t) = u(t) + f (t)∆t + g(u(t))√

∆tN (0, 1) (A.15)

Dans notre cas, g est la fonction constante égale à knoise, ce qui donne immédia-tement la résolution de l’équation 2.13 :

r(tn+1) = r(tn) +∆tτr

(−r(tn) + F(S(tn))) +knoise

τr.√

∆t.N (0, 1) (A.16)

Page 233: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

Abbréviations

AVC : Accident vasculaire cérébralBOLD : Blood-oxygen-level dependent, dépendant du taux d’oxygène dans le sangBP : Binding problem, le problème de liageDCM : Dynamic Causal Modelling, modélisation causale dynamiqueEEG : ÉlectroencéphalogrammeFLMP : Fuzzy Logical Model of Perception, modèle de la perception par logique floueGP : Grouding problem, le problème d’ancrageIA : Intelligence artificielleIRMf : Imagerie par résonance magnétique fonctionnelleMES : Modélisation par équations structurellesMH : Maladie de HuntingtonMP : Maladie de ParkinsonMWC : Modèle de Wilson et CowanPA : Potentiel d’actionPPS : Potentiel post-synaptiquePE : Pattern émetteurPR : Pattern récepteurpSTS : Partie postérieure du sulcus temporal supérieurRAGE : Réseaux artificiels à grande échelleRNB : Réseaux neuronaux biologiquesRNF : Réseaux neuronaux formelsSCF : Système de commandes flouesTEP : Tomographie par émission de positronsWCST : Wisconsin Card Sorting Test, test de triage de carte du Wisconsin

233

Page 234: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

234 Abbréviations

Ce document a été préparé à l’aide de l’éditeur de texte TextMate et du logiciel de

composition typographique LATEX 2ε.

Page 235: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

Modelling Information Processing In Large-Scale Networks :A Similarity And Fuzzy Logic-Based Approach

Abstract In the context of modelisation of cerebral information processing, anoriginal framework is suggested. Its polyvalence allows it to cope with differentscales of modelisation, offering an intermediary approach between cognitive andconnexionist models. Its hybrid nature appears also in the way information is for-malised in a dual way : numerically and symbolically. Fuzzy set theory is usedta take into account interactions between these two componants. Two applicationsof this framework are presented : a modelisation of McGurk effect and and a mo-delisation a the network involved in the solving of the Wisconson Card SortingTest, a neuropsychological test. Both models are confronted to experimental resultsinvolving real subjects.

Page 236: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III
Page 237: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III
Page 238: THESEthesesups.ups-tlse.fr/378/1/Erny_Julien.pdf · 2011. 3. 2. · THESE En vue de l'obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l'Université Toulouse III

AUTEUR : Julien ERNYTITRE : Modélisation Du Traitement De l’Information Cérébrale Dans Les

Réseaux À Grande Échelle : Une Approche Fondée Sur La Similarité Et La

Logique Floue

DIRECTEUR DE THÈSE : Josette PASTOR et Henri PRADE (co-directeur)LIEU ET DATE DE SOUTENANCE : Toulouse, le 19 Décembre 2008

RÉSUMÉ : Dans le cadre de la modélisation du traitement de l’information dansles réseaux cérébraux, un formalisme original est présenté. Par sa flexibilité, il per-met de modéliser à différentes échelles de grandeur, offrant une approche intermé-diaire entre modèles cognitifs et modèles connexionnistes. Son caractère hybrideapparaît aussi dans la représentation de l’information qui est duale : numérique etsymbolique. Le formalisme des ensembles flous est utilisé pour prendre en compteles interactions entre ces deux composantes. Deux applications du formalisme sontproposées : une modélisation de l’effet McGurk et une modélisation du réseau im-pliqué dans la résolution du Wisconsin Card Sorting Test, un test neuropsycholo-gique. Ces deux modèles sont confrontés à des données expérimentales permettantde les comparer avec les comportements observés chez l’homme.

MOTS-CLÉS : Neurosciences computationnelles, Réseau à grande échelle, En-semble flou, Règle floue, Prototype, Fréquence de décharge, Pattern matching

DISCIPLINE ADMINISTRATIVE : Intelligence Artificielle

ADRESSE DU LABORATOIRE :

Inserm U825Pavillon Riser, CHU Purpan, F-31059 Toulouse Cedex 3