Upload
duongcong
View
220
Download
0
Embed Size (px)
Citation preview
Réseaux de neuronesFabrice Rossi
http://apiacoa.org/contact.html
Universite Paris-IX Dauphine
Reseaux de neurones – p. 1/36
Plan du cours
1. Introduction aux réseaux de neurones
2. Rappels de probabilités et statistiques
3. Le modèle linéaire (et le perceptron simple)
4. Le modèle linéaire généralisé (et les réseaux RBF)
5. Les méthodes d’évaluation et de sélection de modèle
6. Les perceptrons multi-couches
7. Les k-moyennes
8. Les réseaux de Kohonen
Site du cours : http://apiacoa.org/teaching/nn/
Reseaux de neurones – p. 2/36
Plan de l’introduction
1. Qu’est qu’un réseau de neurones ?
2. Que peut-on faire avec un réseau de neurones ?
3. Pourquoi la modélisation des données est-elle unproblème difficile ?
4. Modèle mathématique général
Reseaux de neurones – p. 3/36
Réseaux de neurones
1. Ensemble de méthodes d’analyse et de traitement desdonnées
2. Deux caractéristiques majeures :
(a) combinaison (réseau) d’éléments simples (neurones)
(b) non linéaire (par “opposition” aux méthodesclassiques de l’analyse des données)
3. Vaguement issus de considérations biologiques
4. Essentiellement numériques, par opposition à l’IAsymbolique (base de règles, raisonnement par cas, etc.)
Reseaux de neurones – p. 4/36
Représentation graphique
SortiesEntrees
Reseaux de neurones – p. 5/36
Différents modèles
Les réseaux de neurones diffèrent selon :les neurones utilisésla structure du réseaule mode de calcul
Dans ce cours :les perceptrons multi-couches (Multi Layer Perceptron)les réseaux Radial Basis Function (RBF)les réseaux de Kohonen
Axes du cours :liens avec les méthodes classiques (Analyse des
données)importance de la modélisation statistique
Reseaux de neurones – p. 6/36
Analyse des données (Data Mining)
classiquement : méthodes (en général linéaires)d’exploration des données (Analyse en ComposantesPrincipales, régression linéaire, etc.)par extension : organisation et exploration des données :
discrimination : affectation de nouvelles données àdes groupes connus (exemple : diagnostic médical)“régression” : modélisation de relations fonctionnelles(exemple : niveau d’ozone demain en fonction du niveaud’aujourd’hui et de mesures météo comme la vitesse duvent, etc.)classification : découverte de groupes dans desdonnées (exemple : regroupement de profils deconsommateurs)
le but est soit d’apprendre par l’exemple (discrimination etrégression), soit d’extraire de l’information (classification)
Reseaux de neurones – p. 7/36
L’approche dite supervisée
On dispose d’un “professeur”, c’est-à-dire un ensemble dedonnées connues (les exemples) :
en discrimination, des exemples de données provenantde chaque groupe (classe) :
des mesures biologiques (tension artérielle, numérationsanguine, présence/absence de symptômes divers, etc.)pour des personnes malades et pour des personnessainesdes lettres et chiffres tracés par différentes personnes
en régression, des exemples de la relation fonctionnelle :le cours d’une action sur une période donnéela consommation électrique d’une région sur unepériode donnée, associée à des mesuresmétéorologiques sur la même période
point commun : des observations et une cible (la classe,le cours de l’action dans le futur, etc.)
Reseaux de neurones – p. 8/36
L’approche dite supervisée (2)
Le but principal est de modéliser la relation entre lesobservations et l’information cible, pour :
1. Estimer la valeur de la cible pour de nouvellesobservations :
diagnostiquer un patientreconnaître un code postalprédire le cours d’une actionprédire la consommation électrique d’une région
2. Comprendre la relation observations/cibles :déterminer les symptômes importantscomprendre les facteurs déterminants d’une forte
consommation électrique
Les réseaux de neurones sont très efficaces pour le premierpoint, moins pour le second.
Reseaux de neurones – p. 9/36
L’approche dite non supervisée
On ne dispose pas de “professeur”, c’est-à-dire que lesexemples ne sont pas déjà organisés :
pas de classe, pas de ciblebut général : découvrir de la régularité, sous forme de
classes, c’est-à-dire de groupes d’exemples qui seressemblentbut opérationnel :
groupes de consommateurs pour cibler une campagnemarketinggroupes d’individus pour l’analyse sociologique,économique, etc.
motivations :comprendre les données en les simplifiant (analyse surchaque groupe)décrire des groupes
Reseaux de neurones – p. 10/36
Nature des données
Dans la pratique, les données posent des problèmes :données fausses (erreur de mesure, tromperie, etc.)données incomplètes ou manquantes (absence de
réponse, grosse erreur de mesure qui conduit à rejeter lerésultat, etc.)données non exhaustives : presque toujours le cas (on se
contente en général de sondages)Les résultats sont donc “imprécis” :
algorithmes exacts sur données réelles : le résultat estjuste par rapport aux données, mais pas nécessairementpar rapport à la réalitéalgorithmes heuristiques : on ne sait pas si l’algorithme
donne le “bon” résultat, mais simplement qu’il estsatisfaisant...
Reseaux de neurones – p. 11/36
Modélisation statistique
Deux gros problèmes pratiques (fortement couplés) :mesure des performances :⇒ bons résultats sur les données de départ, mais
mauvais sur de nouvelles données⇒ marges d’erreur, niveau de confiancechoix du modèle :⇒ dilemme biais/variance⇒ biais : erreur systématique (par rapport à la réalité)⇒ variance : sensibilité du modèle aux données⇒ modèle puissant : faible biais, mais très sensible aux
données⇒ modèle faible : grand biais, mais moins sensible aux
données“Solution” : approche statistique en analyse des données.
Reseaux de neurones – p. 12/36
Un exemple de régression simple
On possède une suite d’observations, les (xi, yi)On cherche à expliquer yi grâce à xi, c’est-à-dire trouver
une fonction f telle que yi ' f(xi) pour tout iApplications pratiques :
prédire demain en fonction d’aujourd’hui (météo,bourse, etc.)évaluer le risque de défaillance d’un emprunteur enfonction de ses caractéristiques socioprofessionnellescalculer le taux d’humidité du sol ou le niveau dematurité d’un champ de céréales en fonction d’uneimage radar de la zone concernéeetc.
On peut trouver une approximation de f par desméthodes neuronalesDifficulté principale : le bruit dans les observations
Reseaux de neurones – p. 13/36
Les données
−3 −2 −1 0 1 2 3 4
−1.
5−
1.0
−0.
50.
00.
51.
01.
5Données
x
y
observationsvraie fonction
Reseaux de neurones – p. 14/36
Comportement de divers modèles
−3 −2 −1 0 1 2 3 4
−1.
5−
1.0
−0.
50.
00.
51.
01.
5Modèle linéaire
x
y
observationsfonctionmodèle
Reseaux de neurones – p. 15/36
Comportement de divers modèles
−3 −2 −1 0 1 2 3 4
−1.
5−
1.0
−0.
50.
00.
51.
01.
5MLP 1 neurone(s)
x
y
observationsfonctionmodèle
Reseaux de neurones – p. 15/36
Comportement de divers modèles
−3 −2 −1 0 1 2 3 4
−1.
5−
1.0
−0.
50.
00.
51.
01.
5MLP 2 neurone(s)
x
y
observationsfonctionmodèle
Reseaux de neurones – p. 15/36
Comportement de divers modèles
−3 −2 −1 0 1 2 3 4
−1.
5−
1.0
−0.
50.
00.
51.
01.
5MLP 3 neurone(s)
x
y
observationsfonctionmodèle
Reseaux de neurones – p. 15/36
Comportement de divers modèles
−3 −2 −1 0 1 2 3 4
−1.
5−
1.0
−0.
50.
00.
51.
01.
5MLP 4 neurone(s)
x
y
observationsfonctionmodèle
Reseaux de neurones – p. 15/36
Comportement de divers modèles
−3 −2 −1 0 1 2 3 4
−1.
5−
1.0
−0.
50.
00.
51.
01.
5MLP 5 neurone(s)
x
y
observationsfonctionmodèle
Reseaux de neurones – p. 15/36
Comportement de divers modèles
−3 −2 −1 0 1 2 3 4
−1.
5−
1.0
−0.
50.
00.
51.
01.
5MLP 6 neurone(s)
x
y
observationsfonctionmodèle
Reseaux de neurones – p. 15/36
Comportement de divers modèles
−3 −2 −1 0 1 2 3 4
−1.
5−
1.0
−0.
50.
00.
51.
01.
5MLP 7 neurone(s)
x
y
observationsfonctionmodèle
Reseaux de neurones – p. 15/36
Comportement de divers modèles
−3 −2 −1 0 1 2 3 4
−1.
5−
1.0
−0.
50.
00.
51.
01.
5MLP 8 neurone(s)
x
y
observationsfonctionmodèle
Reseaux de neurones – p. 15/36
Comportement de divers modèles
−3 −2 −1 0 1 2 3 4
−1.
5−
1.0
−0.
50.
00.
51.
01.
5MLP 9 neurone(s)
x
y
observationsfonctionmodèle
Reseaux de neurones – p. 15/36
Comportement de divers modèles
−3 −2 −1 0 1 2 3 4
−1.
5−
1.0
−0.
50.
00.
51.
01.
5MLP 10 neurone(s)
x
y
observationsfonctionmodèle
Reseaux de neurones – p. 15/36
Evolution de l’erreur
0 2 4 6 8 10
−3
−2
−1
01
Comparaison des modèles
Complexité du modèle
log
des
erre
urs
donnéesvraie fonction
Reseaux de neurones – p. 16/36
Evolution de l’erreur (2)
Baisse de l’erreur sur les données : baisse du biaisAugmentation de l’erreur par rapport à la vraie fonction :
augmentation de la variance (sensibilité aux données,overfitting)Choix du modèle très difficile : l’erreur sur les données
n’est pas un bon critèrePistes pour une solution :
contrôler finement la puissance du modèle (éviter les“vagues”)estimer la “vraie erreur” :
découpage des donnéesre-simulation
Reseaux de neurones – p. 17/36
Sensibilité aux données
Illustration numérique de la variance :on engendre 50 jeux de données :
toujours sous la forme yi = f(xi) + εi
les xi sont choisis au hasardon estime le modèle pour chaque jeu de donnéeson trace la réponse moyenne du modèle : la différence
avec le vrai modèle est le biaison trace les valeurs extrêmes (moyenne +/− 2 fois
l’écart-type) : représentation de la variancesur cet exemple :
le biais devient rapidement nul (ou presque)la variance explose
Reseaux de neurones – p. 18/36
Sensibilité aux données : données
−3 −2 −1 0 1 2 3
−1.
5−
1.0
−0.
50.
00.
51.
01.
5
x
y
Reseaux de neurones – p. 19/36
Sensibilité aux données : résultats sur 3 courbes
−3 −2 −1 0 1 2 3
−1.
5−
1.0
−0.
50.
00.
51.
01.
50
x
y
Reseaux de neurones – p. 20/36
Sensibilité aux données : résultats sur 3 courbes
−3 −2 −1 0 1 2 3
−1.
5−
1.0
−0.
50.
00.
51.
01.
51
x
y
Reseaux de neurones – p. 20/36
Sensibilité aux données : résultats sur 3 courbes
−3 −2 −1 0 1 2 3
−1.
5−
1.0
−0.
50.
00.
51.
01.
52
x
y
Reseaux de neurones – p. 20/36
Sensibilité aux données : résultats sur 3 courbes
−3 −2 −1 0 1 2 3
−1.
5−
1.0
−0.
50.
00.
51.
01.
53
x
y
Reseaux de neurones – p. 20/36
Sensibilité aux données : résultats sur 3 courbes
−3 −2 −1 0 1 2 3
−1.
5−
1.0
−0.
50.
00.
51.
01.
54
x
y
Reseaux de neurones – p. 20/36
Sensibilité aux données : résultats sur 3 courbes
−3 −2 −1 0 1 2 3
−1.
5−
1.0
−0.
50.
00.
51.
01.
55
x
y
Reseaux de neurones – p. 20/36
Sensibilité aux données : résultats sur 3 courbes
−3 −2 −1 0 1 2 3
−1.
5−
1.0
−0.
50.
00.
51.
01.
56
x
y
Reseaux de neurones – p. 20/36
Sensibilité aux données : résultats sur 3 courbes
−3 −2 −1 0 1 2 3
−1.
5−
1.0
−0.
50.
00.
51.
01.
57
x
y
Reseaux de neurones – p. 20/36
Sensibilité aux données : résultats sur 3 courbes
−3 −2 −1 0 1 2 3
−1.
5−
1.0
−0.
50.
00.
51.
01.
58
x
y
Reseaux de neurones – p. 20/36
Sensibilité aux données : résultats sur 3 courbes
−3 −2 −1 0 1 2 3
−1.
5−
1.0
−0.
50.
00.
51.
01.
59
x
y
Reseaux de neurones – p. 20/36
Sensibilité aux données : résultats sur 3 courbes
−3 −2 −1 0 1 2 3
−1.
5−
1.0
−0.
50.
00.
51.
01.
510
x
y
Reseaux de neurones – p. 20/36
Sensibilité aux données : résultats sur 3 courbes
−3 −2 −1 0 1 2 3
−1.
5−
0.5
0.5
1.5
0
x
y
−3 −2 −1 0 1 2 3
−1.
5−
0.5
0.5
1.5
1
x
y
−3 −2 −1 0 1 2 3
−1.
5−
0.5
0.5
1.5
2
x
y
−3 −2 −1 0 1 2 3
−1.
5−
0.5
0.5
1.5
3
x
y
−3 −2 −1 0 1 2 3
−1.
5−
0.5
0.5
1.5
4
x
y
−3 −2 −1 0 1 2 3
−1.
5−
0.5
0.5
1.5
5
x
y
−3 −2 −1 0 1 2 3
−1.
5−
0.5
0.5
1.5
6
x
y
−3 −2 −1 0 1 2 3
−1.
5−
0.5
0.5
1.5
7
x
y
−3 −2 −1 0 1 2 3
−1.
5−
0.5
0.5
1.5
8
x
y
−3 −2 −1 0 1 2 3
−1.
5−
0.5
0.5
1.5
9
x
y
−3 −2 −1 0 1 2 3
−1.
5−
0.5
0.5
1.5
10
x
y
Sensibilité aux données
Reseaux de neurones – p. 21/36
Sensibilité aux données : résultats
−3 −2 −1 0 1 2 3
−1.
5−
0.5
0.5
1.5
0
x
y
−3 −2 −1 0 1 2 3
−1.
0−
0.5
0.0
0.5
1.0
1
x
y
−3 −2 −1 0 1 2 3
−1.
5−
0.5
0.5
2
x
y
−3 −2 −1 0 1 2 3
−6
−4
−2
02
46
3
x
y
−3 −2 −1 0 1 2 3
−10
−5
05
10
4
x
y
−3 −2 −1 0 1 2 3
−15
−5
05
1015
5
x
y
−3 −2 −1 0 1 2 3
−15
−5
05
1015
6
x
y
−3 −2 −1 0 1 2 3
−20
010
2030
7
x
y
−3 −2 −1 0 1 2 3
−10
−5
05
1015
8
x
y
−3 −2 −1 0 1 2 3
−10
−5
05
10
9
x
y
−3 −2 −1 0 1 2 3
−10
−5
05
10
10
x
y
Sensibilité aux données
moyenne
2 x écart type
fonction
Reseaux de neurones – p. 22/36
Décomposition biais+variance
0 2 4 6 8 10
−2
−1
01
Comparaison des modèles
Complexité du modèle
log
des
erre
urs
variancebiais
Reseaux de neurones – p. 23/36
Un exemple de discrimination simple
On possède une suite d’observations, les (xi, yi)Chaque observation (x, y) est placée dans une classeOn cherche à expliquer modéliser la relation entre (x, y) et
la classe d’appartenanceApplications pratiques :
diagnostic médical ((x, y) : symptômes)diagnostic informatique (détection d’intrusion, de virus,etc.)reconnaissance des formes (écriture, parole, cibles,etc.)
Le but principal est de pouvoir classer de nouvellesobservationsMêmes problèmes que pour la régression
Reseaux de neurones – p. 24/36
Un exemple de discrimination
−4 −2 0 2
−2
02
4Données
x
y
classe 0classe 1
Reseaux de neurones – p. 25/36
Densités
Classe 0Classe 1
-4-3
-2-1
01
23
4 -3
-2
-1
0
1
2
3
4
00.020.04
0.060.08
0.10.120.140.16
Reseaux de neurones – p. 26/36
Connaissance imparfaite
Les classes sont mélangées :connaissance imparfaite :
mesures fausses (diagnostic erroné, test manqué)données manquantes (mesures impossibles à réaliser,dangereuses ou coûteuses)
variabilité intrinsèque :classe variable ou mal définie (consommateur enmarketing par exemple)évolution possiblevariabilité naturelle (numération sanguine par exemple)
le but n’est pas le classement parfait !estimer la probabilité d’appartenance à une classesur l’exemple proposé, on peut démontrer qu’on ne peut
pas descendre en dessous de 10.5% de mauvaisclassements
Reseaux de neurones – p. 27/36
Modèle optimal (linéaire)
+
+
+
+
+
+
+
+
+
+
+
+
++
+
++
+
+
+
+
+
+
++
+
+
+
+
+
+
++
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+++
++
+
+
++
+
+
+
+++
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+
++
+
+
++
++
++
+
++
+
+
+
+
+
+
+
+
++
+
++
+
+
+
+
+
+
+
++ +
+
+
+
+
+
−4 −2 0 2
−2
02
4Données
x
y
+
+
+
++
+
+
+ +
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+++
+
++
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
++
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+
++
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
++
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ ++
+
+
+
++
+
+
++
+
+ +++
+
+
+
+
+
++
+
+
+ +
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
++
+ +
+
+
+
+
+
+
++
classe 0classe 1
Reseaux de neurones – p. 28/36
Le modèle optimal fait des erreurs (10.75%) !
+
+
+
+
+
+
+
+
+
+
+
+
++
++
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+++
++
+
+
++
+
++
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+
+
+
+
+
+
+
+
+
+
+ +
+
++
+
+
++
++
++
+
+
+
+
+
+
+
+
+
+
+
++
+
+
++
+
+
++ +
+
+
+
+
−4 −2 0 2
−2
02
4Modèle linéaire théorique
x
y
+
+
++
+
+
+ +
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+++
+
++
++
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
++
+
+
+
++
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+ +
+
+
++
+
+
+ +
+
+
+
++
+
+
+
++
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
++
++
+
++
+
+
+
++
+
+
++
+
+ +++
+
+
+
+
+
++
+
+
+ +
+
+
+
+
+
+
+
+
++
+ +
+
+
+
+ +
+
+
+
+
+
++
+
++
+ +
+
+
+
+
+
++oo
0 −> 01 −> 11 −> 00 −> 1optimal
Reseaux de neurones – p. 29/36
Comportement de divers modèles
+
+
+
+
+
+
+
+
+
+
+
+
++
++
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+++
++
+
+
++
+
+++
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+
+
+
+
+
+
+
+
+
+
+ +
+
++
+
+
++
++
++
+
+
+
+
+
+
+
+
+
+
+
+
++
+
++
+
+
++ +
+
+
+
−4 −2 0 2
−2
02
4Modèle linéaire
x
y
+
+
++
+
+
+ +
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+++
+
++
++
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
++
+
+
+
++
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+ +
+
+
++
+
+
+ +
+
+
+
++
+
+
+
++
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
++
++
+
++
+
+
+
++
+
+
++
+
+ +++
+
+
+
+
+
++
+
+
+ +
+
+
+
+
+
+
+
+
++
+ +
+
+
+
+ +
+
+
+
+
+
+
+
++
+ +
+
+
+
+
+
++oo
0 −> 01 −> 11 −> 00 −> 1décisionoptimal
Reseaux de neurones – p. 30/36
Comportement de divers modèles
+
+
+
+
+
+
+
+
+
+
+
+
++
+
++
+
+
+
+
+
++
+
+
+
+
+
++
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+++
++
+
+
++
+
+
+
+++
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+
+
+
+
+
+
+
+
+
+
+ +
+
++
+
+
++
++
++
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
++
+
+
++ +
+
+
+
+
+
−4 −2 0 2
−2
02
4réseau à 1 neurone(s)
x
y
+
+
++
+
+
+ +
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+++
+
++
++
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
++
+
+
+
++
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+ +
+
+
++
+
+
+ +
+
+
+
++
+
+
+
++
+
+
+
+
+
+
+
++
++
+
+
+
+
++
++
+
++
+
+
+
++
+
+
++
+
+ +++
+
+
+
+
+
++
+
+
+ +
+
+
+
+
+
+
+
+
++
+ +
++
+ +
+
+
+
+
+
+
+
++
+ +
+
+
+
+
+
++oo
0 −> 01 −> 11 −> 00 −> 1décisionoptimal
Reseaux de neurones – p. 30/36
Comportement de divers modèles
+
+
+
+
+
+
+
+
+
+
+
+
++
+
++
+
+
+
+
+
++
+
+
+
+
+
++
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+++
++
+
+
++
+
+
+
+++
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+
+
+
+
+
+
+
+
+
+
+ +
+
++
+
+
++
++
++
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
++
+
+
++ +
+
+
+
+
+
−4 −2 0 2
−2
02
4réseau à 2 neurone(s)
x
y
+
+
++
+
+
+ +
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+++
+
++
++
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
++
+
+
+
++
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+ +
+
+
++
+
+
+ +
+
+
+
++
+
+
+
++
+
+
+
+
+
+
+
++
++
+
+
+
+
++
++
+
++
+
+
+
++
+
+
++
+
+ +++
+
+
+
+
+
++
+
+
+ +
+
+
+
+
+
+
+
+
++
+ +
++
+ +
+
+
+
+
+
+
+
++
+ +
+
+
+
+
+
++oo
0 −> 01 −> 11 −> 00 −> 1décisionoptimal
Reseaux de neurones – p. 30/36
Comportement de divers modèles
+
+
+
+
+
+
+
+
+
+
+
+
++
+
++
+
+
+
+
+
++
+
+
+
+
+
++
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+++
++
+
+
++
+
+
+
+++
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ +
+
++
+
+
++
++
++
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
++
+
+
++ +
+
+
+
+
+
−4 −2 0 2
−2
02
4réseau à 4 neurone(s)
x
y
+
+
++
+
+
+ +
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+++
+
++
++
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
++
+
+
+
++
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+ +
+
+
++
+
+
+ +
+
+
+
+++
+
++
+
+
+
+
+
+
+
++
++
+
+
+
+
++
++
+
+ ++
+
+
+
+
+
+
++
+
+ +++
+
+
+
+
+
++
+
+
+ +
+
+
+
+
+
+
+
+
++
+ +
++
+ +
+
+
+
+
+
+
+
++
+ +
+
+
+
+
+
++oo
0 −> 01 −> 11 −> 00 −> 1décisionoptimal
Reseaux de neurones – p. 30/36
Comportement de divers modèles
+
+
+
+
+
+
+
+
+
+
+
++
+
++
+
+
+
+
+
++
+
+
+
+
+
++
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+++
++
+
+
++
+
+
+
+++
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ +
+
++
+
+
++
++
++
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
++
+
+
++ +
+
+
+
+
+
−4 −2 0 2
−2
02
4réseau à 6 neurone(s)
x
y
+
+
++
+
+
+ +
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+++
+
++
++
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
++
+
+
+
++
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+ +
+
+
++
+
+
+
+
+
+
+
+++
+
++
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
++
+
+ ++
+
+
+
+
+
+
++
+
+ +++
+
+
+
+
+
++
+
+
+ +
+
+
+
+
+
+
+
+
++
+ +
++
+ +
+
+
+
+
+
++
+
++
+ +
+
+
+
+
+
++oo
0 −> 01 −> 11 −> 00 −> 1décisionoptimal
Reseaux de neurones – p. 30/36
Comportement de divers modèles
+
+
+
+
+
+
+
+
+
+
+
+
++
+
++
+
+
+
+
+
++
+
+
+
+
+
++
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+++
++
+
+
++
+
+
+
+++
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+
++
+
+
++
++
++
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
++ +
+
+
+
+
−4 −2 0 2
−2
02
4réseau à 8 neurone(s)
x
y
+
+
++
+
+
+ +
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+++
+
++
++
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
++
+
+
+
++
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+ +
+
+
++
+
+
+
+
+
+
+
+
+++
+
++
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
++
+
+ ++
+
+
+
+
+
+
++
+
+ +++
+
+
+
+
+
++
+
+
+ +
+
+
+
+
+
+
+
+
++
+ +
++
+ +
+
+
+
+
+
+
+
++
+ +
+
+
+
+
+
++oo
0 −> 01 −> 11 −> 00 −> 1décisionoptimal
Reseaux de neurones – p. 30/36
Comportement de divers modèles
+
+
+
+
+
+
+
+
+
+
+
++
+
++
+
+
+
+
+
++
+
+
+
+
+
++
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+++
++
+
+
++
+
+
+
+++
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+
++
+
+
++
++
++
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
++ +
+
+
+
+
−4 −2 0 2
−2
02
4réseau à 10 neurone(s)
x
y
+
+
++
+
+
+ +
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+++
+
++
+
++
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
++
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+
++
+
+
+
+ +
+
+
+
++
++
+
++
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
++
+
++
+
+
+
+
+
++
+
+ +++
+
+
+
+
+
++
+
+
+ +
+
+
+
+
+
+
+
+
+
++
+
+
+
++
+ +
+
+
+
+
+
++
+
++
+ +
+
+
+
+
+
+
++oo
0 −> 01 −> 11 −> 00 −> 1décisionoptimal
Reseaux de neurones – p. 30/36
Comportement de divers modèles
+
+
+
+
+
+
+
+
+
+
+
+
++
+
++
+
+
+
+
+
++
+
+
+
+
+
+
++
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+++
++
+
+
++
+
+
+
+++
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+
++
+
+
++
++
++
+
++
+
+
+
+
+
+
+
+
+
+
++
+
++
+
+
++ +
+
+
+
+
+
−4 −2 0 2
−2
02
4réseau à 12 neurone(s)
x
y
+
+
++
+
+
+ +
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+++
+
++
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
++
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+ +
+
+
++
+
+
+
+
+
+
+
+
+
++
++
+
++
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
++
+
+ ++
+
+
+
++
+
+
++
+
+ +++
+
+
+
+
+
++
+
+
+ +
+
+
+
+
+
+
+
+
+
++
+
+
+
++
+ +
+
+
+
+
+
++
+
++
+ +
+
+
+
+
+
++oo
0 −> 01 −> 11 −> 00 −> 1décisionoptimal
Reseaux de neurones – p. 30/36
Comportement de divers modèles
+
+
+
+
+
+
+
+
+
+
+
+
++
+
++
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+++
++
+
+
++
+
+
+
+++
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+
++
+
+
++
++
+
+
+
+
+
+
+
+
+
+
+
++
+
++
+
+
+
+
+
+
++ +
+
+
+
−4 −2 0 2
−2
02
4réseau à 14 neurone(s)
x
y
+
+
++
+
+
+ +
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+++
+
++
++
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
++
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+
++
+
+
+
+
+
+
+
+
++
+
+
+
+
+
++
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
++
+
+ ++
+
+
+
++
+
+
++
+
+ +++
+
+
+
+
+
++
+
+
+ +
+
+
+
+
+
+
+
+
+
++
+
+
+
++
+
+
+
+
+
+
+
+
++
+
++
+ +
+
+
+
+
+
++oo
0 −> 01 −> 11 −> 00 −> 1décisionoptimal
Reseaux de neurones – p. 30/36
Comportement de divers modèles
+
+
+
+
+
+
+
+
+
+
+
+
++
+
++
+
+
+
+
+
+
++
+
+
+
+
+
++
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+++
++
+
+
++
+
+
+
+++
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+
++
+
+
++
++
++
+
++
+
+
+
+
+
+
+
+
++
+
++
+
+
+
+
+
+
+
++ +
+
+
+
+
+
−4 −2 0 2
−2
02
4réseau à 16 neurone(s)
x
y
+
+
++
+
+
+ +
+
++
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+++
+
++
++
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
++
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+ +
+
+
++
+
+
+
+
+
+
+
+
++
+
+
+
+
+
++
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
++
+
+ ++
+
+
+
++
+
+
+
+
+ +++
+
+
+
+
+
++
+
+
+ +
+
+
+
+
+
+
+
+
+
++
+ +
++
+
+
+
+
+
+
+
+
++
+
++
+ +
+
+
+
+
+
++oo
0 −> 01 −> 11 −> 00 −> 1décisionoptimal
Reseaux de neurones – p. 30/36
Comportement de divers modèles
+
+
+
+
+
+
+
+
+
+
+
+
++
+
++
+
+
+
+
+
++
+
+
+
+
+
+
++
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+++
++
+
+
++
+
+
+
+++
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+
++
+
+
++
++
++
+
++
+
+
+
+
+
+
+
+
++
+
++
+
+
+
+
+
+
++ +
+
+
+
+
+
−4 −2 0 2
−2
02
4réseau à 18 neurone(s)
x
y
+
+
++
+
+
+ +
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+++
+
++
+
++
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
++
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+
++
+
+
+
+
+
+
+
+
+
++
+
+
+
+
++
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
++
+
+ ++
+
+
+
++
+
+
++
+
+ +++
+
+
+
+
+
++
+
+
+ +
+
+
+
+
+
+
+
+
+
++
+
+
+
++
+ +
+
+
+
+
+
++
+
++
+ +
+
+
+
+
+
++oo
0 −> 01 −> 11 −> 00 −> 1décisionoptimal
Reseaux de neurones – p. 30/36
Comportement de divers modèles
+
+
+
+
+
+
+
+
+
+
+
+
++
+
++
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+++
++
+
+
++
+
+
+
+++
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+
++
+
+
++
++
++
+
+
+
+
+
+
+
+
+
++
+
++
+
+
+
+
+
+
++ +
+
+
+
+
+
−4 −2 0 2
−2
02
4réseau à 20 neurone(s)
x
y
+
+
++
+
+
+ +
+
++
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+++
+
++
+
++
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
++
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+ +
+
+
++
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
++
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
++
+
+ ++
+
+
+
++
+
+
+
+
+ +++
+
+
+
+
+
++
+
+
+ +
+
+
+
+
+
+
+
+
+
++
+
+
+
++
+ +
+
+
+
+
+
+
++
+
++
+ +
+
+
+
+
+
++oo
0 −> 01 −> 11 −> 00 −> 1décisionoptimal
Reseaux de neurones – p. 30/36
Evolution de l’erreur
0 5 10 15 20
0.04
0.06
0.08
0.10
0.12
0.14
Comparaison des modèles
Complexité du modèle
Tau
x d’
erre
ur
DonnéesVraies classes
Reseaux de neurones – p. 31/36
Enseignement des exemples
Une approche naïve est impossible :les performances sur les données ne permettent pas deprédire le comportement du modèle sur de nouvellesdonnéesles RN sont puissants : on peut presque toujours fairebaisser l’erreur de modélisation en ajoutant desneurones
Il faut comprendre le phénomène pour y remédier :modélisation statistiquejustification mathématique des résultats
Les solutions (actuelles) sont coûteuses en temps decalcul
Reseaux de neurones – p. 32/36
Cadre mathématique général
Les données à étudier sont décrites de la façon suivante :on dispose de N individus ou exempleschaque individu est décrit par n variables réelles, i.e.
chaque exemple est un vecteur x ∈ Rn
dans le cas de la discrimination, chaque exemple estassocié à une classe (un groupe)dans le cas de la régression, chaque exemple est associé
à une variable cible, notée y (élément de Rp).
On peut reformuler les trois problèmes de l’AD :
1. discrimination : trouver un lien entre x et sa classe
2. régression : trouver un lien entre x et y
3. classification : construire des classes en associant desétiquettes aux individus
Reseaux de neurones – p. 33/36
Discrimination et statistique
En discrimination :pour chaque individu xk, on connaît la classe Cj telle que
xk ∈ Cj
on cherche à classer de nouveaux individusOn doit estimer :
P (Cj|x)
la probabilité que l’individu observé soit issu de la classe Cj
sachant qu’il est décrit par le vecteur x. Intérêts :permet d’affecter un individu à une classe (la plus
probable, en général)permet de mesurer l’erreur liée à cette affectation
Reseaux de neurones – p. 34/36
Régression et statistique
En régression :chaque individu xk est associé à une grandeur yk ∈ R
p
on cherche à exprimer yk comme une fonction de xk
On doit estimer :E(Y |X = x)
l’espérance conditionnelle de Y sachant X = x : c’est lameilleure approximation de Y par une fonction de X.
Reseaux de neurones – p. 35/36
Classification et statistique
En classification :les individus ne sont associés à aucune donnée
explicativeon chercher à trouver des groupes (des classes)
On peut chercher à exprimer p(x) comme un mélange :
p(x) =
M∑
j=1
p(x|Cj)P (Cj)
On peut ensuite affecter les individus aux classes, grâce à larègle de Bayes :
P (Cj|x) =p(x|Cj)P (Cj)
p(x)
Reseaux de neurones – p. 36/36