View
26
Download
0
Category
Preview:
DESCRIPTION
Pourquoi les réseaux de neurones de type « perceptron multicouche » conviennent-ils à l’apprentissage. Stéphane Canu, INSA de Rouen , PSI André Elisseeff, ERIC, université de Lyon http://psichaud.insa-rouen.fr/~scanu/. RNA de type PMC. y = W f ( W f (W X) ). 2. 1. 1. 3. 2. Motivations. - PowerPoint PPT Presentation
Citation preview
15-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE
Pourquoi les réseaux de neurones
de type « perceptron multicouche »
conviennent-ils à l’apprentissage
Stéphane Canu, INSA de Rouen , PSI
André Elisseeff, ERIC, université de Lyon
http://psichaud.insa-rouen.fr/~scanu/
25-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE
RNA de type PMC
y = W f ( W f (W X) )2 113 2
j-1
j-2
j-3
j-4
j-5
j-6
j-7
j-1
j-2
j-3
j-1
j-2
j-3
tem
p.
Monday
Tuesday
Wednesday
Thursday
Friday
Saturday
Sunday
INPUT LAYER
FIRST HIDEN LAYER
SECOND HIDEN LAYER
OUTPUT
FORECAST
Rai
nW
ater
dem
and
35-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE
Motivations
• RNA de type PMC : si ça marche, il doit y avoir un argument mathématique !– Une machine qui apprend
(pour « comprendre » ou « résoudre »)
argument biologique ou mathématique
• Poser (formaliser) le problème « d’apprentissage à partir d’exemples »– universalité
– contrôle de la complexité • local vs global• dimensionnalité• hyper paramètre : • structure vs « adaptation »
45-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE
Le problème d’apprentissage
• Des variables explicatives : X, et des variables à expliquer : Y (observées) (à prédire)
• des variables aléatoires : (X,Y)
• une loi jointe (inconnue)
• une fonction coût
• une fonction cible r(x)= E(Y|X=x)
• un échantillon (xi,yi) i=1,n
B rYXr ;:
Construire , un estimateur de la fonction r
2),,(),,( R:
ppp yyyyxCyyxYYXC
r̂
P),( YXP
55-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE
Le problème d’apprentissage
• Des variables explicatives : X, et des variables à expliquer : Y (observées) (à prédire)
• des variables aléatoires : (X,Y)
• une loi jointe (inconnue)
• une fonction coût
• une fonction cible r(x)= E(Y|X=x)
• un échantillon (xi,yi) i=1,n
B rYXr ;:
Construire , un estimateur de la fonction r
2),,(),,( R:
ppp yyyyxCyyxYYXC
r̂
P),( YXP
R (une dimension)
65-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE
Apprentissage à partir d'exemples
• Données : (xi,yi) i=1,n
• Principe inductif : Minimisation risque empirique
• Ce n’est pas suffisant ...
)(min)(ˆ fC
f
Argxr emp
B 2)(min)( XfYArgxr E
2)()( XfYf EEP Cemp ( f ) 1
nyi f (xi ) 2
i1
n
75-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE
• B trop grand :
tout apprendre = apprendre n’importe quoi
• Solution instable
Pourquoi le principe du MRE n’est pas suffisant ?
85-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE
Exemples d'estimateurs f(x) à coût nul
• B trop grand :
tout apprendre = apprendre n’importe quoi
• Solution instable
minimiser Cemp ce n’est pas forcément minimiser EP
Cemp = 0
Pourquoi le principe du MRE n’est pas suffisant ?
95-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE
Exemples d'estimateurs f(x) à coût nul
• B trop grand :
tout apprendre = apprendre n’importe quoi
• Solution instable
minimiser Cemp ce n’est pas forcément minimiser EP
Cemp = 0
Pourquoi le principe du MRE n’est pas suffisant ?
105-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE
M.R.E.: comment stabiliser ?deux principes.
• Ce problème est mal posé– EP est instable– B est trop grand
• Il faut introduire un a priori– compactifier = régulariser (Tikhonov 63, Groetsch 93)
• Stabilisateur (pénalisation),
• Arrêt de la minimisation,
• Perturber les entrées,...
– Minimiser dans un sous ensemble F de B
115-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE
Minimisation du risque empiriqueExemples d'estimateurs f(x) à coût nul
f..f..f3
2
1
Mesure de Qualité
n
iii
fxfy
1
22
1 )( minB
125-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE
Minimisation du risque empiriqueExemples d'estimateurs f(x) à coût nul
f..f..f
pas bon
3
2
1
Mesure de Qualité
n
iii
fxfy
1
22
1 )( minB
135-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE
Minimisation du risque empiriqueExemples d'estimateurs f(x) à coût nul
f..f..f
pas bon..
bon..
moyen3
2
1
Mesure de Qualité
n
iii
fxfy
1
22
1 )( minB
145-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE
Mesure de Qualité
• : F R
f (f)
+Ff| (f) existe
Ajustement aux Données
Min |yi - f(xi)| (f) i
n12
2
f F
155-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE
Mesure de Qualité
• : F R
f (f)
+Ff| (f) existe
Ajustement aux Données Qualité a priori
Min |yi - f(xi)| (f) i
n12
2
f F
165-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE
Mesure de Qualité
• : F R
f (f)
+Ff| (f) existe
Ajustement aux Données Qualité a priori
Min |yi - f(xi)| (f) i
n12
2
f F
Roberval
175-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE
Exemple d’a priori
(f)
mesure la “qualité” de f
P( f ) 1
Zexp ( f ) Interprétation Bayésienne
d =
Qfx
f =
dxf'(x)f'f) =
G
f
j=j
(j)
~
2~
22
1
22(
185-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE
Exemple d’a priori
(f)
mesure la “qualité” de f
P( f ) 1
Zexp ( f ) Interprétation Bayésienne
d =
Qfx
f =
dxf'(x)f'f) =
G
f
j=j
(j)
~
2~
22
1
22(
Fourier
195-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE
-4 -2 0 2 4 60
50
100
150
200
Choix de l’a priori
P(x) petit P(x) grandpeu d’information beaucoup d’informationf doit être « régulière » f peut être « irrégulière »
X
: mesureP(x): densité
(dx)= P(x)dx
205-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE
-4 -2 0 2 4 60
50
100
150
200
Choix de l’a priori
P(x) petit P(x) grandpeu d’information beaucoup d’informationf doit être « régulière » f peut être « irrégulière »
X
: mesureP(x): densité
(dx)= P(x)dx
dff
fL
2
22
2
2
d
d
d
d
2
Qualité
215-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE
Choix de l’a prioridérivée de Radon-Nikodym
d
d
:
d
d
d
d
2
2
2
2
22
2
2
2
2
2
fQff
LWQ
df
Qff
f LL
''''
d
det
'dd
d)(d que telle)( si
d que teldd
32
2
P
PffPfPff
xxPxP
fg gf
Un exemple
225-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE
exemple
235-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE
• Solution : r(x) = Arg
r(x) = r (x) + r (x)
« locale » (r ) = 0
• les a priori des perceptrons multicouches
tanh(x) : “globale” (tanh) = 0
Choix de (f) a priori
min |yi-f(xi)| (f) i
n12
f F
k
^
k^ ^ ^
l^
2
dff
fL
2
22
2
2
d
d
d
d
2
245-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE
Minimisation du risque régularisé
- ))((1
- 0)('
+ - ))(( )(' ici
)()(
0
lim,'
0)(' résolvant en est trouvé minimum le
+ ))(( = )(
1
*
*
1
22
1
22
1
i
n
iii
i
n
iii
n
iii
xxyxffQQfJ
fQQxxyxffJ
k
fJkgfJ
kgJ
fJ
QfyxffJ
dérivéedirectionnelle
255-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE
min J ( f ) = 1
2( f (xi ) yi )2
i1
n
+ 2
Pf 2
le minimum est trouvé en résolvant P*P f -1
( f (xi ) yi )
i1
n
x - xi
le noyau de Green G : P*P G
f = G * -1
( f (xi ) yi )
i1
n
x - xi + Ker(P)
ˆ r (x) = ci G x - xi i1
n
d j Kerj (x) k1
K
ci -1
( f (xi ) yi )
de Q à G
Q*Q
Q*Q
|Qf
Ker(Q)
265-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE
de Q à G
A PRIORI
Solution
min J ( f ) = 1
2( f (xi ) yi )2
i1
n
+ 2
Pf 2
le minimum est trouvé en résolvant P*P f -1
( f (xi ) yi )
i1
n
x - xi
le noyau de Green G : P*P G
f = G * -1
( f (xi ) yi )
i1
n
x - xi + Ker(P)
ˆ r (x) = ci G x - xi i1
n
d j Kerj (x) k1
K
ci -1
( f (xi ) yi )
Q*Q
Q*Q
|Qf
Ker(Q)
275-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE
estimation des c
ci -1
( f (xi ) yi )
ci yi c jG(xi x j )j1
n
pour i = 1, n
Gc + I c y matriciellement
c G + I 1 y
r(x) c j G(x x j )j1
n
= G(x x j )j1
n
G + I 1 y j
285-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE
Estimation des c et des d
G + I K
K’ 0
c
d
y
0
=
1
n
n+k
n+kn
295-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE
Exemple
305-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE
Une Solution Mixte
r(x) = r (x) + r (x)
R.B.F + P.M.C
Un cadre théorique possible
k^ ^ ^
l
315-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE
Perspectives• cadre théorique pour les réseaux de neurones
• mesures signées
• multidimensionnel,
• intégration des données (x et y) dans le choix de • nouveaux algorithmes d ’apprentissage (SVM, …),
• moins d’erreur : des bornes !
• intégrer une mesure de complexité,
325-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE
Régression spline et a priori
• f = Qf Q*Q G =
• f(x) = ci G(xi,x) + dj Kerj(x)
• moindres carrés : (G + I) c = y
Noyau équivalent : f(x) = yi K(xi,x)
Matrice de lissage : f(xi) = S y
335-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE
Les autres fonctions couts
Cout quadratique
Cout absolu
Cout relatif absolu
Relatif quadratique
Quantiles
Fixé par l’utilisateur, ...
y f (x) 2
y f (x)
y f (x)
y
y f (x)
y
2
r(x) = E(Y| X=x)
P(Y q(x) X x) p
P(Y m(x) x) 0.5
y f (x) p 1 yf (x ) (1 p) 1 y f (x)
P1
Ym(x) x
0.5
r(x) E
1
Y X x
E1
Y 2 X x
nom contraste fonction cible
345-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE
Minimisation du Risque Empirique (M.R.E.)
• Ce problème est mal posécar B est trop grand !– existence d’une solution– unicité– stabilité de l’erreur en
prédiction EP
si (xi,yi) change un peu, EP varie peu
ˆ r (x) Arg min
f Byi f (xi ) 2
i1
n
2)(min)( XfYArgxr E
2)(ˆ)ˆ( XrYr EEP
Cemp 1
nyi f (xi ) 2
i1
n
355-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE
Minimisation du risque structurel
Minimisation risque empirique Cemp( f ) 1
nyi f (xi ) 2
i1
n
min
F B E C Y, minf F Cemp ( f , Xi ,Yi )
Régulariser : choisir F tel que M.R.E. soit stable
Choix de F : Minimisation du risque Structurel ˆ r (x) Arg min
f FCemp( f )
ˆ r (x) Arg min
f BCemp( f )
365-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE
Minimisation du risque structurel
1 - Choix de F-F est fonction de l’échantillon et du problème,- pratiquement, {Fm} : contrôle de la complexité.
2 - Estimation de l’erreur de prédiction- borne théorique,- par rééchantillonnage,- ensemble test.
3 - Régulariser : introduire un a priori (Groetsch 93)
- stabilisateur (pénalisation, Weigend 91),- perturber les entrées (régulariser l’opérateur, Plaut 86),
- arrêt de la minimisation (Amari 95).
min
F B E C Y, minf F Cemp ( f , Xi ,Yi )
1 2 {
3
375-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE
Moindrescarrés
minc yi c jG(x i x j )
j1
n
i1
n
2
minc Jemp (c) = y - Gc 2
minc Jemp(c) = yt y 2ctGt y ctGt Gc
dJemp (c)
dc= 2 Gt y 2 GtGc
J' emp (c) = 0 c = GtG 1 Gt y
c = GtG I 1G t y
Recommended