Apprentissage du quantron : un problème d\’optimisation non différentiable

$Page 1: Apprentissage du quantron : un problème d\’optimisation non différentiable$
Apprentissage du quantronUn problème d’optimisation non différentiable

Simon de Montigny

sous la direction de Richard Labib, Ph.D.

Departement de mathematiques et genie industriel

Ecole Polytechnique de Montreal

Apprentissage du quantron. April 3, 2008 – p. 1/??

Introduction

Un réseau de neurones artificiels est unmodèle simplifié du fonctionnement ducerveau.


Introduction


Entrées Sorties

Neurones et synapses


Introduction


Transformation

des signaux

Un seul neurone

Paramètres


Introduction

Les réseaux de neurones sont surtout utiliséscomme outil statistique pour effectuer de larégression, de la classification et del’estimation.


Introduction


Un réseau doit être entraîné pour pouvoireffectuer une certaine tâche.


Introduction


Un réseau doit être entraîné pour pouvoireffectuer une certaine tâche.

Le premier algorithme d’apprentissagedéveloppé pour les réseaux de neuroness’appelle "rétro-propagation de l’erreur"(Rumelhart et al., 1986).


Introduction

Modification des

paramètres

Modification des

paramètres

Calcul de

l'erreur du

réseau

Rétro-propagation de l'erreur

Rétro-propagation de la partie de l'erreur due à chaque neurone de

la couche précédente


Introduction

Les algorithmes d’apprentissages sontfondés sur des méthodes d’optimisation.


Introduction


On minimise une fonction d’erreur quicaractérise la différence entre l’état actuel duréseau et l’état désiré.


Introduction


On minimise une fonction d’erreur quicaractérise la différence entre l’état actuel duréseau et l’état désiré.

Les variables d’optimisation sont lesparamètres du réseau.


Exemple : le perceptron

Modèle de neurone :f(x1, x2) = w1x1 + w2x2 + w3



Modèle de neurone :f(x1, x2) = w1x1 + w2x2 + w3

v = w1x1

+w2x2

+w3

w1 , w

2 , w

3

x1

x2

y(v) = v



Tâche : reproduire la fonction{(

x(k)1 , x

(k)2

)

, d(k)}

k=1,...,n




x(k)1 , x

(k)2

)

, d(k)}

k=1,...,n

Erreur des moindres carrés :

E(w1, w2, w3) =n∑

k=1

[

d(k) − f(x(k)1 , x

(k)2 )

]2




x(k)1 , x

(k)2

)

, d(k)}

k=1,...,n

Erreur des moindres carrés :

E(w1, w2, w3) =n∑

k=1

[

d(k) − f(x(k)1 , x

(k)2 )

]2

Descente du gradient :wj(t + 1) = wj(t) − η ∂E

∂wj|w1(t),w2(t),w3(t)



Puisque f est linéaire, la fonction d’erreur estconvexe et l’apprentissage converge vers unminimum global (Haykin, 1999).




Un seul perceptron effectue une régressionlinéaire.





Mettre plusieurs perceptrons en réseaupermet de faire de la régression non linéaire.





Mettre plusieurs perceptrons en réseaupermet de faire de la régression non linéaire.

L’apprentissage n’est plus garanti deconverger vers un minimum global.


Que faire?

Limitations des réseaux de perceptrons :


Que faire?

Limitations des réseaux de perceptrons :Il n’y a pas de règle magique pour choisirla taille du réseau. Un réseau trop grandapprend lentement et généralise mal.


Que faire?

Limitations des réseaux de perceptrons :Il n’y a pas de règle magique pour choisirla taille du réseau. Un réseau trop grandapprend lentement et généralise mal.Le perceptron est un modèle grossier desneurones biologiques.


Que faire?


Question : Comment peut-on obtenir unréseau plus puissant et de petite taille?


Que faire?


Question : Comment peut-on obtenir unréseau plus puissant et de petite taille?

Solution : Améliorer le modèle de neuroneutilisé.


Le quantron

Le quantron est un modèle analytique,biologiquement réaliste qui intègre la diffusiondes neurotransmetteurs (Labib, 1999).


Le quantron


t0 5 10 15 20

z

0

1

2

3

4

5


Le quantron



Le quantron

Une entrée du quantron représente le délaientre les arrivées des vagues de neuro-transmetteurs émises par un autre neurone.


Le quantron

Une entrée du quantron représente le délaientre les arrivées des vagues de neuro-transmetteurs émises par un autre neurone.


Le quantron

L’opération effectuée par le quantron est unesommation des potentiels reçus :

S(t) =∑

i,j

ϕi,j(t)


Le quantron


S(t) =∑

i,j

ϕi,j(t)

i : indice des entréesj : indice des potentiels de chaque entrée


Le quantron


S(t) =∑

i,j

ϕi,j(t)


S(t) est une fonction continue.


Le quantron


S(t) =∑

i,j

ϕi,j(t)


S(t) est une fonction continue.

S(t) = 0 en dehors de [0, T ], où T est la fin dudernier potentiel reçu.


Le quantron

Les paramètres du quantron influencent letemps de début et de fin des potentiels, ainsique leur amplitude.


Le quantron


Si S(t) dépasse le seuil Γ, le quantron émetune vague de neurotransmetteurs. Sinon, iln’émet rien.


Le quantron


Si S(t) dépasse le seuil Γ, le quantron émetune vague de neurotransmetteurs. Sinon, iln’émet rien.

Nous allons aborder le problèmed’apprentissage avec le modèle f = max S(t).


Objectifs généraux de la recherche

Développer un algorithme d’apprentissageefficace pour le quantron.




Trouver une formule analytique adaptée àl’algorithme de rétro-propagation pourentraîner des réseaux de quantrons.




Trouver une formule analytique adaptée àl’algorithme de rétro-propagation pourentraîner des réseaux de quantrons.

Évaluer les capacités et les limites duquantron comme outil de reconnaissance deformes et d’approximation de fonctions.


Problème préliminaire

Le modèle du quantron est une fonction nondifférentiable de ses paramètres.

f(τ1, . . . , τn) = maxn

∑

k=1

gk(t)u(t − τk)




f(τ1, . . . , τn) = maxn

∑

k=1

gk(t)u(t − τk)

Deux principales approches à l’optimisationnon différentiable (Elhedhli et al., 2001) :




f(τ1, . . . , τn) = maxn

∑

k=1

gk(t)u(t − τk)


Méthode des sous-gradient (Shor) etgradient généralisé (Clarke)




f(τ1, . . . , τn) = maxn

∑

k=1

gk(t)u(t − τk)


Méthode des sous-gradient (Shor) etgradient généralisé (Clarke)Approximation différentiable (Bertsekas)



Nous allons développer :



Nous allons développer :une approximation différentiable dumaximum global de S(t)



Nous allons développer :une approximation différentiable dumaximum global de S(t)

une approximation différentiable de ϕ(t)


Approximation de max S(t)

Approximation différentiable de max S(t) :

softmax S(t) =

∫ T

0

[

S(t)ecS(t)

∫ T

0 ecS(τ)dτ

]

dt




softmax S(t) =

∫ T

0

[

S(t)ecS(t)

∫ T

0 ecS(τ)dτ

]

dt

Il s’agit d’une adaptation de la fonctionsoftmax utilisée dans divers modèles deréseaux de neurones. (Peterson etSöderberg, 1989, Jacobs et al., 1991).




softmax S(t) =

∫ T

0

[

S(t)ecS(t)

∫ T

0 ecS(τ)dτ

]

dt


Bornes : min S(t) ≤ softmax S(t) ≤ max S(t)




softmax S(t) =

∫ T

0

[

S(t)ecS(t)

∫ T

0 ecS(τ)dτ

]

dt


Bornes : min S(t) ≤ softmax S(t) ≤ max S(t)

Convergence : limc→∞

softmax S(t) = max S(t)


Preuve de convergence

Propriétés des fonctions de densité



Propriétés des fonctions de densité∫ T

0

[

ecS(t)

∫ T

0ecS(τ)dτ

]

dt = 1




0

[

ecS(t)

∫ T

0ecS(τ)dτ

]

dt = 1

ecS(t)

∫ T

0ecS(τ)dτ

≥ 0




0

[

ecS(t)

∫ T

0ecS(τ)dτ

]

dt = 1

ecS(t)

∫ T

0ecS(τ)dτ

≥ 0

softmax S(t) = E[S(Xc)] où Xc est un tempsaléatoire choisi dans l’intervalle [0, T ] selon lafonction de densité fXc

(t) = ecS(t)

∫ T

0ecS(τ)dτ

.



Soit t∗ = {t ∈ R : S(t) ≥ S(u) ∀u ∈ R}.



Soit t∗ = {t ∈ R : S(t) ≥ S(u) ∀u ∈ R}.

Si t∗ est fini, on a

limc→∞

fXc(t) = fX(t) =

{

0 si t /∈ t∗,

∞ si t ∈ t∗.



Soit t∗ = {t ∈ R : S(t) ≥ S(u) ∀u ∈ R}.

Si t∗ est fini, on a

limc→∞

fXc(t) = fX(t) =

{

0 si t /∈ t∗,

∞ si t ∈ t∗.

Si t∗ est infini non dénombrable, on a

limc→∞

fXc(t) = fX(t) =

{

0 si t /∈ t∗,1

µ(t∗) si t ∈ t∗.



Xc converge en distribution vers X.




S(·) continue et bornée ⇒E[S(Xc)] converge vers E[S(X)](représentation de Skorokhod, convergencedominée, e.g. Capinski et Kopp, 2005).





limc→∞ softmax S(t) = E[S(X)] = max S(t)





limc→∞ softmax S(t) = E[S(X)] = max S(t)

Remarque : ddc

E[S(Xc)] = V [S(Xc)] ≥ 0(passage de la dérivée sous l’intégrale)



S(t)

t0 5 10 15 20

z

0

1

2

3

4

5



S(t)



fX1(t)

t0 5 10 15 20

0,05

0,10

0,15

0,20

0,25



fX2(t)

t0 5 10 15 20

0,1

0,2

0,3

0,4



fX3(t)

t0 5 10 15 20

0

0,1

0,2

0,3

0,4

0,5

0,6



fX25(t)

t0 5 10 15 20

0

0,5

1,0

1,5

2,0



fX100(t)

t0 5 10 15 20

0

1

2

3


Limites de ce résultat

L’application de softmax à une fonctioncontinue est limitée par la capacité derésoudre l’intégrale analytiquement.




L’intégrale se résout bien avec uneapproximation linéaire par morceaux de S(t).




L’intégrale se résout bien avec uneapproximation linéaire par morceaux de S(t).

L’implémentation informatique de cetteformule demande une attention particulière.


Approximation de ϕ(t)

Potentiels du quantron :

ϕ(t) =

wQ(

lnω√t

)

si 0 ≤ t < s

w[

Q(

ln ω√s

)

− Q(

ln ω√t−s

)]

si s ≤ t < 2s

0 sinon




ϕ(t) =

wQ(

lnω√t

)

si 0 ≤ t < s

w[

Q(

ln ω√s

)

− Q(

ln ω√t−s

)]

si s ≤ t < 2s

0 sinon

Q(·) : fonction de survie d’une loi N(0, 1)ω : largeur de la fente synaptique




ϕ(t) =

wQ(

lnω√t

)

si 0 ≤ t < s

w[

Q(

ln ω√s

)

− Q(

ln ω√t−s

)]

si s ≤ t < 2s

0 sinon

Q(·) : fonction de survie d’une loi N(0, 1)ω : largeur de la fente synaptique

Paramètres :w (amplitude), s (temps d’arrêt)



Exemple de ∂ϕ(t;s)∂s

(avec t fixé à 1) :

s0,4 0,6 0,8 1,0 1,2 1,4

0,0

0,1

0,2

0,3

0,4

0,5

0,6

0,7



Représentation avec fonctions Heaviside :

ϕ(t) =wQ(ln ω/√

t) × [u(t) − u(t − s)]

+ w[

Q(

ln ω/√

s)

− Q(

ln ω/√

t − s)]

× [u(t − s) − u(t − 2s)]



Représentation avec fonctions Heaviside :

ϕ(t) =wQ(ln ω/√

t) × [u(t) − u(t − s)]

+ w[

Q(

ln ω/√

s)

− Q(

ln ω/√

t − s)]

× [u(t − s) − u(t − 2s)]

La solution la plus simple serait de remplacerles fonctions Heaviside par des sigmoïdes :

σ(x) =1

1 + e−ax



Problème:

ϕ(t) =wQ(

ln ω/√

t)

× [σ(t) − σ(t − s)]

+ w[

Q(

ln ω/√

s)

− Q(

ln ω/√

t − s)]

× [σ(t − s) − σ(t − 2s)]

est complexe pour t < s.



Problème:

ϕ(t) =wQ(

ln ω/√

t)

× [σ(t) − σ(t − s)]

+ w[

Q(

ln ω/√

s)

− Q(

ln ω/√

t − s)]

× [σ(t − s) − σ(t − 2s)]

est complexe pour t < s.

Solution : Approximer le potentiel par unefonction en escalier, puis approximer les pasde la fonction en escalier par des sigmoïdes.



Approximation avec 5 évaluations

t0 1 2 3 4

0,1

0,2

0,3

0,4




t0 1 2 3 4

0,1

0,2

0,3

0,4




t0 1 2 3 4

0,1

0,2

0,3

0,4




t0 1 2 3 4

0,1

0,2

0,3

0,4




t0 1 2 3 4

0,1

0,2

0,3

0,4




t0 1 2 3 4

0,1

0,2

0,3

0,4



d : nombre de pas de l’approximation parfonction en escalier




Nous avons choisi a = 5d2s comme paramètre

de forme de la sigmoïde.






Ce choix donne une approximation "lisse".







Validation expérimentale par identification duminimum de l’erreur quadratique entre ϕ(t) etson approximation par sigmoïdes.







Validation expérimentale par identification duminimum de l’erreur quadratique entre ϕ(t) etson approximation par sigmoïdes.

Un mauvais choix de a est néfaste.



Approximation avec 9 évaluations, a = 2d2s

t0 1 2 3 4

0,1

0,2

0,3

0,4



Approximation avec 9 évaluations, a = 20d2s

t0 1 2 3 4

0,1

0,2

0,3

0,4



L’approximation semble bonne, maisqu’arrive-t-il à la dérivée?




a = 5d2s

s0,4 0,6 0,8 1,0 1,2 1,4

0,0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9




a = 2d2s

s0,4 0,6 0,8 1,0 1,2 1,4

0,0

0,1

0,2

0,3

0,4

0,5

0,6

0,7




a = 20d2s

s0,4 0,6 0,8 1,0 1,2 1,4

0

1

2

3




Le calcul de la dérivée est utilisable, mais laprésence de pics dans la dérivée del’approximation pourrait être problématiquepour effectuer la descente du gradient.


En conclusion

Les deux approximations différentiablesprésentées permettent d’aborderl’apprentissage du quantron.


En conclusion


Les questions d’implémentation de cesméthodes sont primordiales.


En conclusion



Suite des travaux :


En conclusion



Suite des travaux :Développement d’une forme alternative decalcul de la réponse du quantron.


En conclusion



Suite des travaux :Développement d’une forme alternative decalcul de la réponse du quantron.Application des résultats obtenus àl’apprentissage en classification et enrégression.


Références

M. Capinski et E. Kopp, Measure, Integral and Probability (2nd ed.). London :Springer-Verlag, 2005.

S. Elhedhli, J.-L. Goffin et J.-P. Vial, "Nondifferentiable Optimization: Introduction,Applications and Algorithms", in Encyclopedia on Optimization, C. Floudas and P.Pardalos, editors, Kluwer Academic Publishers, 2001.

S. Haykin, Neural networks : a comprehensive foundation (2nd ed.). Upper SaddleRiver, NJ : Prentice Hall, 1999.

R.A. Jacobs, M.I. Jordan, S.J. Nowlan et G.E. Hinton, "Adaptative Mixture of LocalExperts", Neural Computation, 3, 79-87, 1991.

R. Labib, "New Single Neuron Structure for Solving Nonlinear Problems",Proceedings of the International Joint Conference on Neural Networks, 1,617-620, 1999.

C. Peterson et B. Söderberg, "A New Method for Mapping Optimization Problemsonto Neural Networks", International Journal of Neural Systems, 1, 3-22, 1989.

D.E. Rumelhart, G.E. Hinton et R.J. Williams, "Learning representations byback-propagation of errors", Nature, 323, 533-536, 1986.


Technology

Apprentissage du quantron : un problème d\’optimisation non différentiable