Upload
sdemontigny
View
509
Download
2
Embed Size (px)
DESCRIPTION
Présentation au séminaire de mathématiques appliquées du département de Mathématiques et de Génie Industriel (3 avril 2008, École Polytechnique de Montréal)
Citation preview
Apprentissage du quantronUn problème d’optimisation non différentiable
Simon de Montigny
sous la direction de Richard Labib, Ph.D.
Departement de mathematiques et genie industriel
Ecole Polytechnique de Montreal
Apprentissage du quantron. April 3, 2008 – p. 1/??
Introduction
Un réseau de neurones artificiels est unmodèle simplifié du fonctionnement ducerveau.
Apprentissage du quantron. April 3, 2008 – p. 2/??
Introduction
Un réseau de neurones artificiels est unmodèle simplifié du fonctionnement ducerveau.
Entrées Sorties
Neurones et synapses
Apprentissage du quantron. April 3, 2008 – p. 2/??
Introduction
Un réseau de neurones artificiels est unmodèle simplifié du fonctionnement ducerveau.
Transformation
des signaux
Un seul neurone
Paramètres
Apprentissage du quantron. April 3, 2008 – p. 2/??
Introduction
Les réseaux de neurones sont surtout utiliséscomme outil statistique pour effectuer de larégression, de la classification et del’estimation.
Apprentissage du quantron. April 3, 2008 – p. 3/??
Introduction
Les réseaux de neurones sont surtout utiliséscomme outil statistique pour effectuer de larégression, de la classification et del’estimation.
Un réseau doit être entraîné pour pouvoireffectuer une certaine tâche.
Apprentissage du quantron. April 3, 2008 – p. 3/??
Introduction
Les réseaux de neurones sont surtout utiliséscomme outil statistique pour effectuer de larégression, de la classification et del’estimation.
Un réseau doit être entraîné pour pouvoireffectuer une certaine tâche.
Le premier algorithme d’apprentissagedéveloppé pour les réseaux de neuroness’appelle "rétro-propagation de l’erreur"(Rumelhart et al., 1986).
Apprentissage du quantron. April 3, 2008 – p. 3/??
Introduction
Modification des
paramètres
Modification des
paramètres
Calcul de
l'erreur du
réseau
Rétro-propagation de l'erreur
Rétro-propagation de la partie de l'erreur due à chaque neurone de
la couche précédente
Apprentissage du quantron. April 3, 2008 – p. 4/??
Introduction
Les algorithmes d’apprentissages sontfondés sur des méthodes d’optimisation.
Apprentissage du quantron. April 3, 2008 – p. 5/??
Introduction
Les algorithmes d’apprentissages sontfondés sur des méthodes d’optimisation.
On minimise une fonction d’erreur quicaractérise la différence entre l’état actuel duréseau et l’état désiré.
Apprentissage du quantron. April 3, 2008 – p. 5/??
Introduction
Les algorithmes d’apprentissages sontfondés sur des méthodes d’optimisation.
On minimise une fonction d’erreur quicaractérise la différence entre l’état actuel duréseau et l’état désiré.
Les variables d’optimisation sont lesparamètres du réseau.
Apprentissage du quantron. April 3, 2008 – p. 5/??
Exemple : le perceptron
Modèle de neurone :f(x1, x2) = w1x1 + w2x2 + w3
Apprentissage du quantron. April 3, 2008 – p. 6/??
Exemple : le perceptron
Modèle de neurone :f(x1, x2) = w1x1 + w2x2 + w3
v = w1x1
+w2x2
+w3
w1 , w
2 , w
3
x1
x2
y(v) = v
Apprentissage du quantron. April 3, 2008 – p. 6/??
Exemple : le perceptron
Tâche : reproduire la fonction{(
x(k)1 , x
(k)2
)
, d(k)}
k=1,...,n
Apprentissage du quantron. April 3, 2008 – p. 7/??
Exemple : le perceptron
Tâche : reproduire la fonction{(
x(k)1 , x
(k)2
)
, d(k)}
k=1,...,n
Erreur des moindres carrés :
E(w1, w2, w3) =n∑
k=1
[
d(k) − f(x(k)1 , x
(k)2 )
]2
Apprentissage du quantron. April 3, 2008 – p. 7/??
Exemple : le perceptron
Tâche : reproduire la fonction{(
x(k)1 , x
(k)2
)
, d(k)}
k=1,...,n
Erreur des moindres carrés :
E(w1, w2, w3) =n∑
k=1
[
d(k) − f(x(k)1 , x
(k)2 )
]2
Descente du gradient :wj(t + 1) = wj(t) − η ∂E
∂wj|w1(t),w2(t),w3(t)
Apprentissage du quantron. April 3, 2008 – p. 7/??
Exemple : le perceptron
Puisque f est linéaire, la fonction d’erreur estconvexe et l’apprentissage converge vers unminimum global (Haykin, 1999).
Apprentissage du quantron. April 3, 2008 – p. 8/??
Exemple : le perceptron
Puisque f est linéaire, la fonction d’erreur estconvexe et l’apprentissage converge vers unminimum global (Haykin, 1999).
Un seul perceptron effectue une régressionlinéaire.
Apprentissage du quantron. April 3, 2008 – p. 8/??
Exemple : le perceptron
Puisque f est linéaire, la fonction d’erreur estconvexe et l’apprentissage converge vers unminimum global (Haykin, 1999).
Un seul perceptron effectue une régressionlinéaire.
Mettre plusieurs perceptrons en réseaupermet de faire de la régression non linéaire.
Apprentissage du quantron. April 3, 2008 – p. 8/??
Exemple : le perceptron
Puisque f est linéaire, la fonction d’erreur estconvexe et l’apprentissage converge vers unminimum global (Haykin, 1999).
Un seul perceptron effectue une régressionlinéaire.
Mettre plusieurs perceptrons en réseaupermet de faire de la régression non linéaire.
L’apprentissage n’est plus garanti deconverger vers un minimum global.
Apprentissage du quantron. April 3, 2008 – p. 8/??
Que faire?
Limitations des réseaux de perceptrons :
Apprentissage du quantron. April 3, 2008 – p. 9/??
Que faire?
Limitations des réseaux de perceptrons :Il n’y a pas de règle magique pour choisirla taille du réseau. Un réseau trop grandapprend lentement et généralise mal.
Apprentissage du quantron. April 3, 2008 – p. 9/??
Que faire?
Limitations des réseaux de perceptrons :Il n’y a pas de règle magique pour choisirla taille du réseau. Un réseau trop grandapprend lentement et généralise mal.Le perceptron est un modèle grossier desneurones biologiques.
Apprentissage du quantron. April 3, 2008 – p. 9/??
Que faire?
Limitations des réseaux de perceptrons :Il n’y a pas de règle magique pour choisirla taille du réseau. Un réseau trop grandapprend lentement et généralise mal.Le perceptron est un modèle grossier desneurones biologiques.
Question : Comment peut-on obtenir unréseau plus puissant et de petite taille?
Apprentissage du quantron. April 3, 2008 – p. 9/??
Que faire?
Limitations des réseaux de perceptrons :Il n’y a pas de règle magique pour choisirla taille du réseau. Un réseau trop grandapprend lentement et généralise mal.Le perceptron est un modèle grossier desneurones biologiques.
Question : Comment peut-on obtenir unréseau plus puissant et de petite taille?
Solution : Améliorer le modèle de neuroneutilisé.
Apprentissage du quantron. April 3, 2008 – p. 9/??
Le quantron
Le quantron est un modèle analytique,biologiquement réaliste qui intègre la diffusiondes neurotransmetteurs (Labib, 1999).
Apprentissage du quantron. April 3, 2008 – p. 10/??
Le quantron
Le quantron est un modèle analytique,biologiquement réaliste qui intègre la diffusiondes neurotransmetteurs (Labib, 1999).
t0 5 10 15 20
z
0
1
2
3
4
5
Apprentissage du quantron. April 3, 2008 – p. 10/??
Le quantron
Le quantron est un modèle analytique,biologiquement réaliste qui intègre la diffusiondes neurotransmetteurs (Labib, 1999).
Apprentissage du quantron. April 3, 2008 – p. 10/??
Le quantron
Une entrée du quantron représente le délaientre les arrivées des vagues de neuro-transmetteurs émises par un autre neurone.
Apprentissage du quantron. April 3, 2008 – p. 11/??
Le quantron
Une entrée du quantron représente le délaientre les arrivées des vagues de neuro-transmetteurs émises par un autre neurone.
Apprentissage du quantron. April 3, 2008 – p. 11/??
Le quantron
L’opération effectuée par le quantron est unesommation des potentiels reçus :
S(t) =∑
i,j
ϕi,j(t)
Apprentissage du quantron. April 3, 2008 – p. 12/??
Le quantron
L’opération effectuée par le quantron est unesommation des potentiels reçus :
S(t) =∑
i,j
ϕi,j(t)
i : indice des entréesj : indice des potentiels de chaque entrée
Apprentissage du quantron. April 3, 2008 – p. 12/??
Le quantron
L’opération effectuée par le quantron est unesommation des potentiels reçus :
S(t) =∑
i,j
ϕi,j(t)
i : indice des entréesj : indice des potentiels de chaque entrée
S(t) est une fonction continue.
Apprentissage du quantron. April 3, 2008 – p. 12/??
Le quantron
L’opération effectuée par le quantron est unesommation des potentiels reçus :
S(t) =∑
i,j
ϕi,j(t)
i : indice des entréesj : indice des potentiels de chaque entrée
S(t) est une fonction continue.
S(t) = 0 en dehors de [0, T ], où T est la fin dudernier potentiel reçu.
Apprentissage du quantron. April 3, 2008 – p. 12/??
Le quantron
Les paramètres du quantron influencent letemps de début et de fin des potentiels, ainsique leur amplitude.
Apprentissage du quantron. April 3, 2008 – p. 13/??
Le quantron
Les paramètres du quantron influencent letemps de début et de fin des potentiels, ainsique leur amplitude.
Si S(t) dépasse le seuil Γ, le quantron émetune vague de neurotransmetteurs. Sinon, iln’émet rien.
Apprentissage du quantron. April 3, 2008 – p. 13/??
Le quantron
Les paramètres du quantron influencent letemps de début et de fin des potentiels, ainsique leur amplitude.
Si S(t) dépasse le seuil Γ, le quantron émetune vague de neurotransmetteurs. Sinon, iln’émet rien.
Nous allons aborder le problèmed’apprentissage avec le modèle f = max S(t).
Apprentissage du quantron. April 3, 2008 – p. 13/??
Objectifs généraux de la recherche
Développer un algorithme d’apprentissageefficace pour le quantron.
Apprentissage du quantron. April 3, 2008 – p. 14/??
Objectifs généraux de la recherche
Développer un algorithme d’apprentissageefficace pour le quantron.
Trouver une formule analytique adaptée àl’algorithme de rétro-propagation pourentraîner des réseaux de quantrons.
Apprentissage du quantron. April 3, 2008 – p. 14/??
Objectifs généraux de la recherche
Développer un algorithme d’apprentissageefficace pour le quantron.
Trouver une formule analytique adaptée àl’algorithme de rétro-propagation pourentraîner des réseaux de quantrons.
Évaluer les capacités et les limites duquantron comme outil de reconnaissance deformes et d’approximation de fonctions.
Apprentissage du quantron. April 3, 2008 – p. 14/??
Problème préliminaire
Le modèle du quantron est une fonction nondifférentiable de ses paramètres.
f(τ1, . . . , τn) = maxn
∑
k=1
gk(t)u(t − τk)
Apprentissage du quantron. April 3, 2008 – p. 15/??
Problème préliminaire
Le modèle du quantron est une fonction nondifférentiable de ses paramètres.
f(τ1, . . . , τn) = maxn
∑
k=1
gk(t)u(t − τk)
Deux principales approches à l’optimisationnon différentiable (Elhedhli et al., 2001) :
Apprentissage du quantron. April 3, 2008 – p. 15/??
Problème préliminaire
Le modèle du quantron est une fonction nondifférentiable de ses paramètres.
f(τ1, . . . , τn) = maxn
∑
k=1
gk(t)u(t − τk)
Deux principales approches à l’optimisationnon différentiable (Elhedhli et al., 2001) :
Méthode des sous-gradient (Shor) etgradient généralisé (Clarke)
Apprentissage du quantron. April 3, 2008 – p. 15/??
Problème préliminaire
Le modèle du quantron est une fonction nondifférentiable de ses paramètres.
f(τ1, . . . , τn) = maxn
∑
k=1
gk(t)u(t − τk)
Deux principales approches à l’optimisationnon différentiable (Elhedhli et al., 2001) :
Méthode des sous-gradient (Shor) etgradient généralisé (Clarke)Approximation différentiable (Bertsekas)
Apprentissage du quantron. April 3, 2008 – p. 15/??
Problème préliminaire
Nous allons développer :
Apprentissage du quantron. April 3, 2008 – p. 16/??
Problème préliminaire
Nous allons développer :une approximation différentiable dumaximum global de S(t)
Apprentissage du quantron. April 3, 2008 – p. 16/??
Problème préliminaire
Nous allons développer :une approximation différentiable dumaximum global de S(t)
une approximation différentiable de ϕ(t)
Apprentissage du quantron. April 3, 2008 – p. 16/??
Approximation de max S(t)
Approximation différentiable de max S(t) :
softmax S(t) =
∫ T
0
[
S(t)ecS(t)
∫ T
0 ecS(τ)dτ
]
dt
Apprentissage du quantron. April 3, 2008 – p. 17/??
Approximation de max S(t)
Approximation différentiable de max S(t) :
softmax S(t) =
∫ T
0
[
S(t)ecS(t)
∫ T
0 ecS(τ)dτ
]
dt
Il s’agit d’une adaptation de la fonctionsoftmax utilisée dans divers modèles deréseaux de neurones. (Peterson etSöderberg, 1989, Jacobs et al., 1991).
Apprentissage du quantron. April 3, 2008 – p. 17/??
Approximation de max S(t)
Approximation différentiable de max S(t) :
softmax S(t) =
∫ T
0
[
S(t)ecS(t)
∫ T
0 ecS(τ)dτ
]
dt
Il s’agit d’une adaptation de la fonctionsoftmax utilisée dans divers modèles deréseaux de neurones. (Peterson etSöderberg, 1989, Jacobs et al., 1991).
Bornes : min S(t) ≤ softmax S(t) ≤ max S(t)
Apprentissage du quantron. April 3, 2008 – p. 17/??
Approximation de max S(t)
Approximation différentiable de max S(t) :
softmax S(t) =
∫ T
0
[
S(t)ecS(t)
∫ T
0 ecS(τ)dτ
]
dt
Il s’agit d’une adaptation de la fonctionsoftmax utilisée dans divers modèles deréseaux de neurones. (Peterson etSöderberg, 1989, Jacobs et al., 1991).
Bornes : min S(t) ≤ softmax S(t) ≤ max S(t)
Convergence : limc→∞
softmax S(t) = max S(t)
Apprentissage du quantron. April 3, 2008 – p. 17/??
Preuve de convergence
Propriétés des fonctions de densité
Apprentissage du quantron. April 3, 2008 – p. 18/??
Preuve de convergence
Propriétés des fonctions de densité∫ T
0
[
ecS(t)
∫ T
0ecS(τ)dτ
]
dt = 1
Apprentissage du quantron. April 3, 2008 – p. 18/??
Preuve de convergence
Propriétés des fonctions de densité∫ T
0
[
ecS(t)
∫ T
0ecS(τ)dτ
]
dt = 1
ecS(t)
∫ T
0ecS(τ)dτ
≥ 0
Apprentissage du quantron. April 3, 2008 – p. 18/??
Preuve de convergence
Propriétés des fonctions de densité∫ T
0
[
ecS(t)
∫ T
0ecS(τ)dτ
]
dt = 1
ecS(t)
∫ T
0ecS(τ)dτ
≥ 0
softmax S(t) = E[S(Xc)] où Xc est un tempsaléatoire choisi dans l’intervalle [0, T ] selon lafonction de densité fXc
(t) = ecS(t)
∫ T
0ecS(τ)dτ
.
Apprentissage du quantron. April 3, 2008 – p. 18/??
Preuve de convergence
Soit t∗ = {t ∈ R : S(t) ≥ S(u) ∀u ∈ R}.
Apprentissage du quantron. April 3, 2008 – p. 19/??
Preuve de convergence
Soit t∗ = {t ∈ R : S(t) ≥ S(u) ∀u ∈ R}.
Si t∗ est fini, on a
limc→∞
fXc(t) = fX(t) =
{
0 si t /∈ t∗,
∞ si t ∈ t∗.
Apprentissage du quantron. April 3, 2008 – p. 19/??
Preuve de convergence
Soit t∗ = {t ∈ R : S(t) ≥ S(u) ∀u ∈ R}.
Si t∗ est fini, on a
limc→∞
fXc(t) = fX(t) =
{
0 si t /∈ t∗,
∞ si t ∈ t∗.
Si t∗ est infini non dénombrable, on a
limc→∞
fXc(t) = fX(t) =
{
0 si t /∈ t∗,1
µ(t∗) si t ∈ t∗.
Apprentissage du quantron. April 3, 2008 – p. 19/??
Preuve de convergence
Xc converge en distribution vers X.
Apprentissage du quantron. April 3, 2008 – p. 20/??
Preuve de convergence
Xc converge en distribution vers X.
S(·) continue et bornée ⇒E[S(Xc)] converge vers E[S(X)](représentation de Skorokhod, convergencedominée, e.g. Capinski et Kopp, 2005).
Apprentissage du quantron. April 3, 2008 – p. 20/??
Preuve de convergence
Xc converge en distribution vers X.
S(·) continue et bornée ⇒E[S(Xc)] converge vers E[S(X)](représentation de Skorokhod, convergencedominée, e.g. Capinski et Kopp, 2005).
limc→∞ softmax S(t) = E[S(X)] = max S(t)
Apprentissage du quantron. April 3, 2008 – p. 20/??
Preuve de convergence
Xc converge en distribution vers X.
S(·) continue et bornée ⇒E[S(Xc)] converge vers E[S(X)](représentation de Skorokhod, convergencedominée, e.g. Capinski et Kopp, 2005).
limc→∞ softmax S(t) = E[S(X)] = max S(t)
Remarque : ddc
E[S(Xc)] = V [S(Xc)] ≥ 0(passage de la dérivée sous l’intégrale)
Apprentissage du quantron. April 3, 2008 – p. 20/??
Approximation de max S(t)
S(t)
t0 5 10 15 20
z
0
1
2
3
4
5
Apprentissage du quantron. April 3, 2008 – p. 21/??
Approximation de max S(t)
S(t)
Apprentissage du quantron. April 3, 2008 – p. 21/??
Approximation de max S(t)
fX1(t)
t0 5 10 15 20
0,05
0,10
0,15
0,20
0,25
Apprentissage du quantron. April 3, 2008 – p. 21/??
Approximation de max S(t)
fX2(t)
t0 5 10 15 20
0,1
0,2
0,3
0,4
Apprentissage du quantron. April 3, 2008 – p. 21/??
Approximation de max S(t)
fX3(t)
t0 5 10 15 20
0
0,1
0,2
0,3
0,4
0,5
0,6
Apprentissage du quantron. April 3, 2008 – p. 21/??
Approximation de max S(t)
fX25(t)
t0 5 10 15 20
0
0,5
1,0
1,5
2,0
Apprentissage du quantron. April 3, 2008 – p. 21/??
Approximation de max S(t)
fX100(t)
t0 5 10 15 20
0
1
2
3
Apprentissage du quantron. April 3, 2008 – p. 21/??
Limites de ce résultat
L’application de softmax à une fonctioncontinue est limitée par la capacité derésoudre l’intégrale analytiquement.
Apprentissage du quantron. April 3, 2008 – p. 22/??
Limites de ce résultat
L’application de softmax à une fonctioncontinue est limitée par la capacité derésoudre l’intégrale analytiquement.
L’intégrale se résout bien avec uneapproximation linéaire par morceaux de S(t).
Apprentissage du quantron. April 3, 2008 – p. 22/??
Limites de ce résultat
L’application de softmax à une fonctioncontinue est limitée par la capacité derésoudre l’intégrale analytiquement.
L’intégrale se résout bien avec uneapproximation linéaire par morceaux de S(t).
L’implémentation informatique de cetteformule demande une attention particulière.
Apprentissage du quantron. April 3, 2008 – p. 22/??
Approximation de ϕ(t)
Potentiels du quantron :
ϕ(t) =
wQ(
lnω√t
)
si 0 ≤ t < s
w[
Q(
ln ω√s
)
− Q(
ln ω√t−s
)]
si s ≤ t < 2s
0 sinon
Apprentissage du quantron. April 3, 2008 – p. 23/??
Approximation de ϕ(t)
Potentiels du quantron :
ϕ(t) =
wQ(
lnω√t
)
si 0 ≤ t < s
w[
Q(
ln ω√s
)
− Q(
ln ω√t−s
)]
si s ≤ t < 2s
0 sinon
Q(·) : fonction de survie d’une loi N(0, 1)ω : largeur de la fente synaptique
Apprentissage du quantron. April 3, 2008 – p. 23/??
Approximation de ϕ(t)
Potentiels du quantron :
ϕ(t) =
wQ(
lnω√t
)
si 0 ≤ t < s
w[
Q(
ln ω√s
)
− Q(
ln ω√t−s
)]
si s ≤ t < 2s
0 sinon
Q(·) : fonction de survie d’une loi N(0, 1)ω : largeur de la fente synaptique
Paramètres :w (amplitude), s (temps d’arrêt)
Apprentissage du quantron. April 3, 2008 – p. 23/??
Approximation de ϕ(t)
Exemple de ∂ϕ(t;s)∂s
(avec t fixé à 1) :
s0,4 0,6 0,8 1,0 1,2 1,4
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
Apprentissage du quantron. April 3, 2008 – p. 24/??
Approximation de ϕ(t)
Représentation avec fonctions Heaviside :
ϕ(t) =wQ(ln ω/√
t) × [u(t) − u(t − s)]
+ w[
Q(
ln ω/√
s)
− Q(
ln ω/√
t − s)]
× [u(t − s) − u(t − 2s)]
Apprentissage du quantron. April 3, 2008 – p. 25/??
Approximation de ϕ(t)
Représentation avec fonctions Heaviside :
ϕ(t) =wQ(ln ω/√
t) × [u(t) − u(t − s)]
+ w[
Q(
ln ω/√
s)
− Q(
ln ω/√
t − s)]
× [u(t − s) − u(t − 2s)]
La solution la plus simple serait de remplacerles fonctions Heaviside par des sigmoïdes :
σ(x) =1
1 + e−ax
Apprentissage du quantron. April 3, 2008 – p. 25/??
Approximation de ϕ(t)
Problème:
ϕ(t) =wQ(
ln ω/√
t)
× [σ(t) − σ(t − s)]
+ w[
Q(
ln ω/√
s)
− Q(
ln ω/√
t − s)]
× [σ(t − s) − σ(t − 2s)]
est complexe pour t < s.
Apprentissage du quantron. April 3, 2008 – p. 26/??
Approximation de ϕ(t)
Problème:
ϕ(t) =wQ(
ln ω/√
t)
× [σ(t) − σ(t − s)]
+ w[
Q(
ln ω/√
s)
− Q(
ln ω/√
t − s)]
× [σ(t − s) − σ(t − 2s)]
est complexe pour t < s.
Solution : Approximer le potentiel par unefonction en escalier, puis approximer les pasde la fonction en escalier par des sigmoïdes.
Apprentissage du quantron. April 3, 2008 – p. 26/??
Approximation de ϕ(t)
Approximation avec 5 évaluations
t0 1 2 3 4
0,1
0,2
0,3
0,4
Apprentissage du quantron. April 3, 2008 – p. 27/??
Approximation de ϕ(t)
Approximation avec 9 évaluations
t0 1 2 3 4
0,1
0,2
0,3
0,4
Apprentissage du quantron. April 3, 2008 – p. 27/??
Approximation de ϕ(t)
Approximation avec 13 évaluations
t0 1 2 3 4
0,1
0,2
0,3
0,4
Apprentissage du quantron. April 3, 2008 – p. 27/??
Approximation de ϕ(t)
Approximation avec 17 évaluations
t0 1 2 3 4
0,1
0,2
0,3
0,4
Apprentissage du quantron. April 3, 2008 – p. 27/??
Approximation de ϕ(t)
Approximation avec 21 évaluations
t0 1 2 3 4
0,1
0,2
0,3
0,4
Apprentissage du quantron. April 3, 2008 – p. 27/??
Approximation de ϕ(t)
Approximation avec 25 évaluations
t0 1 2 3 4
0,1
0,2
0,3
0,4
Apprentissage du quantron. April 3, 2008 – p. 27/??
Approximation de ϕ(t)
d : nombre de pas de l’approximation parfonction en escalier
Apprentissage du quantron. April 3, 2008 – p. 28/??
Approximation de ϕ(t)
d : nombre de pas de l’approximation parfonction en escalier
Nous avons choisi a = 5d2s comme paramètre
de forme de la sigmoïde.
Apprentissage du quantron. April 3, 2008 – p. 28/??
Approximation de ϕ(t)
d : nombre de pas de l’approximation parfonction en escalier
Nous avons choisi a = 5d2s comme paramètre
de forme de la sigmoïde.
Ce choix donne une approximation "lisse".
Apprentissage du quantron. April 3, 2008 – p. 28/??
Approximation de ϕ(t)
d : nombre de pas de l’approximation parfonction en escalier
Nous avons choisi a = 5d2s comme paramètre
de forme de la sigmoïde.
Ce choix donne une approximation "lisse".
Validation expérimentale par identification duminimum de l’erreur quadratique entre ϕ(t) etson approximation par sigmoïdes.
Apprentissage du quantron. April 3, 2008 – p. 28/??
Approximation de ϕ(t)
d : nombre de pas de l’approximation parfonction en escalier
Nous avons choisi a = 5d2s comme paramètre
de forme de la sigmoïde.
Ce choix donne une approximation "lisse".
Validation expérimentale par identification duminimum de l’erreur quadratique entre ϕ(t) etson approximation par sigmoïdes.
Un mauvais choix de a est néfaste.
Apprentissage du quantron. April 3, 2008 – p. 28/??
Approximation de ϕ(t)
Approximation avec 9 évaluations, a = 2d2s
t0 1 2 3 4
0,1
0,2
0,3
0,4
Apprentissage du quantron. April 3, 2008 – p. 29/??
Approximation de ϕ(t)
Approximation avec 9 évaluations, a = 20d2s
t0 1 2 3 4
0,1
0,2
0,3
0,4
Apprentissage du quantron. April 3, 2008 – p. 29/??
Approximation de ϕ(t)
L’approximation semble bonne, maisqu’arrive-t-il à la dérivée?
Apprentissage du quantron. April 3, 2008 – p. 30/??
Approximation de ϕ(t)
L’approximation semble bonne, maisqu’arrive-t-il à la dérivée?
a = 5d2s
s0,4 0,6 0,8 1,0 1,2 1,4
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
Apprentissage du quantron. April 3, 2008 – p. 30/??
Approximation de ϕ(t)
L’approximation semble bonne, maisqu’arrive-t-il à la dérivée?
a = 2d2s
s0,4 0,6 0,8 1,0 1,2 1,4
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
Apprentissage du quantron. April 3, 2008 – p. 30/??
Approximation de ϕ(t)
L’approximation semble bonne, maisqu’arrive-t-il à la dérivée?
a = 20d2s
s0,4 0,6 0,8 1,0 1,2 1,4
0
1
2
3
Apprentissage du quantron. April 3, 2008 – p. 30/??
Approximation de ϕ(t)
L’approximation semble bonne, maisqu’arrive-t-il à la dérivée?
Le calcul de la dérivée est utilisable, mais laprésence de pics dans la dérivée del’approximation pourrait être problématiquepour effectuer la descente du gradient.
Apprentissage du quantron. April 3, 2008 – p. 30/??
En conclusion
Les deux approximations différentiablesprésentées permettent d’aborderl’apprentissage du quantron.
Apprentissage du quantron. April 3, 2008 – p. 31/??
En conclusion
Les deux approximations différentiablesprésentées permettent d’aborderl’apprentissage du quantron.
Les questions d’implémentation de cesméthodes sont primordiales.
Apprentissage du quantron. April 3, 2008 – p. 31/??
En conclusion
Les deux approximations différentiablesprésentées permettent d’aborderl’apprentissage du quantron.
Les questions d’implémentation de cesméthodes sont primordiales.
Suite des travaux :
Apprentissage du quantron. April 3, 2008 – p. 31/??
En conclusion
Les deux approximations différentiablesprésentées permettent d’aborderl’apprentissage du quantron.
Les questions d’implémentation de cesméthodes sont primordiales.
Suite des travaux :Développement d’une forme alternative decalcul de la réponse du quantron.
Apprentissage du quantron. April 3, 2008 – p. 31/??
En conclusion
Les deux approximations différentiablesprésentées permettent d’aborderl’apprentissage du quantron.
Les questions d’implémentation de cesméthodes sont primordiales.
Suite des travaux :Développement d’une forme alternative decalcul de la réponse du quantron.Application des résultats obtenus àl’apprentissage en classification et enrégression.
Apprentissage du quantron. April 3, 2008 – p. 31/??
Références
M. Capinski et E. Kopp, Measure, Integral and Probability (2nd ed.). London :Springer-Verlag, 2005.
S. Elhedhli, J.-L. Goffin et J.-P. Vial, "Nondifferentiable Optimization: Introduction,Applications and Algorithms", in Encyclopedia on Optimization, C. Floudas and P.Pardalos, editors, Kluwer Academic Publishers, 2001.
S. Haykin, Neural networks : a comprehensive foundation (2nd ed.). Upper SaddleRiver, NJ : Prentice Hall, 1999.
R.A. Jacobs, M.I. Jordan, S.J. Nowlan et G.E. Hinton, "Adaptative Mixture of LocalExperts", Neural Computation, 3, 79-87, 1991.
R. Labib, "New Single Neuron Structure for Solving Nonlinear Problems",Proceedings of the International Joint Conference on Neural Networks, 1,617-620, 1999.
C. Peterson et B. Söderberg, "A New Method for Mapping Optimization Problemsonto Neural Networks", International Journal of Neural Systems, 1, 3-22, 1989.
D.E. Rumelhart, G.E. Hinton et R.J. Williams, "Learning representations byback-propagation of errors", Nature, 323, 533-536, 1986.
Apprentissage du quantron. April 3, 2008 – p. 32/??