Stéphane Canu, INSA de Rouen , PSI André Elisseeff, ERIC, université de Lyon

15-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE

Pourquoi les réseaux de neurones

de type « perceptron multicouche »

conviennent-ils à l’apprentissage

Stéphane Canu, INSA de Rouen , PSI

André Elisseeff, ERIC, université de Lyon

http://psichaud.insa-rouen.fr/~scanu/

RNA de type PMC

y = W f ( W f (W X) )2 113 2

Monday

Tuesday

Wednesday

Thursday

Friday

Saturday

Sunday

INPUT LAYER

FIRST HIDEN LAYER

SECOND HIDEN LAYER

OUTPUT

FORECAST

Motivations

• RNA de type PMC : si ça marche, il doit y avoir un argument mathématique !– Une machine qui apprend

(pour « comprendre » ou « résoudre »)

argument biologique ou mathématique

• Poser (formaliser) le problème « d’apprentissage à partir d’exemples »– universalité

– contrôle de la complexité • local vs global• dimensionnalité• hyper paramètre : • structure vs « adaptation »

Le problème d’apprentissage

• Des variables explicatives : X, et des variables à expliquer : Y (observées) (à prédire)

• des variables aléatoires : (X,Y)

• une loi jointe (inconnue)

• une fonction coût

• une fonction cible r(x)= E(Y|X=x)

• un échantillon (xi,yi) i=1,n

B rYXr ;:

Construire , un estimateur de la fonction r

2),,(),,( R:

ppp yyyyxCyyxYYXC

P),( YXP

Le problème d’apprentissage

• Des variables explicatives : X, et des variables à expliquer : Y (observées) (à prédire)

• des variables aléatoires : (X,Y)

• une loi jointe (inconnue)

• une fonction coût

• une fonction cible r(x)= E(Y|X=x)

• un échantillon (xi,yi) i=1,n

B rYXr ;:

Construire , un estimateur de la fonction r

2),,(),,( R:

ppp yyyyxCyyxYYXC

P),( YXP

R (une dimension)

Apprentissage à partir d'exemples

• Données : (xi,yi) i=1,n

• Principe inductif : Minimisation risque empirique

• Ce n’est pas suffisant ...

)(min)(ˆ fC

Argxr emp

B 2)(min)( XfYArgxr E

2)()( XfYf EEP Cemp ( f ) 1

nyi f (xi ) 2

• B trop grand :

tout apprendre = apprendre n’importe quoi

• Solution instable

Pourquoi le principe du MRE n’est pas suffisant ?

Exemples d'estimateurs f(x) à coût nul

• B trop grand :

minimiser Cemp ce n’est pas forcément minimiser EP

Cemp = 0

Exemples d'estimateurs f(x) à coût nul

• B trop grand :

minimiser Cemp ce n’est pas forcément minimiser EP

Cemp = 0

M.R.E.: comment stabiliser ?deux principes.

• Ce problème est mal posé– EP est instable– B est trop grand

• Il faut introduire un a priori– compactifier = régulariser (Tikhonov 63, Groetsch 93)

• Stabilisateur (pénalisation),

• Arrêt de la minimisation,

• Perturber les entrées,...

– Minimiser dans un sous ensemble F de B

Minimisation du risque empiriqueExemples d'estimateurs f(x) à coût nul

f..f..f3

Mesure de Qualité

1 )( minB

f..f..f

pas bon

Mesure de Qualité

1 )( minB

f..f..f

pas bon..

moyen3

Mesure de Qualité

1 )( minB

Mesure de Qualité

• : F R

+Ff| (f) existe

Ajustement aux Données

Min |yi - f(xi)| (f) i

Mesure de Qualité

• : F R

+Ff| (f) existe

Ajustement aux Données Qualité a priori

Mesure de Qualité

• : F R

+Ff| (f) existe

Ajustement aux Données Qualité a priori

Roberval

Exemple d’a priori

mesure la “qualité” de f

P( f ) 1

Zexp ( f ) Interprétation Bayésienne

dxf'(x)f'f) =

Exemple d’a priori

mesure la “qualité” de f

P( f ) 1

Zexp ( f ) Interprétation Bayésienne

dxf'(x)f'f) =

Fourier

-4 -2 0 2 4 60

Choix de l’a priori

P(x) petit P(x) grandpeu d’information beaucoup d’informationf doit être « régulière » f peut être « irrégulière »

: mesureP(x): densité

(dx)= P(x)dx

-4 -2 0 2 4 60

Choix de l’a priori

P(x) petit P(x) grandpeu d’information beaucoup d’informationf doit être « régulière » f peut être « irrégulière »

: mesureP(x): densité

(dx)= P(x)dx

Qualité

Choix de l’a prioridérivée de Radon-Nikodym

d)(d que telle)( si

d que teldd

PffPfPff

Un exemple

exemple

• Solution : r(x) = Arg

r(x) = r (x) + r (x)

« locale » (r ) = 0

• les a priori des perceptrons multicouches

tanh(x) : “globale” (tanh) = 0

Choix de (f) a priori

min |yi-f(xi)| (f) i

k^ ^ ^

Minimisation du risque régularisé

- ))((1

- 0)('

+ - ))(( )(' ici

0)(' résolvant en est trouvé minimum le

+ ))(( = )(

xxyxffQQfJ

fQQxxyxffJ

fJkgfJ

QfyxffJ

dérivéedirectionnelle

min J ( f ) = 1

2( f (xi ) yi )2

le minimum est trouvé en résolvant P*P f -1

( f (xi ) yi )

x - xi

le noyau de Green G : P*P G

f = G * -1

( f (xi ) yi )

x - xi + Ker(P)

ˆ r (x) = ci G x - xi i1

d j Kerj (x) k1

( f (xi ) yi )

de Q à G

Ker(Q)

de Q à G

A PRIORI

Solution

min J ( f ) = 1

2( f (xi ) yi )2

le minimum est trouvé en résolvant P*P f -1

( f (xi ) yi )

x - xi

le noyau de Green G : P*P G

f = G * -1

( f (xi ) yi )

x - xi + Ker(P)

ˆ r (x) = ci G x - xi i1

d j Kerj (x) k1

( f (xi ) yi )

Ker(Q)

estimation des c

( f (xi ) yi )

ci yi c jG(xi x j )j1

pour i = 1, n

Gc + I c y matriciellement

c G + I 1 y

r(x) c j G(x x j )j1

= G(x x j )j1

G + I 1 y j

Estimation des c et des d

G + I K

K’ 0

Exemple

Une Solution Mixte

r(x) = r (x) + r (x)

R.B.F + P.M.C

Un cadre théorique possible

k^ ^ ^

Perspectives• cadre théorique pour les réseaux de neurones

• mesures signées

• multidimensionnel,

• intégration des données (x et y) dans le choix de • nouveaux algorithmes d ’apprentissage (SVM, …),

• moins d’erreur : des bornes !

• intégrer une mesure de complexité,

Régression spline et a priori

• f = Qf Q*Q G =

• f(x) = ci G(xi,x) + dj Kerj(x)

• moindres carrés : (G + I) c = y

Noyau équivalent : f(x) = yi K(xi,x)

Matrice de lissage : f(xi) = S y

Les autres fonctions couts

Cout quadratique

Cout absolu

Cout relatif absolu

Relatif quadratique

Quantiles

Fixé par l’utilisateur, ...

y f (x) 2

y f (x)

r(x) = E(Y| X=x)

P(Y q(x) X x) p

P(Y m(x) x) 0.5

y f (x) p 1 yf (x ) (1 p) 1 y f (x)

Ym(x) x

r(x) E

Y 2 X x

nom contraste fonction cible

Minimisation du Risque Empirique (M.R.E.)

• Ce problème est mal posécar B est trop grand !– existence d’une solution– unicité– stabilité de l’erreur en

prédiction EP

si (xi,yi) change un peu, EP varie peu

ˆ r (x) Arg min

f Byi f (xi ) 2

2)(min)( XfYArgxr E

2)(ˆ)ˆ( XrYr EEP

Cemp 1

nyi f (xi ) 2

Minimisation du risque structurel

Minimisation risque empirique Cemp( f ) 1

nyi f (xi ) 2

F B E C Y, minf F Cemp ( f , Xi ,Yi )

Régulariser : choisir F tel que M.R.E. soit stable

Choix de F : Minimisation du risque Structurel ˆ r (x) Arg min

f FCemp( f )

ˆ r (x) Arg min

f BCemp( f )

Minimisation du risque structurel

1 - Choix de F-F est fonction de l’échantillon et du problème,- pratiquement, {Fm} : contrôle de la complexité.

2 - Estimation de l’erreur de prédiction- borne théorique,- par rééchantillonnage,- ensemble test.

3 - Régulariser : introduire un a priori (Groetsch 93)

- stabilisateur (pénalisation, Weigend 91),- perturber les entrées (régulariser l’opérateur, Plaut 86),

- arrêt de la minimisation (Amari 95).

F B E C Y, minf F Cemp ( f , Xi ,Yi )

Moindrescarrés

minc yi c jG(x i x j )

minc Jemp (c) = y - Gc 2

minc Jemp(c) = yt y 2ctGt y ctGt Gc

dJemp (c)

dc= 2 Gt y 2 GtGc

J' emp (c) = 0 c = GtG 1 Gt y

c = GtG I 1G t y

Stéphane Canu, INSA de Rouen , PSI André Elisseeff, ERIC, université de Lyon

Documents

Observation et Commande des Systèmes Représentation d ...pagesperso.litislab.fr/.../sites/12/2017/12/cours-OCS.pdfCours OCS, CFI INSA de Rouen, S.Ainouz-Zemouche, Représentation

Association Tremplin APB 2… · Génie biologique, agroalimentaire INSA Lyon Polytech Paris-UPMC Polytech Paris-Sud AGROSUP Dijon ISTIA Angers INP Toulouse Génie chimique INSA Rouen

CANU 26 Meter Motoryacht Concept

PROPOSES A UNE REDUCTION DU TEMPS MOYEN …cgt.fercsup.net/IMG/pdf/2009-REDUCTIONS-IGR.pdf · benoit insa rouen 357 medaerts florence insa rouen 381 larroque ... 269 demeulemeester

Plaquette pédagogique 2009 INSA de Rouen

Asservissement linéaire continu - Accueil - pagespersopagesperso.litislab.fr/.../sites/12/2017/12/Cours_CFI_automatique.pdf · Cours AUTO1, CFI INSA de Rouen, Samia Ainouz-Zemouche

Chimie, science analytique, ouverture sur le monde. Conférence SGS - INSA ROUEN

1 karel.heurtefeux@insa-lyon.fr 2 fabrice.valois@insa-lyon.fr

CNRS – UNIVERSITE et INSA de Rouen 27 – 30 Avril 2009, JPU, Bordeaux, France Amélie Cabasse, Gilles Martel CORIA-G 2 0, UMR 6614, Université de Rouen,

Plaquette institutionnelle INSA de Rouen

Former l’ingénieur du XXIe siècle - The Shift Project · Rennes), Laurence Dupont (INSA Lyon), Anthony Falluel-Morel (ESITech Rouen), Francis Faux (ISIS Castres), Fatima-Ezzahra

UMR CNRS 6614 - Université et Insa de Rouen 2015 …...christophe.letailleur@univ-rouen.fr / 02 32 95 37 57 GPM - UMR CNRS 6634 - Université et Insa de Rouen Observation d’insectes

WorkShop Audace - CRIANNaudace-reliability.crihan.fr/Ateliers_files/1-JEDEC standards for... · WorkShop Audace INSA ROUEN 8 juin 2012. ... Based Test Methodology” –July 2008

Analyse réelle et nombres complexes€¦ · Institut national des sciences appliquées de Rouen INSA de Rouen ASI 3.1 Analyse réelle et nombres complexes SouﬁaneBelharbi soufiane.belharbi@insa-rouen.fr

Fiche La brouille - ipefdakar.org · Hélène Lagarde CP Dakar, Hélène Canu CP Rouen – Anne Legeay et Claude Herfray professeurs des écoles IA 72, pour des propositions pédagogiques

CATALOGUE DES FORMATIONS - digital.insa-rouen.frdigital.insa-rouen.fr/experimental/sites/default/files/atoms/files/... · PLAN DE DÉPLACEMENT INSA ROUEN CAMPUS DU HAVRE 2013-2014

Représentation du Thésaurus MeSH et de la Terminologie CISMeF en OWL Lina Soualmia Laboratoire PSI – CNRS 2645 – INSA & Université de Rouen Equipe CISMeF

VERSION FRANÇAISE GUIDE D’ACCUEIL ÉTUDIANTS … · INSA Rouen Normandie - Guide d’accueil étudiants internationaux - Mot du directeur des formations et de la vie étudiante

APPEL A CANDIDATURE FILIÈRES SCIENTIFIQUES ......• Master Big Data Analytics (en partenariat avec INSA Rouen). NB : Cette formation est la même que celle citée précédemment

Institut national des sciences appliquées de Rouen ......CATALOGUE DES FORMATIONS INSA ROUEN NORMANDIE Année universitaire 2016-2017 Page 3 Table des matières La formation INSA