DEA instrumentation et commande Reconnaissance des formes Erreurs et coûts des algorithmes S. Canu scanu/RdF

DEA instrumentation et commande

Reconnaissance des formes

Erreurs et coûts des algorithmes

S. Canu

http://psichaud.insa-rouen.fr/~scanu/RdF

Buts de la RdFD : Algorithme

de Reconnaissance

des Formes

Une forme x(vecteur forme

des caractéristiques)

C’est la forme

« y=D(x) »

classe" vraiela" ,

)( ,...,,...,1 : RdF

décisions des ensemble ,...,2,1tiquescaractéris des espace

D(x)Rx

xDxLlRD

LyRx

d

d

d

Nous voulons un algorithme de RdF performant

K

kkXk

D

sSPdxkxfxDsCXDSCEDJ

DJD

1 ,)(,)(,)(

)(min décision de règle uned'Cout D

RdF et apprentissage

D : Algorithme de

Reconnaissancedes Formes

Une forme x(vecteur forme

des caractéristiques)

C’est la forme

« y=D(x) »

A : Algorithme d’apprentissage

niyxS iin ,1 , Ensemble d’apprentissage (échantillon)

)(,)(C,et )(

:couts les

XDSCEDJDJ

A priorisur la

nature de la solution

2

1

3

Les problèmes PYXP ,

Grandes déviations

P 1

n erri i1

n EP

Z E(Z)

Fréquence Probabilitéd’erreur d’erreur

précision confiance

1

n erri i1

n EP

La moyennen’est pas

l’espérance

prise en comptede l’enchantillonnage

Grandes déviationsBienaimé

Tchebitchev– pour tout P

– Démonstration

P X E(X) 2

2

précision confiance

Hypothèse X v.a. centrée E(X) 0

2 x2 P(x)dx x2 P(x)dx x x2 P(x)dx

x

2 x2 P(x)dx x 2 P(x) dx

x 2 P x

Grande déviation

P X E(X) 2

2

P1

nXi

i1

n p

p(1 p)

n 2

1

4n 2

-6 -4 -2 0 2 4 60

confiance = (4n)-1/2 précision

p : probabilité d’erreur

Xi = 1 si on c’est trompé, = 0 sinon

Application :comparaison d’algorithmesAlgorithme 1 (adaline)

Algorithme 2 (perceptron)

m exemplespour le test

ˆ p 2 nb err

m

ˆ p 1 ˆ p 2

ˆ p 1 nb err

m

Donc l’algorithme 1est meilleur que l’algorithme 2

Application :comparaison d’algorithmesAlgorithme 1 (adaline)

Algorithme 2 (perceptron)

m exemplespour le test

ˆ p 2 nb err

m

ˆ p 1 ˆ p 2

ˆ p 1 nb err

m

Donc l’algorithme 1est meilleur que l’algorithme 2

ˆ p 1 ˆ p 2 2 1

nssi

Application :Choix de la taille de l’ensemble

testAlgorithme 1 (adaline)m exemples

pour le testˆ p

nb err

m

1

mXi

i1

m

Comment choisir m pour que probabilité d’erreur = ?ˆ p

P ˆ p p 1

4m 2

m 1

4 2

m 0,05 0,1 500 0,01 50.000

Comment améliorer cette borne ?

Comment améliorer cette borne ?

– Améliorer l’inégalité des grandes déviations.

– Inégalité de markov

– Hoeffding erreur bornée

– Chernov Classification

– Bernstein

– Bennet

Grandes déviationsgénéralisation de

Bienaimé Tchebitchev– pour tout P

– Démonstration

P X E(X) 2

2

Fonctionpositiveh(x)>0

Hypothèse X v.a. centrée E(X) 0

2 x2 P(x)dx x2 P(x)dx x x2 P(x)dx

x

2 x2 P(x)dx x 2 P(x) dx

x 2 P x

Lemme de Markov– soit (A,,D) un espace probabilisé

– soit X une v.a. sur (A,)

– soit > 0

– Alors :

– Démonstration– comme Bienaymé Tchébychev

P X E(X) E h(x)

h() x, h(x) 0

E h(X) h(x) P(x)dx h( ) P(x)dxx

Comment choisir h(x) ? h est la fonction génératrice des moments : h(X) et(X)

(comment choisir t?)

P X E(X) 2e 2

h(x) e x 2 sur 0,1

P ˆ p n p 2e n 2

P ˆ p n p 2e n h1 (n )

h1(x) = (1+ x) log(x) - x

xP ˆ p n p 2e n h2 (n )

h2 (x) x

1 x / 3

Hoeffding

Bennett

Bernstein

Récapitulons

181log8

11

2

1

3/1

2

1

2

1

21

21

21

21

21

(erreur) sinon 1

(ok) )( si 0)(

2

2

mm

ii

mm

ii

mm

ii

m

ii

iiiii

epem

P

epem

P

epem

P

npe

mP

yxfyxfe

Approximation normale

Hoeffding (1963)

Bernstein (1946)

Bennett (1962)

Taille de l’échantillon pour une précision

81log(8/11)log(2

2

3/1)log(

2

)log(

4

1

1

22

22

n

nn

nn

Exemples

0.02 0.04 0.06 0.08 0.1 0.12 0.140

1000

2000

3000

4000

5000

6000

7000

8000

9000

10000

n ta

ille

de l'

éch

antil

lon

Grandes dé viations pour =0.05, p=.5

Bienaymé Tchebychevapproximation normaleHoeffdingBersteinBennett

0.02 0.04 0.06 0.08 0.1 0.12 0.14

0

1000

2000

3000

4000

5000

6000

7000

8000

9000

10000

n ta

ille

de l'

éch

antil

lon

Grandes dé viations pour =0.05, p=.5

Bienaymé Tchebychevapproximation normaleHoeffdingBersteinBennett

Exemples

320018001000600500

Estimation de l’erreur d’un classifieur

Avec un ensemble de test

Avec des exemples – validation croisée– bootstrap

Indépendamment des exemples– il faut une borne

– Beaucoup d’exemples : ensemble test DONNEES

– Peu d’exemples : le rééchantillonnage TEMPS– Validation croisée

– Jackknife

– Bootstrap

– Analyse théorique : PRECISION

Estimation de l’erreur facture

Ensemble test

– grandes déviations

Rééchantillonnage– Validation croisée

– Jackknife

– Bootstrap

X1

X2

X3

.Xi

.Xn

Bootstrap

Young G.A. (1994) Bootstrap: More than a stab in the Dark, Statistical Science 9 pp 382-415

Quelle est la loi de ? (comment estimer le biais et la variance d’un estimateur ?)

Idée : « observer » la distribution deon tire plusieurs échantillonson calcule plusieurs réalisations de

nouvelle idée : créer des échantillons « fictifs »

ˆ*1

- ˆ

Éch

an

tillo

n in

itial

X*1 X*2 X*3 … X*i … X*n

Tirage de n points AVEC REMISE

X*1 X*2 X*3 … X*i … X*n

X*1 X*2 X*3 … X*i … X*n

X*1 X*2 X*3 … X*i … X*n

pri

nci

pe

ˆ*2

ˆ*b

ˆ*B

Bootstrap

X1

X2

X3

.Xi

.Xn

ˆ*1

Éch

an

tillo

n in

itial

X*1 X*2 X*3 … X*i … X*n

Tirage de n points AVEC REMISE

X*1 X*2 X*3 … X*i … X*n

X*1 X*2 X*3 … X*i … X*n

X*1 X*2 X*3 … X*i … X*n

ˆ*2

ˆ*b

ˆ*B

Biais :

Variance : ˆˆ1

ˆˆ1

1

2*

1

*

B

bb

B

bb

B

B

0.3 0.4 0.5 0.6 0.70

10

20

30

40

Exemple de Bootstrapn = 20;xi=rand(n,1);

m = mean(xi); % 0.528

B=200;for b=1:B ind = round(n*rand(n,1)+1/2); mb(b)=mean(xi(ind));end

hist(mb);

std(mb) % 0.0676

sqrt(1/12/n) % 0.0645

ind = 13 17 13 8 9 11 5 8 14 19 2 20 4 8 3 1 19 4 16 6

(Fractiles)

r(x) estimateur P.M.C. + I. B sur l’échantillon initial (x )

Innovation équivalente : = x - r(x )

Validation par Bootstrap

t t+1 t

Erreur initiale

Erreur BS1

Echantillon BS2

P.M.C.

(

((b (B

(x*1 ... (x*b (x* B

r*1(x) ... r*b(x) ... r*B(x)

^ t

t

t t t

t t t

^ ^ ^

^

Validation par Bootstrap

– Faire B fois (B 50)

– 1 : Générer un nouvel échantillon : x*b(t) ; t = 1:T

x*b(t+1) = r(x*b(t)) + b(t)

– 2 : Apprendre ce nouvel échantillon : r*b(x)

– Biais b : � (x(t+1) - r*b(x(t))) -

� (x*b(t+1) - r*b(x*b(t)))

2

t=1

T-11T-1

2

t=1

1T-1

^

^

^

^

-10 -5 0 5 10 15-4

-3

-2

-1

0

1

2

3

4

5

6

Exemple de bootstrap

– Avec une probabilité (1 - ), pour tous les :

EP(w) < Cemp(w) + (VCdim(B), Cemp(w), n, )

erreur < coût visible + complexité, nb d’exemples, précision

– mesure de complexité :

– Taille de B ?

– Nombre de paramètres ?

– dimension de Vapnik - Chervonenkis (pire des cas)

– e.g. Dim VC d'un ensemble de fonctions à seuil = taille du plus grand ensemble S pour lequel le système peut implémenter les 2|S| dichotomies sur S.

w B

Théorie des bornes

Un exemple

de grande déviation

– T une v.a.

de bernouilli

P(T 0) 1 P(t K )

p E(T) 1 0 K K

ˆ p 1

nTi

i1

n P ˆ p 0 1 n

P ˆ p p K 1 n

P ˆ p p ' 1 '

K

n

n log

log 1 '

K

Convergence uniforme

P, f F P Cemp ( f ) EP( f ) (n,, taille de F )

P supf F Cemp ( f ) EP( f )

cas simple card(F ) = F <

P Cemp ( f1) EP( f1) ou ... ou Cemp ( f F ) EP( f F ) F P Cemp ( f ) EP( f ) 2 F e n 2

cas général card(F ) = F = 2 VCF e n 2

Borne sur l’erreur d’apprentissage

Théorème (Vapnik & Chervonenkis, 1974)

)22(log)1(2

1

(erreur) sinon 1

(ok) )( si 0)(

1

dndn

ppE

pen

P

yxfyxfe

bayes

n

ii

iiiii

Documents

DEA instrumentation et commande Reconnaissance des formes Erreurs et coûts des algorithmes S. Canu scanu/RdF