NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Nouveaux outils informatiquespour la Statistique exploratoire

(=NOISE)

Christian P. Robert

Universite Paris Dauphinehttp://www.ceremade.dauphine.fr/~xian

L3 MI2E, 2009–2010

http://www.ceremade.dauphine.fr/~xian


Outline

1 Simulation de variables aleatoires

2 Methodes de Monte Carlo

3 Methode du bootstrap

4 Statistique non–parametrique


Simulation de variables aleatoires

Chapitre 1 :Simulation de variables aleatoires

IntroductionGenerateur pseudo-aleatoireDistributions non-uniformes (1)Distributions non-uniformes (2)



Introduction

Introduction

Besoin de “produire le hasard” par ordinateur

Evaluer le comportement d’un systeme complexe (programme,reseau, file d’attente, systeme de particules, atmosphere,epidemie, actions...)



Introduction

Introduction



Determiner les proprietes probabilistes d’une procedurestatistique non-standard ou sous une loi inconnue [bootstrap]



Introduction

Introduction




Validation d’un modele probabiliste



Introduction

Introduction





Approcher une esperance/integrale sous une loi non-standard[loi des grands nombres]



Introduction

Introduction





Approcher une esperance/integrale sous une loi non-standard[loi des grands nombres]

Maximiser une fonction/vraisemblance faiblement reguliere



Introduction

Example (TCL pour la loi binomiale)

SiXn ∼ B(n, p) ,

Xn converge en loi vers la loi normale :

√n (Xn − p)

n→∞ N

(0,

p(1 − p)

n

)



Introduction

n= 4

0.0 0.2 0.4 0.6 0.8 1.0

010

2030

n= 8

0.0 0.2 0.4 0.6 0.8 1.0

05

1015

2025

n= 16

0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

05

1015

20

n= 32

0.2 0.3 0.4 0.5 0.6 0.7 0.8

02

46

810

14

n= 64

0.3 0.4 0.5 0.6

05

1015

2025

n= 128

0.35 0.40 0.45 0.50 0.55 0.60 0.65

05

1015

n= 256

0.40 0.45 0.50 0.55 0.60

05

1020

30

n= 512

0.44 0.46 0.48 0.50 0.52 0.54 0.56 0.58

05

1015

2025

n= 1024

0.46 0.48 0.50 0.52 0.54

010

2030

4050



Introduction

Example (Minimisation aleatoire)

On considere la fonction

h(x, y) = (x sin(20y) + y sin(20x))2 cosh(sin(10x)x)

+ (x cos(10y) − y sin(10x))2 cosh(cos(20y)y) ,

a minimiser.



Introduction

Example (Minimisation aleatoire)

On considere la fonction

h(x, y) = (x sin(20y) + y sin(20x))2 cosh(sin(10x)x)

+ (x cos(10y) − y sin(10x))2 cosh(cos(20y)y) ,

a minimiser. (On sait que le minimum global vaut 0 en(x, y) = (0, 0).)



Introduction

-1

-0.5

0

0.5

1

X

-1

-0.5

0

0.5

1

Y

01

23

45

6Z



Introduction

Example (Minimisation aleatoire (2))

Au lieu de chercher a resoudre les equations du premier ordre

∂h(x, y)

∂x= 0 ,

∂h(x, y)

∂y= 0

et a verifier les conditions du second ordre, on peut generer la suitealeatoire dans R2

θj+1 = θj +αj

2βj∆h(θj , βjζj) ζj



Introduction

Example (Minimisation aleatoire (2))

Au lieu de chercher a resoudre les equations du premier ordre

∂h(x, y)

∂x= 0 ,

∂h(x, y)

∂y= 0

et a verifier les conditions du second ordre, on peut generer la suitealeatoire dans R2

θj+1 = θj +αj

2βj∆h(θj , βjζj) ζj

ou

⋄ les ζj sont uniformes sur le cercle unite x2 + y2 = 1;

⋄ ∆h(θ, ζ) = h(θ + ζ) − h(θ − ζ);

⋄ (αj) et (βj) tendent vers 0



Introduction

-0.2 0.0 0.2 0.4 0.6

0.2

0.4

0.6

0.8

Cas ou αj = 1/10 log(1 + j) et βj = 1/j



Introduction

Probleme du voyageur de commerce

Probleme classique d’allocation:

Representant devant visiterun ensemble de n villes



Introduction




Couts de voyages entre deuxvilles fixes [et differents]



Introduction





Recherche du cout globalminimum



Introduction





Recherche du cout globalminimum



Introduction

Probleme NP-complet

Probleme du voyageur decommerce representatif deproblemes mathematiquesdurs a temps de resolutionexplosifs



Introduction

Probleme NP-complet

Probleme du voyageur decommerce representatif deproblemes mathematiquesdurs a temps de resolutionexplosifsNombre de chemins possiblesn! et solutions exactesdisponibles en temps O(2n)



Introduction

Probleme NP-complet

Probleme du voyageur decommerce representatif deproblemes mathematiquesdurs a temps de resolutionexplosifsNombre de chemins possiblesn! et solutions exactesdisponibles en temps O(2n)Probleme a nombreusesapplications (reseaux,conception de circuitsimprimes, sequencage degenome, etc.) Concours Procter & Gamble

1962



Introduction

Probleme toujours ouvert

Solution exacte pour 15, 112villes allemandes trouvee en 2001en 22.6 annees CPU.



Introduction

Probleme toujours ouvert

Solution exacte pour 15, 112villes allemandes trouvee en 2001en 22.6 annees CPU.

Resolution pour les 24, 978 villessuedoises en 2004 en 84.8 anneesCPU



Introduction

Resolution par simulation

Algorithme du recuit simule:Repeter

Modifications aleatoires de parties du circuit de cout C0



Introduction




Evaluation du cout C du nouveau circuit



Introduction





Acceptation du nouveau circuit avec probabilite

exp

{C0 − C

T

}∧ 1



Introduction





Acceptation du nouveau circuit avec probabilite

exp

{C0 − C

T

}∧ 1

T , temperature, est reduite progressivement.[Metropolis, 1953]



Introduction

Illustration

Example (400 villes)

T = 1.2



Introduction

Illustration


T = 0.8



Introduction

Illustration


T = 0.4



Introduction

Illustration


T = 0.0



Introduction

Pricing d’options

Calcul complexe d’esperances/valeurs moyennes d’options, E[CT ],necessaire pour evaluer le prix d’achat (1 + r)−T E[CT ]



Introduction

Pricing d’options


Example (Options europeennes)

Cas ouCT = (ST − K)+

avec

ST = S0 × Y1 × · · · × YT , Pr(Yi = u) = 1 − Pr(Yi = d) = p .



Introduction

Pricing d’options


Example (Options europeennes)

Cas ouCT = (ST − K)+

avec

ST = S0 × Y1 × · · · × YT , Pr(Yi = u) = 1 − Pr(Yi = d) = p .

Resolution par simulation des binomiales Yi



Introduction

Pricing d’options (suite)

Example (Options asiatiques)

Modele en temps continu ou

CT =

(1

T

∫ T

0S(t)dt − K

)+

≈(

1

T

T∑

n=1

S(n) − K

)+

,

avec

S(n + 1) = S(n) × exp {∆X(n + 1)} , ∆X(n)iid∼ N (0, σ2) .



Introduction

Pricing d’options (suite)

Example (Options asiatiques)

Modele en temps continu ou

CT =

(1

T

∫ T

0S(t)dt − K

)+

≈(

1

T

T∑

n=1

S(n) − K

)+

,

avec

S(n + 1) = S(n) × exp {∆X(n + 1)} , ∆X(n)iid∼ N (0, σ2) .

Resolution par simulation des normales ∆Xi



Generateur pseudo-aleatoire

Generateur pseudo-aleatoireElement central des methodes de simulation : elles reposent toutessur la transformation de variables uniformes U (0, 1)





Definition (Generateur pseudo-aleatoire)

Un generateur pseudo-aleatoire est une transformationdeterministe Ψ de ]0, 1[ dans ]0, 1[ telle que, pour toute valeurinitiale u0 et tout n, la suite

{u0, Ψ(u0), Ψ(Ψ(u0)), . . . ,Ψn(u0)}

a le meme comportement statistique qu’une suite iid U (0, 1)





Definition (Generateur pseudo-aleatoire)

Un generateur pseudo-aleatoire est une transformationdeterministe Ψ de ]0, 1[ dans ]0, 1[ telle que, pour toute valeurinitiale u0 et tout n, la suite

{u0, Ψ(u0), Ψ(Ψ(u0)), . . . ,Ψn(u0)}

a le meme comportement statistique qu’une suite iid U (0, 1)

¡Paradoxe!

Sans appel au “hasard”, la suite deterministe(u0, u1 = Ψ(u0), . . . , un = Ψ(un−1))doit ressembler a une suite aleatoire




En R, appel a la procedure

runif( )

Description:‘runif’ generates random deviates.Example:u = runif(20)‘Random.seed’ is an integer vector, containing the random numbergenerator (RNG) state for random number generation in R. It canbe saved and restored, but should not be altered by the user.




500 520 540 560 580 600

0.0

0.2

0.4

0.6

0.8

1.0

uniform sample

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.5

1.0

1.5




En C, appel a la procedure

rand() / random()

SYNOPSIS# include <stdlib.h>long int random(void);DESCRIPTIONThe random() function uses a non-linear additive feedback randomnumber generator employing a default table of size 31 longintegers to return successive pseudo-random numbers in the rangefrom 0 to RAND MAX. The period of this random generator isvery large, approximately 16*((2**31)-1).RETURN VALUErandom() returns a value between 0 and RAND MAX.




En Scilab, appel a la procedure

rand()

rand() : with no arguments gives a scalar whose value changeseach time it is referenced. By default, random numbers areuniformly distributed in the interval (0,1). rand(’normal’) switchesto a normal distribution with mean 0 and variance 1.rand(’uniform’) switches back to the uniform distributionEXAMPLEx=rand(10,10,’uniform’)




Example (Generateur usuel)

Le generateur congruenciel

D(x) = (ax + b) mod (M + 1).

est de periode M pour les bons choix de (a, b) et se transforme engenerateur sur ]0, 1[ par division par M + 2.

v = u*69069069 (1)

0.0 0.2 0.4 0.6 0.8 1.0

0.00.2

0.40.6

0.81.0

1.2

0.0 0.2 0.4 0.6 0.8 1.0

0.00.2

0.40.6

0.81.0

t

t+1

0.0 0.2 0.4 0.6 0.8 1.0

0.00.2

0.40.6

0.81.0

t

t+5

0.0 0.2 0.4 0.6 0.8 1.0

0.00.2

0.40.6

0.81.0

t

t+10




Conclusion :

Utiliser la fonction appropriee sur l’ordinateur ou le logiciel enservice plutot que de construire un generateur aleatoire demauvaise qualite



Distributions non-uniformes (1)

Autres distributions que la loi uniforme (1)

Probleme regle en principe puisque






Theorem (Inversion generique)

Si U est une variable aleatoire uniforme sur [0, 1) et FX est lafonction de repartition de la variable X, F−1

X (U) a meme loi que X









Preuve. On a

P (F−1X (U) ≤ x) = P (U ≤ FX(x)) = FX(x)









Preuve. On a

P (F−1X (U) ≤ x) = P (U ≤ FX(x)) = FX(x)

Note. Si FX n’est pas strictement croissante, on prend

F−1X (u) = inf {x; FX(x) ≥ u}




Applications...

Loi binomiale, B(n, p),

FX(x) =∑

i≤x

(n

i

)pi(1 − p)n−i

et F−1X (u) s’obtient numeriquement




Applications...


FX(x) =∑

i≤x

(n

i

)pi(1 − p)n−i


Loi exponentielle, E xp(λ),

FX(x) = 1 − exp(λx) et F−1X (u) = − log(u)/λ




Applications...


FX(x) =∑

i≤x

(n

i

)pi(1 − p)n−i


Loi exponentielle, E xp(λ),

FX(x) = 1 − exp(λx) et F−1X (u) = − log(u)/λ

Loi de Cauchy, C (0, 1),

FX(x) =1

πarctan(x)+

1

2et F−1

X (u) = tan(π(u−1/2))




Autres transformations...

[Indice]

Trouver des transformations reliant la loi d’interet et des lois plussimples/mieux connues




Autres transformations...

[Indice]

Trouver des transformations reliant la loi d’interet et des lois plussimples/mieux connues

Example (Transformation de Box-Muller)

Pour la loi normale N (0, 1), si X1, X2i.i.d.∼ N (0, 1),

X21 + X2

2 ∼ χ22, arctan(X1/X2) ∼ U ([0, 2π])

[Jacobien]Comme χ2

2 est identique a E xp(1/2), il vient par inversion

X1 =√−2 log(U1) sin(2πU2) X2 =

√−2 log(U1) cos(2πU2)




Example

Les lois de Student et de Fisher se deduisent naturellement de laloi normale et de la loi du chi-deux.




Example

Les lois de Student et de Fisher se deduisent naturellement de laloi normale et de la loi du chi-deux.

Example

La loi de Cauchy se deduit de la loi normale par : si

X1, X2i.i.d.∼ N (0, 1), X1/X2 ∼ C (0, 1)




Example

La loi Beta B(α, β), de densite

fX(x) =Γ(α + β)

Γ(α)Γ(β)xα−1(1 − x)β−1 ,

s’obtient a partir de la loi gamma par: si X1 ∼ G a(α, 1),X2 ∼ G a(β, 1), alors

X1

X1 + X2∼ B(α, β)




Lois multidimensionnelles

Soit a generer dans Rp

(X1, . . . , Xp) ∼ f(x1, . . . , xp)

dont les composantes ne sont pas necessairement independantes

Cascade rule

f(x1, . . . , xp) = f1(x1) × f2|1(x2|x1) . . . × fp|−p(xp|x1, . . . , xp−1)




Implementation

Simuler pour t = 1, . . . , T

1 X1 ∼ f1(x1)

2 X2 ∼ f2|1(x2|x1)

...

p. Xp ∼ fp|−p(xp|x1, . . . , xp−1)





F−1X rarement disponible






algorithme resident sur machine seulement pour lois usuelles







lemme d’inversion ne s’applique qu’en dimension 1







lemme d’inversion ne s’applique qu’en dimension 1

nouvelle distribution demandant resolution rapide




Methode d’acceptation–rejet

Distribution de densite f a simuler




Methode d’acceptation–rejet

Distribution de densite f a simuler

Theorem (fondamental de la simulation)

La loi uniforme sur le sous-graphe

Sf = {(x, u); 0 ≤ u ≤ f(x)}

a comme loi marginale en x la loide densite f .

0 2 4 6 8 100.0

00.0

50.1

00.1

50.2

00.2

5

x

f(x)




Raison :

Loi marginale donnee par

∫ ∞

0I0≤u≤f(x)du = f(x)

et independance a la constante de normalisation




Raison :

Loi marginale donnee par

∫ ∞

0I0≤u≤f(x)du = f(x)

et independance a la constante de normalisation

Example

Pour une loi normale, il “suffit” de simuler (u, x) au hasard dans

{(u, x); 0 ≤ u ≤ exp(−x2/2)}




Algorithme d’acceptation-rejet

1 Trouver une densite g simulable telle que

supx

f(x)

g(x)= M < ∞






supx

f(x)

g(x)= M < ∞

2 Generer

Y1, Y2, . . .i.i.d.∼ g , U1, U2, . . .

i.i.d.∼ U ([0, 1])






supx

f(x)

g(x)= M < ∞

2 Generer

Y1, Y2, . . .i.i.d.∼ g , U1, U2, . . .

i.i.d.∼ U ([0, 1])

3 Prendre X = Yk ou

k = inf{n ; Un ≤ f(Yn)/Mg(Yn)}




Theorem (Acceptation–rejet)

La variable produite par la regle d’arret ci-dessous est distribueesuivant la loi fX




Theorem (Acceptation–rejet)

La variable produite par la regle d’arret ci-dessous est distribueesuivant la loi fX

Preuve (1) : On a

P (X ≤ x) =∞∑

k=1

P (X = Yk , Yk ≤ x)

=∞∑

k=1

(1 − 1

M

)k−1

P (Uk ≤ f(Yk)/Mg(Yk) , Yk ≤ x)

=∞∑

k=1

(1 − 1

M

)k−1 ∫ x

−∞

∫ f(y)/Mg(y)

0du g(y)dy

=∞∑

k=1

(1 − 1

M

)k−1 1

M

∫ x

−∞f(y)dy




Preuve (2)

Si (X, U) est uniforme surA ⊃ B, la distribution de (X, U)retreinte a B est uniforme sur B.

−4 −2 0 2 4

01

23

45




Proprietes

Fonctionne sans constante de normalisation




Proprietes


Ne necessite pas une borne exacte M




Proprietes



Autorise le recyclage des Yk pour une autre loi f (les Yk

refuses ne sont plus de loi g)




Proprietes



Autorise le recyclage des Yk pour une autre loi f (les Yk

refuses ne sont plus de loi g)

Demande en moyenne M va Yk pour un X (mesured’efficacite)




Example

Soit f(x) = exp(−x2/2) et g(x) = 1/(1 + x2)

f(x)

g(x)= (1 + x2) e−x2/2 ≤ 2/

√e

Probabilite d’acceptation√

e/2π = 0.66




Theorem (Enveloppe)

S’il existe une densite gm, une fonction gl et une constante Mtelles que

gl(x) ≤ f(x) ≤ Mgm(x) ,

alors

1 Generer X ∼ gm(x), U ∼ U[0,1];

2 Accepter X si U ≤ gl(X)/Mgm(X);

3 sinon, accepter X si U ≤ f(X)/Mgm(X)

donne des variables aleatoires suivant la loi f .




Algorithme du rapport d’uniformesSlice sampler

Resultat :

Simulation uniforme sur

{(u, v); 0 ≤ u ≤√

2f(v/u)}

produitX = V/U ∼ f




Algorithme du rapport d’uniformesSlice sampler

Resultat :

Simulation uniforme sur

{(u, v); 0 ≤ u ≤√

2f(v/u)}

produitX = V/U ∼ f

Raison :

Changement de variable (u, v) → (x, u) de Jacobien u et loimarginale de x donnee par

x ∼∫ √

2f(x)

0u du =

√2f(x)

2

2= f(x)




Example

Pour une loi normale, simuler(u, v) au hasard dans

0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4

0.0

0.2

0.4

0.6

u

v

{(u, v); 0 ≤ u ≤√

2 e−v2/4u2} = {(u, v); v2 ≤ −4 u2 log(u/√

2)}


Methodes de Monte Carlo

Chapitre 2 :Methodes de Monte Carlo

IntroductionIntegration par la methode de Monte CarloFonctions d’importanceMethodes d’acceleration



Introduction

Utilisations de la simulation

1 integration

I = Ef [h(X)] =

∫h(x)f(x)dx



Introduction


1 integration

I = Ef [h(X)] =

∫h(x)f(x)dx

2 comportement limite/stationnaire de systemes complexes



Introduction


1 integration

I = Ef [h(X)] =

∫h(x)f(x)dx

2 comportement limite/stationnaire de systemes complexes

3 optimisation

arg minx

h(x) = arg maxx

exp{−βh(x)} β > 0



Introduction

Example (Propagation d’une epidemie)

Sur un territoire quadrille, on represente par x, y les coordonneesd’un point.



Introduction


Sur un territoire quadrille, on represente par x, y les coordonneesd’un point.La probabilite d’attraper la maladie est

Px,y =exp(α + β · nx,y)

1 + exp(α + β · nx,y)Inx,y>0

si nx,y denote le nombre de voisins de (x, y) ayant deja cettemaladie.



Introduction


Sur un territoire quadrille, on represente par x, y les coordonneesd’un point.La probabilite d’attraper la maladie est

Px,y =exp(α + β · nx,y)

1 + exp(α + β · nx,y)Inx,y>0

si nx,y denote le nombre de voisins de (x, y) ayant deja cettemaladie.La probabilite de guerir de la maladie est

Qx,y =exp(δ + γ · nx,y)

1 + exp(δ + γ · nx,y)



Introduction

Example (Propagation d’une epidemie (2))

Question

En fonction de (α, β, γ, δ), quelle est la vitesse de propagation decette epidemie ? la duree moyenne ? le nombre de personnesinfectees ?



Integration par la methode de Monte Carlo

Integration par Monte Carlo

Loi des grands nombres

Si X1, . . . , Xn simules suivant f ,

In =1

n

n∑

i=1

h(Xi) −→ I




Theoreme Central Limit

Evaluation de l’erreur par

σ2n =

1

n2

n∑

i=1

(h(Xi) − I)2

etIn ≈ N (I, σ2

n)




Example (Normale)

Pour une loi normale, E[X4] = 3. Par la methode de Monte Carlo,n 5 50 500 5000 50,000 500,000

In 1.65 5.69 3.24 3.13 3.038 3.029

5 10 50 100 500 1000 5000 10000 50000

0.00.5

1.01.5

2.02.5

3.0

n

In




Example (Cauchy / Normale)

On considere le modele joint

X|θ ∼ N (θ, 1), θ ∼ C(0, 1)

Apres observation de X, on estime θ par

δπ(x) =

∫ ∞

−∞

θ

1 + θ2e−(x−θ)2/2dθ

∫ ∞

−∞

1

1 + θ2e−(x−θ)2/2dθ




Example (Cauchy / Normale (2))

Cette forme δπ suggere de simuler des variables iid

θ1, · · · , θm ∼ N (x, 1)

et de calculer

δπm(x) =

∑mi=1

θi

1 + θ2i

∑mi=1

1

1 + θ2i

.




Example (Cauchy / Normale (2))

Cette forme δπ suggere de simuler des variables iid

θ1, · · · , θm ∼ N (x, 1)

et de calculer

δπm(x) =

∑mi=1

θi

1 + θ2i

∑mi=1

1

1 + θ2i

.

Par la Loi des Grands Nombres,

δπm(x) −→ δπ(x) quand m −→ ∞.




Example (FdR normale)

Approximation de la fonction de repartition de la loi normale

Φ(t) =

∫ t

−∞

1√2π

e−y2/2dy

par

Φ(t) =1

n

n∑

i=1

IXi≤t,

ayant genere un echantillon de taille n, (X1, . . . , Xn), vial’algorithme de Box-Muller.




Example (FdR normale (2))

• VarianceΦ(t)(1 − Φ(t))/n,

car les variables IXi≤t sont iid Bernoulli(Φ(t)).







• Pour t pres de t = 0 la variance vaut approximativement 1/4n:une precision de quatre decimales demande en moyenne

√n =

√2 104

simulations, donc, 200 millions d’iterations.







• Pour t pres de t = 0 la variance vaut approximativement 1/4n:une precision de quatre decimales demande en moyenne

√n =

√2 104

simulations, donc, 200 millions d’iterations.

• Plus grande precision [absolue] dans les queues





n 0.0 0.67 0.84 1.28 1.65 2.32 2.58 3.09 3.72

102

0.485 0.74 0.77 0.9 0.945 0.985 0.995 1 1

103

0.4925 0.7455 0.801 0.902 0.9425 0.9885 0.9955 0.9985 1

104

0.4962 0.7425 0.7941 0.9 0.9498 0.9896 0.995 0.999 0.9999

105

0.4995 0.7489 0.7993 0.9003 0.9498 0.9898 0.995 0.9989 0.9999

106

0.5001 0.7497 0.8 0.9002 0.9502 0.99 0.995 0.999 0.9999

107

0.5002 0.7499 0.8 0.9001 0.9501 0.99 0.995 0.999 0.9999

108

0.5 0.75 0.8 0.9 0.95 0.99 0.995 0.999 0.9999

Evaluation de quantiles normaux par Monte Carlo fondee surn generations normales.



Fonctions d’importance


Representation alternative :

I =

∫h(x)f(x)dx =

∫h(x)

f(x)

g(x)g(x)dx





Representation alternative :

I =

∫h(x)f(x)dx =

∫h(x)

f(x)

g(x)g(x)dx

Donc, si Y1, . . . , Yn simules suivant g,

In =1

n

n∑

i=1

h(Yi)f(Yi)

g(Yi)−→ I




Interet

Fonctionne pour tout choix de g tel que

supp(g) ⊃ supp(f)




Interet


supp(g) ⊃ supp(f)

Amelioration possible de la variance




Interet


supp(g) ⊃ supp(f)


Recyclage de simulations Yi ∼ g pour d’autres densites f




Interet


supp(g) ⊃ supp(f)


Recyclage de simulations Yi ∼ g pour d’autres densites f

Utilisation de lois simples g




Example (Normale)

Pour la loi normale et l’approximation de E[X4],

∫ ∞

−∞x4e−x2/2dx

[y=x2]= 2

∫ ∞

0y3/2 1

2e−y/2dy

suggere d’utiliser g(y) = exp(−y/2)/2n 5 50 500 5000 50000

In 3.29 2.89 3.032 2.97 3.041

5 10 50 100 500 1000 5000 10000 50000

−0.1

0.00.1

0.20.3

0.40.5

n

In




Choix de la fonction d’importance

La “bonne” fonction g depend de la densite f et de la fonction h




Choix de la fonction d’importance

La “bonne” fonction g depend de la densite f et de la fonction h

Theorem (Importance optimale)

Le choix de g minimisant la variance de In est

g⋆(x) =|h(x)|f(x)

I




Remarques

Variance finie seulement si

Ef

[h2(X)

f(X)

g(X)

]=

∫

Xh2(x)

f(X)

g(X)dx < ∞ .




Remarques


Ef

[h2(X)

f(X)

g(X)

]=

∫

Xh2(x)

f(X)

g(X)dx < ∞ .

Variance nulle pour g⋆ si h positive (!!)




Remarques


Ef

[h2(X)

f(X)

g(X)

]=

∫

Xh2(x)

f(X)

g(X)dx < ∞ .


g⋆ depend de I que l’on cherche a estimer (??)




Remarques


Ef

[h2(X)

f(X)

g(X)

]=

∫

Xh2(x)

f(X)

g(X)dx < ∞ .


g⋆ depend de I que l’on cherche a estimer (??)

Remplacement de In par moyenne harmonique

In =

∑ni=1 h(yi)/|h(yi)|∑n

i=1 1/|h(yi)|

(numerateur et denominateur sont convergents)souvent mauvais (variance infinie)




Example (Normale)

Pour la loi normale et l’approximation de E[X4],g⋆(x) ∝ x4 exp(−x2/2), loi de la racine d’une G a(5/2, 1/2)

[Exercice]

n 5 50 500 5,000 50,000 500,000

In 4.877 2.566 2.776 2.317 2.897 3.160

1e+01 1e+02 1e+03 1e+04 1e+05

−10

12

n

In




Example (Loi de Student)

X ∼ T (ν, θ, σ2), de densite

f(x) =Γ((ν + 1)/2)

σ√

νπ Γ(ν/2)

(1 +

(x − θ)2

νσ2

)−(ν+1)/2

.

Soient θ = 0, σ = 1 et

I =

∫ ∞

2.1x5f(x)dx.

a calculer




Example (Loi de Student (2))

• Choix de fonctionsd’importance

◦ f , car f = N (0,1)√χ2

ν/ν

◦ Cauchy C(0, 1)◦ Normale N (0, 1)◦ U ([0, 1/2.1])






◦ f , car f = N (0,1)√χ2

ν/ν


Resultats:

◦ Uniforme optimale

◦ Cauchy OK

◦ f et Normale mauvaises






◦ f , car f = N (0,1)√χ2

ν/ν


Resultats:

◦ Uniforme optimale

◦ Cauchy OK

◦ f et Normale mauvaises

0 10000 20000 30000 40000 50000

5.05.5

6.06.5

7.0

0 10000 20000 30000 40000 50000

5.05.5

6.06.5

7.0

0 10000 20000 30000 40000 50000

5.05.5

6.06.5

7.0

0 10000 20000 30000 40000 50000

5.05.5

6.06.5

7.0



Methodes d’acceleration

Simulations correlees

La correlation negative...

Deux echantillons (X1, . . . , Xm) et (Y1, . . . , Ym) suivant f pourestimer

I =

∫

R

h(x)f(x)dx .

Soient

I1 =1

m

m∑

i=1

h(Xi) et I2 =1

m

m∑

i=1

h(Yi)

de moyenne I et variance σ2




Simulations correlees (2)

...reduit la variance

La variance de la moyenne vaut

var

(I1 + I2

2

)=

σ2

2+

1

2cov(I1, I2).




Simulations correlees (2)

...reduit la variance

La variance de la moyenne vaut

var

(I1 + I2

2

)=

σ2

2+

1

2cov(I1, I2).

Par consequent, si les deux echantillons sont negativementcorreles,

cov(I1, I2) ≤ 0 ,

ils font mieux que deux echantillons independants de meme taille




Variables antithetiques

Construction de variables negativement correlees

1 Si f symetrique autour de µ, prendre Yi = 2µ − Xi

2 Si Xi = F−1(Ui), prendre Yi = F−1(1 − Ui)

3 Si (Ai)i est une partition de X , echantillonnage partitionne enprenant des Xj dans chaque Ai (necessite de connaıtrePr(Ai))




Variables de controle

Soit

I =

∫h(x)f(x)dx

a evaluer et

I0 =

∫h0(x)f(x)dx

connueOn estime quand meme I0 par I0 (et I par I)




Variables de controle (2)

Estimateur combine

I∗ = I + β(I0 − I0)

I∗ est sans biais pour I et

var(I∗) = var(I) + β2var(I) + 2βcov(I, I0)




Variables de controle (3)

Choix optimal de β

β⋆ = −cov(I, I0)

var(I0),

avecvar(I⋆) = (1 − ρ2) var(I) ,

ou ρ correlation entre I et I0




Example (Approximation de quantiles)

Soit a evaluer

= Pr(X > a) =

∫ ∞

af(x)dx

par

ˆ =1

n

n∑

i=1

I(Xi > a), Xiiid∼ f

avec Pr(X > µ) = 12




Example (Approximation de quantiles (2))

La variable de controle

1

n

n∑

i=1

I(Xi > a) + β

(1

n

n∑

i=1

I(Xi > µ) − Pr(X > µ)

)

ameliore ˆ si

β < 0 et |β| < 2cov(δ1, δ3)

var(δ3)= 2

Pr(X > a)

Pr(X > µ).




Integration par conditionnementTirer parti de l’inegalite

var(E[δ(X)|Y]) ≤ var(δ(X))

appelee aussi Theoreme de Rao-Blackwell

Consequence :

Si I est un estimateur sans biais de I = Ef [h(X)], avec X simulea partir de la densite jointe f(x, y), ou

∫f(x, y)dy = f(x),




Integration par conditionnementTirer parti de l’inegalite

var(E[δ(X)|Y]) ≤ var(δ(X))

appelee aussi Theoreme de Rao-Blackwell

Consequence :

Si I est un estimateur sans biais de I = Ef [h(X)], avec X simulea partir de la densite jointe f(x, y), ou

∫f(x, y)dy = f(x),

l’estimateurI∗ = Ef [I|Y1, . . . , Yn]

domine I(X1, . . . , Xn) en variance (et est aussi sans biais)




Example (Esperance de loi de Student)

Soit a calculer

E[h(x)] = E[exp(−x2)] avec X ∼ T (ν, 0, σ2)




Example (Esperance de loi de Student)

Soit a calculer

E[h(x)] = E[exp(−x2)] avec X ∼ T (ν, 0, σ2)

La loi de Student peut etre simulee par

X|y ∼ N (µ, σ2y) et Y −1 ∼ χ2ν .




Example (Esperance de loi de Student (2))

La moyenne empirique

1

m

m∑

j=1

exp(−X2j ) ,

peut etre amelioree a partir de l’echantillon joint

((X1, Y1), . . . , (Xm, Ym))

puisque

1

m

m∑

j=1

E[exp(−X2)|Yj ] =1

m

m∑

j=1

1√2σ2Yj + 1

est l’esperance conditionnelle




Example (Esperance de loi de Student (3))

Dans ce cas particulier, la precision est dix fois plus grande

0 2000 4000 6000 8000 10000

0.50

0.52

0.54

0.56

0.58

0.60

0 2000 4000 6000 8000 10000

0.50

0.52

0.54

0.56

0.58

0.60

Estimateurs de E[exp(−X2)]: moyenne empirique (traitspleins) contre esperance conditionnelle (pointilles) pour(ν, µ, σ) = (4.6, 0, 1).


Methode du bootstrap

Chapitre 3 :Methode du bootstrap

IntroductionLe theoreme de GlivenkoCantelliBootstrapBootstrap parametrique



Introduction

Alea intrinseque

Estimation a partir d’un echantillon aleatoire = incertitude



Introduction

Alea intrinseque

Estimation a partir d’un echantillon aleatoire = incertitudePuisque fonde sur un echantillon aleatoire, un estimateur

δ(X1, . . . , Xn)

est aussi (une variable) aleatoire



Introduction

Variation moyenne

Question 1 :

De combien varie δ(X1, . . . , Xn) quand l’echantillon varie ?



Introduction

Variation moyenne

Question 1 :


Question 2 :

Quelle est la variance de δ(X1, . . . , Xn) ?



Introduction

Variation moyenne

Question 1 :


Question 2 :

Quelle est la variance de δ(X1, . . . , Xn) ?

Question 3 :

Quelle est la distribution de δ(X1, . . . , Xn) ?



Introduction

Example (Echantillon normal)

Soit X1, . . . , X100 un echantillon normal N (θ, 1). Sa moyenne θest estimee par

θ =1

100

100∑

i=1

Xi



Introduction



θ =1

100

100∑

i=1

Xi

Moyennes de 100 points pour 200 echantillons

x

−0.2 −0.1 0.0 0.1 0.2 0.3

01

23

45

6



Introduction



θ =1

100

100∑

i=1

Xi

Moyennes de 100 points pour 200 echantillons

x

−0.2 −0.1 0.0 0.1 0.2 0.3

01

23

45

6

Variation compatible avec la loi (connue) θ ∼ N (θ, 1/100)



Introduction

Problemes correspondants

On observe un seul echantillon en general



Introduction



La loi de l’echantillon est souvent inconnue



Introduction




L’evaluation de la variation moyenne de δ(X1, . . . , Xn) estessentielle pour la construction d’intervalles de confiance et detests de/reponses a des questions comme

H0 : θ ≤ 0



Introduction





H0 : θ ≤ 0

En cas de normalite de l’echantillon, le vrai θ se trouve avecforte probabilite dans l’intervalle

[θ − 2σ, θ + 2σ] .



Introduction





H0 : θ ≤ 0

En cas de normalite de l’echantillon, le vrai θ se trouve avecforte probabilite dans l’intervalle

[θ − 2σ, θ + 2σ] .

Quid de σ ?!



Le theoreme de GlivenkoCantelli

Estimation de la fonction de repartition

Extension/application de la LGN a l’approximation de la fonctionde repartition :





Extension/application de la LGN a l’approximation de la fonctionde repartition :Pour un echantillon X1, . . . , Xn, si

Fn(x) =1

n

n∑

i=1

I]−∞,Xi](x)

=card {Xi; Xi ≤ x}

n,





Extension/application de la LGN a l’approximation de la fonctionde repartition :Pour un echantillon X1, . . . , Xn, si

Fn(x) =1

n

n∑

i=1

I]−∞,Xi](x)

=card {Xi; Xi ≤ x}

n,

Fn(x) est un estimateur convergent de la fonction derepartition F (x)

[Glivenko–Cantelli]

Fn(x) −→ Pr(X ≤ x)





−2 −1 0 1 2

0.00.2

0.40.6

0.81.0

−2 −1 0 1 20.0

0.20.4

0.60.8

1.0

Estimation de la fonction de repartition F a partir d’unechantillon normal de 100 points et variation de cetteestimation sur 200 echantillons normaux




Proprietes

Estimateur dit non-parametrique : on n’a pas besoin de la loini de la forme de la loi de l’echantillon pour construire cetestimateur c© Il est toujours disponible




Proprietes

Estimateur dit non-parametrique : on n’a pas besoin de la loini de la forme de la loi de l’echantillon pour construire cetestimateur c© Il est toujours disponible

Robustesse contre efficacite : si la forme [parametrique] dela loi est connue, meilleure approximation fondee sur cetteforme, mais si on se trompe de [forme de] loi, le resultat peutetre bien pire !





Fonction de repartition de N (θ, 1), Φ(x − θ)

−2 −1 0 1 2

0.00.2

0.40.6

0.81.0

−2 −1 0 1 2

0.00.2

0.40.6

0.81.0

Estimation de Φ(· − θ) par Fn et Φ(· − θ) a partir de 100points et variation maximale de ces estimations sur 200replications




Example (Echantillon non-normal)

Echantillon provenant de

0.3N (0, 1) + 0.7N (2.5, 1)

faussement alloue a une loi normale Φ(· − θ)




−2 −1 0 1 2 3 4

0.0

0.2

0.4

0.6

0.8

−2 −1 0 1 2 3 4

0.0

0.2

0.4

0.6

0.8

Estimation de F par Fn et Φ(· − θ) a partir d’un echantillonde melange de 100 points et variation de ces estimations sur200 echantillons de melange




Extension aux fonctionnelles de F

Pour toute expression de la forme

θ(F ) =

∫h(x) dF (x) ,

[Fonctionnelle de la cdf]




Extension aux fonctionnelles de F

Pour toute expression de la forme

θ(F ) =

∫h(x) dF (x) ,

[Fonctionnelle de la cdf]utilisation de l’approximation

θ(F ) = θ(Fn)

=

∫h(x) dFn(x)

=1

n

n∑

i=1

h(Xi)

[Estimateur des moments]





Comme θ est (aussi) la mediane de N (θ, 1), θ peut etre priscomme mediane de Fn, donc comme mediane de X1, . . . , Xn, soitX(n/2)





Comme θ est (aussi) la mediane de N (θ, 1), θ peut etre priscomme mediane de Fn, donc comme mediane de X1, . . . , Xn, soitX(n/2)

−0.4 −0.2 0.0 0.2 0.4

01

23

−0.4 −0.2 0.0 0.2 0.4

01

23

Histogramme des medianes

−0.4 −0.2 0.0 0.2 0.4

01

23

Histogramme des moyennes

Comparaison des variations des moyennes et des medianessur 200 echantillons normaux



Bootstrap

Comment approcher la distribution de θ(Fn) ?

Principe

Comme

θ(Fn) = θ(X1, . . . , Xn) avec X1, . . . , Xni.i.d.∼ F



Bootstrap

Comment approcher la distribution de θ(Fn) ?

Principe

Comme

θ(Fn) = θ(X1, . . . , Xn) avec X1, . . . , Xni.i.d.∼ F

on remplace F par Fn :

θ(Fn) ≈ θ(X∗1 , . . . , X∗

n) avec X∗1 , . . . , X∗

ni.i.d.∼ Fn



Bootstrap

Implementation

Fn etant connue, on peut simuler suivant Fn, donc approcher la loide θ(X∗

1 , . . . , X∗n) [au lieu de celle de θ(X1, . . . , Xn)]

La loi correspondant a

Fn(x) =card {Xi; Xi ≤ x}

n

donne une probabilite de 1/n a chaque point de {x1, . . . , xn} :

PrFn(X∗ = xi) =1

n

Il suffit donc d’operer des tirages avec remise dans (X1, . . . , Xn)

[en R, sample(x,n,replace=T)]



Bootstrap

Simulation par Monte Carlo

1 Pour b = 1, . . . , B,1 generer un echantillon Xb

1, . . . ,Xbn suivant Fn



Bootstrap




2 construire l’image correspondante

θb = θ(Xb1, . . . ,X

bn)



Bootstrap




2 construire l’image correspondante

θb = θ(Xb1, . . . ,X

bn)

2 Utiliser l’echantillonθ1, . . . , θB

pour approcher la distribution de

θ(X1, . . . , Xn)



Bootstrap

Notesbootstrap = languette de botte

on utilise seulement l’echantillon pour construire uneevaluation de sa loi

[Aventures du Baron de Munchausen ]



Bootstrap




un echantillon bootstrap est obtenu par n tirages avec remisedans (X1, . . . , Xn)



Bootstrap




un echantillon bootstrap est obtenu par n tirages avec remisedans (X1, . . . , Xn)

il peut donc prendre nn valeurs (ou(2n−1

n

)valeurs si on ne

considere pas l’ordre)



Bootstrap

Example (Echantillon 0.3N (0, 1) + 0.7N (2.5, 1))

1.4 1.6 1.8 2.0 2.2

0.00.5

1.01.5

2.02.5

3.0

Variation des moyennes empiriques sur 200 echantillonsbootstrap et moyenne de l’echantillon observe



Bootstrap

Example (Calcul de la variation moyenne)

Pour un estimateur θ(X1, . . . , Xn), l’ecart-type est donne par

η(F ) =

√EF [(θ(X1, . . . , Xn) − EF [θ(X1, . . . , Xn)])2]



Bootstrap

Example (Calcul de la variation moyenne)

Pour un estimateur θ(X1, . . . , Xn), l’ecart-type est donne par

η(F ) =

√EF [(θ(X1, . . . , Xn) − EF [θ(X1, . . . , Xn)])2]

et son approximation bootstrap est

η(Fn) =

√EFn [(θ(X1, . . . , Xn) − EFn [θ(X1, . . . , Xn)])2]



Bootstrap

Example (Calcul de la variation moyenne (2))

Approximation elle-meme approchee par

η(Fn) =

(1

B

B∑

b=1

(θ(Xb1, . . . , X

bn) − θ)2

)1/2

ou

θ =1

B

B∑

b=1

θ(Xb1, . . . , X

bn)



Bootstrap

Example (Echantillon 0.3N (0, 1) + 0.7N (2.5, 1))

1.4 1.6 1.8 2.0 2.2

0.00.5

1.01.5

2.02.5

3.0

Intervalle de variation bootstrap a ±2η(Fn) et moyenne del’echantillon observe



Bootstrap


Echantillon(X1, . . . , X100)

i.i.d.∼ N (θ, 1)



Bootstrap


Echantillon(X1, . . . , X100)

i.i.d.∼ N (θ, 1)

Comparaison des intervalles de confiance

[x − 2 ∗ σx/10, x + 2 ∗ σx/10] = [−0.113, 0.327]

[approximation normale]

[x∗ − 2 ∗ σ∗, x∗ + 2 ∗ σ∗] = [−0.116, 0.336]

[approximation bootstrap normale]

[q∗(0.025), q∗(0.975)] = [−0.112, 0.336]

[approximation bootstrap generique]



Bootstrap

−0.2 −0.1 0.0 0.1 0.2 0.3 0.4

01

23

4

Approximation normale

Intervalle normal

Intervalle bootstrap

normal

Intervalle bootstrap generique

Intervalles de variation a 95% pour un echantillon de 100points et 200 repliques bootstrap



Bootstrap parametrique

Boostrap parametre

Si la forme parametrique de F est connue,

F (·) = Φλ(·) λ ∈ Λ ,




Boostrap parametre

Si la forme parametrique de F est connue,

F (·) = Φλ(·) λ ∈ Λ ,

une evaluation de F plus efficace que Fn est fournie par

Φλn

ou λn est un estimateur convergent de λ[Cf Exemple 40]




Boostrap parametrique

Approximation de la loi de

θ(X1, . . . , Xn)

par la loi de

θ(X∗1 , . . . , X∗

n) X∗1 , . . . , X∗

ni.i.d.∼ Φλn




Boostrap parametrique

Approximation de la loi de

θ(X1, . . . , Xn)

par la loi de

θ(X∗1 , . . . , X∗

n) X∗1 , . . . , X∗

ni.i.d.∼ Φλn

Peut eviter le recours a la simulation dans certains cas




Example (Echantillon exponentiel)

SoitX1, . . . , Xn

i.i.d.∼ Exp(λ)

et λ = 1/Eλ[X] a estimer.




Example (Echantillon exponentiel)

SoitX1, . . . , Xn

i.i.d.∼ Exp(λ)

et λ = 1/Eλ[X] a estimer.Un estimateur possible est

λ(x1, . . . , xn) =n∑n

i=1 xi

mais cet estimateur est biaise :

Eλ[λ(X1, . . . , Xn)] 6= λ




Example (Echantillon exponentiel (2))

Questions :

Comment evaluer le biais

λ − Eλ[λ(X1, . . . , Xn)]

de cet estimateur ?





Questions :

Comment evaluer le biais

λ − Eλ[λ(X1, . . . , Xn)]

de cet estimateur ?

Quelle est la loi de cet estimateur ?




Evaluation bootstrap du biais


λ(x1, . . . , xn) − Eλ(x1,...,xn)[λ(X1, . . . , Xn)]

[Forme parametrique]

λ(x1, . . . , xn) − EFn[λ(X1, . . . , Xn)]

[Forme non-parametrique]





Dans le premier cas (parametrique),

1/λ(X1, . . . , Xn) ∼ Ga(n, nλ)

etEλ[λ(X1, . . . , Xn)] =

n

n − 1λ





Dans le premier cas (parametrique),

1/λ(X1, . . . , Xn) ∼ Ga(n, nλ)

etEλ[λ(X1, . . . , Xn)] =

n

n − 1λ

donc le biais est analytiquement evalue comme

−λ/n − 1

estime par

− λ(X1, . . . , Xn)

n − 1= −0.00787





Dans le second cas (non-parametrique), evaluation par MonteCarlo,

λ(x1, . . . , xn) − EFn[λ(X1, . . . , Xn)] = 0.00142

qui est du “mauvais” signe





Construction d’un intervalle de confiance sur λPar bootstrap parametrique,

Prλ

(λ1 ≤ λ ≤ λ2

)= Pr

(ω1 ≤ λ/λ ≤ ω2

)= 0.95

peut etre deduit deλ/λ ∼ Ga(n, n)

[En R, qgamma(0.975,n,1/n)]

[λ1, λ2] = [0.452, 0.580]





Par bootstrap non-parametrique, on remplace

PrF (q(.025) ≤ λ(F ) ≤ q(.975)) = 0.95

par

PrFn

(q∗(.025) ≤ λ(Fn) ≤ q∗(.975)

)= 0.95





Par bootstrap non-parametrique, on remplace

PrF (q(.025) ≤ λ(F ) ≤ q(.975)) = 0.95

par

PrFn

(q∗(.025) ≤ λ(Fn) ≤ q∗(.975)

)= 0.95

Approximation des quantiles q∗(.025) et q∗(.975) de λ(Fn) parechantillonnage bootstrap (Monte Carlo)

[q∗(.025), q∗(.975)] = [0.454, 0.576]




0.45 0.50 0.55 0.60

02

46

810

1214


parametrique


non−parametrique




Example (Echantillon Student)

Soit

X1, . . . , Xni.i.d.∼ T(5, µ, τ2)

def= µ + τ

N (0, 1)√χ2

5/5

On peut alors estimer µ et τ par

µn =1

n

n∑

i=1

Xi τn =

√5 − 2

5

√√√√ 1

n

n∑

i=1

(Xi − µ)2

=

√5 − 2

5σn




Example (Echantillon Student (2))

Probleme

µn n’est pas distribuee comme une loi de Student T(5, µ, τ2/n)On doit donc reconstituer la loi de µn par echantillonnagebootstrap.




Example (Echantillon Student (3))

Comparaison des intervalles de confiance

[µn − 2 ∗ σn/10, µn + 2 ∗ σn/10] = [−0.068, 0.319]

[approximation normale]

[q∗(0.05), q∗(0.95)] = [−0.056, 0.305]

[approximation bootstrap parametrique]

[q∗(0.05), q∗(0.95)] = [−0.094, 0.344]

[approximation bootstrap non-parametrique]




−0.2 −0.1 0.0 0.1 0.2 0.3 0.4

01

23

45

6

Intervalle normal a 2 SD


nonparametrique

01

23

45

Intervalle normal a 2 SD


parametrique

Intervalles de variation a 95% pour un echantillon de 150points et 400 repliques bootstrap (haut) non-parametriqueset (bas) parametriques


Statistique non–parametrique

Chapitre 4 :Statistique non–parametrique :

Rudiments

IntroductionEstimation de la densiteTests non-parametriques



Introduction

Probleme :

Comment conduire une inference statistique quand on ne connaitpas la loi des observations X1, . . . , Xn ?

X1, . . . , Xni.i.d.∼ F

avec F inconnu



Introduction

Probleme :

Comment conduire une inference statistique quand on ne connaitpas la loi des observations X1, . . . , Xn ?

X1, . . . , Xni.i.d.∼ F

avec F inconnu

Probleme non-parametrique par opposition au contexteparametrique ou F (·) = Gθ(·) et seul θ est inconnu.



Introduction

Inference statistique non–parametrique

Estimation d’une quantite dependant de F

θ(F ) =

∫h(x) dF (x)



Introduction



θ(F ) =

∫h(x) dF (x)

Decision a propos d’une hypothese sur F

F ∈ F0 ? F == F0 ? θ(F ) ∈ Θ0 ?



Introduction



θ(F ) =

∫h(x) dF (x)

Decision a propos d’une hypothese sur F

F ∈ F0 ? F == F0 ? θ(F ) ∈ Θ0 ?

Estimation de fonctions dependant de F

F f(x) =dF

dx(x) EF [h(X1)|X2 = x]



Estimation de la densite


Pour estimer

f(x) =dF

dx(x)

[densite de X]





Pour estimer

f(x) =dF

dx(x)

[densite de X]on peut songer a prendre

fn(x) =dFn

dx(x)





Pour estimer

f(x) =dF

dx(x)

[densite de X]on peut songer a prendre

fn(x) =dFn

dx(x)

maisFn n’est pas derivable !




Estimation par histogramme

Une premiere solution est de reproduire la representation enescalier de Fn pour f

fn(x) =k∑

i=1

ωiI[ai,ai+1[(x) a1 < . . . < ak+1




Estimation par histogramme

Une premiere solution est de reproduire la representation enescalier de Fn pour f

fn(x) =k∑

i=1

ωiI[ai,ai+1[(x) a1 < . . . < ak+1

en choisissant les ωi tels que

k∑

i=1

ωi(ai+1 − ai) = 1 et ωi(ai+1 − ai) = PF (X ∈ [ai, ai+1[)




Estimation par histogramme (cont’d)

Par exemple,

ωi(ai+1 − ai) =1

n

n∑

i=1

I[ai,ai+1[(Xi)

= Fn(ai+1) − Fn(ai)

[bootstrap]





Par exemple,

ωi(ai+1 − ai) =1

n

n∑

i=1

I[ai,ai+1[(Xi)


[bootstrap]est un estimateur convergent de PF (X ∈ [ai, ai+1[)





Par exemple,

ωi(ai+1 − ai) =1

n

n∑

i=1

I[ai,ai+1[(Xi)


[bootstrap]est un estimateur convergent de PF (X ∈ [ai, ai+1[)

[Attention aux effets de bord !]




hist(x)$density

En R, hist(x)$density donne les valeurs des ωi et hist(x)$breaks lesvaleurs des ai

Il est preferable d’utiliser les valeursproduites par hist(x)$density pourcontruire une fonction lineaire parmorceaux par plot(hist(x)$density)plutot qu’une fonction par escalier.

−2 −1 0 1 2 30

.00

.10

.20

.30

.40

.5

Estimateur par histogrammepour k = 45 et 450observations normales




Interpretation probabiliste

Partant de fonctions en escalier, on aboutit a une representation dela loi approchee comme somme ponderee d’uniformes

k∑

i=1

πiU([ai, ai+1])




Interpretation probabiliste

Partant de fonctions en escalier, on aboutit a une representation dela loi approchee comme somme ponderee d’uniformes

k∑

i=1

πiU([ai, ai+1])

Equivalent a une approximation lineaire par morceaux de lafonction de repartition

Fn(x) =n∑

i=1

πix − ai

ai+1 − aiI[ai,ai+1[(x)




Defauts

Depend du choix de la partition (ai)i, souvent construite enfonction des donnees (comme dans R)




Defauts


Probleme des extremites a1 et ak+1 : ils ne peuvent pas etreinfinis (pourquoi?) mais doivent suffisamment approcher lesupport de f




Defauts



k et (ai)i doivent dependre de n pour permettre laconvergence de fn vers f




Defauts



k et (ai)i doivent dependre de n pour permettre laconvergence de fn vers f

mais... ai+1 − ai ne doit pas decroıtre trop vite vers 0 pourque l’estimation πi soit convergente : il faut suffisammentd’observations par intervalle [ai, ai+1]




Fenetres de Scott

Choix “optimal” de la largeur des classes :

hn = 3.5 σ n−1/3 et hn = 2.15 σ n−1/5

donnent les bonnes largeurs ai+1 − ai (nclass = range(x) / h) pourfn en escalier et lineaire par morceaux, respectivement. (Etassurent la convergence de fn vers f quand n tend vers ∞.)




Fenetres de Scott

Choix “optimal” de la largeur des classes :

hn = 3.5 σ n−1/3 et hn = 2.15 σ n−1/5

donnent les bonnes largeurs ai+1 − ai (nclass = range(x) / h) pourfn en escalier et lineaire par morceaux, respectivement. (Etassurent la convergence de fn vers f quand n tend vers ∞.)

[nclass=9 et nclass=12 dans l’exemple suivant]




−2 −1 0 1 2 3

0.00

0.10

0.20

0.30

k = 5

−2 −1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

k = 15

−2 −1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

k = 25

−2 −1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

k = 35

−2 −1 0 1 2 3

0.0

0.2

0.4

k = 45

−2 −1 0 1 2 3

0.0

0.2

0.4

k = 55

−2 −1 0 1 2 3

0.0

0.2

0.4

k = 65

−2 −1 0 1 2 3

0.0

0.2

0.4

k = 75

−2 −1 0 1 2 3

0.0

0.2

0.4

0.6

k = 85

Variation des estimateurs par histogramme en fonction de kpour un echantillon normal de 450 observations




Estimateur du noyauPartant de la definition

f(x) =dF

dx(x) ,

on peut utiliser l’approximation

f(x) =Fn(x + δ) − Fn(x − δ)

2δ

=1

2δn

n∑

i=1

{IXi<x+δ − IXi<x−δ}

=1

2δn

n∑

i=1

I[−δ,δ](x − Xi)

pour δ assez petit.[Bon point : f est une densite]




Interpretation analytique et probabiliste

On a

fn(x) =Nb. observations proches de x

2δn

Cas particulier de l’estimateur par histogramme ou les ai sont de laforme Xj ± δ




Interpretation analytique et probabiliste

On a

fn(x) =Nb. observations proches de x

2δn

Cas particulier de l’estimateur par histogramme ou les ai sont de laforme Xj ± δ

Representation de fn comme somme ponderee d’uniformes

1

n

n∑

i=1

U([Xi − δ, Xi + δ])

[Cf. lien avec bootstrap]




−2 −1 0 1 2 3 4

0.0

0.2

0.4

0.6

0.8

bandwith 0.1

−2 0 2 4

0.0

0.1

0.2

0.3

0.4

bandwith 0.5

−2 0 2 4

0.00

0.10

0.20

0.30

bandwith 1

−10 −5 0 5 10

0.00

0.04

0.08

0.12

bandwith 10

Variation des estimateurs du noyau uniforme en fonction de δpour un echantillon non-normal de 200 observations




Extension

Au lieu de considerer une approximation uniforme autour dechaque Xi, on peut utiliser une distribution plus lisse :

f(x) =1

δn

n∑

i=1

K

(x − Xi

δ

)

ou K est une densite de probabilite (noyau) et δ un facteurd’echelle “assez” petit.




Extension

Au lieu de considerer une approximation uniforme autour dechaque Xi, on peut utiliser une distribution plus lisse :

f(x) =1

δn

n∑

i=1

K

(x − Xi

δ

)

ou K est une densite de probabilite (noyau) et δ un facteurd’echelle “assez” petit.

En R, density(x)




Choix de noyaux

Toutes les densites sont en theorie acceptables. On utilise enpratique (et dans R)

le noyau normal [kernel=”gaussian” ou ”g”]

le noyau d’Epanechnikov [kernel=”epanechnikov” ou ”e”]

K(y) = C {1 − y2}2 I[−1,1](y)

le noyau triangulaire [kernel=”triangular” ou ”t”]

K(y) = (1 + y)I[−1,0](y) + (1 − y)I[0,1](y)




Choix de noyaux

Toutes les densites sont en theorie acceptables. On utilise enpratique (et dans R)

le noyau normal [kernel=”gaussian” ou ”g”]

le noyau d’Epanechnikov [kernel=”epanechnikov” ou ”e”]

K(y) = C {1 − y2}2 I[−1,1](y)

le noyau triangulaire [kernel=”triangular” ou ”t”]

K(y) = (1 + y)I[−1,0](y) + (1 − y)I[0,1](y)

Conclusion : Peu d’influence sur l’estimation de f (a l’exceptiondu noyau uniforme [kernel=”rectangular” ou ”r”]).




−4 −2 0 2 4 6

0.00

0.05

0.10

0.15

0.20

0.25

Noyau uniforme

−4 −2 0 2 4 6

0.00

0.05

0.10

0.15

0.20

0.25

Noyau triangulaire

−4 −2 0 2 4 6

0.00

0.05

0.10

0.15

0.20

0.25

Noyau normal

−4 −2 0 2 4 6

0.00

0.05

0.10

0.15

0.20

0.25

Noyau d’Epanechnikov

Variation des estimateurs du noyau en fonction du noyaupour un echantillon non-normal de 200 observations




Convergence vers f

Choix de la fenetre δ crucial, par contre !

Si δ grand, beaucoup de Xi contribuent a l’estimation de f(x)[Over-smoothing]




Convergence vers f

Choix de la fenetre δ crucial, par contre !

Si δ grand, beaucoup de Xi contribuent a l’estimation de f(x)[Over-smoothing]

Si δ petit, peu de Xi contribuent a l’estimation de f(x)[Under-smoothing]




−2 0 2 4

0.00

0.10

0.20

0.30

bandwith 0.5

−2 0 2 4

0.00

0.10

0.20

0.30

bandwith 1

−4 −2 0 2 4 6

0.00

0.05

0.10

0.15

0.20

0.25

bandwith 2.5

−6 −4 −2 0 2 4 6 8

0.00

0.05

0.10

0.15

0.20

bandwith 5

Variation de fn en fonction de δ pour un echantillonnon-normal de 200 observations




Fenetre optimale

En etudiant l’erreur moyenne integree

d(f, fn) = E

[∫{f(x) − fn(x)}2 dx

],

on peut trouver un choix optimal pour la fenetre δ, notee hn poursouligner sa dependence a n.




Fenetre optimale (bis)

De la decomposition

∫ {f(x) − E

[f(x)

]}2dx +

∫var{f(x)}dx ,

[Biais2+variance]et des approximations

f(x) − E

[f(x)

]≃ f ′′(x)

2h2

n

E

[exp{−(Xi − x)2/2h2

n}√2πhn

]≃ f(x) ,

[Exercice]




Fenetre optimale (ter)

on en deduit que le biais est de l’ordre de

∫ {f ′′(x)

2

}2

dx h4n

et que le terme de variance est approximativement

1

nhn

√2π

∫f(x) dx =

1

nhn

√2π

[Exercice]




Fenetre optimale (fin)

Par consequent, l’erreur tend vers 0 quand n tend vers ∞ si

1 hn tend vers 0 et

2 nhn tend vers l’infini.




Fenetre optimale (fin)

Par consequent, l’erreur tend vers 0 quand n tend vers ∞ si

1 hn tend vers 0 et

2 nhn tend vers l’infini.

La fenetre optimale est donnee par

h⋆n =

(√2π

∫ {f ′′(x)

}2dx n

)−1/5




Fenetre empirique

Comme la fenetre optimale depend de f inconnu, on utilise uneapproximation de la forme

hn =0.9 min(σ, q75 − q25)

(1.34n)1/5,

ou σ est l’ecart-type estime et q25 et q75 sont les quantiles a 25%et a 75% estimes.




Fenetre empirique


hn =0.9 min(σ, q75 − q25)

(1.34n)1/5,


Note : Les constantes 0.9 et 1.34 correspondent au noyau normal.




Fenetre empirique


hn =0.9 min(σ, q75 − q25)

(1.34n)1/5,


Note : Les constantes 0.9 et 1.34 correspondent au noyau normal.

Warning! Cette formule n’est pas celle utilisee par defaut dans R



Tests non-parametriques

La problematique des tests statistiques

Face a une question sur F , commeEst ce que F est egale a F0, connue ?




La problematique des tests statistiques

Face a une question sur F , commeEst ce que F est egale a F0, connue ?

la reponse statistique se fonde sur les donnees

X1, . . . , Xn ∼ F

pour decider si oui ou non la question [l’hypothese] estcompatible avec ces donnees.




La problematique des tests statistiques (bis)

Une procedure de test (ou test statistique) ϕ(x1, . . . , xn) est avaleurs dans {0, 1} (pour oui/non)






En prenant une decision sur la question sur F , on peut faire deuxerreurs :

1 refuser l’hypothese a tort (Type I)








2 accepter l’hypothese a tort (Type II)








2 accepter l’hypothese a tort (Type II)

Il faudrait donc balancer ces deux types d’erreur.




La problematique des tests statistiques (ter)

En pratique, on se concentre sur le type I et on decide de rejeterl’hypothese seulement si les donnees semblent significativementincompatibles avec cette hypothese.

0 1 2 3 4

0.0

0.1

0.2

0.3

0.4

Acceptation

Rejet

Accepter une hypothese apres un test signifie seulement queles donnees n’ont pas rejete cette hypothese !!!




Comparaison de distributions

Example (Deux distributions egales ?)

Soient deux echantillons X1, . . . , Xn et Y1, . . . , Ym, dedistributions respectives F et G, inconnues.Comment repondre a la question

F == G ?




Example (Comparaison de distributions (suite))

Idee :

Comparer les estimateurs de F et G,

Fn(x) =1

n

n∑

i=1

IXi≤x et Gm(x) =1

m

m∑

i=1

IYi≤x




Statistique de Kolmogorov–Smirnov

−4 −2 0 2 4 6

0.0

0.2

0.4

0.6

0.8

1.0

Meme distribution difference maximale 0.05

−4 −2 0 2 4 60.

00.

20.

40.

60.

81.

0

Deux distributions difference maximale 0.14

Evaluation via la difference

K(m, n) = maxx

∣∣∣Fn(x) − Gm(x)∣∣∣ = max

Xi,Yj

∣∣∣Fn(x) − Gm(x)∣∣∣




−4 −2 0 2 4 6

−0.0

20.

000.

020.

04

Meme distribution difference maximale 0.05

−4 −2 0 2 4 6

0.00

0.02

0.04

0.06

0.08

0.10

0.12

0.14

Deux distributions difference maximale 0.14

Evolution de la difference Fn(x)− Gm(x) pour deux situations




Statistique de Kolmogorov–Smirnov (suite)

Utilisation :

Si K(m, n) “grand”, les distributions F et G sontsignificativement differentes.





Utilisation :

Si K(m, n) “grand”, les distributions F et G sontsignificativement differentes.Si K(m, n) “petit”, on ne peut pas les distinguer au vu desechantillons X1, . . . , Xn et Y1, . . . , Ym, donc on “accepte” queF = G.

[Test de Kolmogorov–Smirnov]





Utilisation :

Si K(m, n) “grand”, les distributions F et G sontsignificativement differentes.Si K(m, n) “petit”, on ne peut pas les distinguer au vu desechantillons X1, . . . , Xn et Y1, . . . , Ym, donc on “accepte” queF = G.

[Test de Kolmogorov–Smirnov]

En R, ks.test(x,y)




Calibration du test

A m et n donnes, si F = G, K(m, n) a la meme distribution pourtout F .




Calibration du test

A m et n donnes, si F = G, K(m, n) a la meme distribution pourtout F .On peut se ramener a la comparaison de deux echantillonsuniformes et utiliser la simulation pour approcher la distribution deK(m, n) et ses quantiles.

m=200,n=200

0.05 0.10 0.15

05

1015 Valeur

observee

Quantile a 95%




Calibration du test (suite)

Si K(m, n) observe depasse le quantile de K(m, n) sous H0 a 90ou 95 %, la valeur est tres improbable

si F = G

et on rejette l’hypothese d’egalite des deux distributions.





Exemple de sortie R :Two-sample Kolmogorov-Smirnov testdata: z[, 1] and z[, 2]D = 0.05, p-value = 0.964alternative hypothesis: two.sided





Exemple de sortie R :Two-sample Kolmogorov-Smirnov testdata: z[, 1] and z[, 2]D = 0.05, p-value = 0.964alternative hypothesis: two.sidedp-value = 0.964 signifie que la probabilite que K(m, n) depasse lavaleur observee D = 0.05 est de 0.964, donc la valeur observee estpetite pour la distribution de K(m, n) : on accepte l’hypothesed’egalite.




Test d’independence

Example (Independence)

On cherche a tester l’independence entre deux v.a. X et Y enobservant les couples (X1, Y1), . . . , (Xn, Yn)




Test d’independence

Example (Independence)

On cherche a tester l’independence entre deux v.a. X et Y enobservant les couples (X1, Y1), . . . , (Xn, Yn)Question

X ⊥ Y ?




Test de rang

Idee :

Si on range les Xi par ordre croissant

X(1) ≤ . . . X(n)

les rangs Ri (ordres apres rangement) des Yi correspondants,

Y[1], . . . , Y[n],

doivent etre completement aleatoires.

En R, rank(y[order(x)])




Test de rang (suite)

Rang : On appelleR = (R1, . . . , Rn)

la statistique de rang de l’echantillon (Y[1], . . . Y[n])






la statistique de rang de l’echantillon (Y[1], . . . Y[n])La statistique de Spearman est

Sn =n∑

i=1

i Ri

[Correlation entre i et Ri]






la statistique de rang de l’echantillon (Y[1], . . . Y[n])La statistique de Spearman est

Sn =n∑

i=1

i Ri

[Correlation entre i et Ri]On montre que, si X ⊥ Y ,

E[Sn] =n(n + 1)2

4var(Sn) =

n2(n + 1)2(n − 1)

144




Statistique de Spearman

Distribution de Sn disponible par simulation [uniforme] ouapproximation normale

Distribution de S sur 500 echantillons de 200 points

−2 −1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

Version recentree de la statistique de Spearman etapproximation normale




Statistique de Spearman (suite)

On peut donc determiner les quantiles a 5% et 95% de Sn parsimulation et decider si la valeur observee de Sn est a l’interieur deces quantiles ( = on accepte l’independence) ou a l’exterieur ( =on rejette l’independence)




Tests multinomiaux

Example (Test du chi deux)

Une approche par histogramme permet d’apporter une reponserobuste aux problemes de test, comme par exemple a la question

L’echantillon X1, . . . , Xn est il normal N (0, 1) ?

Idee:

On remplace le probleme par sa forme discretisee a des intervalles[ai, ai+1]

Est ce que

P (Xi ∈ [ai, ai+1]) =

∫ ai+1

ai

exp(−x2/2)√2π

dxdef= pi ?




Principe

Modelisation multinomiale

On se ramene toujours a un probleme d’adequation a une loimultinomiale

Mk

(p01, . . . , p

0k

)

ou a une famille de lois multinomiales

Mk (p1(θ), . . . , pk(θ)) θ ∈ Θ




Exemples

Dans le cas de l’adequation a la loi normale standard,N (0, 1), k est determine par le nombre d’intervalles [ai, ai+1]et les p0

i par

p0i =

∫ ai+1

ai

exp(−x2/2)√2π

dx




Exemples

Dans le cas de l’adequation a la loi normale standard,N (0, 1), k est determine par le nombre d’intervalles [ai, ai+1]et les p0

i par

p0i =

∫ ai+1

ai

exp(−x2/2)√2π

dx

Dans le cas de l’adequation a une loi normale, N (θ, 1), lespi(θ) sont donnes par

pi(θ) =

∫ ai+1

ai

exp(−(x − θ)2/2)√2π

dx




Exemples (suite)

Dans le cas d’un test d’independence entre deux variables, Xet Y ,

X ⊥ Y ?

k est le nombre de cubes [ai, ai+1] × [bi, bi+1], θ est definicomme

θ1i = P (X ∈ [ai, ai+1]) θ2i = P (Y ∈ [bi, bi+1])

et

pi,j(θ)def= P (X ∈ [ai, ai+1], Y ∈ [bi, bi+1])

= θ1i × θ2j




Test du chi-deuxL’estimateur naturel des pi est

pi = P (X ∈ [ai, ai+1]) = Fn(ai+1) − Fn(ai)

[Cf. bootstrap]




Test du chi-deuxL’estimateur naturel des pi est

pi = P (X ∈ [ai, ai+1]) = Fn(ai+1) − Fn(ai)

[Cf. bootstrap]La statistique du chi-deux est

Sn = nk∑

i=1

(pi − p0i )

2

p0i

=

k∑

i=1

(ni − np0i )

2

np0i

si on teste l’adequation a une loi multinomiale

Mk

(p01, . . . , p

0k

)




Test du chi-deux (suite)

et

Sn = nk∑

i=1

(pi − pi(θ))2

pi(θ)

=k∑

i=1

(ni − npi(θ))2

npi(θ)

si on teste l’adequation a une famille de lois multinomiales

Mk (p1(θ), . . . , pk(θ)) θ ∈ Θ




Loi approchee

Pour l’adequation a une loi multinomiale, la loi de Sn estapproximativement (pour n grand)

Sn ∼ χ2k−1

et pour l’adequation a une famille de lois multinomiales, avecdim(θ) = p,

Sn ∼ χ2k−p−1




0 5 10 15 20

0.00

0.05

0.10

0.15

0.20

0.25

Distributions of Sn

Distribution de Sn pour 200 echantillons normaux de 100points et un test d’adequation a N (0, 1) avec k = 4




Utilisation et limitations

On rejette l’hypothese testee si Sn est trop grande pour une loiχ2

k−1 ou χ2k−p−1

[En R, pchisq(S)]




Utilisation et limitations

On rejette l’hypothese testee si Sn est trop grande pour une loiχ2

k−1 ou χ2k−p−1

[En R, pchisq(S)]La convergence (en n) vers une loi χ2

k−1 (ou χ2k−p−1) n’est etablie

que pour k et (ai) fixes. En pratique, on choisit k et (ai) enfonction des observations, ce qui diminue la validite del’approximation.




−4 −2 0 2 4

−2−1

01

23

Normal Q−Q Plot

Quantile normal

Quan

tile o

bser

ve

0 5000 10000 15000 200000

5010

015

020

0

n

S n

QQ-plot d’un echantillon non-normal et evolution de Sn enfonction de n pour cet echantillon

Education

NOISE: Statistiques exploratoires avec R