284
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Christian P. Robert Universit´ e Paris Dauphine http://www.ceremade.dauphine.fr/ ~ xian L3 MI2E, 2009–2010

NOISE: Statistiques exploratoires avec R

Embed Size (px)

DESCRIPTION

Slides of my R class at Université Paris Dauphine (in French)

Citation preview

Page 1: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Nouveaux outils informatiquespour la Statistique exploratoire

(=NOISE)

Christian P. Robert

Universite Paris Dauphinehttp://www.ceremade.dauphine.fr/~xian

L3 MI2E, 2009–2010

Page 2: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Outline

1 Simulation de variables aleatoires

2 Methodes de Monte Carlo

3 Methode du bootstrap

4 Statistique non–parametrique

Page 3: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Chapitre 1 :Simulation de variables aleatoires

IntroductionGenerateur pseudo-aleatoireDistributions non-uniformes (1)Distributions non-uniformes (2)

Page 4: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Introduction

Introduction

Besoin de “produire le hasard” par ordinateur

Evaluer le comportement d’un systeme complexe (programme,reseau, file d’attente, systeme de particules, atmosphere,epidemie, actions...)

Page 5: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Introduction

Introduction

Besoin de “produire le hasard” par ordinateur

Evaluer le comportement d’un systeme complexe (programme,reseau, file d’attente, systeme de particules, atmosphere,epidemie, actions...)

Determiner les proprietes probabilistes d’une procedurestatistique non-standard ou sous une loi inconnue [bootstrap]

Page 6: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Introduction

Introduction

Besoin de “produire le hasard” par ordinateur

Evaluer le comportement d’un systeme complexe (programme,reseau, file d’attente, systeme de particules, atmosphere,epidemie, actions...)

Determiner les proprietes probabilistes d’une procedurestatistique non-standard ou sous une loi inconnue [bootstrap]

Validation d’un modele probabiliste

Page 7: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Introduction

Introduction

Besoin de “produire le hasard” par ordinateur

Evaluer le comportement d’un systeme complexe (programme,reseau, file d’attente, systeme de particules, atmosphere,epidemie, actions...)

Determiner les proprietes probabilistes d’une procedurestatistique non-standard ou sous une loi inconnue [bootstrap]

Validation d’un modele probabiliste

Approcher une esperance/integrale sous une loi non-standard[loi des grands nombres]

Page 8: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Introduction

Introduction

Besoin de “produire le hasard” par ordinateur

Evaluer le comportement d’un systeme complexe (programme,reseau, file d’attente, systeme de particules, atmosphere,epidemie, actions...)

Determiner les proprietes probabilistes d’une procedurestatistique non-standard ou sous une loi inconnue [bootstrap]

Validation d’un modele probabiliste

Approcher une esperance/integrale sous une loi non-standard[loi des grands nombres]

Maximiser une fonction/vraisemblance faiblement reguliere

Page 9: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Introduction

Example (TCL pour la loi binomiale)

SiXn ∼ B(n, p) ,

Xn converge en loi vers la loi normale :

√n (Xn − p)

n→∞ N

(0,

p(1 − p)

n

)

Page 10: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Introduction

n= 4

0.0 0.2 0.4 0.6 0.8 1.0

010

2030

n= 8

0.0 0.2 0.4 0.6 0.8 1.0

05

1015

2025

n= 16

0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

05

1015

20

n= 32

0.2 0.3 0.4 0.5 0.6 0.7 0.8

02

46

810

14

n= 64

0.3 0.4 0.5 0.6

05

1015

2025

n= 128

0.35 0.40 0.45 0.50 0.55 0.60 0.65

05

1015

n= 256

0.40 0.45 0.50 0.55 0.60

05

1020

30

n= 512

0.44 0.46 0.48 0.50 0.52 0.54 0.56 0.58

05

1015

2025

n= 1024

0.46 0.48 0.50 0.52 0.54

010

2030

4050

Page 11: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Introduction

Example (Minimisation aleatoire)

On considere la fonction

h(x, y) = (x sin(20y) + y sin(20x))2 cosh(sin(10x)x)

+ (x cos(10y) − y sin(10x))2 cosh(cos(20y)y) ,

a minimiser.

Page 12: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Introduction

Example (Minimisation aleatoire)

On considere la fonction

h(x, y) = (x sin(20y) + y sin(20x))2 cosh(sin(10x)x)

+ (x cos(10y) − y sin(10x))2 cosh(cos(20y)y) ,

a minimiser. (On sait que le minimum global vaut 0 en(x, y) = (0, 0).)

Page 13: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Introduction

-1

-0.5

0

0.5

1

X

-1

-0.5

0

0.5

1

Y

01

23

45

6Z

Page 14: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Introduction

Example (Minimisation aleatoire (2))

Au lieu de chercher a resoudre les equations du premier ordre

∂h(x, y)

∂x= 0 ,

∂h(x, y)

∂y= 0

et a verifier les conditions du second ordre, on peut generer la suitealeatoire dans R2

θj+1 = θj +αj

2βj∆h(θj , βjζj) ζj

Page 15: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Introduction

Example (Minimisation aleatoire (2))

Au lieu de chercher a resoudre les equations du premier ordre

∂h(x, y)

∂x= 0 ,

∂h(x, y)

∂y= 0

et a verifier les conditions du second ordre, on peut generer la suitealeatoire dans R2

θj+1 = θj +αj

2βj∆h(θj , βjζj) ζj

ou

⋄ les ζj sont uniformes sur le cercle unite x2 + y2 = 1;

⋄ ∆h(θ, ζ) = h(θ + ζ) − h(θ − ζ);

⋄ (αj) et (βj) tendent vers 0

Page 16: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Introduction

-0.2 0.0 0.2 0.4 0.6

0.2

0.4

0.6

0.8

Cas ou αj = 1/10 log(1 + j) et βj = 1/j

Page 17: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Introduction

Probleme du voyageur de commerce

Probleme classique d’allocation:

Representant devant visiterun ensemble de n villes

Page 18: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Introduction

Probleme du voyageur de commerce

Probleme classique d’allocation:

Representant devant visiterun ensemble de n villes

Couts de voyages entre deuxvilles fixes [et differents]

Page 19: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Introduction

Probleme du voyageur de commerce

Probleme classique d’allocation:

Representant devant visiterun ensemble de n villes

Couts de voyages entre deuxvilles fixes [et differents]

Recherche du cout globalminimum

Page 20: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Introduction

Probleme du voyageur de commerce

Probleme classique d’allocation:

Representant devant visiterun ensemble de n villes

Couts de voyages entre deuxvilles fixes [et differents]

Recherche du cout globalminimum

Page 21: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Introduction

Probleme NP-complet

Probleme du voyageur decommerce representatif deproblemes mathematiquesdurs a temps de resolutionexplosifs

Page 22: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Introduction

Probleme NP-complet

Probleme du voyageur decommerce representatif deproblemes mathematiquesdurs a temps de resolutionexplosifsNombre de chemins possiblesn! et solutions exactesdisponibles en temps O(2n)

Page 23: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Introduction

Probleme NP-complet

Probleme du voyageur decommerce representatif deproblemes mathematiquesdurs a temps de resolutionexplosifsNombre de chemins possiblesn! et solutions exactesdisponibles en temps O(2n)Probleme a nombreusesapplications (reseaux,conception de circuitsimprimes, sequencage degenome, etc.) Concours Procter & Gamble

1962

Page 24: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Introduction

Probleme toujours ouvert

Solution exacte pour 15, 112villes allemandes trouvee en 2001en 22.6 annees CPU.

Page 25: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Introduction

Probleme toujours ouvert

Solution exacte pour 15, 112villes allemandes trouvee en 2001en 22.6 annees CPU.

Resolution pour les 24, 978 villessuedoises en 2004 en 84.8 anneesCPU

Page 26: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Introduction

Resolution par simulation

Algorithme du recuit simule:Repeter

Modifications aleatoires de parties du circuit de cout C0

Page 27: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Introduction

Resolution par simulation

Algorithme du recuit simule:Repeter

Modifications aleatoires de parties du circuit de cout C0

Evaluation du cout C du nouveau circuit

Page 28: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Introduction

Resolution par simulation

Algorithme du recuit simule:Repeter

Modifications aleatoires de parties du circuit de cout C0

Evaluation du cout C du nouveau circuit

Acceptation du nouveau circuit avec probabilite

exp

{C0 − C

T

}∧ 1

Page 29: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Introduction

Resolution par simulation

Algorithme du recuit simule:Repeter

Modifications aleatoires de parties du circuit de cout C0

Evaluation du cout C du nouveau circuit

Acceptation du nouveau circuit avec probabilite

exp

{C0 − C

T

}∧ 1

T , temperature, est reduite progressivement.[Metropolis, 1953]

Page 30: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Introduction

Illustration

Example (400 villes)

T = 1.2

Page 31: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Introduction

Illustration

Example (400 villes)

T = 0.8

Page 32: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Introduction

Illustration

Example (400 villes)

T = 0.4

Page 33: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Introduction

Illustration

Example (400 villes)

T = 0.0

Page 34: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Introduction

Pricing d’options

Calcul complexe d’esperances/valeurs moyennes d’options, E[CT ],necessaire pour evaluer le prix d’achat (1 + r)−T E[CT ]

Page 35: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Introduction

Pricing d’options

Calcul complexe d’esperances/valeurs moyennes d’options, E[CT ],necessaire pour evaluer le prix d’achat (1 + r)−T E[CT ]

Example (Options europeennes)

Cas ouCT = (ST − K)+

avec

ST = S0 × Y1 × · · · × YT , Pr(Yi = u) = 1 − Pr(Yi = d) = p .

Page 36: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Introduction

Pricing d’options

Calcul complexe d’esperances/valeurs moyennes d’options, E[CT ],necessaire pour evaluer le prix d’achat (1 + r)−T E[CT ]

Example (Options europeennes)

Cas ouCT = (ST − K)+

avec

ST = S0 × Y1 × · · · × YT , Pr(Yi = u) = 1 − Pr(Yi = d) = p .

Resolution par simulation des binomiales Yi

Page 37: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Introduction

Pricing d’options (suite)

Example (Options asiatiques)

Modele en temps continu ou

CT =

(1

T

∫ T

0S(t)dt − K

)+

≈(

1

T

T∑

n=1

S(n) − K

)+

,

avec

S(n + 1) = S(n) × exp {∆X(n + 1)} , ∆X(n)iid∼ N (0, σ2) .

Page 38: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Introduction

Pricing d’options (suite)

Example (Options asiatiques)

Modele en temps continu ou

CT =

(1

T

∫ T

0S(t)dt − K

)+

≈(

1

T

T∑

n=1

S(n) − K

)+

,

avec

S(n + 1) = S(n) × exp {∆X(n + 1)} , ∆X(n)iid∼ N (0, σ2) .

Resolution par simulation des normales ∆Xi

Page 39: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Generateur pseudo-aleatoire

Generateur pseudo-aleatoireElement central des methodes de simulation : elles reposent toutessur la transformation de variables uniformes U (0, 1)

Page 40: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Generateur pseudo-aleatoire

Generateur pseudo-aleatoireElement central des methodes de simulation : elles reposent toutessur la transformation de variables uniformes U (0, 1)

Definition (Generateur pseudo-aleatoire)

Un generateur pseudo-aleatoire est une transformationdeterministe Ψ de ]0, 1[ dans ]0, 1[ telle que, pour toute valeurinitiale u0 et tout n, la suite

{u0, Ψ(u0), Ψ(Ψ(u0)), . . . ,Ψn(u0)}

a le meme comportement statistique qu’une suite iid U (0, 1)

Page 41: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Generateur pseudo-aleatoire

Generateur pseudo-aleatoireElement central des methodes de simulation : elles reposent toutessur la transformation de variables uniformes U (0, 1)

Definition (Generateur pseudo-aleatoire)

Un generateur pseudo-aleatoire est une transformationdeterministe Ψ de ]0, 1[ dans ]0, 1[ telle que, pour toute valeurinitiale u0 et tout n, la suite

{u0, Ψ(u0), Ψ(Ψ(u0)), . . . ,Ψn(u0)}

a le meme comportement statistique qu’une suite iid U (0, 1)

¡Paradoxe!

Sans appel au “hasard”, la suite deterministe(u0, u1 = Ψ(u0), . . . , un = Ψ(un−1))doit ressembler a une suite aleatoire

Page 42: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Generateur pseudo-aleatoire

En R, appel a la procedure

runif( )

Description:‘runif’ generates random deviates.Example:u = runif(20)‘Random.seed’ is an integer vector, containing the random numbergenerator (RNG) state for random number generation in R. It canbe saved and restored, but should not be altered by the user.

Page 43: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Generateur pseudo-aleatoire

500 520 540 560 580 600

0.0

0.2

0.4

0.6

0.8

1.0

uniform sample

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.5

1.0

1.5

Page 44: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Generateur pseudo-aleatoire

En C, appel a la procedure

rand() / random()

SYNOPSIS# include <stdlib.h>long int random(void);DESCRIPTIONThe random() function uses a non-linear additive feedback randomnumber generator employing a default table of size 31 longintegers to return successive pseudo-random numbers in the rangefrom 0 to RAND MAX. The period of this random generator isvery large, approximately 16*((2**31)-1).RETURN VALUErandom() returns a value between 0 and RAND MAX.

Page 45: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Generateur pseudo-aleatoire

En Scilab, appel a la procedure

rand()

rand() : with no arguments gives a scalar whose value changeseach time it is referenced. By default, random numbers areuniformly distributed in the interval (0,1). rand(’normal’) switchesto a normal distribution with mean 0 and variance 1.rand(’uniform’) switches back to the uniform distributionEXAMPLEx=rand(10,10,’uniform’)

Page 46: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Generateur pseudo-aleatoire

Example (Generateur usuel)

Le generateur congruenciel

D(x) = (ax + b) mod (M + 1).

est de periode M pour les bons choix de (a, b) et se transforme engenerateur sur ]0, 1[ par division par M + 2.

v = u*69069069 (1)

0.0 0.2 0.4 0.6 0.8 1.0

0.00.2

0.40.6

0.81.0

1.2

0.0 0.2 0.4 0.6 0.8 1.0

0.00.2

0.40.6

0.81.0

t

t+1

0.0 0.2 0.4 0.6 0.8 1.0

0.00.2

0.40.6

0.81.0

t

t+5

0.0 0.2 0.4 0.6 0.8 1.0

0.00.2

0.40.6

0.81.0

t

t+10

Page 47: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Generateur pseudo-aleatoire

Conclusion :

Utiliser la fonction appropriee sur l’ordinateur ou le logiciel enservice plutot que de construire un generateur aleatoire demauvaise qualite

Page 48: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (1)

Autres distributions que la loi uniforme (1)

Probleme regle en principe puisque

Page 49: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (1)

Autres distributions que la loi uniforme (1)

Probleme regle en principe puisque

Theorem (Inversion generique)

Si U est une variable aleatoire uniforme sur [0, 1) et FX est lafonction de repartition de la variable X, F−1

X (U) a meme loi que X

Page 50: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (1)

Autres distributions que la loi uniforme (1)

Probleme regle en principe puisque

Theorem (Inversion generique)

Si U est une variable aleatoire uniforme sur [0, 1) et FX est lafonction de repartition de la variable X, F−1

X (U) a meme loi que X

Preuve. On a

P (F−1X (U) ≤ x) = P (U ≤ FX(x)) = FX(x)

Page 51: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (1)

Autres distributions que la loi uniforme (1)

Probleme regle en principe puisque

Theorem (Inversion generique)

Si U est une variable aleatoire uniforme sur [0, 1) et FX est lafonction de repartition de la variable X, F−1

X (U) a meme loi que X

Preuve. On a

P (F−1X (U) ≤ x) = P (U ≤ FX(x)) = FX(x)

Note. Si FX n’est pas strictement croissante, on prend

F−1X (u) = inf {x; FX(x) ≥ u}

Page 52: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (1)

Applications...

Loi binomiale, B(n, p),

FX(x) =∑

i≤x

(n

i

)pi(1 − p)n−i

et F−1X (u) s’obtient numeriquement

Page 53: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (1)

Applications...

Loi binomiale, B(n, p),

FX(x) =∑

i≤x

(n

i

)pi(1 − p)n−i

et F−1X (u) s’obtient numeriquement

Loi exponentielle, E xp(λ),

FX(x) = 1 − exp(λx) et F−1X (u) = − log(u)/λ

Page 54: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (1)

Applications...

Loi binomiale, B(n, p),

FX(x) =∑

i≤x

(n

i

)pi(1 − p)n−i

et F−1X (u) s’obtient numeriquement

Loi exponentielle, E xp(λ),

FX(x) = 1 − exp(λx) et F−1X (u) = − log(u)/λ

Loi de Cauchy, C (0, 1),

FX(x) =1

πarctan(x)+

1

2et F−1

X (u) = tan(π(u−1/2))

Page 55: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (1)

Autres transformations...

[Indice]

Trouver des transformations reliant la loi d’interet et des lois plussimples/mieux connues

Page 56: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (1)

Autres transformations...

[Indice]

Trouver des transformations reliant la loi d’interet et des lois plussimples/mieux connues

Example (Transformation de Box-Muller)

Pour la loi normale N (0, 1), si X1, X2i.i.d.∼ N (0, 1),

X21 + X2

2 ∼ χ22, arctan(X1/X2) ∼ U ([0, 2π])

[Jacobien]Comme χ2

2 est identique a E xp(1/2), il vient par inversion

X1 =√−2 log(U1) sin(2πU2) X2 =

√−2 log(U1) cos(2πU2)

Page 57: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (1)

Example

Les lois de Student et de Fisher se deduisent naturellement de laloi normale et de la loi du chi-deux.

Page 58: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (1)

Example

Les lois de Student et de Fisher se deduisent naturellement de laloi normale et de la loi du chi-deux.

Example

La loi de Cauchy se deduit de la loi normale par : si

X1, X2i.i.d.∼ N (0, 1), X1/X2 ∼ C (0, 1)

Page 59: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (1)

Example

La loi Beta B(α, β), de densite

fX(x) =Γ(α + β)

Γ(α)Γ(β)xα−1(1 − x)β−1 ,

s’obtient a partir de la loi gamma par: si X1 ∼ G a(α, 1),X2 ∼ G a(β, 1), alors

X1

X1 + X2∼ B(α, β)

Page 60: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (1)

Lois multidimensionnelles

Soit a generer dans Rp

(X1, . . . , Xp) ∼ f(x1, . . . , xp)

dont les composantes ne sont pas necessairement independantes

Cascade rule

f(x1, . . . , xp) = f1(x1) × f2|1(x2|x1) . . . × fp|−p(xp|x1, . . . , xp−1)

Page 61: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (1)

Implementation

Simuler pour t = 1, . . . , T

1 X1 ∼ f1(x1)

2 X2 ∼ f2|1(x2|x1)

...

p. Xp ∼ fp|−p(xp|x1, . . . , xp−1)

Page 62: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (2)

Autres distributions que la loi uniforme (2)

F−1X rarement disponible

Page 63: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (2)

Autres distributions que la loi uniforme (2)

F−1X rarement disponible

algorithme resident sur machine seulement pour lois usuelles

Page 64: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (2)

Autres distributions que la loi uniforme (2)

F−1X rarement disponible

algorithme resident sur machine seulement pour lois usuelles

lemme d’inversion ne s’applique qu’en dimension 1

Page 65: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (2)

Autres distributions que la loi uniforme (2)

F−1X rarement disponible

algorithme resident sur machine seulement pour lois usuelles

lemme d’inversion ne s’applique qu’en dimension 1

nouvelle distribution demandant resolution rapide

Page 66: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (2)

Methode d’acceptation–rejet

Distribution de densite f a simuler

Page 67: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (2)

Methode d’acceptation–rejet

Distribution de densite f a simuler

Theorem (fondamental de la simulation)

La loi uniforme sur le sous-graphe

Sf = {(x, u); 0 ≤ u ≤ f(x)}

a comme loi marginale en x la loide densite f .

0 2 4 6 8 100.0

00.0

50.1

00.1

50.2

00.2

5

x

f(x)

Page 68: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (2)

Raison :

Loi marginale donnee par

∫ ∞

0I0≤u≤f(x)du = f(x)

et independance a la constante de normalisation

Page 69: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (2)

Raison :

Loi marginale donnee par

∫ ∞

0I0≤u≤f(x)du = f(x)

et independance a la constante de normalisation

Example

Pour une loi normale, il “suffit” de simuler (u, x) au hasard dans

{(u, x); 0 ≤ u ≤ exp(−x2/2)}

Page 70: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (2)

Algorithme d’acceptation-rejet

1 Trouver une densite g simulable telle que

supx

f(x)

g(x)= M < ∞

Page 71: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (2)

Algorithme d’acceptation-rejet

1 Trouver une densite g simulable telle que

supx

f(x)

g(x)= M < ∞

2 Generer

Y1, Y2, . . .i.i.d.∼ g , U1, U2, . . .

i.i.d.∼ U ([0, 1])

Page 72: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (2)

Algorithme d’acceptation-rejet

1 Trouver une densite g simulable telle que

supx

f(x)

g(x)= M < ∞

2 Generer

Y1, Y2, . . .i.i.d.∼ g , U1, U2, . . .

i.i.d.∼ U ([0, 1])

3 Prendre X = Yk ou

k = inf{n ; Un ≤ f(Yn)/Mg(Yn)}

Page 73: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (2)

Theorem (Acceptation–rejet)

La variable produite par la regle d’arret ci-dessous est distribueesuivant la loi fX

Page 74: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (2)

Theorem (Acceptation–rejet)

La variable produite par la regle d’arret ci-dessous est distribueesuivant la loi fX

Preuve (1) : On a

P (X ≤ x) =∞∑

k=1

P (X = Yk , Yk ≤ x)

=∞∑

k=1

(1 − 1

M

)k−1

P (Uk ≤ f(Yk)/Mg(Yk) , Yk ≤ x)

=∞∑

k=1

(1 − 1

M

)k−1 ∫ x

−∞

∫ f(y)/Mg(y)

0du g(y)dy

=∞∑

k=1

(1 − 1

M

)k−1 1

M

∫ x

−∞f(y)dy

Page 75: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (2)

Preuve (2)

Si (X, U) est uniforme surA ⊃ B, la distribution de (X, U)retreinte a B est uniforme sur B.

−4 −2 0 2 4

01

23

45

Page 76: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (2)

Proprietes

Fonctionne sans constante de normalisation

Page 77: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (2)

Proprietes

Fonctionne sans constante de normalisation

Ne necessite pas une borne exacte M

Page 78: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (2)

Proprietes

Fonctionne sans constante de normalisation

Ne necessite pas une borne exacte M

Autorise le recyclage des Yk pour une autre loi f (les Yk

refuses ne sont plus de loi g)

Page 79: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (2)

Proprietes

Fonctionne sans constante de normalisation

Ne necessite pas une borne exacte M

Autorise le recyclage des Yk pour une autre loi f (les Yk

refuses ne sont plus de loi g)

Demande en moyenne M va Yk pour un X (mesured’efficacite)

Page 80: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (2)

Example

Soit f(x) = exp(−x2/2) et g(x) = 1/(1 + x2)

f(x)

g(x)= (1 + x2) e−x2/2 ≤ 2/

√e

Probabilite d’acceptation√

e/2π = 0.66

Page 81: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (2)

Theorem (Enveloppe)

S’il existe une densite gm, une fonction gl et une constante Mtelles que

gl(x) ≤ f(x) ≤ Mgm(x) ,

alors

1 Generer X ∼ gm(x), U ∼ U[0,1];

2 Accepter X si U ≤ gl(X)/Mgm(X);

3 sinon, accepter X si U ≤ f(X)/Mgm(X)

donne des variables aleatoires suivant la loi f .

Page 82: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (2)

Algorithme du rapport d’uniformesSlice sampler

Resultat :

Simulation uniforme sur

{(u, v); 0 ≤ u ≤√

2f(v/u)}

produitX = V/U ∼ f

Page 83: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (2)

Algorithme du rapport d’uniformesSlice sampler

Resultat :

Simulation uniforme sur

{(u, v); 0 ≤ u ≤√

2f(v/u)}

produitX = V/U ∼ f

Raison :

Changement de variable (u, v) → (x, u) de Jacobien u et loimarginale de x donnee par

x ∼∫ √

2f(x)

0u du =

√2f(x)

2

2= f(x)

Page 84: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (2)

Example

Pour une loi normale, simuler(u, v) au hasard dans

0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4

0.0

0.2

0.4

0.6

u

v

{(u, v); 0 ≤ u ≤√

2 e−v2/4u2} = {(u, v); v2 ≤ −4 u2 log(u/√

2)}

Page 85: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Chapitre 2 :Methodes de Monte Carlo

IntroductionIntegration par la methode de Monte CarloFonctions d’importanceMethodes d’acceleration

Page 86: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Introduction

Utilisations de la simulation

1 integration

I = Ef [h(X)] =

∫h(x)f(x)dx

Page 87: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Introduction

Utilisations de la simulation

1 integration

I = Ef [h(X)] =

∫h(x)f(x)dx

2 comportement limite/stationnaire de systemes complexes

Page 88: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Introduction

Utilisations de la simulation

1 integration

I = Ef [h(X)] =

∫h(x)f(x)dx

2 comportement limite/stationnaire de systemes complexes

3 optimisation

arg minx

h(x) = arg maxx

exp{−βh(x)} β > 0

Page 89: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Introduction

Example (Propagation d’une epidemie)

Sur un territoire quadrille, on represente par x, y les coordonneesd’un point.

Page 90: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Introduction

Example (Propagation d’une epidemie)

Sur un territoire quadrille, on represente par x, y les coordonneesd’un point.La probabilite d’attraper la maladie est

Px,y =exp(α + β · nx,y)

1 + exp(α + β · nx,y)Inx,y>0

si nx,y denote le nombre de voisins de (x, y) ayant deja cettemaladie.

Page 91: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Introduction

Example (Propagation d’une epidemie)

Sur un territoire quadrille, on represente par x, y les coordonneesd’un point.La probabilite d’attraper la maladie est

Px,y =exp(α + β · nx,y)

1 + exp(α + β · nx,y)Inx,y>0

si nx,y denote le nombre de voisins de (x, y) ayant deja cettemaladie.La probabilite de guerir de la maladie est

Qx,y =exp(δ + γ · nx,y)

1 + exp(δ + γ · nx,y)

Page 92: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Introduction

Example (Propagation d’une epidemie (2))

Question

En fonction de (α, β, γ, δ), quelle est la vitesse de propagation decette epidemie ? la duree moyenne ? le nombre de personnesinfectees ?

Page 93: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Integration par la methode de Monte Carlo

Integration par Monte Carlo

Loi des grands nombres

Si X1, . . . , Xn simules suivant f ,

In =1

n

n∑

i=1

h(Xi) −→ I

Page 94: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Integration par la methode de Monte Carlo

Theoreme Central Limit

Evaluation de l’erreur par

σ2n =

1

n2

n∑

i=1

(h(Xi) − I)2

etIn ≈ N (I, σ2

n)

Page 95: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Integration par la methode de Monte Carlo

Example (Normale)

Pour une loi normale, E[X4] = 3. Par la methode de Monte Carlo,n 5 50 500 5000 50,000 500,000

In 1.65 5.69 3.24 3.13 3.038 3.029

5 10 50 100 500 1000 5000 10000 50000

0.00.5

1.01.5

2.02.5

3.0

n

In

Page 96: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Integration par la methode de Monte Carlo

Example (Cauchy / Normale)

On considere le modele joint

X|θ ∼ N (θ, 1), θ ∼ C(0, 1)

Apres observation de X, on estime θ par

δπ(x) =

∫ ∞

−∞

θ

1 + θ2e−(x−θ)2/2dθ

∫ ∞

−∞

1

1 + θ2e−(x−θ)2/2dθ

Page 97: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Integration par la methode de Monte Carlo

Example (Cauchy / Normale (2))

Cette forme δπ suggere de simuler des variables iid

θ1, · · · , θm ∼ N (x, 1)

et de calculer

δπm(x) =

∑mi=1

θi

1 + θ2i

∑mi=1

1

1 + θ2i

.

Page 98: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Integration par la methode de Monte Carlo

Example (Cauchy / Normale (2))

Cette forme δπ suggere de simuler des variables iid

θ1, · · · , θm ∼ N (x, 1)

et de calculer

δπm(x) =

∑mi=1

θi

1 + θ2i

∑mi=1

1

1 + θ2i

.

Par la Loi des Grands Nombres,

δπm(x) −→ δπ(x) quand m −→ ∞.

Page 99: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Integration par la methode de Monte Carlo

Example (FdR normale)

Approximation de la fonction de repartition de la loi normale

Φ(t) =

∫ t

−∞

1√2π

e−y2/2dy

par

Φ(t) =1

n

n∑

i=1

IXi≤t,

ayant genere un echantillon de taille n, (X1, . . . , Xn), vial’algorithme de Box-Muller.

Page 100: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Integration par la methode de Monte Carlo

Example (FdR normale (2))

• VarianceΦ(t)(1 − Φ(t))/n,

car les variables IXi≤t sont iid Bernoulli(Φ(t)).

Page 101: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Integration par la methode de Monte Carlo

Example (FdR normale (2))

• VarianceΦ(t)(1 − Φ(t))/n,

car les variables IXi≤t sont iid Bernoulli(Φ(t)).

• Pour t pres de t = 0 la variance vaut approximativement 1/4n:une precision de quatre decimales demande en moyenne

√n =

√2 104

simulations, donc, 200 millions d’iterations.

Page 102: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Integration par la methode de Monte Carlo

Example (FdR normale (2))

• VarianceΦ(t)(1 − Φ(t))/n,

car les variables IXi≤t sont iid Bernoulli(Φ(t)).

• Pour t pres de t = 0 la variance vaut approximativement 1/4n:une precision de quatre decimales demande en moyenne

√n =

√2 104

simulations, donc, 200 millions d’iterations.

• Plus grande precision [absolue] dans les queues

Page 103: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Integration par la methode de Monte Carlo

Example (FdR normale (3))

n 0.0 0.67 0.84 1.28 1.65 2.32 2.58 3.09 3.72

102

0.485 0.74 0.77 0.9 0.945 0.985 0.995 1 1

103

0.4925 0.7455 0.801 0.902 0.9425 0.9885 0.9955 0.9985 1

104

0.4962 0.7425 0.7941 0.9 0.9498 0.9896 0.995 0.999 0.9999

105

0.4995 0.7489 0.7993 0.9003 0.9498 0.9898 0.995 0.9989 0.9999

106

0.5001 0.7497 0.8 0.9002 0.9502 0.99 0.995 0.999 0.9999

107

0.5002 0.7499 0.8 0.9001 0.9501 0.99 0.995 0.999 0.9999

108

0.5 0.75 0.8 0.9 0.95 0.99 0.995 0.999 0.9999

Evaluation de quantiles normaux par Monte Carlo fondee surn generations normales.

Page 104: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Fonctions d’importance

Fonctions d’importance

Representation alternative :

I =

∫h(x)f(x)dx =

∫h(x)

f(x)

g(x)g(x)dx

Page 105: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Fonctions d’importance

Fonctions d’importance

Representation alternative :

I =

∫h(x)f(x)dx =

∫h(x)

f(x)

g(x)g(x)dx

Donc, si Y1, . . . , Yn simules suivant g,

In =1

n

n∑

i=1

h(Yi)f(Yi)

g(Yi)−→ I

Page 106: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Fonctions d’importance

Interet

Fonctionne pour tout choix de g tel que

supp(g) ⊃ supp(f)

Page 107: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Fonctions d’importance

Interet

Fonctionne pour tout choix de g tel que

supp(g) ⊃ supp(f)

Amelioration possible de la variance

Page 108: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Fonctions d’importance

Interet

Fonctionne pour tout choix de g tel que

supp(g) ⊃ supp(f)

Amelioration possible de la variance

Recyclage de simulations Yi ∼ g pour d’autres densites f

Page 109: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Fonctions d’importance

Interet

Fonctionne pour tout choix de g tel que

supp(g) ⊃ supp(f)

Amelioration possible de la variance

Recyclage de simulations Yi ∼ g pour d’autres densites f

Utilisation de lois simples g

Page 110: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Fonctions d’importance

Example (Normale)

Pour la loi normale et l’approximation de E[X4],

∫ ∞

−∞x4e−x2/2dx

[y=x2]= 2

∫ ∞

0y3/2 1

2e−y/2dy

suggere d’utiliser g(y) = exp(−y/2)/2n 5 50 500 5000 50000

In 3.29 2.89 3.032 2.97 3.041

5 10 50 100 500 1000 5000 10000 50000

−0.1

0.00.1

0.20.3

0.40.5

n

In

Page 111: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Fonctions d’importance

Choix de la fonction d’importance

La “bonne” fonction g depend de la densite f et de la fonction h

Page 112: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Fonctions d’importance

Choix de la fonction d’importance

La “bonne” fonction g depend de la densite f et de la fonction h

Theorem (Importance optimale)

Le choix de g minimisant la variance de In est

g⋆(x) =|h(x)|f(x)

I

Page 113: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Fonctions d’importance

Remarques

Variance finie seulement si

Ef

[h2(X)

f(X)

g(X)

]=

Xh2(x)

f(X)

g(X)dx < ∞ .

Page 114: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Fonctions d’importance

Remarques

Variance finie seulement si

Ef

[h2(X)

f(X)

g(X)

]=

Xh2(x)

f(X)

g(X)dx < ∞ .

Variance nulle pour g⋆ si h positive (!!)

Page 115: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Fonctions d’importance

Remarques

Variance finie seulement si

Ef

[h2(X)

f(X)

g(X)

]=

Xh2(x)

f(X)

g(X)dx < ∞ .

Variance nulle pour g⋆ si h positive (!!)

g⋆ depend de I que l’on cherche a estimer (??)

Page 116: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Fonctions d’importance

Remarques

Variance finie seulement si

Ef

[h2(X)

f(X)

g(X)

]=

Xh2(x)

f(X)

g(X)dx < ∞ .

Variance nulle pour g⋆ si h positive (!!)

g⋆ depend de I que l’on cherche a estimer (??)

Remplacement de In par moyenne harmonique

In =

∑ni=1 h(yi)/|h(yi)|∑n

i=1 1/|h(yi)|

(numerateur et denominateur sont convergents)souvent mauvais (variance infinie)

Page 117: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Fonctions d’importance

Example (Normale)

Pour la loi normale et l’approximation de E[X4],g⋆(x) ∝ x4 exp(−x2/2), loi de la racine d’une G a(5/2, 1/2)

[Exercice]

n 5 50 500 5,000 50,000 500,000

In 4.877 2.566 2.776 2.317 2.897 3.160

1e+01 1e+02 1e+03 1e+04 1e+05

−10

12

n

In

Page 118: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Fonctions d’importance

Example (Loi de Student)

X ∼ T (ν, θ, σ2), de densite

f(x) =Γ((ν + 1)/2)

σ√

νπ Γ(ν/2)

(1 +

(x − θ)2

νσ2

)−(ν+1)/2

.

Soient θ = 0, σ = 1 et

I =

∫ ∞

2.1x5f(x)dx.

a calculer

Page 119: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Fonctions d’importance

Example (Loi de Student (2))

• Choix de fonctionsd’importance

◦ f , car f = N (0,1)√χ2

ν/ν

◦ Cauchy C(0, 1)◦ Normale N (0, 1)◦ U ([0, 1/2.1])

Page 120: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Fonctions d’importance

Example (Loi de Student (2))

• Choix de fonctionsd’importance

◦ f , car f = N (0,1)√χ2

ν/ν

◦ Cauchy C(0, 1)◦ Normale N (0, 1)◦ U ([0, 1/2.1])

Resultats:

◦ Uniforme optimale

◦ Cauchy OK

◦ f et Normale mauvaises

Page 121: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Fonctions d’importance

Example (Loi de Student (2))

• Choix de fonctionsd’importance

◦ f , car f = N (0,1)√χ2

ν/ν

◦ Cauchy C(0, 1)◦ Normale N (0, 1)◦ U ([0, 1/2.1])

Resultats:

◦ Uniforme optimale

◦ Cauchy OK

◦ f et Normale mauvaises

0 10000 20000 30000 40000 50000

5.05.5

6.06.5

7.0

0 10000 20000 30000 40000 50000

5.05.5

6.06.5

7.0

0 10000 20000 30000 40000 50000

5.05.5

6.06.5

7.0

0 10000 20000 30000 40000 50000

5.05.5

6.06.5

7.0

Page 122: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Methodes d’acceleration

Simulations correlees

La correlation negative...

Deux echantillons (X1, . . . , Xm) et (Y1, . . . , Ym) suivant f pourestimer

I =

R

h(x)f(x)dx .

Soient

I1 =1

m

m∑

i=1

h(Xi) et I2 =1

m

m∑

i=1

h(Yi)

de moyenne I et variance σ2

Page 123: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Methodes d’acceleration

Simulations correlees (2)

...reduit la variance

La variance de la moyenne vaut

var

(I1 + I2

2

)=

σ2

2+

1

2cov(I1, I2).

Page 124: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Methodes d’acceleration

Simulations correlees (2)

...reduit la variance

La variance de la moyenne vaut

var

(I1 + I2

2

)=

σ2

2+

1

2cov(I1, I2).

Par consequent, si les deux echantillons sont negativementcorreles,

cov(I1, I2) ≤ 0 ,

ils font mieux que deux echantillons independants de meme taille

Page 125: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Methodes d’acceleration

Variables antithetiques

Construction de variables negativement correlees

1 Si f symetrique autour de µ, prendre Yi = 2µ − Xi

2 Si Xi = F−1(Ui), prendre Yi = F−1(1 − Ui)

3 Si (Ai)i est une partition de X , echantillonnage partitionne enprenant des Xj dans chaque Ai (necessite de connaıtrePr(Ai))

Page 126: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Methodes d’acceleration

Variables de controle

Soit

I =

∫h(x)f(x)dx

a evaluer et

I0 =

∫h0(x)f(x)dx

connueOn estime quand meme I0 par I0 (et I par I)

Page 127: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Methodes d’acceleration

Variables de controle (2)

Estimateur combine

I∗ = I + β(I0 − I0)

I∗ est sans biais pour I et

var(I∗) = var(I) + β2var(I) + 2βcov(I, I0)

Page 128: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Methodes d’acceleration

Variables de controle (3)

Choix optimal de β

β⋆ = −cov(I, I0)

var(I0),

avecvar(I⋆) = (1 − ρ2) var(I) ,

ou ρ correlation entre I et I0

Page 129: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Methodes d’acceleration

Example (Approximation de quantiles)

Soit a evaluer

= Pr(X > a) =

∫ ∞

af(x)dx

par

ˆ =1

n

n∑

i=1

I(Xi > a), Xiiid∼ f

avec Pr(X > µ) = 12

Page 130: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Methodes d’acceleration

Example (Approximation de quantiles (2))

La variable de controle

1

n

n∑

i=1

I(Xi > a) + β

(1

n

n∑

i=1

I(Xi > µ) − Pr(X > µ)

)

ameliore ˆ si

β < 0 et |β| < 2cov(δ1, δ3)

var(δ3)= 2

Pr(X > a)

Pr(X > µ).

Page 131: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Methodes d’acceleration

Integration par conditionnementTirer parti de l’inegalite

var(E[δ(X)|Y]) ≤ var(δ(X))

appelee aussi Theoreme de Rao-Blackwell

Consequence :

Si I est un estimateur sans biais de I = Ef [h(X)], avec X simulea partir de la densite jointe f(x, y), ou

∫f(x, y)dy = f(x),

Page 132: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Methodes d’acceleration

Integration par conditionnementTirer parti de l’inegalite

var(E[δ(X)|Y]) ≤ var(δ(X))

appelee aussi Theoreme de Rao-Blackwell

Consequence :

Si I est un estimateur sans biais de I = Ef [h(X)], avec X simulea partir de la densite jointe f(x, y), ou

∫f(x, y)dy = f(x),

l’estimateurI∗ = Ef [I|Y1, . . . , Yn]

domine I(X1, . . . , Xn) en variance (et est aussi sans biais)

Page 133: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Methodes d’acceleration

Example (Esperance de loi de Student)

Soit a calculer

E[h(x)] = E[exp(−x2)] avec X ∼ T (ν, 0, σ2)

Page 134: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Methodes d’acceleration

Example (Esperance de loi de Student)

Soit a calculer

E[h(x)] = E[exp(−x2)] avec X ∼ T (ν, 0, σ2)

La loi de Student peut etre simulee par

X|y ∼ N (µ, σ2y) et Y −1 ∼ χ2ν .

Page 135: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Methodes d’acceleration

Example (Esperance de loi de Student (2))

La moyenne empirique

1

m

m∑

j=1

exp(−X2j ) ,

peut etre amelioree a partir de l’echantillon joint

((X1, Y1), . . . , (Xm, Ym))

puisque

1

m

m∑

j=1

E[exp(−X2)|Yj ] =1

m

m∑

j=1

1√2σ2Yj + 1

est l’esperance conditionnelle

Page 136: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Methodes d’acceleration

Example (Esperance de loi de Student (3))

Dans ce cas particulier, la precision est dix fois plus grande

0 2000 4000 6000 8000 10000

0.50

0.52

0.54

0.56

0.58

0.60

0 2000 4000 6000 8000 10000

0.50

0.52

0.54

0.56

0.58

0.60

Estimateurs de E[exp(−X2)]: moyenne empirique (traitspleins) contre esperance conditionnelle (pointilles) pour(ν, µ, σ) = (4.6, 0, 1).

Page 137: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Chapitre 3 :Methode du bootstrap

IntroductionLe theoreme de GlivenkoCantelliBootstrapBootstrap parametrique

Page 138: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Introduction

Alea intrinseque

Estimation a partir d’un echantillon aleatoire = incertitude

Page 139: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Introduction

Alea intrinseque

Estimation a partir d’un echantillon aleatoire = incertitudePuisque fonde sur un echantillon aleatoire, un estimateur

δ(X1, . . . , Xn)

est aussi (une variable) aleatoire

Page 140: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Introduction

Variation moyenne

Question 1 :

De combien varie δ(X1, . . . , Xn) quand l’echantillon varie ?

Page 141: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Introduction

Variation moyenne

Question 1 :

De combien varie δ(X1, . . . , Xn) quand l’echantillon varie ?

Question 2 :

Quelle est la variance de δ(X1, . . . , Xn) ?

Page 142: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Introduction

Variation moyenne

Question 1 :

De combien varie δ(X1, . . . , Xn) quand l’echantillon varie ?

Question 2 :

Quelle est la variance de δ(X1, . . . , Xn) ?

Question 3 :

Quelle est la distribution de δ(X1, . . . , Xn) ?

Page 143: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Introduction

Example (Echantillon normal)

Soit X1, . . . , X100 un echantillon normal N (θ, 1). Sa moyenne θest estimee par

θ =1

100

100∑

i=1

Xi

Page 144: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Introduction

Example (Echantillon normal)

Soit X1, . . . , X100 un echantillon normal N (θ, 1). Sa moyenne θest estimee par

θ =1

100

100∑

i=1

Xi

Moyennes de 100 points pour 200 echantillons

x

−0.2 −0.1 0.0 0.1 0.2 0.3

01

23

45

6

Page 145: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Introduction

Example (Echantillon normal)

Soit X1, . . . , X100 un echantillon normal N (θ, 1). Sa moyenne θest estimee par

θ =1

100

100∑

i=1

Xi

Moyennes de 100 points pour 200 echantillons

x

−0.2 −0.1 0.0 0.1 0.2 0.3

01

23

45

6

Variation compatible avec la loi (connue) θ ∼ N (θ, 1/100)

Page 146: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Introduction

Problemes correspondants

On observe un seul echantillon en general

Page 147: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Introduction

Problemes correspondants

On observe un seul echantillon en general

La loi de l’echantillon est souvent inconnue

Page 148: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Introduction

Problemes correspondants

On observe un seul echantillon en general

La loi de l’echantillon est souvent inconnue

L’evaluation de la variation moyenne de δ(X1, . . . , Xn) estessentielle pour la construction d’intervalles de confiance et detests de/reponses a des questions comme

H0 : θ ≤ 0

Page 149: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Introduction

Problemes correspondants

On observe un seul echantillon en general

La loi de l’echantillon est souvent inconnue

L’evaluation de la variation moyenne de δ(X1, . . . , Xn) estessentielle pour la construction d’intervalles de confiance et detests de/reponses a des questions comme

H0 : θ ≤ 0

En cas de normalite de l’echantillon, le vrai θ se trouve avecforte probabilite dans l’intervalle

[θ − 2σ, θ + 2σ] .

Page 150: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Introduction

Problemes correspondants

On observe un seul echantillon en general

La loi de l’echantillon est souvent inconnue

L’evaluation de la variation moyenne de δ(X1, . . . , Xn) estessentielle pour la construction d’intervalles de confiance et detests de/reponses a des questions comme

H0 : θ ≤ 0

En cas de normalite de l’echantillon, le vrai θ se trouve avecforte probabilite dans l’intervalle

[θ − 2σ, θ + 2σ] .

Quid de σ ?!

Page 151: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Le theoreme de GlivenkoCantelli

Estimation de la fonction de repartition

Extension/application de la LGN a l’approximation de la fonctionde repartition :

Page 152: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Le theoreme de GlivenkoCantelli

Estimation de la fonction de repartition

Extension/application de la LGN a l’approximation de la fonctionde repartition :Pour un echantillon X1, . . . , Xn, si

Fn(x) =1

n

n∑

i=1

I]−∞,Xi](x)

=card {Xi; Xi ≤ x}

n,

Page 153: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Le theoreme de GlivenkoCantelli

Estimation de la fonction de repartition

Extension/application de la LGN a l’approximation de la fonctionde repartition :Pour un echantillon X1, . . . , Xn, si

Fn(x) =1

n

n∑

i=1

I]−∞,Xi](x)

=card {Xi; Xi ≤ x}

n,

Fn(x) est un estimateur convergent de la fonction derepartition F (x)

[Glivenko–Cantelli]

Fn(x) −→ Pr(X ≤ x)

Page 154: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Le theoreme de GlivenkoCantelli

Example (Echantillon normal)

−2 −1 0 1 2

0.00.2

0.40.6

0.81.0

−2 −1 0 1 20.0

0.20.4

0.60.8

1.0

Estimation de la fonction de repartition F a partir d’unechantillon normal de 100 points et variation de cetteestimation sur 200 echantillons normaux

Page 155: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Le theoreme de GlivenkoCantelli

Proprietes

Estimateur dit non-parametrique : on n’a pas besoin de la loini de la forme de la loi de l’echantillon pour construire cetestimateur c© Il est toujours disponible

Page 156: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Le theoreme de GlivenkoCantelli

Proprietes

Estimateur dit non-parametrique : on n’a pas besoin de la loini de la forme de la loi de l’echantillon pour construire cetestimateur c© Il est toujours disponible

Robustesse contre efficacite : si la forme [parametrique] dela loi est connue, meilleure approximation fondee sur cetteforme, mais si on se trompe de [forme de] loi, le resultat peutetre bien pire !

Page 157: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Le theoreme de GlivenkoCantelli

Example (Echantillon normal)

Fonction de repartition de N (θ, 1), Φ(x − θ)

−2 −1 0 1 2

0.00.2

0.40.6

0.81.0

−2 −1 0 1 2

0.00.2

0.40.6

0.81.0

Estimation de Φ(· − θ) par Fn et Φ(· − θ) a partir de 100points et variation maximale de ces estimations sur 200replications

Page 158: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Le theoreme de GlivenkoCantelli

Example (Echantillon non-normal)

Echantillon provenant de

0.3N (0, 1) + 0.7N (2.5, 1)

faussement alloue a une loi normale Φ(· − θ)

Page 159: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Le theoreme de GlivenkoCantelli

−2 −1 0 1 2 3 4

0.0

0.2

0.4

0.6

0.8

−2 −1 0 1 2 3 4

0.0

0.2

0.4

0.6

0.8

Estimation de F par Fn et Φ(· − θ) a partir d’un echantillonde melange de 100 points et variation de ces estimations sur200 echantillons de melange

Page 160: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Le theoreme de GlivenkoCantelli

Extension aux fonctionnelles de F

Pour toute expression de la forme

θ(F ) =

∫h(x) dF (x) ,

[Fonctionnelle de la cdf]

Page 161: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Le theoreme de GlivenkoCantelli

Extension aux fonctionnelles de F

Pour toute expression de la forme

θ(F ) =

∫h(x) dF (x) ,

[Fonctionnelle de la cdf]utilisation de l’approximation

θ(F ) = θ(Fn)

=

∫h(x) dFn(x)

=1

n

n∑

i=1

h(Xi)

[Estimateur des moments]

Page 162: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Le theoreme de GlivenkoCantelli

Example (Echantillon normal)

Comme θ est (aussi) la mediane de N (θ, 1), θ peut etre priscomme mediane de Fn, donc comme mediane de X1, . . . , Xn, soitX(n/2)

Page 163: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Le theoreme de GlivenkoCantelli

Example (Echantillon normal)

Comme θ est (aussi) la mediane de N (θ, 1), θ peut etre priscomme mediane de Fn, donc comme mediane de X1, . . . , Xn, soitX(n/2)

−0.4 −0.2 0.0 0.2 0.4

01

23

−0.4 −0.2 0.0 0.2 0.4

01

23

Histogramme des medianes

−0.4 −0.2 0.0 0.2 0.4

01

23

Histogramme des moyennes

Comparaison des variations des moyennes et des medianessur 200 echantillons normaux

Page 164: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap

Comment approcher la distribution de θ(Fn) ?

Principe

Comme

θ(Fn) = θ(X1, . . . , Xn) avec X1, . . . , Xni.i.d.∼ F

Page 165: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap

Comment approcher la distribution de θ(Fn) ?

Principe

Comme

θ(Fn) = θ(X1, . . . , Xn) avec X1, . . . , Xni.i.d.∼ F

on remplace F par Fn :

θ(Fn) ≈ θ(X∗1 , . . . , X∗

n) avec X∗1 , . . . , X∗

ni.i.d.∼ Fn

Page 166: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap

Implementation

Fn etant connue, on peut simuler suivant Fn, donc approcher la loide θ(X∗

1 , . . . , X∗n) [au lieu de celle de θ(X1, . . . , Xn)]

La loi correspondant a

Fn(x) =card {Xi; Xi ≤ x}

n

donne une probabilite de 1/n a chaque point de {x1, . . . , xn} :

PrFn(X∗ = xi) =1

n

Il suffit donc d’operer des tirages avec remise dans (X1, . . . , Xn)

[en R, sample(x,n,replace=T)]

Page 167: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap

Simulation par Monte Carlo

1 Pour b = 1, . . . , B,1 generer un echantillon Xb

1, . . . ,Xbn suivant Fn

Page 168: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap

Simulation par Monte Carlo

1 Pour b = 1, . . . , B,1 generer un echantillon Xb

1, . . . ,Xbn suivant Fn

2 construire l’image correspondante

θb = θ(Xb1, . . . ,X

bn)

Page 169: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap

Simulation par Monte Carlo

1 Pour b = 1, . . . , B,1 generer un echantillon Xb

1, . . . ,Xbn suivant Fn

2 construire l’image correspondante

θb = θ(Xb1, . . . ,X

bn)

2 Utiliser l’echantillonθ1, . . . , θB

pour approcher la distribution de

θ(X1, . . . , Xn)

Page 170: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap

Notesbootstrap = languette de botte

on utilise seulement l’echantillon pour construire uneevaluation de sa loi

[Aventures du Baron de Munchausen ]

Page 171: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap

Notesbootstrap = languette de botte

on utilise seulement l’echantillon pour construire uneevaluation de sa loi

[Aventures du Baron de Munchausen ]

un echantillon bootstrap est obtenu par n tirages avec remisedans (X1, . . . , Xn)

Page 172: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap

Notesbootstrap = languette de botte

on utilise seulement l’echantillon pour construire uneevaluation de sa loi

[Aventures du Baron de Munchausen ]

un echantillon bootstrap est obtenu par n tirages avec remisedans (X1, . . . , Xn)

il peut donc prendre nn valeurs (ou(2n−1

n

)valeurs si on ne

considere pas l’ordre)

Page 173: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap

Example (Echantillon 0.3N (0, 1) + 0.7N (2.5, 1))

1.4 1.6 1.8 2.0 2.2

0.00.5

1.01.5

2.02.5

3.0

Variation des moyennes empiriques sur 200 echantillonsbootstrap et moyenne de l’echantillon observe

Page 174: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap

Example (Calcul de la variation moyenne)

Pour un estimateur θ(X1, . . . , Xn), l’ecart-type est donne par

η(F ) =

√EF [(θ(X1, . . . , Xn) − EF [θ(X1, . . . , Xn)])2]

Page 175: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap

Example (Calcul de la variation moyenne)

Pour un estimateur θ(X1, . . . , Xn), l’ecart-type est donne par

η(F ) =

√EF [(θ(X1, . . . , Xn) − EF [θ(X1, . . . , Xn)])2]

et son approximation bootstrap est

η(Fn) =

√EFn [(θ(X1, . . . , Xn) − EFn [θ(X1, . . . , Xn)])2]

Page 176: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap

Example (Calcul de la variation moyenne (2))

Approximation elle-meme approchee par

η(Fn) =

(1

B

B∑

b=1

(θ(Xb1, . . . , X

bn) − θ)2

)1/2

ou

θ =1

B

B∑

b=1

θ(Xb1, . . . , X

bn)

Page 177: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap

Example (Echantillon 0.3N (0, 1) + 0.7N (2.5, 1))

1.4 1.6 1.8 2.0 2.2

0.00.5

1.01.5

2.02.5

3.0

Intervalle de variation bootstrap a ±2η(Fn) et moyenne del’echantillon observe

Page 178: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap

Example (Echantillon normal)

Echantillon(X1, . . . , X100)

i.i.d.∼ N (θ, 1)

Page 179: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap

Example (Echantillon normal)

Echantillon(X1, . . . , X100)

i.i.d.∼ N (θ, 1)

Comparaison des intervalles de confiance

[x − 2 ∗ σx/10, x + 2 ∗ σx/10] = [−0.113, 0.327]

[approximation normale]

[x∗ − 2 ∗ σ∗, x∗ + 2 ∗ σ∗] = [−0.116, 0.336]

[approximation bootstrap normale]

[q∗(0.025), q∗(0.975)] = [−0.112, 0.336]

[approximation bootstrap generique]

Page 180: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap

−0.2 −0.1 0.0 0.1 0.2 0.3 0.4

01

23

4

Approximation normale

Intervalle normal

Intervalle bootstrap

normal

Intervalle bootstrap generique

Intervalles de variation a 95% pour un echantillon de 100points et 200 repliques bootstrap

Page 181: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap parametrique

Boostrap parametre

Si la forme parametrique de F est connue,

F (·) = Φλ(·) λ ∈ Λ ,

Page 182: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap parametrique

Boostrap parametre

Si la forme parametrique de F est connue,

F (·) = Φλ(·) λ ∈ Λ ,

une evaluation de F plus efficace que Fn est fournie par

Φλn

ou λn est un estimateur convergent de λ[Cf Exemple 40]

Page 183: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap parametrique

Boostrap parametrique

Approximation de la loi de

θ(X1, . . . , Xn)

par la loi de

θ(X∗1 , . . . , X∗

n) X∗1 , . . . , X∗

ni.i.d.∼ Φλn

Page 184: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap parametrique

Boostrap parametrique

Approximation de la loi de

θ(X1, . . . , Xn)

par la loi de

θ(X∗1 , . . . , X∗

n) X∗1 , . . . , X∗

ni.i.d.∼ Φλn

Peut eviter le recours a la simulation dans certains cas

Page 185: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap parametrique

Example (Echantillon exponentiel)

SoitX1, . . . , Xn

i.i.d.∼ Exp(λ)

et λ = 1/Eλ[X] a estimer.

Page 186: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap parametrique

Example (Echantillon exponentiel)

SoitX1, . . . , Xn

i.i.d.∼ Exp(λ)

et λ = 1/Eλ[X] a estimer.Un estimateur possible est

λ(x1, . . . , xn) =n∑n

i=1 xi

mais cet estimateur est biaise :

Eλ[λ(X1, . . . , Xn)] 6= λ

Page 187: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap parametrique

Example (Echantillon exponentiel (2))

Questions :

Comment evaluer le biais

λ − Eλ[λ(X1, . . . , Xn)]

de cet estimateur ?

Page 188: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap parametrique

Example (Echantillon exponentiel (2))

Questions :

Comment evaluer le biais

λ − Eλ[λ(X1, . . . , Xn)]

de cet estimateur ?

Quelle est la loi de cet estimateur ?

Page 189: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap parametrique

Evaluation bootstrap du biais

Example (Echantillon exponentiel (3))

λ(x1, . . . , xn) − Eλ(x1,...,xn)[λ(X1, . . . , Xn)]

[Forme parametrique]

λ(x1, . . . , xn) − EFn[λ(X1, . . . , Xn)]

[Forme non-parametrique]

Page 190: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap parametrique

Example (Echantillon exponentiel (4))

Dans le premier cas (parametrique),

1/λ(X1, . . . , Xn) ∼ Ga(n, nλ)

etEλ[λ(X1, . . . , Xn)] =

n

n − 1λ

Page 191: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap parametrique

Example (Echantillon exponentiel (4))

Dans le premier cas (parametrique),

1/λ(X1, . . . , Xn) ∼ Ga(n, nλ)

etEλ[λ(X1, . . . , Xn)] =

n

n − 1λ

donc le biais est analytiquement evalue comme

−λ/n − 1

estime par

− λ(X1, . . . , Xn)

n − 1= −0.00787

Page 192: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap parametrique

Example (Echantillon exponentiel (5))

Dans le second cas (non-parametrique), evaluation par MonteCarlo,

λ(x1, . . . , xn) − EFn[λ(X1, . . . , Xn)] = 0.00142

qui est du “mauvais” signe

Page 193: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap parametrique

Example (Echantillon exponentiel (6))

Construction d’un intervalle de confiance sur λPar bootstrap parametrique,

Prλ

(λ1 ≤ λ ≤ λ2

)= Pr

(ω1 ≤ λ/λ ≤ ω2

)= 0.95

peut etre deduit deλ/λ ∼ Ga(n, n)

[En R, qgamma(0.975,n,1/n)]

[λ1, λ2] = [0.452, 0.580]

Page 194: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap parametrique

Example (Echantillon exponentiel (7))

Par bootstrap non-parametrique, on remplace

PrF (q(.025) ≤ λ(F ) ≤ q(.975)) = 0.95

par

PrFn

(q∗(.025) ≤ λ(Fn) ≤ q∗(.975)

)= 0.95

Page 195: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap parametrique

Example (Echantillon exponentiel (7))

Par bootstrap non-parametrique, on remplace

PrF (q(.025) ≤ λ(F ) ≤ q(.975)) = 0.95

par

PrFn

(q∗(.025) ≤ λ(Fn) ≤ q∗(.975)

)= 0.95

Approximation des quantiles q∗(.025) et q∗(.975) de λ(Fn) parechantillonnage bootstrap (Monte Carlo)

[q∗(.025), q∗(.975)] = [0.454, 0.576]

Page 196: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap parametrique

0.45 0.50 0.55 0.60

02

46

810

1214

Intervalle bootstrap

parametrique

Intervalle bootstrap

non−parametrique

Page 197: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap parametrique

Example (Echantillon Student)

Soit

X1, . . . , Xni.i.d.∼ T(5, µ, τ2)

def= µ + τ

N (0, 1)√χ2

5/5

On peut alors estimer µ et τ par

µn =1

n

n∑

i=1

Xi τn =

√5 − 2

5

√√√√ 1

n

n∑

i=1

(Xi − µ)2

=

√5 − 2

5σn

Page 198: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap parametrique

Example (Echantillon Student (2))

Probleme

µn n’est pas distribuee comme une loi de Student T(5, µ, τ2/n)On doit donc reconstituer la loi de µn par echantillonnagebootstrap.

Page 199: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap parametrique

Example (Echantillon Student (3))

Comparaison des intervalles de confiance

[µn − 2 ∗ σn/10, µn + 2 ∗ σn/10] = [−0.068, 0.319]

[approximation normale]

[q∗(0.05), q∗(0.95)] = [−0.056, 0.305]

[approximation bootstrap parametrique]

[q∗(0.05), q∗(0.95)] = [−0.094, 0.344]

[approximation bootstrap non-parametrique]

Page 200: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap parametrique

−0.2 −0.1 0.0 0.1 0.2 0.3 0.4

01

23

45

6

Intervalle normal a 2 SD

Intervalle bootstrap

nonparametrique

01

23

45

Intervalle normal a 2 SD

Intervalle bootstrap

parametrique

Intervalles de variation a 95% pour un echantillon de 150points et 400 repliques bootstrap (haut) non-parametriqueset (bas) parametriques

Page 201: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Chapitre 4 :Statistique non–parametrique :

Rudiments

IntroductionEstimation de la densiteTests non-parametriques

Page 202: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Introduction

Probleme :

Comment conduire une inference statistique quand on ne connaitpas la loi des observations X1, . . . , Xn ?

X1, . . . , Xni.i.d.∼ F

avec F inconnu

Page 203: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Introduction

Probleme :

Comment conduire une inference statistique quand on ne connaitpas la loi des observations X1, . . . , Xn ?

X1, . . . , Xni.i.d.∼ F

avec F inconnu

Probleme non-parametrique par opposition au contexteparametrique ou F (·) = Gθ(·) et seul θ est inconnu.

Page 204: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Introduction

Inference statistique non–parametrique

Estimation d’une quantite dependant de F

θ(F ) =

∫h(x) dF (x)

Page 205: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Introduction

Inference statistique non–parametrique

Estimation d’une quantite dependant de F

θ(F ) =

∫h(x) dF (x)

Decision a propos d’une hypothese sur F

F ∈ F0 ? F == F0 ? θ(F ) ∈ Θ0 ?

Page 206: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Introduction

Inference statistique non–parametrique

Estimation d’une quantite dependant de F

θ(F ) =

∫h(x) dF (x)

Decision a propos d’une hypothese sur F

F ∈ F0 ? F == F0 ? θ(F ) ∈ Θ0 ?

Estimation de fonctions dependant de F

F f(x) =dF

dx(x) EF [h(X1)|X2 = x]

Page 207: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

Estimation de la densite

Pour estimer

f(x) =dF

dx(x)

[densite de X]

Page 208: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

Estimation de la densite

Pour estimer

f(x) =dF

dx(x)

[densite de X]on peut songer a prendre

fn(x) =dFn

dx(x)

Page 209: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

Estimation de la densite

Pour estimer

f(x) =dF

dx(x)

[densite de X]on peut songer a prendre

fn(x) =dFn

dx(x)

maisFn n’est pas derivable !

Page 210: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

Estimation par histogramme

Une premiere solution est de reproduire la representation enescalier de Fn pour f

fn(x) =k∑

i=1

ωiI[ai,ai+1[(x) a1 < . . . < ak+1

Page 211: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

Estimation par histogramme

Une premiere solution est de reproduire la representation enescalier de Fn pour f

fn(x) =k∑

i=1

ωiI[ai,ai+1[(x) a1 < . . . < ak+1

en choisissant les ωi tels que

k∑

i=1

ωi(ai+1 − ai) = 1 et ωi(ai+1 − ai) = PF (X ∈ [ai, ai+1[)

Page 212: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

Estimation par histogramme (cont’d)

Par exemple,

ωi(ai+1 − ai) =1

n

n∑

i=1

I[ai,ai+1[(Xi)

= Fn(ai+1) − Fn(ai)

[bootstrap]

Page 213: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

Estimation par histogramme (cont’d)

Par exemple,

ωi(ai+1 − ai) =1

n

n∑

i=1

I[ai,ai+1[(Xi)

= Fn(ai+1) − Fn(ai)

[bootstrap]est un estimateur convergent de PF (X ∈ [ai, ai+1[)

Page 214: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

Estimation par histogramme (cont’d)

Par exemple,

ωi(ai+1 − ai) =1

n

n∑

i=1

I[ai,ai+1[(Xi)

= Fn(ai+1) − Fn(ai)

[bootstrap]est un estimateur convergent de PF (X ∈ [ai, ai+1[)

[Attention aux effets de bord !]

Page 215: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

hist(x)$density

En R, hist(x)$density donne les valeurs des ωi et hist(x)$breaks lesvaleurs des ai

Il est preferable d’utiliser les valeursproduites par hist(x)$density pourcontruire une fonction lineaire parmorceaux par plot(hist(x)$density)plutot qu’une fonction par escalier.

−2 −1 0 1 2 30

.00

.10

.20

.30

.40

.5

Estimateur par histogrammepour k = 45 et 450observations normales

Page 216: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

Interpretation probabiliste

Partant de fonctions en escalier, on aboutit a une representation dela loi approchee comme somme ponderee d’uniformes

k∑

i=1

πiU([ai, ai+1])

Page 217: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

Interpretation probabiliste

Partant de fonctions en escalier, on aboutit a une representation dela loi approchee comme somme ponderee d’uniformes

k∑

i=1

πiU([ai, ai+1])

Equivalent a une approximation lineaire par morceaux de lafonction de repartition

Fn(x) =n∑

i=1

πix − ai

ai+1 − aiI[ai,ai+1[(x)

Page 218: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

Defauts

Depend du choix de la partition (ai)i, souvent construite enfonction des donnees (comme dans R)

Page 219: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

Defauts

Depend du choix de la partition (ai)i, souvent construite enfonction des donnees (comme dans R)

Probleme des extremites a1 et ak+1 : ils ne peuvent pas etreinfinis (pourquoi?) mais doivent suffisamment approcher lesupport de f

Page 220: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

Defauts

Depend du choix de la partition (ai)i, souvent construite enfonction des donnees (comme dans R)

Probleme des extremites a1 et ak+1 : ils ne peuvent pas etreinfinis (pourquoi?) mais doivent suffisamment approcher lesupport de f

k et (ai)i doivent dependre de n pour permettre laconvergence de fn vers f

Page 221: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

Defauts

Depend du choix de la partition (ai)i, souvent construite enfonction des donnees (comme dans R)

Probleme des extremites a1 et ak+1 : ils ne peuvent pas etreinfinis (pourquoi?) mais doivent suffisamment approcher lesupport de f

k et (ai)i doivent dependre de n pour permettre laconvergence de fn vers f

mais... ai+1 − ai ne doit pas decroıtre trop vite vers 0 pourque l’estimation πi soit convergente : il faut suffisammentd’observations par intervalle [ai, ai+1]

Page 222: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

Fenetres de Scott

Choix “optimal” de la largeur des classes :

hn = 3.5 σ n−1/3 et hn = 2.15 σ n−1/5

donnent les bonnes largeurs ai+1 − ai (nclass = range(x) / h) pourfn en escalier et lineaire par morceaux, respectivement. (Etassurent la convergence de fn vers f quand n tend vers ∞.)

Page 223: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

Fenetres de Scott

Choix “optimal” de la largeur des classes :

hn = 3.5 σ n−1/3 et hn = 2.15 σ n−1/5

donnent les bonnes largeurs ai+1 − ai (nclass = range(x) / h) pourfn en escalier et lineaire par morceaux, respectivement. (Etassurent la convergence de fn vers f quand n tend vers ∞.)

[nclass=9 et nclass=12 dans l’exemple suivant]

Page 224: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

−2 −1 0 1 2 3

0.00

0.10

0.20

0.30

k = 5

−2 −1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

k = 15

−2 −1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

k = 25

−2 −1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

k = 35

−2 −1 0 1 2 3

0.0

0.2

0.4

k = 45

−2 −1 0 1 2 3

0.0

0.2

0.4

k = 55

−2 −1 0 1 2 3

0.0

0.2

0.4

k = 65

−2 −1 0 1 2 3

0.0

0.2

0.4

k = 75

−2 −1 0 1 2 3

0.0

0.2

0.4

0.6

k = 85

Variation des estimateurs par histogramme en fonction de kpour un echantillon normal de 450 observations

Page 225: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

Estimateur du noyauPartant de la definition

f(x) =dF

dx(x) ,

on peut utiliser l’approximation

f(x) =Fn(x + δ) − Fn(x − δ)

=1

2δn

n∑

i=1

{IXi<x+δ − IXi<x−δ}

=1

2δn

n∑

i=1

I[−δ,δ](x − Xi)

pour δ assez petit.[Bon point : f est une densite]

Page 226: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

Interpretation analytique et probabiliste

On a

fn(x) =Nb. observations proches de x

2δn

Cas particulier de l’estimateur par histogramme ou les ai sont de laforme Xj ± δ

Page 227: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

Interpretation analytique et probabiliste

On a

fn(x) =Nb. observations proches de x

2δn

Cas particulier de l’estimateur par histogramme ou les ai sont de laforme Xj ± δ

Representation de fn comme somme ponderee d’uniformes

1

n

n∑

i=1

U([Xi − δ, Xi + δ])

[Cf. lien avec bootstrap]

Page 228: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

−2 −1 0 1 2 3 4

0.0

0.2

0.4

0.6

0.8

bandwith 0.1

−2 0 2 4

0.0

0.1

0.2

0.3

0.4

bandwith 0.5

−2 0 2 4

0.00

0.10

0.20

0.30

bandwith 1

−10 −5 0 5 10

0.00

0.04

0.08

0.12

bandwith 10

Variation des estimateurs du noyau uniforme en fonction de δpour un echantillon non-normal de 200 observations

Page 229: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

Extension

Au lieu de considerer une approximation uniforme autour dechaque Xi, on peut utiliser une distribution plus lisse :

f(x) =1

δn

n∑

i=1

K

(x − Xi

δ

)

ou K est une densite de probabilite (noyau) et δ un facteurd’echelle “assez” petit.

Page 230: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

Extension

Au lieu de considerer une approximation uniforme autour dechaque Xi, on peut utiliser une distribution plus lisse :

f(x) =1

δn

n∑

i=1

K

(x − Xi

δ

)

ou K est une densite de probabilite (noyau) et δ un facteurd’echelle “assez” petit.

En R, density(x)

Page 231: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

Choix de noyaux

Toutes les densites sont en theorie acceptables. On utilise enpratique (et dans R)

le noyau normal [kernel=”gaussian” ou ”g”]

le noyau d’Epanechnikov [kernel=”epanechnikov” ou ”e”]

K(y) = C {1 − y2}2 I[−1,1](y)

le noyau triangulaire [kernel=”triangular” ou ”t”]

K(y) = (1 + y)I[−1,0](y) + (1 − y)I[0,1](y)

Page 232: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

Choix de noyaux

Toutes les densites sont en theorie acceptables. On utilise enpratique (et dans R)

le noyau normal [kernel=”gaussian” ou ”g”]

le noyau d’Epanechnikov [kernel=”epanechnikov” ou ”e”]

K(y) = C {1 − y2}2 I[−1,1](y)

le noyau triangulaire [kernel=”triangular” ou ”t”]

K(y) = (1 + y)I[−1,0](y) + (1 − y)I[0,1](y)

Conclusion : Peu d’influence sur l’estimation de f (a l’exceptiondu noyau uniforme [kernel=”rectangular” ou ”r”]).

Page 233: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

−4 −2 0 2 4 6

0.00

0.05

0.10

0.15

0.20

0.25

Noyau uniforme

−4 −2 0 2 4 6

0.00

0.05

0.10

0.15

0.20

0.25

Noyau triangulaire

−4 −2 0 2 4 6

0.00

0.05

0.10

0.15

0.20

0.25

Noyau normal

−4 −2 0 2 4 6

0.00

0.05

0.10

0.15

0.20

0.25

Noyau d’Epanechnikov

Variation des estimateurs du noyau en fonction du noyaupour un echantillon non-normal de 200 observations

Page 234: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

Convergence vers f

Choix de la fenetre δ crucial, par contre !

Si δ grand, beaucoup de Xi contribuent a l’estimation de f(x)[Over-smoothing]

Page 235: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

Convergence vers f

Choix de la fenetre δ crucial, par contre !

Si δ grand, beaucoup de Xi contribuent a l’estimation de f(x)[Over-smoothing]

Si δ petit, peu de Xi contribuent a l’estimation de f(x)[Under-smoothing]

Page 236: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

−2 0 2 4

0.00

0.10

0.20

0.30

bandwith 0.5

−2 0 2 4

0.00

0.10

0.20

0.30

bandwith 1

−4 −2 0 2 4 6

0.00

0.05

0.10

0.15

0.20

0.25

bandwith 2.5

−6 −4 −2 0 2 4 6 8

0.00

0.05

0.10

0.15

0.20

bandwith 5

Variation de fn en fonction de δ pour un echantillonnon-normal de 200 observations

Page 237: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

Fenetre optimale

En etudiant l’erreur moyenne integree

d(f, fn) = E

[∫{f(x) − fn(x)}2 dx

],

on peut trouver un choix optimal pour la fenetre δ, notee hn poursouligner sa dependence a n.

Page 238: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

Fenetre optimale (bis)

De la decomposition

∫ {f(x) − E

[f(x)

]}2dx +

∫var{f(x)}dx ,

[Biais2+variance]et des approximations

f(x) − E

[f(x)

]≃ f ′′(x)

2h2

n

E

[exp{−(Xi − x)2/2h2

n}√2πhn

]≃ f(x) ,

[Exercice]

Page 239: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

Fenetre optimale (ter)

on en deduit que le biais est de l’ordre de

∫ {f ′′(x)

2

}2

dx h4n

et que le terme de variance est approximativement

1

nhn

√2π

∫f(x) dx =

1

nhn

√2π

[Exercice]

Page 240: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

Fenetre optimale (fin)

Par consequent, l’erreur tend vers 0 quand n tend vers ∞ si

1 hn tend vers 0 et

2 nhn tend vers l’infini.

Page 241: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

Fenetre optimale (fin)

Par consequent, l’erreur tend vers 0 quand n tend vers ∞ si

1 hn tend vers 0 et

2 nhn tend vers l’infini.

La fenetre optimale est donnee par

h⋆n =

(√2π

∫ {f ′′(x)

}2dx n

)−1/5

Page 242: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

Fenetre empirique

Comme la fenetre optimale depend de f inconnu, on utilise uneapproximation de la forme

hn =0.9 min(σ, q75 − q25)

(1.34n)1/5,

ou σ est l’ecart-type estime et q25 et q75 sont les quantiles a 25%et a 75% estimes.

Page 243: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

Fenetre empirique

Comme la fenetre optimale depend de f inconnu, on utilise uneapproximation de la forme

hn =0.9 min(σ, q75 − q25)

(1.34n)1/5,

ou σ est l’ecart-type estime et q25 et q75 sont les quantiles a 25%et a 75% estimes.

Note : Les constantes 0.9 et 1.34 correspondent au noyau normal.

Page 244: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

Fenetre empirique

Comme la fenetre optimale depend de f inconnu, on utilise uneapproximation de la forme

hn =0.9 min(σ, q75 − q25)

(1.34n)1/5,

ou σ est l’ecart-type estime et q25 et q75 sont les quantiles a 25%et a 75% estimes.

Note : Les constantes 0.9 et 1.34 correspondent au noyau normal.

Warning! Cette formule n’est pas celle utilisee par defaut dans R

Page 245: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

La problematique des tests statistiques

Face a une question sur F , commeEst ce que F est egale a F0, connue ?

Page 246: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

La problematique des tests statistiques

Face a une question sur F , commeEst ce que F est egale a F0, connue ?

la reponse statistique se fonde sur les donnees

X1, . . . , Xn ∼ F

pour decider si oui ou non la question [l’hypothese] estcompatible avec ces donnees.

Page 247: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

La problematique des tests statistiques (bis)

Une procedure de test (ou test statistique) ϕ(x1, . . . , xn) est avaleurs dans {0, 1} (pour oui/non)

Page 248: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

La problematique des tests statistiques (bis)

Une procedure de test (ou test statistique) ϕ(x1, . . . , xn) est avaleurs dans {0, 1} (pour oui/non)

En prenant une decision sur la question sur F , on peut faire deuxerreurs :

1 refuser l’hypothese a tort (Type I)

Page 249: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

La problematique des tests statistiques (bis)

Une procedure de test (ou test statistique) ϕ(x1, . . . , xn) est avaleurs dans {0, 1} (pour oui/non)

En prenant une decision sur la question sur F , on peut faire deuxerreurs :

1 refuser l’hypothese a tort (Type I)

2 accepter l’hypothese a tort (Type II)

Page 250: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

La problematique des tests statistiques (bis)

Une procedure de test (ou test statistique) ϕ(x1, . . . , xn) est avaleurs dans {0, 1} (pour oui/non)

En prenant une decision sur la question sur F , on peut faire deuxerreurs :

1 refuser l’hypothese a tort (Type I)

2 accepter l’hypothese a tort (Type II)

Il faudrait donc balancer ces deux types d’erreur.

Page 251: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

La problematique des tests statistiques (ter)

En pratique, on se concentre sur le type I et on decide de rejeterl’hypothese seulement si les donnees semblent significativementincompatibles avec cette hypothese.

0 1 2 3 4

0.0

0.1

0.2

0.3

0.4

Acceptation

Rejet

Accepter une hypothese apres un test signifie seulement queles donnees n’ont pas rejete cette hypothese !!!

Page 252: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

Comparaison de distributions

Example (Deux distributions egales ?)

Soient deux echantillons X1, . . . , Xn et Y1, . . . , Ym, dedistributions respectives F et G, inconnues.Comment repondre a la question

F == G ?

Page 253: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

Example (Comparaison de distributions (suite))

Idee :

Comparer les estimateurs de F et G,

Fn(x) =1

n

n∑

i=1

IXi≤x et Gm(x) =1

m

m∑

i=1

IYi≤x

Page 254: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

Statistique de Kolmogorov–Smirnov

−4 −2 0 2 4 6

0.0

0.2

0.4

0.6

0.8

1.0

Meme distribution difference maximale 0.05

−4 −2 0 2 4 60.

00.

20.

40.

60.

81.

0

Deux distributions difference maximale 0.14

Evaluation via la difference

K(m, n) = maxx

∣∣∣Fn(x) − Gm(x)∣∣∣ = max

Xi,Yj

∣∣∣Fn(x) − Gm(x)∣∣∣

Page 255: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

−4 −2 0 2 4 6

−0.0

20.

000.

020.

04

Meme distribution difference maximale 0.05

−4 −2 0 2 4 6

0.00

0.02

0.04

0.06

0.08

0.10

0.12

0.14

Deux distributions difference maximale 0.14

Evolution de la difference Fn(x)− Gm(x) pour deux situations

Page 256: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

Statistique de Kolmogorov–Smirnov (suite)

Utilisation :

Si K(m, n) “grand”, les distributions F et G sontsignificativement differentes.

Page 257: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

Statistique de Kolmogorov–Smirnov (suite)

Utilisation :

Si K(m, n) “grand”, les distributions F et G sontsignificativement differentes.Si K(m, n) “petit”, on ne peut pas les distinguer au vu desechantillons X1, . . . , Xn et Y1, . . . , Ym, donc on “accepte” queF = G.

[Test de Kolmogorov–Smirnov]

Page 258: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

Statistique de Kolmogorov–Smirnov (suite)

Utilisation :

Si K(m, n) “grand”, les distributions F et G sontsignificativement differentes.Si K(m, n) “petit”, on ne peut pas les distinguer au vu desechantillons X1, . . . , Xn et Y1, . . . , Ym, donc on “accepte” queF = G.

[Test de Kolmogorov–Smirnov]

En R, ks.test(x,y)

Page 259: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

Calibration du test

A m et n donnes, si F = G, K(m, n) a la meme distribution pourtout F .

Page 260: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

Calibration du test

A m et n donnes, si F = G, K(m, n) a la meme distribution pourtout F .On peut se ramener a la comparaison de deux echantillonsuniformes et utiliser la simulation pour approcher la distribution deK(m, n) et ses quantiles.

m=200,n=200

0.05 0.10 0.15

05

1015 Valeur

observee

Quantile a 95%

Page 261: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

Calibration du test (suite)

Si K(m, n) observe depasse le quantile de K(m, n) sous H0 a 90ou 95 %, la valeur est tres improbable

si F = G

et on rejette l’hypothese d’egalite des deux distributions.

Page 262: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

Calibration du test (suite)

Exemple de sortie R :Two-sample Kolmogorov-Smirnov testdata: z[, 1] and z[, 2]D = 0.05, p-value = 0.964alternative hypothesis: two.sided

Page 263: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

Calibration du test (suite)

Exemple de sortie R :Two-sample Kolmogorov-Smirnov testdata: z[, 1] and z[, 2]D = 0.05, p-value = 0.964alternative hypothesis: two.sidedp-value = 0.964 signifie que la probabilite que K(m, n) depasse lavaleur observee D = 0.05 est de 0.964, donc la valeur observee estpetite pour la distribution de K(m, n) : on accepte l’hypothesed’egalite.

Page 264: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

Test d’independence

Example (Independence)

On cherche a tester l’independence entre deux v.a. X et Y enobservant les couples (X1, Y1), . . . , (Xn, Yn)

Page 265: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

Test d’independence

Example (Independence)

On cherche a tester l’independence entre deux v.a. X et Y enobservant les couples (X1, Y1), . . . , (Xn, Yn)Question

X ⊥ Y ?

Page 266: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

Test de rang

Idee :

Si on range les Xi par ordre croissant

X(1) ≤ . . . X(n)

les rangs Ri (ordres apres rangement) des Yi correspondants,

Y[1], . . . , Y[n],

doivent etre completement aleatoires.

En R, rank(y[order(x)])

Page 267: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

Test de rang (suite)

Rang : On appelleR = (R1, . . . , Rn)

la statistique de rang de l’echantillon (Y[1], . . . Y[n])

Page 268: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

Test de rang (suite)

Rang : On appelleR = (R1, . . . , Rn)

la statistique de rang de l’echantillon (Y[1], . . . Y[n])La statistique de Spearman est

Sn =n∑

i=1

i Ri

[Correlation entre i et Ri]

Page 269: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

Test de rang (suite)

Rang : On appelleR = (R1, . . . , Rn)

la statistique de rang de l’echantillon (Y[1], . . . Y[n])La statistique de Spearman est

Sn =n∑

i=1

i Ri

[Correlation entre i et Ri]On montre que, si X ⊥ Y ,

E[Sn] =n(n + 1)2

4var(Sn) =

n2(n + 1)2(n − 1)

144

Page 270: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

Statistique de Spearman

Distribution de Sn disponible par simulation [uniforme] ouapproximation normale

Distribution de S sur 500 echantillons de 200 points

−2 −1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

Version recentree de la statistique de Spearman etapproximation normale

Page 271: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

Statistique de Spearman (suite)

On peut donc determiner les quantiles a 5% et 95% de Sn parsimulation et decider si la valeur observee de Sn est a l’interieur deces quantiles ( = on accepte l’independence) ou a l’exterieur ( =on rejette l’independence)

Page 272: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

Tests multinomiaux

Example (Test du chi deux)

Une approche par histogramme permet d’apporter une reponserobuste aux problemes de test, comme par exemple a la question

L’echantillon X1, . . . , Xn est il normal N (0, 1) ?

Idee:

On remplace le probleme par sa forme discretisee a des intervalles[ai, ai+1]

Est ce que

P (Xi ∈ [ai, ai+1]) =

∫ ai+1

ai

exp(−x2/2)√2π

dxdef= pi ?

Page 273: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

Principe

Modelisation multinomiale

On se ramene toujours a un probleme d’adequation a une loimultinomiale

Mk

(p01, . . . , p

0k

)

ou a une famille de lois multinomiales

Mk (p1(θ), . . . , pk(θ)) θ ∈ Θ

Page 274: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

Exemples

Dans le cas de l’adequation a la loi normale standard,N (0, 1), k est determine par le nombre d’intervalles [ai, ai+1]et les p0

i par

p0i =

∫ ai+1

ai

exp(−x2/2)√2π

dx

Page 275: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

Exemples

Dans le cas de l’adequation a la loi normale standard,N (0, 1), k est determine par le nombre d’intervalles [ai, ai+1]et les p0

i par

p0i =

∫ ai+1

ai

exp(−x2/2)√2π

dx

Dans le cas de l’adequation a une loi normale, N (θ, 1), lespi(θ) sont donnes par

pi(θ) =

∫ ai+1

ai

exp(−(x − θ)2/2)√2π

dx

Page 276: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

Exemples (suite)

Dans le cas d’un test d’independence entre deux variables, Xet Y ,

X ⊥ Y ?

k est le nombre de cubes [ai, ai+1] × [bi, bi+1], θ est definicomme

θ1i = P (X ∈ [ai, ai+1]) θ2i = P (Y ∈ [bi, bi+1])

et

pi,j(θ)def= P (X ∈ [ai, ai+1], Y ∈ [bi, bi+1])

= θ1i × θ2j

Page 277: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

Test du chi-deuxL’estimateur naturel des pi est

pi = P (X ∈ [ai, ai+1]) = Fn(ai+1) − Fn(ai)

[Cf. bootstrap]

Page 278: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

Test du chi-deuxL’estimateur naturel des pi est

pi = P (X ∈ [ai, ai+1]) = Fn(ai+1) − Fn(ai)

[Cf. bootstrap]La statistique du chi-deux est

Sn = nk∑

i=1

(pi − p0i )

2

p0i

=

k∑

i=1

(ni − np0i )

2

np0i

si on teste l’adequation a une loi multinomiale

Mk

(p01, . . . , p

0k

)

Page 279: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

Test du chi-deux (suite)

et

Sn = nk∑

i=1

(pi − pi(θ))2

pi(θ)

=k∑

i=1

(ni − npi(θ))2

npi(θ)

si on teste l’adequation a une famille de lois multinomiales

Mk (p1(θ), . . . , pk(θ)) θ ∈ Θ

Page 280: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

Loi approchee

Pour l’adequation a une loi multinomiale, la loi de Sn estapproximativement (pour n grand)

Sn ∼ χ2k−1

et pour l’adequation a une famille de lois multinomiales, avecdim(θ) = p,

Sn ∼ χ2k−p−1

Page 281: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

0 5 10 15 20

0.00

0.05

0.10

0.15

0.20

0.25

Distributions of Sn

Distribution de Sn pour 200 echantillons normaux de 100points et un test d’adequation a N (0, 1) avec k = 4

Page 282: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

Utilisation et limitations

On rejette l’hypothese testee si Sn est trop grande pour une loiχ2

k−1 ou χ2k−p−1

[En R, pchisq(S)]

Page 283: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

Utilisation et limitations

On rejette l’hypothese testee si Sn est trop grande pour une loiχ2

k−1 ou χ2k−p−1

[En R, pchisq(S)]La convergence (en n) vers une loi χ2

k−1 (ou χ2k−p−1) n’est etablie

que pour k et (ai) fixes. En pratique, on choisit k et (ai) enfonction des observations, ce qui diminue la validite del’approximation.

Page 284: NOISE: Statistiques exploratoires avec R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

−4 −2 0 2 4

−2−1

01

23

Normal Q−Q Plot

Quantile normal

Quan

tile o

bser

ve

0 5000 10000 15000 200000

5010

015

020

0

n

S n

QQ-plot d’un echantillon non-normal et evolution de Sn enfonction de n pour cet echantillon