23
S TATISTIQUE A VANCÉE : MÉTHODES NON - PARAMÉTRIQUES Ecole Centrale de Paris Arnak S. DALALYAN

Ecole Centrale de Parisimagine.enpc.fr/~dalalyan/Download/poly.pdf · 2011. 2. 16. · –test de Neyman-Pearson, test du rapport de vraisemblance ou test de Wald pour les tests d’hypothèses

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Ecole Centrale de Parisimagine.enpc.fr/~dalalyan/Download/poly.pdf · 2011. 2. 16. · –test de Neyman-Pearson, test du rapport de vraisemblance ou test de Wald pour les tests d’hypothèses

STATISTIQUE AVANCÉE : MÉTHODESNON-PARAMÉTRIQUES

Ecole Centrale de Paris

Arnak S. DALALYAN

Page 2: Ecole Centrale de Parisimagine.enpc.fr/~dalalyan/Download/poly.pdf · 2011. 2. 16. · –test de Neyman-Pearson, test du rapport de vraisemblance ou test de Wald pour les tests d’hypothèses
Page 3: Ecole Centrale de Parisimagine.enpc.fr/~dalalyan/Download/poly.pdf · 2011. 2. 16. · –test de Neyman-Pearson, test du rapport de vraisemblance ou test de Wald pour les tests d’hypothèses

Table des matières

1 Introduction 5

2 Modèle de densité 7

2.1 Estimation par histogrammes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.2 Estimateur à noyau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2.3 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

3 Modèle de régression 23

3.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3.2 Régressogrammes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3.3 Moyenne Locale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3.4 Estimateur à Noyau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3.5 Estimateur par Polynômes Locaux . . . . . . . . . . . . . . . . . . . . . . . . . 23

3.6 Lissage Linéaire et Validation Croisée . . . . . . . . . . . . . . . . . . . . . . . 23

3.7 Estimation de la Variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3.8 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3.9 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

Page 4: Ecole Centrale de Parisimagine.enpc.fr/~dalalyan/Download/poly.pdf · 2011. 2. 16. · –test de Neyman-Pearson, test du rapport de vraisemblance ou test de Wald pour les tests d’hypothèses
Page 5: Ecole Centrale de Parisimagine.enpc.fr/~dalalyan/Download/poly.pdf · 2011. 2. 16. · –test de Neyman-Pearson, test du rapport de vraisemblance ou test de Wald pour les tests d’hypothèses

1Introduction

La particularité de la statistique non-paramétrique est que le paramètre inconnu qu’oncherche à detecter, à estimer ou à classifier n’est pas supposé d’appartenir à une famille indi-cée par un petit nombre de paramètres réels. En général, dans la théorie non-paramétriqueon suppose que le nombre de paramètres qui décrivent la loi des observations est une fonc-tion croissant du nombre d’observations, ou encore que le nombre de paramètres est infini.

Pour donner un exemple concret, considérons le modèle linéaire multiple. C’est un mo-dèle très populaire dans le milieu des praticiens et profondément étudié par les théoriciens.Il s’agit d’une expérience qui résulte en l’observation des couples (Xi, Yi), i = 1, . . . , n où, engénéral, Xi est un vecteur p-dimensionnel et Yi est une valeur réelle. On suppose que pourun vecteur β ∈ Rp et un réel α, la dépendance de Yi en Xi est expliquée par la fonction affine

α + βTx

à une erreur aléatoire près, c’est-à-dire

Yi = α + βTXi + ξi, i = 1, . . . , n (1.1)

où ξi est tel que E[ξi|Xi] = 0. Si l’on suppose de plus que les erreurs ξi sont indépendantesles unes des autres et suivent la loi Gaussienne centrée de variance σ2, alors la loi des ob-servations (Xi, Yi) est entièrement caractérisée par les paramètres α, β et σ. C’est pourquoi,dans la littérature statistique, ce modèle est souvent considéré comme l’exemple type d’unmodèle paramétrique. Cependant, cette considération doit être nuancée.

En réalité, il est conseillé d’appliquer les méthodes classiques de statistique au modèle(1.1) seulement dans le cas où la dimension p de β est significativement plus petite que n,la taille de l’échantillon. Si n et p sont comparables, ou encore si p > n, les méthodes clas-siques deviennent inefficaces. Il faut alors chercher de nouvelles approches pour effectuerune inférence statistique. C’est l’objectif poursuivi par la statistique non-paramétrique.

Le but de ce cours est de présenter les principes les plus basiques de la statistique non-paramétrique en insistant sur leurs avantages et leurs limites. Pour éviter des dévelopements

Page 6: Ecole Centrale de Parisimagine.enpc.fr/~dalalyan/Download/poly.pdf · 2011. 2. 16. · –test de Neyman-Pearson, test du rapport de vraisemblance ou test de Wald pour les tests d’hypothèses

6 Introduction Chapitre 1

très techniques, nous nous concentrons uniquement sur l’étude de deux modèles : l’estima-tion de densité et l’estimation de la fonction de régression. Par ailleurs, nous présenteronsuniquement la facette de la statistique non-paramétrique concernant le lissage et ne parle-rons pas du tout d’une autre facette, historiquement plus ancienne, qui est l’inférence baséesur les rangs.

Le modèle de densité est un modèle simple qui permet de tester les différentes innova-tions statistiques sans rentrer dans des calculs très fastidieux. Cependant, certaines méthodes– comme, par exemple, l’estimation par projection – sont plus faciles à présenter dans le mo-dèle de régression. C’est la raison pour laquelle on se focalise sur ces deux modèles.

La démarche générale pour effectuer une inférence statistique dans des problèmes non-paramétriques peut être décomposée en trois étapes suivantes.

1. Trouver une famille { fh : h > 0} de fonctions simples qui approchent bien la fonctioninconnue f , c’est-à-dire dist( fh, f ) ↓ 0 lorsque h ↓ 0. On dit alors que dist( fh, f ) estl’erreur d’approximation.

2. Au lieu d’effectuer une inférence statistique sur f , faire comme si le vrai paramètreétait fh et appliquer une méthode de statistique paramétrique classique :– méthode du maximum de vraisemblance, méthode des moments ou méthode de

contraste minimale pour l’estimation,– test de Neyman-Pearson, test du rapport de vraisemblance ou test de Wald pour les

tests d’hypothèses.On obtient ainsi une procédure statistique dh (estimateur ou test). On appelle alorserreur statistique, note par r(dh), le risque de la procédure dh calculé en utilisant fhcomme vraie valeur du paramètre f .

3. Choisir le paramètre h de façon optimale. D’une part, dans la plupart des cas, l’erreurstatistique r(dh) est une fonction décroissante de h. D’autre part, le risque associé àla parocédure dh dans le problème d’origine où f est le paramètre inconnu se calculecomme une fonction F

(dist( f , fh); r(dh)

)qui est décroissante par rapport à chacun des

deux arguments. Comme les fonctions h 7→ dist( f , fh) et h 7→ r(dh) ont des sens de va-riation opposés, la minimisation du risque total F

(dist( f , fh); r(dh)

)en fonction de h se

fait par un compromis entre l’erreur d’approximation dist( f , fh) et l’erreur statistiquer(dh).

Pour terminer cette introduction, nous allons reformuler la définition de statistique non-paramétrique. La statistique non-paramétrique étudie des problèmes statistiques dans les-quels la paramétrisation n’est pas considérée comme figée, mais il y a une liberté de choixentre plusieurs paramétrisation et le but est de trouver celle qui conduit vers les procéduresles plus performantes.

Page 7: Ecole Centrale de Parisimagine.enpc.fr/~dalalyan/Download/poly.pdf · 2011. 2. 16. · –test de Neyman-Pearson, test du rapport de vraisemblance ou test de Wald pour les tests d’hypothèses

2Modèle de densité

Tout au long de ce chapitre, on suppose que les observations X1, . . . , Xn sont des variablesindépendantes de même loi (iid) de densité f . Pour simplifier, on suppose que les Xi sontà valeurs réelles et que f est la densité par rapport à la mesure de Lebesgue sur R. Parconséquent,

Prob(Xi ∈ [a, b]) =∫ b

af (x) dx, ∀ a, b ∈ R.

De plus, on supposera que f est deux fois continûment différentiable.

2.1 Estimation par histogrammes

La façon la plus simple d’estimer la densité f à partir des données est l’estimation parhistogramme. Afin d’éviter des complications d’ordre technique, nous supposerons dans ceparagraphe que f est à support compact. De plus, sans perte de généralité, nous pouvonssupposer que le support de f est inclus dans l’intervalle [0, 1].

2.1.1 Définition et propriétés de base

Pour commencer, on choisit une partition uniforme C1, . . . , Cm de l’intervalle [0, 1[ :

Cj =[ j− 1

m,

jm

[, j = 1, . . . , m.

Comme f est supposée être continue, pour m suffisament grand, elle est bien approchéepar des fonctions en escalier, constantes par morceaux sur les intervalles {Cj}. Pour quenos notations reste en accord avec l’approche générale décrite dans l’introduction, on poseh = 1/m et on approche f par la fonction

fh(x) =m

∑j=1

pj

h1lCj(x),

Page 8: Ecole Centrale de Parisimagine.enpc.fr/~dalalyan/Download/poly.pdf · 2011. 2. 16. · –test de Neyman-Pearson, test du rapport de vraisemblance ou test de Wald pour les tests d’hypothèses

8 Modèle de densité Chapitre 2

où pj =∫

Cjf (x) dx. On ramène ainsi le problème d’estimation de f au problème d’estimation

d’un paramètre m-dimensionnel p = (p1, . . . , pm). Ceci peut se faire en utilisant, par exemplela méthode généralisée des moments. En effet, il est évident que

pj =∫

Cj

f (x) dx = E f [1lCj(X1)], ∀ j = 1, . . . , m.

Par conséquent, il est naturel d’estimer le vecteur p par

p = ( p1, . . . , pm), pj =1n

n

∑i=1

1lCj(Xi).

Observons au passage que chaque pj représente la proportion des observations Xi se trou-vant dans l’intervalle Cj. Si la taille de l’échantillon est grande, il est légitime de s’attendreà ce que cette proportion, dite empirique, converge vers la proportion théorique correspon-dant à la probabilité qu’une observation tirée au hasard selon la densité f appartient à l’in-tervalle Cj.

Par substitution, nous définissons l’estimateur de f par histogramme à m classes commesuit :

fh(x) =1h

m

∑j=1

pj 1lCj(x).

Dans la terminologie statistique, on dit que chaque Cj est une classe et la longueur des classesh est une fenêtre.

Exercice 2.1. Vérifier que l’estimateur par histogramme fh est une densité de probabilité.Remarque 2.1. Dans les applications, très souvent on utilise le terme histogramme pour la fonctionh fh(x), ce qui correspond à la proportion d’observations par intervalle Cj.

FIGURE 2.1 – A gauche : une densité de probabilité et son approximation constante par morceauxsur les intervalle [j/10, (j + 1)/10[ pour j = 1, . . . , 10. A droite : La même densité que celle du graphede gauche et une estimation par histogramme basée sur un échantillon de taille 400.

Page 9: Ecole Centrale de Parisimagine.enpc.fr/~dalalyan/Download/poly.pdf · 2011. 2. 16. · –test de Neyman-Pearson, test du rapport de vraisemblance ou test de Wald pour les tests d’hypothèses

Section 2.1 Estimation par histogrammes 9

2.1.2 Exemple : répartition des galaxies

A titre d’exemple, considérons un jeu de données astronomiques étudiées dans le livrede Wasserman et disponibles sur sa page WEB :

http://www.stat.cmu.edu/~larry/all-of-nonpar/data.html.Ce qu’on veut montrer sur cet exemple, avant toute autre chose, est que le choix de la fenêtreh a un impact très important sur la qualité d’estimation de la densité f par l’histogramme fh.

Le jeu de données astronomiques précité contient 1253 valeurs numériques ; chaque va-leur correspond au décalage vers le rouge (Redshift) d’un objet astronomique (galaxie, qua-sar, ...). Cette valeur peut être interprétée comme la distance entre la terre et l’objet en ques-tion. L’estimation de la densité des Redshifts est important en pratique, car elle permet dedetecter des clusters de galaxies.

FIGURE 2.2 – Les histogrammes des données d’astronomie correspondant aux nombres de classes m = 18,m = 160 et m = 850.

Nous avons tracé dans la figure ci-dessus les histogrammes des données astronomiquesbasées sur 18, 160 et 850 classes. On constate que ces trois graphiques ont présentent desdifférences très importantes. Plus précisément, le graphe qui correspond à m = 18 est bienplus régulier que les deux autres. Dans la terminologie statistique, on dit que l’histogrammede gauche est trop lissé (en anglais oversmoothing) alors que l’histogramme de droite n’est paslissé sufisamment (undersmoothing). Un problème crucial du point de vu des applications estdonc de trouver la fenêtre h qui correspond au lissage optimal.

L’une des méthodes les plus utilisées fournissant une fenêtre proche de l’optimale est laméthode de validation croisée. La définition précise de cette méthode sera donnée plus tarddans ce chapitre. Notons simplement qu’elle consiste à définir une fonction J de h (ou, defaçon équivalente, de m) qui est une estimation du risque de l’estimateur fh. Naturellement,la valeur de h est choisie en minimisant ce risque estimé. Lorsqu’on effectue une validationcroisée sur les données astronomiques, on obtient la courbe ci-dessous pour la fonction m 7→J(m) et le minimum de cette fonction est atteint au point m = 163.

FIGURE 2.3 – La courbe de la fonction J(m). Le minimum est atteint au point m = 163.

Page 10: Ecole Centrale de Parisimagine.enpc.fr/~dalalyan/Download/poly.pdf · 2011. 2. 16. · –test de Neyman-Pearson, test du rapport de vraisemblance ou test de Wald pour les tests d’hypothèses

10 Modèle de densité Chapitre 2

2.1.3 Risque de l’estimateur par histogramme

Comme on a constaté sur l’exemple des données astronomique, la qualité de l’estimateurpar histogramme dépend fortement de la fenêtre h. Afin de quantifier cette dépendance,nous introduisons le risque quadratique de fh au point x ∈ [0, 1] comme étant la moyennede l’erreur quadratique :

MSE f (x, h) = E f [(

fh(x)− f (x))2],

où l’abbréviation MSE correspond à Mean Squared Errror.

Afin d’évaluer le MSE, on utilise d’abord la décomposition biais-variance :

MSE f (x, h) =(E f [ fh(x)]− f (x)

)2︸ ︷︷ ︸carré du biais

+ Var f [ fh(x)]︸ ︷︷ ︸variance

.

Soit j l’indice de la classe contenant x ; x ∈ Cj. Remarquons que

fh(x) =pj

h=

1nh

n

∑i=1

1lCj(Xi) =Zj

nh, Zj ∼ B(n, pj), (2.1)

car Zj est la somme de n variables indépendantes de loi de Bernoulli de paramètre

P f (1lCj(X1) = 1) = P f (X1 ∈ Cj) =∫

Cj

f (x) dx = pj.

Il en découle immédiatement que pour tout x ∈ Cj,

E f [ fh(x)] =pj

h, Var f [ fh(x)] =

npj(1− pj)n2h2 =

pj(1− pj)nh2 . (2.2)

Une première conséquence de ces formules est que le risque MSE est supérieur au carrédu biais (h−1 pj − f (x))2. Par conséquent, si la fenêtre h est choisie indépendamment dela taille de l’échantillon n, l’estimateur par histogramme ne convergera pas vers la vraiedensité lorsque n → ∞ excepté la situation peu fréquente où f est constante sur l’intervalleCj. Afin d’élargir la classe des densités pour lesquelles fh est convergent, nous devons choisirh comme une fonction de n ; h = hn doit tendre vers 0 lorsque n tend vers +∞. A partir demaintenant, on suppose que cette condition est satisfaite.

Rappelons que le but de ce paragraphe est d’évaluer le risque de l’estimateur fh. Afind’avoir une évaluation globale valable pour tout point x ∈ [0, 1], on considère le risquequadratique intégré :

MISE f (h) =∫

[0,1]MSE f (x, h) dx = E f

[ ∫ 1

0

(fh(x)− f (x)

)2dx]

(pour obtenir la dernière égalité nous avons utilisé le théorème de Foubini).

D’une part, en vertu de la propriété ∑j pj =∫ 1

0 f (x) dx = 1, on a

∫ 1

0Var f [ fh(x)] dx =

m

∑j=1

∫Cj

Var f [ fh(x)] dx =m

∑j=1

pj(1− pj)nh

=1

nh− 1

nh

m

∑j=1

p2j .

Page 11: Ecole Centrale de Parisimagine.enpc.fr/~dalalyan/Download/poly.pdf · 2011. 2. 16. · –test de Neyman-Pearson, test du rapport de vraisemblance ou test de Wald pour les tests d’hypothèses

Section 2.1 Estimation par histogrammes 11

D’autre part,∫ 1

0

{E f [ fh(x)]− f (x)

}2 dx =m

∑j=1

∫Cj

( pj

h− f (x)

)2dx

=m

∑j=1

p2j

h− 2

pj

h

∫Cj

f (x) dx +∫ 1

0f 2(x) dx

=∫ 1

0f 2(x) dx− 1

h

m

∑j=1

p2j .

Nous avons donc démontré le résultat suivant :

Lemme 2.1. Si X1, . . . , Xn sont indépendantes de même loi de densité f supportée par [0, 1] et fh estl’estimateur par histogramme avec m = 1/h classes, alors

MISE f (h) = E f

[ ∫ 1

0

(fh(x)− f (x)

)2dx]

=∫ 1

0f 2(x) dx +

1nh− n + 1

nh

m

∑j=1

p2j .

Le résultat du Lemme 2.1 est non-asymptotique : il est valable pour tout h et pour toutn. Ce qui nous intéresse maintenant c’est le comportement du risque MISE lorsque h = hndécroit vers zéro quand n tend vers +∞. On vérifie aisément que∫

Cj

f (x)2 dx− h−1 p2j =

∫Cj

(f (x)− 1

h

∫Cj

f (u) du)2

dx

=1h2

∫Cj

( ∫Cj

{f (x)− f (u)} du

)2

dx.

Comme f est supposée deux fois continûment différentiable, on a f (u) − f (x) = (u −x) f ′(aj) + O(h2) pour tout u, x ∈ Cj, où aj désigne l’extrémité gauche de l’intervalle Cj.Par conséquent,∫

Cj

f (x)2 dx− h−1 p2j =

f ′(aj)2

h2

∫Cj

( ∫Cj

(x− u) du)2

dx + O(h4).

En utilisant le changement de variable (x, u) = (aj + yh, aj + zh), on obtient∫Cj

( ∫Cj

(x− u) du)2

dx = h5∫ 1

0

( ∫ 1

0(y− z) dz

)2

dy =h5

12.

Nous avons donc démontré que∫Cj

f (x)2 dx− h−1 p2j =

h3

12f ′(aj)2 + O(h4) =

h2

12

∫Cj

f ′(x)2 dx + O(h4).

En conséquence,

MISE f (h) =m

∑j=1

( ∫Cj

f (x)2 dx− h−1 p2j

)+

1nh− 1

nh

m

∑j=1

p2j

=h2

12

∫ 1

0f ′(x)2 dx + O(h3) +

1nh

+ O(1/n),

Page 12: Ecole Centrale de Parisimagine.enpc.fr/~dalalyan/Download/poly.pdf · 2011. 2. 16. · –test de Neyman-Pearson, test du rapport de vraisemblance ou test de Wald pour les tests d’hypothèses

12 Modèle de densité Chapitre 2

où nous avons utilisé la relation mO(h4) = O(h3). Ces calculs implique donc le résultatsuivant :

Théorème 2.1. Supposons que la densité de l’échantillon X1, . . . , Xn est deux fois continûment dif-férentiable et s’annule en dehors de l’intervalle [0, 1]. Si la fenêtre h de l’estimateur par histogrammefh est telle que hn → 0 lorsque n→ ∞, alors

MISE f (h) =h2

12

∫ 1

0f ′(x)2 dx +

1nh︸ ︷︷ ︸

terme principal du risque

+ O(h3) + O( 1

n

)︸ ︷︷ ︸

terme résiduel

lorsque n→ ∞.

Supposons un instant qu’on cannaît la quantité∫ 1

0 f ′(x)2 dx. Dans ce cas, on peut calculerle terme principal du risque MISE f (h). Cela nous permet de trouver la valeur idéale de lafenêtre qui minimise le terme principal du risque. En effet, on voit aisément que le minimumde la fonction

h 7→ h2

12

∫ 1

0f ′(x)2 dx +

1nh

est atteint au point

hopt =(n

6

∫ 1

0f ′(x)2 dx

)−1/3.

Cette fenêtre optimale est en général inaccessible au statisticien, car la densité f (ainsi que sadérivée) est inconnue. Cependant, elle a le mérite de nous indiquer que la fenêtre optimaledoit être de l’ordre de n−1/3 lorsque n est grand. De plus, en injectant cette valeur de h dansl’expression de MISE obtenue dans le théorème précédent, on obtient

MISE f (hopt) = (3/4)2/3( ∫ 1

0f ′(x)2 dx

)1/3n−2/3 + O(n−1).

Ce résultat nous indique les limites de l’estimateur par histogramme : pour les densités deuxfois différentiables, la meilleure vitesse de convergence qu’on puisse espérer atteindre avecun estimateur par histogramme est de n−2/3. Cette une vitesse honorable, mais elle est net-tement moins bonne que la vitesse de convergence 1/n qui apparaît typiquement dans desproblèmes paramétriques. Ceci n’est pas très surprenant, car l’estimation de densité est unproblème non-paramétrique et, par conséquent, est plus difficile à résoudre qu’un problèmeparamétrique.

En revanche, on verra par la suite que, sous les mêmes hypothèses que celles considéréesdans ce paragraphe, on peut construire un autre estimateur de la densité f qui convergeà une meilleure vitesse n−4/5. L’estimateur qui atteint cette vitesse s’appelle estimateur ànoyau et on peut démontrer que cette vitesse ne peut pas être améliorée sans imposer denouvelles condition sur f .

2.1.4 Choix de la fenêtre par validation croisée

Comme on l’a déjà fait remarquer, la fenêtre idéale hopt définie dans le paragraphe pré-cédent est inutilisable en pratique car elle fait intervenir la densité inconnue f à travers

Page 13: Ecole Centrale de Parisimagine.enpc.fr/~dalalyan/Download/poly.pdf · 2011. 2. 16. · –test de Neyman-Pearson, test du rapport de vraisemblance ou test de Wald pour les tests d’hypothèses

Section 2.1 Estimation par histogrammes 13

l’intégrale du carré de sa dérivée. Afin de désigner une méthode de choix de h indépendantde f , nous commençons par estimer le risque 1 de l’estimateur fh en utilisant uniquementles observations X1, . . . , Xn. Soit J(h, X1, . . . , Xn) un estimateur de MISE f (h) − ‖ f ‖2

2. Pourque la méthode de sélection de h conduise vers des résultats raisonnable, on demande del’estimateur J(h, X1, . . . , Xn) être sans biais 2, c’est-à-dire

E f [ J(h, X1, . . . , Xn)] = MISE f (h)− ‖ f ‖22.

Une fois que nous avons à notre disposition cet estimateur J, on détermine la valeur de h enminimisant J(h, X1, . . . , Xn) par rapport à h ∈]0, ∞[. La valeur de h où ce minimum est at-teint est sélectionnée comme fenêtre pour l’estimateur par histogramme. Voyons maintenantcomment cette méthode peut être effectivement mise en oeuvre.

Pour toute densité f et pour tout histogramme fh, soit

J f (h) = MISE f (h)− ‖ f ‖22 =

1nh− n + 1

nh

m

∑j=1

p2j , (2.3)

en vertu du Lemme 2.1. Rappelons que pj représente la proportion théorique des observa-tions qui se situent dans la classe Cj, pour tout j = 1, . . . , m. Il découle de cette rélation quepour désigner un estimateur sans biais de J f (h), il suffit de désigner un estimateur sans biaisde p2

j , pour tout j = 1, . . . , m. Une approche naïve consisterait à estimer p2j par p2

j , où

pj =1n

n

∑i=1

1lCj(Xi)

est la proportion empirique des observations se situant dans Cj. Comme npj suit la loi binô-miale de paramètres (n, pj), on a Var f [ pj] = pj(1− pj)/n et, par conséquent,

E f [ p2j ] = Var f [ pj] + (E f [ pj])2 = p2

j

(1− 1

n

)+

pj

n. (2.4)

Cette égalité nous montre d’une part que l’idée naïve d’estimer p2j par p2

j ne conduit pasvers un estimateur sans biais. Mais, d’autre part, ce petit calcul que nous venons d’effectuerprépare le terrain pour déterminer l’estimateur utilisé par la méthode de validation croisée.En effet, comme pj est un estimateur sans biais de pj, il résulte de (2.4) que p2

j − pj/n est unestimateur sans biais de p2

j (1− 1/n). Par conséquent, pour tout j = 1, . . . , m,

p2j =

p2j − pj/n

1− 1/n=

nn− 1

p2j −

1n− 1

pj

est un estimateur sans biais de p2j . En injectant cet estimateur dans le membre droit de l’éga-

lité (2.3) et en utilisant le fait que ∑mj=1 pj = 1, nous obtenons le résultat suivant.

1. En pratique, il est préférable d’estimer non pas le risque MISE f (h) de fh, mais la différence entre le risquede fh et celui de l’estimateur trivial ftriv ≡ 0.

2. Idéalement, il faudrait également pouvoir contrôler la variance de J(h, X1, . . . , Xn), mais cet aspect ne serapas évoqué dans le cadre de ce cours.

Page 14: Ecole Centrale de Parisimagine.enpc.fr/~dalalyan/Download/poly.pdf · 2011. 2. 16. · –test de Neyman-Pearson, test du rapport de vraisemblance ou test de Wald pour les tests d’hypothèses

14 Modèle de densité Chapitre 2

Proposition 2.1. Si f est une densité de carré intégrable et si fh est l’histogramme à m = 1/hclasses basé sur l’échantillon X1, . . . , Xn ayant f pour densité de probabilité, alors

J(h, X1, . . . , Xn) =2

(n− 1)h− n + 1

(n− 1)h

m

∑j=1

p2j

est un estimateur sans biais de MISE f (h)− ‖ f ‖22.

Nous pouvons à présent énoncer la méthode de validation croisée. Nous allons le faire dansle cadre général, sans supposer que les observations sont incluses dans [0, 1]. Dans ce cas, onpeut poser a = mini Xi et b = maxi Xi et pour tout m ∈ N choisir la fenêtre h = (b− a)/m.On définit alors les classes Cj = [a + (j− 1)h; a + jh[ pour j = 1, . . . , m− 1 et Cm = [b− h; b].

Algorithm de validation croisée pour choisir la fenêtre d’un histogramme.

Entrée : X1, . . . , Xn ;

Sortie : hCV ;

Définir a← mini Xi ;b← maxi Xi ;

Initialiserm← 1 ;mCV ← 1 ;JCV ← −1 ;

Tant que (m < n) effectuer :

Poser J ← 2mn− 1

− (n + 1)mn− 1

m

∑j=1

( 1n

n

∑i=1

1lCj(Xi))2

;

Si (J < JCV) alorsmCV ← m ;JCV ← J ;

FinSi

m← m + 1 ;

Fin Tant que

hCV ← (b− a)/mCV ;

Une fois la fenêtre hCV déterminée, nous pouvons calculer et tracer la courbe de l’histo-gramme ayant comme fenêtre hCV .

2.2 Estimateur à noyau

L’estimation de la densité par histogrammes est une méthode naturelle très répenduecar elle est facilement implémentable. Cependant, l’estimateur de densité fournit par un his-togramme ne peut pas être adapté à la situation assez courant où nous disposons d’une

Page 15: Ecole Centrale de Parisimagine.enpc.fr/~dalalyan/Download/poly.pdf · 2011. 2. 16. · –test de Neyman-Pearson, test du rapport de vraisemblance ou test de Wald pour les tests d’hypothèses

Section 2.2 Estimateur à noyau 15

information à priori sur la régularité de la densité à estimer. Plus précisément, si l’on sait paravance que la densité de l’échantillon observé est, par exemple, deux fois continûment dif-férentiable, on aurait naturellement envie d’estimer cette densité par une fonction qui, elleaussi, est deux fois continûment différentiable. Or, les histogrammes sont des fonctions quine sont même pas continues. Il est naturel alors de vouloir “lisser” les histogrammes. Ons’attend alors à ce que le résultat du lissage améliore non seulement l’aspect visuel de l’esti-mateur, mais produise de plus un estimateur plus proche de la vraie densité que l’estimateurpar histogramme.

2.2.1 Définition et propriétés élémentaires

Soit x ∈ R et h > 0. Si l’on suppose que x est le centre d’une classe de l’histogramme etque h est la longueur des classes, l’estimateur de f (x) par histogramme peut s’écrire comme

f Hh (x) =

1nh

n

∑i=1

1l(|Xi − x| ≤ h/2) =1

nh

n

∑i=1

1l( |Xi − x|

h≤ 1

2

).

Une façon de généraliser les histogramme consiste à utiliser la formule ci-dessus pour toutx ∈ R et pas seulement pour les centres des classes. Cette généralisation est certe utile, carelle conduit vers un estimateur qui est constant par morceaux comme les histogrammes,mais a l’avantage d’avoir des plateaux de longueurs variables. Cependant, cela ne nousconduit pas vers un estimateur continu. On remarque aisément que la discontinuité de l’es-timateur défini ci-dessus est une conséquence de la discontinuité de la fonction indicatrice.Par conséquent, en remplaçant 1l(|z| ≤ 1

2 ) par une fonction K quelconque, on obtient l’esti-mateur

f Kh (x) =

1nh

n

∑i=1

K(Xi − x

h

)qui est continu et même `-fois continûment différentiable du moment où la fonction K l’est.On arrive ainsi à la définition suivante.

Définition 2.1. Soit K : R → R une fonction quelconque et soit h un réel positif. On appelleestimateur à noyau la fonction

f Kh (x) =

1nh

n

∑i=1

K(Xi − x

h

). (2.5)

On dit alors que K est le noyau de cet estimateur et h est la fenêtre.

Selon cette définition, toute fonction K peut servir comme noyau d’estimation d’une den-sité f . Les noyaux les plus couramment utilisés en pratique sont

– le noyau rectangulaire :

K(u) =12

1l[−1,1](u),

– le noyau triangulaire :K(u) = (1− |u|)1l[−1,1](u),

Page 16: Ecole Centrale de Parisimagine.enpc.fr/~dalalyan/Download/poly.pdf · 2011. 2. 16. · –test de Neyman-Pearson, test du rapport de vraisemblance ou test de Wald pour les tests d’hypothèses

16 Modèle de densité Chapitre 2

– le noyau d’Epanechnikov :

K(u) =34(1− u2)1l[−1,1](u),

– le noyau gaussien :

K(u) =1√2π

e−u2/2.

Les courbes de ces noyaux sont présentées ci-dessous :

Lemme 2.2. Si K est positive et∫

R K(u) du = 1, alors f Kh (·) est une densité de probabilité. De plus,

f Kh est continue si K est continue.

Démonstration. L’estimateur à noyau est positive et continue car la somme des fonctions po-sitives et continues est elle-même une fonction positive et continue. Il faut donc vérifier quel’intégrale de f K

h (·) vaut un. En effet,

∫R

f Kh (x) dx =

∫R

1nh

n

∑i=1

K(Xi − x

h

)dx

=1

nh

n

∑i=1

∫R

K(Xi − x

h

)dx (u = (Xi − x)/h)

=1

nh

n

∑i=1

∫R

K(u) hdu = 1.

On voit donc que, tout comme l’estimateur par histogramme, l’estimateur à noyau estune densité de probabilité. Il a de plus l’avantage d’être continu à condition que K le soit, ce

Page 17: Ecole Centrale de Parisimagine.enpc.fr/~dalalyan/Download/poly.pdf · 2011. 2. 16. · –test de Neyman-Pearson, test du rapport de vraisemblance ou test de Wald pour les tests d’hypothèses

Section 2.2 Estimateur à noyau 17

qui n’était pas le cas pour les histogrammes. Par conséquent, lorsqu’on estime une densitécontinue, il est naturel de s’attendre que l’estimateur à noyau soit meilleur que l’estimateurpar histogramme. Le but de la suite de ce chapitre est de donner des résultats quantitativescaractérisant le gain obtenu par l’utilisation de f K

h par rapport à f Hh .

2.2.2 Etude du biais et de la variance

Lorsqu’on définit un estimateur à noyau, on a non-seulement le choix de la fenêtre h > 0mais aussi celui du noyau K. Il y a un certain nombre de conditions qui sont considéréescomme usuelles pour les noyaux et qui permettent d’analyser le risque de l’estimateur ànoyau qui en résulte.HYPOTHÈSE K : On suppose que K vérifie les 4 conditions suivantes :

1.∫

R K(u) du = 1,2. K est une fonction paire ou, plus généralement,

∫R u K(u) du = 0,

3.∫

R u2|K(u)| du < ∞,4.∫

R K(u)2 du < ∞.

Proposition 2.2. Si les trois premières conditions de l’hypothèse K sont remplies et f est une densitébornée dont la dérivée seconde est bornée, alors∣∣Biais

(f Kh (x)

)∣∣ ≤ C1h2,

où C1 = 12 supz∈R | f ′′(z)|

∫R u2|K(u)| du.

Si, de plus, la condition 4 de l’hypothèse K est satisfaite, alors

Var(

f Kh (x)

)≤ C2

nhavec C2 = supz∈R f (z)

∫R K(u)2 du.

Démonstration. Commençons par calculer le biais :

E f [ f Kh (x)] =

1nh

n

∑i=1

E f

[K(Xi − x

h

)]=

1nh

n

∑i=1

∫R

K(y− x

h

)f (y) dy

=1h

∫R

K(y− x

h

)f (y) dy (y = x + uh, dy = hdu)

=∫

RK(u) f (x + uh) du.

En effectuant un dévelopement limité à l’ordre 2, il vient

E f [ f Kh (x)] =

∫R

K(u) f (x + uh) du

=∫

RK(u)

[f (x) + (uh) f ′(x) +

(uh)2

2f ′′(ξu)

]du (ξu ∈ [x, x + uh])

= f (x)∫

RK(u) du︸ ︷︷ ︸

=1

+h f ′(x)∫

RuK(u) du︸ ︷︷ ︸

=0

+h2

2

∫R

u2K(u) f ′′(ξu) du.

Page 18: Ecole Centrale de Parisimagine.enpc.fr/~dalalyan/Download/poly.pdf · 2011. 2. 16. · –test de Neyman-Pearson, test du rapport de vraisemblance ou test de Wald pour les tests d’hypothèses

18 Modèle de densité Chapitre 2

Il en résulte que ∣∣Biais(

f Kh (x)

)∣∣ =∣∣E f [ f K

h (x)]− f (x)∣∣

≤ h2

2

∣∣∣ ∫R

u2K(u) f ′′(ξu) du∣∣∣

≤ h2

2

∫R

u2|K(u)| | f ′′(ξu)| du

≤ h2 maxx | f ′′(x)|2

∫R

u2|K(u)| du︸ ︷︷ ︸C1

d’où la première assertion de la proposition.

Pour prouver la seconde assertion, on utilise le faite que les variables aléatoires Yi =K((Xi − x)/h

), i = 1, . . . , n sont i.i.d. et que la variance de la somme de variables indépen-

dantes coïncide avec la somme des variances :

Var f [ f Kh (x)] =

1(nh)2 Var f

[ n

∑i=1

K(Xi − x

h

)]=

1(nh)2

n

∑i=1

Var f

[K(Xi − x

h

)]=

1(nh)2 × n×Var f

[K(X1 − x

h

)]≤ 1

nh2 E f

[K(X1 − x

h

)2]=

1nh2

∫R

K(y− x

h

)2f (y) dy (y = x + uh, dy = hdu)

=1

nh

∫R

K(u)2 f (x + uh) du

≤ 1nh ∑

zf (z)

∫R

K(u)2 du︸ ︷︷ ︸C2

.

C’est exactement ce qu’il fallait démontrer.

2.2.3 Quelques remarques

Les évaluations du biais et de la variance que l’on vient de démontrer ont un certainnombre de conséquences résumées ci-dessous.

Vitesse de convergence : On déduit de la Proposition 2.2 que le risque MSE de f Kh (x) admet

la majoration suivante :

MSE(

f Kh (x)

)≤ C2

1h4 +C2

nh.

On vérifie aisément que la valeur de la fenêtre h qui minimise le majorant du MSEest hopt = (C2/4C2

1)1/5n−1/5. En injectant cette valeur dans l’expression du MSE on

obtient :MSE

(f Khopt

(x))≤ Const · n−4/5.

Page 19: Ecole Centrale de Parisimagine.enpc.fr/~dalalyan/Download/poly.pdf · 2011. 2. 16. · –test de Neyman-Pearson, test du rapport de vraisemblance ou test de Wald pour les tests d’hypothèses

Section 2.2 Estimateur à noyau 19

Cela montre que la vitesse de convergence de l’estimateur à noyau est de n−4/5. Elle estdonc meilleure que la vitesse n−2/3 obtenue pour les histogrammes. Par conséquent,les estimateurs à noyau sont préférables aux histogrammes lorsqu’il s’agit d’estimerune densité deux fois continûment différentiable.

Optimalité de la vitesse : On peut démontrer qu’il est impossible d’estimer f à une vitessemeilleure que n−4/5 sans imposer des hypothèses supplémentaires (de régularité oude structure) sur la densité inconnue f .

Sur-lissage et sous-lissage : Lorsque la fenêtre h est très petit, le biais de l’estimateur ànoyau est très petit face à sa variance et c’est cette dernière qui détermine la vitesse deconvergence du risque quadratique. Dans ce type de situation, l’estimateur est très vo-latile et on parle de sous-lissage (under-smoothing, en anglais). En revanche, lorsqueh grandit, la variance devient petite et c’est le biais qui devient dominant. L’estima-teur est alors très peu variable et est de moins à moins influencé par les données. Onparle alors d’un effet de sur-lissage (over-smoothing en anglais). En pratique, il est pri-mordial de trouver la bonne dose de lissage qui permet d’éviter le sous-lissage et lesur-lissage.

Décriptage de la vitesse de convergence : On peut se demander d’où viennent le 4 et lle 5dans la vitesse de convergence n−4/5 présentée ci-dessus. En fait, si l’on estime unedensité non pas univariée, mais d-variée 3, et l’on suppose que f est k fois continûmentdifférentiable, alors la vitesse de convergence optimale est de n−2k/(2k + d). Dans lecas où d = 1 et k = 2, on retrouve la vitesse n−4/5.

Comparaison avec le cadre paramétrique : Dans la théorie statistique paramétrique clas-sique, la vitesse de convergence usuelle pour le risque quadratique est de n−1, où nest le nombre d’observations. On voit que la vitesse n−4/5 obtenue pour l’estimateurà noyau est meilleure que n−2/3 obtenu pour l’estimateur par histogramme mais restequand-même inférieure à la vitesse paramétrique. Ceci est tout à fait naturelle et tra-duit la complexité de l’estimation non-paramétrique comparée à l’estimation paramé-trique. On peut remarquer également que lorsque la régularité de la densité tend versl’infinie (β→ ∞), la vitesse de convergence se rapproche de plus en plus de la “vitesseparamétrique”.

Exercice 2.2. Soit β > 0, L > 0 et soit 4 k = bβc. On suppose que la densité f appartient à la classede Hölder H (β, L) définie par :

f ∈H (β, L) ⇐⇒ f ∈ Ck et | f (k)(y)− f (k)(x)| ≤ L|x− y|β−k, ∀x, y.

1. Montrer que si le noyau K vérifie les conditions K et∫

R ujK(u) = 0, ∀j = 1, . . . , k, et∫|u|β|K(u)|du < ∞ alors il existe des constantes C1 et C2 telles que

MSE f [ f Kh (x)] ≤ C1h2β +

C2

nh.

2. En déduire la valeur hopt de la fenêtre h qui minimise le majorant du risque. Quelle est la vitessede convergence du risque associé à cette fenêtre optimale ?

3. Montrer que si le noyau K vérifie les conditions ci-dessus et si β > 2, alors l’estimateur f Kh

n’est pas une densité de probabilité.

3. c’est-à-dire f : Rd → R4. bβc désigne le plancher de β, c’est-à-dire le plus grand nombre entier strictement plus petit que β

Page 20: Ecole Centrale de Parisimagine.enpc.fr/~dalalyan/Download/poly.pdf · 2011. 2. 16. · –test de Neyman-Pearson, test du rapport de vraisemblance ou test de Wald pour les tests d’hypothèses

20 Modèle de densité Chapitre 2

2.2.4 Validation croisée

Pour désigner une méthode automatique pour le choix de la fenêtre h, on utilise souventla méthode de la validation croisée. Il s’agit de proposer dans un premier temps (pour unh fixé) un estimateur J(h) sans biais de la quantité J(h) = MISE( f K

h ) − ‖ f ‖22 et, dans un

deuxième temps, de minimiser cet estimateur J(h) sur un ensemble fini de candidats pour h.

Proposition 2.3. La statistique

J(h) = ‖ f Kh ‖2

2 −2

n(n− 1)h

n

∑i=1

n

∑j=1,j 6=i

K(

Xi − Xj

h

)est un estimateur sans biais de J(h).

Démonstration. D’une part, comme la densité jointe du couple (Xi, Xj) est f (x) f (y), on a

E f [ J(h)] = E f [‖ f Kh ‖2

2]−2

n(n− 1)h

n

∑i=1

n

∑j=1,j 6=i

E f

[K(

Xi − Xj

h

)]

= E f [‖ f Kh ‖2

2]−2

n(n− 1)h

n

∑i=1

n

∑j=1,j 6=i

∫R2

K(

x− yh

)f (x) f (y) dxdy

= E f [‖ f Kh ‖2

2]−2

n(n− 1)h× n(n− 1)×

∫R2

K(

x− yh

)f (x) f (y) dxdy

= E f [‖ f Kh ‖2

2]−2h

∫R2

K(

x− yh

)f (x) f (y) dxdy.

D’autre part,

J(h) = MISE( f Kh )− ‖ f ‖2

2 = E f [‖ f Kh − f ‖2

2]− ‖ f ‖22

= E f

[‖ f K

h ‖22 − 2〈 f K

h , f 〉+ ‖ f ‖22

]− ‖ f ‖2

2

= E f[‖ f K

h ‖22]− 2E f

[ ∫R

f Kh (x) f (x) dx

]= E f

[‖ f K

h ‖22]− 2

∫R

E f[

f Kh (x)

]f (x) dx.

Or, on a vu déjà (voir la démonstration de la Prop. 2.2) que E f[

f Kh (x)

]= 1

h

∫R K( y−x

h

)f (y) dy.

Par conséquent,

J(h) = E f[‖ f K

h ‖22]− 2

∫R

E f[

f Kh (x)

]f (x) dx

= E f[‖ f K

h ‖22]− 2

∫R

1h

∫R

K(y− x

h

)f (y) dy f (x) dx

= E f[‖ f K

h ‖22]− 2

h

∫R

∫R

K(y− x

h

)f (y) f (x) dy dx

= E f [ J(h)],

ce qui équivaut à dire que J(h) est un estimateur sans biais de J(h).

En utilisant cet estimateur J(h), on définit l’algorithm de validation croisée (cross valida-tion, en anglais) de la même manière que pour les estimateurs par histogramme.

Page 21: Ecole Centrale de Parisimagine.enpc.fr/~dalalyan/Download/poly.pdf · 2011. 2. 16. · –test de Neyman-Pearson, test du rapport de vraisemblance ou test de Wald pour les tests d’hypothèses

Section 2.3 Exercices 21

2.3 Exercices

Page 22: Ecole Centrale de Parisimagine.enpc.fr/~dalalyan/Download/poly.pdf · 2011. 2. 16. · –test de Neyman-Pearson, test du rapport de vraisemblance ou test de Wald pour les tests d’hypothèses
Page 23: Ecole Centrale de Parisimagine.enpc.fr/~dalalyan/Download/poly.pdf · 2011. 2. 16. · –test de Neyman-Pearson, test du rapport de vraisemblance ou test de Wald pour les tests d’hypothèses

3Modèle de régression

3.1 Définitions

3.2 Régressogrammes

3.3 Moyenne Locale

3.4 Estimateur à Noyau

3.5 Estimateur par Polynômes Locaux

3.5.1 Définition et Propriétés de bases

3.5.2 Etude du Biais et de la Variance

3.5.3 Vitesse de convergence

3.6 Lissage Linéaire et Validation Croisée

3.7 Estimation de la Variance

3.8 Exemple

3.9 Exercices