Click here to load reader

Corrections des exercices - perso.univ-rennes2.fr · Chapitre 1 Corrections des exercices 1.1 Régression linéaire simple Exercice 1.1 (Questions de cours) B, A, B, A. Exercice 1.2

  • View
    241

  • Download
    1

Embed Size (px)

Text of Corrections des exercices - perso.univ-rennes2.fr · Chapitre 1 Corrections des exercices 1.1...

  • Chapitre 1

    Corrections des exercices

    1.1 Rgression linaire simple

    Exercice 1.1 (Questions de cours)B, A, B, A.

    Exercice 1.2 (Biais des estimateurs)Les j sont fonctions de Y (alatoire), ce sont donc des variables alatoires. Une autre

    faon dcrire 2 en fonction de 2 consiste remplacer yi dans (??) par sa valeur soit

    2 =

    (xi x)yi(xi x)2

    =1

    (xi x) + 2

    xi(xi x) +

    (xi x)i(xi x)2

    = 2 +

    (xi x)i(xi x)2

    .

    Par hypothse E(i) = 0, les autres termes ne sont pas alatoires, le rsultat est dmontr.Le rsultat est identique pour 1 car E(1) = E(y) xE(2) = 1 + x2 x2 = 1, lersultat est dmontr.

    Exercice 1.3 (Variance des estimateurs)Nous avons

    V(2) = V

    (2 +

    (xi x)i(xi x)2

    ).

    Or 2 est inconnu mais pas alatoire et les xi ne sont pas alatoires donc

    V(2) = V

    ((xi x)i(xi x)2

    )=

    V (

    (xi x)i)[

    (xi x)2]2

    =

    i,j(xi x)(xj x)Cov(i, j)

    [

    (xi x)2]2.

    Or Cov(i, j) = ij2 donc

    V(2) =

    i(xi x)22[i(xi x)2

    ]2 =2

    (xi x)2 .

  • 2 Rgression avec R

    Plus les mesures xi sont disperses autour de leur moyenne, plus V(2) est faible et pluslestimation est prcise. Bien sr, plus 2 est faible, cest--dire plus les yi sont prochesde la droite inconnue, plus lestimation est prcise.Puisque 1 = y 2x, nous avons

    V(1) = V(y 2x

    )= V (y) + V (x2) 2Cov(y, 2x)

    = V

    (yi

    n

    )+ x2

    2(xi x)2

    2xCov(y, 2)

    =2

    n+ x2

    2(xi x)2 2x

    i

    Cov(y, 2).

    Calculons

    Cov(y, 2) =1

    nCov

    (

    i

    (1 + 2xi + i) ,

    j(xj x)jj(xj x)2

    )

    =1

    n

    i

    Cov

    (i,

    j(xj x)jj(xj x)2

    )

    =1

    j(xj x)2

    i

    1

    nCov

    (i,

    j

    (xj x)j)

    =2 1

    n

    i(xi x)

    j(xj x)2= 0.

    Nous avons donc

    V(1) =2

    n+ x2

    2(xi x)2

    =2

    x2in

    (xi x)2.

    L encore, plus 2 est faible, cest--dire plus les yi sont proches de la droite inconnue,plus lestimation est prcise. Plus les valeurs xi sont disperses autour de leur moyenne,plus la variance de lestimateur sera faible. De mme, une faible moyenne x en valeurabsolue contribue bien estimer 1.

    Exercice 1.4 (Covariance de 1 et 2)Nous avons

    Cov(1, 2) = Cov(y 2x, 2) = Cov(y, 2) xV(2) = 2x

    (xi x)2 .

    La covariance entre 1 et 2 est ngative. Lquation y = 1 + 2x indique que la droitedes MC passe par le centre de gravit du nuage (x, y). Supposons x positif, nous voyonsbien que, si nous augmentons la pente, lordonne lorigine va diminuer et vice versa.Nous retrouvons donc le signe ngatif pour la covariance entre 1 et 2.

    Exercice 1.5 (Thorme de Gauss-Markov)Lestimateur des MC scrit 2 =

    ni=1 piyi, avec pi = (xi x)/

    (xi x)2.

    Considrons un autre estimateur 2 linaire en yi et sans biais, cest--dire

    2 =n

    i=1

    iyi.

  • Chapitre 1. Corrections des exercices 3

    Montrons que

    i = 0 et

    ixi = 1. Lgalit E(2) = 1

    i+2

    ixi+

    iE(i)est vraie pour tout 2 et 2 est sans biais donc E(2) = 2 pour tout 2, cest--dire que

    i = 0 et

    ixi = 1.Montrons que V(2) V(2).

    V(2) = V(2 2 + 2) = V(2 2) + V(2) + 2Cov(2 2, 2).

    Cov(2 2, 2)=Cov(2, 2) V(2)= 2

    i(xi x)(xi x)2

    2(xi x)2 =0,

    et donc

    V(2) = V(2 2) + V(2).Une variance est toujours positive et donc

    V(2) V(2).Le rsultat est dmontr. On obtiendrait la mme chose pour 1.

    Exercice 1.6 (Somme des rsidus)Il suffit de remplacer les rsidus par leur dfinition et de remplacer 1 par son expression

    i

    i =

    i

    (yi y + 2x 2xi) =

    i

    (yi y) 2

    i

    (xi x) = 0.

    Exercice 1.7 (Estimateur de la variance du bruit)Rcrivons les rsidus en constatant que 1 = y 2x et 1 = y 2x ,

    i = 1 + 2xi + i 1 2xi= y 2x + 2xi + i y + 2x 2xi= (2 2)(xi x) + (i ).

    En dveloppant et en nous servant de lcriture de 2 donne dans la solution de lexercice??, nous avons

    2i = (2 2)2

    (xix)2+

    (i)2+2(22)

    (xix)(i)

    = (2 2)2

    (xi x)2 +

    (i )2 2(2 2)2

    (xi x)2.

    Prenons en lesprance

    E

    (i

    2)= E

    ((i )2

    )

    (xi x)2 V(2) = (n 2)2.

    Exercice 1.8 (Variance de ypn+1)

    Calculons la variance

    V(ypn+1

    )= V

    (1 + 2xn+1

    )= V(1) + x

    2n+1 V(2) + 2xn+1 Cov

    (1, 2

    )

    =2

    (xi x)2(

    x2in

    + x2n+1 2xn+1x)

    =2

    (xi x)2(

    (xi x)2n

    + x2 + x2n+1 2xn+1x)

    = 2(1

    n+

    (xn+1 x)2(xi x)2

    ).

  • 4 Rgression avec R

    Plus la valeur prvoir sloigne du centre de gravit, plus la valeur prvue sera variable(i.e. de variance leve).

    Exercice 1.9 (Variance de lerreur de prvision)Nous obtenons la variance de lerreur de prvision en nous servant du fait que yn+1 estfonction de n+1 seulement, alors que y

    pn+1 est fonction des autres i, i = 1, , n. Les

    deux quantits ne sont pas corrles. Nous avons alors

    V(pn+1)=V(yn+1ypn+1

    )=V(yn+1)+V(y

    pn+1)=

    2

    (1 +

    1

    n+(xn+1 x)2

    (xi x)2).

    Exercice 1.10 (R2 et coefficient de corrlation)Le coefficient R2 scrit

    R2 =

    ni=1

    (1 + 2xi y

    )2

    ni=1 (yi y)2

    =

    ni=1

    (y 2x+ 2xi y

    )2

    ni=1(yi y)2

    =22n

    i=1 (xi x)2ni=1 (yi y)2

    =

    [ni=1 (xi x)(yi y)

    ]2ni=1 (xi x)2[n

    i=1 (xi x)2]2n

    i=1(yi y)2

    =

    [ni=1 (xi x)(yi y)

    ]2n

    i=1 (xi x)2n

    i=1 (yi y)2= 2(X,Y ).

    Exercice 1.11 (Les arbres)Le calcul donne

    1 =6.26

    28.29= 0.22 0 = 18.34 0.22 34.9 = 10.662.

    Nous nous servons de la propritn

    i=1 i = 0 pour obtenir

    R2 =

    20i=1(yi y)220i=1(yi y)2

    =

    20i=1(1xi 1x)220

    i=1(yi y)2= 0.222 28.29

    2.85= 0.48.

    Les statistiques de test valent 5.59 pour 0 et 4.11 pour 1. Elles sont comparer unfractile de la loi de Student admettant 18 ddl, soit 2.1. Nous rejetons dans les deux caslhypothse de nullit du coefficient. Nous avons modlis la hauteur par une fonctionaffine de la circonfrence, il semblerait vident que la droite passe par lorigine (un arbreadmettant un diamtre proche de zro doit tre petit), or nous rejetons lhypothse0 = 0. Les donnes mesures indiquent des arbres dont la circonfrence varie de 26 43cm, les estimations des paramtres du modle sont valides pour des donnes proches de[26; 43].

    Exercice 1.12 (Modle quadratique)Les modles sont

    O3 = 1 + 2T12+ modle classique,

    O3 = 1 + 2T122 + modle demand.

    Lestimation des paramtres donne

    O3 = 31.41 + 2.7 T12 R2 = 0.28 modle classique,

    O3 = 53.74 + 0.075 T122 R2 = 0.35 modle demand.

    Les deux modles ont le mme nombre de paramtres, nous prfrons le modle quadra-tique car le R2 est plus lev.

  • Chapitre 1. Corrections des exercices 5

    1.2 Rgression linaire multiple

    Exercice 2.1 (Questions de cours)A, A, B, B, B, C.

    Exercice 2.2 (Covariance de et de Y )Les matrices X, PX et PX sont non alatoires. Nous avons alors

    Cov(, Y ) = E(Y )E()E(Y )= E

    [PX(PX(X + ))

    ]

    = E(PXX ) +E(PX

    PX)

    = 0 + PX2PX = 0.

    Exercice 2.3 (Thorme de Gauss-Markov)Nous devons montrer que, parmi tous les estimateurs linaires sans biais, lestimateur de

    MC est celui qui a la plus petite variance. La linarit de est vidente. Calculons savariance :

    V() = V((X X)1X Y ) = (X X)1X V(Y )X(X X)1 = 2(X X)1.

    Nous allons montrer que, pour tout autre estimateur de linaire et sans biais, V() V(). Dcomposons la variance de

    V() = V( + ) = V( ) + V() 2Cov( , ).

    Les variances tant dfinies positives, si nous montrons que Cov( , ) = 0, nousaurons fini la dmonstration.Puisque est linaire, = AY . De plus, nous savons quil est sans biais, cest--direE() = pour tout , donc AX = I . La covariance devient :

    Cov( , ) = Cov(AY, (X X)1X Y ) V()= 2AX(X X)1 2(X X)1 = 0.

    Exercice 2.4 (Reprsentation des variables)Nous reprsentons les donnes dans R2 pour le premier jeu et dans R3 pour le second.

    OY

    OX

    Oy

    y

    xO

    x

    z

    y

    OY

    Oy

    OX

    OZ

    Fig. 2.1 Reprsentation des donnes.

  • 6 Rgression avec R

    Dans le premier modle, nous projetons Y sur lespace engendr par X, soit la droite de

    vecteur directeurOX . Nous trouvons par le calcul = 1.47, rsultat que nous aurions

    pu trouver graphiquement carOY = .

    OX .

    Considrons R3 muni de la base orthonorme (~i,~j,~k). Les vecteursOX et

    OZ engendrent

    le mme plan que celui engendr par (~i,~j). La projection de Y sur ce plan donneOY .

    Il est quasiment impossible de trouver et graphiquement mais nous trouvons par lecalcul = 3.33 et = 5.

    Exercice 2.5 (Modles embots)Nous obtenons

    Yp = X et Yq = Xq .

    Par dfinition du R2, il faut comparer la norme au carr des vecteurs Yp et Yq. Notonsles espaces engendrs par les colonnes de Xq et X, Xq et X , nous avons Xq X .Nous obtenons alors

    Yp = PXpY = (PXq + PXq )PXpY = PXqPXpY + PXq PXpY

    = PXqY + PXq XpY

    = Yq + PXq XpY.

    En utilisant le thorme de Pythagore, nous avons

    Yp2 = Yq2 + PXq XpY 2 Yq2,

    do

    R2(p) =Yp2Y 2

    Yq2Y 2 = R

    2(q).

    En conclusion, lorsque les modles sont embots Xq X , le R2 du modle le plusgrand (ayant le plus de variables) sera toujours plus grand que le R2 du modle le pluspetit.

    Exercice 2.6La matrice X X est symtrique, n vaut 30 et x = z = 0. Le coefficient de corrlation

    x,z =

    30i=1(xi x)(zi z)30

    i=1(xi x)230

    i=1(zi z)2=

    30i=1 xizi30

    i=1 x2i

    30i=1 z

    2i

    =7150

    = 0.57.

    Nous avons

    yi = 2 + xi + zi + i

    et la moyenne vaut alors

    y = 2 + x+ z + 1n

    i

    i.

  • Chapitre 1. Corrections des exercices 7

    La constante tant dans le modle, la somme des rsidus est nulle car le vecteur estorthogonal au vecteur 1. Nous obtenons donc que la moyenne de Y vaut 2 car x = 0 etz = 0. Nous obtenons en dveloppant

    Y 2 =30

    i=1

    (2 + xi + 2zi)2

    = 4 + 10 + 60 + 14 = 88.

    Par le thorme de Pythagore, nous concluons que

    SCT = SCE+SCR = 88 + 12 = 100.

    Exercice 2.7 (Rgression orthogonale)Les vecteurs tant orthogonaux, nous avons X = U

    V . Nous pouvons alors crire

    YX = PXY = (PU + PU)PXY

    = PUPXY + PUPXY = PUY + PUXY

    = YU + YV .

    La suite de lexercice est identique. En conclusion, effectuer une rgression multiple surdes variables orthogonales revient effectuer p rgressions simples.

    Exercice 2.8 (Centrage, centrage-rduction et coefficient constant)1. Comme la dernire colonne de X, note Xp vaut 1n sa moyenne empirique vaut 1

    et la variable centre issue de Xp est donc Xp 1 1n = 0n.2. Nous avons le modle sur variable centre

    Y = X +

    Y Y 1n =p1

    j=1

    (Xj Xj1n)j +

    Y =

    p1

    j=1

    jXj +(Y

    p1

    j=1

    Xj j)1n + .

    En identifiant cela donne

    j = j , j {1, . . . , p 1},

    p = Y 1n p1

    j=1

    Xj j . (2.1)

    Si lon utilise des variables centres dans le modle de rgression, on ne met pas decolonne 1 (pas de coefficient constant - intercept). Les coefficients du modle surles variables originales sont gaux ceux sur les variables centres et le coefficientconstant est donn par la formule (2.1).

    3. Maintenant les variables explicatives sont centres et rduites :

    Y = X +

    Y Y 1n =p1

    j=1

    (Xj Xj1n)Xj

    j +

    Y =

    p1

    j=1

    jXj

    Xj +(Y

    p1

    j=1

    XjjXj

    )1n + .

  • 8 Rgression avec R

    En identifiant cela donne

    j =jXj

    , j {1, . . . , p 1},

    p = Y 1n p1

    j=1

    XjjXj

    .

    Nous obtenons ici que les coefficients du modle sur les variables originales sontgaux ceux sur les variables centres-rduites diviss par lcart-type empiriquedes variables explicatives. Plus la variable explicative Xj est disperse, plus soncoefficient j sera rduit par rapport j . Le coefficient constant est donn par laformule ci-dessus.

    4. La variable expliquer Y est elle aussi centre-rduite :

    Y = X +

    Y Y 1nY

    =

    p1

    j=1

    (Xj Xj1n)Xj

    j +

    Y = Y

    p1

    j=1

    jXj

    Xj +(Y Y

    p1

    j=1

    XjjXj

    )1n + Y .

    En identifiant cela donne

    j = YjXj

    , j {1, . . . , p 1},

    p = Y 1n Yp1

    j=1

    XjjXj

    ,

    = Y .

    Lcart-type empirique de Y entre en jeu et nous constatons que les rsidus du mo-dle centr-rduit sont gaux ceux initiaux diviss par lcart-type empiriquede Y .

    Exercice 2.9 (Moindres carrs contraints)Lestimateur des MC vaut

    = (X X)1X Y,

    calculons maintenant lestimateur contraint. Nous pouvons procder de deux maniresdiffrentes. La premire consiste crire le lagrangien

    L = S() (R r).

    Les conditions de Lagrange permettent dobtenir un minimum

    L

    = 2X Y + 2X Xc R = 0,L

    = Rc r = 0,

  • Chapitre 1. Corrections des exercices 9

    Multiplions gauche la premire galit par R(X X)1, nous obtenons

    2R(X X)1X Y + 2R(X X)1X Xc R(X X)1R = 02R(X X)1X Y + 2Rc R(X X)1R = 02R(X X)1X Y + 2r R(X X)1R = 0.

    Nous obtenons alors pour

    = 2[R(X X)1R

    ]1 [r R(X X)1X Y

    ].

    Remplaons ensuite

    2X Y + 2X Xc R = 02X Y + 2X Xc 2R

    [R(X X)1R

    ]1 [r R(X X)1X Y

    ]= 0,

    do nous calculons c

    c = (XX)1X Y + (X X)1R

    [R(X X)1R

    ]1(r R)

    = + (X X)1R[R(X X)1R

    ]1(r R).

    La fonction S() minimiser est une fonction convexe sur un ensemble convexe (contrainteslinaires), le minimum est donc unique.Une autre faon de procder consiste utiliser les projecteurs. Supposons pour commencerque r = 0, la contrainte vaut donc R = 0. Calculons analytiquement le projecteurorthogonal sur 0. Rappelons que dim(0) = p q, nous avons de plus

    R = 0 Ker(R)R(X X)1X X = 0

    U X = 0 o U = X(X X)1R.

    Nous avons donc que ker(R), U X = 0, cest--dire que U , lespace engendr parles colonnes de U , est orthogonal lespace engendr par X, ker(R). Nous avonsdonc que U 0. Comme U = X[(X X)1R], U X . En rsum, nous avons

    U X et U 0 donc U (X 0 ).

    Afin de montrer que les colonnes de U engendrent X 0 , il faut dmontrer que ladimension des deux sous-espaces est gale. Or le rang de U vaut q (R est de rang q,(X X)1 est de rang p et X est de rang p) donc la dimension de U vaut q. De plus,nous avons vu que

    X = 0

    (0 X

    )

    et donc, en passant aux dimensions des sous-espaces, nous en dduisons que dim(0 X ) = q. Nous venons de dmontrer que

    U = X 0 .

    Le projecteur orthogonal sur U = X 0 scrit

    PU = U(UU)1U = X(X X)1R[R(X X)1R]1R(X X)1X .

  • 10 Rgression avec R

    Nous avons alors

    Y Y0 = PUYX X0 = X(X X)1R[R(X X)1R]1R(X X)1X Y

    = X(X X)1R[R(X X)1R]1R.

    Cela donne

    0 = (X X)1R[R(X X)1R]1R.

    Si maintenant r 6= 0, nous avons alors un sous-espace affine dfini par { Rp : R = r}dans lequel nous cherchons une solution qui minimise les moindres carrs. Un sous-espaceaffine peut tre dfini de manire quivalente par un point particulier p Rp tel queRp = r et le sous-espace vectoriel associ v0 = { Rp : R = 0}. Les points dusous-espace affine sont alors {0 Rp : 0 = p + v0 , v0 v0 et p : Rp = r}. Lasolution qui minimise les moindres carrs, note 0, est lment de ce sous-espace affineet est dfinie par 0 = p +

    v0 o

    v0 = (X X)1R[R(X X)1R]1R.

    Nous savons que Rp = r donc

    Rp = [R(XX)1R][R(X X)1R]1r

    donc une solution particulire est p = (XX)1R[R(X X)1R]1r. La solution 0 qui

    minimise les moindres carrs sous la contrainte R = r est alors

    0 = p + v0

    = (X X)1R[R(X X)1R]1r + (X X)1R[R(X X)1R]1R= + (X X)1R[R(X X)1R]1(r R).

    1.3 Infrence dans le modle gaussien

    Exercice 3.1 (Questions de cours)A, C, A, B, B.

    Exercice 3.2 (Thorme ??)LIC (i) dcoule de la proprit (i) de la proposition ??. La proprit (ii) donnant un ICpour 2 dcoule de la loi de 2. Enfin, la proprit (iii) est une consquence de la loiobtenue proprit (ii) de la proposition ??.

    Exercice 3.3 (Test et R2)En utilisant lorthogonalit des sous-espaces (fig. ?? p. ??) et le thorme de Pythagore,nous avons

    Y0 Y 2 = 02 2.

  • Chapitre 1. Corrections des exercices 11

    Nous pouvons le dmontrer de la manire suivante :

    Y0 Y 2 = Y0 Y + Y Y 2

    = 02 + 2 + 2Y0 Y, Y Y = 02 + 2 2Y Y0, Y Y = 02 + 2 2PX0 Y, PXY = 02 + 2 2(PX + PX)PX0 Y, PXY .

    Or (X0) (X), nous avons donc PXPX0 = PX . De plus, = PXY , cela donne

    (PX + PX)PX0 Y, PXY = PXY, PXY + PXPX0 Y, PXY = 2 + 0.

    Le rsultat est dmontr, revenons la statistique de test. Introduisons les diffrentescritures du R2

    R2 =Y Y 2Y Y 2 = 1

    2Y Y 2 .

    La statistique de test vaut

    F =02 2Y Y 2

    n pp p0

    =02/Y Y 2 2/Y Y 2

    Y Y 2/Y Y 2n pp p0

    ,

    nous obtenons

    F =R2R201 R2

    n pp p0

    ,

    soit le rsultat annonc. Cette dernire quantit est toujours positive car R20 R2 et nousavons l un moyen de tester des modles embots via le coefficient de dtermination.

    Exercice 3.4 (Ozone)Les rsultats sont dans lordre

    6.2, 0.8, 6.66,1.5,1, 50, 5, 124.

    La statistique de test de nullit du paramtre se trouve dans la troisime colonne, nousconservons H0 pour les paramtres associs Ne9 et Ne12, et la rejetons pour les autres.La statistique de test de nullit simultane des paramtres autres que la constante vaut50. Nous rejetons H0.Nous sommes en prsence de modles embots, nous pouvons appliquer la formule adap-te (voir lexercice prcdent) :

    F =R2R201 R2

    n pp p0

    =0.66 0.51 0.66

    124

    2= 29.

    Nous conservons H0, cest--dire le modle le plus simple.

  • 12 Rgression avec R

    Exercice 3.5 (Equivalence du test T et du test F )Rcrivons la statistique de test F , en se rappelant que X0 est la matrice X prive de saje colonne, celle correspondant au coefficient que lon teste :

    F =X PX0X2

    2=Xj j jPX0Xj2

    2=

    2j2

    X j(I PX0)Xj .

    Rcrivons maintenant le carr de la statistique T en explicitant 2j

    :

    T 2 =2j

    2[(X X)1]jj,

    o [(X X)1]jj est le je lment diagonal de la matrice (X X)1. Afin de calculer ce

    terme, nous utilisons la formule permettant dobtenir linverse dune matrice bloc, formuledonne en annexe ?? p. ??. Pour appliquer facilement cette formule, en changeant lordredes variables, la matrice X devient (X0|Xj) et X X scrit alors

    X X =

    (X 0X0 X

    0Xj

    X jX0 XjXj

    ).

    Son inverse, en utilisant la formule dinverse de matrice bloc, est

    [(X X)1]jj =(X jXj X jX0(X 0X0)1X 0Xj

    )1=(X j(I PX0)Xj

    )1.

    Nous avons donc T 2 = F . Au niveau des lois, lgalit est aussi valable et nous avons quele carr dun Student (n p) ddl est une loi de Fisher (1, n p) ddl. Bien entendu, lequantile (1) dune loi de Fisher correspond au quantile 1/2 dune loi de Student.La loi T est symtrique autour de 0 et donc, lorsquelle est leve au carr, les valeurs plusfaibles que tnp(/2), qui ont une probabilit sous H0 de /2 dapparatre, et celles plusfortes que tnp(1/2), qui ont une probabilit sous H0 de /2 dapparatre, deviennenttoutes plus grandes que t2np(1 /2). La probabilit que ces valeurs dpassent ce seuilsous H0 est de et correspond donc bien par dfinition f1,np(1 ).

    Exercice 3.6 (Equivalence du test F et du test de VM)Nous avons not la vraisemblance en dbut du chapitre par

    L(Y, , 2) =n

    i=1

    fY (yi) =

    (1

    22

    )n/2exp

    [ 122

    n

    i=1

    (yi

    p

    j=1

    jxij

    )2]

    =

    (1

    22

    )n/2exp

    [ 122Y X2

    ].

    Cette vraisemblance est maximale lorsque est lestimateur des MC et que 2 = Y X2/n. Nous avons alors

    max,2L(Y, , 2) =

    (n

    2Y X2

    )n/2exp

    (n2

    )

    =( n2 SCR

    )n/2exp

    (n2

    )= L(Y, , 2),

    o SCR = Y X2.

  • Chapitre 1. Corrections des exercices 13

    Sous lhypothse H0 nous obtenons de faon vidente le rsultat suivant :

    max,2L0(Y, 0, 2) =

    (n

    2 SCR0

    )n/2exp

    (n2

    )= L0(Y, 0, 20),

    o SCR0 correspond la somme des carrs rsiduels sous H0, cest--dire SCR0 = Y X002.On dfinit le test du rapport de vraisemblance maximale (VM) par la rgion critique(Lehmann, 1959) suivante :

    D ={Y Rn : = L0(Y, 0,

    2)

    L(Y, , 2)< 0

    }.

    La statistique du rapport de vraisemblance maximale vaut ici

    =

    (SCR

    SCR0

    )n/2=

    (SCR0SCR

    )n/2.

    Le test du rapport de VM rejette H0 lorsque la statistique est infrieure une valeur0 dfinie de faon avoir le niveau du test gal . Le problme qui reste tudier estde connatre la distribution (au moins sous H0) de .Dfinissons, pour positif, la fonction bijective g suivante :

    g() = 2/n 1.

    La fonction g est dcroissante (sa drive est toujours ngative), donc < 0 si etseulement si g() > g(0). Cette fonction g va nous permettre de nous ramener desstatistiques dont la loi est connue. Nous avons alors

    g() > g(0)

    SCR0SCRSCR

    > g(0)

    n pp p0

    SCR0SCRSCR

    > f0

    o f0 est dtermine par

    PH0

    (n pp p0

    SCR0SCRSCR

    > f0

    )= ,

    avec la loi de cette statistique qui est une loi Fpp0,np (cf. section prcdente). Le testdu rapport de VM est donc quivalent au test qui rejette H0 lorsque la statistique

    F =n pp p0

    SCR0SCRSCR

    est suprieure f0, o f0 est la valeur du fractile de la loi de Fisher (p p0, n p)degrs de libert.

    Exercice 3.7 (Test de Fisher pour une hypothse linaire quelconque)Nous pouvons toujours traduire lhypothse H0 : R = r en terme de sous-espace deX . Lorsque r = 0, nous avons un sous-espace vectoriel de X et lorsque r 6= 0 nousavons un sous-espace affine de X . Dans les deux cas, nous noterons ce sous-espace 0 et

  • 14 Rgression avec R

    0 X . Cependant nous ne pourrons plus le visualiser facilement comme nous lavonsfait prcdemment avec X0 o nous avions enlev des colonnes la matrice X. Nousallons dcomposer lespace X en deux sous-espaces orthogonaux

    X = 0

    (0 X).

    Sous H0, lestimation des moindres carrs donne Y0 projection orthogonale de Y sur 0et nous appliquons la mme dmarche pour construire la statistique de test. La dmons-tration est donc la mme que celle du thorme ??. Cest--dire que nous regardons si Y0est proche de Y et nous avons donc

    F =Y Y02/ dim(0 X )Y Y 2/dim(X)

    =n pq

    Y Y02 Y Y 2Y Y 2

    =n pq

    SCR0 SCRSCR

    Fq,np.

    Le problme du test rside dans le calcul de Y0. Dans la partie prcdente, il tait facilede calculer Y0 car nous avions la forme explicite du projecteur sur 0.Une premire faon de procder revient trouver la forme du projecteur sur 0. Uneautre faon de faire est de rcrire le problme de minimisation sous la contrainte R = r.Ces deux manires doprer sont prsentes en dtail dans la correction de lexercice ??.Dans tous les cas lestimateur des MC contraints par R = r est dfini par

    0 = + (XX)1R[R(X X)1R]1(r R).

    1.4 Validation du modle

    Exercice 4.1 (Questions de cours)C si 1 fait partie des variables ou si 1 (X), A, C, C, A.

    Exercice 4.2 (Proprits dune matrice de projection)La trace dun projecteur vaut la dimension de lespace sur lequel seffectue la projection,donc tr(PX) = p. Le second point dcoule de la proprit P

    2 = P .Les matrices PX et PXPX sont gales, nous avons que (PX)ii vaut (PXPX)ii. Cela scrit

    hii =n

    k=1

    hikhki

    = h2ii +

    n

    k=1,k 6=i

    h2ik

    hii(1 hii) =n

    k=1,k 6=i

    h2ik.

    La dernire quantit de droite de lgalit est positive et donc le troisime point estdmontr. En nous servant de cet criture les deux derniers points sont aussi dmontrs.

  • Chapitre 1. Corrections des exercices 15

    Nous pouvons crire

    hii(1 hii) = h2ij +n

    k=1,k 6=i,j

    h2ik.

    La quantit de gauche est maximum lorsque hii = 0.5 et vaut alors 0.25. Le quatrimepoint est dmontr.

    Exercice 4.3 (Lemme dinversion matricielle)Commenons par effectuer les calculs en notant que la quantit uM1v est un scalaireque nous noterons k. Nous avons

    (M + uv

    )(M1 M

    1uvM1

    1 + uM1v

    )

    = MM1 MM1uvM1

    1 + k+ uvM1 uv

    M1uvM1

    1 + k

    = I +uvM1 + uvM1 + kuvM1 ukvM1

    1 + k.

    Le rsultat est dmontr.

    Exercice 4.4 (Rsidus studentiss)1-2. Il suffit dutiliser la dfinition du produit matriciel et de la somme matricielle et

    didentifier les 2 membres des galits.

    3. En utilisant maintenant lgalit (??) sur les inverses, avec u = xi et v = xi, nousavons

    (X (i)X(i))1 = (X X xixi)1 = (X X)1 +

    (X X)1xixi(X

    X)1

    1 xi(X X)1xi.

    La dfinition de hii = xi(X

    X)1xi donne le rsultat.

    4. Calculons la prvision o (i) est lestimateur de obtenu sans la ie observation

    ypi = xi(i) = x

    i(X

    (i)X(i))

    1X (i)Y(i)

    = xi

    [(X X)1 +

    (X X)1xixi(X

    X)1

    1 hii

    ] (X Y xiyi

    )

    = xi +hii

    1 hii xi hiiyi

    h2ii1 hii yi

    =1

    1 hiiyi hii

    1 hiiyi.

    5. Ce dernier rsultat donne

    i = (1 hii)(yi ypi ).

    Nous avons alors

    ti =i

    (i)1 hii

    =

    (1 hii)(yi ypi )

    (i).

  • 16 Rgression avec R

    Pour terminer, remarquons quen multipliant lgalit de la question 3 gauchepar xi et droite par xi

    xi(X(i)X(i))

    1xi = hii +h2ii

    1 hii .

    1 + xi(X(i)X(i))

    1xi = 1 +hii

    1 hii=

    hii1 hii

    .

    6. Utilisons lexpression

    ti =yi ypi

    (i)

    1 + xi(X(i)X(i))

    1xi.

    Nous pouvons alors appliquer la preuve de la proposition ?? p. ??, en constatantque la ie observation est une nouvelle observation. Nous avons donc n 1 ob-servations pour estimer les paramtres, cela donne donc un Student n 1 pparamtres.

    Exercice 4.5 (Distance de Cook)Nous reprenons une partie des calculs de lexercice prcdent :

    (i) = (X(i)X(i))

    1X (i)Y(i)

    = (X X)1[X Y xiyi] + 11 hii (X

    X)1xixi(X

    X)1[X Y xiyi]

    = (X X)1xiyi + 11 hii

    (X X)1xixi

    hii1 hii

    (X X)1xiyi,

    do le rsultat. Pour obtenir la seconde criture de la distance de Cook, nous crivonsdabord que

    (i) =i

    1 hii(X X)1xi.

    Puis nous dveloppons

    Ci =1

    p2([i] )X X((i) )

    =1

    p2

    ( i1 hii

    )2xi(X

    X)1(X X)(X X)1xi.

    Le rsultat est dmontr.

    Exercice 4.6 (Rgression partielle)Nous avons le modle suivant :

    PXjY = jPX

    jXj + .

    Lestimateur des moindres carrs j issu de ce modle vaut

    j = (XjPX

    jXj)

    1X jPXjY.

  • Chapitre 1. Corrections des exercices 17

    La projection de Y sur (Xj) (i.e. la prvision par le modle sans la variable Xj) peutscrire comme la projection Y sur (X) qui est ensuite projete sur (Xj), puisque(Xj) (X). Ceci scrit

    PXjY = PXjPXY = PXjX = PXj (Xj j + jXj) = Xj j + jPXjXj ,

    et donc

    Xj j = PXjY jPXjXj .

    Rcrivons les rsidus

    = PXY = Y X = Y Xj j jXj= Y PXjY + jPXjXj jXj= (I PXj )Y j(I PXj )Xj= PX

    jY jPX

    jXj .

    En rordonnant cette dernire galit, nous pouvons crire

    PXjY = jPX

    jXj + .

    Nous avons alors

    j = (XjPX

    jXj)

    1X jPXjY

    = (X jPXjXj)

    1X j(jPXjXj + )

    = j + (XjPX

    jXj)

    1X j ).

    Le produit scalaire X j = Xj , est nul car les deux vecteurs appartiennent dessous-espaces orthogonaux, do le rsultat.

    1.5 Rgression sur variables qualitatives

    Exercice 5.1 (Questions de cours)A, A, C, B.

    Exercice 5.2 (Analyse de la covariance)Nous avons pour le modle complet la matrice suivante :

    X =

    1 0 x11 0

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    1 0 x1n1 0

    0 1 0 xI1...

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    0 1 0 xInI

  • 18 Rgression avec R

    et pour les deux sous-modles, nous avons les matrices suivantes :

    X =

    1 0 x11...

    .

    .

    .

    .

    .

    .

    1 0 x1n1

    0 1 xI1...

    .

    .

    .

    .

    .

    .

    .

    .

    .

    0 1 xInI

    X =

    1 x11 0

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    1 x1n1 0

    1 0 xI1...

    .

    .

    .

    .

    .

    .

    .

    .

    .

    1 0 xInI

    Dans le modle complet, nous obtenons par le calcul

    XX =

    n1 0

    xi1 0

    ...

    ...

    0 nI 0

    xiI

    xi1 0

    x2i1 0

    ...

    ...

    0

    xiI 0

    x2iI

    XY =

    yi1.

    .

    .

    yiI

    xi1yi1...

    xiIyiI

    Une inversion par bloc de X X et un calcul matriciel donnent le rsultat indiqu.Une autre faon de voir le problme est de partir du problme de minimisation

    minI

    i=1

    ni

    j=1

    (yij j jxij)2

    = min

    ni

    j=1

    (yj1 1 1xj1)2 + +nI

    j=1

    (yjI I IxJI)2 .

    Cela revient donc calculer les estimateurs des MC pour chaque modalit de la variablequalitative.

    Exercice 5.3 (Estimateurs des MC en ANOVA 1 facteur)La preuve de cette proposition est relativement longue mais peu difficile. Nous avonstoujours Y un vecteur de Rn expliquer. Nous projetons Y sur le sous-espace engendrpar les colonnes de Ac, not Ac , de dimension I, et obtenons un unique Y . Cependant,en fonction des contraintes utilises, le repre de Ac va changer.Le cas le plus facile se retrouve lorsque = 0. Nous avons alors

    (AcAc) =

    n1 0 00 n2 0 ...

    ......

    ...0 0 nI

    (A

    cY ) =

    n1j=1 y1jn2j=1 y2j

    ...nIj=1 yIj

    do le rsultat. La variance de vaut 2(AcAc)1 et cette matrice est bien diagonale.

    Pour les autres contraintes, nous utilisons le vecteur ~eij de Rn dont toutes les coordonnes

    sont nulles sauf celle repre par le couple (i, j) qui vaut 1 pour reprer un individu. Nousnotons ~ei le vecteur de R

    n dont toutes les coordonnes sont nulles sauf celles represpar les indices i, j pour j = 1, , ni qui valent 1. En fait, ce vecteur repre donc lesindividus qui admettent la modalit i. La somme des ~ei vaut le vecteur 1. Les vecteurscolonnes de la matrice Ac valent donc ~e1, , ~eI .

  • Chapitre 1. Corrections des exercices 19

    Considrons le modle

    Y = 1+ 1 ~e1 + 2 ~e2 + + I ~eI + .

    Voyons comment nous pouvons rcrire ce modle lorsque les contraintes sont satisfaites.

    1. 1 = 0, le modle devient alors

    Y = 1+ 0~e1 + 2 ~e2 + + I ~eI + = 1+ 2 ~e2 + + I ~eI + = [1, ~e2, , ~eI ] + = X[1=0][1=0] + .

    2.

    nii = 0 cela veut dire que I = I1

    j=1 njj/nI , le modle devient

    Y = 1+ 1 ~e1 + + I1 ~eI1 I1

    j=1

    njjnI

    ~eI +

    = 1+ 1(~e1 n1nI

    ~eI) + + I1(~eI1 nI1nI

    ~eI) +

    = 1+ 1~v1 + + I1~vI1 + o ~vi = (~ei ninI

    ~eI)

    = X[

    nii=0][

    nii=0] + .

    3.

    i = 0 cela veut dire que I = I1

    j=1 j , le modle devient

    Y = 1+ 1 ~e1 + + I1 ~eI1 I1

    j=1

    j ~eI +

    = 1+ 1(~e1 ~eI) + + I1(~eI1 ~eI) + = 1+ 1~u1 + + I1~uI1 + o ~ui = (~ei ~eI)= X[

    i=0][

    i=0] + .

    Dans tous les cas, la matrice X est de taille n I , et de rang I . La matrice X Xest donc inversible. Nous pouvons calculer lestimateur des MC de par la formule = (X X)1X Y et obtenir les valeurs des estimateurs. Cependant ce calcul nest pastoujours simple et il est plus facile de dmontrer les rsultats via les projections.Les diffrentes matrices X et la matrice A engendrent le mme sous-espace, donc laprojection de Y , note Y dans ce sous-espace, est toujours la mme. La proposition (??)indique que

    Y = y1 ~e1 + + yI ~eI .

    Avec les diffrentes contraintes, nous avons les 3 cas suivants :

    1. 1 = 0, la projection scrit

    Y = 1+ 2 ~e2 + + I ~eI .

    2.

    nii = 0, la projection scrit

    Y = 1+ 1 ~e1 + + I1 ~eI1 I1

    j=1

    nj jnI

    ~eI .

  • 20 Rgression avec R

    3.

    i = 0, la projection scrit

    Y = 1+ 1 ~e1 + + I1 ~eI1 I1

    j=1

    j ~eI .

    Il suffit maintenant dcrire que la projection est identique dans chaque cas et de re-marquer que le vecteur 1 est la somme des vecteurs ~ei pour i variant de 1 I . Celadonne

    1. 1 = 0

    y1 ~e1 + + yI ~eI= 1+ 2 ~e2 + + I ~eI= ~e1 + (+ 2)~e2 (+ I)~eI .

    2.

    nii = 0

    y1 ~e1 + + yI ~eI

    = 1+ 1 ~e1 + + I1 ~eI1 I1

    j=1

    nj jnI

    ~eI

    = (+ 1)~e1 + + (+ I1) ~eI1 + (I1

    i=1

    ninI

    i)~eI .

    3.

    i = 0

    y1 ~e1 + + yI ~eI

    = 1+ 1 ~e1 + + I1 ~eI1 I1

    j=1

    j ~eI

    = (+ 1)~e1 + + (+ I1) ~eI1 + (I1

    i=1

    i)~eI .

    En identifiant les diffrents termes, nous obtenons le rsultat annonc.

    Exercice 5.4 (Estimateurs des MC en ANOVA 2 facteurs)Nous notons ~eijk le vecteur de R

    n dont toutes les coordonnes sont nulles sauf celleindice par ijk qui vaut 1. Sous les contraintes de type analyse par cellule, le modledevient

    yijk = ij + ijk,

    et donc matriciellement

    Y = X + X = ( ~e11, ~e12, . . . , ~eIJ ),

    o le vecteur ~eij =

    k ~eijk. Les vecteurs colonnes de la matrice X sont orthogonauxentre eux. Le calcul matriciel (X X)1X Y donne alors le rsultat annonc.

  • Chapitre 1. Corrections des exercices 21

    Exercice 5.5 (Estimateurs des MC en ANOVA 2 facteurs, suite)Nous notons ~eijk le vecteur de R

    n dont toutes les coordonnes sont nulles sauf celleindice par ijk qui vaut 1. Nous dfinissons ensuite les vecteurs suivants :

    ~eij =

    k

    ~eijk ~ei. =

    j

    ~eij ~e.j =

    i

    ~eij ~e =

    i,j,k

    ~eijk.

    Afin deffectuer cet exercice, nous dfinissons les sous-espaces suivants :

    E1 := {m~e, m quelconque}E2 := {

    i

    ai~ei.,

    i

    ai = 0}

    E3 := {

    j

    bj~e.j ,

    j

    bj = 0}

    E4 := {

    ij

    cij~eij , j

    i

    cij = 0 et i

    j

    cij = 0}.

    Ces espaces E1, E2, E3 et E4 sont de dimension respective 1, I1, J1 et (I1)(J1).Lorsque le plan est quilibr, tous ces sous-espaces sont orthogonaux. Nous avons ladcomposition suivante :

    E = E1

    E2

    E3

    E4.

    La projection sur E peut se dcomposer en une partie sur E1, , E4 et lestimateur desMC est obtenu par projection de Y sur E. Notons PE , PE , PE1 , PE2 , PE3 et PE4 lesprojections orthogonales sur les sous-espaces E, E, E1, E2, E3 et E4, nous avons alors

    PE1Y = y1,

    puis, en remarquant que projeter sur le sous-espace engendr par les colonnes de A =

    [~e1., , ~eI.] est identique la projection sur E1

    E2, nous avons alors avec 1 =

    i ~ei.,

    PAY =

    i

    yi.~ei. donc PE2Y =

    i

    (yi. y) ~ei..

    De la mme faon, nous obtenons

    PE3(Y ) =

    j

    (y.j y) ~e.j ,

    PE4(Y ) =

    ij

    (yij yi. y.j + y) ~ei.,

    PE(Y ) =

    ijk

    (yijk yij) ~eijk,

    o ~eijk est le vecteur dont toutes les coordonnes sont nulles sauf celle indice par ijkqui vaut 1. En identifiant terme terme, nous retrouvons le rsultat nonc.

    Exercice 5.6 (Tableau dANOVA 2 facteurs quilibre)Lorsque le plan est quilibr, nous avons dmontr, que les sous-espaces E1, E2, E3 etE4 sont orthogonaux (cf. exercice prcdent) deux deux. Nous avons alors

    Y = PE1(Y ) + PE2(Y ) + PE3(Y ) + PE4(Y ) + PE(Y ).

  • 22 Rgression avec R

    Nous obtenons ensuite par le thorme de Pythagore

    Y Y 2 = PE2(Y )2 + PE3(Y )2 + PE4(Y )2 + PE(Y )2SCT = SCA + SCB + SCAB + SCR,

    o

    SCT =

    i

    j

    k(yijk y)2

    SCA = Jr

    i

    (yi.. y)2

    SCB = Ir

    j

    (y.j. y)2

    SCAB = r

    i

    j

    (yij. yi.. y.j. + y)2

    SCR =

    i

    j

    k

    (yijk yij)2.

    1.6 Choix de variables

    Exercice 6.1 (Questions de cours)A, C, B en gnral. Un cas particulier de la dernire question est le suivant : si lesvariables slectionnes engendrent un sous-espace orthogonal au sous-espace engendrpar les variables non slectionnes , alors C est la bonne rponse.

    Exercice 6.2 (Analyse du biais)La preuve des deux premiers points seffectue comme lexemple de la section ??. Nous nedtaillerons que le premier point. Supposons que || soit plus petit que p, le vrai nombrede variables entrant dans le modle. Nous avons pour estimateur de

    = (XX)

    1X Y = PXY.

    Le vrai modle tant obtenu avec p variables, E(Y ) = Xp. Nous avons alors

    E() = PXXp

    = PXX + PXX.

    Cette dernire quantit nest pas nulle sauf si (X) (X). Comme est en gnralbiais, il en est de mme pour la valeur prvue y dont lesprance ne vaudra pas X.

    Exercice 6.3 (Variance des estimateurs)Lestimateur obtenu avec les || variables est not et lestimateur obtenu dans lemodle complet . Ces vecteurs ne sont pas de mme taille, le premier est de longueur||, le second de longueur p. Nous comparons les || composantes communes, cest--direque nous comparons et []. Partitionnons la matrice X en X et X . Nous avonsalors

    V() = 2(

    X X XX

    X X XX

    )1.

  • Chapitre 1. Corrections des exercices 23

    En utilisant la formule dinverse par bloc, donne en annexe ??, nous obtenons

    V([]) = 2 [X X X X(X X)1X X

    ]1,

    alors que la variance de vaut

    V() = 2 [X X

    ]1.

    Nous devons comparer V([]) et V(). Nous avons

    X X X X(X X)1X X = X (I PX )X = XPX

    X.

    La matrice PX

    est la matrice dun projecteur, alors elle est semi-dfinie positive (SDP)

    (cf. annexe ??), donc X PX

    X est galement SDP. La matrice XPX

    X X PX

    X

    est dfinie positive (DP) puisque cest V([])/2. Utilisons le changement de notation

    suivant :

    A = X X X PXX et B = XPXX .

    La matrice A est DP et la matrice B SDP. La proprit donne en annexe ?? indiqueque A1 (A+B)1 est SDP, or

    V([]) V() = 2(A1 (A+B)1).

    Donc la quantit V([]) V() est SDP. Le rsultat est dmontr. Lestimation, enterme de variance, de composantes est plus prcise que les mmes composantes ex-traites dune estimation obtenue avec p composantes.La variance des valeurs ajustes dpend de la variance de , le point 2 de la propositionse dmontre de faon similaire.Remarque : nous venons de comparer deux estimateurs de mme taille via leur matricede variance. Pour cela, nous montrons que la diffrence de ces deux matrices est unematrice SDP. Que pouvons-nous dire alors sur la variance de chacune des coordonnes ?Plus prcisment, pour simplifier les notations, notons le premier estimateur (de taillep) de variance V() et le second estimateur de variance V(). Si V() V() estSDP, pouvons-nous dire que V(i) V(i) est un nombre positif pour i variant de 1 p ? Considrons par exemple le vecteur u1 = (1, 0, . . . , 0) de R

    p. Nous avons alors

    u1 = 1 et u1 = 1.

    Comme V() V() est SDP, nous avons pour tout vecteur u de Rp que u(V() V())u 0, cest donc vrai en particulier pour u1. Nous avons donc

    u1(V() V())u1 0u1 V()u1 u1 V()u1 0

    V(u1) V(u1) 0V(1) V(1).

    Nous pouvons retrouver ce rsultat pour les autres coordonnes des vecteurs estims ouencore pour des combinaisons linaires quelconques de ces coordonnes.

  • 24 Rgression avec R

    Exercice 6.4 (Utilisation du R2)La correction de cet exercice est identique la correction de lexercice ??, elle est doncomise.

    Exercice 6.5 (Choix de variables)Tous les modles possibles ont t tudis, la recherche est donc exhaustive. En prenantcomme critre lAIC ou le BIC, le modle retenu est le modle M134. Comme prvu, leR2 indique le modle conservant toutes les variables. Cependant le R2 peut tre utilispour tester des modles embots. Dans ce cas, le modle retenu est galement le M134.

    1.7 Moindres carrs gnraliss

    Exercice 7.1 (Questions de cours)A, A.

    Exercice 7.2 (Rgression pondre)Nous souhaitons minimiser

    n

    i=1

    (yi

    p

    j=1

    jxij

    )2pi,

    o pi est un rel positif.

    Nous pouvons crire ce critre sous la forme suivante :

    n

    i=1

    piyi

    p

    j=1

    jpixij

    2

    =

    n

    i=1

    yi

    p

    j=1

    jxij

    2

    ,

    o yi =piyi et x

    ij =

    pixij . Notons P

    1/2 la matrice des poids qui vaut P 1/2 =diag(

    pi). Ce dernier critre est un critre des MC avec comme observations Y

    et X o Y = P 1/2Y et X = P 1/2X . Lestimateur vaut alors

    pond = (XX)1XY

    = (X PX)1X PY.

    Lorsque nous avons la constante comme seule variable explicative, X = 1n, etnous avons alors

    pond =

    piyi

    pi.

    Lorsque les poids sont constants, nous retrouvons, non plus une moyenne pondre,mais la moyenne usuelle.

    Exercice 7.3 (Gauss-Markov)Lestimateur MCG est bien linaire. Calculons son biais et sa variance

    E(MCG) = E((X1X)1X 1Y ) = (X 1X)1X 1X =

    V(MCG) = (X1X)1X V(Y )X(X 1X)1 = (X 1X)12.

  • Chapitre 1. Corrections des exercices 25

    Montrons maintenant que cet estimateur est de variance minimale parmi les estimateurslinaires sans biais. Considrons un autre estimateur linaire = CY sans biais de .Posons

    = CPP1Y = CPY .

    est linaire en Y et sans biais dans le modle (*). Or MCG est lestimateur des MCdans le modle (), il est donc de variance minimale. La variance de MCG est donc plusfaible que la variance de .

    1.8 Ridge et Lasso

    Exercice 8.1 (Questions de cours)A, B, B, B.

    Exercice 8.2 (Corrlation multiple et hypothse H1)1. Montrons que la moyenne empirique de X vaut Y . Le vecteur moyenne est obtenu

    en projetant sur 1n. En effet, comme

    P1 = 1n(1n1n)

    11n =

    1

    n1n1

    n,

    nous avons, pour une variable Z = (Z1, . . . , Zn),

    P1Z = =1

    n1n1

    nZ =

    1

    n1n

    n

    i=1

    Zi = Z1n.

    Comme 1n (X), nous avons

    Y = P1Y = P1PXY = P1X,

    cest--dire que la moyenne empirique de X vaut Y .

    Le coefficient de corrlation entre Y et Y lev au carr scrit donc

    2(Y , Y ) =Y Y , Y Y 2Y Y 2Y Y 2

    =Y Y , Y Y + Y Y 2Y Y 2Y Y 2

    ={ Y Y , Y Y Y Y Y Y

    +Y Y , Y Y Y Y Y Y

    }2.

    Comme (Y Y ) (X) et que (Y Y ) (X), nous avons Y Y , Y Y = 0et donc

    2(Y , Y ) =Y Y 2Y Y 2Y Y 2Y Y 2

    = R2 .

    2. (a) En effectuant le calcul nous trouvons que Y 2X1 + 2X2 = 3.

  • 26 Rgression avec R

    (b) En calculant les normes carres, nous avons

    X12 = 12 + 12 + 12 = 3,X22 = 1/2 + 1/2 + 2 = 3,X32 = 3/2 + 3/2 = 3.

    En calculant les produits scalaires, nous avons

    X1, X2 = 1 1/2 + 1 1/

    2 + 1 (

    2) =

    22 = 0,

    X1, =3/23/2 = 0,

    X2, = 1/23/2 1/

    23/2 = 0.

    (c) La reprsentation graphique est :

    X1

    X2

    Y

    Y

    Y

    Y

    O

    Y

    Fig. 8.2 Reprsentation de Y , Y , Y et Y dans le repre orthogonal (X1, X2, ).

    (d) Nous avons ici X1 (X), X2 (X) et (X), ce qui permet detrouver Y :

    PXY = PX(2X1 2X2 + 3) = 2PXX1 2PXX2 + 3PX == 2X1 2X2 = (2

    2, 2

    2, 2 2

    2).

    (e) Puisque 1 fait partie des variables explicatives, nous avons

    (Y, Y ) =Y Y , Y Y Y Y Y Y

    ,

    ce qui est la dfinition du cosinus de langle entreY Y et

    Y Y .

    (f) Notons par Y le vecteur X. Sa moyenne vaut Y. Nous avons maintenant

    le cosinus de langle entreY Y et

    YY. Graphiquement, la moyenne de Y

    est la projection sur X1 = 13.

    (g) La reprsentation graphique nous permet de voir que langle entreY Y et

    YY est le mme que celui entre

    Y Y et

    Y Y . Langle est minimum (et le

  • Chapitre 1. Corrections des exercices 27

    cosinus maximum) quand = ou pour tout tel queYY = k

    Y Y avec

    k > 0.

    Du fait de lorthogonalit entre X1 et X2,YY est toujours colinaire

    Y Y ,

    seul le signe change en fonction de lorientation des vecteurs (mme sens ousens oppos).

    3. Comme (Xj ;Xk) = 1 alors R(Xj ; (1, Xj)) = 1 et donc puisque la constante faitpartie du modle R(Xj ;X(j)) = 1. Lhypothse H1 nest donc pas vrifie.

    Exercice 8.3 (Nombre effectif de paramtres de la rgression ridge)1. Rappelons que pour une valeur donne, le vecteur de coefficients de la rgression

    ridge scrit

    ridge() = (XX + I)1X Y.

    et donc lajustement par la rgression ridge est

    Yridge() = X(XX + I)1X Y = H()Y

    2. Soit Ui le vecteur propre de A associ la valeur propre d2i . Nous avons donc par

    dfinition que

    AUi = d2iUi

    AUi + Ui = d2iUi + Ui = (d

    2i + )Ui

    (A+ Ip)Ui = (d2i + )Ui,

    cest--dire que Ui est aussi vecteur propre de A + Ip associ la valeur propre+ d2i .

    3. Nous savons que X = QDP avec Q et P matrices orthogonales et D = diag(d1, . . . , dp).Puisque Q est orthogonale, nous avons, par dfinition, QQ = I . Nous avons doncque X X = (QDP )QDP = PDQQDP = PD2P . Puisque P est orthogonaleP P = Ip et P

    1 = P .

    tr(X(X X + Ip)1X ) = tr((X X + Ip)

    1X X)

    = tr((PD2P + PP )1PD2P )

    = tr((P (D + Ip)P)1PD2P ).

    Nous avons donc

    tr(X(X X + Ip)1X ) = tr((P )1(D + Ip)

    1P1PD2P )

    = tr((P )1(D + Ip)1D2P )

    = tr((D + Ip)1D2).

    Selon la dfinition de H(), nous savons que sa trace vaut donc

    tr((D + Ip)1D2).

    Comme D et Ip sont des matrices diagonales, leur somme et produit sont simple-ment leur somme et produit terme terme des lments de la diagonale, et donccette trace (somme des lments de la diagonale) vaut

    p

    i=1

    d2jd2j +

    .

  • 28 Rgression avec R

    Exercice 8.4 (EQM de la rgression ridge)1. Les dmonstrations figurent en p. ?? :

    B(ridge) = (X X + I)1,V (ridge) =

    2(X X + I)1X X(X X + I)1

    EQM(ridge) = (XX + I)1

    [2 + 2(X X)

    ](X X + I)1.

    2. Puisque X X = P diag(i)P, nous avons

    (X X + I) = P diag(i)P + PP = P diag(i + )P

    .

    En se rappelant que P1 = P , son inverse vaut

    (X X + I)1 = P diag(1/(i + ))P.

    Nous avons donc

    EQM(ridge) = P diag(1

    i + )P

    [2 + 2(X X)

    ]P diag(

    1

    i + )P

    = P diag(1

    i + )[2(P P ) + 2Ip

    ]diag(

    1

    i + )P .

    Nous en dduisons que sa trace vaut

    tr{EQM(ridge)

    }= tr

    {diag(

    1

    i + )[2(P P ) + 2Ip

    ]

    diag(1

    i + )P P

    },

    et, comme P P = Ip, nous avons alors

    tr{EQM(ridge)

    }= tr

    {[2(P P ) + 2Ip

    ]diag(

    1

    (i + )2)

    }.

    Le ie lment de la diagonale de la matrice P P vaut [P ]2i . Celui de[2(P P ) + 2Ip

    ]

    vaut 2[P ]2i + 2 et celui de

    [2(P P ) + 2Ip

    ]diag(

    1

    (i + )2)

    vaut donc2[P ]2i +

    2/(i + )2.

    On en dduit le rsultat annonc car la trace est la somme des lments diagonauxdune matrice.

    3. Lestimateur des MC est non biais et son EQM vaut sa variance :

    EQM(MC) = 2(X X)1.

    Nous avons alors

    EQM(MC) = 2(X X+I)1(X X + I)(X X)1

    = 2(X X+I)1(X X(X X)1 + I(X X)1)

    = 2(X X+I)1(I+(X X)1)(X X+I)(X X+I)1

    = 2(X X+I)1(X X+2I+2(X X)1)(X X+I)1.

  • Chapitre 1. Corrections des exercices 29

    4. Le calcul de = EQM(ridge)EQM(MC) est immdiat en utilisant lexpressionprcdente de EQM(MC) et celle rappele en question ??.

    5. En utilisant le thorme propos avec A = (X X + I)1 et B = (2(2Ip +2(X X)1) ) nous obtenons le rsultat demand. Cette condition dpendde qui est inconnu, mais aussi de X, cest--dire des mesures obtenues.

    6. Intressons-nous la matrice . Cette matrice est symtrique donc diagonali-sable, de valeurs propres positives ou nulles. La somme de ses valeurs propres estgale la trace de cette matrice

    tr() = tr() = .

    Montrons que cette matrice na quune seule valeur propre non nulle . Pour cela,considrons le vecteur Rp et montrons quil est vecteur propre de associ la valeur propre :

    () = () = ().

    Nous avons donc un vecteur propre de qui est associ la valeur propre .De plus, nous savons que la somme des valeurs propres positives ou nulles de

    vaut . Nous en dduisons que les p 1 valeurs propres restantes sont toutesnulles.

    Nous pouvons donc dire que la matrice se dcompose comme

    = UDU ,

    o U est la matrice orthogonale des vecteurs propres norms lunit de etD = diag(, 0, . . . , 0). Nous avons donc

    Ip = UU UDU = U(diag(1 , 1, . . . , 1)U .

    Les valeurs propres de Ip sont donc 1, 1, . . . , 1, qui sont toutes positivesou nulles ds que 1.

    7. Une condition pour que 2(2Ip ) soit semi-dfinie positive est que () 2 (cf. question prcdente) et donc (2(2Ip +

    2(X X)1) ) est alors lasomme de 2 matrices semi-dfinies positives donc semi-dfinie positive. Cela im-plique quil sagit dune condition suffisante pour que soit semi-dfinie positive.

    8. Nous venons de montrer 2 conditions, lune ncessaire et suffisante, lautre suffi-sante, afin que soit semi-dfinie positive. Cette assertion signifie que, quelle quesoit la combinaison linaire du vecteur de paramtre (par exemple une coordonne),lestimateur ridge est meilleur que celui des MC au sens de lEQM. Cela signifieaussi que, si une de ces conditions est vrifie, globalement au sens de la trace delEQM, lestimateur ridge est meilleur que celui des MC.

    Au niveau des conditions, cela permet de trouver la valeur optimale de . Malheu-reusement chacune des 2 conditions dpend de la valeur inconnue et donc nestpas rellement utilisable en pratique. La condition suffisante procure une amlio-ration, dans le sens o elle ne dpend pas de X donc de lexprience. Le prix payer est bien sr quil sagit seulement dune condition suffisante et donc plusrestrictive.

  • 30 Rgression avec R

    Exercice 8.5 (Estimateurs rtrcissement -Shrinkage)1. Soit le modle de rgression

    Y = X + .

    En le pr-multipliant par P , nous avons

    Z = PY = PX + P = DQ + = D + .

    Puisque N (0, 2In) et P fix, nous avons que = P suit une loi normale demoyenne E() = PE() = 0 et de variance V() = P V()P = 2PP = 2In.

    Par dfinition, Z vaut PY et nous savons que Y N (X, 2In), donc Z N (PX, 2PP ), cest--dire Z N (DQ, 2In) ou encore Z N (D, 2In).En utilisant la valeur de D nous avons

    D =

    (0

    ).

    Donc Z1:p N (, 2Ip).2. Soit un estimateur de linaire en Y : = AY . Soit lestimateur de = Q linaire

    en Y : = QAY . Pour calculer leur matrice de lEQM, nous devons calculer leurbiais et leur variance. Le biais de est

    B() = E() = E(AY ) = AE(Y ) = AX .

    Le biais de scrit

    B() = E() = E(Q) = QE() = QAX .

    Comme = Q et QQ = Ip nous avons

    B() = QAXQ .

    La variance de scrit

    V() = V(AY ) = AV(Y )A = 2AA,

    et celle de est

    V() = V(Q) = QV()Q = 2QAAQ.

    Nous en dduisons que les matrices des EQM sont respectivement

    EQM() = (AX )(AX ) + 2AA,EQM() = (QAXQ )(QAXQ ) + 2QAAQ,

    et enfin les traces de ces matrices scrivent

    tr(EQM()) = (AX )(AX ) + 2 tr(AA),tr(EQM()) = (QAXQ )(QAXQ ) + 2 tr(AA).

  • Chapitre 1. Corrections des exercices 31

    Rappelons que = Q et que QQ = Ip, nous avons donc

    tr(EQM()) = (QAXQ Ip)(QAXQ Ip) + 2 tr(AA)= (QAX Q)(QAX Q) + 2 tr(AA)= (AX Ip)QQ(AX Ip) + 2 tr(AA)= (AX Ip)(AX Ip) + 2 tr(AA) = tr(EQM()).

    En conclusion, que lon sintresse un estimateur linaire de ou un estimateurlinaire de , ds que lon passe de lun lautre en multipliant par Q ou Q, matriceorthogonale, la trace de lEQM est identique, cest--dire que les performancesglobales des 2 estimateurs sont identiques.

    3. Nous avons le modle de rgression suivant :

    Z1:p = + 1:p,

    et donc, par dfinition de lestimateur des MC, nous avons

    MC = ()1Z1:p.

    Comme est une matrice diagonale, nous avons

    MC = 2Z1:p =

    1Z1:p.

    Cet estimateur est dexpression trs simple et il est toujours dfini de manireunique, ce qui nest pas forcment le cas de MC.

    Comme Z1:p N (, 2Ip) nous avons que MC = 1Z1:p suit une loi normaledesprance E(1Z1:p) =

    1E(Z1:p) = et de variance V(MC) =

    22.Puisque MC est un estimateur des MC, il est sans biais, ce qui est habituel.

    4. LEQM de MC, estimateur sans biais, est simplement sa variance. Pour la ie coor-

    donne de MC, lEQM est gal llment i, i de la matrice de variance V(MC),cest--dire 2/2i . La trace de lEQM est alors simplement la somme, sur toutesles coordonnes i, de cet EQM obtenu.

    5. Par dfinition (c) = diag(ci)Z1:p et nous savons que Z1:p N (, 2Ip). Nousobtenons que (c) suit une loi normale desprance E(diag(ci)Z1:p) = diag(ci)et de variance

    V((c)) = diag(ci)V(Z1:p) diag(ci) = 2 diag(c2i ).

    La loi de (c) tant une loi normale de matrice de variance diagonale, nous endduisons que les coordonnes de (c) sont indpendantes entre elles.

    6. Calculons lEQM de la ie coordonne de (c)

    EQM((c)i) = E((c)i )2 = E((c)2i ) +E(2i ) 2E((c)ii).

    Comme i et que E((c)2i ) = V((c)

    2i ) + {E((c)2i )}2, nous avons

    EQM((c)i) = 2c2i + (ciii)

    2 + 2i 2iE((c)i)= 2c2i + (ciii)

    2 + 2i 22ciii = 2c2i + 2i (cii 1)2.

  • 32 Rgression avec R

    7. De manire vidente si 2i diminue, alors lEQM de (c)i diminue aussi. Calcu-

    lons la valeur de lEQM quand 2i =2

    2i

    (1/i)+ci(1/i)ci

    . Nous avons, grce la question

    prcdente,

    EQM((c)i) = 2c2i + (cii 1)2

    2

    2i

    (1/i) + ci(1/i) ci

    = 2c2i +2

    2i(1 cii)2 1 + ici

    1 ici

    = 2c2i +2

    2i(1 cii)(1 + ici)

    = 2c2i +2

    2i(1 2i c2i )

    = 2c2i +2

    2i 2c2i =

    2

    2i= EQM(MC),

    do la conclusion demande.

    8. Par dfinition de (c), nous avons

    (c) = diag(ci)Z1:p = diag(i

    2i + )Z1:p

    = (+ Ip)1Z1:p,

    puisque est diagonale. De plus nous avons D =(0

    ), ce qui entrane que DD =

    et DZ = Z1:p. Nous obtenons donc

    (c) = (DD + Ip)1DZ.

    Rappelons que D = PXQ avec P et Q matrices orthogonales, nous avons alors

    (c) = (QX P PXQ + Ip)1DZ = (QX XQ + QQ)1DZ

    = (Q(X X + Ip)Q)1DZ = (Q)1(X X + Ip)

    1(Q)1DZ

    = Q(X X + Ip)1QDZ.

    Comme Z = PY et D = PXQ, nous avons

    (c) = Q(X X + Ip)1QQX P PY = Q(X X + Ip)

    1XY.

    Enfin, nous savons que Q = , nous en dduisons que = Q et donc que dansle cas particulier o ci =

    i2i+

    nous obtenons

    = Q(c) = (X X + Ip)1XY,

    cest--dire lestimateur de la rgression ridge.

    Exercice 8.6 (Gnralisation de la rgression ridge)Soit la fonction objectif minimiser

    L() = Y X2 p

    j=1

    j(2j ).

  • Chapitre 1. Corrections des exercices 33

    Drivons cette fonction par rapport j et nous obtenons

    Lj

    = 2[X (Y X)]j 2jj .

    Cette quation se rcrit comme

    L

    = 2X (Y X) 2.

    A loptimum cette drive est nulle et nous avons

    2X (Y XRG = 2RG,

    cest--dire

    RG = (XX +)1X Y.

    Comme le nombre effectif de paramtres est gal la trace de la matrice H permettantdobtenir Y partir de Y , nous avons

    YRG = XRG = X(XX +)1X Y = HY

    Donc le nombre effectif de paramtres est ici

    tr(H) = tr(X(X X +)1X ).

    Exercice 8.7 (IC pour la rgression ridge)1. Nous savons que N (, 2(X X)1).2. La dfinition de lestimateur ridge est ridge() = (X

    X + )1X Y .

    3. Grce H3 nous savons que Y N (X, 2In). Le vecteur ridge est une fonctionfixe de Y , il suit donc une loi normale desprance et de variance dterminer.Lesprance vaut

    E(ridge) = E((XX + )1X Y ) = (X X + )1X E(Y )

    = (X X + )1X X,

    et la variance

    V(ridge) =V((XX + )1X Y ) = (X X + )1X V(Y )X(X X + )1

    =2(X X + )1X X(X X + )1.

    4. Rappelons que la projection orthogonale de Y sur (X), note Y ou encore PXYest unique. Par dfinition, nous avons PXY (Y Y ).Par construction Yridge = Xridge appartient (X). Selon lnonc Yridge 6= PXYdonc (Y Y ) est diffrent de Y Yridge et ils ne sont pas colinaires. En conclusion,Y nest pas orthogonal (Y Yridge).

    5. Il faut pouvoir dmontrer lindpendance de ridge et ridge. Pour le thorme ??, onmontre lindpendance entre et en considrant les 2 vecteurs et = (Y Y ).Comme nous pouvons crire = (X X)1X PXY , est donc une fonction fixe(dpendante uniquement des X) de PXY . De plus, = PXY est orthogonal

  • 34 Rgression avec R

    PXY . Ces 2 vecteurs suivent des lois normales et sont donc indpendants. Il enrsulte que et Y Y sont indpendants et de mme pour et .Ici, ridge est une fonction de Y Yridge. Le vecteur ridge = (X X+ Ip)1X Y =(X X + Ip)

    1X PXY est une fonction fixe ( est considr comme fix) de PXY .Par contre, PXY nest pas orthogonal (Y Yridge), comme nous lavons montr,nous ne pouvons donc montrer lindpendance de ridge et ridge.

    Une autre ide serait dutiliser mais en gnral si lon utilise la rgression ridgecest que lon se doute que Y nest pas un bon estimateur de X et donc a priori qui est une fonction de Y Y risque de ne pas tre un bon estimateur de .Lestimateur peut mme tre nul, ce qui pratiquement peut arriver quand p > n.

    6. Lide repose sur le bootstrap.

    Require: fix, fix, B choisi.Ensure: IC, au niveau , coordonne par coordonne de .

    Estimer ridge() .En dduire ridge = Y Xridge.for k = 1 B do

    tirer avec remise n rsidus estims parmi les n coordonnes de ridge ;

    notons ces rsidus (runis dans 1 vecteur) (k)ridge ;

    construire 1 chantillon Y (k) = Xridge() + (k)ridge ;

    (k) ;estimer le vecteur de paramtre

    (k)ridge(

    (k)) = (X X + (k)Ip)1X Y (k) ;

    end forfor j = 1 p do

    calculer les quantiles empiriques de niveau /2 et 1/2 pour la coordonnej, sur tous les vecteurs {(k)ridge()} ;

    end for

    7. Lalgorithme est presque le mme. Cependant comme nest pas fix, pour estimerridge() il faut dterminer par une mthode choisie. Ensuite, chaque estima-

    tion de (k)ridge(

    (k)), il est ncessaire au pralable de dterminer (k) par la mmemthode que celle utilise pour dterminer .

    Exercice 8.8 (Algorithme LARS)

    1.9 Rgression sur composantes : PCR et PLS

    Exercice 9.1 (Questions de cours)A, B, C, A, B, C.

    Exercice 9.2 (Thorme ??)Elle seffectue par rcurrence. Nous allons ajouter cette proprit un rsultat interm-diaire qui constituera la premire partie de la proprit :

    X(j) = X

    j1

    i=1

    (I w(i)(t(i)t(i))1t(i)X).

    La seconde partie sera bien sr de vrifier que w(j) scrit bien sous la forme annonce.

  • Chapitre 1. Corrections des exercices 35

    La proprit pour j = 1 : la premire partie na pas de sens et, concernant w(j), parconstruction X = X(1) et donc w(1) = w(1).La proprit pour j = 2 est-elle vraie ?Nous savons que par dfinition X(2) = P

    t(1)X(1) et X(1) = X donc

    X(2) = Pt(1)

    X(1) = X Pt(1)X = X t(1)(t(1)

    t(1))1t(1)

    X

    = X(I w(1)(t(1)t(1))1t(1)X),

    car t(1) = Xw(1). Ceci dmontre la premire partie de la proprit.Ensuite, puisque t(2) = X(2)w(2) = Xw(2), en remplaant X(2) par X(Iw(1)(t(1)t(1))1t(1)X)nous avons dmontr la proprit pour le rang j = 2.Supposons la proprit vraie au rang (j1). Nous avons par dfinition : X(j) = P

    t(j1)X(j1)

    donc X(j) = X(j1) Pt(j1)X(j1). Or par construction les {t(k)}jk=1 sont toutes or-thogonales donc Pt(j1)X

    (j1) = Pt(j1)X. Nous avons, grce la proprit vraie pourle rang (j 1), que

    X(j) = X(j1) t(j1)(t(j1)t(j1))1t(j1)X= X(j1) X(j1)w(j1)(t(j1)t(j1))1t(j1)X

    = X

    j2

    i=1

    (I w(i)(t(i)t(i))1t(i)X)(I w(j1)(t(j1)t(j1))1t(j1)X)

    dmontrant la premire partie de la proposition. Ensuite, puisque t(j) = X(j)w(j) =Xw(j), en remplaant X(j) par X

    j1i=1 (I w(i)(t(i)

    t(i))1t(i)

    X), nous avons dmontr

    la proprit pour le rang j.

    Exercice 9.3 (Gomtrie des estimateurs)1-4. Les quatre premires rponses sont videntes, les coordonnes de Y valent 1.5, 0.5

    et 0. Ici p vaut 2 et B1 est un cercle de centre O de rayon 1, alors que B2 est unlosange.

    5. Intuitivement, limage dun cercle par une application linaire est une ellipse etlimage dun losange est un paralllogramme.

    6. Le dessin suivant reprsente les ensembles C1 et C2 et Y grce aux ordres GNU-Rsuivants :

    X

  • 36 Rgression avec R

    coord2[iter+250,]

  • Chapitre 1. Corrections des exercices 37

    pr-multiplier ce vecteur par X. Cela donne le vecteur de coordonnes (1, 1, 0). Lescommandes GNU-R sont

    X

  • 38 Rgression avec R

    et la matrice X vaut

    X =[1 1

    ].

    Lestimateur vaut

    (x) = (X PX)1X PY.

    Le calcul donne le rsultat propos.

    Exercice 10.7 (Polynmes locaux)La matrice P vaut

    P = diag

    (K(

    xXih

    )

    ),

    et la matrice X vaut

    X =

    [1 1

    (X1 x) (Xn x)

    ].

    Lestimateur vaut

    (x) = (X PX)1X PY.

    Le calcul donne

    ( K(xXi

    h)

    (Xi x)K(xXih )

    (Xi x)K(xXih )

    (Xi x)2K(xXih )

    )1( K(xXi

    h)Yi

    (Xi x)K(xXih )Yi

    ).

    Posons

    S0 =

    K(xXi

    h)

    S1 =

    (Xi x)K(xXih

    )

    S2 =

    (Xi x)2K(xXih

    ).

    Cela nous donne, aprs calcul de linverse,

    (x, h) =1

    S0S2 S21

    (S2 S1S1 S0

    )( K(xXi

    h)Yi

    (Xi x)K(xXih )Yi

    )

    =1

    S0S2 S21

    (S2

    K(xXih

    )Yi S1

    (Xi x)K(xXih )YiS0

    (Xi x)K(xXih )Yi S1

    K(xXih

    )Yi

    )

    et finalement, en ne prenant que la premire composante de , nous obtenons le rsultatnonc.

  • Bibliographie

    Lehmann E.L. (1959). Testing statistical hypotheses. John Wiley.