Régression sous SAS

Embed Size (px)

Citation preview

PREMIERS PAS en REGRESSION LINEAIRE avec SAS Josiane Confais (UPMC-ISUP) - Monique Le Guen (CNRS-CES-MATISSEUMR8174) e-mail : [email protected] e-mail : [email protected]

Rsum Ce tutoriel accessible par internet montre de faon intuitive et sans formalisme excessif, les principales notions thoriques ncessaires la comprhension et l'interprtation des rsultats danalyses de rgression linaire, simple et multiple, produits par la procdure REG de SAS et par le menu FIT de SAS/INSIGHT1 . Ce document est issu dun cours enseign par les auteurs dans diffrentes formations : ISUP, DEA & DESS de Paris 1, formation permanente du CNRS, au CEPE de lINSEE. Il fait suite un premier document de travail publi lUnit Mthodes Statistiques de lINSEE. Nous avons ajout de nombreux graphiques et affichages de SAS/INSIGHT, qui par ses possibilits de visualisation et dinteractivit, facilitent la comprhension la fois des donnes et des techniques. Nous avons profit des possibilits dinternet pour ajouter des liens vers des applets ou dautres documents accessibles sur le web. Nous insistons dans ce tutoriel, sur limportance des graphiques exploratoires, et sur les limites des rsultats obtenus par une rgression linaire, si ltape de vrification des suppositions nest pas systmatiquement entreprise.

1

SAS et SAS/INSIGHT sont les marques dposes de SAS Institute Inc., Cary, NC, USA

Revue MODULAD, 2006

- 220-

Numro 35

1.

SENSIBILISATION A LA REGRESSION LINEAIRE SIMPLE ........................................................................... 224 1.1. O se place la rgression linaire ?............................................................................................ 224 1.2. Ajustement affine ou Rgression Simple...................................................................................... 2251.2.1. Comment trouver la droite qui passe au plus prs de tous les points?............................................... 227 1.2.2. Mthode destimation des paramtres 0 et 1 ...................................................................................... 228 1.2.3. Effet dun point observation sur la droite de rgression ......................................................................... 230 1.2.4. Dcomposition de l'cart entre Yi et la moyenne de Y ........................................................................... 230 1.2.5. Analyse de la variance ............................................................................................................................ 231 Ce que le modle explique et ce qu'il n'explique pas......................................................................................... 231 Standard de prsentation de l'Analyse de la Variance ....................................................................................... 232 Comment apprcier globalement la rgression.................................................................................................. 234 Exemple : Rgression de la Taille en fonction du Poids ................................................................................... 235 1.2.6. Reprsentations gomtriques ................................................................................................................ 238 Rgression simple de Y sur X ........................................................................................................................... 238 Distribution en un point fix de X..................................................................................................................... 240 Reprsentation de X fix et Y alatoire............................................................................................................. 241

1.3.1.3.1. 1.3.2. 1.3.3. 1.3.4.

Glissement fonctionnel de la mthode des Moindres Carrs Ordinaires la Rgression. ......... 242De l'Astronomie...................................................................................................................................... 243 Aux Sciences Sociales ....................................................................................................................... 243 Galton Diagram Regression.................................................................................................................... 243 Formalisation des Suppositions .............................................................................................................. 245

1.4.

Confiance accorder aux rsultats............................................................................................. 246

1.4.1. Test de la signification globale de la rgression ..................................................................................... 246 1.4.2. Statistiques lies au paramtre 1 ........................................................................................................... 247 Calcul de la variance de b1................................................................................................................................ 248 Test portant sur le paramtre 1 ........................................................................................................................ 249 Calcul de l'intervalle de confiance de 1 ........................................................................................................... 250

1.4.3. Statistiques lies au paramtre 0 ........................................................................................................... 250 Calcul de la variance de b0................................................................................................................................ 250 Calcul de l'intervalle de confiance de 0 .......................................................................................................... 252 Exemple destimation des paramtres avec Proc REG...................................................................................... 253 1.4.4. Prcision sur l'estimation de Y................................................................................................................ 254 Intervalle de confiance autour de l'estimation de la droite de rgression........................................................... 255 Intervalle de prvision de Y sachant X.............................................................................................................. 257 Exemple avec les options CLI CLM de la Proc REG....................................................................................... 258 Test portant sur le paramtre 0 ........................................................................................................................ 251

2.

LA REGRESSION LINEAIRE MULTIPLE ..................................................................................................... 260 2.1. Le critre des moindres carrs.................................................................................................... 260 2.2. Formalisation de la rgression linaire multiple ........................................................................ 261 2.3. Exemples de rgression linaire multiple avec Proc REG.......................................................... 2632.3.1. 2.3.2. Prsentation des donnes ........................................................................................................................ 263 Rgression linaire multiple avec Proc REG sans options...................................................................... 264

2.4.2.4.1. 2.4.2. 2.4.3. 2.4.4. 2.4.5.

TYPE I SS et TYPE II SS de Proc REG ....................................................................................... 267Dfinition de TYPE I SS et TYPE II SS................................................................................................. 267 Interprtations conjointes de TYPE I SS et TYPE II SS......................................................................... 270 Options SS1 et SS2 de linstruction model de Proc REG ....................................................................... 270 Tester la nullit de r paramtres pour tester un sous modle .................................................................. 272 Exemple de test partiel avec PROC REG ............................................................................................... 273

2.5. 2.6. 3.

Ce qu'il faut retenir des 'SS' ........................................................................................................ 275 Les rsidus................................................................................................................................... 276Conclusion ........................................................................................................................................................ 277

QUAND LES RESULTATS D'UNE REGRESSION NE SONT PAS FORCEMENT PERTINENTS.............................. 278 3.1. Exemples en rgression simple.................................................................................................... 2783.1.1. Une mme valeur pour des situations diffrentes ................................................................................... 278 3.1.2. Pondrations et rgression linaire par morceaux................................................................................... 280 Thorie de la rgression pondre..................................................................................................................... 283 3.1.3. Transformation des donnes ................................................................................................................... 283 3.1.4. Mthode non paramtrique du LOWESS ............................................................................................... 287

3.2.

Exemples en rgression multiple................................................................................................. 289

3.2.1. Y explique par la corrlation entre deux rgresseurs....................................................................... 289 3.2.2. Instabilit des coefficients de la rgression, en cas de multicolinarit .................................................. 291 Exemple sur donnes relles ............................................................................................................................. 291

Revue MODULAD, 2006

- 221-

Numro 35

Exemple sur donnes avec modle thorique connu et rgresseurs corrls ..................................................... 293

3.3.3.3.1. 3.3.2. 3.3.3.

Conditions d'utilisation de la rgression, les diagnostics ........................................................... 295Modle Inadapt ..................................................................................................................................... 296 Linfluence de certaines donnes, les donnes atypiques -Outliers- ....................................................... 296 Corrlation et colinarit entre les rgresseurs ....................................................................................... 297

4.

VALIDATION DUNE REGRESSION .......................................................................................................... 298 4.1. Introduction................................................................................................................................. 2984.1.1. 4.1.2. Modle et notations................................................................................................................................. 298 Problmes tudier................................................................................................................................. 299

4.2.

Vrification des suppositions de base sur les erreurs ................................................................. 299

4.2.1. Esprance nulle....................................................................................................................................... 299 4.2.2. Indpendance .......................................................................................................................................... 299 Cas particulier o les observations sont apparentes (cas des chroniques) :...................................................... 300 4.2.3. Egalit des variances (homoscdasticit)................................................................................................ 301 4.2.4. Normalit des erreurs.............................................................................................................................. 303 4.2.5. Exemple.................................................................................................................................................. 303 Modle .............................................................................................................................................................. 303 Dessin des rsidus contre les 4 rgresseurs (avec SAS/INSIGHT) ................................................................... 304 Test dhomoscdasticit et trac du QQ-PLOT avec PROC REG. ................................................................... 306

4.3.

Influence d'observations.............................................................................................................. 307

4.3.1. Hat matrice et leverages.......................................................................................................................... 307 4.3.2. Rsidus studentiss internes.................................................................................................................... 309 4.3.3. Rsidus studentiss externes................................................................................................................... 309 4.3.4. Mesure globale de l'influence sur le vecteur des coefficients: Distance de COOK................................ 309 4.3.5. Influence sur chacun des coefficients : DFBETAS................................................................................. 310 4.3.6. Prcision des estimateurs : COVRATIO ................................................................................................ 310 4.3.7. Influence sur la valeur ajuste: DFFITS ................................................................................................. 310 4.3.8. Coefficient global PRESS....................................................................................................................... 311 4.3.9. Comment obtenir les mesures dinfluence dans SAS ............................................................................. 311 Dans PROC REG .............................................................................................................................................. 311 Dans SAS/INSIGHT ......................................................................................................................................... 312 4.3.10. Tableau rcapitulatif.......................................................................................................................... 312 4.3.11. Exemple............................................................................................................................................. 314

4.4.

Colinarit des rgresseurs......................................................................................................... 318

4.4.1. Mthodes bases sur l'tude de la matrice X'X ....................................................................................... 319 Etude de la matrice de corrlation des rgresseurs ............................................................................................ 320 4.4.2. Variance Inflation Factor ........................................................................................................................ 320 4.4.3. Condition index et variance proportion .................................................................................................. 321 Les indices de colinarit .................................................................................................................................. 322 4.4.4. Remdes en cas de multi-colinarit....................................................................................................... 323 4.4.5. Exemple.................................................................................................................................................. 324 Regression RIDGE............................................................................................................................................ 325

4.5.

Choix des rgresseurs ................................................................................................................. 326

4.5.1. Utilisation des sommes de carrs............................................................................................................ 326 Rappel sur les somme de carrs apports par un rgresseur .............................................................................. 327 Tests des apports SSModle dune variable ....................................................................................................... 327 Exemple dlimination progressive ................................................................................................................... 328 4.5.2. Diffrentes mthodes bases sur les sommes de carrs .......................................................................... 330 Mthode FORWARD (ascendante)................................................................................................................... 330 Mthode BACKWARD (descendante) ............................................................................................................. 331 Mthode STEPWISE (progressive)................................................................................................................... 331 Exemples de slection STEPWISE ................................................................................................................... 332 4.5.3. Amlioration de R ................................................................................................................................. 334 Maximum R 2 Improvement (MAXR)............................................................................................................... 334 Minimum R 2 Improvement (MINR)................................................................................................................. 335 4.5.4. Autres mthodes bases sur R : RSQUARE et ADJRSQ ...................................................................... 335 4.5.5. Coefficient CP de Mallows..................................................................................................................... 335 Slection suivant le coefficient CP.................................................................................................................... 336 Utilisation du coefficient CP dans une slection de rgresseurs........................................................................ 336 4.5.6. Critres AIC et BIC ................................................................................................................................ 336 4.5.7. Exemple de slection RSQUARE........................................................................................................... 337

CONCLUSION.................................................................................................................................................. 339 ANNEXES ..................................................................................................................................................... 341 ANNEXE 1......................................................................................................................................................... 342

Revue MODULAD, 2006

- 222-

Numro 35

SYNTAXE SIMPLIFIEE DE LA PROCEDURE REG DE SAS.................................................................. 342 PROC REG options ;................................................................................................................................. 342 MODEL dpendante = rgresseurs / options ;.......................................................................................... 343 Instructions BY FREQ ID WEIGHT :........................................................................................................ 344 REWEIGHT expression / WEIGHT = valeur ;......................................................................................... 344 TEST equation(s) ;..................................................................................................................................... 344 RESTRICT equation(s);............................................................................................................................. 344 Options RIDGE et PCOMIT des instructions PROC REG ou MODEL ................................................... 346 ANNEXE 2......................................................................................................................................................... 347 MODE DEMPLOI TRES SUCCINCT DE SAS/INSIGHT......................................................................... 347 Le lancement de SAS/INSIGHT ................................................................................................................. 347 Rle statistique des variables dans SAS/INSIGHT .................................................................................... 348 Menu principal de SAS/INSIGHT.............................................................................................................. 349 Graphiques standard en SAS/INSIGHT..................................................................................................... 349 Les Analyses Statistiques avec SAS/INSIGHT ........................................................................................... 351 Impression et Sauvegarde.......................................................................................................................... 352 Pour plus dinformation sur les graphiques .............................................................................................. 354 ANNEXE 3......................................................................................................................................................... 355 STATISTIQUES RELATIVES A LANALYSE DE LA VARIANCE ........................................................ 355 STATISTIQUES SUR LES PARAMETRES .............................................................................................................. 356 ANNEXE 4......................................................................................................................................................... 357 RELATIONS ENTRE LA LOI NORMALE ET LES STATISTIQUES DE LOIS .................................... 357 ANNEXE 5......................................................................................................................................................... 358 CONSTRUCTION DUN QQ-PLOT.............................................................................................................. 358 PRINCIPE DE LA DROITE DE HENRY ................................................................................................................. 358 GENERALISATION............................................................................................................................................ 359 QQ-PLOT AVEC SAS....................................................................................................................................... 359

Revue MODULAD, 2006

- 223-

Numro 35

1. Sensibilisation la rgression linaire simpleCette sensibilisation la rgression prsente de manire dtaille la logique et les calculs permettant la comprhension de la rgression simple. On montre tout d'abord la dmarche algbrique qui conduit un ajustement affine, puis par un dtour oblig l'Histoire, on glisse vers la modlisation en s'appuyant sur la Statistique.

1.1.

O se place la rgression linaire ?

La rgression linaire se classe parmi les mthodes danalyses multivaries qui traitent des donnes quantitatives. C'est une mthode d'investigation sur donnes d'observations, ou dexprimentations, o l'objectif principal est de rechercher une liaison linaire entre une variable Y quantitative et une ou plusieurs variables X galement quantitatives. Cest la mthode la plus utilise pour deux raisons majeures :

cest une mthode ancienne, cest l'outil de base de la plupart des modlisations plus sophistiques comme la rgression logistique, le modle linaire gnralis, les mthodes de traitement des sries temporelles, et surtout des modles conomtriques, etc.

A l'aide du tableau 1.1, on peut reprer les mthodes les plus courantes d'analyses statistiques et les procdures SAS utiles pour rechercher des liaisons, selon le type (nominal, ordinal, intervalle, ratio) des variables Y et X. Le lecteur peu familiaris avec la terminologie des variables SAS pourra voir sur le site de MODULAD, le tutoriel2 La Proc FREQ de SAS, Tests dindpendance et dassociation , de J. CONFAIS, Y. GRELET, M. LE GUEN.

2

http://www-rocq.inria.fr/axis/modulad/archives/numero-33/tutorial-confais-33/confais-33-tutorial.pdf , page 5-7.

Revue MODULAD, 2006

- 224-

Numro 35

Tableau 1.1 Procdures SAS adaptes selon le type des variables (nominal, ordinal, intervalle, ratio)

X intervalle/ratio Y intervalle/ratio Rgression linaire PROC REG Y ordinale/nominale Si Y est ordinale ou 2 modalits Rgression logistique PROC LOGISTIC

X ordinale/nominale Modles linaires gnraliss PROC GLM PROC ANOVA Analyses de tableaux de contingence PROC FREQ Rgression logistique PROC LOGISTIC Traitements des variables catgorielles PROC CATMOD

Analyse de la variance

Pour la rgression linaire la procdure REG est la plus complte. Cependant le module SAS/INSIGHT, qui est la fois un tableur, un grapheur et un analyseur, est particulirement adapt pour tudier des donnes dans une problmatique de rgression linaire couple une analyse exploratoire des donnes. Dans les exemples nous utiliserons lune ou lautre de ces possibilits. En annexe 2, on trouvera un mode demploi trs succinct de SAS/INSIGHT.

1.2.

Ajustement affine ou Rgression Simple

Exemple Soient les 2 mesures de poids (variable X) et taille (variable Y) releves sur un chantillon de 20 objets.

Revue MODULAD, 2006

- 225-

Numro 35

Tableau 1.2 Donnes Taille et Poidsidentifiant1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

poids (X)46 78 85 85 85 85 95 95 100 100 100 103 105 105 115 115 115 130 135 150

taille (Y)152 158 160 162 158 159 165 165 166 159 166 168 163 164 168 166 162 165 167 172

Le graphique du nuage de points, dabscisse le poids et dordonne la taille montre quil existe une relation linaire entre ces deux variables. Lorsque le poids augmente, la taille a tendance crotre galement.

Figure 1.1 Taille*Poids

Les points du nuage sont approximativement aligns sur une droite (y=ax+b) une erreur prs. Taille = 0 + 1 Poids + erreur La variable Taille (Y) est appele la variable rponse, ou selon les domaines disciplinaires, variable expliquer, ou encore variable dpendante. La variable Poids (X) est la variable rgresseur, encore appele variable explicative, ou variable indpendante. 0 est lordonne lorigine. Revue MODULAD, 2006 - 226Numro 35

1 est la pente de la droite dajustement. Note : Dans ce document nous nutiliserons que les termes rponse et rgresseurs , pour viter toutes confusions smantiques trs dommageables lors des interprtations des rsultats, et particulirement lors de la communication des rsultats un tiers. Par exemple, la variable dite explique nest pas forcment explique par les variables dnommes explicatives. Quand aux variables dites indpendantes, elles sont, dans le cas de donnes relles, rarement indpendantes. 1.2.1. Comment trouver la droite qui passe au plus prs de tous les points? Pour trouver la droite qui passe au plus prs de tous les points il faut se donner un critre dajustement.YM1 P2 P1 M2 P3 M4 M3 P4droite Y=

0+1

X

X

Figure 1.2 Projection des points M1...M4 sur la droite.

On projette les points M1 M4 paralllement l'axe des Y. Sur la droite on obtient les points P1 P4, comme le montre la figure 1.2. Le critre retenu pour dterminer la droite D passant au plus prs de tous les points sera tel que : La somme des carrs des carts (SCE) des points observs Mi la droite solution soit minimum. La droite solution sera appele droite de rgression de Y sur X. Le critre est le critre des Moindres Carrs Ordinaires (MCO, Ordinary Least Squares en anglais), appel aussi par les statisticiens critre de Norme L. Les carts sont calculs en projetant les points M paralllement laxe des Y. On pourrait aussi projeter les points M paralllement laxe des X, on aurait alors une autre droite solution (rgression de X sur Y). Dans ces deux rgressions Y et X ne jouent pas le mme rle.

Revue MODULAD, 2006

- 227-

Numro 35

On pourrait aussi projeter les points M perpendiculairement la droite solution. Y et X joueraient dans ce cas le mme rle. Cest la situation que l'on rencontre dans une Analyse en Composantes Principales3, illustre dans la figure 1.3.

Y e1 Yi e2 dY = O + 1 X

0

Xi

X

Figure 1.3 Trois projections possibles du point (Xi, Yi)

1.2.2. Mthode destimation des paramtres 0 et 1 La Somme des Carrs des Ecarts (SCE) est donne par :

S =

i=1

n

2 i

=

(Yi=1

n

2 i

0 1X i )

La valeur de cette fonction S est minimum lorsque les drives de S par rapport O et 1 s'annulent. La solution est obtenue en rsolvant le systme :

S = 0 et 0 Les drives par rapport 0 et 1 sont :

S =0 1

n S = 2 ( Yi O 1 X i ) 0 i=1 n S = 2 X i ( Yi O 1 X i ) 1 i=1

Ces drives sannulent pour deux valeurs b0 et b1 solutions des 2 quations 2 inconnues :

On pourrait encore prendre comme critre la somme des valeurs absolues des carts des points observs la droite, ce serait alors un critre de norme L1, et pourquoi pas prendre un exposant non entier appartenant p lintervalle [1,2], ce serait une norme L .

3

Revue MODULAD, 2006

- 228-

Numro 35

quation 1 :

(Y bi=1 n i i i

n

O

b1 X i ) = 0

quation 2 :

X (Y bi=1

O

b1 X i ) = 0

Ce systme de 2 quations 2 inconnues dterminent les quations normales. Dveloppons ces 2 quations normales : l'quation 1 donne :

Y nbi

0

b1 X i = 0 et en divisant par n Y = b 0 + b1 X .

On remarque que la droite solution passe par le centre de gravit du nuage X i Yi . ( X, Y ) = i , i n n L'quation 2 donne

YXi

i

b 0 X i b1 X i = 02

dans laquelle on remplace b0

YXi

i

( Y b1 X) X i b1 X i = 02

Solution :b1 =

X Y ( X Y ) / n X ( X ) / ni i i i 2 i 2 i

en divisant numrateur et dnominateur par n on retrouve les expressions de la covariance et de la variance empiriques : b1 =

( X X)( Y Y ) = Cov( X, Y ) Var ( X) ( X X)i i 2 i

formule n 1 Y = b 0 + b1 X

Les points qui sont sur la droite de rgression ont pour ordonne:

Le coefficient b1 dpend au numrateur de la covariance entre X et Y, et de la variance de X pour le dnominateur.Terminologie

Y est lestimation de Y obtenue partir de lquation de rgression. Y se prononce Y chapeau. b0 et b1 sont les estimateurs des moindres carrs des paramtres inconnus 0 et 1. On appelle estimations les valeurs particulires (solutions) prises par les estimateurs b0 et b1. Revue MODULAD, 2006 - 229Numro 35

Dans la suite du document on ne fera pas de diffrence de notations entre les estimateurs b0 ou b1 et leurs estimations. 1.2.3. Effet dun point observation sur la droite de rgression

Avec cet applet java http://www.stat.sc.edu/~west/javahtml/Regression.html on peut voir leffet de levier (leverage) sur le calcul de la droite de rgression en ajoutant un point -rouge- par un simple clic de souris. Ici le point rouge est un point influent dans la liaison (X,Y). Plus le point est loign de la tendance plus son levier sera grand. Il peut aussi exister des points atypiques -Outliers- seulement en direction des X, ou dans la direction des Y (voir le chapitre 4).

1.2.4. Dcomposition de l'cart entre Yi et la moyenne de Y

En un point d'observation (X i , Yi ) on dcompose l'cart entre Yi et la moyenne des Y en ajoutant puis retranchant Y la valeur estime de Y par la droite de rgression.i

Cette procdure fait apparatre une somme de deux carts : ( Yi Y ) = ( Yi Yi + Yi Y ) (Y Y) = (Y Y ) + (Y Y)i i i i

Ainsi l'cart total (Yi Y ) peut tre vu comme la somme de deux carts : un cart entre Y observ et Y la valeur estime par le modlei

i

un cart entre Yi la valeur estime par le modle et la moyenne Y .

Le graphique suivant montre l'explication gomtrique de cette dcomposition. Cet artifice de dcomposition aura un intrt fondamental dans l'analyse de la variance aborde au paragraphe suivant.

Revue MODULAD, 2006

- 230-

Numro 35

Y

(Yi Y )

Yi

.

( Yi Yi ) ( Yi Y )

Yi

.Y

. .

Y = b 0 + b1X

.

.X

XiFigure 1.4 Dcomposition des diffrents carts

Ecart total (Yi Y ) = cart d au model (Yi Yi ) + cart rsiduel ( Yi Y )1.2.5. Analyse de la variance Ce que le modle explique et ce qu'il n'explique pas

A partir de lquation de la droite de rgression (modle retenu), on peut pour tout point i d'abscisse X i calculer son estimation (ordonne) Yi Y = b + b X avec b = Y b Xi 0 1 i 0 1

ce qui donne : Yi = Y + b1 (X i X) ou encore Yi Y = b1 (X i X)formule n 2

En un point i lcart ou rsidu est : Yi Yi = ( Yi Y ) ( Yi Y ) On lve les deux membres au carr et on somme sur les observations i : (Y Y )i i i 2

= ( Yi Y ) 2 + ( Yi Y ) 2 2 ( Yi Y )( Yi Y )i i i

En utilisant la formule n2 : (Y Y )i i i 2

= ( Yi Y ) 2 + ( Yi Y ) 2 2 ( Yi Y ) b1 ( X i X)i i i

En utilisant une transformation de la formule n1 : b1 ( X i X) 2 = ( X i X)( Yi Y ) on obtient Revue MODULAD, 2006

- 231-

Numro 35

(Y Y )i i i

2

= ( Yi Y ) 2 + ( Yi Y ) 2 2 b1i i

2

(Xi

i

X)

2

En utilisant la formule n 2 : (Y Y )i i i 2 2 = ( Yi Y ) 2 + ( Yi Y ) 2 2 ( Yi Y ) i i i

On aboutit enfin lgalit fondamentale :

(Y Y)i i

2

= ( Yi Y ) 2 + ( Yi Yi ) 2i i

La SCE (Somme des Carrs des Ecarts) totale est gale la somme des carrs des carts dus au modle augmente de la somme des carrs des carts dus aux erreurs SCE totale = SCE modle + SCE erreur . Cette formule montre que : Les variations de Y autour de sa moyenne, cest--dire SCE Totale (SS Total pour Sum of Squares en anglais) peuvent tre expliques par : le modle grce SCE Modle (SS Model en anglais) ; et ce qui ne peut tre expliqu par le modle, est contenu dans SCE Erreur (SS Error en anglais). L'erreur est aussi appele le rsidu .Standard de prsentation de l'Analyse de la Variance

On a l'habitude de reprsenter l'analyse de la variance sous forme d'un tableau, faisant apparatre les 3 sources de variation : le total en 3ime ligne qui se dcompose en la partie modle et la partie erreur. A chaque source de variation (Total, Modle, Erreur) correspond un nombre de degrs de libert (ddl) respectivement gal n-1, p, n-p-1, n : nombre d'observations p : nombre de variables rgresseurs (la variable X0 , constante gale 1, correspondant au paramtre 0, n'est pas comprise). Nous prsentons le tableau gnral de lanalyse de variance pour p rgresseurs. Pour la rgression simple, p=1 (une seule variable rgresseur).

Revue MODULAD, 2006

- 232-

Numro 35

Tableau 1. 3 Analyse de variance (version anglaise)

Source MODEL

DF

Sum of Squares

Mean Square

p

(Yi Y )2i=1 n

n

(Y Y )i=1 i

n

2

/p

ERROR

n-p-1

(Y Y )i=1 n i i

2

(Y Y )i =1 i i

n

2

/(n p 1)

TOTAL Abrviations:

n-1

(Y Y )i=1 i

2

DF : Degrees of Freedom se traduit par degrs de libert (ddl). Ils vrifient : DF total=DFmodel +DF erreur SS : Sum of Squares se traduit par Somme des Carrs des Ecarts (SCE) MS : Mean Square, est le rapport SS/DF, relatif soit au modle soit l'erreur MSE : Mean Square Error = moyen rsiduel. Tous ces indicateurs SS, MS, MSE, vont jouer un rle important dans lapprciation du modle calcul partir des observations. YiY SS Total

(Y Y )i i i=1

n

2

/(n p 1) reprsente le carr de l'cart

.

SS error

Y

. .

. . .

SS model

Y = b 0 + b1 X

X

Figure 1.5 Dcomposition des SS Sums of Squares

La figure 1.5 montre les liens entre SS total, SS model et SS error lorsque lon somme les carrs des carts sur tous les points i.

Revue MODULAD, 2006

- 233-

Numro 35

Il est remarquable que la formule de dcomposition de l'cart total en un point i, vu au 1.2.4. ( Yi Y ) = ( Yi Y ) + ( Yi Yi ) prennela mme forme pour la somme des carrs.

(Y Y) = (Y Y) + (Y Y )2 2 i i i i i i i

2

Comment apprcier globalement la rgression

Les deux quantits SCE totale (SS total) et SCE modle (SS model) sont des sommes de carrs donc toujours positives ou nulles et telles que SCE Modle SCE Totale . Le rapport SCE Modle est donc compris entre 0 et 1. SCE Totale

On appelle ce rapport le coefficient de dtermination SCE Modle SS mod el = R2 = SCE Totale SS TotalCas particulier : Si tous les points Yi observs sont aligns sur la droite de rgression, le modle est parfaitement adapt et SCE Erreur = 0,

Dans ce cas:

SCE Modle =1 SCE Totale

Interprtation de R2

R2 qui varie entre 0 et 1, mesure la proportion de variation totale de Y autour de la moyenne explique par la rgression, cest--dire prise en compte par le modle. Plus R2 se rapproche de la valeur 1, meilleure est l'adquation du modle aux donnes. Un R2 faible signifie que le modle a un faible pouvoir explicatif. On dmontre que R2 reprsente aussi le carr du coefficient de corrlation linaire entre Y et Y estim:

R2 = Corr2 ( Y, Y)Dans le cas de la rgression simple, R est aussi la valeur absolue du coefficient de corrlation linaire entre Y et X.

R = Corr (Y, X) Revue MODULAD, 2006- 234Numro 35

Lien entre coefficient de corrlation de 2 variables et le cosinus de leur angle Soient 2 vecteurs X1 et X2 dfinis dans un espace Rn (espace des n observations), le coefficient de corrlation entre X1 et X2 est aussi le cosinus de langle entre ces 2 vecteurs. En utilisant les conventions de notation, le produit scalaire de 2 vecteurs X1 et X2 se note < X1, X 2 > = X1 * X 2 Cos() On a :Cos( X1, X 2 ) = ( X X)( X1,i X) < X 1, X 2 > 1 = * 1,i = Corrlation ( X1, X 2 ) s1 * s 2 (< X1, X1 >< X 2 , X 2 > )1/ 2 n i=1,n

s 1 * s 2 tant le produit des carts-type des 2 vecteurs.

Linterprtation dun coefficient de corrlation comme un cosinus est une proprit importante. Comme le remarque TOMASSONE (1992), les variables X ntant pas des variables alatoires, il est plus correct de parler de cosinus des angles forms par les vecteurs associs, en rservant le terme coefficient de rgression pour sa similitude avec lestimation de ce coefficient partir dun chantillon.Exemple : Rgression de la Taille en fonction du Poids

Sur les donnes du tableau 1.2, la premire tape consiste regarder les donnes pour vrifier quune liaison linaire est envisageable (Proc GPLOT). Puis en deuxime tape on calcule le coefficient de corrlation (Proc CORR). Cette deuxime tape non indispensable en rgression simple deviendra essentielle en rgression multiple. Enfin on effectue une rgression linaire (Proc REG).Programme SAS

Proc gplot data=libreg.tailpoid; plot Y*X; title ' Graphique taille en fonction du Poids '; Proc corr data=libreg.tailpoid; title 'Corrlation '; var Y X; Proc REG data=libreg.tailpoid; title 'Rgression de la Taille en fonction du Poids '; model y=x; run;

Revue MODULAD, 2006

- 235-

Numro 35

Le coefficient de corrlation CORR entre Y et X vaut 0.83771.Sortie standard de la Proc REG sans options

Dans la sortie de Proc REG on obtient dabord le tableau danalyse de la variance, puis les estimations des paramtres.

Revue MODULAD, 2006

- 236-

Numro 35

Lecture de lAnalyse de la Variance

SS Model =n

(Y Y )i=1 i

n

2

= 280.52918

SS Error = (Yi Yi ) 2 = 119.22082i=1

SS Total = = 399.75 Mean Square Model = Mean Square Error = Root MSE = (Y Y )i=1 i n 2

/ p = 280.52918

(Yi =1

n

i

Yi ) 2 /(n p 1) = 6.62338

MS ERROR = 2.57359

Dependant Mean = Y = 163.25 R-Square =Autres indicateurs

SS Model = 0.7018 = CORR(X,Y)2 = (0.83771)2. SS Total

Root MSE 100 Dep Mean Le CV est un indicateur sans dimension -exprim en %- permettant de comparer l'cart moyen rsiduel la moyenne de la variable dpendante Y. Ce pourcentage est plutt utilis pour comparer 2 modles (donc 2 CV) portant sur le mme jeu de donnes. CV =1.57647 Cest le Coefficient de Variation = Le coefficient R2 ajust , Adj R-sq Le R2 ajust (utilis en rgression multiple) tient compte du nombre de paramtres du modle.R 2 ajust = 1 ( n intercept )( 1 R ) n p

Avec Intercept=0, si il n'y a pas de constante b0 l'origine4 sinon Intercept =1. Le reproche fait au coefficient de dtermination est qu'il peut approcher la valeur 1, interprt comme un ajustement parfait, si on ajoute suffisamment de variables rgresseurs. Le R2 ajust tient compte du rapport p/n entre le nombre de paramtres du modle et le nombre d'observations. Selon certains auteurs ce coefficient permet de comparer des modles de rgression sur diffrents ensembles de donnes, mais il ne fait pas l'unanimit.Attention : Adj R-sq peut prendre des valeurs infrieures zro !4

S'il n'y a pas de constante b0 l'origine, les statistiques relatives l'analyse de la variance n'ont pas la mme interprtation.

Revue MODULAD, 2006

- 237-

Numro 35

Lecture du tableau des paramtres Intercept = b0 = 145.98 donne la valeur de la constante lorigine. On peut remarquer que dans cet exemple, cette valeur na pas de signification dans le monde physique. On ne peut concevoir qu un poids de valeur nulle corresponde une taille de 145.98.

La pente de la droite (coefficient de X) = b1 = 0.1703. On linterprte comme augmentation de la taille lorsque le poids augmente de une unit. Equation de la droite : Taille = 145.98 + 0.1703 * Poids L encore il faut se prserver de toute interprtation causale. Peut-on agir et augmenter le poids en esprant faire augmenter la taille ? Nous verrons les autres indicateurs dans la suite du chapitre. Pour mieux comprendre la technique de la rgression, voyons certaines reprsentations gomtriques.1.2.6. Reprsentations gomtriques Rgression simple de Y sur X

Afin d'avoir une ide gomtrique de la rgression prenons un exemple avec n=3 observations (y1,x1), (y2,x2) et (y3,x3). Le vecteur rponse Y = (y1,y2,y3), et le vecteur rgresseur X = (x1,x2,x3) peuvent se reprsenter dans l'espace 3 dimensions des observations. On nomme 1,2,3 les axes de ce repre. Dans lespace des observations reprsent figure 1.6 5, la droite des constantes a pour vecteur directeur (1,1,1).

5

La figure 1.6 est une synthse des graphiques de DRAPER & SMITH (1966) pp112-113 et SAPORTA (2006) p208

Revue MODULAD, 2006

- 238-

Numro 35

Q est la projection orthogonal e de Y sur de coordonn es ( Y, Y, Y ) P est la projection orthogonal e de Y sur le plan (X,) et reprsente Y = ( Y1 , Y2 , Y

3 Y Corr (Y , Y )

X Rsidu 0 P Q 1 2

Figure 1.6 Rgression de Y sur (X, ) dans l'espace des 3 observations.

L'interprtation gomtrique de la rgression est la suivante :Rgresser Y sur ( et X) consiste projeter orthogonalement Y sur le plan (,X) ce qui donne le point P. Si d'autre part on projette Y sur la droite , on obtient le point Q. Par le thorme des 3 droites perpendiculaires Q est aussi la projection orthogonale de P sur .

Dans le triangle YQP, rectangle en P, on peut appliquer le thorme de Pythagore :

YQ 2 = YP2 + PQ 2

(Y Y)i i

2

= ( Yi Yi ) 2 + ( Yi Y ) 2i i

La longueur YQ 2 reprsente la somme des carrs corrige SCE Totale (SS Total). La longueur YP 2 reprsente la somme des carrs non explique par le rgression SCE Erreur (SS error) . La longueur PQ 2 reprsente la somme des carrs explique par la rgression soit SCE Modle (SS model). C'est l'quation fondamentale de l'analyse de la variance vue prcdemment :

SS Total = SS Model + SS Error Revue MODULAD, 2006 - 239Numro 35

PQ 2 . YQ 2 R2 reprsente donc le carr du cosinus de l'angle (YQ, QP), c'est dire l'angle entre Y et Y . Le coefficient de dtermination R2 est le rapport Plus l'angle entre Y et Y est faible, meilleur est le pouvoir explicatif du modle. Et maintenant il suffit de gnraliser mentalement l'ordre n cette reprsentation 3 dimensions.Remarque en rgression multiple Si au lieu d'avoir une seule variable rgresseur X, on avait plusieurs variables X1,.XP, alors le plan de projection (X,) serait remplac par lhyperplan form par les vecteurs X1,.Xp, . Rgresser Y sur les p variables rgresseurs consisterait projeter orthogonalement Y sur l'hyperplan dtermin par X1,.Xp, . Distribution en un point fix de X

Jusqu'ici, on ne s'est appuy que sur des calculs algbriques et sur des notions de gomtrie, sans faire appel des notions de statistique. On ne cherchait que la droite d'ajustement sur l'chantillon. Aucune supposition n'a t ncessaire dans toutes les dmonstrations. Si maintenant, on souhaite utiliser les rsultats obtenus partir des observations, vues comme un chantillon, pour infrer sur la population, il faut faire appel des notions de probabilit, et de statistique puisque dans les relevs de donnes (exemple : Poids et Taille) notre disposition on n'a qu'un chantillon de valeurs et non toute la population. Sur la figure 1.7, on remarque que pour une mme valeur du Poids, par exemple 85, il y a plusieurs valeurs possibles de la Taille (158, 159, 160 et 162).172 170 168 166 164 Taille 162 160 158 156 154 152 0 20 40 152 60 80 Poids 100 120 140 160 162 160 159 158 158 168 166 165 164 163 159 168 166 162 167 165 172

Figure 1.7 Taille en fonction du Poids

Revue MODULAD, 2006

- 240-

Numro 35

Il n'y a pas de valeur unique associe une valeur Xi mais une distribution de valeurs.

Pour chaque valeur du poids (X) existe une distribution thorique des tailles (Y). Les valeurs de centrage sont les esprances des tailles de la population correspondant chaque poids Xi. Lesprance (moyenne thorique i) de chaque distribution de Y, est appele statistiquement parlant l'esprance de Yi sachant Xi que l'on note E(Yi/Xi). L'hypothse de la rgression linaire est que les i sont aligns sur la vraie droite de rgression qui est inconnue.Remarque : pour simplifier l'criture on note E(Yi) au lieu de E(Yi/Xi), soit :

i = E(Yi ) = 0 + 1 XiReprsentation de X fix et Y alatoireDistribution de Y pour X fix p(Yi | Xi)

Y

Droite estime

^ Y= b0+b1X

Y1

vraie droite de rgression E(Y)= 0+1 X

1

Y2

Y3 30), pour approcher la loi de Student par la loi Normale, Alors IC 0.95 (1 )=[b1 1.96 s(b1 );b1 + 1.96 s(b1 )]

Interprtation Si la valeur 0 est dans l'intervalle de confiance de 1, alors l'introduction de la variable X dans le modle n'apporte aucun pouvoir explicatif sur Y. 1.4.3. Statistiques lies au paramtre 0

La premire tape consiste calculer la variance de b0, puis en deuxime tape tester l'hypothse nulle 0=0, en troisime tape on pourra alors dterminer un intervalle de confiance pour 0.Calcul de la variance de b0

On a vu que b0 vaut : b 0 = Y b1 X la variance vaut: Var (b 0 ) = Var ( Y b1 X)Raisonnement pour calculer la variance de b0

Pour pouvoir calculer la variance il faut faire des suppositions sur les termes de cette expression. On suppose que les Xi sont non alatoires.

Revue MODULAD, 2006

- 250-

Numro 35

Seuls la moyenne des Yi et le coefficient b1 sont des variables alatoires. On peut montrer de plus que la covariance entre Y et le coefficient b1 est nulle7 .Suppositions pour calculer la variance de b0

Si les Xi sont non alatoires Si les Yi sont non corrls et de mme variance 2 Et comme par construction Cov( Y, b ) = 0 1

Alors :Var (b ) = Var ( Y ) + X 2 Var (b ) = 0 1 2 2 X 2 2 2 i = +X = 2 n ( X X)2 n ( Xi X) i 2 reprsente la variance inconnue de Y. Il faut de nouveau faire une supposition.Supposition

Si le modle postul est le modle correct Alors 2 peut tre estim par les erreurs entre les Y observs et Y ( Yi Yi )2 = MSE 2 s = n2 L'estimateur de la variance de b0 devient :s (b 0 ) =2

n ( X i X) 2

s2 Xi

2

Remarque: La variance de b0 est proportionnelle la somme des carrs des Xi. Si le plan d'exprience est tel que les valeurs des Xi sont trs grandes, la variance de b0 sera trs grande, et l'estimation de b0 n'aura aucune signification. Test portant sur le paramtre 0

Test de l'hypothse nulle H0 : paramtre 0= 0 On calcule la statistique de testTobserv =

contre Ha : paramtre 00

b0 s(b 0 )

7

voir dmonstration dans NETER, WASSERMAN, KUTNER pp75-77.

Revue MODULAD, 2006

- 251-

Numro 35

Si 0=0 la statistique Tobserv suit une loi de Student n-2 degrs de libert, sous l'hypothse que les erreurs sont indpendantes et identiquement distribues selon la loi Normale.Supposition

Si i N(0, 2 ) Alors T observ suit une loi de Student

Raisonnement On compare la p-value associe T observ, c'est--dire la probabilit de dpasser le T observ en valeur absolue, au risque choisi (par exemple =0.05).

Si p-value Alors on rejette l'hypothse 0 =0Conclusion

0 est significativement diffrent de zro au niveau

Calcul de l'intervalle de confiance de 0

On peut assigner un intervalle de confiance autour de b0, ce qui permet de statuer sur le paramtre 0: IC1 ( 0 )=[b 0 t 1 / 2 s(b 0 );b 0 + t 1 / 2 s(b 0 )]

o t 1 / 2 reprsente le quantile d'ordre 1-/2 de la loi de Student n-2 degrs de libert.Note Dans SAS, la fonction de rpartition inverse pour une loi de Student est donne par la fonction TINV. T = TINV(1 / 2, n 2) avec n= nombre d'observations Instruction SAS

Dans le cas de la rgression multiple avec p=nombre de rgresseurs, la formule prcdente devient: T = TINV(1 / 2, n p 1) Instruction SAS

En pratique si on choisit le risque =5% et si n est assez grand (n>30) pour approcher la loi de Student par la loi Normale, alors l'intervalle de confiance de 0 95% est donn par : IC 0.95 ( 0 )=[b 0 1.96 s(b 0 );b 0 + 1.96 s(b 0 )]

Revue MODULAD, 2006

- 252-

Numro 35

Interprtation Si la valeur 0 est dans l'intervalle de confiance de 0, alors la droite de rgression passe par l'origine. Exemple destimation des paramtres avec Proc REG

Sur lexemple de la Taille en fonction du PoidsProgramme SAS

Proc REG data=libreg.tailpoid outest=TableSortie; title 'Rgression de la Taille en fonction du Poids '; model y=x ; proc Print;title "Table de l'option outest"; run;

Sortie de Proc REG

Interprtation du test de la signification globale de la rgression

La statistique

F=

MS model 280.529 = = 42.35 MS error 6.62

indique que globalement le modle avec le

rgresseur Poids amliore la prvision de la Taille, par rapport la moyenne seule dans le modle.

Revue MODULAD, 2006

- 253-

Numro 35

Interprtation des estimations des paramtres

Lestimateur de 0 a pour valeur 145.98994. Son cart type vaut 2.71384. La statistique de Test t value = 145.9894 = 53.79 et sa p value associe est bien 2.71384

infrieure au seuil 0.05. On rejette lhypothse que O = 0 avec une grande confiance. Mme raisonnement pour lestimateur de 1 qui a pour valeur 0.17030.Note Dans le cas de la rgression simple la statistique de test de lestimateur de 1 et li F : F = ( t value ) 2

Dans la table en sortie par loption outest=, SAS enregistre RMSE et les valeurs des paramtres. SAS nimprime pas en standard les intervalles de confiance des paramtres mais on peut les rcuprer dans cette table en sortie, en utilisant loption outest= et le mot cl Tableout.Programme SAS

Proc REG data=libreg.tailpoid outest=TableSortie Tableout; title 'Rgression de la Taille en fonction du Poids '; model y=x ; proc PRINT data=TableSortie; title "Table produite par l'option outest avec le mot cl Tableout"; run;

Les lignes L95B et U95B donnent les intervalles de confiance 95% des paramtres.1.4.4. Prcision sur l'estimation de Y

On a vu que pour chaque valeur X i fixe, la vraie droite de rgression tait le lieu de l'esprance (i.e. la valeur moyenne) de Y et que les Y devaient thoriquement se distribuer selon une loi normale centre sur cette droite avec une variance thorique 2. Revue MODULAD, 2006 - 254Numro 35

Pour valuer la prcision sur l'estimation de Y on aura deux optiques considrer, soit on s'intressera l'intervalle de confiance autour de l'estimation de la droite de rgression, soit on sintresse l'intervalle de prvision de Y en fonction de X.Intervalle de confiance autour de l'estimation de la droite de rgression

Soit Xk reprsentant un niveau particulier de X pour lequel nous voulons estimer la valeur moyenne de Y. Xk peut tre une valeur connue dans l'chantillon, ou une autre valeur de la variable rgresseur non repre dans l'chantillon. La rponse moyenne quand X=Xk est note E(Yk). L'estimateur de E(Yk) est not Yk . Il faut voir la distribution d'chantillonnage de Y , comme la distribution que l'onk

obtiendrait si on effectuait des mesures rptes en Xk. Calcul de l'erreur-type sur Yk On a vu que l'estimation de E(Yk) est donne par :

Yk = Y + b1 (X X k ) Plaons-nous en un point Xk et calculons la variance de Yk : Var (Yk ) = Var ( Y + b1 (X k X)) Pour pouvoir calculer la variance il faut faire des suppositions sur les termes de cette expression. Comme prcdemment on suppose que les Xi sont non alatoires. Seuls la moyenne des Yi et le coefficient b1 sont des variables alatoires. On peut montrer de plus que la covariance entre Y et le coefficient b1 est nulle 8 . Suppositions pour calculer la variance de Yk Si les Xi sont non alatoires Si les Yi sont non corrls et de mme variance 2 Et comme par construction Cov( Y, b ) = 0 1 Alors : Var ( Yk ) = Var ( Y ) + ( X k X) 2 Var (b1 ) == 2 + ( X k X) 2 n 2 ( X i X) 2

Comme prcdemment, on ne connat pas la variance thorique 2 de Y. Il faut l'estimer.

8

voir dmonstration dans NETER, WASSERMAN, KUTNER pp75-77.

Revue MODULAD, 2006

- 255-

Numro 35

Supposition

Si le modle postul est le modle correct Alors 2 peut tre estim par les erreurs entre les Y observs et Y ( Yi Yi )2 = MSE 2 s = n2 devient : s( Yk ) = s 1 + L'estimateur de l'erreur-type de Yk n Calcul de l'intervalle de confiance de Yk On montre que pour un modle de rgression la statistique ( X k X) 2 ( X i X) 2 1/ 2

Yk E( Y ) suit une s( Y )k

distribution de Student (n-2) degrs de libert. La vraie valeur moyenne k de Y pour un Xk a une probabilit gale (1-) dappartenir l'intervalle de confiance : IC1 (E( Yk )) = Yk t 1 / 2 .s( Yk );Yk + t 1 / 2 .s( Yk )

[

]

L'intervalle de confiance de Yk se matrialise par deux lignes courbes, des hyperboles, comme le montre la figure 1.9.

Figure 1.9 Intervalle de confiance 95% de la moyenne des Tailles selon les valeurs des Poids

A propos de la largeur de l'intervalle de confiance, on peut faire les remarques suivantes :

Revue MODULAD, 2006

- 256-

Numro 35

La largeur varie en fonction de (X k X )

La largeur est minimum au point X k = X C'est dire que la prcision est la meilleure, au centre de gravit du nuage des points La largeur crot lorsqu'on s'loigne du centre de gravit. La prcision est la plus mauvaise aux extrmits du nuage de points.

Intervalle de prvision de Y sachant X

Ici on s'intresse la prvision d'une nouvelle observation individuelle de Y pour une valeur X k , de la variable X et non pas la valeur moyenne de Y. Dans ce cas, la variance de Y a deux composantes : 1. la variance de la position centrale de la distribution d'chantillonnage de Yk , cf. calcul ralis au paragraphe prcdent 2. la variance 2 de la distribution de Y autour de sa position centrale au point X = X k . Comme prcdemment, on estime 2 par s2. Pour une explication visuelle de cette dcomposition9 voir la figure 1.10.limite de prvision Si E(Yk) est ici limite de prvision Si E(Yk) est ici

Yk

^

limite de confiance pour E(Yk)

Figure 1.10 Illustration de la prdiction d'une nouvelle observation individuelle de Y

L'estimateur de l'erreur-type de Y sachant X devient : 1 s 2 + s 2 ( Yk ) = s 2 1 + + n ( X i X) 2 ( X k X) 2

L'intervalle de confiance d'une prvision de Y sachant X se matrialise l aussi par deux lignes courbes dcales d'une distance "s" par rapport l'intervalle de confiance calcul pour la moyenne de Yk.9

Source : NETER, WASSERMAN et KUTNER, p82.

Revue MODULAD, 2006

- 257-

Numro 35

Les remarques faites prcdemment sur l'estimation de la moyenne de Yk sont les mmes que celles faites pour une observation individuelle. A savoir, la largeur de l'intervalle de confiance varie en fonction de ( X k X) , c'est au centre de gravit du nuage de points que la prcision est la meilleure, et aux extrmits du nuage de points que cette prcision est la plus mauvaise.

Figure 1.11 Intervalle de confiance 95% des prvisions individuelles des Tailles

Sur la figure 1.11 on voit que lintervalle de confiance des prvisions individuelles est videmment plus grand que lintervalle de confiance des moyennes thoriques.Attention En prvision et dans un cadre temporel, on cherche estimer aux extrmits de la plage de variation de X, or c'est justement l que la prcision est la moins bonne! Exemple avec les options CLI CLM de la Proc REG

Les options CLI (Confidence Limit Individual) et CLM (Confidence Limit Mean) de linstruction model de Proc REG donnent ces intervalles de confiance. Pour sauvegarder ces valeurs dans une table SAS il faut utiliser linstruction Output.Programme SAS

Proc REG data=libreg.tailpoid ; title 'Rgression de la Taille en fonction du Poids '; model y=x /CLI CLM ; Output Out=Table2 Predicted=Pred residual=Residu LCL=Borne_Inf_ind UCL=Borne_Sup_Ind LCLM=Borne_Inf_Moy UCLM=Borne_Sup_Moy; proc PRINT data=Table2 ;title "Table produite par l'instruction OUTPUT"; run;

Revue MODULAD, 2006

- 258-

Numro 35

Sortie de PROC REG

Lecture :

Les options CLM CLI donne pour chaque observation, les valeurs : Dependant variable : Y Predicted Value : Y Std Error mean predict : erreur-type au point Xi 95% CL Mean : les 2 colonnes suivantes donnent les bornes infrieure et suprieure de lintervalle de prdiction 95% de la moyenne. 95% CL Predict : les 2 colonnes suivantes donnent les bornes infrieure et suprieure de lintervalle pour une prdiction individuelle. Residual : rsidu Linstruction Output avec les mots cls LCL UCL LCLM UCLM permettent de rcuprer ces statistiques dans une table SAS:

Revue MODULAD, 2006

- 259-

Numro 35

2. La rgression linaire multipleDans ce chapitre nous reprenons les concepts de la rgression linaire simple pour les formaliser et les tendre la rgression multiple. Nous prsentons les diffrentes formes de dcomposition de sommes de carrs (Sum of Squares) et commentons les rsultats obtenus avec la procdure REG.

2.1.

Le critre des moindres carrs

Tout comme en rgression linaire simple; la rgression linaire multiple cherche approximer une relation fonctionnelle trop complexe en gnral, par une fonction mathmatique simple telle qu'une quation de la forme: Y = 0 + 1 X1 + 2 X 2 + L + p X p + Reprenons le rsum des concepts de la rgression linaire prsent au chapitre 1. L'quation de rgression ou modle postul, met en relation: Y : variable rponse ( expliquer ou variable dpendante). Xj : variables rgresseurs (explicatives ou variables indpendantes). Cette quation est linaire par rapport aux paramtres (coefficients de rgression) O , 1 ,L, p . Le modle est dit linaire. Ces paramtres sont inconnus, on les estime en minimisant le critre des moindres carrs (MCO ou Ordinary Least Squares). Le critre des moindres carrs correspond la minimisation de la somme des carrs des carts (SC Erreur en franais, SS Error en anglais) entre Y observ et Y estim par l'quation de rgression. Y estim est not Y . Yi = b 0 + b1 X1i + ... + b p X pi avec: Y : variable rponse Xj : p variables rgresseurs, j=1,p i indice de l'observation courante, i=1,n n le nombre d'observations. Les valeurs qui minimisent ce critre sont des estimations b0,b1,....bp des paramtres O , 1,L, p inconnus.Estimation des paramtres du modle^

Dans le cas d'un modle p variables rgresseurs le critre des moindres carrs s'crit:

Revue MODULAD, 2006

- 260-

Numro 35

S( 0 ,... p ) = ( Yi Yi ) 2 = i2 = ( Yi 0 1 X1i ... p Xpi )i =1 i=1 i=1

n

n

n

2

Les valeurs des qui minimisent ce critre seront les solutions b0, b1, bp du systme linaire de (p+1) quations (p+1) inconnues. S 11b 1 + S 12 b 2 + .... + S1p b p = S1y .... S p1b 1 + S p 2 b 2 + .... + S pp b p = S py Avec S kj = ( X ki X k )(X ji X j ) pour k,j=1,2,pi=1,n

S ky = ( X ki X k )(Yi Y ) pour k=1,2,,pi=1,n

Pour rsoudre un tel systme linaire les mathmaticiens ont dvelopp le calcul (algbre) matriciel qui permet une prsentation et des traitements compacts de grands tableaux de donnes. La notation matricielle est donc devenue l'unique moyen d'apprhender la rgression multiple. Cependant cette prsentation cache bien des difficults du point de vue des rsolutions numriques sur donnes relles. Les estimateurs des moindres carrs estiment les paramtres inconnus O , 1,L, p avec une certaine prcision. Sous les suppositions que les erreurs sont indpendantes et identiquement distribues selon une loi normale, les estimateurs MCO sont centrs sur une valeur laquelle est associ un intervalle de confiance. Lintervalle de confiance dpend de l'adquation du modle aux donnes, adquation qui dpend des erreurs inconnues i : i = Yi E( Yi )

2.2.

Formalisation de la rgression linaire multiple

En notation matricielle :

Y est le vecteur colonne des n observations de la variable rponse X(n,p) la matrice des observations des p vecteurs Xi , chacun de dimension (n,1).

A cette matrice on ajoute en premire colonne un vecteur constitu uniquement de 1. Ce vecteur correspond la constante X0. La matrice X est alors de dimension (n,p+1). Cette reprsentation permet de traiter la constante X0 comme une variable explicative.

Revue MODULAD, 2006

- 261-

Numro 35

est le vecteur colonne des (p+1) coefficients de rgression ou paramtres inconnus i.

reprsente le vecteur des erreurs.Y1 Y2 Y = Y3 L Yn1 1 X= 1 L 1 X n1 X n2 L X np X11 X12 L X1p 0 1 = 2 L p

1 2 = 3 L n

le modle s'crit: Y = X + Y estim par le modle de rgression s'crit: Y = X = XB Le vecteur colonne (not aussi B) reprsente le vecteur des estimateurs bi des moindres carrs des paramtres inconnus . Les notations matricielles permettent d'crire simplement le systme rsoudre pour trouver les coefficients bi qui minimisent le critre des moindres carrs: ( X' X)B = ( X' Y ) X' dsignant la matrice transpose de X. Le vecteur B des coefficients solution s'obtient en inversant la matrice ( XX) : B = ( XX) 1.( XY ) La rsolution de ce systme n'est pas toujours possible. Cette rsolution est lie la possibilit d'inversion de la matrice ( XX) . Supposons que 2 variables Xi et Xj soient corrles entre elles c'est--dire qu'il existe une relation linaire permettant de passer de Xi Xj on a alors 2 lignes de la matrice ( XX) qui sont proportionnelles et lorsque l'on veut rsoudre le systme il ne reste plus que p quations indpendantes et toujours (p+1) inconnues trouver. Le systme est indtermin, il existe une infinit de solutions. Les variances des estimateurs (b) sont les lments diagonaux de la matrice de variance-covariance des X inverse multiplis par la variance des erreurs 2 . 2 (b) = 2 ( XX) 1 Comme pour la rgression simple 2 est estim par MSE = Revue MODULAD, 2006 - 262SS error n p 1 Numro 35

Les variances des estimateurs dpendent des lments diagonaux de la matrice inverser. Si des rgresseurs sont corrls, les variances des estimateurs des paramtres sont leves, et les estimations sont instables (non robustes). Un exemple de cette instabilit sera donn au chapitre 4.La matrice H A partir de l'expression du vecteur B des estimateurs des coefficients on peut calculer l'estimation de Y:

Y = XB Y = X ( X X ) 1 X Y Y = HY avec H = X ( X X ) 1 X

Cette matrice H - H comme Hat matrice- qui ne comporte que des donnes relatives aux variables rgresseurs va jouer un rle important, et son usage sera dvelopp chapitre 4.

2.3.

Exemples de rgression linaire multiple avec Proc REG

2.3.1. Prsentation des donnes

Pour prsenter la rgression multiple avec quelques options de Proc REG, nous avons repris lexemple de la chenille processionnaire du pin trait dans louvrage de TOMASSONE & al. Cet exemple est frquemment analys dans la littrature franaise (voir FOUCART, AZAIS-BARBET). On pourra ainsi, avec leurs ouvrages, poursuivre des analyses plus complexes de ces donnes. Le fichier de donnes est compos de 33 placettes o sont plants des arbres infects par des nids de chenille procesionnaire du pin , une variable rponse (X11 et sa transforme en Log et dix variables rgresseurs potentiels (X1-X10). Les exprimentateurs souhaitent connatre linfluence de certaines caractristiques de peuplements forestiers (variables rgresseurs X1-X10) sur le dveloppement de la chenille processionnaire du pin (variable rponse X11 ou son logarithme ) . X11 : Nombre de nids de processionnaires par arbre dune placette. Log = Log(X11), transformation de la variable X11 par son logarithme X1 : Altitude (en mtre) X2 : pente (en degr) X3 : nombre de pins dans une placette de 5 ares X4 : hauteur de larbre chantillonn au centre de la placette X5 : diamtre de cet arbre

Revue MODULAD, 2006

- 263-

Numro 35

X6 : note de densit de peuplement X7 : orientation de la placette (1 orientation vers le sud, 2 autre) X8 : Hauteur (en m) des arbres dominants X9 : nombre de strates de vgtation X10 : mlange du peuplement (1 pas mlang, 0 mlang)Donnes de base

2.3.2. Rgression linaire multiple avec Proc REG sans options Nous tudions le modle linaire de la variable Log en fonction des 4 rgresseurs X1, X2, X4, X5.

Etape 1 : Graphique de la matrice de diagrammes de dispersion (Scatter Plot avec SAS/INSIGHT) Etape 2 : Analyse des corrlations entre les variables Etape 3 : Rgression multiple Nous utilisons SAS/INSIGHT qui est beaucoup plus efficace pour obtenir des graphiques exploratoires, (voir en annexe 2 le mode demploi succinct de SAS/INSIGHT).Programme SAS /* tape 2 */ proc CORR data=libreg.chenilles; X4 X5 avec Log'; var X1 X2 X4 X5 Log; run;

title 'Corrlation de

X1 X2

Revue MODULAD, 2006

- 264-

Numro 35

/*tape 3 */ proc REG data=libreg.chenilles; title 'Rgression de LOG avec X1 X2 X4 X5 sans options'; model Log=X1 X2 X4 X5; run;

Figure 2.1: Matrice des diagrammes de dispersion des variables croises 2*2. Sur la diagonale sont affiches les valeurs min et max pour chaque variable.

Sortie SAS de PROC CORR

Le graphique des diagrammes de dispersion de la figure 2.1, donne une image des liaisons entre toutes les variables X1, X2, X4, X5, Log. On voit dun coup dil que les variables X4 et X5 sont trs lies. Le coefficient de corrlation vaut 0.90466. Dautre part la variable rponse Log est lie ngativement tous les rgresseurs.

Revue MODULAD, 2006

- 265-

Numro 35

La matrice de Scatter Plot est un complment utile lanalyse de la matrice des coefficients de corrlation. Elle permet aussi de reprer les points atypiques (outliers) en X et en Y.Sortie SAS de PROC REG sans options

Cette sortie est analogue celle de la rgression simple, on retrouve les mmes informations explicites au chapitre1.Lecture du test global dans le tableau de lAnalyse de Variance F value = 12.83 avec p value F) est faible (