17
Chapitre 9 Corrélation et régression linéaire Chap 9. 1. La corrélation linéaire 2. La régression linéaire 1. La corrélation linéaire 1.1) Définitions Létude statistique d'une population peut porter simultanément sur plusieurs variables nécessaire de mesurer la liaison éventuelle entre ces variables. e.g.: l'une augmente, l'autre augmente également ou l'une augmente, l'autre diminue, etc. on va alors étudier les corrélations Vocabulaire utilisé fonction de la nature et du nb de variables impliquées: Liaison linéaire entre 2 variables quantitatives gaussiennes: on parlera de corrélation linéaire simple, ce qui sera développé ici; • Intensité de la relation liant 1 variable à 1 ensemble de variables indépendantes quantitatives : corrélation multiple Lien entre 2 ensembles de variables quantitatives: corrélation canonique; • Relation entre 2 variables semi quantitatives: corrélation de rang; • Relation entre 2 variables qualitatives: association • Relation entre 2 variables qualitatives binaires: corrélation de point ou d'association Les séries statistiques doubles (ou multiples) peuvent être obtenues • en considérant une variable aléatoire Y et une variable contrôlée X (on parle alors de modèle I), • en considérant deux variables aléatoires X et Y (modèle II).

Corrélation et régression linéaire 2.sturquet/teaching_data/mu001/chap8.pdf · Corrélation et régression linéaire Chap 9. 1. La corrélation linéaire 2. ... regression des

  • Upload
    lydiep

  • View
    229

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Corrélation et régression linéaire 2.sturquet/teaching_data/mu001/chap8.pdf · Corrélation et régression linéaire Chap 9. 1. La corrélation linéaire 2. ... regression des

Chapitre 9

Corrélation et régression linéaire

Chap 9.

1.  La corrélation linéaire

2.  La régression linéaire

1.  La corrélation linéaire

1.1) Définitions

L’étude statistique d'une population peut porter simultanément sur plusieurs variables è nécessaire de mesurer la liaison éventuelle entre ces variables. e.g.: l'une augmente, l'autre augmente également ou l'une augmente, l'autre diminue, etc. è on va alors étudier les corrélations Vocabulaire utilisé fonction de la nature et du nb de variables impliquées: • Liaison linéaire entre 2 variables quantitatives gaussiennes: on parlera de corrélation linéaire simple, ce qui sera développé ici;

• Intensité de la relation liant 1 variable à 1 ensemble de variables indépendantes quantitatives : corrélation multiple

• Lien entre 2 ensembles de variables quantitatives: corrélation canonique;

• Relation entre 2 variables semi quantitatives: corrélation de rang;

• Relation entre 2 variables qualitatives: association • Relation entre 2 variables qualitatives binaires: corrélation de point ou d'association Les séries statistiques doubles (ou multiples) peuvent être obtenues •  en considérant une variable aléatoire Y et une variable contrôlée X (on parle alors de modèle I), •  en considérant deux variables aléatoires X et Y (modèle II).

Page 2: Corrélation et régression linéaire 2.sturquet/teaching_data/mu001/chap8.pdf · Corrélation et régression linéaire Chap 9. 1. La corrélation linéaire 2. ... regression des

On considère une variable aléatoire normale X de moyenne μx et la variance σx2

è densité de probabilité gaussienne, forme typique de cloche.

Loi binormale suivie par 2 variables aléatoires X et Y: caractérisée par 5 paramètres: •  μx, σx

2 pour la distribution de X, •  μy, σy

2 pour la distribution de Y, •  ρ = coeff. de corrélation linéaire, pour caractériser la liaison entre les 2 variables.

Point μ de coordonnées (μx,μy) = point moyen théorique de la distribution de la bivariable (X,Y). Les variances σx et σy sont appelées variances marginales de X et de Y envisagées indépendamment l'une de l'autre.

S'il existe une corrélation entre les 2 variables, on définira pour Y, la valeur de X étant fixée (= X1,) une distribution conditionnelle caractérisée par:

•  moyenne= E(Y|X1) ≠ μy •  variance σ2(Y|X1) < σy

2 •  distribution normale

De même : on définira la distribution conditionnelle de X, Y étant fixée à Y1. La distribution de chaque variable dépend donc de la valeur prise par l'autre. Si :

è  distributions marginales et les distributions conditionnelles sont toutes normales è  variances conditionnelles sont constantes (c-a-d σ2(Y|Xi) est indépendante de Xi et σ2(X|Yi) est indépendante de Yi)

la distribution conjointe de X et de Y est dite binormale.

Elle s’exprime par une fonction de densité de probabilité bivariable Z = f(X,Y), = généralisation 2D de la loi normale univariable, se représente dans l'espace euclidien {X,Y,Z} par une surface en cloche.

1.2) Distribution binormale

Page 3: Corrélation et régression linéaire 2.sturquet/teaching_data/mu001/chap8.pdf · Corrélation et régression linéaire Chap 9. 1. La corrélation linéaire 2. ... regression des

La projection des courbes de niveau (pour une valeur donnée de Z) de la surface de la cloche représente des courbes concentriques centrées sur μ, qui sont des ellipses (d'isodensité ou de probabilité) si la distribution est binormale. On peut déterminer des ellipses délimitant des portions du plan {X,Y} contenant 95%, 99% ou 99,9% des points de la bivariable (X,Y).

Page 4: Corrélation et régression linéaire 2.sturquet/teaching_data/mu001/chap8.pdf · Corrélation et régression linéaire Chap 9. 1. La corrélation linéaire 2. ... regression des

1.3) Le coefficient de corrélation linéaire

Corrélation de Pearson (ou de Bravais-Pearson): mesure la liaison linéaire existant entre deux variables quantitatives aléatoires. ρ = coefficient de corrélation linéaire, mesure le degré d'aplatissement des ellipses de distribution.

( )222222

)])([())]())(([(,

YX

YX

YXYXXY

YXEYEYXEXEYXCov

σσ

µµ

σσσσρ

−−=

−−==

Estimation à partir d'un échantillon obtenue à partir des estimateurs non biaisés (donc pondérés à n – 1) Sxy de la covariance et Sx et Sy des variances de X et de Y:

YX

XYXY

SS

Sr = ∈ [-1, 1]

Page 5: Corrélation et régression linéaire 2.sturquet/teaching_data/mu001/chap8.pdf · Corrélation et régression linéaire Chap 9. 1. La corrélation linéaire 2. ... regression des

Remarques:

1. La valeur de r mesure le degré de liaison linéaire entre 2 variables. Si la relation n'est pas linéaire, r peut être nul ou très faible malgré une très forte dépendance curvilinéaire ou, au contraire, est très élevé même si le modèle linéaire décrit visiblement mal la liaison entre ces variables.

2. Le coefficient de corrélation linéaire n'indique pas nécessairement une relation de cause à effet. En particulier, il est fréquent que deux variables évoluant dans le temps de façon totalement indépendante montrent une corrélation fortuite.

3. Le coefficient de corrélation linéaire est indépendant des échelles de mesure des 2 variables considérées, ce qui facilite la comparaison de coefficients de corrélation.

Page 6: Corrélation et régression linéaire 2.sturquet/teaching_data/mu001/chap8.pdf · Corrélation et régression linéaire Chap 9. 1. La corrélation linéaire 2. ... regression des

1.4) Test de signification du r de Pearson

Comme toujours, l'estimation r à partir d'un échantillon subit la variabilité de celui-ci.

Test: H0 : ρ = 0 H1 : ρ ≠ 0 test bilatéral ou H1 : ρ > 0 ou ρ < 0 tests unilatéraux

La variable auxiliaire (ou statistique du test) Si alors H0 est rejetée. C’est-à-dire qu’il existe une corrélation significative entre les deux variables (ρ≠0). Sinon, on peut conclure qu’on n’a pas de relation significative entre les deux variables. Il revient au même d'estimer la variable

On compare cette valeur à Fα(1, n -2). Ce test revient à effectuer une analyse de variance sur r2 (cf. § 9.2.2).

En pratique, on utilise couramment une table de signification du r de Pearson indiquant la valeur critique en fonction de n ou du ddl n - 2.

è Corrélation significative au rang α si rcalc > rα/2.

)2()1( 2

−−

= nr

rT obéit à une loi de Student à n – 2 ddl si H0 vraie.

Suit une loi de Fisher-Snedecor si H0 vraie. )1(

)2(2

2

rnrF−

−=α

21;2 α−−

>ntT

Page 7: Corrélation et régression linéaire 2.sturquet/teaching_data/mu001/chap8.pdf · Corrélation et régression linéaire Chap 9. 1. La corrélation linéaire 2. ... regression des

1.5) Comparaison de 2 coefficients de corrélation linéaire

On considère deux échantillons aléatoires et indépendants d’effectifs n1, n2 et de coefficients de corrélation r1 et r2. Les transformations de Fisher de r1 et r2, variables zr1 et zr2 ~ lois normales ⇒  différence obéit également approximativement à une loi normale de moyenne 0 et de variance 1/(n1 – 3) + 1/(n2 – 3), ⇒  permet de construire un test à part de l'écart réduit zdr : La transformation de Fisher se lit dans une table ou se déduit de la formule : La comparaison des 2 coefficients de corrélation se fera donc selon un mode bilatéral (H1 : ρ1 ≠ ρ2) ou unilatéral (H1 : ρ1 > ρ2 ou H1 : ρ1 < ρ2) en utilisant la table des probabilités de la courbe normale centrée réduite.

( )( ))3/(1)3/(1 21

21−+−

−=

nnzzz rr

dr

( ) ( )[ ]rrz −−+= 1ln1ln21

Page 8: Corrélation et régression linéaire 2.sturquet/teaching_data/mu001/chap8.pdf · Corrélation et régression linéaire Chap 9. 1. La corrélation linéaire 2. ... regression des

Objectif: résumer la relation entre deux variables par une fonction simple (ici une droite) de type Y = aX + b. En réalité, on recherche un estimateur, Deux démarches sont possibles: è Prédire la valeur la plus probable de Y, notée Ŷ, pour une valeur donnée de X, on parle alors de régression de Y en X, c'est la plus couramment utilisée (il existe symétriquement une régression de X en Y), c'est la predictive regression des anglo-saxons; è Décrire simplement sans souci de prédiction la tendance du nuage de point par une équation de droite ; dans ce cas, on utilise généralement la méthode de l'axe majeur réduit, c'est la functionnal regression des anglo-saxons ou droite de Teissier.

iii

ii

baXYet

baXY

ε++=

+=ˆ

Faibles variations = erreur du modèle

Chap 9.

1.  La corrélation linéaire

2.  La régression linéaire

2.  La régression linéaire

Page 9: Corrélation et régression linéaire 2.sturquet/teaching_data/mu001/chap8.pdf · Corrélation et régression linéaire Chap 9. 1. La corrélation linéaire 2. ... regression des

2.1) Régression de Y en X: méthode des moindres carrés

Méthode la plus adaptée pour prédire Y à partir de X (pour modèle I ou II).

Régression = déterminer, connaissant la valeur de X, la valeur de Y la plus probable (si Y est discrète) ou de densité de probabilité maximale (si Y est continue) == mode de la distribution (Y|Xi), Xi étant fixée.

Si cette distribution conditionnelle est normale, mode == espérance mathématique. Symétriquement, on définit une fonction et une droite de régression de X en Y è il existe 2 régressions différentes.

Note: Régression de Y en X ≠ régression de X en Y! E.g.: ce n'est pas parce que les sardines de 20 cm pèsent en moy 100 g que les sardines de 100 g mesureront en moy 20 cm.

Page 10: Corrélation et régression linéaire 2.sturquet/teaching_data/mu001/chap8.pdf · Corrélation et régression linéaire Chap 9. 1. La corrélation linéaire 2. ... regression des

Moindres carrés: On détermine les valeurs des coefficients a et b de la droite de régression Y=aX+b qui minimisent la somme des carrés des écarts entre valeurs observées Yi et valeurs prévues

( ) ( )( )22ˆ ∑∑ +−=−= baXYYYS iiii

iY

On recherche les valeurs de a et b satisfaisant simultanément : 0=

aS

et 0=∂

bS

( )( ) ( )

XaYb

nbXanYnnbXaY

baXYbaXYbb

S

ii

iiii

−=⇒

=−−=−−⇒

=−−−=⎟⎟⎠

⎞⎜⎜⎝

⎛+−

∂=

∑∑∑∑

0

022

( )( ) ( )

( ) 0

0

02

2

2

2

=−−−⇔

=−−⇒

=−−−=⎟⎟⎠

⎞⎜⎜⎝

⎛+−

∂=

∑∑∑∑∑

∑∑

XnXaYXaYX

XbXaYX

baXYXbaXYaa

S

iii

iiii

iiiii

En développant on trouve:

Or

covXY = E XY( )−E X( )E Y( ) =XiYi∑n

− XY = 0

σ X2 =

1n

Xi2∑ − nX 2( )

2X

XYSSa =⇒

Ou en utilisant les estimateurs:

Page 11: Corrélation et régression linéaire 2.sturquet/teaching_data/mu001/chap8.pdf · Corrélation et régression linéaire Chap 9. 1. La corrélation linéaire 2. ... regression des

On obtient donc: ( )

( )XXaYY

ouXaYaXbaXY

−=−

−+=+=

ˆ

ˆ

La droite de régression passe par le point moyen de coordonnées m(X),m(Y), a une pente égale à a et une ordonnée à l'origine égale à [m(Y) – a.m(X)]. Partant de l'expression de rxy = Sxy/(Sx.Sy), on peut en déduire

X

YS

Sra =

ii YYrésidu ˆ−=

Page 12: Corrélation et régression linéaire 2.sturquet/teaching_data/mu001/chap8.pdf · Corrélation et régression linéaire Chap 9. 1. La corrélation linéaire 2. ... regression des

2.2) Coefficient de détermination R2 et décomposition de la variance

Le coefficient de détermination mesure la proportion de la variation de Y expliquée par la variation de X. Dans le cas de la régression linéaire:

R2 = r2

Décomposition de la variance: Somme des carrés

des écarts totaux= dispersion due à la régression + autour de la régression SCET = SCER + SCEE

( )∑ −2ˆ YYi ( )∑ −

2ii YY

Par définition:

SCETSCERR =2

SCETRSCETRSCEESCERSCET )1( 22 −+⋅=+=

R2 représente donc la proportion de variation de Y expliquée par la régression (donc la variation de X) et (1 – R2) la proportion de variation de Y non expliquée ou résiduelle ou encore la dispersion du nuage de points autour de la régression.

Page 13: Corrélation et régression linéaire 2.sturquet/teaching_data/mu001/chap8.pdf · Corrélation et régression linéaire Chap 9. 1. La corrélation linéaire 2. ... regression des

Lorsqu'on analyse la liaison entre deux variables X et Y, il faut donc considérer deux aspects distincts: •  d'une part, la valeur de r et l'indication de la signification de la corrélation en fonction de la taille de l'échantillon •  d'autre part, la proportion de la variance expliquée par la régression et celle de la variance résiduelle

Page 14: Corrélation et régression linéaire 2.sturquet/teaching_data/mu001/chap8.pdf · Corrélation et régression linéaire Chap 9. 1. La corrélation linéaire 2. ... regression des

2.2) Comparaison de la pente a à une pente théorique ath

Variable de décision:

( )22 ).1/( Xe

tha

SnS

aat−

−=

Test: H0: a=ath H1: a≠ath (test bilatéral) ou test unilatéral

Suit une loi de Student à n-2 ddl si H0 vraie

2.3) Comparaison de l’ordonnée à l’origine b à une valeur théorique bth

H0 refusée si pour un test bilatéral

ou pour un test unilatéral

2,2/ −> na tt α

2, −> na tt α

( )∑∑

−=

−=

2

22

)var(

)var(

XXn

XSb

etbbbt

i

ie

thbMême principe avec:

Page 15: Corrélation et régression linéaire 2.sturquet/teaching_data/mu001/chap8.pdf · Corrélation et régression linéaire Chap 9. 1. La corrélation linéaire 2. ... regression des

2.4) L’axe majeur réduit (régression non prédictive)

Une alternative au modèle de régression de Y en X (predictive regression) est d'utiliser une méthode descriptive lorsque les deux variables sont aléatoires et qu'il n'y a pas de raison de choisir X ou Y comme variable explicative (on parle alors de functional regression). Une des méthodes possibles est le calculer l'axe majeur (ou principal) réduit encore appelée droite de Teissier (geometric mean regression). Il correspond à la bissectrice des régressions de Y en X et de X en Y. On dispose alors d'une équation unique pour décrire (et non prévoir) une relation biunivoque et la pente est alors indépendante du coefficient de corrélation linéaire :

a = Sy/Sx Remarque : lorsque r tend vers 1, les deux régressions prédictives (Y en X et X en Y) tendent à se "redresser" pour se confondre avec la bissectrice, l'angle formé par ces deux droites tend alors vers 0.

Page 16: Corrélation et régression linéaire 2.sturquet/teaching_data/mu001/chap8.pdf · Corrélation et régression linéaire Chap 9. 1. La corrélation linéaire 2. ... regression des

2.5) Régression forcée à l’origine

Il peut arriver que deux variables soient liées par une relation passant par définition par l'origine, c'est-à-dire impliquant que, lorsque l'une est nulle, l'autre l'est aussi (par exemple, la relation entre la longueur et la largeur d'un organisme).

Il est alors possible de forcer la régression à passer par l'origine après s'être assuré que l'ordonnée estimée b n'est pas significativement différente de 0 (bien que dans ce cas, le risque de 2ème espèce β ne soit pas connu). On imposera alors la relation : Ŷ = a.X, droite passant à la fois par l'origine et le point moyen [m(X),m(Y)], de pente égale à :

a = m(Y)/m(X) = ΣY/ΣX

Page 17: Corrélation et régression linéaire 2.sturquet/teaching_data/mu001/chap8.pdf · Corrélation et régression linéaire Chap 9. 1. La corrélation linéaire 2. ... regression des