Corrélation et Régression Linéaire -...

Preview:

Citation preview

Corrélation et Régression

Linéaire

UE4

PACES 2011-2012

C. Bulot

Introduction

Dans une population, on veut savoir si 2 variables X et Y observées sur une même entité sont indépendantes ou non.

C'est-à-dire si la connaissance du résultat d'une variable ne nous permet pas de tirer des informations pour prédire le résultat de l'autre.

On s'intéressera à 2 cas :

• 2 variables qualitatives

Ex : Maladie/Exposition

Test du c² (cf cours Pr Salamon)

PACES 2011-2012 C.Bulot 2

•2 variables quantitatives :

Ex : poids/taille, temps/dose, température/temps

– Un graphique nous donnera une idée sur l'existence d'une association éventuelle entre les 2 variables

– Etude de la force de leur association :

corrélation

– Prédiction (Y en fonction de X) :

Régression

PACES 2011-2012 C.Bulot 3

Plan

1. Séries Statistiques doubles

2. Corrélation

3. Régression linéaire

4. Tests d’indépendance linéaire

PACES 2011-2012 C.Bulot 4

1. Séries Statistiques Doubles

1. Définition

On observe 2 caractères quantitatifs (variables associées

X et Y) sur n individus :

n couples de valeurs (xi , yi)

Cet ensemble de couples est appelé série statistique

double si X et/ou Y est aléatoire

2 cas : (i) X fixé ou contrôlé, Y aléatoire

Cas particulier : X temps : série chronologique.

(ii) X et Y aléatoires (ex : poids – taille) PACES 2011-2012 C.Bulot 5

2. Représentation graphique

Dans un repère orthogonal, on trace les points de

coordonnées (xi , yi)

L’ensemble des points est appelé nuage de points ou

diagramme de dispersion

PACES 2011-2012 C.Bulot 6

Exemple

Dose x en mg

175 180 190 200 210 220 230

Temps y en s

17 18 19 20 19 19 20

15

16

17

18

19

20

21

22

170 180 190 200 210 220 230

tem

ps

dose (mg)

PACES 2011-2012 C.Bulot 7

X

Y

X

Y

PACES 2011-2012 C.Bulot 8

Forme allongée : liaison possible entre les

caractères

Points dispersés : pas de liaison

Le nuage de points donne des informations qualitatives sur une éventuelle liaison entre les 2 caractères

Information quantitative : Corrélation

2. Corrélation

1. Covariance

Dans une population de N sujets (de valeurs de X et Y :

(xi , yi)), on définit la covariance de X et Y par :

On extrait un échantillon de n individu.

Covariance de X et Y dans l'échantillon :

N

y - yx - x ii )( ( Y) cov(X,

)

PACES 2011-2012 C.Bulot 9

n

y - yx - x ii )( ( s XY

)

• Propriétés

(i) Si X = Y, cov(X,X) = var(X)

(ii) var(X + Y) = var(X) + var(Y) + 2cov(X,Y)

(iii) Si X et Y sont indépendantes

var(X Y) = var(X) + var(Y)

et cov(X,Y) = 0

La covariance dépend de l’unité :

On détermine une quantité proportionnelle à la

covariance :

Coefficient de Corrélation PACES 2011-2012 C.Bulot 10

2. Coefficient de corrélation

On appelle coefficient de corrélation de X en Y

dans la population :

Avec sx : écart type de X dans la population

sy : écart type de Y dans la population

On montre que -1 ≤ r ≤ 1

et r = 1 Y = aX + b

Si X et Y sont indépendantes : r = 0

Y X σ σ),cov(

Y) ρ(X,YX

PACES 2011-2012 C.Bulot 11

Coefficient de corrélation de l’échantillon :

sx et sy écarts type dans l'échantillon (r invariant si on échange X et Y)

– On estime le coefficient de corrélation de la population r par le coefficient de corrélation de l’échantillon r

– -1 ≤ r ≤ 1

y - (y x - (x

)y - yx - (x

ss

s r

ii

ii

YX

XY

)²)²

)(

12 PACES 2011-2012 C.Bulot

r indique la force et le sens de l’association

(linéaire) entre X et Y

– plus r² est proche de 1, plus la relation est forte :

• r = -1 : corrélation négative parfaite

• r = 0 : pas de corrélation

• r = 1 : corrélation positive parfaite

13 PACES 2011-2012 C.Bulot

• Le nuage de points donne des informations

qualitatives sur une éventuelle liaison entre les 2

caractères.

• La corrélation quantifie la force de l’association

• Forme de la relation ?

• Si on a Y = f(X), les points se répartissent autour de la

courbe d’équation y = f(x)

Estimation de f

Construction d’une courbe d’estimation qui s’ajuste au

nuage de points (xi , yi).

PACES 2011-2012 C.Bulot 14

Régression

Dans la suite du cours :

– régression linéaire

–on considère les (vraies) relations entre X et

Y du type

y a x + b

– relations s’y ramenant

• Exponentielle, logarithmique, …

–a et b inconnus : on les estimera à partir

d’un échantillon

PACES 2011-2012 C.Bulot 15

3. Régression Linéaire

On suppose la vraie relation entre X et Y dans la

population du type : y = a x + b (inconnue)

On estime à partir d’un échantillon :

a a et b b

Idée : l'écart entre les points et la droite doit être le +

petit possible

PACES 2011-2012 C.Bulot 16

1. Droite de régression

La droite (D) y = a x + b, ajustée aux points (xi ,

yi) telle que soit minimale est

appelée droite de régression de Y en X

L’équation de la droite (D) est déterminé par la

méthode des moindres carrés :

- la pente :

- l'ordonnée à l'origine :

(b est la valeur de y en x = 0)

s2

X

XY

i

ii s

)²x - (x

)y - (y )x - (x a

PACES 2011-2012 C.Bulot 17

xy a - b

² )) b a ( - ( n

1

+

i

i

i xy

Remarques

• (D) passe par le point médian :

• Le coefficient de corrélation (observé) :

– r (sans unité) et a sont proportionnels

– Si r=0, a=0

– S'il n'y a pas de relation linéaire entre X et Y :

• la pente a est nulle

• droite horizontale

s s a

s ss r

Y

X

Y

X

XY

PACES 2011-2012 C.Bulot 18

) , ( yx

𝑦 = 𝑏 = 𝑦

Remarques (suite)

– La corrélation indique s’il y a une relation linéaire entre 2 variables

– La régression linéaire permet de prédire Y en fonction de X

PACES 2011-2012 C.Bulot 19

2. Précision de l’ajustement linéaire aux valeurs observées

– Si on ne connaît que Y, on peut prédire Y par observé dans l'échantillon

– On veut savoir si la connaissance de X nous donne une meilleure prédiction que la moyenne de y

– On va quantifier la qualité de la prédiction de Y en fonction de X

– On a

Ecart dû à la Ecart résiduel

régression

) )( - ( ))( ( - xf y y - xf yy i i i i +

PACES 2011-2012 C.Bulot 20

y

Variabilité des données

X

Y

Moyenne de y

variation totale

variation non expliquée

variation expliquée

PACES 2011-2012 C.Bulot 21

• On montre

–Part de la variation de Y expliquée par la droite de régression : r²

– r² : coefficient de détermination

– r² mesure l’intensité de l’association linéaire entre X et Y, indépendamment des unités.

– Si r² = 1 : ajustement parfait • Les points sont alignés

– Si r² = 0, s²exp = 0 : l’ajustement est à rejeter

2Y

2exp

ss

totalevarianceexpliquée variance

²r

PACES 2011-2012 C.Bulot 22

• Causalité :

– r ne donne pas la raison de la relation entre X et Y

– une 3ème variable peut expliquer les 2 variables

• ex : alcool et cancer des bronches (facteur de confusion : tabac)

• La droite de régression n’est valable qu’entre les extrémités

– on ne sait pas si au delà il y a relation

• plusieurs types de relations possibles pour le même r

PACES 2011-2012 C.Bulot 23

Exemples

R2 = 0,80

X

Y R2 = 0,80

X

Y

R2 = 0,80

X

Y R2 = 0,80

X

Y

PACES 2011-2012 C.Bulot 24

3. Régressions non linéaires

• Régressions pouvant se ramener par un changement de variables à une régression linéaire

– Exemple :

v = k eax (k > 0)

donc ln v = ax + ln k

On pose y = ln v , b = ln k

y = ax + b

PACES 2011-2012 C.Bulot 25

4. Tests d’indépendance linéaire

– r est l’observation du « vrai » coefficient de corrélation dans la population r

– a et b estimations de a et b

– Il y a des tests pour tester l’indépendance linéaire ou la significativité de la corrélation

– 3 tests équivalents :

• coefficient nul : r = 0

• pente nulle : a = 0 (y = b = moyenne des yi)

• Test de Fisher : comparaison des variances

PACES 2011-2012 C.Bulot 26

On considère une population avec 2 caractères

quantitatifs X et Y

Test du coefficient de corrélation

On suppose que la vraie régression est linéaire

Soit r le « vrai » coefficient de corrélation entre X et Y dans la

population.

On va tester

(H0) : « r = 0 »

« Les 2 variables sont indépendantes»

On fixe le seuil de signification a

On extrait un échantillon de taille n et soit r le coefficient de corrélation observé

PACES 2011-2012 C.Bulot 27

– Soit R la v.a. d’observation r

– Si (H0) est vraie, R est de moyenne 0 et

– Soit le paramètre

– Si n ≥ 30 , T suit approximativement une loi N(0,1)

– Si n < 30, (sous les bonnes conditions de normalité) T suit une loi de Student à n–2 ddl

R sR T

PACES 2011-2012 C.Bulot 28

2 -n ²r - 1 s (R)var 2

R

– On calcule l’expression :

– On la compare à tthéo donné par les tables pour a fixé

– Si tobs ≥ tthéo , on rejette (H0) au seuil de signification a

2 -n ²r - 1

r tobs

PACES 2011-2012 C.Bulot 29

• Interprétation

– Si (H0) n’est pas rejetée : on n'a pas mis en évidence de relation (ou dépendance ou corrélation) linéaire entre X et Y :

Une relation linéaire ne permet pas de prédire correctement Y en connaissant X (pas mieux que la moyenne de y)

–Si (H0) est rejetée : il y a une corrélation entre X et Y

X aide à la prédiction de Y (mieux que la moyenne de y)

La droite donne la tendance de la variation de Y en fonction de la variation de X

30 PACES 2011-2012 C.Bulot

Exemples

r non nul

X

Yr non nul

X

Y

r nul

X

Y

r nul

X

Y

PACES 2011-2012 C.Bulot 31

Exemple

On étudie la relation entre le poids (Y en kg) et

la taille (X en cm) chez les hommes adultes.

On extrait un échantillon de 14 hommes adultes et on

observe les résultats suivants :

sxy = 16

sx = 8 mx = 176 cm

sy =4 my = 80 kg

PACES 2011-2012 C.Bulot 32

Calculer le coefficient de corrélation observé r.

Déterminer l'équation de la droite de régression de Y en X

Calcul du coefficient de corrélation observé :

yx

XY

ss

s r

5,04.8

16

PACES 2011-2012 C.Bulot 33

Equation de la droite de régression :

Pente :

Ordonnée à l'origine :

2 a

x

XY

s

s

4

1

64

16

PACES 2011-2012 C.Bulot 34

25,0a

xy amm b

3644804

17680

360,25x y +

Au seuil de signification 5%, le coefficient de corrélation dans la population est-il significativement différent de 0 ?

(On supposera les conditions de normalité vérifiées)

Conclure

PACES 2011-2012 C.Bulot 35

Soit r le vrai coefficient de corrélation entre X et Y dans la population.

•On teste (H0) : « r = 0 »

•On fixe le seuil a=5%

•Coefficient de corrélation observé : r=0,5

•On a un échantillon de taille n = 14 < 30

(+ conditions de normalité)

Test avec la loi de Student à n-2 ddl

PACES 2011-2012 C.Bulot 36

On calcule :

Pour a = 5%, et n-2=12ddl la table de Student donne t5%,12ddl = 2,179

tobs < t5 %,12ddl

2 -n ²r - 1

r t obs

0,75

120,5

² 0,5 - 1

2-14 0,5

PACES 2011-2012 C.Bulot 37

2

160,5

On n'a pas mis en évidence que le coefficient de corrélation est significativement différent de 0.

Donc au risque b, on accepte (H0) :

Conclusion : Il y a indépendance linéaire entre la taille et le poids au risque b (ou il n’y a pas de corrélation linéaire entre la taille et le poids).

PACES 2011-2012 C.Bulot 38

Exercice

On étudie la relation entre la tension artérielle (Y) et le

BMI (X, poids en kg / carré de la taille en m) chez les

hommes adultes.

On extrait un échantillon de 38 hommes adultes et on

observe les résultats suivants :

sxy = 8

sx = 2,5

sy = 4

PACES 2011-2012 C.Bulot 39

Calculer le coefficient de corrélation observé r.

Au seuil de signification 5%, le coefficient de corrélation dans la population est-il significativement différent de 0 ?

Conclure

Calcul du coefficient de corrélation observé :

yx

XY

ss

s r

8,04.5,2

8

PACES 2011-2012 C.Bulot 40

Soit r le vrai coefficient de corrélation entre X et Y dans la population.

•On teste (H0) : « r = 0 »

•On fixe le seuil de signification a=5%

•Coefficient de corrélation observé : r=0,8

•On a un échantillon de taille n = 38 > 30

Test avec la loi normale

PACES 2011-2012 C.Bulot 41

On calcule :

Pour a = 5%, on a Ua = 1,96

Uobs > Ua

2 -n ²r - 1

r U obs

36.10

36 0,8

² 0,8 - 1

2-38 0,8

2-

PACES 2011-2012 C.Bulot 42

8

Donc au risque de première espèce a ≤ 5%, on rejette (H0) :

le coefficient de corrélation est significativement différent de 0.

Conclusion : Il y a corrélation linéaire entre X et Y au risque de première espèce a ≤ 5%

(ou il y a association linéaire)

PACES 2011-2012 C.Bulot 43