43
Corrélation et Régression Linéaire UE4 PACES 2011-2012 C. Bulot

Corrélation et Régression Linéaire - mboursereau.free.frmboursereau.free.fr/wordpress/p1cam/UE4/BulotCorrelRegresLineaire.pdf · Introduction Dans une population, on veut savoir

  • Upload
    lecong

  • View
    214

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Corrélation et Régression Linéaire - mboursereau.free.frmboursereau.free.fr/wordpress/p1cam/UE4/BulotCorrelRegresLineaire.pdf · Introduction Dans une population, on veut savoir

Corrélation et Régression

Linéaire

UE4

PACES 2011-2012

C. Bulot

Page 2: Corrélation et Régression Linéaire - mboursereau.free.frmboursereau.free.fr/wordpress/p1cam/UE4/BulotCorrelRegresLineaire.pdf · Introduction Dans une population, on veut savoir

Introduction

Dans une population, on veut savoir si 2 variables X et Y observées sur une même entité sont indépendantes ou non.

C'est-à-dire si la connaissance du résultat d'une variable ne nous permet pas de tirer des informations pour prédire le résultat de l'autre.

On s'intéressera à 2 cas :

• 2 variables qualitatives

Ex : Maladie/Exposition

Test du c² (cf cours Pr Salamon)

PACES 2011-2012 C.Bulot 2

Page 3: Corrélation et Régression Linéaire - mboursereau.free.frmboursereau.free.fr/wordpress/p1cam/UE4/BulotCorrelRegresLineaire.pdf · Introduction Dans une population, on veut savoir

•2 variables quantitatives :

Ex : poids/taille, temps/dose, température/temps

– Un graphique nous donnera une idée sur l'existence d'une association éventuelle entre les 2 variables

– Etude de la force de leur association :

corrélation

– Prédiction (Y en fonction de X) :

Régression

PACES 2011-2012 C.Bulot 3

Page 4: Corrélation et Régression Linéaire - mboursereau.free.frmboursereau.free.fr/wordpress/p1cam/UE4/BulotCorrelRegresLineaire.pdf · Introduction Dans une population, on veut savoir

Plan

1. Séries Statistiques doubles

2. Corrélation

3. Régression linéaire

4. Tests d’indépendance linéaire

PACES 2011-2012 C.Bulot 4

Page 5: Corrélation et Régression Linéaire - mboursereau.free.frmboursereau.free.fr/wordpress/p1cam/UE4/BulotCorrelRegresLineaire.pdf · Introduction Dans une population, on veut savoir

1. Séries Statistiques Doubles

1. Définition

On observe 2 caractères quantitatifs (variables associées

X et Y) sur n individus :

n couples de valeurs (xi , yi)

Cet ensemble de couples est appelé série statistique

double si X et/ou Y est aléatoire

2 cas : (i) X fixé ou contrôlé, Y aléatoire

Cas particulier : X temps : série chronologique.

(ii) X et Y aléatoires (ex : poids – taille) PACES 2011-2012 C.Bulot 5

Page 6: Corrélation et Régression Linéaire - mboursereau.free.frmboursereau.free.fr/wordpress/p1cam/UE4/BulotCorrelRegresLineaire.pdf · Introduction Dans une population, on veut savoir

2. Représentation graphique

Dans un repère orthogonal, on trace les points de

coordonnées (xi , yi)

L’ensemble des points est appelé nuage de points ou

diagramme de dispersion

PACES 2011-2012 C.Bulot 6

Page 7: Corrélation et Régression Linéaire - mboursereau.free.frmboursereau.free.fr/wordpress/p1cam/UE4/BulotCorrelRegresLineaire.pdf · Introduction Dans une population, on veut savoir

Exemple

Dose x en mg

175 180 190 200 210 220 230

Temps y en s

17 18 19 20 19 19 20

15

16

17

18

19

20

21

22

170 180 190 200 210 220 230

tem

ps

dose (mg)

PACES 2011-2012 C.Bulot 7

Page 8: Corrélation et Régression Linéaire - mboursereau.free.frmboursereau.free.fr/wordpress/p1cam/UE4/BulotCorrelRegresLineaire.pdf · Introduction Dans une population, on veut savoir

X

Y

X

Y

PACES 2011-2012 C.Bulot 8

Forme allongée : liaison possible entre les

caractères

Points dispersés : pas de liaison

Le nuage de points donne des informations qualitatives sur une éventuelle liaison entre les 2 caractères

Information quantitative : Corrélation

Page 9: Corrélation et Régression Linéaire - mboursereau.free.frmboursereau.free.fr/wordpress/p1cam/UE4/BulotCorrelRegresLineaire.pdf · Introduction Dans une population, on veut savoir

2. Corrélation

1. Covariance

Dans une population de N sujets (de valeurs de X et Y :

(xi , yi)), on définit la covariance de X et Y par :

On extrait un échantillon de n individu.

Covariance de X et Y dans l'échantillon :

N

y - yx - x ii )( ( Y) cov(X,

)

PACES 2011-2012 C.Bulot 9

n

y - yx - x ii )( ( s XY

)

Page 10: Corrélation et Régression Linéaire - mboursereau.free.frmboursereau.free.fr/wordpress/p1cam/UE4/BulotCorrelRegresLineaire.pdf · Introduction Dans une population, on veut savoir

• Propriétés

(i) Si X = Y, cov(X,X) = var(X)

(ii) var(X + Y) = var(X) + var(Y) + 2cov(X,Y)

(iii) Si X et Y sont indépendantes

var(X Y) = var(X) + var(Y)

et cov(X,Y) = 0

La covariance dépend de l’unité :

On détermine une quantité proportionnelle à la

covariance :

Coefficient de Corrélation PACES 2011-2012 C.Bulot 10

Page 11: Corrélation et Régression Linéaire - mboursereau.free.frmboursereau.free.fr/wordpress/p1cam/UE4/BulotCorrelRegresLineaire.pdf · Introduction Dans une population, on veut savoir

2. Coefficient de corrélation

On appelle coefficient de corrélation de X en Y

dans la population :

Avec sx : écart type de X dans la population

sy : écart type de Y dans la population

On montre que -1 ≤ r ≤ 1

et r = 1 Y = aX + b

Si X et Y sont indépendantes : r = 0

Y X σ σ),cov(

Y) ρ(X,YX

PACES 2011-2012 C.Bulot 11

Page 12: Corrélation et Régression Linéaire - mboursereau.free.frmboursereau.free.fr/wordpress/p1cam/UE4/BulotCorrelRegresLineaire.pdf · Introduction Dans une population, on veut savoir

Coefficient de corrélation de l’échantillon :

sx et sy écarts type dans l'échantillon (r invariant si on échange X et Y)

– On estime le coefficient de corrélation de la population r par le coefficient de corrélation de l’échantillon r

– -1 ≤ r ≤ 1

y - (y x - (x

)y - yx - (x

ss

s r

ii

ii

YX

XY

)²)²

)(

12 PACES 2011-2012 C.Bulot

Page 13: Corrélation et Régression Linéaire - mboursereau.free.frmboursereau.free.fr/wordpress/p1cam/UE4/BulotCorrelRegresLineaire.pdf · Introduction Dans une population, on veut savoir

r indique la force et le sens de l’association

(linéaire) entre X et Y

– plus r² est proche de 1, plus la relation est forte :

• r = -1 : corrélation négative parfaite

• r = 0 : pas de corrélation

• r = 1 : corrélation positive parfaite

13 PACES 2011-2012 C.Bulot

Page 14: Corrélation et Régression Linéaire - mboursereau.free.frmboursereau.free.fr/wordpress/p1cam/UE4/BulotCorrelRegresLineaire.pdf · Introduction Dans une population, on veut savoir

• Le nuage de points donne des informations

qualitatives sur une éventuelle liaison entre les 2

caractères.

• La corrélation quantifie la force de l’association

• Forme de la relation ?

• Si on a Y = f(X), les points se répartissent autour de la

courbe d’équation y = f(x)

Estimation de f

Construction d’une courbe d’estimation qui s’ajuste au

nuage de points (xi , yi).

PACES 2011-2012 C.Bulot 14

Page 15: Corrélation et Régression Linéaire - mboursereau.free.frmboursereau.free.fr/wordpress/p1cam/UE4/BulotCorrelRegresLineaire.pdf · Introduction Dans une population, on veut savoir

Régression

Dans la suite du cours :

– régression linéaire

–on considère les (vraies) relations entre X et

Y du type

y a x + b

– relations s’y ramenant

• Exponentielle, logarithmique, …

–a et b inconnus : on les estimera à partir

d’un échantillon

PACES 2011-2012 C.Bulot 15

Page 16: Corrélation et Régression Linéaire - mboursereau.free.frmboursereau.free.fr/wordpress/p1cam/UE4/BulotCorrelRegresLineaire.pdf · Introduction Dans une population, on veut savoir

3. Régression Linéaire

On suppose la vraie relation entre X et Y dans la

population du type : y = a x + b (inconnue)

On estime à partir d’un échantillon :

a a et b b

Idée : l'écart entre les points et la droite doit être le +

petit possible

PACES 2011-2012 C.Bulot 16

Page 17: Corrélation et Régression Linéaire - mboursereau.free.frmboursereau.free.fr/wordpress/p1cam/UE4/BulotCorrelRegresLineaire.pdf · Introduction Dans une population, on veut savoir

1. Droite de régression

La droite (D) y = a x + b, ajustée aux points (xi ,

yi) telle que soit minimale est

appelée droite de régression de Y en X

L’équation de la droite (D) est déterminé par la

méthode des moindres carrés :

- la pente :

- l'ordonnée à l'origine :

(b est la valeur de y en x = 0)

s2

X

XY

i

ii s

)²x - (x

)y - (y )x - (x a

PACES 2011-2012 C.Bulot 17

xy a - b

² )) b a ( - ( n

1

+

i

i

i xy

Page 18: Corrélation et Régression Linéaire - mboursereau.free.frmboursereau.free.fr/wordpress/p1cam/UE4/BulotCorrelRegresLineaire.pdf · Introduction Dans une population, on veut savoir

Remarques

• (D) passe par le point médian :

• Le coefficient de corrélation (observé) :

– r (sans unité) et a sont proportionnels

– Si r=0, a=0

– S'il n'y a pas de relation linéaire entre X et Y :

• la pente a est nulle

• droite horizontale

s s a

s ss r

Y

X

Y

X

XY

PACES 2011-2012 C.Bulot 18

) , ( yx

𝑦 = 𝑏 = 𝑦

Page 19: Corrélation et Régression Linéaire - mboursereau.free.frmboursereau.free.fr/wordpress/p1cam/UE4/BulotCorrelRegresLineaire.pdf · Introduction Dans une population, on veut savoir

Remarques (suite)

– La corrélation indique s’il y a une relation linéaire entre 2 variables

– La régression linéaire permet de prédire Y en fonction de X

PACES 2011-2012 C.Bulot 19

Page 20: Corrélation et Régression Linéaire - mboursereau.free.frmboursereau.free.fr/wordpress/p1cam/UE4/BulotCorrelRegresLineaire.pdf · Introduction Dans une population, on veut savoir

2. Précision de l’ajustement linéaire aux valeurs observées

– Si on ne connaît que Y, on peut prédire Y par observé dans l'échantillon

– On veut savoir si la connaissance de X nous donne une meilleure prédiction que la moyenne de y

– On va quantifier la qualité de la prédiction de Y en fonction de X

– On a

Ecart dû à la Ecart résiduel

régression

) )( - ( ))( ( - xf y y - xf yy i i i i +

PACES 2011-2012 C.Bulot 20

y

Page 21: Corrélation et Régression Linéaire - mboursereau.free.frmboursereau.free.fr/wordpress/p1cam/UE4/BulotCorrelRegresLineaire.pdf · Introduction Dans une population, on veut savoir

Variabilité des données

X

Y

Moyenne de y

variation totale

variation non expliquée

variation expliquée

PACES 2011-2012 C.Bulot 21

Page 22: Corrélation et Régression Linéaire - mboursereau.free.frmboursereau.free.fr/wordpress/p1cam/UE4/BulotCorrelRegresLineaire.pdf · Introduction Dans une population, on veut savoir

• On montre

–Part de la variation de Y expliquée par la droite de régression : r²

– r² : coefficient de détermination

– r² mesure l’intensité de l’association linéaire entre X et Y, indépendamment des unités.

– Si r² = 1 : ajustement parfait • Les points sont alignés

– Si r² = 0, s²exp = 0 : l’ajustement est à rejeter

2Y

2exp

ss

totalevarianceexpliquée variance

²r

PACES 2011-2012 C.Bulot 22

Page 23: Corrélation et Régression Linéaire - mboursereau.free.frmboursereau.free.fr/wordpress/p1cam/UE4/BulotCorrelRegresLineaire.pdf · Introduction Dans une population, on veut savoir

• Causalité :

– r ne donne pas la raison de la relation entre X et Y

– une 3ème variable peut expliquer les 2 variables

• ex : alcool et cancer des bronches (facteur de confusion : tabac)

• La droite de régression n’est valable qu’entre les extrémités

– on ne sait pas si au delà il y a relation

• plusieurs types de relations possibles pour le même r

PACES 2011-2012 C.Bulot 23

Page 24: Corrélation et Régression Linéaire - mboursereau.free.frmboursereau.free.fr/wordpress/p1cam/UE4/BulotCorrelRegresLineaire.pdf · Introduction Dans une population, on veut savoir

Exemples

R2 = 0,80

X

Y R2 = 0,80

X

Y

R2 = 0,80

X

Y R2 = 0,80

X

Y

PACES 2011-2012 C.Bulot 24

Page 25: Corrélation et Régression Linéaire - mboursereau.free.frmboursereau.free.fr/wordpress/p1cam/UE4/BulotCorrelRegresLineaire.pdf · Introduction Dans une population, on veut savoir

3. Régressions non linéaires

• Régressions pouvant se ramener par un changement de variables à une régression linéaire

– Exemple :

v = k eax (k > 0)

donc ln v = ax + ln k

On pose y = ln v , b = ln k

y = ax + b

PACES 2011-2012 C.Bulot 25

Page 26: Corrélation et Régression Linéaire - mboursereau.free.frmboursereau.free.fr/wordpress/p1cam/UE4/BulotCorrelRegresLineaire.pdf · Introduction Dans une population, on veut savoir

4. Tests d’indépendance linéaire

– r est l’observation du « vrai » coefficient de corrélation dans la population r

– a et b estimations de a et b

– Il y a des tests pour tester l’indépendance linéaire ou la significativité de la corrélation

– 3 tests équivalents :

• coefficient nul : r = 0

• pente nulle : a = 0 (y = b = moyenne des yi)

• Test de Fisher : comparaison des variances

PACES 2011-2012 C.Bulot 26

Page 27: Corrélation et Régression Linéaire - mboursereau.free.frmboursereau.free.fr/wordpress/p1cam/UE4/BulotCorrelRegresLineaire.pdf · Introduction Dans une population, on veut savoir

On considère une population avec 2 caractères

quantitatifs X et Y

Test du coefficient de corrélation

On suppose que la vraie régression est linéaire

Soit r le « vrai » coefficient de corrélation entre X et Y dans la

population.

On va tester

(H0) : « r = 0 »

« Les 2 variables sont indépendantes»

On fixe le seuil de signification a

On extrait un échantillon de taille n et soit r le coefficient de corrélation observé

PACES 2011-2012 C.Bulot 27

Page 28: Corrélation et Régression Linéaire - mboursereau.free.frmboursereau.free.fr/wordpress/p1cam/UE4/BulotCorrelRegresLineaire.pdf · Introduction Dans une population, on veut savoir

– Soit R la v.a. d’observation r

– Si (H0) est vraie, R est de moyenne 0 et

– Soit le paramètre

– Si n ≥ 30 , T suit approximativement une loi N(0,1)

– Si n < 30, (sous les bonnes conditions de normalité) T suit une loi de Student à n–2 ddl

R sR T

PACES 2011-2012 C.Bulot 28

2 -n ²r - 1 s (R)var 2

R

Page 29: Corrélation et Régression Linéaire - mboursereau.free.frmboursereau.free.fr/wordpress/p1cam/UE4/BulotCorrelRegresLineaire.pdf · Introduction Dans une population, on veut savoir

– On calcule l’expression :

– On la compare à tthéo donné par les tables pour a fixé

– Si tobs ≥ tthéo , on rejette (H0) au seuil de signification a

2 -n ²r - 1

r tobs

PACES 2011-2012 C.Bulot 29

Page 30: Corrélation et Régression Linéaire - mboursereau.free.frmboursereau.free.fr/wordpress/p1cam/UE4/BulotCorrelRegresLineaire.pdf · Introduction Dans une population, on veut savoir

• Interprétation

– Si (H0) n’est pas rejetée : on n'a pas mis en évidence de relation (ou dépendance ou corrélation) linéaire entre X et Y :

Une relation linéaire ne permet pas de prédire correctement Y en connaissant X (pas mieux que la moyenne de y)

–Si (H0) est rejetée : il y a une corrélation entre X et Y

X aide à la prédiction de Y (mieux que la moyenne de y)

La droite donne la tendance de la variation de Y en fonction de la variation de X

30 PACES 2011-2012 C.Bulot

Page 31: Corrélation et Régression Linéaire - mboursereau.free.frmboursereau.free.fr/wordpress/p1cam/UE4/BulotCorrelRegresLineaire.pdf · Introduction Dans une population, on veut savoir

Exemples

r non nul

X

Yr non nul

X

Y

r nul

X

Y

r nul

X

Y

PACES 2011-2012 C.Bulot 31

Page 32: Corrélation et Régression Linéaire - mboursereau.free.frmboursereau.free.fr/wordpress/p1cam/UE4/BulotCorrelRegresLineaire.pdf · Introduction Dans une population, on veut savoir

Exemple

On étudie la relation entre le poids (Y en kg) et

la taille (X en cm) chez les hommes adultes.

On extrait un échantillon de 14 hommes adultes et on

observe les résultats suivants :

sxy = 16

sx = 8 mx = 176 cm

sy =4 my = 80 kg

PACES 2011-2012 C.Bulot 32

Page 33: Corrélation et Régression Linéaire - mboursereau.free.frmboursereau.free.fr/wordpress/p1cam/UE4/BulotCorrelRegresLineaire.pdf · Introduction Dans une population, on veut savoir

Calculer le coefficient de corrélation observé r.

Déterminer l'équation de la droite de régression de Y en X

Calcul du coefficient de corrélation observé :

yx

XY

ss

s r

5,04.8

16

PACES 2011-2012 C.Bulot 33

Page 34: Corrélation et Régression Linéaire - mboursereau.free.frmboursereau.free.fr/wordpress/p1cam/UE4/BulotCorrelRegresLineaire.pdf · Introduction Dans une population, on veut savoir

Equation de la droite de régression :

Pente :

Ordonnée à l'origine :

2 a

x

XY

s

s

4

1

64

16

PACES 2011-2012 C.Bulot 34

25,0a

xy amm b

3644804

17680

360,25x y +

Page 35: Corrélation et Régression Linéaire - mboursereau.free.frmboursereau.free.fr/wordpress/p1cam/UE4/BulotCorrelRegresLineaire.pdf · Introduction Dans une population, on veut savoir

Au seuil de signification 5%, le coefficient de corrélation dans la population est-il significativement différent de 0 ?

(On supposera les conditions de normalité vérifiées)

Conclure

PACES 2011-2012 C.Bulot 35

Page 36: Corrélation et Régression Linéaire - mboursereau.free.frmboursereau.free.fr/wordpress/p1cam/UE4/BulotCorrelRegresLineaire.pdf · Introduction Dans une population, on veut savoir

Soit r le vrai coefficient de corrélation entre X et Y dans la population.

•On teste (H0) : « r = 0 »

•On fixe le seuil a=5%

•Coefficient de corrélation observé : r=0,5

•On a un échantillon de taille n = 14 < 30

(+ conditions de normalité)

Test avec la loi de Student à n-2 ddl

PACES 2011-2012 C.Bulot 36

Page 37: Corrélation et Régression Linéaire - mboursereau.free.frmboursereau.free.fr/wordpress/p1cam/UE4/BulotCorrelRegresLineaire.pdf · Introduction Dans une population, on veut savoir

On calcule :

Pour a = 5%, et n-2=12ddl la table de Student donne t5%,12ddl = 2,179

tobs < t5 %,12ddl

2 -n ²r - 1

r t obs

0,75

120,5

² 0,5 - 1

2-14 0,5

PACES 2011-2012 C.Bulot 37

2

160,5

Page 38: Corrélation et Régression Linéaire - mboursereau.free.frmboursereau.free.fr/wordpress/p1cam/UE4/BulotCorrelRegresLineaire.pdf · Introduction Dans une population, on veut savoir

On n'a pas mis en évidence que le coefficient de corrélation est significativement différent de 0.

Donc au risque b, on accepte (H0) :

Conclusion : Il y a indépendance linéaire entre la taille et le poids au risque b (ou il n’y a pas de corrélation linéaire entre la taille et le poids).

PACES 2011-2012 C.Bulot 38

Page 39: Corrélation et Régression Linéaire - mboursereau.free.frmboursereau.free.fr/wordpress/p1cam/UE4/BulotCorrelRegresLineaire.pdf · Introduction Dans une population, on veut savoir

Exercice

On étudie la relation entre la tension artérielle (Y) et le

BMI (X, poids en kg / carré de la taille en m) chez les

hommes adultes.

On extrait un échantillon de 38 hommes adultes et on

observe les résultats suivants :

sxy = 8

sx = 2,5

sy = 4

PACES 2011-2012 C.Bulot 39

Page 40: Corrélation et Régression Linéaire - mboursereau.free.frmboursereau.free.fr/wordpress/p1cam/UE4/BulotCorrelRegresLineaire.pdf · Introduction Dans une population, on veut savoir

Calculer le coefficient de corrélation observé r.

Au seuil de signification 5%, le coefficient de corrélation dans la population est-il significativement différent de 0 ?

Conclure

Calcul du coefficient de corrélation observé :

yx

XY

ss

s r

8,04.5,2

8

PACES 2011-2012 C.Bulot 40

Page 41: Corrélation et Régression Linéaire - mboursereau.free.frmboursereau.free.fr/wordpress/p1cam/UE4/BulotCorrelRegresLineaire.pdf · Introduction Dans une population, on veut savoir

Soit r le vrai coefficient de corrélation entre X et Y dans la population.

•On teste (H0) : « r = 0 »

•On fixe le seuil de signification a=5%

•Coefficient de corrélation observé : r=0,8

•On a un échantillon de taille n = 38 > 30

Test avec la loi normale

PACES 2011-2012 C.Bulot 41

Page 42: Corrélation et Régression Linéaire - mboursereau.free.frmboursereau.free.fr/wordpress/p1cam/UE4/BulotCorrelRegresLineaire.pdf · Introduction Dans une population, on veut savoir

On calcule :

Pour a = 5%, on a Ua = 1,96

Uobs > Ua

2 -n ²r - 1

r U obs

36.10

36 0,8

² 0,8 - 1

2-38 0,8

2-

PACES 2011-2012 C.Bulot 42

8

Page 43: Corrélation et Régression Linéaire - mboursereau.free.frmboursereau.free.fr/wordpress/p1cam/UE4/BulotCorrelRegresLineaire.pdf · Introduction Dans une population, on veut savoir

Donc au risque de première espèce a ≤ 5%, on rejette (H0) :

le coefficient de corrélation est significativement différent de 0.

Conclusion : Il y a corrélation linéaire entre X et Y au risque de première espèce a ≤ 5%

(ou il y a association linéaire)

PACES 2011-2012 C.Bulot 43