View
214
Download
0
Category
Preview:
Citation preview
Corrélation et Régression
Linéaire
UE4
PACES 2011-2012
C. Bulot
Introduction
Dans une population, on veut savoir si 2 variables X et Y observées sur une même entité sont indépendantes ou non.
C'est-à-dire si la connaissance du résultat d'une variable ne nous permet pas de tirer des informations pour prédire le résultat de l'autre.
On s'intéressera à 2 cas :
• 2 variables qualitatives
Ex : Maladie/Exposition
Test du c² (cf cours Pr Salamon)
PACES 2011-2012 C.Bulot 2
•2 variables quantitatives :
Ex : poids/taille, temps/dose, température/temps
– Un graphique nous donnera une idée sur l'existence d'une association éventuelle entre les 2 variables
– Etude de la force de leur association :
corrélation
– Prédiction (Y en fonction de X) :
Régression
PACES 2011-2012 C.Bulot 3
Plan
1. Séries Statistiques doubles
2. Corrélation
3. Régression linéaire
4. Tests d’indépendance linéaire
PACES 2011-2012 C.Bulot 4
1. Séries Statistiques Doubles
1. Définition
On observe 2 caractères quantitatifs (variables associées
X et Y) sur n individus :
n couples de valeurs (xi , yi)
Cet ensemble de couples est appelé série statistique
double si X et/ou Y est aléatoire
2 cas : (i) X fixé ou contrôlé, Y aléatoire
Cas particulier : X temps : série chronologique.
(ii) X et Y aléatoires (ex : poids – taille) PACES 2011-2012 C.Bulot 5
2. Représentation graphique
Dans un repère orthogonal, on trace les points de
coordonnées (xi , yi)
L’ensemble des points est appelé nuage de points ou
diagramme de dispersion
PACES 2011-2012 C.Bulot 6
Exemple
Dose x en mg
175 180 190 200 210 220 230
Temps y en s
17 18 19 20 19 19 20
15
16
17
18
19
20
21
22
170 180 190 200 210 220 230
tem
ps
dose (mg)
PACES 2011-2012 C.Bulot 7
X
Y
X
Y
PACES 2011-2012 C.Bulot 8
Forme allongée : liaison possible entre les
caractères
Points dispersés : pas de liaison
Le nuage de points donne des informations qualitatives sur une éventuelle liaison entre les 2 caractères
Information quantitative : Corrélation
2. Corrélation
1. Covariance
Dans une population de N sujets (de valeurs de X et Y :
(xi , yi)), on définit la covariance de X et Y par :
On extrait un échantillon de n individu.
Covariance de X et Y dans l'échantillon :
N
y - yx - x ii )( ( Y) cov(X,
)
PACES 2011-2012 C.Bulot 9
n
y - yx - x ii )( ( s XY
)
• Propriétés
(i) Si X = Y, cov(X,X) = var(X)
(ii) var(X + Y) = var(X) + var(Y) + 2cov(X,Y)
(iii) Si X et Y sont indépendantes
var(X Y) = var(X) + var(Y)
et cov(X,Y) = 0
La covariance dépend de l’unité :
On détermine une quantité proportionnelle à la
covariance :
Coefficient de Corrélation PACES 2011-2012 C.Bulot 10
2. Coefficient de corrélation
On appelle coefficient de corrélation de X en Y
dans la population :
Avec sx : écart type de X dans la population
sy : écart type de Y dans la population
On montre que -1 ≤ r ≤ 1
et r = 1 Y = aX + b
Si X et Y sont indépendantes : r = 0
Y X σ σ),cov(
Y) ρ(X,YX
PACES 2011-2012 C.Bulot 11
Coefficient de corrélation de l’échantillon :
sx et sy écarts type dans l'échantillon (r invariant si on échange X et Y)
– On estime le coefficient de corrélation de la population r par le coefficient de corrélation de l’échantillon r
– -1 ≤ r ≤ 1
y - (y x - (x
)y - yx - (x
ss
s r
ii
ii
YX
XY
)²)²
)(
12 PACES 2011-2012 C.Bulot
r indique la force et le sens de l’association
(linéaire) entre X et Y
– plus r² est proche de 1, plus la relation est forte :
• r = -1 : corrélation négative parfaite
• r = 0 : pas de corrélation
• r = 1 : corrélation positive parfaite
13 PACES 2011-2012 C.Bulot
• Le nuage de points donne des informations
qualitatives sur une éventuelle liaison entre les 2
caractères.
• La corrélation quantifie la force de l’association
• Forme de la relation ?
• Si on a Y = f(X), les points se répartissent autour de la
courbe d’équation y = f(x)
Estimation de f
Construction d’une courbe d’estimation qui s’ajuste au
nuage de points (xi , yi).
PACES 2011-2012 C.Bulot 14
Régression
Dans la suite du cours :
– régression linéaire
–on considère les (vraies) relations entre X et
Y du type
y a x + b
– relations s’y ramenant
• Exponentielle, logarithmique, …
–a et b inconnus : on les estimera à partir
d’un échantillon
PACES 2011-2012 C.Bulot 15
3. Régression Linéaire
On suppose la vraie relation entre X et Y dans la
population du type : y = a x + b (inconnue)
On estime à partir d’un échantillon :
a a et b b
Idée : l'écart entre les points et la droite doit être le +
petit possible
PACES 2011-2012 C.Bulot 16
1. Droite de régression
La droite (D) y = a x + b, ajustée aux points (xi ,
yi) telle que soit minimale est
appelée droite de régression de Y en X
L’équation de la droite (D) est déterminé par la
méthode des moindres carrés :
- la pente :
- l'ordonnée à l'origine :
(b est la valeur de y en x = 0)
s2
X
XY
i
ii s
)²x - (x
)y - (y )x - (x a
PACES 2011-2012 C.Bulot 17
xy a - b
² )) b a ( - ( n
1
+
i
i
i xy
Remarques
• (D) passe par le point médian :
• Le coefficient de corrélation (observé) :
– r (sans unité) et a sont proportionnels
– Si r=0, a=0
– S'il n'y a pas de relation linéaire entre X et Y :
• la pente a est nulle
• droite horizontale
s s a
s ss r
Y
X
Y
X
XY
PACES 2011-2012 C.Bulot 18
) , ( yx
𝑦 = 𝑏 = 𝑦
Remarques (suite)
– La corrélation indique s’il y a une relation linéaire entre 2 variables
– La régression linéaire permet de prédire Y en fonction de X
PACES 2011-2012 C.Bulot 19
2. Précision de l’ajustement linéaire aux valeurs observées
– Si on ne connaît que Y, on peut prédire Y par observé dans l'échantillon
– On veut savoir si la connaissance de X nous donne une meilleure prédiction que la moyenne de y
– On va quantifier la qualité de la prédiction de Y en fonction de X
– On a
Ecart dû à la Ecart résiduel
régression
) )( - ( ))( ( - xf y y - xf yy i i i i +
PACES 2011-2012 C.Bulot 20
y
Variabilité des données
X
Y
Moyenne de y
variation totale
variation non expliquée
variation expliquée
PACES 2011-2012 C.Bulot 21
• On montre
–Part de la variation de Y expliquée par la droite de régression : r²
– r² : coefficient de détermination
– r² mesure l’intensité de l’association linéaire entre X et Y, indépendamment des unités.
– Si r² = 1 : ajustement parfait • Les points sont alignés
– Si r² = 0, s²exp = 0 : l’ajustement est à rejeter
2Y
2exp
ss
totalevarianceexpliquée variance
²r
PACES 2011-2012 C.Bulot 22
• Causalité :
– r ne donne pas la raison de la relation entre X et Y
– une 3ème variable peut expliquer les 2 variables
• ex : alcool et cancer des bronches (facteur de confusion : tabac)
• La droite de régression n’est valable qu’entre les extrémités
– on ne sait pas si au delà il y a relation
• plusieurs types de relations possibles pour le même r
PACES 2011-2012 C.Bulot 23
Exemples
R2 = 0,80
X
Y R2 = 0,80
X
Y
R2 = 0,80
X
Y R2 = 0,80
X
Y
PACES 2011-2012 C.Bulot 24
3. Régressions non linéaires
• Régressions pouvant se ramener par un changement de variables à une régression linéaire
– Exemple :
v = k eax (k > 0)
donc ln v = ax + ln k
On pose y = ln v , b = ln k
y = ax + b
PACES 2011-2012 C.Bulot 25
4. Tests d’indépendance linéaire
– r est l’observation du « vrai » coefficient de corrélation dans la population r
– a et b estimations de a et b
– Il y a des tests pour tester l’indépendance linéaire ou la significativité de la corrélation
– 3 tests équivalents :
• coefficient nul : r = 0
• pente nulle : a = 0 (y = b = moyenne des yi)
• Test de Fisher : comparaison des variances
PACES 2011-2012 C.Bulot 26
On considère une population avec 2 caractères
quantitatifs X et Y
Test du coefficient de corrélation
On suppose que la vraie régression est linéaire
Soit r le « vrai » coefficient de corrélation entre X et Y dans la
population.
On va tester
(H0) : « r = 0 »
« Les 2 variables sont indépendantes»
On fixe le seuil de signification a
On extrait un échantillon de taille n et soit r le coefficient de corrélation observé
PACES 2011-2012 C.Bulot 27
– Soit R la v.a. d’observation r
– Si (H0) est vraie, R est de moyenne 0 et
– Soit le paramètre
– Si n ≥ 30 , T suit approximativement une loi N(0,1)
– Si n < 30, (sous les bonnes conditions de normalité) T suit une loi de Student à n–2 ddl
R sR T
PACES 2011-2012 C.Bulot 28
2 -n ²r - 1 s (R)var 2
R
– On calcule l’expression :
– On la compare à tthéo donné par les tables pour a fixé
– Si tobs ≥ tthéo , on rejette (H0) au seuil de signification a
2 -n ²r - 1
r tobs
PACES 2011-2012 C.Bulot 29
• Interprétation
– Si (H0) n’est pas rejetée : on n'a pas mis en évidence de relation (ou dépendance ou corrélation) linéaire entre X et Y :
Une relation linéaire ne permet pas de prédire correctement Y en connaissant X (pas mieux que la moyenne de y)
–Si (H0) est rejetée : il y a une corrélation entre X et Y
X aide à la prédiction de Y (mieux que la moyenne de y)
La droite donne la tendance de la variation de Y en fonction de la variation de X
30 PACES 2011-2012 C.Bulot
Exemples
r non nul
X
Yr non nul
X
Y
r nul
X
Y
r nul
X
Y
PACES 2011-2012 C.Bulot 31
Exemple
On étudie la relation entre le poids (Y en kg) et
la taille (X en cm) chez les hommes adultes.
On extrait un échantillon de 14 hommes adultes et on
observe les résultats suivants :
sxy = 16
sx = 8 mx = 176 cm
sy =4 my = 80 kg
PACES 2011-2012 C.Bulot 32
Calculer le coefficient de corrélation observé r.
Déterminer l'équation de la droite de régression de Y en X
Calcul du coefficient de corrélation observé :
yx
XY
ss
s r
5,04.8
16
PACES 2011-2012 C.Bulot 33
Equation de la droite de régression :
Pente :
Ordonnée à l'origine :
2 a
x
XY
s
s
4
1
64
16
PACES 2011-2012 C.Bulot 34
25,0a
xy amm b
3644804
17680
360,25x y +
Au seuil de signification 5%, le coefficient de corrélation dans la population est-il significativement différent de 0 ?
(On supposera les conditions de normalité vérifiées)
Conclure
PACES 2011-2012 C.Bulot 35
Soit r le vrai coefficient de corrélation entre X et Y dans la population.
•On teste (H0) : « r = 0 »
•On fixe le seuil a=5%
•Coefficient de corrélation observé : r=0,5
•On a un échantillon de taille n = 14 < 30
(+ conditions de normalité)
Test avec la loi de Student à n-2 ddl
PACES 2011-2012 C.Bulot 36
On calcule :
Pour a = 5%, et n-2=12ddl la table de Student donne t5%,12ddl = 2,179
tobs < t5 %,12ddl
2 -n ²r - 1
r t obs
0,75
120,5
² 0,5 - 1
2-14 0,5
PACES 2011-2012 C.Bulot 37
2
160,5
On n'a pas mis en évidence que le coefficient de corrélation est significativement différent de 0.
Donc au risque b, on accepte (H0) :
Conclusion : Il y a indépendance linéaire entre la taille et le poids au risque b (ou il n’y a pas de corrélation linéaire entre la taille et le poids).
PACES 2011-2012 C.Bulot 38
Exercice
On étudie la relation entre la tension artérielle (Y) et le
BMI (X, poids en kg / carré de la taille en m) chez les
hommes adultes.
On extrait un échantillon de 38 hommes adultes et on
observe les résultats suivants :
sxy = 8
sx = 2,5
sy = 4
PACES 2011-2012 C.Bulot 39
Calculer le coefficient de corrélation observé r.
Au seuil de signification 5%, le coefficient de corrélation dans la population est-il significativement différent de 0 ?
Conclure
Calcul du coefficient de corrélation observé :
yx
XY
ss
s r
8,04.5,2
8
PACES 2011-2012 C.Bulot 40
Soit r le vrai coefficient de corrélation entre X et Y dans la population.
•On teste (H0) : « r = 0 »
•On fixe le seuil de signification a=5%
•Coefficient de corrélation observé : r=0,8
•On a un échantillon de taille n = 38 > 30
Test avec la loi normale
PACES 2011-2012 C.Bulot 41
On calcule :
Pour a = 5%, on a Ua = 1,96
Uobs > Ua
2 -n ²r - 1
r U obs
36.10
36 0,8
² 0,8 - 1
2-38 0,8
2-
PACES 2011-2012 C.Bulot 42
8
Donc au risque de première espèce a ≤ 5%, on rejette (H0) :
le coefficient de corrélation est significativement différent de 0.
Conclusion : Il y a corrélation linéaire entre X et Y au risque de première espèce a ≤ 5%
(ou il y a association linéaire)
PACES 2011-2012 C.Bulot 43
Recommended