Objectifs du chapitre sur la corrélation
Comprendre ce qu’est une corrélation
Savoir représenter une corrélation à l’aide d’un diagramme de dispersion du coefficient de corrélation
score au WRAT 3
605040302010
scor
e to
tal d
es p
lurie
ls (
sur
20)
30
20
10
0
-10
niveau scolaire du p
6,00
4,00
2,00
Total Population
2 façons de représenter une corrélation (1)
Visuellement: tableau de contingence
(données qualitatives) diagramme de dispersion
(données quantitatives): coordonnées de 2 variables sur plan cartésien
2 façons de représenter une corrélation (2)
Mathématiquement: coefficient de Bravais-Pearson
Coefficient standardisé de covariance (données continues) variant entre –1 et +1 0 indique l’absence d’association
indique la force et la direction de la relation
autres: φ, Spearman, bisériel, etc.
L’équation du coefficient de
corrélation de Bravais-Pearson
La formule conceptuelle
La formule de calcul
_
i
_
i
YYXXr
YYXX
22
_
i
_
i
xy
NN
N
YXXY
r
YY
XX
2
2
2
2
xy
Mnémonique La formule conceptuelle
…
s’écrit aussi
_
i
_
i
YYXXr
YYXX
22
_
i
_
i
xy
ssvarCo
ryx
xy
xy
Un exemple: calcul et interprétation:
association ou cause-effet?
# cigognes population
125 55000
150 55500
175 65000
200 67500
248 68000
250 70000
250 75000
Un exemple: calculCigo-gnes
Popu-lation
C2 P2 CxP
125 55000 15625 3.0250 x 109 6875000
150 55500 22500 3.0802 x 109 8325000
175 65000 30625 4.2250 x 109 11375000
200 67500 40000 4.5562 x 109 13500000
248 68000 61504 4.6240 x 109 16864000
250 70000 62500 4.9000 x 109 17500000
250 75000 62500 5.6250 x 109 18750000
1398 456000 295254 3.0035 x 1010 93189000
Exemple de calcul (1)
NN
N
YXXY
r
YY
XX
2
2
2
2
xy
7
45600003003500000
7
1398 -295254
7
4560001398-93189000
r22xy
7
00207930000003003500000
7
1954404 -295254
7
637480000-93189000
rxy
Exemple de calcul (2)
NN
N
YXXY
r
YY
XX
2
2
2
2
xy
0297050000003003500000279200.57 -295254
91069714-93189000rxy
920974.3.2301135
2119286
773.18161x70213.261
2119286
32985000016053.429
2119286rxy
Nombre de cigognes
260240220200180160140120
Po
pu
latio
n d
e la
vill
e
80000
70000
60000
50000
Problèmes 9.1-9.3bébé fertile % nais.
6,1 43,0 9,2
7,1 55,3 12,0
7,4 48,5 10,4
6,3 38,8 9,8
6,5 46,2 9,8
5,7 39,9 7,7
6,6 43,1 10,9
8,1 48,5 9,5
6,3 40,0 11,6
6,9 56,7 11,6
Problèmes 9.1-9.3: calculs
Y X1 X2 YX1 YX 2 Y2 X1 2 X22 X1X2
6,1 43,0 9,2 262,30 56,12 37,21 1849,00 84,64 395,60
7,1 55,3 12,0 392,63 85,20 50,41 3058,09 144,00 663,60
7,4 48,5 10,4 358,90 76,96 54,76 2352,25 108,16 504,40
6,3 38,8 9,8 244,44 61,74 39,69 1505,44 96,04 380,24
6,5 46,2 9,8 300,30 63,70 42,25 2134,44 96,04 452,76
5,7 39,9 7,7 227,43 43,89 32,49 1592,01 59,29 307,23
6,6 43,1 10,9 284,46 71,94 43,56 1857,61 118,81 469,79
8,1 48,5 9,5 392,85 76,95 65,61 2352,25 90,25 460,75
6,3 40,0 11,6 252,00 73,08 39,69 1600,00 134,56 464,00
6,9 56,7 11,6 391,23 80,04 47,61 3214,89 134,56 657,72
67 460 102,5 3106,54 689,62 453,28 21516 1066,4 4756,09
Calcul 9.1
NN
N
YXXY
r
YY
XX
2
2
2
2
xy
10460
215161067
-453,28
1046067
-3106,54
22
xyr
2116021516448,9 -453,28
3082-3106,54
10211600
2151610
4489 -453,28
1030820
-3106,54
xyr
,6239,49
24,54
09x18,872
24,54
3564,38
24,54
,xyr
rxy en tant qu’estimateur de ρ
biais: surévaluation solution: réduire l’indice
correction mathématique:
utilisation en régression,alors N-2 = N-p-1
2N
1N11 r
r2
xy
ajusté
Comment savoir si rxy égale 0 ou non?
test t:
avec N-2 comme dl
règle de jugement à l’oeil:si le résultat de ce calcul est plus grand que 2, alors rxy est différent de 0
r
rt 2
xy
xy
dl1
2N
D’autres coefficients de corrélation (1)
: corrélation pour 2 variables nominales
rpb: corrélation entre une variable
nominale et une variable à intervalles égaux
N
χφ
2
total
qpqp
pb σN
nnMMr
= r
L’exemple des cigognes
# cigognes population
125 00 55000 00
150 00 55500 00
175 00 65000 00
200 00 67500 00
248 11 68000 11
250 11 70000 11
250 11 75000 11
Popu-lation < 67998
Popu-lation < 67999
# cigognes
< 201 4 0
# cigognes
> 202 0 3
72857143.27142857.17142857.12857143.17
3x37
3x33
7
4x37
4x30
7
3x47
3x40
7
4x47
4x44
χ
2222
2
D’autres coefficients de corrélation (2)
rb: corrélation pour une variable nominale en pratique mais
continue en réalité
: corrélation entre deux variables ordinales
y
nnx
σN
MMr qp
total
qpb
1NN
D61r
2
N
1i
2
s
Un exemple de calcul pour le r de Spearman
(1)# cigo-gnes
Rang cig.
Popu-lation
Rang popu.
Diff. rangs
125 1 55000 11 00
150 2 55500 22 00
175 3 65000 33 00
200 4 67500 44 00
248 5 68000 55 00
250 6.5 70000 66 +0.5+0.5
250 6.5 75000 77 -0.5-0.5
1497
5061
1
61
21
2
,
NN
Dr
N
is
8570,99107142112
11
167
11
487
31
sr
Un exemple de calcul pour le r de Spearman
(2)
Problèmes 9.1-9.3bébé rbrb fertile rfrf Diff. D2
6,1 22 43,0 44 -2 4
7,1 88 55,3 99 -1 1
7,4 99 48,5 7,57,5 1,5 2,25
6,3 3,53,5 38,8 11 2,5 6,25
6,5 55 46,2 66 -1 1
5,7 11 39,9 22 -1 1
6,6 66 43,1 55 1 1
8,1 1010 48,5 7,57,5 2,5 6,25
6,3 3,53,5 40,0 33 ,5 ,25
6,9 77 56,7 1010 3 9
De la corrélation aux corrélations
les tableaux de corrélation: relations multiple 2 x 2
savoir trouver les patrons à l’œil
l’analyse factorielle:
approche mathématique pour réduire les tableaux de corrélations en éléments principaux
Un exemple: calcul et interprétation:
association ou cause-effet?
# cigognes population
125 55000
150 55500
175 65000
200 67500
248 68000
250 70000
250 75000
Réflexion
Cote 1 Cote 2
1 11
2 12
3 13
4 14
5 15
6 16
7 17