Upload
mouradqadda
View
69
Download
4
Embed Size (px)
DESCRIPTION
cours de statistique descriptif qui facilite la comprehension des variables qualitatif et quantitatif .
Citation preview
1
DISTRIBUTION STATISTIQUE À UNE VARIABLE Et À DEUX VARIABLES : Corrélation
et Ajustement
2
A. DISTRIBUTION STATISTIQUE À UNE VARIABLE
3
I. TABLEAUX STATISTIQUE ET GRAPHIQUES
X Effectifs
x1
.
.
.
.
.
.
.
n1
.
.
.
.
.
.
.
Total n
X Total
Effectifs
V.D.
4
Classes Effectifs
[…; …[
.
.
.
.
n1
Total
Classes Total
Effectifs n
V.C.
Qualitative
5
Exemple : taille de vêtement :
XS < S < M < L < XL < XXL
Il faudra, notamment pour les représentations graphiques, présenter toujours les modalités dans l'ordre.
Répartition d'une population en fonction de sa taille vestimentaire
6
Représentations graphiques
1. Caractères qualitatifs1.1. Diagramme en barres (ou en tuyaux d'orgue) :
7
1.2 .Diagramme en bâtons:
8
1.3. Diagramme circulaire
9
Graphique figuratif :
Caractère Figure possible
Population humaineDépenses, recettes
Consommations d'un produitsImportance d'une productionetc
Etres humainsPièces de monnaie ou billets de banqueDessins du produit concernéDessins du produit concernéetc
10
Pouvoir d'achat du dollar canadien, 1980 à 2000
11
Consommation d’un produit P par sexe et par tranche d’âges
fi
12
2 .Caractères quantitatifs2.1 .C. Discrets
Diagramme en bâtons:
13
2.2. Caractères Continus
14
fi
15
Pb. les amplitudes varient d'une classe à une autre !
Tailles (en cm) amplitudes Nombre d'élèves
[161;165[[165;177[[177;185[
4128
3139
Total 25
Soit u = PGCD(4; 12; 8) = 4
11
1
33
1
Sh
b 2
22
13 14
3 3
Sh
b 3
33
94,5
2
Sh
b
16
2.3. Courbe cumulative croissante et décroissante (fct de répartition) :
VD
17
18
VC
19
20
2.4 .Autres représentations graphiques
2.4.1. Pyramides
La pyramide est un double histogramme horizontal. L'exemple le plus connu est la pyramide des âges.
21
Exemple : Population active dans une société X à une date donnée
22
2.4.2 .Graphiques à coordonnées polaires:
Mois Année 2005
Janvier 60
Février 80
Mars 100
Avril 150
Mai 200
Juin 180
Juillet 40
Août 20
Septembre 80
Octobre 100
Novembre 110
Décembre 130
23
0
50
100
150
200Janvier
Fevrier
Mars
Avril
Mai
Juin
Juillet
Août
Septembre
Octobre
Novembre
Décembre
24
Les graphiques polaires peuvent être subdivisés en :
• Quatre parts pour les trimestres ;
• Douze parts pour les mois ;
• Vingt-quatre parts pour les heures de la journée;
• Cinquante-deux parts pour les semaines de l’année;
• Etc
25
II. Paramètres de position et de dispersion
La représentations des séries dans des tableaux et des graphiques permettent une vue d’ensemble mais ne peuvent résumer des tendances moyennes ou encore des dispersions dans les séries.
La façon la plus commode de résumer une série se fait à partir de :
• la tendance centrale • et la dispersion de la série
26
1.1. Mode Le mode d'un échantillon est la valeur qui se répète le plus souvent, autrement dit celle qui apparaît avec la fréquence la plus élevée. C'est pour cela qu'elle est parfois aussi appelée dominante.
Exemple1. Série discontinue( discrète: )
Le nombre de frères et sœurs des élèves d'une classe est indiqué dans le tableau suivant
Nbre de frères et sœurs 0 1 2 3 4 5 et plus
Nbre d'élèves 5 25 4 3 2 1
Le mode dans cette série est la valeur 1.
1 .Paramètres de position
27
Exemple2. Détermination du mode dans les séries statistiques continues :
Série comportant des classes d'amplitude égale
Les salariés d'une entreprise ont été classés selon leur rémunération mensuelle dans le tableau suivant :
Rémunérations mensuelles
[5000;6000[
[6000;7000[
[7000;8000[
[8000;9000[
[9000;10000[
[10000;11000[
Nombre de salariés 20 50 60 40 20 10
Le mode se trouve dans la classe [7000; 8000[. Pour connaître la valeur modale exacte, on prend la VALEUR CENTRALE DE LA CLASSE, soit ici 7500.
[7000 ; 8000[ est la classe modale.
Série comportant des classes d'amplitude inégale :
Dans ce cas c’est le centre de la classe correspondant à la densité relative )di( la plus importante, avec
ii
i
nd
a
28
1.2. Médiane
La médiane est la valeur centrale, autrement dit celle qui partage la série en deux sous-séries d’effectifs égaux.
Cas de variables discrètes :
Tout d’abord, les valeurs de la variable doivent être rangées par ordre croissant.Ensuite
si le nombre d’observation est impaire [)2n+1(-observations], alors
Me = )n+1(ième observation
Exemple: soit l’ensemble des notes sur 20 obtenues par 9 étudiants :E= {13 ; 14 ; 14 ; 15 ; 16 ; 18 ; 18 ; 19 ; 20} Me = 16
si le nombre d’observation est paire )2n-observations(, alors obs. ) 1( obs.
2
ième ièmen nMe
29
Cas de variables continues :Soit les 50 notes attribuées par un jury à un examen,
La médiane se trouve
[8 ;12[ (classe médiane)
On le détermine par interpolation linéaire :
Notes ni ni↑
[0 ; 5[ 10 10
[5 ; 8[ 8 18
[8 ; 12[ 12 30
[12 ; 15[ 11 41
[15 ; 20[ 9 50
50
30
avecLMe: la limite inférieure de la classe contenant la médiane,
FMe-1: la fréquence relative cumulée jusqu’à la classe médiane )excluant la fréquence de cette classe(,
fMe: la fréquence relative de la classe médiane,
aMe : l’amplitude de la classe médiane,
10,5 - MeMe Me
Me
FMe L
f
. a
31
8 25 18
12 8 30 188 7
4 12
28 8 10.33
12
Me
Me
Me
Exemple:
32
Graphiquement, la valeur médiane est celle qui correspond au croisement des courbes des fréquences cumulées croissantes et décroissante.
Classes en cm ni fi Fi↑ Fi↓
Min Max
155 0 % 0 % 0
155 à 160 155 160 1 % 4 % 4 % 100
160 à 165 160 165 6 % 24 % 28 % 96
165 à 170 165 170 6 % 24 % 52 % 72
170 à 175 170 175 5 % 20 % 72 % 48
175 à 180 175 180 2 % 8 % 80 % 28
180 à 185 180 185 2 % 8 % 88 % 20
185 à 190 185 190 3 % 12 % 100 % 12
190 % 0
25 % 100
33
les deux courbes se
croisent juste avant 170
Me
34
1.3. Moyenne arithmétique :
C’est le point le plus proche à tous les points de la série statistique.
Soient n1, n2, n3, .........,np les effectifs correspondants aux modalités x1,
x2, x3, .........,xp., si la série est discrète ,
ou les centres de chaque classe, si la série est continue.1 1 2 2
1 1 1 2
...1 1
...
pnp p
i i ii p
n x n x n xx x n x
n n n n n
Si on travaille sur toute la population on la note 1
N
ii
x
N
35
Série discrète
Série continue
Exemples :
36
Propriétés de la moyenne:
iSi y alors yiax b ax b
.
La moyenne de la série S regroupant les deux séries S1 et S2 est :
1 21 2
1 2
S SS S
S S
n x n xx
n n
cette propriété se généralise par
1 21 2
1 2
...
...S S Skk
k
S S S
S S S
n x n x n xx
n n n
37
1.4. Moyenne géométrique :
Utilisée dans
• les calculs de certains indices statistiques ;
• calcul de corrélation linéaire;
• la recherche de taux moyens de variation )croissance d’une grandeur économique(
1 2
1 2 1 2p
n n nnnn pMG x x x x x x
Exemple : la production d’un article A a été la suivante au cours du 1er trimestre : 1er mois 200000 unités, 2e mois 250000 unités et au 3e mois 360000 unités. Quel est le
taux moyen mensuel de croissance ?
Soit Pi le nombre d’unités à la fin du ie mois et ti le taux d’augmentation entre le mois i et i+1. Donc on a
23 2 2 1 2 1 1
21 2 1 2
1 2
)1 ( )1 ()1 ( )1 (
)1 ( )1 ()1 ( 1 )1 ()1 (
)1 ()1 ( 1 34.164%
m
m m
m
P t P t t P t P
t t t t t t
t t t
38
1.5 .Moyenne harmonique:
Utilisée dans des cas particuliers : problème de vitesse, de changes monétaires, certains indices )indices de Paasche( et problème de prix.
1
11 1n
i i
MH
n x
Exemple1 : dans une entreprise de fabrication 3 ouvriers produisent des pièces. L’ouvrier A met 10 min par pièce, B 15 min par pièce et C 20 min par pièce.
Amenons la production à 60 minutes
A produit 6 piècesB produit 4 pièces
C produit 3 pièces--------------------------
13 pièces
Le temps de production d’une pièce:
10min 6 15min 4 20min 313.85min/
13pièce
39
Avec la formule de MH: 3
13.85min/1 1 1
10 15 20
MH pièce
Exemple2 : une voiture roule pendant une heure à la vitesse de 80 km/h et ensuite parcours un tronçon de 60 km à la vitesse de 120 km/h. Quelle est la vitesse moyenne?
On sait que distance = vitesse x temps
dT= d1 + d2 = 80 + 60 = 140 et tT= 1.5 h
donc vm = 140/1.5 = 93.33 km/h.
Ou bien 80 6093.33 /
80 6080 120
MH km h
40
Exemple3 : une société marocaine doit régler une dette auprès d’un fournisseur américain. Elle dispose actuellement de 32000 $ qu’elle a acquis au cours de 9.25 DH/$. La dette s’élève à 78125$ ce qui nécessite d’acquérir 46125 $ pour complément dont la contrepartie globale est 440000 DH. A quel cours moyen les opérations de change ont-elles été réalisées ?
1er change : 32000 X 9.25 = 296000 DH
2e change : 46125 X i = 440000 DH
78125 X im = 736000 DH
donc im = 736000 / 78125 ≈ 9.42 )cours moyen(
9.42 est la moyenne harmonique de 9.25 et 9.54 :296000 +440000 296000 440000
9.25 9.54
MH
i ≈ 9.54
41
1.5 .Moyenne quadratique:
2 2 2
1 1 1
1 1 p pn
i i i i ii i i
Q x n x f xn n
MH MG x Q
Remarque
42
2. Paramètres de dispersionBut: comparer des séries entre elles en étudiant les variations ou dispersions des données par rapport à la tendance centrale.
2.1. L’étendue de la série )range ou intervalle de variation(La différence entre les deux valeurs extrêmes d’une série statistique. soit
max minE x x
2.2 .Les quartiles
Les quartiles découpent la série des observations classées en ordre croissant en 4 tranche de même effectif. On les note Q1, Q2, Q3 et Q4.
43
Exemple : répartition des salaires dans une entrepriseClasses xi
c ni fi% ni↑ Fi%
[3500,3700[
[3700,4100[
[4100,4300[
[4300,4700[
[4700,5300[
3600
3900
4200
4500
5000
21
49
100
24
6
10.5
24.5
50
12
3
21
70
170
194
200
10.5
35
85
97
100
200 100Calcul de Q1
11
3700 Q 4100 50 21Q 3700 )4100 3700( 3936.73
21 50 70 70 21
Calcul de Q2 = Me
22
4100 Q 4300 100 70Q 4100 )4300 4100( 4160
70 100 170 170 70
44
Calcul de Q 3
33
4100 Q 4300 75 35Q 4100 )4300 4100( 4260
35 75 85 85 35
Calcul de Q4
Valeur telle que 100% des observations lui sont inférieures. Donc il correspond à la modalité maximale soit Q4 = 5300
Etendue interquartile
EIQ = Q3 – Q1
il contient 50% des observations
On peut effectuer une même analyse par déciles. On les note D1, D2, …, D10
45
Quelques types de boites de dispersion
A : distribution symétrique
B : distribution symétrique peu dispersée
C : distribution étalée vers les valeurs élevées
D : distribution étalée vers les valeurs faibles
46
2.3. Ecart absolu moyen est la moyenne arithmétique des écarts par rapport à la tendance centrale, exprimés en valeur absolue.
1 1 1
1 1 p pn
i i i i ixi i i
E x x n x x f x xn n
2.4 .Variance et écart-typeSont les principaux indicateurs de dispersion utilisés.
2222 2
1 1 1
2
Echantillon :
1 1 1
Population : on la note ou
pn n
i i i ii i i
s x x x n x x x xn n n
V x x
47
V
2.5 .Coefficient de variationLe coefficient de variation est une mesure de la dispersion relative )écart type par rapport à la moyenne( d’une série. Il est donné par
Echantillon : 100%
Population : 100%
sCV
x
CV
L’écart-type estime la dispersion ‘moyenne’ autour de la moyenne.
48
3. Quelques caractéristiques de formes et de concentration
Peut on deviner l’allure d’une distribution ?
3.1. La forme d’une distribution
3.1.1. La symétrie Deux moyens existent pour repérer la symétrie (ou asymétrie) d’une distribution :
3.1.1.1. Comparaison de tendances centrales traditionnelles• Si Mo = Me = Moyenne alors la distribution est symétrique• Si Mo > Me alors la distribution est étalée vers la gauche• Si Mo < Me alors la distribution est étalée vers la droite
Symétrie parfaite Etalement à gauche Etalement à droite
49
3.1.1.2. Calcul des coefficients d’asymétrie• Le coefficient de Yule
basé sur les écarts de quartiles :
3 1
3 1
) ( ) (Q Me Me Qs
Q Q
Si s = 0, alors il y a symétrie;
Si s > 0 la médiane est plus à Q1, alors la courbe des fréquences est étalée à droite;
Si s < 0 la courbe est étalée à gauche
50
• Le coefficient de Pearsonbasée sur les écarts entre Moyennes et Modes :
x Mop
Si p = 0 la série est symétrique
Si p>0 la série est étalée à droite
Si p<0 la série est étalée à gauche
série unimodale
3 -x Médp
x
série plurimodale ou n’ayant aucun mode
Si 0 < p < 1 l’asymétrique est moyenne
Si p > 1 la courbe est fortement asymétrique
51
3.1.2. Mesure de l’aplatissement 3.1.2.1. Formes graphiques
Aplatie Normale Concentrée
platikurtique leptokurtique
3.1.2.2. Coefficients d’aplatissement
On utilise les statistiques de moments centrés d’ordre ‘r’
mésokurtique
1
1Echantillon : .
Population : on les note
rp
r i ii
r
m n x xn
52
• Coefficient de Pearson
2
2
4 42 2 4
4 42 2 4
m m
m s
• Coefficient de Fischer
2 2 = 3 Si β2 = 3 ou γ2 = 0 alors la distribution est mésokurtique
Si β2 > 3 ou γ 2 > 0 alors la distribution est leptokurtique
Si β2 < 3 ou γ 2 < 0 alors la distribution est platikurtique
Population
Echantillon
53
• Coefficient de Kurtosis
3 2
9 1
0.5 Q QK
D D
Si K > 0.25 alors la distribution est leptokurtique
Si 0.25 < K < 0.25 alors la distribution est mésokurtique
Si 0 < K < 0.15 alors la distribution est platikurtique
54
3.2. La Concentration d’une distribution Elle mesure sa répartition ‘observée’ par rapport à une ‘norme’ de répartition (la répartition à laquelle on s’attend). Donc il s’agit de comparer deux séries de fréquences cumulées. Elle est souvent utilisée dans l’analyse des parts distributives des salaires, des fortunes, des parts de marché des entreprises, etc…
Exemple :si on observe une distribution des ménages ainsi qu’une distribution de leurs revenus, on serait tenté de comparer les deux distributions pour voir si elles évoluent, par quantile, de la même manière : Si 30% des ménages détiendraient 30% du total des revenues alors les revenus sont équitablement réparties, etc ….Par contre, si 30% des ménages détiennent 80% des revenus alors les revenus sont très inéquitablement réparties (inégalités).
55
Classes Centres xi ni Fi % masses nixi F’i %
[3500 ; 3700[
[3700 ; 4100[
[4100 ; 4300[
[4300 ; 4700[
[4700 ; 5300[
3600
3900
4200
4500
5000
21
49
100
24
6
10.5
35
85
97
100
75600
191100
420000
108000
30000
9.17
32.34
83.27
96.36
100
200 824700
Les indicateurs de concentration
• largement utilisés dans la pratique;
• s’appliquent à des données cumulatives.
la médiale Mle :
elle partage en deux la masse totale (∑nixi) du caractère étudié.Exemple
56
824700 : total du salaire versé dans l’entreprise
9.17 % représente la part du salaire versé à des salariés touchant une rémunération comprise entre 3500 et 3700
32.34 % du salaire total est versé à des salariés dont la rémunération est < 4100
Calcul de la Mle
Il est similaire à celle de la médiane
50 % du salaire total est versé à des individus dont le salaire est < à 4169.35
10.50 - '.
50 -32.344100 . 200
50.93
4169.35
MelMle Mle
Mle
FMle L a
f
57
Classes Centres Effectifs Fi % Masses F'i %
[0 ; 20[ 10 4 1,43 40 0,20
[20 ; 40[ 30 36 14,29 1080 5,71
[40 ; 60[ 50 64 37,14 3200 22,04
[60 ; 80[ 70 80 65,71 5600 50,61
[80 ; 100[ 90 58 86,43 5220 77,24
[100 ; 120[ 110 24 95,00 2640 90,71
[120 ; 140[ 130 14 100 1820 100
280 19600
Courbe de concentration (Lorentz)
Elle permet de comparer à une répartition strictement égalitaire, la répartition d’une série statistique donnée.
58
Courbe de Lorentz
0%10%20%
30%40%50%60%70%
80%90%
100%
0% 20% 40% 60% 80% 100%
Fi
F'iLigne d’équirépartitio
n
59
Interprétation de la représentation
• Représentation strictement égalitaire :
……
25% des individus détiennent 25% de la masse totale50% des individus détiennent 50% de la masse totaleetc
• + la courbe de concentration s’éloigne de cette bissectrice, plus la série des valeurs étudié est inégalitaire et montre une concentration de plus en plus importante.
Remarque : l’exemple montre une faible concentration.
60
Indice de concentration (coefficient de Gini)
Aire AIG
Aire OXZ
X
Z
A
BO
Remarques :
• 0 ≤ IG ≤ 1
• la concentration est forte lorsque IG → 1
61
Calcul Pratique :
L’aire sous la courbe est décomposé en triangle et trapèzes.
Dans notre exemple on a 1 triangle et 6 trapèzes.
1.43 0.210.15015
20.21 5.71
1 )14.29 1.43( 38.06562
5.71 22.042 )37.14 14.29( 317.04375
222.04 50.61
3 )65.72 37.14( 1038.16852
50.61 22.64
er
e
e
e
Aire triangle
Aire trapèze
Aire trapèze
Aire trapèze
Aire trapèze
1 77.24)86.43 65.72( 1323.88675
2
5 719.66575
6 476.775
e
e
Aire trapèze
Aire trapèze
62
Donc
5000 3913.7555 1086.2445
A B2
Aire du carréAire Aire
Et par suite
1086.24450.22
5000IG
63
Fi % F’i% )Fi-Fi-1(% )F'i+F'i-1(% )Fi-Fi-1()F'i+F'i-1( ‰
1,43 0,20
14,29 5,71 12,86 5,92 76,09
37,14 22,04 22,86 27,76 634,40
65,71 50,61 28,57 72,65 2075,80
86,43 77,24 20,71 127,86 2648,47
95,00 90,71 8,57 167,96 1439,65
100,00 100,00 5,00 190,71 953,57
7827,99
Hauteurs trapèzes Bases trapèzes
5000
0.225000
Aire
AireIG
7827,99A = 1086.01
2A
=
64
B. Distribution statistique à deux Caractères :
Ajustement et Corrélation
65
I. DéfinitionsSoit X et Y deux variables statistiques quantitatives, discrètes ou continues. .xi, i = 1, 2, …, I : I modalités )observations(yj, j = 1, 2, …, J : J observations
Y X
y1 y2 … yp … yJni.
x1 n11 n12 n1.
x2 n21 n2.
… …
xq nq.
… …
xI nI.
n.j n.1 n.2 n.p n.J n..
Tableau des effectifs
1. Tableaux à deux caractères
66
J I J I
. . ..1 1 1 1
, et i ij j ij ijj i j i
n n n n n n
nij : l’effectif d’individus qui vérifient la ième modalité de X et la jème modalité de Y.
ni.: le nombre d’individus pour lesquels X = xi
{)xi, ni.(/ 1≤ i ≤ I} est la distribution marginale de la variable X.
{)yj, n.j(/ 1≤ j ≤ J} est la distribution marginale de la variable Y.
L’effectif marginale ni. de la modalité xi , l’effectif marginale n.j de la modalité yj et l’effectif total sont donnés respectivement par
67
Y X
y1 y2 … yp … yJ fi.
x1 f11 f12 f1.
x2 f21 f2.
… …
xq fq.
… …
xI fI.
f.j f.1 f.2 f.p f.J f..=1
Tableau des fréquences
Fréquences marginales
Fréquences m
arginales
..
i ji j
nf
n
68
Les effectifs par )sous(-population
Chaque caractéristique correspond à une )sous(-population
Y X
y1
y2 … y
p … yJ
ni.
x1
n12
n1.
x2
n21
n2.
… …
xq
nq.
… …
xI
nI.
n.j
n.1
n.2
n.p
n.J
n..
S-P
S-P
69
2. Fréquences conditionnelles :
: fréquence conditionnelle de la valeur yj sachant xi.
: fréquence conditionnelle de la valeur xi sachant yj.
Relation entre les fréquencesSomme des fréquences égal à l’unité :
Fréquences marginales :
11
i
.i..i ..
.i
i.i n
nn
nf 1
1 j
j...j ..
j.
jj. n
nn
nf
Fréquences conditionnelles :
11
iij
j.i j.
ij
ij/i n
nn
nf 1
1 j
ij.ij .i
ij
ji/j n
nn
nf
Fréquences partielles
111 ..
..jj.
..i j ..
ij
j iij n
nn
nn
nf
/ Y.
j
iji y
j
nf
n
/ X.
i
ijj x
i
nf
n
70
Le produit de la fréquence marginale par la fréquence conditionnelle est égal à la fréquence partielle
. /i j i ijf f f
3. Critères d'indépendance :Pour que X et Y seront indépendantes, il faut et il suffit que l'on ait :
. .. .
..
, ou bien , )i, j( [1, I] × [1, J].i jij ij i j
n nn f f f
n
71
II. Tendances centrales et dispersions dans les séries à deux variables
– chaque variable peut varier indépendamment de l’autre.
– chaque variable d’une série x peut aussi dépendre d’une modalité de l’autre série y.
72
1. L’expression de la moyenne et de la variance dans des tableaux à deux caractères
Moyennes (globales) :
Variances (globales) :
...
1X . i i
i
n xn
...
1Y . j j
j
n yn
2
...
1)X( . Xi i
i
V n xn
2
...
1)Y( . Yj j
j
V n yn
73
Les caractéristiques conditionnelles sont les moyenne et variance de x selon chaque modalité de y (il s’agit de moyenne et de variance locales de x)
Moyennes conditionnelles (locales) :
.
.
1X j ij i
ij
n xn
.
.
1Yi ij j
ji
n yn
Variances conditionnelles (locales) :
2
...
1)X ( X jj ij i
ij
V n xn
2..
.
1)Y ( ) Y (ii ij j
ji
V n yn
74
2. Relation entre les moyennesLa moyenne marginale est la moyenne pondérée des moyennes conditionnelles.
....
1X X jj
j
nn
....
1Y Yii
i
nn
3. Relation entre les variancesLa variance marginale est la somme de la moyenne pondérée des variances conditionnelles et de la variance pondérée des moyennes conditionnelles.Décomposition de la Variance globale :
2
.. . ... ..
1 1)X( . X . X Xjj j j
j j
V n V nn n
2
.. . ... ..
1 1)Y( . Y . Y Yii i i
i i
V n V nn n
75
4. La covarianceLa covariance est une mesure de la variance liée de deux variables.
.. ..
) X() Y(
Cov)X,Y( XYij i i ij i i
i j i j
n x y n x y
n n
Propriétés.
4Cov) , ( Cov) , ( , ) , , , ( IR
Cov) , ( Var) (
aX b cY d ab X Y a b c d
X X X
Remarque. Si X et Y sont indépendantes, leur covariance est nulle. La réciproque est fausse.
76
III. Relations entre variables : régressions et corrélations
Les courbes de régressions sont un moyen graphique de synthétiser la liaison existante entre deux variables )ou le nuage de points formé par ces deux variables(.
S'il existe une relation fonctionnelle entre les variables X et Y de X vers Y et si f est un modèle de cette relation ) Y = f ) X ( ( on dit que X est la variable explicative et Y la variable expliquée.
77
1. La méthode des moindres carrés (ou encore la régression linéaire)
La méthode des moindres carrés résume un nuage de points par deux droites possibles qui lient Y à X, tel que la distance entre le nuage de points et chaque droite est minimale.
Y évolue en fonction d’une variable X
X évolue en fonction d’une variable Y
'. 'xy
D x a x b
.yx
D y a x b
78
2
/ˆˆˆ ˆObjectif: choix de tel que: est un mimimum i i y x i i
i
y ax b D y y
2
/ˆˆˆ ˆ' 'Objectif: choix de tel que: est un mimimum i i x y i i
i
x a y b D x x
1.1 .Calcul des coefficients
)X,Y( ˆˆ ˆ et Y X)Y(
Cova b a
Var
. X.Y)X,Y(
i ix yCov
n
avec
De même
)X,Y( ˆˆ ˆ' et ' X 'Y)Y(
Cova b a
Var
79
1.2. Coefficient de corrélation et pentes
1/ 2
X Y
)X,Y(. ' [ 1,1]
.
Covr a a
Le taux de corrélation r détermine l’intensité de la corrélation )co-dépendance( entre la variable X et la variable Y.
1.3. Le coefficient de détermination Rest le carré du coefficient de corrélation r. Il mesure le part de la variabilité totale de Y expliquée par X )ou encore par la droite de régression( :
Si r2 tend vers 1, alors l’évolution de X décrit bien celle de Y.Si r2 tend vers 0, alors l’évolution de X semble être indépendante de celle de Y.
80
Remarque.
Si 0,5 < r2 < 1 on peut dire que l'ajustement du modèle y = f(x) est satisfaisant )plus r2 est proche de 1, meilleur est l'ajustement(.
Si r2 < 0,5 l'ajustement n'est pas parfait. Le modèle ne s'ajuste pas au nuage de points.