Statistique descriptive

1

DISTRIBUTION STATISTIQUE À UNE VARIABLE Et À DEUX VARIABLES : Corrélation

et Ajustement

2

A. DISTRIBUTION STATISTIQUE À UNE VARIABLE

3

I. TABLEAUX STATISTIQUE ET GRAPHIQUES

X Effectifs

x1

.

.

.

.

.

.

.

n1

.

.

.

.

.

.

.

Total n

X Total

Effectifs

V.D.

4

Classes Effectifs

[…; …[

.

.

.

.

n1

Total

Classes Total

Effectifs n

V.C.

Qualitative

5

Exemple : taille de vêtement :

XS < S < M < L < XL < XXL

Il faudra, notamment pour les représentations graphiques, présenter toujours les modalités dans l'ordre.

Répartition d'une population en fonction de sa taille vestimentaire

6

Représentations graphiques

1. Caractères qualitatifs1.1. Diagramme en barres (ou en tuyaux d'orgue) :

7

1.2 .Diagramme en bâtons:

8

1.3. Diagramme circulaire

9

Graphique figuratif :

Caractère Figure possible

Population humaineDépenses, recettes

Consommations d'un produitsImportance d'une productionetc

Etres humainsPièces de monnaie ou billets de banqueDessins du produit concernéDessins du produit concernéetc

10

Pouvoir d'achat du dollar canadien, 1980 à 2000

11

Consommation d’un produit P par sexe et par tranche d’âges

fi

12

2 .Caractères quantitatifs2.1 .C. Discrets

Diagramme en bâtons:

13

2.2. Caractères Continus

14

fi

15

Pb. les amplitudes varient d'une classe à une autre !

Tailles (en cm) amplitudes Nombre d'élèves

[161;165[[165;177[[177;185[

4128

3139

Total 25

Soit u = PGCD(4; 12; 8) = 4

11

1

33

1

Sh

b 2

22

13 14

3 3

Sh

b 3

33

94,5

2

Sh

b

16

2.3. Courbe cumulative croissante et décroissante (fct de répartition) :

VD

17

18

VC

19

20

2.4 .Autres représentations graphiques

2.4.1. Pyramides

La pyramide est un double histogramme horizontal. L'exemple le plus connu est la pyramide des âges.

21

Exemple : Population active dans une société X à une date donnée

22

2.4.2 .Graphiques à coordonnées polaires:

Mois Année 2005

Janvier 60

Février 80

Mars 100

Avril 150

Mai 200

Juin 180

Juillet 40

Août 20

Septembre 80

Octobre 100

Novembre 110

Décembre 130

23

0

50

100

150

200Janvier

Fevrier

Mars

Avril

Mai

Juin

Juillet

Août

Septembre

Octobre

Novembre

Décembre

24

Les graphiques polaires peuvent être subdivisés en :

• Quatre parts pour les trimestres ;

• Douze parts pour les mois ;

• Vingt-quatre parts pour les heures de la journée;

• Cinquante-deux parts pour les semaines de l’année;

• Etc

25

II. Paramètres de position et de dispersion

La représentations des séries dans des tableaux et des graphiques permettent une vue d’ensemble mais ne peuvent résumer des tendances moyennes ou encore des dispersions dans les séries.

La façon la plus commode de résumer une série se fait à partir de :

• la tendance centrale • et la dispersion de la série

26

1.1. Mode Le mode d'un échantillon est la valeur qui se répète le plus souvent, autrement dit celle qui apparaît avec la fréquence la plus élevée. C'est pour cela qu'elle est parfois aussi appelée dominante.

Exemple1. Série discontinue( discrète: )

Le nombre de frères et sœurs des élèves d'une classe est indiqué dans le tableau suivant

Nbre de frères et sœurs 0 1 2 3 4 5 et plus

Nbre d'élèves 5 25 4 3 2 1

Le mode dans cette série est la valeur 1.

1 .Paramètres de position

27

Exemple2. Détermination du mode dans les séries statistiques continues :

Série comportant des classes d'amplitude égale

Les salariés d'une entreprise ont été classés selon leur rémunération mensuelle dans le tableau suivant :

Rémunérations mensuelles

[5000;6000[

[6000;7000[

[7000;8000[

[8000;9000[

[9000;10000[

[10000;11000[

Nombre de salariés 20 50 60 40 20 10

Le mode se trouve dans la classe [7000; 8000[. Pour connaître la valeur modale exacte, on prend la VALEUR CENTRALE DE LA CLASSE, soit ici 7500.

[7000 ; 8000[ est la classe modale.

Série comportant des classes d'amplitude inégale :

Dans ce cas c’est le centre de la classe correspondant à la densité relative )di( la plus importante, avec

ii

i

nd

a

28

1.2. Médiane

La médiane est la valeur centrale, autrement dit celle qui partage la série en deux sous-séries d’effectifs égaux.

Cas de variables discrètes :

Tout d’abord, les valeurs de la variable doivent être rangées par ordre croissant.Ensuite

si le nombre d’observation est impaire [)2n+1(-observations], alors

Me = )n+1(ième observation

Exemple: soit l’ensemble des notes sur 20 obtenues par 9 étudiants :E= {13 ; 14 ; 14 ; 15 ; 16 ; 18 ; 18 ; 19 ; 20} Me = 16

si le nombre d’observation est paire )2n-observations(, alors obs. ) 1( obs.

2

ième ièmen nMe

29

Cas de variables continues :Soit les 50 notes attribuées par un jury à un examen,

La médiane se trouve

[8 ;12[ (classe médiane)

On le détermine par interpolation linéaire :

Notes ni ni↑

[0 ; 5[ 10 10

[5 ; 8[ 8 18

[8 ; 12[ 12 30

[12 ; 15[ 11 41

[15 ; 20[ 9 50

50

30

avecLMe: la limite inférieure de la classe contenant la médiane,

FMe-1: la fréquence relative cumulée jusqu’à la classe médiane )excluant la fréquence de cette classe(,

fMe: la fréquence relative de la classe médiane,

aMe : l’amplitude de la classe médiane,

10,5 - MeMe Me

Me

FMe L

f

. a

31

8 25 18

12 8 30 188 7

4 12

28 8 10.33

12

Me

Me

Me

Exemple:

32

Graphiquement, la valeur médiane est celle qui correspond au croisement des courbes des fréquences cumulées croissantes et décroissante.

Classes en cm ni fi Fi↑ Fi↓

Min Max

155 0 % 0 % 0

155 à 160 155 160 1 % 4 % 4 % 100

160 à 165 160 165 6 % 24 % 28 % 96

165 à 170 165 170 6 % 24 % 52 % 72

170 à 175 170 175 5 % 20 % 72 % 48

175 à 180 175 180 2 % 8 % 80 % 28

180 à 185 180 185 2 % 8 % 88 % 20

185 à 190 185 190 3 % 12 % 100 % 12

190 % 0

25 % 100

33

les deux courbes se

croisent juste avant 170

Me

34

1.3. Moyenne arithmétique :

C’est le point le plus proche à tous les points de la série statistique.

Soient n1, n2, n3, .........,np les effectifs correspondants aux modalités x1,

x2, x3, .........,xp., si la série est discrète ,

ou les centres de chaque classe, si la série est continue.1 1 2 2

1 1 1 2

...1 1

...

pnp p

i i ii p

n x n x n xx x n x

n n n n n

Si on travaille sur toute la population on la note 1

N

ii

x

N

35

Série discrète

Série continue

Exemples :

36

Propriétés de la moyenne:

iSi y alors yiax b ax b

.

La moyenne de la série S regroupant les deux séries S1 et S2 est :

1 21 2

1 2

S SS S

S S

n x n xx

n n

cette propriété se généralise par

1 21 2

1 2

...

...S S Skk

k

S S S

S S S

n x n x n xx

n n n

37

1.4. Moyenne géométrique :

Utilisée dans

• les calculs de certains indices statistiques ;

• calcul de corrélation linéaire;

• la recherche de taux moyens de variation )croissance d’une grandeur économique(

1 2

1 2 1 2p

n n nnnn pMG x x x x x x

Exemple : la production d’un article A a été la suivante au cours du 1er trimestre : 1er mois 200000 unités, 2e mois 250000 unités et au 3e mois 360000 unités. Quel est le

taux moyen mensuel de croissance ?

Soit Pi le nombre d’unités à la fin du ie mois et ti le taux d’augmentation entre le mois i et i+1. Donc on a

23 2 2 1 2 1 1

21 2 1 2

1 2

)1 ( )1 ()1 ( )1 (

)1 ( )1 ()1 ( 1 )1 ()1 (

)1 ()1 ( 1 34.164%

m

m m

m

P t P t t P t P

t t t t t t

t t t

38

1.5 .Moyenne harmonique:

Utilisée dans des cas particuliers : problème de vitesse, de changes monétaires, certains indices )indices de Paasche( et problème de prix.

1

11 1n

i i

MH

n x

Exemple1 : dans une entreprise de fabrication 3 ouvriers produisent des pièces. L’ouvrier A met 10 min par pièce, B 15 min par pièce et C 20 min par pièce.

Amenons la production à 60 minutes

A produit 6 piècesB produit 4 pièces

C produit 3 pièces--------------------------

13 pièces

Le temps de production d’une pièce:

10min 6 15min 4 20min 313.85min/

13pièce

39

Avec la formule de MH: 3

13.85min/1 1 1

10 15 20

MH pièce

Exemple2 : une voiture roule pendant une heure à la vitesse de 80 km/h et ensuite parcours un tronçon de 60 km à la vitesse de 120 km/h. Quelle est la vitesse moyenne?

On sait que distance = vitesse x temps

dT= d1 + d2 = 80 + 60 = 140 et tT= 1.5 h

donc vm = 140/1.5 = 93.33 km/h.

Ou bien 80 6093.33 /

80 6080 120

MH km h

40

Exemple3 : une société marocaine doit régler une dette auprès d’un fournisseur américain. Elle dispose actuellement de 32000 $ qu’elle a acquis au cours de 9.25 DH/$. La dette s’élève à 78125$ ce qui nécessite d’acquérir 46125 $ pour complément dont la contrepartie globale est 440000 DH. A quel cours moyen les opérations de change ont-elles été réalisées ?

1er change : 32000 X 9.25 = 296000 DH

2e change : 46125 X i = 440000 DH

78125 X im = 736000 DH

donc im = 736000 / 78125 ≈ 9.42 )cours moyen(

9.42 est la moyenne harmonique de 9.25 et 9.54 :296000 +440000 296000 440000

9.25 9.54

MH

i ≈ 9.54

41

1.5 .Moyenne quadratique:

2 2 2

1 1 1

1 1 p pn

i i i i ii i i

Q x n x f xn n

MH MG x Q

Remarque

42

2. Paramètres de dispersionBut: comparer des séries entre elles en étudiant les variations ou dispersions des données par rapport à la tendance centrale.

2.1. L’étendue de la série )range ou intervalle de variation(La différence entre les deux valeurs extrêmes d’une série statistique. soit

max minE x x

2.2 .Les quartiles

Les quartiles découpent la série des observations classées en ordre croissant en 4 tranche de même effectif. On les note Q1, Q2, Q3 et Q4.

43

Exemple : répartition des salaires dans une entrepriseClasses xi

c ni fi% ni↑ Fi%

[3500,3700[

[3700,4100[

[4100,4300[

[4300,4700[

[4700,5300[

3600

3900

4200

4500

5000

21

49

100

24

6

10.5

24.5

50

12

3

21

70

170

194

200

10.5

35

85

97

100

200 100Calcul de Q1

11

3700 Q 4100 50 21Q 3700 )4100 3700( 3936.73

21 50 70 70 21

Calcul de Q2 = Me

22

4100 Q 4300 100 70Q 4100 )4300 4100( 4160

70 100 170 170 70

44

Calcul de Q 3

33

4100 Q 4300 75 35Q 4100 )4300 4100( 4260

35 75 85 85 35

Calcul de Q4

Valeur telle que 100% des observations lui sont inférieures. Donc il correspond à la modalité maximale soit Q4 = 5300

Etendue interquartile

EIQ = Q3 – Q1

il contient 50% des observations

On peut effectuer une même analyse par déciles. On les note D1, D2, …, D10

45

Quelques types de boites de dispersion

A : distribution symétrique

B : distribution symétrique peu dispersée

C : distribution étalée vers les valeurs élevées

D : distribution étalée vers les valeurs faibles

46

2.3. Ecart absolu moyen est la moyenne arithmétique des écarts par rapport à la tendance centrale, exprimés en valeur absolue.

1 1 1

1 1 p pn

i i i i ixi i i

E x x n x x f x xn n

2.4 .Variance et écart-typeSont les principaux indicateurs de dispersion utilisés.

2222 2

1 1 1

2

Echantillon :

1 1 1

Population : on la note ou

pn n

i i i ii i i

s x x x n x x x xn n n

V x x

47

V

2.5 .Coefficient de variationLe coefficient de variation est une mesure de la dispersion relative )écart type par rapport à la moyenne( d’une série. Il est donné par

Echantillon : 100%

Population : 100%

sCV

x

CV

L’écart-type estime la dispersion ‘moyenne’ autour de la moyenne.

48

3. Quelques caractéristiques de formes et de concentration

Peut on deviner l’allure d’une distribution ?

3.1. La forme d’une distribution

3.1.1. La symétrie Deux moyens existent pour repérer la symétrie (ou asymétrie) d’une distribution :

3.1.1.1. Comparaison de tendances centrales traditionnelles• Si Mo = Me = Moyenne alors la distribution est symétrique• Si Mo > Me alors la distribution est étalée vers la gauche• Si Mo < Me alors la distribution est étalée vers la droite

Symétrie parfaite Etalement à gauche Etalement à droite

49

3.1.1.2. Calcul des coefficients d’asymétrie• Le coefficient de Yule

basé sur les écarts de quartiles :

3 1

3 1

) ( ) (Q Me Me Qs

Q Q

Si s = 0, alors il y a symétrie;

Si s > 0 la médiane est plus à Q1, alors la courbe des fréquences est étalée à droite;

Si s < 0 la courbe est étalée à gauche

50

• Le coefficient de Pearsonbasée sur les écarts entre Moyennes et Modes :

x Mop

Si p = 0 la série est symétrique

Si p>0 la série est étalée à droite

Si p<0 la série est étalée à gauche

série unimodale

3 -x Médp

x

série plurimodale ou n’ayant aucun mode

Si 0 < p < 1 l’asymétrique est moyenne

Si p > 1 la courbe est fortement asymétrique

51

3.1.2. Mesure de l’aplatissement 3.1.2.1. Formes graphiques

Aplatie Normale Concentrée

platikurtique leptokurtique

3.1.2.2. Coefficients d’aplatissement

On utilise les statistiques de moments centrés d’ordre ‘r’

mésokurtique

1

1Echantillon : .

Population : on les note

rp

r i ii

r

m n x xn

52

• Coefficient de Pearson

2

2

4 42 2 4

4 42 2 4

m m

m s

• Coefficient de Fischer

2 2 = 3 Si β2 = 3 ou γ2 = 0 alors la distribution est mésokurtique

Si β2 > 3 ou γ 2 > 0 alors la distribution est leptokurtique

Si β2 < 3 ou γ 2 < 0 alors la distribution est platikurtique

Population

Echantillon

53

• Coefficient de Kurtosis

3 2

9 1

0.5 Q QK

D D

Si K > 0.25 alors la distribution est leptokurtique

Si 0.25 < K < 0.25 alors la distribution est mésokurtique

Si 0 < K < 0.15 alors la distribution est platikurtique

54

3.2. La Concentration d’une distribution Elle mesure sa répartition ‘observée’ par rapport à une ‘norme’ de répartition (la répartition à laquelle on s’attend). Donc il s’agit de comparer deux séries de fréquences cumulées. Elle est souvent utilisée dans l’analyse des parts distributives des salaires, des fortunes, des parts de marché des entreprises, etc…

Exemple :si on observe une distribution des ménages ainsi qu’une distribution de leurs revenus, on serait tenté de comparer les deux distributions pour voir si elles évoluent, par quantile, de la même manière : Si 30% des ménages détiendraient 30% du total des revenues alors les revenus sont équitablement réparties, etc ….Par contre, si 30% des ménages détiennent 80% des revenus alors les revenus sont très inéquitablement réparties (inégalités).

55

Classes Centres xi ni Fi % masses nixi F’i %

[3500 ; 3700[

[3700 ; 4100[

[4100 ; 4300[

[4300 ; 4700[

[4700 ; 5300[

3600

3900

4200

4500

5000

21

49

100

24

6

10.5

35

85

97

100

75600

191100

420000

108000

30000

9.17

32.34

83.27

96.36

100

200 824700

Les indicateurs de concentration

• largement utilisés dans la pratique;

• s’appliquent à des données cumulatives.

la médiale Mle :

elle partage en deux la masse totale (∑nixi) du caractère étudié.Exemple

56

824700 : total du salaire versé dans l’entreprise

9.17 % représente la part du salaire versé à des salariés touchant une rémunération comprise entre 3500 et 3700

32.34 % du salaire total est versé à des salariés dont la rémunération est < 4100

Calcul de la Mle

Il est similaire à celle de la médiane

50 % du salaire total est versé à des individus dont le salaire est < à 4169.35

10.50 - '.

50 -32.344100 . 200

50.93

4169.35

MelMle Mle

Mle

FMle L a

f

57

Classes Centres Effectifs Fi % Masses F'i %

[0 ; 20[ 10 4 1,43 40 0,20

[20 ; 40[ 30 36 14,29 1080 5,71

[40 ; 60[ 50 64 37,14 3200 22,04

[60 ; 80[ 70 80 65,71 5600 50,61

[80 ; 100[ 90 58 86,43 5220 77,24

[100 ; 120[ 110 24 95,00 2640 90,71

[120 ; 140[ 130 14 100 1820 100

280 19600

Courbe de concentration (Lorentz)

Elle permet de comparer à une répartition strictement égalitaire, la répartition d’une série statistique donnée.

58

Courbe de Lorentz

0%10%20%

30%40%50%60%70%

80%90%

100%

0% 20% 40% 60% 80% 100%

Fi

F'iLigne d’équirépartitio

n

59

Interprétation de la représentation

• Représentation strictement égalitaire :

……

25% des individus détiennent 25% de la masse totale50% des individus détiennent 50% de la masse totaleetc

• + la courbe de concentration s’éloigne de cette bissectrice, plus la série des valeurs étudié est inégalitaire et montre une concentration de plus en plus importante.

Remarque : l’exemple montre une faible concentration.

60

Indice de concentration (coefficient de Gini)

Aire AIG

Aire OXZ

X

Z

A

BO

Remarques :

• 0 ≤ IG ≤ 1

• la concentration est forte lorsque IG → 1

61

Calcul Pratique :

L’aire sous la courbe est décomposé en triangle et trapèzes.

Dans notre exemple on a 1 triangle et 6 trapèzes.

1.43 0.210.15015

20.21 5.71

1 )14.29 1.43( 38.06562

5.71 22.042 )37.14 14.29( 317.04375

222.04 50.61

3 )65.72 37.14( 1038.16852

50.61 22.64

er

e

e

e

Aire triangle

Aire trapèze

Aire trapèze

Aire trapèze

Aire trapèze

1 77.24)86.43 65.72( 1323.88675

2

5 719.66575

6 476.775

e

e

Aire trapèze

Aire trapèze

62

Donc

5000 3913.7555 1086.2445

A B2

Aire du carréAire Aire

Et par suite

1086.24450.22

5000IG

63

Fi % F’i% )Fi-Fi-1(% )F'i+F'i-1(% )Fi-Fi-1()F'i+F'i-1( ‰

1,43 0,20

14,29 5,71 12,86 5,92 76,09

37,14 22,04 22,86 27,76 634,40

65,71 50,61 28,57 72,65 2075,80

86,43 77,24 20,71 127,86 2648,47

95,00 90,71 8,57 167,96 1439,65

100,00 100,00 5,00 190,71 953,57

7827,99

Hauteurs trapèzes Bases trapèzes

5000

0.225000

Aire

AireIG

7827,99A = 1086.01

2A

=

64

B. Distribution statistique à deux Caractères :

Ajustement et Corrélation

65

I. DéfinitionsSoit X et Y deux variables statistiques quantitatives, discrètes ou continues. .xi, i = 1, 2, …, I : I modalités )observations(yj, j = 1, 2, …, J : J observations

Y X

y1 y2 … yp … yJni.

x1 n11 n12 n1.

x2 n21 n2.

… …

xq nq.

… …

xI nI.

n.j n.1 n.2 n.p n.J n..

Tableau des effectifs

1. Tableaux à deux caractères

66

J I J I

. . ..1 1 1 1

, et i ij j ij ijj i j i

n n n n n n

nij : l’effectif d’individus qui vérifient la ième modalité de X et la jème modalité de Y.

ni.: le nombre d’individus pour lesquels X = xi

{)xi, ni.(/ 1≤ i ≤ I} est la distribution marginale de la variable X.

{)yj, n.j(/ 1≤ j ≤ J} est la distribution marginale de la variable Y.

L’effectif marginale ni. de la modalité xi , l’effectif marginale n.j de la modalité yj et l’effectif total sont donnés respectivement par

67

Y X

y1 y2 … yp … yJ fi.

x1 f11 f12 f1.

x2 f21 f2.

… …

xq fq.

… …

xI fI.

f.j f.1 f.2 f.p f.J f..=1

Tableau des fréquences

Fréquences marginales

Fréquences m

arginales

..

i ji j

nf

n

68

Les effectifs par )sous(-population

Chaque caractéristique correspond à une )sous(-population

Y X

y1

y2 … y

p … yJ

ni.

x1

n12

n1.

x2

n21

n2.

… …

xq

nq.

… …

xI

nI.

n.j

n.1

n.2

n.p

n.J

n..

S-P

S-P

69

2. Fréquences conditionnelles :

: fréquence conditionnelle de la valeur yj sachant xi.

: fréquence conditionnelle de la valeur xi sachant yj.

Relation entre les fréquencesSomme des fréquences égal à l’unité :

Fréquences marginales :

11

i

.i..i ..

.i

i.i n

nn

nf 1

1 j

j...j ..

j.

jj. n

nn

nf

Fréquences conditionnelles :

11

iij

j.i j.

ij

ij/i n

nn

nf 1

1 j

ij.ij .i

ij

ji/j n

nn

nf

Fréquences partielles

111 ..

..jj.

..i j ..

ij

j iij n

nn

nn

nf

/ Y.

j

iji y

j

nf

n

/ X.

i

ijj x

i

nf

n

70

Le produit de la fréquence marginale par la fréquence conditionnelle est égal à la fréquence partielle

. /i j i ijf f f

3. Critères d'indépendance :Pour que X et Y seront indépendantes, il faut et il suffit que l'on ait :

. .. .

..

, ou bien , )i, j( [1, I] × [1, J].i jij ij i j

n nn f f f

n

71

II. Tendances centrales et dispersions dans les séries à deux variables

– chaque variable peut varier indépendamment de l’autre.

– chaque variable d’une série x peut aussi dépendre d’une modalité de l’autre série y.

72

1. L’expression de la moyenne et de la variance dans des tableaux à deux caractères

Moyennes (globales) :

Variances (globales) :

...

1X . i i

i

n xn

...

1Y . j j

j

n yn

2

...

1)X( . Xi i

i

V n xn

2

...

1)Y( . Yj j

j

V n yn

73

Les caractéristiques conditionnelles sont les moyenne et variance de x selon chaque modalité de y (il s’agit de moyenne et de variance locales de x)

Moyennes conditionnelles (locales) :

.

.

1X j ij i

ij

n xn

.

.

1Yi ij j

ji

n yn

Variances conditionnelles (locales) :

2

...

1)X ( X jj ij i

ij

V n xn

2..

.

1)Y ( ) Y (ii ij j

ji

V n yn

74

2. Relation entre les moyennesLa moyenne marginale est la moyenne pondérée des moyennes conditionnelles.

....

1X X jj

j

nn

....

1Y Yii

i

nn

3. Relation entre les variancesLa variance marginale est la somme de la moyenne pondérée des variances conditionnelles et de la variance pondérée des moyennes conditionnelles.Décomposition de la Variance globale :

2

.. . ... ..

1 1)X( . X . X Xjj j j

j j

V n V nn n

2

.. . ... ..

1 1)Y( . Y . Y Yii i i

i i

V n V nn n

75

4. La covarianceLa covariance est une mesure de la variance liée de deux variables.

.. ..

) X() Y(

Cov)X,Y( XYij i i ij i i

i j i j

n x y n x y

n n

Propriétés.

4Cov) , ( Cov) , ( , ) , , , ( IR

Cov) , ( Var) (

aX b cY d ab X Y a b c d

X X X

Remarque. Si X et Y sont indépendantes, leur covariance est nulle. La réciproque est fausse.

76

III. Relations entre variables : régressions et corrélations

Les courbes de régressions sont un moyen graphique de synthétiser la liaison existante entre deux variables )ou le nuage de points formé par ces deux variables(.

S'il existe une relation fonctionnelle entre les variables X et Y de X vers Y et si f est un modèle de cette relation ) Y = f ) X ( ( on dit que X est la variable explicative et Y la variable expliquée.

77

1. La méthode des moindres carrés (ou encore la régression linéaire)

La méthode des moindres carrés résume un nuage de points par deux droites possibles qui lient Y à X, tel que la distance entre le nuage de points et chaque droite est minimale.

Y évolue en fonction d’une variable X

X évolue en fonction d’une variable Y

'. 'xy

D x a x b

.yx

D y a x b

78

2

/ˆˆˆ ˆObjectif: choix de tel que: est un mimimum i i y x i i

i

y ax b D y y

2

/ˆˆˆ ˆ' 'Objectif: choix de tel que: est un mimimum i i x y i i

i

x a y b D x x

1.1 .Calcul des coefficients

)X,Y( ˆˆ ˆ et Y X)Y(

Cova b a

Var

. X.Y)X,Y(

i ix yCov

n

avec

De même

)X,Y( ˆˆ ˆ' et ' X 'Y)Y(

Cova b a

Var

79

1.2. Coefficient de corrélation et pentes

1/ 2

X Y

)X,Y(. ' [ 1,1]

.

Covr a a

Le taux de corrélation r détermine l’intensité de la corrélation )co-dépendance( entre la variable X et la variable Y.

1.3. Le coefficient de détermination Rest le carré du coefficient de corrélation r. Il mesure le part de la variabilité totale de Y expliquée par X )ou encore par la droite de régression( :

Si r2 tend vers 1, alors l’évolution de X décrit bien celle de Y.Si r2 tend vers 0, alors l’évolution de X semble être indépendante de celle de Y.

80

Remarque.

Si 0,5 < r2 < 1 on peut dire que l'ajustement du modèle y = f(x) est satisfaisant )plus r2 est proche de 1, meilleur est l'ajustement(.

Si r2 < 0,5 l'ajustement n'est pas parfait. Le modèle ne s'ajuste pas au nuage de points.

Documents

Statistique descriptive