80
1 DISTRIBUTION STATISTIQUE À UNE VARIABLE Et À DEUX VARIABLES : Corrélation et Ajustement

Statistique descriptive

Embed Size (px)

DESCRIPTION

cours de statistique descriptif qui facilite la comprehension des variables qualitatif et quantitatif .

Citation preview

Page 1: Statistique descriptive

1

DISTRIBUTION STATISTIQUE À UNE VARIABLE Et À DEUX VARIABLES : Corrélation

et Ajustement

Page 2: Statistique descriptive

2

A. DISTRIBUTION STATISTIQUE À UNE VARIABLE

Page 3: Statistique descriptive

3

I. TABLEAUX STATISTIQUE ET GRAPHIQUES

X Effectifs

x1

.

.

.

.

.

.

.

n1

.

.

.

.

.

.

.

Total n

X Total

Effectifs

V.D.

Page 4: Statistique descriptive

4

Classes Effectifs

[…; …[

.

.

.

.

n1

Total

Classes Total

Effectifs n

V.C.

Page 5: Statistique descriptive

Qualitative

5

Exemple : taille de vêtement :

XS < S < M < L < XL < XXL

Il faudra, notamment pour les représentations graphiques, présenter toujours les modalités dans l'ordre.

Répartition d'une population en fonction de sa taille vestimentaire

Page 6: Statistique descriptive

6

Représentations graphiques

1. Caractères qualitatifs1.1. Diagramme en barres (ou en tuyaux d'orgue) :

Page 7: Statistique descriptive

7

1.2 .Diagramme en bâtons:

Page 8: Statistique descriptive

8

1.3. Diagramme circulaire

Page 9: Statistique descriptive

9

Graphique figuratif :

Caractère Figure possible

Population humaineDépenses, recettes

Consommations d'un produitsImportance d'une productionetc

Etres humainsPièces de monnaie ou billets de banqueDessins du produit concernéDessins du produit concernéetc

Page 10: Statistique descriptive

10

Pouvoir d'achat du dollar canadien, 1980 à 2000

Page 11: Statistique descriptive

11

Consommation d’un produit P par sexe et par tranche d’âges

fi

Page 12: Statistique descriptive

12

2 .Caractères quantitatifs2.1 .C. Discrets

Diagramme en bâtons:

Page 13: Statistique descriptive

13

2.2. Caractères Continus

Page 14: Statistique descriptive

14

fi

Page 15: Statistique descriptive

15

Pb. les amplitudes varient d'une classe à une autre !

Tailles (en cm) amplitudes Nombre d'élèves

[161;165[[165;177[[177;185[

4128

3139

Total 25

Soit u = PGCD(4; 12; 8) = 4

11

1

33

1

Sh

b 2

22

13 14

3 3

Sh

b 3

33

94,5

2

Sh

b

Page 16: Statistique descriptive

16

2.3. Courbe cumulative croissante et décroissante (fct de répartition) :

VD

Page 17: Statistique descriptive

17

Page 18: Statistique descriptive

18

VC

Page 19: Statistique descriptive

19

Page 20: Statistique descriptive

20

2.4 .Autres représentations graphiques

2.4.1. Pyramides

La pyramide est un double histogramme horizontal. L'exemple le plus connu est la pyramide des âges.

Page 21: Statistique descriptive

21

Exemple : Population active dans une société X à une date donnée

Page 22: Statistique descriptive

22

2.4.2 .Graphiques à coordonnées polaires: 

Mois Année 2005

Janvier 60

Février 80

Mars 100

Avril 150

Mai 200

Juin 180

Juillet 40

Août 20

Septembre 80

Octobre 100

Novembre 110

Décembre 130

Page 23: Statistique descriptive

23

0

50

100

150

200Janvier

Fevrier

Mars

Avril

Mai

Juin

Juillet

Août

Septembre

Octobre

Novembre

Décembre

Page 24: Statistique descriptive

24

Les graphiques polaires peuvent être subdivisés en :

• Quatre parts pour les trimestres ;

• Douze parts pour les mois ;

• Vingt-quatre parts pour les heures de la journée;

• Cinquante-deux parts pour les semaines de l’année;

• Etc

Page 25: Statistique descriptive

25

II. Paramètres de position et de dispersion

La représentations des séries dans des tableaux et des graphiques permettent une vue d’ensemble mais ne peuvent résumer des tendances moyennes ou encore des dispersions dans les séries.

La façon la plus commode de résumer une série se fait à partir de :

• la tendance centrale • et la dispersion de la série

Page 26: Statistique descriptive

26

1.1. Mode Le mode d'un échantillon est la valeur qui se répète le plus souvent, autrement dit celle qui apparaît avec la fréquence la plus élevée. C'est pour cela qu'elle est parfois aussi appelée dominante.

Exemple1. Série discontinue( discrète: )

Le nombre de frères et sœurs des élèves d'une classe est indiqué dans le tableau suivant

Nbre de frères et sœurs 0 1 2 3 4 5 et plus

Nbre d'élèves 5 25 4 3 2 1

Le mode dans cette série est la valeur 1.

1 .Paramètres de position

Page 27: Statistique descriptive

27

Exemple2. Détermination du mode dans les séries statistiques continues :

Série comportant des classes d'amplitude égale

Les salariés d'une entreprise ont été classés selon leur rémunération mensuelle dans le tableau suivant :

Rémunérations mensuelles

[5000;6000[

[6000;7000[

[7000;8000[

[8000;9000[

[9000;10000[

[10000;11000[

Nombre de salariés 20 50 60 40 20 10

Le mode se trouve dans la classe [7000; 8000[. Pour connaître la valeur modale exacte, on prend la VALEUR CENTRALE DE LA CLASSE, soit ici 7500.

[7000 ; 8000[ est la classe modale.

Série comportant des classes d'amplitude inégale :

Dans ce cas c’est le centre de la classe correspondant à la densité relative )di( la plus importante, avec

ii

i

nd

a

Page 28: Statistique descriptive

28

1.2. Médiane

La médiane est la valeur centrale, autrement dit celle qui partage la série en deux sous-séries d’effectifs égaux.

Cas de variables discrètes :

Tout d’abord, les valeurs de la variable doivent être rangées par ordre croissant.Ensuite

si le nombre d’observation est impaire [)2n+1(-observations], alors

Me = )n+1(ième observation

Exemple: soit l’ensemble des notes sur 20 obtenues par 9 étudiants :E= {13 ; 14 ; 14 ; 15 ; 16 ; 18 ; 18 ; 19 ; 20} Me = 16

si le nombre d’observation est paire )2n-observations(, alors obs. ) 1( obs.

2

ième ièmen nMe

Page 29: Statistique descriptive

29

Cas de variables continues :Soit les 50 notes attribuées par un jury à un examen,

La médiane se trouve

[8 ;12[ (classe médiane)

On le détermine par interpolation linéaire :

Notes ni ni↑

[0 ; 5[ 10 10

[5 ; 8[ 8 18

[8 ; 12[ 12 30

[12 ; 15[ 11 41

[15 ; 20[ 9 50

50

Page 30: Statistique descriptive

30

avecLMe: la limite inférieure de la classe contenant la médiane,

FMe-1: la fréquence relative cumulée jusqu’à la classe médiane )excluant la fréquence de cette classe(,

fMe: la fréquence relative de la classe médiane,

aMe : l’amplitude de la classe médiane,

10,5 - MeMe Me

Me

FMe L

f

. a

Page 31: Statistique descriptive

31

8 25 18

12 8 30 188 7

4 12

28 8 10.33

12

Me

Me

Me

Exemple:

Page 32: Statistique descriptive

32

Graphiquement, la valeur médiane est celle qui correspond au croisement des courbes des fréquences cumulées croissantes et décroissante.

Classes en cm ni fi Fi↑ Fi↓

Min Max

155 0 % 0 % 0

155 à 160 155 160 1 % 4 % 4 % 100

160 à 165 160 165 6 % 24 % 28 % 96

165 à 170 165 170 6 % 24 % 52 % 72

170 à 175 170 175 5 % 20 % 72 % 48

175 à 180 175 180 2 % 8 % 80 % 28

180 à 185 180 185 2 % 8 % 88 % 20

185 à 190 185 190 3 % 12 % 100 % 12

190 % 0

25 % 100  

Page 33: Statistique descriptive

33

les deux courbes se

croisent juste avant 170

Me

Page 34: Statistique descriptive

34

1.3. Moyenne arithmétique :

C’est le point le plus proche à tous les points de la série statistique.

 Soient n1, n2, n3, .........,np les effectifs correspondants aux modalités x1,

x2, x3, .........,xp., si la série est discrète , 

ou les centres de chaque classe, si la série est continue.1 1 2 2

1 1 1 2

...1 1

...

pnp p

i i ii p

n x n x n xx x n x

n n n n n

Si on travaille sur toute la population on la note 1

N

ii

x

N

Page 35: Statistique descriptive

35

Série discrète

Série continue

Exemples :

Page 36: Statistique descriptive

36

Propriétés de la moyenne:

iSi y alors yiax b ax b

.

La moyenne de la série S regroupant les deux séries S1 et S2 est :

1 21 2

1 2

S SS S

S S

n x n xx

n n

cette propriété se généralise par

1 21 2

1 2

...

...S S Skk

k

S S S

S S S

n x n x n xx

n n n

Page 37: Statistique descriptive

37

1.4. Moyenne géométrique :

Utilisée dans

• les calculs de certains indices statistiques ;

• calcul de corrélation linéaire;

• la recherche de taux moyens de variation )croissance d’une grandeur économique(

1 2

1 2 1 2p

n n nnnn pMG x x x x x x

Exemple : la production d’un article A a été la suivante au cours du 1er trimestre : 1er mois 200000 unités, 2e mois 250000 unités et au 3e mois 360000 unités. Quel est le

taux moyen mensuel de croissance ?

Soit Pi le nombre d’unités à la fin du ie mois et ti le taux d’augmentation entre le mois i et i+1. Donc on a

23 2 2 1 2 1 1

21 2 1 2

1 2

)1 ( )1 ()1 ( )1 (

)1 ( )1 ()1 ( 1 )1 ()1 (

)1 ()1 ( 1 34.164%

m

m m

m

P t P t t P t P

t t t t t t

t t t

Page 38: Statistique descriptive

38

1.5 .Moyenne harmonique:

Utilisée dans des cas particuliers : problème de vitesse, de changes monétaires, certains indices )indices de Paasche( et problème de prix.

1

11 1n

i i

MH

n x

Exemple1 : dans une entreprise de fabrication 3 ouvriers produisent des pièces. L’ouvrier A met 10 min par pièce, B 15 min par pièce et C 20 min par pièce.

Amenons la production à 60 minutes

A produit 6 piècesB produit 4 pièces

C produit 3 pièces--------------------------

13 pièces

Le temps de production d’une pièce:

10min 6 15min 4 20min 313.85min/

13pièce

Page 39: Statistique descriptive

39

Avec la formule de MH: 3

13.85min/1 1 1

10 15 20

MH pièce

Exemple2 : une voiture roule pendant une heure à la vitesse de 80 km/h et ensuite parcours un tronçon de 60 km à la vitesse de 120 km/h. Quelle est la vitesse moyenne?

On sait que distance = vitesse x temps

dT= d1 + d2 = 80 + 60 = 140 et tT= 1.5 h

donc vm = 140/1.5 = 93.33 km/h.

Ou bien 80 6093.33 /

80 6080 120

MH km h

Page 40: Statistique descriptive

40

Exemple3 : une société marocaine doit régler une dette auprès d’un fournisseur américain. Elle dispose actuellement de 32000 $ qu’elle a acquis au cours de 9.25 DH/$. La dette s’élève à 78125$ ce qui nécessite d’acquérir 46125 $ pour complément dont la contrepartie globale est 440000 DH. A quel cours moyen les opérations de change ont-elles été réalisées ?

1er change : 32000 X 9.25 = 296000 DH

2e change : 46125 X i = 440000 DH

78125 X im = 736000 DH

donc im = 736000 / 78125 ≈ 9.42 )cours moyen(

9.42 est la moyenne harmonique de 9.25 et 9.54 :296000 +440000 296000 440000

9.25 9.54

MH

i ≈ 9.54

Page 41: Statistique descriptive

41

1.5 .Moyenne quadratique:

2 2 2

1 1 1

1 1 p pn

i i i i ii i i

Q x n x f xn n

MH MG x Q

Remarque

Page 42: Statistique descriptive

42

2. Paramètres de dispersionBut: comparer des séries entre elles en étudiant les variations ou dispersions des données par rapport à la tendance centrale.

2.1. L’étendue de la série )range ou intervalle de variation(La différence entre les deux valeurs extrêmes d’une série statistique. soit

max minE x x

2.2 .Les quartiles

Les quartiles découpent la série des observations classées en ordre croissant en 4 tranche de même effectif. On les note Q1, Q2, Q3 et Q4.

Page 43: Statistique descriptive

43

Exemple : répartition des salaires dans une entrepriseClasses xi

c ni fi% ni↑ Fi%

[3500,3700[

[3700,4100[

[4100,4300[

[4300,4700[

[4700,5300[

3600

3900

4200

4500

5000

21

49

100

24

6

10.5

24.5

50

12

3

21

70

170

194

200

10.5

35

85

97

100

200 100Calcul de Q1

11

3700 Q 4100 50 21Q 3700 )4100 3700( 3936.73

21 50 70 70 21

Calcul de Q2 = Me

22

4100 Q 4300 100 70Q 4100 )4300 4100( 4160

70 100 170 170 70

Page 44: Statistique descriptive

44

Calcul de Q 3

33

4100 Q 4300 75 35Q 4100 )4300 4100( 4260

35 75 85 85 35

Calcul de Q4

Valeur telle que 100% des observations lui sont inférieures. Donc il correspond à la modalité maximale soit Q4 = 5300

Etendue interquartile

EIQ = Q3 – Q1

il contient 50% des observations

On peut effectuer une même analyse par déciles. On les note D1, D2, …, D10

Page 45: Statistique descriptive

45

Quelques types de boites de dispersion

A : distribution symétrique

B : distribution symétrique peu dispersée

C : distribution étalée vers les valeurs élevées

D : distribution étalée vers les valeurs faibles

Page 46: Statistique descriptive

46

2.3. Ecart absolu moyen est la moyenne arithmétique des écarts par rapport à la tendance centrale, exprimés en valeur absolue.

1 1 1

1 1 p pn

i i i i ixi i i

E x x n x x f x xn n

2.4 .Variance et écart-typeSont les principaux indicateurs de dispersion utilisés.

2222 2

1 1 1

2

Echantillon :

1 1 1

Population : on la note ou

pn n

i i i ii i i

s x x x n x x x xn n n

V x x

Page 47: Statistique descriptive

47

V

2.5 .Coefficient de variationLe coefficient de variation est une mesure de la dispersion relative )écart type par rapport à la moyenne( d’une série. Il est donné par

Echantillon : 100%

Population : 100%

sCV

x

CV

L’écart-type estime la dispersion ‘moyenne’ autour de la moyenne.

Page 48: Statistique descriptive

48

3. Quelques caractéristiques de formes et de concentration

Peut on deviner l’allure d’une distribution ?

3.1. La forme d’une distribution

3.1.1. La symétrie Deux moyens existent pour repérer la symétrie (ou asymétrie) d’une distribution :

3.1.1.1. Comparaison de tendances centrales traditionnelles• Si Mo = Me = Moyenne alors la distribution est symétrique• Si Mo > Me alors la distribution est étalée vers la gauche• Si Mo < Me alors la distribution est étalée vers la droite

Symétrie parfaite Etalement à gauche Etalement à droite

Page 49: Statistique descriptive

49

3.1.1.2. Calcul des coefficients d’asymétrie• Le coefficient de Yule

basé sur les écarts de quartiles :

3 1

3 1

) ( ) (Q Me Me Qs

Q Q

Si s = 0, alors il y a symétrie;

Si s > 0 la médiane est plus à Q1, alors la courbe des fréquences est étalée à droite;

Si s < 0 la courbe est étalée à gauche

Page 50: Statistique descriptive

50

• Le coefficient de Pearsonbasée sur les écarts entre Moyennes et Modes :

x Mop

Si p = 0 la série est symétrique

Si p>0 la série est étalée à droite

Si p<0 la série est étalée à gauche

série unimodale

3 -x Médp

x

série plurimodale ou n’ayant aucun mode

Si 0 < p < 1 l’asymétrique est moyenne

Si p > 1 la courbe est fortement asymétrique

Page 51: Statistique descriptive

51

3.1.2. Mesure de l’aplatissement 3.1.2.1. Formes graphiques

Aplatie Normale Concentrée

platikurtique leptokurtique

3.1.2.2. Coefficients d’aplatissement

On utilise les statistiques de moments centrés d’ordre ‘r’

mésokurtique

1

1Echantillon : .

Population : on les note

rp

r i ii

r

m n x xn

Page 52: Statistique descriptive

52

• Coefficient de Pearson

2

2

4 42 2 4

4 42 2 4

m m

m s

• Coefficient de Fischer

2 2 = 3 Si β2 = 3 ou γ2 = 0 alors la distribution est mésokurtique

Si β2 > 3 ou γ 2 > 0 alors la distribution est leptokurtique

Si β2 < 3 ou γ 2 < 0 alors la distribution est platikurtique

Population

Echantillon

Page 53: Statistique descriptive

53

• Coefficient de Kurtosis

3 2

9 1

0.5 Q QK

D D

Si K > 0.25 alors la distribution est leptokurtique

Si 0.25 < K < 0.25 alors la distribution est mésokurtique

Si 0 < K < 0.15 alors la distribution est platikurtique

Page 54: Statistique descriptive

54

3.2. La Concentration d’une distribution Elle mesure sa répartition ‘observée’ par rapport à une ‘norme’ de répartition (la répartition à laquelle on s’attend). Donc il s’agit de comparer deux séries de fréquences cumulées. Elle est souvent utilisée dans l’analyse des parts distributives des salaires, des fortunes, des parts de marché des entreprises, etc…

Exemple :si on observe une distribution des ménages ainsi qu’une distribution de leurs revenus, on serait tenté de comparer les deux distributions pour voir si elles évoluent, par quantile, de la même manière : Si 30% des ménages détiendraient 30% du total des revenues alors les revenus sont équitablement réparties, etc ….Par contre, si 30% des ménages détiennent 80% des revenus alors les revenus sont très inéquitablement réparties (inégalités).

Page 55: Statistique descriptive

55

Classes Centres xi ni Fi % masses nixi F’i %

[3500 ; 3700[

[3700 ; 4100[

[4100 ; 4300[

[4300 ; 4700[

[4700 ; 5300[

3600

3900

4200

4500

5000

21

49

100

24

6

10.5

35

85

97

100

75600

191100

420000

108000

30000

9.17

32.34

83.27

96.36

100

200 824700

Les indicateurs de concentration

• largement utilisés dans la pratique;

• s’appliquent à des données cumulatives.

la médiale Mle :

elle partage en deux la masse totale (∑nixi) du caractère étudié.Exemple

Page 56: Statistique descriptive

56

824700 : total du salaire versé dans l’entreprise

9.17 % représente la part du salaire versé à des salariés touchant une rémunération comprise entre 3500 et 3700

32.34 % du salaire total est versé à des salariés dont la rémunération est < 4100

Calcul de la Mle

Il est similaire à celle de la médiane

50 % du salaire total est versé à des individus dont le salaire est < à 4169.35

10.50 - '.

50 -32.344100 . 200

50.93

4169.35

MelMle Mle

Mle

FMle L a

f

Page 57: Statistique descriptive

57

Classes Centres Effectifs Fi % Masses F'i %

[0 ; 20[ 10 4 1,43 40 0,20

[20 ; 40[ 30 36 14,29 1080 5,71

[40 ; 60[ 50 64 37,14 3200 22,04

[60 ; 80[ 70 80 65,71 5600 50,61

[80 ; 100[ 90 58 86,43 5220 77,24

[100 ; 120[ 110 24 95,00 2640 90,71

[120 ; 140[ 130 14 100 1820 100

280 19600

Courbe de concentration (Lorentz)

Elle permet de comparer à une répartition strictement égalitaire, la répartition d’une série statistique donnée.

Page 58: Statistique descriptive

58

Courbe de Lorentz

0%10%20%

30%40%50%60%70%

80%90%

100%

0% 20% 40% 60% 80% 100%

Fi

F'iLigne d’équirépartitio

n

Page 59: Statistique descriptive

59

Interprétation de la représentation

• Représentation strictement égalitaire :

……

25% des individus détiennent 25% de la masse totale50% des individus détiennent 50% de la masse totaleetc

• + la courbe de concentration s’éloigne de cette bissectrice, plus la série des valeurs étudié est inégalitaire et montre une concentration de plus en plus importante.

Remarque : l’exemple montre une faible concentration.

Page 60: Statistique descriptive

60

Indice de concentration (coefficient de Gini)

Aire AIG

Aire OXZ

X

Z

A

BO

Remarques :

• 0 ≤ IG ≤ 1

• la concentration est forte lorsque IG → 1

Page 61: Statistique descriptive

61

Calcul Pratique :

L’aire sous la courbe est décomposé en triangle et trapèzes.

Dans notre exemple on a 1 triangle et 6 trapèzes.

1.43 0.210.15015

20.21 5.71

1 )14.29 1.43( 38.06562

5.71 22.042 )37.14 14.29( 317.04375

222.04 50.61

3 )65.72 37.14( 1038.16852

50.61 22.64

er

e

e

e

Aire triangle

Aire trapèze

Aire trapèze

Aire trapèze

Aire trapèze

1 77.24)86.43 65.72( 1323.88675

2

5 719.66575

6 476.775

e

e

Aire trapèze

Aire trapèze

Page 62: Statistique descriptive

62

Donc

5000 3913.7555 1086.2445

A B2

Aire du carréAire Aire

Et par suite

1086.24450.22

5000IG

Page 63: Statistique descriptive

63

Fi % F’i% )Fi-Fi-1(% )F'i+F'i-1(% )Fi-Fi-1()F'i+F'i-1( ‰

1,43 0,20

14,29 5,71 12,86 5,92 76,09

37,14 22,04 22,86 27,76 634,40

65,71 50,61 28,57 72,65 2075,80

86,43 77,24 20,71 127,86 2648,47

95,00 90,71 8,57 167,96 1439,65

100,00 100,00 5,00 190,71 953,57

7827,99

Hauteurs trapèzes Bases trapèzes

5000

0.225000

Aire

AireIG

7827,99A = 1086.01

2A

=

Page 64: Statistique descriptive

64

B. Distribution statistique à deux Caractères :

Ajustement et Corrélation

Page 65: Statistique descriptive

65

I. DéfinitionsSoit X et Y deux variables statistiques quantitatives, discrètes ou continues. .xi, i = 1, 2, …, I : I modalités )observations(yj, j = 1, 2, …, J : J observations

Y X

y1 y2 … yp … yJni.

x1 n11 n12 n1.

x2 n21 n2.

… …

xq nq.

… …

xI nI.

n.j n.1 n.2 n.p n.J n..

Tableau des effectifs

1. Tableaux à deux caractères

Page 66: Statistique descriptive

66

J I J I

. . ..1 1 1 1

, et i ij j ij ijj i j i

n n n n n n

nij : l’effectif d’individus qui vérifient la ième modalité de X et la jème modalité de Y.

ni.: le nombre d’individus pour lesquels X = xi

{)xi, ni.(/ 1≤ i ≤ I} est la distribution marginale de la variable X.

{)yj, n.j(/ 1≤ j ≤ J} est la distribution marginale de la variable Y.

L’effectif marginale ni. de la modalité xi , l’effectif marginale n.j de la modalité yj et l’effectif total sont donnés respectivement par

Page 67: Statistique descriptive

67

Y X

y1 y2 … yp … yJ fi.

x1 f11 f12 f1.

x2 f21 f2.

… …

xq fq.

… …

xI fI.

f.j f.1 f.2 f.p f.J f..=1

Tableau des fréquences

Fréquences marginales

Fréquences m

arginales

..

i ji j

nf

n

Page 68: Statistique descriptive

68

Les effectifs par )sous(-population

Chaque caractéristique correspond à une )sous(-population

Y X

y1

y2 … y

p … yJ

ni.

x1

  n12

        n1.

x2

n21

          n2.

…             …

xq

            nq.

…             …

xI

            nI.

n.j

n.1

n.2

  n.p

  n.J

n..

S-P

S-P

Page 69: Statistique descriptive

69

2. Fréquences conditionnelles :

: fréquence conditionnelle de la valeur yj sachant xi.

: fréquence conditionnelle de la valeur xi sachant yj.

Relation entre les fréquencesSomme des fréquences égal à l’unité :

Fréquences marginales : 

11

i

.i..i ..

.i

i.i n

nn

nf 1

1 j

j...j ..

j.

jj. n

nn

nf

Fréquences conditionnelles : 

11

iij

j.i j.

ij

ij/i n

nn

nf 1

1 j

ij.ij .i

ij

ji/j n

nn

nf

Fréquences partielles  

111 ..

..jj.

..i j ..

ij

j iij n

nn

nn

nf

/ Y.

j

iji y

j

nf

n

/ X.

i

ijj x

i

nf

n

Page 70: Statistique descriptive

70

Le produit de la fréquence marginale par la fréquence conditionnelle est égal à la fréquence partielle

. /i j i ijf f f

3. Critères d'indépendance :Pour que X et Y seront indépendantes, il faut et il suffit que l'on ait :

. .. .

..

, ou bien , )i, j( [1, I] × [1, J].i jij ij i j

n nn f f f

n

Page 71: Statistique descriptive

71

II. Tendances centrales et dispersions dans les séries à deux variables

– chaque variable peut varier indépendamment de l’autre.

– chaque variable d’une série x peut aussi dépendre d’une modalité de l’autre série y. 

Page 72: Statistique descriptive

72

1. L’expression de la moyenne et de la variance  dans des tableaux à deux caractères

Moyennes (globales) :

Variances (globales) :

...

1X . i i

i

n xn

...

1Y . j j

j

n yn

2

...

1)X( . Xi i

i

V n xn

2

...

1)Y( . Yj j

j

V n yn

Page 73: Statistique descriptive

73

Les caractéristiques conditionnelles sont les moyenne et variance de x selon chaque modalité de y (il s’agit de moyenne et de variance locales de x)

Moyennes conditionnelles (locales) :

.

.

1X j ij i

ij

n xn

.

.

1Yi ij j

ji

n yn

Variances conditionnelles (locales) :

2

...

1)X ( X jj ij i

ij

V n xn

2..

.

1)Y ( ) Y (ii ij j

ji

V n yn

Page 74: Statistique descriptive

74

2. Relation entre les moyennesLa moyenne marginale est la moyenne pondérée des moyennes conditionnelles.

....

1X X jj

j

nn

....

1Y Yii

i

nn

3. Relation entre les variancesLa variance marginale est la somme de la moyenne pondérée des variances conditionnelles et de la variance pondérée des moyennes conditionnelles.Décomposition de la Variance globale :

2

.. . ... ..

1 1)X( . X . X Xjj j j

j j

V n V nn n

2

.. . ... ..

1 1)Y( . Y . Y Yii i i

i i

V n V nn n

Page 75: Statistique descriptive

75

4. La covarianceLa covariance est une mesure de la variance liée de deux variables.

.. ..

) X() Y(

Cov)X,Y( XYij i i ij i i

i j i j

n x y n x y

n n

Propriétés.

4Cov) , ( Cov) , ( , ) , , , ( IR

Cov) , ( Var) (

aX b cY d ab X Y a b c d

X X X

Remarque. Si X et Y sont indépendantes, leur covariance est nulle. La réciproque est fausse.

Page 76: Statistique descriptive

76

III. Relations entre variables : régressions et corrélations

Les courbes de régressions sont un moyen graphique de synthétiser la liaison existante entre deux variables )ou le nuage de points formé par ces deux variables(.

S'il existe une relation fonctionnelle entre les variables X et Y de X vers Y et si f est un modèle de cette relation ) Y = f ) X ( ( on dit que X est la variable explicative et Y la variable expliquée.

Page 77: Statistique descriptive

77

1. La méthode des moindres carrés (ou encore la régression linéaire)

La méthode des moindres carrés résume un nuage de points par deux droites possibles qui lient Y à X, tel que la distance entre le nuage de points et chaque droite est minimale.

Y évolue en fonction d’une variable X

X évolue en fonction d’une variable Y

'. 'xy

D x a x b

.yx

D y a x b

Page 78: Statistique descriptive

78

2

/ˆˆˆ ˆObjectif: choix de tel que: est un mimimum i i y x i i

i

y ax b D y y

2

/ˆˆˆ ˆ' 'Objectif: choix de tel que: est un mimimum i i x y i i

i

x a y b D x x

1.1 .Calcul des coefficients

)X,Y( ˆˆ ˆ et Y X)Y(

Cova b a

Var

. X.Y)X,Y(

i ix yCov

n

avec

De même

)X,Y( ˆˆ ˆ' et ' X 'Y)Y(

Cova b a

Var

Page 79: Statistique descriptive

79

1.2. Coefficient de corrélation et pentes

1/ 2

X Y

)X,Y(. ' [ 1,1]

.

Covr a a

Le taux de corrélation r détermine l’intensité de la corrélation )co-dépendance( entre la variable X et la variable Y.

1.3. Le coefficient de détermination Rest le carré du coefficient de corrélation r. Il mesure le part de la variabilité totale de Y expliquée par X )ou encore par la droite de régression( :

Si r2 tend vers 1, alors l’évolution de X décrit bien celle de Y.Si r2 tend vers 0, alors l’évolution de X semble être indépendante de celle de Y.

Page 80: Statistique descriptive

80

Remarque.

Si 0,5 < r2 < 1 on peut dire que l'ajustement du modèle y = f(x) est satisfaisant )plus r2 est proche de 1, meilleur est l'ajustement(.

Si r2 < 0,5 l'ajustement n'est pas parfait. Le modèle ne s'ajuste pas au nuage de points.