Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Chapitre 2. Caracteristiques des distributions aune variable quantitative
Jean-Francois Coeurjollyhttp://www-ljk.imag.fr/membres/Jean-Francois.Coeurjolly/
Laboratoire Jean Kuntzmann (LJK), Grenoble University
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Objectif general de ce chapitre
Objectif : calculer des caracteristiques permettant deresumer les tableaux et graphiques.
Trois categories de caracteristiques :1 Tendance centrale2 Dispersion3 Concentration
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
1 Caracteristiques de tendance centraleModeMedianeQuantiles d’ordre quelconqueMoyenneSynthese : quelles caracteristiques pour resumer une serie ?Complement : methode du “shift and share”
2 Caracteristiques de dispersionEtendue (intervalle de variation)Ecarts interquantilesEcart absoluEcart-type et varianceComparaison de series statistiques et synthese
3 Caracteristiques de concentrationCourbe de LorentzIndice de GiniMediale
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Mode
Mode d’une variable statistique
Definition
Le mode (ou classe modale) est la valeur (ou la classe) pourlaquelle les individus sont le plus representes.
Calcul du mode :
variable discrete : modalite presentant le plus grand effectif (ouplus grande frequence).
variable continue : on cherche d’abord la classe ayant la plusgrande densite : c’est la classe modale. Le mode peut ensuiteetre defini (par exemple comme le centre de cette classe).
Remarques :
pour une var. continue, en general on ne donne que la classemodale.
Une serie peut avoir plusieurs modes (en presence de maximalocaux de frequence ou densite selon le type de variable) ; onparle de serie plurimodale.
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Mode
Mode d’une variable statistique
Definition
Le mode (ou classe modale) est la valeur (ou la classe) pourlaquelle les individus sont le plus representes.
Calcul du mode :
variable discrete : modalite presentant le plus grand effectif (ouplus grande frequence).
variable continue : on cherche d’abord la classe ayant la plusgrande densite : c’est la classe modale. Le mode peut ensuiteetre defini (par exemple comme le centre de cette classe).
Remarques :
pour une var. continue, en general on ne donne que la classemodale.
Une serie peut avoir plusieurs modes (en presence de maximalocaux de frequence ou densite selon le type de variable) ; onparle de serie plurimodale.
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Mode
Mode d’une variable statistique
Definition
Le mode (ou classe modale) est la valeur (ou la classe) pourlaquelle les individus sont le plus representes.
Calcul du mode :
variable discrete : modalite presentant le plus grand effectif (ouplus grande frequence).
variable continue : on cherche d’abord la classe ayant la plusgrande densite : c’est la classe modale. Le mode peut ensuiteetre defini (par exemple comme le centre de cette classe).
Remarques :
pour une var. continue, en general on ne donne que la classemodale.
Une serie peut avoir plusieurs modes (en presence de maximalocaux de frequence ou densite selon le type de variable) ; onparle de serie plurimodale.
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Mode
Application numerique sur deux exemples
Exemple Nbre pers./voiturexi fi1 10%2 25%3 40%4 25%
Total 100%1.0 1.5 2.0 2.5 3.0 3.5 4.0
0.10
0.15
0.20
0.25
0.30
0.35
0.40
nombre de personnes/voiture
fréq
uenc
e
●
●
●
●
Revenu des menages francaisxi fi di
(en euros) (/tr. de 800e)
[0, 1600[ 45% 22.5%[1600, 2400[ 35% 35%[2400, 3200[ 20% 20%
Total 100% ×0 500 1000 1500 2000 2500 3000 3500
010
2030
40
Revenu en euros
% p
ar tr
anch
e de
800
eur
os
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Mediane
Mediane - definition
Definition
La mediane est la valeur de la serie (i.e. une modalite) quipartage la serie en deux sous-ensembles de meme effectif (ou dememe frequence).
BIl faut distinguer deux cas :
1 les donnees sont observes de maniere brute.[le plus souvent une variable discrete]
2 les donnees sont regroupees en classes.[le plus souvent une variable continue]
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Mediane
Mediane (2) - donnees brutes
Deux cas possibles en fonction du caractere pair ou impair de lataille de l’echantillon n :
1 n est impair : la mediane de la serie de n = 5 ages : 17, 9,
19, 25, 21 est Me = 19 (ans) .
2 n est pair : la mediane de la serie de n = 4 ages : 17, 9, 19,
25 est entre 17 et 19⇒ Me = (17 + 19)/2 = 18 (ans)
Formule generale : Soient x1, . . . , xn les valeurs de la serie etsoient x(1), x(2), . . . , x(n) les versions ordonnees, i.e.x(1) ≤ x(2) ≤ . . . ≤ x(n) alors
Me =
{x((n+1)/2) si n est impair,x(n/2)+x(n/2+1)
2 si n est pair.
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Mediane
Mediane (2) - donnees brutes
Deux cas possibles en fonction du caractere pair ou impair de lataille de l’echantillon n :
1 n est impair : la mediane de la serie de n = 5 ages : 17, 9,
19, 25, 21 est
Me = 19 (ans) .
2 n est pair : la mediane de la serie de n = 4 ages : 17, 9, 19,
25 est entre 17 et 19⇒ Me = (17 + 19)/2 = 18 (ans)
Formule generale : Soient x1, . . . , xn les valeurs de la serie etsoient x(1), x(2), . . . , x(n) les versions ordonnees, i.e.x(1) ≤ x(2) ≤ . . . ≤ x(n) alors
Me =
{x((n+1)/2) si n est impair,x(n/2)+x(n/2+1)
2 si n est pair.
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Mediane
Mediane (2) - donnees brutes
Deux cas possibles en fonction du caractere pair ou impair de lataille de l’echantillon n :
1 n est impair : la mediane de la serie de n = 5 ages : 17, 9,
19, 25, 21 est Me = 19 (ans) .
2 n est pair : la mediane de la serie de n = 4 ages : 17, 9, 19,
25 est entre 17 et 19⇒ Me = (17 + 19)/2 = 18 (ans)
Formule generale : Soient x1, . . . , xn les valeurs de la serie etsoient x(1), x(2), . . . , x(n) les versions ordonnees, i.e.x(1) ≤ x(2) ≤ . . . ≤ x(n) alors
Me =
{x((n+1)/2) si n est impair,x(n/2)+x(n/2+1)
2 si n est pair.
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Mediane
Mediane (2) - donnees brutes
Deux cas possibles en fonction du caractere pair ou impair de lataille de l’echantillon n :
1 n est impair : la mediane de la serie de n = 5 ages : 17, 9,
19, 25, 21 est Me = 19 (ans) .
2 n est pair : la mediane de la serie de n = 4 ages : 17, 9, 19,
25 est entre 17 et 19
⇒ Me = (17 + 19)/2 = 18 (ans)
Formule generale : Soient x1, . . . , xn les valeurs de la serie etsoient x(1), x(2), . . . , x(n) les versions ordonnees, i.e.x(1) ≤ x(2) ≤ . . . ≤ x(n) alors
Me =
{x((n+1)/2) si n est impair,x(n/2)+x(n/2+1)
2 si n est pair.
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Mediane
Mediane (2) - donnees brutes
Deux cas possibles en fonction du caractere pair ou impair de lataille de l’echantillon n :
1 n est impair : la mediane de la serie de n = 5 ages : 17, 9,
19, 25, 21 est Me = 19 (ans) .
2 n est pair : la mediane de la serie de n = 4 ages : 17, 9, 19,
25 est entre 17 et 19⇒ Me = (17 + 19)/2 = 18 (ans)
Formule generale : Soient x1, . . . , xn les valeurs de la serie etsoient x(1), x(2), . . . , x(n) les versions ordonnees, i.e.x(1) ≤ x(2) ≤ . . . ≤ x(n) alors
Me =
{x((n+1)/2) si n est impair,x(n/2)+x(n/2+1)
2 si n est pair.
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Mediane
Mediane (2) - donnees brutes
Deux cas possibles en fonction du caractere pair ou impair de lataille de l’echantillon n :
1 n est impair : la mediane de la serie de n = 5 ages : 17, 9,
19, 25, 21 est Me = 19 (ans) .
2 n est pair : la mediane de la serie de n = 4 ages : 17, 9, 19,
25 est entre 17 et 19⇒ Me = (17 + 19)/2 = 18 (ans)
Formule generale : Soient x1, . . . , xn les valeurs de la serie etsoient x(1), x(2), . . . , x(n) les versions ordonnees, i.e.x(1) ≤ x(2) ≤ . . . ≤ x(n) alors
Me =
{x((n+1)/2) si n est impair,x(n/2)+x(n/2+1)
2 si n est pair.
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Mediane
Mediane - donnees brutes (2)
Quelle est la mediane de la serie statistique suivante ?
Exemple nb personnes/voiture
xi ni fi Fi
1 40 10% 10%2 100 25% 35%3 160 40% 75%4 100 25% 100%
Total 400 100% ×
n = 400 est pair ⇒ il faut donc reperer la 200 -eme et201 -eme observation dans la liste des observationsordonnees.
x(200) = 3 , x(201) = 3 ⇒ Me = 3+32 = 3 (pers./voiture)
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Mediane
Mediane - donnees brutes (2)
Quelle est la mediane de la serie statistique suivante ?
Exemple nb personnes/voiture
xi ni fi Fi
1 40 10% 10%2 100 25% 35%3 160 40% 75%4 100 25% 100%
Total 400 100% ×
n = 400 est pair ⇒ il faut donc reperer la 200 -eme et201 -eme observation dans la liste des observationsordonnees.
x(200) = 3 , x(201) = 3 ⇒ Me = 3+32 = 3 (pers./voiture)
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Mediane
Mediane - donnees brutes (2)
Quelle est la mediane de la serie statistique suivante ?
Exemple nb personnes/voiture
xi ni fi Fi
1 40 10% 10%2 100 25% 35%3 160 40% 75%4 100 25% 100%
Total 400 100% ×
n = 400 est pair ⇒ il faut donc reperer la 200 -eme et201 -eme observation dans la liste des observationsordonnees.
x(200) = 3 , x(201) = 3 ⇒ Me = 3+32 = 3 (pers./voiture)
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Mediane
Mediane (3) - donnees regroupees
Exemple du revenu menages
xi (en e) ni (×106) fi Fi
[0, 1600[ 9 45% 45%[1600, 2400[ 7 35% 80%[2400, 3200[ 4 20% 100%
Total 20 100% ×
Dans le cas ou les donnees sont regroupees en classes, il fautsuivre deux etapes :
1 reperer la classe mediane , i.e. la classe contenant lamediane.
Ici, 45% des menage ont un revenu < 1600eet 80% desmenages ont un revenu < 2400e⇒ Me ∈]1600, 2400[
2 estimer la mediane par interpolation lineaire .
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Mediane
Mediane (3) - donnees regroupees
Exemple du revenu menages
xi (en e) ni (×106) fi Fi
[0, 1600[ 9 45% 45%[1600, 2400[ 7 35% 80%[2400, 3200[ 4 20% 100%
Total 20 100% ×
Dans le cas ou les donnees sont regroupees en classes, il fautsuivre deux etapes :
1 reperer la classe mediane , i.e. la classe contenant lamediane.Ici, 45% des menage ont un revenu < 1600eet 80% desmenages ont un revenu < 2400e
⇒ Me ∈]1600, 2400[2 estimer la mediane par interpolation lineaire .
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Mediane
Mediane (3) - donnees regroupees
Exemple du revenu menages
xi (en e) ni (×106) fi Fi
[0, 1600[ 9 45% 45%[1600, 2400[ 7 35% 80%[2400, 3200[ 4 20% 100%
Total 20 100% ×
Dans le cas ou les donnees sont regroupees en classes, il fautsuivre deux etapes :
1 reperer la classe mediane , i.e. la classe contenant lamediane.Ici, 45% des menage ont un revenu < 1600eet 80% desmenages ont un revenu < 2400e⇒ Me ∈]1600, 2400[
2 estimer la mediane par interpolation lineaire .
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Mediane
Mediane (4) - interpolation lineaire
●
●
●
●
0 500 1000 1500 2000 2500 3000
0.0
0.2
0.4
0.6
0.8
1.0
revenu
Fi A quoi correspond la mediane sur
ce graphique ?
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Mediane
Mediane (5) - interpolation lineaire
●
●
●
●
0 500 1000 1500 2000 2500 3000
0.0
0.2
0.4
0.6
0.8
1.0
revenu
Fi
●
(Me,50%)
Graphiquement : la medianecorrespond a l’abscisse du pointd’intersection entre la courbe des(xi ,Fi ) et la droite horizontaled’equation y = 50%.
⇒ Formule generale : soit ]xi , xi+1[ la classe mediane et soientFi et Fi+1 les frequences cumulees evaluees en xi et xi+1, alors
Me = xi +50% − Fi
Fi+1 − Fi× (xi+1 − xi )
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Mediane
Mediane (5) - interpolation lineaire
●
●
●
●
0 500 1000 1500 2000 2500 3000
0.0
0.2
0.4
0.6
0.8
1.0
revenu
Fi
●
(Me,50%)
Graphiquement : la medianecorrespond a l’abscisse du pointd’intersection entre la courbe des(xi ,Fi ) et la droite horizontaled’equation y = 50%.
Application numerique :
xi = 1600, xi+1 = 2400,Fi = 45%,Fi+1 = 80%.
Me = 1600 + 50%−45%80%−45% × (2400 − 1600) ' 1714.28 e.
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Mediane
Mediane (5) - interpolation lineaire
●
●
●
●
0 500 1000 1500 2000 2500 3000
0.0
0.2
0.4
0.6
0.8
1.0
revenu
Fi
●
(Me,50%)
Graphiquement : la medianecorrespond a l’abscisse du pointd’intersection entre la courbe des(xi ,Fi ) et la droite horizontaled’equation y = 50%.
Application numerique :
xi = 1600, xi+1 = 2400,Fi = 45%,Fi+1 = 80%.
Me = 1600 + 50%−45%80%−45% × (2400 − 1600) ' 1714.28 e.
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Mediane
Mediane (5) - interpolation lineaire
●
●
●
●
0 500 1000 1500 2000 2500 3000
0.0
0.2
0.4
0.6
0.8
1.0
revenu
Fi
●
(Me,50%)
Graphiquement : la medianecorrespond a l’abscisse du pointd’intersection entre la courbe des(xi ,Fi ) et la droite horizontaled’equation y = 50%.
Application numerique :
xi = 1600, xi+1 = 2400,Fi = 45%,Fi+1 = 80%.
Me = 1600 + 50%−45%80%−45% × (2400 − 1600) ' 1714.28 e.
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Quantiles d’ordre quelconque
Quantile
Definition
Un quantile d’ordre α (pour α ∈ (0, 1)) notee en toute generalite Qα
est la valeur qui partage la serie en deux sous-ensembles ; uneproportion α se situe en dessous de Qα et une proportion 1 − αau-dessus strictement de Qα.
Remarques :
Me = Q50%.
Quartiles (notes Q1,Q2,Q3) : quantiles qui separent la serie en 4sous-ensembles de meme effectif/frequence. Plus precisement
Q1 = Q25%,Q2 = Me,Q3 = Q75%.
Deciles (notes D1,D2, . . . ,D9) : quantiles qui separent la serie en10 sous-ensembes de meme frequence. Plus precisement
D1 = Q10%,D2 = Q20%, . . . ,D9 = Q90%.
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Quantiles d’ordre quelconque
Quantile (2)
Les quantiles se calculent de maniere similaire a la mediane.
Ainsi pour des donnees regroupees on a : si Qα ∈]xi , xi+1[
Qα = xi +α − Fi
Fi+1 − Fi× (xi+1 − xi )
Calculez le premier quartile de la serie suivante
Exemple du revenu menagesxi (en e) ni (×106) fi Fi
[0, 1600[ 9 45% 45%[1600, 2400[ 7 35% 80%[2400, 3200[ 4 20% 100%
Total 20 100% ×
Q1 ∈]0, 1600[
Q1 = 0 + 25%−045%−0 (1600 − 0) '
888.89e.
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Quantiles d’ordre quelconque
Quantile (2)
Les quantiles se calculent de maniere similaire a la mediane.
Ainsi pour des donnees regroupees on a : si Qα ∈]xi , xi+1[
Qα = xi +α − Fi
Fi+1 − Fi× (xi+1 − xi )
Calculez le premier quartile de la serie suivante
Exemple du revenu menagesxi (en e) ni (×106) fi Fi
[0, 1600[ 9 45% 45%[1600, 2400[ 7 35% 80%[2400, 3200[ 4 20% 100%
Total 20 100% ×
Q1 ∈]0, 1600[
Q1 = 0 + 25%−045%−0 (1600 − 0) '
888.89e.
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Quantiles d’ordre quelconque
Quantile (2)
Les quantiles se calculent de maniere similaire a la mediane.
Ainsi pour des donnees regroupees on a : si Qα ∈]xi , xi+1[
Qα = xi +α − Fi
Fi+1 − Fi× (xi+1 − xi )
Calculez le premier quartile de la serie suivante
Exemple du revenu menagesxi (en e) ni (×106) fi Fi
[0, 1600[ 9 45% 45%[1600, 2400[ 7 35% 80%[2400, 3200[ 4 20% 100%
Total 20 100% ×
Q1 ∈]0, 1600[
Q1 = 0 + 25%−045%−0 (1600 − 0) '
888.89e.
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Moyenne
Moyenne - introduction
Il y a plusieurs types de moyenne dependant essentiellement duprobleme considere
1 Moyenne arithmetique [la plus connue et la plus standard]
2 Moyenne geometrique [utilisee par exemple pour calculerdes taux moyens]
3 Moyenne harmonique [utilisee pour calculer des moyennesde ratios]
4 Moyenne quadratique [moyenne de carres, notion moinsutilisee]
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Moyenne
Moyenne arithmetique (ponderee)
Definition
Soit xi (i = 1, . . . , p) les modalites d’une serie brute, d’effectifsni (i = 1, . . . , p) et frequence fi , la moyenne arithmetiqueponderee notee x est donnee par
x =1
n
p∑i=1
nixi =
p∑i=1
fixi car fi =ni
n.
BSi les donnees sont regroupees en classes, les xi ne sont engeneral pas observees. Ces valeurs sont alors remplacees par lescentres de classes, notes ci pour i = 1, . . . , p.
lorsque le nombre de modalites (ou nombre de classes) est grand,il devient interessant d’utiliser la calculatrice (rentrer les donneessous forme d’un tableau, configurer de maniere appropriee etdemander des resultats univaries).
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Moyenne
Moyenne arithmetique : exemple covoiturage
Calculez la moyenne de la serie
Exemple nb personnes/voiture
xi ni fi Fi
1 40 10% 10%2 100 25% 35%3 160 40% 75%4 100 25% 100%
Total 400 100% ×
Application :
x =40 ∗ 1 + 100 ∗ 2 + 160 ∗ 3 + 100 ∗ 4
400= 2.8 pers./voiture.
(Remarque : 10% ∗ 1 + 25% ∗ 2 + 40%3 + 25% ∗ 4 = 2.8)
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Moyenne
Moyenne arithmetique : exemple covoiturage
Calculez la moyenne de la serie
Exemple nb personnes/voiture
xi ni fi Fi
1 40 10% 10%2 100 25% 35%3 160 40% 75%4 100 25% 100%
Total 400 100% ×
Application :
x =40 ∗ 1 + 100 ∗ 2 + 160 ∗ 3 + 100 ∗ 4
400= 2.8 pers./voiture.
(Remarque : 10% ∗ 1 + 25% ∗ 2 + 40%3 + 25% ∗ 4 = 2.8)
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Moyenne
Moyenne arithmetique : exemple revenu des menages
Calculez la moyenne de la serie
Exemple du revenu menages
xi (en e) ci ni (×106) fi Fi
[0, 1600[ 800 9 45% 45%[1600, 2400[ 2000 7 35% 80%[2400, 3200[ 2800 4 20% 100%
Total × 20 100% ×
Application :
x =9 ∗ 800 + 7 ∗ 2000 + 4 ∗ 2800
20= 1620 e.
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Moyenne
Moyenne arithmetique : exemple revenu des menages
Calculez la moyenne de la serie
Exemple du revenu menages
xi (en e) ci ni (×106) fi Fi
[0, 1600[ 800 9 45% 45%[1600, 2400[ 2000 7 35% 80%[2400, 3200[ 2800 4 20% 100%
Total × 20 100% ×
Application :
x =9 ∗ 800 + 7 ∗ 2000 + 4 ∗ 2800
20= 1620 e.
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Moyenne
Proprietes de la moyenne arithmetique
1 La somme des ecarts (ponderes) a la moyenne est nulle,c-a-d
p∑i=1
ni (xi − x ) = 0
Preuve :
p∑i=1
ni (xi − x ) =
p∑i=1
nixi −
p∑i=1
ni
x = nx − nx = 0.
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Moyenne
Proprietes de la moyenne arithmetique
1 La somme des ecarts (ponderes) a la moyenne est nulle,c-a-d
p∑i=1
ni (xi − x ) = 0
2 Considerons une population P d’effectif total n composeede k sous-populations P1, . . . ,Pk d’effectifs n1, . . . ,nk (doncn = n1 + . . . + nk ). Notons x 1, . . . , x k les moyennesarithmetiques des sous-populations P1, . . . ,Pk alors
x =n1x1 + . . . + nkxk
n.
“la moyenne globale est egale a la moyenne ponderee desmoyennes”
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Moyenne
“Moyenne globale = moyenne ponderee des moyennes”
Ex : salaire de nH =200 hommes et nF =100 femmes d’une entreprise.
Calculez la moyenne de laserie Ensemble de deuxfacons differentes :
xi (en e) ci ni ,H ni ,F ni ,E
[0, 1500[ 750 70 60 130[1500, 3000[ 2250 130 40 170
Total × 200 100 300
Methode 1 (methode directe) :
xE =1
300(750 × 130 + 2250 × 170) = 1600e.
Methode 2 (en utilisant la propriete precedente) :
xH =1
200(750 × 70 + 2250 × 130) = 1725e.
xF =1
100(750 × 60 + 2250 × 40) = 1350e.
xE =1
300(200 × xH + 100 × xF ) =
1
300(200 × 1725 + 100 × 1350) = 1600e.
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Moyenne
“Moyenne globale = moyenne ponderee des moyennes”
Ex : salaire de nH =200 hommes et nF =100 femmes d’une entreprise.
Calculez la moyenne de laserie Ensemble de deuxfacons differentes :
xi (en e) ci ni ,H ni ,F ni ,E
[0, 1500[ 750 70 60 130[1500, 3000[ 2250 130 40 170
Total × 200 100 300
Methode 1 (methode directe) :
xE =1
300(750 × 130 + 2250 × 170) = 1600e.
Methode 2 (en utilisant la propriete precedente) :
xH =1
200(750 × 70 + 2250 × 130) = 1725e.
xF =1
100(750 × 60 + 2250 × 40) = 1350e.
xE =1
300(200 × xH + 100 × xF ) =
1
300(200 × 1725 + 100 × 1350) = 1600e.
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Moyenne
“Moyenne globale = moyenne ponderee des moyennes”
Ex : salaire de nH =200 hommes et nF =100 femmes d’une entreprise.
Calculez la moyenne de laserie Ensemble de deuxfacons differentes :
xi (en e) ci ni ,H ni ,F ni ,E
[0, 1500[ 750 70 60 130[1500, 3000[ 2250 130 40 170
Total × 200 100 300
Methode 1 (methode directe) :
xE =1
300(750 × 130 + 2250 × 170) = 1600e.
Methode 2 (en utilisant la propriete precedente) :
xH =1
200(750 × 70 + 2250 × 130) = 1725e.
xF =1
100(750 × 60 + 2250 × 40) = 1350e.
xE =1
300(200 × xH + 100 × xF ) =
1
300(200 × 1725 + 100 × 1350) = 1600e.
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Moyenne
Moyenne geometrique
Une action en bourse a evolue a la hausse de 10% l’annee 1,puis a diminue de 5% l’annee 2 et de 5% l’annee 3.
Question : Quel est le taux moyen (note tmoy) d’evolutionde cette action sur les trois annees ?
B tmoy , 0 ! ! !
La moyenne geometrique est le taux qui, appliquedurant les trois annees donnera le meme capital final selonl’evolution decrite precedemment.
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Moyenne
Moyenne geometrique
Une action en bourse a evolue a la hausse de 10% l’annee 1,puis a diminue de 5% l’annee 2 et de 5% l’annee 3.
Question : Quel est le taux moyen (note tmoy) d’evolutionde cette action sur les trois annees ?
B tmoy , 0 ! ! !
La moyenne geometrique est le taux qui, appliquedurant les trois annees donnera le meme capital final selonl’evolution decrite precedemment.
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Moyenne
Moyenne geometrique (2)
Soit C0 le capital initial et soient C1,C2,C3 les capitaux apres1,2 ou 3 annees. On a
selon l’enonce C1 = (1 + 10%)C0, C2 = (1 − 5%)C1 etC3 = (1 − 5%)C2, c-a-d
C3 = (1 + 10%)(1 − 5%)(1 − 5%)C0.
selon la definition du taux moyen : C1 = (1 + tmoy )C0,C2 = (1 + tmoy )C1 et C3 = (1 + tmoy )C2, c-a-d
C3 = (1 + tmoy )3C0.
Par identification des deux identites, il vient que pour toutcapital initial C0
(1 + 10%)(1 − 5%)(1 − 5%) = (1 + tmoy )3
⇐⇒
tmoy =((1 + 10%)(1 − 5%)(1 − 5%)
)1/3− 1.
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Moyenne
Moyenne geometrique (3)
Definition
Soit la serie statistique x1, . . . , xp d’effectif n1, . . . ,np alors lamoyenne geometrique notee en general xG est definie par
xG =
(xn1
1 × xn2
2 × . . . × xnpp
)1/n
ou n = n1 + . . . + np .
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Moyenne
Moyenne harmonique
Elle permet de calculer des moyennes de ratios.
Exemple : Un coureur monte une cote de 1km a la vitessede 10km/h et descend cette meme cote a la vitesse de30km/h.
Question : Quelle est la vitesse moyenne du coureur ?
vmoy , 20 km/h ! !
car il a passe plus de temps a 10km/h qu’a 30km/h.
On cherche vmoy telle que la somme des temps passes a lamontee et la descente soit egal au temps passe a la vitessevmoy :tmontee = 1
10 , tdesc. = 130 , tvmoy = 2
vmoy
⇐⇒ 2vmoy
= 110 + 1
30 ⇐⇒ vmoy = 2110 + 1
30
= 15 km/h.
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Moyenne
Moyenne harmonique
Elle permet de calculer des moyennes de ratios.
Exemple : Un coureur monte une cote de 1km a la vitessede 10km/h et descend cette meme cote a la vitesse de30km/h.
Question : Quelle est la vitesse moyenne du coureur ?
vmoy , 20 km/h ! !
car il a passe plus de temps a 10km/h qu’a 30km/h.
On cherche vmoy telle que la somme des temps passes a lamontee et la descente soit egal au temps passe a la vitessevmoy :tmontee = 1
10 , tdesc. = 130 , tvmoy = 2
vmoy
⇐⇒ 2vmoy
= 110 + 1
30 ⇐⇒ vmoy = 2110 + 1
30
= 15 km/h.
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Moyenne
Moyenne harmonique
Elle permet de calculer des moyennes de ratios.
Exemple : Un coureur monte une cote de 1km a la vitessede 10km/h et descend cette meme cote a la vitesse de30km/h.
Question : Quelle est la vitesse moyenne du coureur ?
vmoy , 20 km/h ! !
car il a passe plus de temps a 10km/h qu’a 30km/h.
On cherche vmoy telle que la somme des temps passes a lamontee et la descente soit egal au temps passe a la vitessevmoy :tmontee = 1
10 , tdesc. = 130 , tvmoy = 2
vmoy
⇐⇒ 2vmoy
= 110 + 1
30 ⇐⇒ vmoy = 2110 + 1
30
= 15 km/h.
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Moyenne
Moyenne harmonique (2)
Definition
Soit la serie statistique x1, . . . , xp d’effectif n1, . . . ,np alors lamoyenne harmonique notee en general xH est definie par
xH =n
n1
x1+ . . . +
np
xp
ou n = n1 + . . . + np .
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Synthese : quelles caracteristiques pour resumer une serie ?
Synthese
Mode(s), mediane, moyenne(s) : quel(s) indicateur(s)utiliser pour resumer une serie et en donner des tendancescentrales ?
Cela depend de la “forme” generale de la serie statistiqueetudiee selon qu’elle soit :
plurimodale,symetrique,asymetrique.
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Synthese : quelles caracteristiques pour resumer une serie ?
Afin de resumer cette serie . . .
. . . quel est l’indicateur pertinent ?
Salaires xi ci ni ai
en e (1 u.a. 4000e)
[0, 4000[ 2000 45 1[4000, 8000[ 16000 10 6
[28000, 32000[ 30000 45 1
serie pluri-modale
x = 16000e, Me = 16000e.
2 classes modales :[0, 4000[,[28000, 32000[.
⇒
Moyenne et mediane nonrepresentatives de la serie.
Modes informatifs.
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Synthese : quelles caracteristiques pour resumer une serie ?
Afin de resumer cette serie . . .
. . . quel est l’indicateur pertinent ?
Salaires xi ci ni ai
en e (1 u.a. 1000e)
[0, 1000[ 500 5 1[1000, 2000[ 1500 90 1[2000, 3000[ 2500 5 1
serie symetrique
x = 1500e, Me = 1500e.
classes modales : [1000, 2000[.
⇒
les trois indicateurs peuvent etreutilises.
on preferera la moyenne quipossede des proprietes interessant(calcul algebrique)
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Synthese : quelles caracteristiques pour resumer une serie ?
Afin de resumer cette serie . . .
. . . quel est l’indicateur pertinent ?
Salaires xi ci ni ai
en e (1 u.a. 2000e)
[0, 2000[ 1000 90 1[2000, 38000[ 18000 10 18
serie asymetrique
x = 2900e, Me = 1100e.
⇒
La moyenne n’est pasrepresentative car trop influenceepar les gros salaires.
la mediane est plus adaptee.
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Complement : methode du “shift and share”
Complement : methode ”shift and share”
methode utilisee pour comparer plusieurs moyennesponderees lorsque les coefficients de ponderation sont tres,, par exemple lorsqu’ils evoluent au cours du temps.
permet de lisser l’effet structure.
Exemples : salaires de 2 CSP en 2010 et 2011.
Annee 2010 Annee 2011CSP fi x i (e) fi x i (e)
Cadres 10% 2000 50% 1300Employes 90% 1000 50% 900
x 2010 = 1100 e, x 2011 = 1100 e.
peut-on conclure qu’il n’y a pas d’evolution de salaires de2010 a 2011 ?
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Complement : methode du “shift and share”
Complement : methode ”shift and share”
methode utilisee pour comparer plusieurs moyennesponderees lorsque les coefficients de ponderation sont tres,, par exemple lorsqu’ils evoluent au cours du temps.
permet de lisser l’effet structure.
Exemples : salaires de 2 CSP en 2010 et 2011.
Annee 2010 Annee 2011CSP fi x i (e) fi x i (e)
Cadres 10% 2000 50% 1300Employes 90% 1000 50% 900
x 2010 = 1100 e, x 2011 = 1100 e.
peut-on conclure qu’il n’y a pas d’evolution de salaires de2010 a 2011 ?
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Complement : methode du “shift and share”
Complement : methode ”shift and share” (2)
Annee 2010 Annee 2011CSP fi x i (e) fi x i (e)
Cadres 10% 2000 50% 1300Employes 90% 1000 50% 900
Pour eliminer l’effet du changement des effectifs, on calculeles moyennes en fixant les effectifs de 2010 :
x ′2011 = 10% × 1300 + 90% × 900 = 940 e
⇒ evolution de 940−11001100 ' −14.54%.
pour eliminer l’effet du changement de salaires, on calculela moyenne en 2011 en fixant les salaires en 2010
x ′′2011 = 50% × 2000 + 50% × 1000 = 1500 e
⇒ evolution de 1500−11001100 ' 36.36%.
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Complement : methode du “shift and share”
Complement : methode ”shift and share” (2)
Annee 2010 Annee 2011CSP fi x i (e) fi x i (e)
Cadres 10% 2000 50% 1300Employes 90% 1000 50% 900
Pour eliminer l’effet du changement des effectifs, on calculeles moyennes en fixant les effectifs de 2010 :
x ′2011 = 10% × 1300 + 90% × 900 = 940 e
⇒ evolution de 940−11001100 ' −14.54%.
pour eliminer l’effet du changement de salaires, on calculela moyenne en 2011 en fixant les salaires en 2010
x ′′2011 = 50% × 2000 + 50% × 1000 = 1500 e
⇒ evolution de 1500−11001100 ' 36.36%.
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Complement : methode du “shift and share”
Complement : methode ”shift and share” (2)
Annee 2010 Annee 2011CSP fi x i (e) fi x i (e)
Cadres 10% 2000 50% 1300Employes 90% 1000 50% 900
Pour eliminer l’effet du changement des effectifs, on calculeles moyennes en fixant les effectifs de 2010 :
x ′2011 = 10% × 1300 + 90% × 900 = 940 e
⇒ evolution de 940−11001100 ' −14.54%.
pour eliminer l’effet du changement de salaires, on calculela moyenne en 2011 en fixant les salaires en 2010
x ′′2011 = 50% × 2000 + 50% × 1000 = 1500 e
⇒ evolution de 1500−11001100 ' 36.36%.
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Complement : methode du “shift and share”
Complement : methode ”shift and share” (2)
Annee 2010 Annee 2011CSP fi x i (e) fi x i (e)
Cadres 10% 2000 50% 1300Employes 90% 1000 50% 900
Pour eliminer l’effet du changement des effectifs, on calculeles moyennes en fixant les effectifs de 2010 :
x ′2011 = 10% × 1300 + 90% × 900 = 940 e
⇒ evolution de 940−11001100 ' −14.54%.
pour eliminer l’effet du changement de salaires, on calculela moyenne en 2011 en fixant les salaires en 2010
x ′′2011 = 50% × 2000 + 50% × 1000 = 1500 e
⇒ evolution de 1500−11001100 ' 36.36%.
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Caracteristiques de dispersion
Objectif : definir des indicateurs permettant d’evaluer lecaractere disperse ou variable d’une serie statistique.En particulier, nous etudierons
1 l’etendue
2 les ecarts interquantiles
3 les ecarts absolus (moyen et median)
4 l’ecart-type (ou variance)
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Etendue (intervalle de variation)
Etendue (intervalle de variation)
Definition
L’etendue est la difference entre la plus grande et la plus petiteobservation de la serie.
Etendue = x(n) − x(1).
Notion tres peu utilisee en pratique car elle est tres sensibleaux fluctuations de l’echantillon.
Exemple : on releve l’age de 10 individus : 24, 16, 18, 22,16, 26, 35, 25, 15, 76.⇒ etendue est detp76-16 = 50 ans.
Si on remplace 76 par un age ≤ 35 l’etendue devient 19 ans.
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Ecarts interquantiles
Ecarts-interquantiles
Definition
On definit l’ecart-interquartile et l’ecart-interdecile commesuit
Ecart interquartile = Q3 −Q1 Ecart interdecile = D9 −D1.
Plus ces ecarts sont grands et plus la serie est dispersee.
Du fait que l’on ne tient pas compte des observationsfaibles ou elevees, ces caracteristiques sont moins sensiblesaux fluctuations de l’echantillon que l’etendue.
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Ecart absolu
Ecarts absolus
x : statistique, xi : modalites, ni : effectifs, p nbre de modalites.
1 Ecart absolu moyen :
ex =1
n
p∑i=1
ni |xi − x |.
2 Ecart absolu median :
eMe =1
n
p∑i=1
ni |xi −Me |.
Remarques
Plus les ecarts absolus sont grands, plus la serie est dispersee.
Avantage : facile a calculer, ecart absolu median moins sensibleaux valeurs extremes.
Inconvenient : ne se prete pas aux calculs algebriques.
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Ecart-type et variance
Ecart-type et variance
Definition
La variance est la moyenne arithmetique ponderee des ecarts ala moyenne au carre. L’ecart-type est la racine carree de lavariance.
Variance :
Var (x ) =1
n
p∑i=1
ni (xi − x )2 =
p∑i=1
fi (xi − x )2
Ecart-type :
σx =√
Var (x )
Interpretation
Plus l’ecart-type (ou variance) est grand(e) et plus la serieobservee est dispersee.
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Ecart-type et variance
Ecart-type et variance
Definition
La variance est la moyenne arithmetique ponderee des ecarts ala moyenne au carre. L’ecart-type est la racine carree de lavariance.
Variance :
Var (x ) =1
n
p∑i=1
ni (xi − x )2 =
p∑i=1
fi (xi − x )2
Ecart-type :
σx =√
Var (x )
Interpretation
Plus l’ecart-type (ou variance) est grand(e) et plus la serieobservee est dispersee.
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Ecart-type et variance
Ecart-type et variance (2)
Autre expression de la variance :
Var (x ) =1
n
p∑i=1
ni (xi − x )2
=1
n
p∑i=1
nix2i − (x )2
= x 2 − (x )2
= “moyenne des carres” − “carre de la moyenne”.
BTout comme la moyenne, pour calculer une variance (ouecart-type) pour une variable continue (dont les donnees sontregroupees en classes) on remplace les xi par ci les centres declasse.
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Ecart-type et variance
Ecart-type et variance (3)
Calculez les variance etecart-type de la seriesuivante :
xi (en e) ci ni (×106) fi[0, 1600[ 800 9 45%
[1600, 2400[ 2000 7 35%[2400, 3200[ 2800 4 20%
Total × 20 100%
Methode 1 : on rappelle que x = 1620e.
Var (x ) =1
20
(9 × (800 − 1620)2 + 7 × (2000 − 1620)2 + 4 × (2800 − 1620)2
)= 631600 e2.
Methode 2 :
x2 =1
20
(9 × 8002 + 7 × 20002 + 4 × 28002
)= 3256000 e2
Var (x ) = x2 − (x )2 = 3256000 − 16202 = 631600 e2
Ecart-type : σx =√
631600 ' 794.7 e.
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Ecart-type et variance
Ecart-type et variance (3)
Calculez les variance etecart-type de la seriesuivante :
xi (en e) ci ni (×106) fi[0, 1600[ 800 9 45%
[1600, 2400[ 2000 7 35%[2400, 3200[ 2800 4 20%
Total × 20 100%
Methode 1 : on rappelle que x = 1620e.
Var (x ) =1
20
(9 × (800 − 1620)2 + 7 × (2000 − 1620)2 + 4 × (2800 − 1620)2
)= 631600 e2.
Methode 2 :
x2 =1
20
(9 × 8002 + 7 × 20002 + 4 × 28002
)= 3256000 e2
Var (x ) = x2 − (x )2 = 3256000 − 16202 = 631600 e2
Ecart-type : σx =√
631600 ' 794.7 e.
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Ecart-type et variance
Ecart-type et variance (3)
Calculez les variance etecart-type de la seriesuivante :
xi (en e) ci ni (×106) fi[0, 1600[ 800 9 45%
[1600, 2400[ 2000 7 35%[2400, 3200[ 2800 4 20%
Total × 20 100%
Methode 1 : on rappelle que x = 1620e.
Var (x ) =1
20
(9 × (800 − 1620)2 + 7 × (2000 − 1620)2 + 4 × (2800 − 1620)2
)= 631600 e2.
Methode 2 :
x2 =1
20
(9 × 8002 + 7 × 20002 + 4 × 28002
)= 3256000 e2
Var (x ) = x2 − (x )2 = 3256000 − 16202 = 631600 e2
Ecart-type : σx =√
631600 ' 794.7 e.
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Ecart-type et variance
Variance intra et interpopulation
Theoreme
Considerons une population P de taille n composee de ksous-populations P1, . . . ,Pk d’effectifs respectifs n1, . . . ,nk . Notons,x1, . . . , x k et Var (x1), . . . ,Var (xk ) les moyennes et variances des ksous-populations. Alors, la variance de la population P est
Var (x ) =n1Var (x1) + . . . + nkVar (xk )
n+
n1(x − x1)2 + . . . + nk (x − x k )2
n
=1
n
k∑i=1
niVar (xi ) +1
n
p∑i=1
ni (x i − x )2
= “moyenne des variances”+“variance des moyennes”
= Variance intra-population + Variance inter-population.
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Ecart-type et variance
Variance intra et interpopulation (2)
Verifions le resultat precedent sur l’exemple suivant : on etudie lesalaire de nH =200 hommes et nF =100 femmes d’une entreprise.
Calculez les variancesinter-, intra- et totale dela serie :
xi (en e) ci ni ,H ni ,F ni ,E
[0, 1500[ 750 70 60 130[1500, 3000[ 2250 130 40 170
Total × 200 100 300
Pour simplifier (un peu)les calculs :
xH = 1725 e Var (xH ) = 511875 e2
xF = 1350 e Var (xF ) = 540000 e2
x = 1600 e Var (x ) = 552500 e2.
Moyenne des variances :
Var . Intra =1
300(200 ×Var(xH) + 100 ×Var(xF))
=1
300(200 × 511875 + 100 × 540000) = 521250e2.
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Ecart-type et variance
Variance intra et interpopulation (2)
Verifions le resultat precedent sur l’exemple suivant : on etudie lesalaire de nH =200 hommes et nF =100 femmes d’une entreprise.
Calculez les variancesinter-, intra- et totale dela serie :
xi (en e) ci ni ,H ni ,F ni ,E
[0, 1500[ 750 70 60 130[1500, 3000[ 2250 130 40 170
Total × 200 100 300
Pour simplifier (un peu)les calculs :
xH = 1725 e Var (xH ) = 511875 e2
xF = 1350 e Var (xF ) = 540000 e2
x = 1600 e Var (x ) = 552500 e2.
Moyenne des variances :
Var . Intra =1
300(200 ×Var(xH) + 100 ×Var(xF))
=1
300(200 × 511875 + 100 × 540000) = 521250e2.
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Ecart-type et variance
Variance intra et interpopulation (2)
Verifions le resultat precedent sur l’exemple suivant : on etudie lesalaire de nH =200 hommes et nF =100 femmes d’une entreprise.
Calculez les variancesinter-, intra- et totale dela serie :
xi (en e) ci ni ,H ni ,F ni ,E
[0, 1500[ 750 70 60 130[1500, 3000[ 2250 130 40 170
Total × 200 100 300
Pour simplifier (un peu)les calculs :
xH = 1725 e Var (xH ) = 511875 e2
xF = 1350 e Var (xF ) = 540000 e2
x = 1600 e Var (x ) = 552500 e2.
Variance des moyennes :
Var . Inter =1
300
(200 × (xH − x)2 + 100 × (xF − x)2
)=
1
300
(200 × (1725 − 1600)2 + 100 × (1350 − 1600)2
)= 31250e2.
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Ecart-type et variance
Variance intra et interpopulation (3)
Resumons un peu ces calculs :
Var (x ) = 552500e2.
Var . Intra + Var . Inter = Moy. des variances + Var. des moyennes
= 521250 + 31250 = 552500e2.
Peut-on dire que la caracteristique H/F influence le salaire ?
Sitel est le cas, la variance des moyennes est forte relativelement ala variance totale des salaires. Or,
Var . Inter
Var (x )=
31250
552500' 5.66%.
5.66% de la variance est expliquee par l’heterogeneite desmoyennes (H/F) ce qui est relativement faible. Par consequent,les salaires de cette entreprise ne sont que peu influences par lesexe.
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Ecart-type et variance
Variance intra et interpopulation (3)
Resumons un peu ces calculs :
Var (x ) = 552500e2.
Var . Intra + Var . Inter = Moy. des variances + Var. des moyennes
= 521250 + 31250 = 552500e2.
Peut-on dire que la caracteristique H/F influence le salaire ? Sitel est le cas, la variance des moyennes est forte relativelement ala variance totale des salaires. Or,
Var . Inter
Var (x )=
31250
552500' 5.66%.
5.66% de la variance est expliquee par l’heterogeneite desmoyennes (H/F) ce qui est relativement faible. Par consequent,les salaires de cette entreprise ne sont que peu influences par lesexe.
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Comparaison de series statistiques et synthese
Complement I : Comparaison de series (1)
soit x la serie statistique de 4 produits en Francs : 100F, 200F,300F et 400F.
soit y la serie statistique des 4 produits en e :15e, 30e,45e,60e.
Intuitivement, ces deux series sont dispersees de la mememaniere. Or,
σx = 111.8F et σy = 16.8e.
Conclusion : pour comparer les deux series qui ne sont pas dansla meme unite, il faut transformer les caracteristiques dedispersion.
Coefficient de variation :σx
x= c’est le % de variation par
rapport a la moyenne, sans unite.
σx
x'
111.8
250' 0.45 et
σy
y'
16.8
37.5' 0.45.
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Comparaison de series statistiques et synthese
Complement I : comparaison de series (2)
D’autres indicateurs de comparaison de series statistiques :
Coefficient de dispersion :
Q3 −Q1
Meou
D9 −D1
Me.
Rapport interquartile ou rapport interdecile :
Q3
Q1ou
D9
D1
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Comparaison de series statistiques et synthese
Complement II : la boıte a moustaches (1)
aussi appelee box plot ou diagrammede Tukey.
moyen rapide de visualiser descaracteristiques centrale et dedispersion d’une serie quantitative.
principalement utilisee pourcomparer un meme caracterepour plusieurs populations.
basee sur le calcul de D1,Q1,Me,Q3
et D9.
D1
Q1
Me
Q3
D9
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Comparaison de series statistiques et synthese
Complement II : la boıte a moustaches (1)
aussi appelee box plot ou diagrammede Tukey.
moyen rapide de visualiser descaracteristiques centrale et dedispersion d’une serie quantitative.
principalement utilisee pourcomparer un meme caracterepour plusieurs populations.
basee sur le calcul de D1,Q1,Me,Q3
et D9.
D1
Q1
Me
Q3
D9
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Comparaison de series statistiques et synthese
Complement II : la boıte a moustaches (1)
aussi appelee box plot ou diagrammede Tukey.
moyen rapide de visualiser descaracteristiques centrale et dedispersion d’une serie quantitative.
principalement utilisee pourcomparer un meme caracterepour plusieurs populations.
basee sur le calcul de D1,Q1,Me,Q3
et D9.
D1
Q1
Me
Q3
D9
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Comparaison de series statistiques et synthese
Complement II : la boıte a moustaches (1)
aussi appelee box plot ou diagrammede Tukey.
moyen rapide de visualiser descaracteristiques centrale et dedispersion d’une serie quantitative.
principalement utilisee pourcomparer un meme caracterepour plusieurs populations.
basee sur le calcul de D1,Q1,Me,Q3
et D9.
D1
Q1
Me
Q3
D9
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Comparaison de series statistiques et synthese
Complement II : la boıte a moustaches (2)
Etude sur le niveau de vie des menages en euros par CSP (personne
de reference) en 2010. Application : completez le graphique suivant
avec les revenus des agriculteurs . . .
sachant que pour lesagriculteurs
D1 = 6040
Q1=11135
Me = 18010
Q3 = 27140
D9 = 39010
agriculteurs cadres profInt employes ouvriers
1000
020
000
3000
040
000
5000
0
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Comparaison de series statistiques et synthese
Complement II : la boıte a moustaches (2)
Etude sur le niveau de vie des menages en euros par CSP (personne
de reference) en 2010. Application : completez le graphique suivant
avec les revenus des agriculteurs . . .
sachant que pour lesagriculteurs
D1 = 6040
Q1=11135
Me = 18010
Q3 = 27140
D9 = 39010
agriculteurs cadres profInt employes ouvriers
1000
020
000
3000
040
000
5000
0
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Introduction
Elles sont utilisees pour mesurer (essentiellement) larepartition de la masse salariale. La repartition de la massesalariale se situe entre les deux cas extremes suivants
Repartition des salaires parfaitement equitables : un certainpourcentage de salaries recoit le meme pourcentage de lamasse salariale. On dit que la concentration est nulle.Un seul salarie recoit toute la masse salariale (et les autresrien). On dit que la concentration est maximale.
Trois indicateurs pour quantifier la concentration1 courbe de Lorentz2 Indice de Gini3 Mediale.
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Courbe de Lorentz
Courbe de Lorentz
On etudie les salaires de 50 employes d’une entreprise.
xi (en e) ci ni fi Fi
[600, 1200[ 900 15 30% 30 %[1200, 1800[ 1500 25 50% 80%[1800, 2100[ 1950 10 20% 100%Total × 50 100% ×
1
2
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Courbe de Lorentz
Courbe de Lorentz
On etudie les salaires de 50 employes d’une entreprise.
xi (en e) ci ni fi Fi nici[600, 1200[ 900 15 30% 30 % 13500[1200, 1800[ 1500 25 50% 80% 37500[1800, 2100[ 1950 10 20% 100% 19500Total × 50 100% × 70500
1 on calcule la masse salariale = ni × ci .
2
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Courbe de Lorentz
Courbe de Lorentz
On etudie les salaires de 50 employes d’une entreprise.
xi (en e) ci ni fi Fi nici gi Gi
[600, 1200[ 900 15 30% 30 % 13500 19.1% 19.1%[1200, 1800[ 1500 25 50% 80% 37500 53.2% 72.3%[1800, 2100[ 1950 10 20% 100% 19500 27.7% 100%Total × 50 100% × 70500 100% ×
1 on calcule la masse salariale = ni × ci .
2 on calcule le % de la masse salariale gi , ainsi que les frequences
cumulees Gi .
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Courbe de Lorentz
Courbe de Lorentz
On etudie les salaires de 50 employes d’une entreprise.
xi (en e) ci ni fi Fi nici gi Gi
[600, 1200[ 900 15 30% 30 % 13500 19.1% 19.1%[1200, 1800[ 1500 25 50% 80% 37500 53.2% 72.3%[1800, 2100[ 1950 10 20% 100% 19500 27.7% 100%Total × 50 100% × 70500 100% ×
Definition
La courbe de Lorentz est obtenue en faisant correspondre a lafrequence cumulee Fi a la frequence cumulee Gi de la masse salariale.
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Courbe de Lorentz
Courbe de Lorentz (2)
0 20 40 60 80 100
020
4060
8010
0
Fi (en %)
Gi (
en %
)
●
●
●
●
●
droite rouge = repartition parfaitement equitable.
Plus la courbe de Lorentz est eloignee de la droite rouge etplus la concentration est forte (repartition de moins en moinsequitable).
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Indice de Gini
Indice de Gini
0 20 40 60 80 100
020
4060
8010
0
Fi (en %)
Gi (
en %
)
●
●
●
●
●
Soit S la surface orange.
IGini = SSurf. Demi-carre = 2S ∈ [0, 1]
Plus IGini est proche de 0 , plus la concentration est faible(proche de equirepartition).
Dans notre cas, IGini ' 14% (on ne cherchera pas a calculerl’indice)
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Mediale
Mediale
xi (en e) ci ni fi Fi nici gi Gi
[600, 1200[ 900 15 30% 30 % 13500 19.1% 19.1%[1200, 1800[ 1500 25 50% 80% 37500 53.2% 72.3%[1800, 2100[ 1950 10 20% 100% 19500 27.7% 100%Total × 50 100% × 70500 100% ×
La mediale est la mediane de la serie masse associee. Dansnotre exemple
Mediale = 1200 +50% − 19.1%
72.3% − 19.1%× (1800 − 1200) ' 1548e.
Les salaries recevant moins de 1548 erepresentent 50% de lamasse salariale.
Mesure de concentration :
∆ =Mediale −Me
Etendue≥ 0.
∆ petit = faible concentration, ∆ grand= grande concentration.Ici, on peut verifier que ∆ ' (1548 − 1440)/(2100 − 600) ' 7.2%.
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Mediale
Mediale
xi (en e) ci ni fi Fi nici gi Gi
[600, 1200[ 900 15 30% 30 % 13500 19.1% 19.1%[1200, 1800[ 1500 25 50% 80% 37500 53.2% 72.3%[1800, 2100[ 1950 10 20% 100% 19500 27.7% 100%Total × 50 100% × 70500 100% ×
La mediale est la mediane de la serie masse associee. Dansnotre exemple
Mediale = 1200 +50% − 19.1%
72.3% − 19.1%× (1800 − 1200) ' 1548e.
Les salaries recevant moins de 1548 erepresentent 50% de lamasse salariale.
Mesure de concentration :
∆ =Mediale −Me
Etendue≥ 0.
∆ petit = faible concentration, ∆ grand= grande concentration.Ici, on peut verifier que ∆ ' (1548 − 1440)/(2100 − 600) ' 7.2%.
Caracteristiques de tendance centrale Caracteristiques de dispersion Caracteristiques de concentration
Mediale
Mediale
xi (en e) ci ni fi Fi nici gi Gi
[600, 1200[ 900 15 30% 30 % 13500 19.1% 19.1%[1200, 1800[ 1500 25 50% 80% 37500 53.2% 72.3%[1800, 2100[ 1950 10 20% 100% 19500 27.7% 100%Total × 50 100% × 70500 100% ×
La mediale est la mediane de la serie masse associee. Dansnotre exemple
Mediale = 1200 +50% − 19.1%
72.3% − 19.1%× (1800 − 1200) ' 1548e.
Les salaries recevant moins de 1548 erepresentent 50% de lamasse salariale.
Mesure de concentration :
∆ =Mediale −Me
Etendue≥ 0.
∆ petit = faible concentration, ∆ grand= grande concentration.Ici, on peut verifier que ∆ ' (1548 − 1440)/(2100 − 600) ' 7.2%.