34
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 5: 29 octobre 2012 1 Les statistiques descriptives: mesures de tendance centrale et de dispersion (1 ière partie) & Les statistiques descriptives en R (2 ième partie)

Les statistiques descriptives: mesures de tendance ...srv2.lemig.umontreal.ca/donnees/geo1512/GEO1512_lec5_10292012_1... · concepts de base en mathématiques! 3 Oliver Sonnentag,

Embed Size (px)

Citation preview

Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 5: 29 octobre 2012�

1

Les statistiques descriptives: mesures de tendance centrale et de dispersion (1ière partie)

&

Les statistiques descriptives en R (2ième partie)

2 Ressources supplémentaires

Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 5: 29 octobre 2012�

Compléments de mathématiques. •  http://math.cmaisonneuve.qc.ca/alevesque/m101.html

Il est de votre responsabilité de vous assurer que vous comprenez les concepts de base en mathématiques!

3

Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 5: 29 octobre 2012�

Lettres greques couramment utilsées en statistique

Notes des cours Borcard (2006)

4 Statistiques descriptives

Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 5: 29 octobre 2012�

•  Données sont essentielles pour la science! Mais devons-nous communiquer toutes les données que nous recueillons?

•  Paramètres de position: valeurs centrales autour desquelles se groupent les valeurs observées ! moyenne arithmétique, moyenne géométrique, moyenne harmonique, médiane, mode

•  Paramètres de dispersion: ils renseignent quant à l’étalement de la distribution des valeurs autour des valeurs centrales ! variance, écart type, erreur standard de la moyenne

Ex: des tableux des représentations graphiques

Après notes des cours Proulx (2006) et Borcard (2006).

5 Moyenne arithmétique

Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 5: 29 octobre 2012�

Après notes des cours Borcard (2006).

•  avec Yi = valeur de chaque observation individuelle

•  avec n = nombre d'observations Yi tirée de l'ensemble de la population avec N éléments:

•  Important: il y a une différence entre les statistiques (échantillon: d’un échantillon) et les paramètres (population: de la population)

Y_=

Yii=1

n

∑n

≠ µ = E(Y ) = Yi pii=1

n

∑ Espérance d'une variable aléatoire discrète (séance 4)

y_=

Yii=1

n

∑N

Y_

y_

6 Loi des grandes nombres

Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 5: 29 octobre 2012�

Après notes des cours Borcard (2006).

•  Lorsque n d’un échantillon devient grand,

! les fréquences relatives estimées tendent vers les probabilités et

! les distributions de fréquence relatives observées tendent vers les distributions de probabilités

•  On dit: « is an unbiased estimator of µ »: Yi sont aléatoires et indépendants, et la population est décrit par une variable aléatoire normale.

limn→∞

Yii=1

n

∑n

=Yn_

$

%

&&&&

'

(

))))

= E(Y ) = µ Espérance d'une variable aléatoire normal (séance 4)

Y_n

7

Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 5: 29 octobre 2012�

Moyenne géométrique

•  Variable aléatoire log-normale: Y

•  Variable aléatoire Z = ln(Y) ! variable aléatoire normale

! Y = eZ

avec e = base du logarithme naturel (~2,71828 ….)

GY: « back-transformed » moyenne

GY = e1n

ln(Yi )i=1

n

∑"

#$$

%

&''

•  Variable aléatoire non-normale: Y

•  Variable aléatoire Z = 1/Y ! variable aléatoire normale

! HY: « subcontrary » moyenne

•  > GY > HY mais pour Y1 = Y2 = Y3 ….. Yi ! = GY = HY

8 Moyenne harmonique

Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 5: 29 octobre 2012�

HY =1n

1Yii=1

n

Y_n Y

_n

9 Médiane

Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 5: 29 octobre 2012�

•  MeY: la valeur de la variable qui se suite au centre de la série statistique, classée en ordre croissant

•  MeY sépare la série en deux groupes d’égale importance

•  S’il y un nombre impair d’observation, MeY est une observation de la série. Exemple: pour la série [1, 32, 128, 129, 1000235], MeY = ?

•  S’il y a un nombre pair d’observations, MeY est située entre les deux observations centrale de la série. Par convention, on utilise la moyenne de ces deux valeurs. Exemple: pour la série [1, 32, 128, 129, 532, 1000235], MeY = ?

Notes des cours Borcard (2006).

10 Mode

Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 5: 29 octobre 2012�

Notes des cours Borcard (2006).

•  MoY: la valeur d’une variable ayant la plus forte fréquence.

•  Pour une variable discrète comportant peu de classes, on trouve la classe la plus fréquence. Sa valeur est le mode. Pour une variable continue on divise celle-ci en classes

•  Une distribution de fréquences a plusieurs modes si on veut mettre en évidence le fait qu’elle a plusieurs classes non contiguës dont la fréquence est nettement plus élevée que celle des autres classes.

11 Comparaison entre moyenne a., médiane, mode

Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 5: 29 octobre 2012�

Y_

) )

Y_

Y_

Y_

Après notes des cours Proulx (2006) et Borcard (2006).

12 En utilisant différentes paramètres de position

Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 5: 29 octobre 2012�

•  : commodité; Théorème Central Limite: de de grands échantillons sont conformes à la distribution normale ! il est facile de tester des hypothèses sur la base de cette propriété (séance 6)

•  GY: processus multiplicatifs ! e.g., taux de croissance démographique

•  HY: bonne question .... Je ne sais pas beaucoup sur moi-même!

•  MeY:

•  MoY:

Y_

Important: ne pas faire confiance à aucun de ces paramètres de position sans paramètres de dispersion!

Y_

} particulièrement utile lorsque les distributions des observations ne suivent pas une distribution de probabilité standard

13 Variance et écart type d’une population

Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 5: 29 octobre 2012�

•  Avec la loi de grande nombres, la variance d’une population:

•  et l’écart type d’une population:

•  et la somme des carrés:

•  SSY est d'une importance fondamentale pour l'analyse de régression (séance 9) et l'analyse de la variance (séance 10)

s2 = 1n

(Yi −Y_)2∑ =σ 2 (Y ) = E Y −E(Y )[ ]2 Variance d'une

variable aléatoire discrète (séance 4)

SSY = (Yi −Y_)2∑

s = s2

14 Degré de liberté

Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 5: 29 octobre 2012�

•  Degré de liberté: nombre de « pièces d'information indépendantes » que nous avons dans un ensemble de données pour l'estimation des statistiques.

•  Exemple: échantillon avec n = 1 ! s2 = σ2 = 0

! Toutes les « pièces d'information indépendantes » sont utilisées pour calculer la moyenne arithmétique, donc il n'y a pas de « pièces d'information indépendantes » pour calculer s2

and/or σ2!

15 Variance et écart type d’une échantillon

Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 5: 29 octobre 2012�

•  « Unbiased estimator » s2 pour σ2:

•  « unbiased estimator » s pour σ:

s2 = 1n−1

(Yi −Y_)2∑

s = 1n−1

(Yi −Y_)2∑

Important: n – 1 règle pour les degrés de liberté: au moins deux observations sont nécessaires pour calculer s2 et/ou s!

16 Coefficients de variation et de dispersion

Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 5: 29 octobre 2012�

Après notes des cours Borcard (2006).

•  En lui-même les paramètres de dispersion ne dit pas grand chose!

•  Coefficient de variation: mesure indépendante de la variabilité

•  Liée à CV: coefficient de dispersion:

CV =100* s

Y_

Unité: pourcentage!

CD =s2

Y_

Souvent utilisé pour les variables discrètes!

17 Erreur standard de la moyenne

Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 5: 29 octobre 2012�

•  est une mesure de la variabilité de l'estimation de

•  s est une mesure de la variabilité des observations individuelles sur

•  important: standard erreur de la moyenne, standard erreur de la variance, etc. ! standard erreurs doivent être spécifiées!!!!!!!!!!!

•  échantillon représentatif de la population:

•  représentativité de la population n'est pas connue: s

sY_ =

sn

•  est un autre paramètre de la dispersion très important, notamment en biologie, géographie et sciences de l'environnement: sY_

Y_

Y_s

Y_

Toujours: < s sY_

Y_

18 Moments central (1ière & 2ième)

Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 5: 29 octobre 2012�

•  Moment central: en général, la moyenne des écarts de toutes les observations dans un groupe de données à partir de la moyenne des observations, élevé à une puissance de r:

CM =1n

(Yi −Y_)r

i=1

n

•  avec n = number of observations

•  avec Yi = valeur de chaque observation individuelle

•  = moyenne arithmétique des n observations

•  r = entier positif

•  r = 1 ! ?

•  r = 2 ! ?

Y_

19 Coefficient d’asymétrie

Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 5: 29 octobre 2012�

•  g1 décrit comment l'échantillon diffère en forme d'une distribution symétrique:

g1 =1ns3

(Yi −Y_)3

i=1

n

•  r = 3 ! coefficient d’asymmétrie:

g1 = 0 g1 < 0: left-skewed g1 > 0: right-skewed

20 Coefficient d’aplatissement

Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 5: 29 octobre 2012�

•  g2 décrit comment l'échantillon est distribué dans les queues rapport au centre de la distribution:

g2 =1ns4

(Yi −Y_)4

i=1

n

∑#

$%

&

'(−3

•  r = 4 ! coefficient d’aplatissement:

gs = 0: mesokurtic g2 < 0: platykurtic g2 > 0: leptokurtic http://mvpprograms.com/help/mvpstats/distributions/SkewnessKurtosis

21 Fractiles

Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 5: 29 octobre 2012�

•  Fractiles : la valeur qui sépare la distribution en deux parties

! np et n(1-p)

•  Dans les données, il y a donc np élements dont la valeur est inférieure à et n(1-p) élements quit ont une valuer supérieure.

•  p = 0.5 ! ?

•  p = 0.25 ! premier quartile

•  p = 0.75 ! troisième quartile

•  one peut aussi fractionner la distribution en déciles ( ) ou en pourcentiles ( )

•  L’écart interfractile:

Après notes des cours Borcard (2006).

Y_p

Y_p

Y_0,10,Y

_0,20,etc.

Y_0,01,Y

_0,02,etc.

d_2 p =Y

_1−p−Y

_p

22 Le diagramme à moustaches

Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 5: 29 octobre 2012�

Après notes des cours Borcard (2006).

MeY (trait dans la boîte)

Écart interquartile (haut et bas de la boîte)

La plus grande et plus petite valeurs observées

à moins de 1.5 écart interquartile du 1er et du

3ème quartile (moustaches)

Valeurs encore plus extrêmes (cercles)

•  Quantiles ne dépend pas de la ! distributions asymétriques ou des distributions avec des valeurs extrêmes dépeindre la distribution beaucoup mieux!

Y_

23 Séance 2 & 3

Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 5: 29 octobre 2012�

Documents complémentaires et mises à jours: http://www.math.univ-toulouse.fr/~sdejean/PDF/un-peu-d-R.pdf

Tout le matériel présenté est basé sur les notes de cours par Sébastien Déjean (2012): http://perso.math.univ-toulouse.fr/dejean/

24

Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 5: 29 octobre 2012�

Un peu de statistique: descriptive (uni) Notions de base Fonctions graphiques Programmation Un peu de statistique

Statistique descriptive unidimensionnelle

Les fonctions boxplot() et hist()peuvent ne pas produire degraphique (option plot=FALSE).

La fonction stem() produit unediagramme stem-and-leaf (tige etfeuille) qui donne un aperçu de larépartition des données de façonplus « rustique » qu’un histogramme

La fonction summary() est unefonction générique (comme plot()par exemple) qui s’adapte à la classe(fonction class()) de l’objet passéen paramètre (vecteur, matrice, data

frame, résultat d’une fonction...) V

R > x=runif(100)

R > y=runif(100)

R > mean(x);var(x);sd(x)

R > min(x);max(x)

R > quantile(x);median(x)

R > quantile(x,0.9)

R > boxplot(x,plot=FALSE)

R > cov(x,y)

R > summary(x) V

R > stem(x);stem(y)

R > hist(x,plot=F)

S. Déjean Sémin’R

Présentation du logiciel R

25 Moyennes avec R

Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 5: 29 octobre 2012�

Voir aussi http://www.r-tutor.com/

•  PROBLÈME: Trouver la moyenne (arithmétique, géométrique, harmonique) des durées de l’éruption dans l'ensemble de données «faithful» de données intégré ensemble R utilisé pour le TP2, aussi..

•  SOLUTION: Les moyennes arithmétique, géométrique et harmonique des durées de l’éruption sont 3,4878, 3,2713 et 3,0893 minutes, respectivement.

26 Median avec R

Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 5: 29 octobre 2012�

Voir aussi http://www.r-tutor.com/

•  PROBLÈME: Trouvez la médiane des durées de l’éruption dans l'ensemble de données «faithful». Le résultat est une valeur réelle des données?

•  SOLUTION: La médiane des durées de l’éruption est de 4 minutes. Non, le résultat n'est pas une valeur réelle.

27 Fractiles avec R

Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 5: 29 octobre 2012�

Voir aussi http://www.r-tutor.com/

•  PROBLÈME: Trouvez les fractiles des durées de l'éruption dans l'ensemble de données “faithful”.

•  SOLUTION: Les fractiles première, seconde et troisième parties de la durée de l’éruption sont 2,1627, 4,0000 et 4,4543 minutes respectivement.

28 Écart interfractile avec R

Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 5: 29 octobre 2012�

Voir aussi http://www.r-tutor.com/

•  PROBLÈME: Trouvez l’écart interfractile des durées de l’éruption de l'ensemble de données «faithful».

•  SOLUTION: L'écart interfractile de la durée de l’éruption est 2,2915 minutes..

29 Diagramme à moustaches avec R

Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 5: 29 octobre 2012�

Voir aussi http://www.r-tutor.com/

•  PROBLÈME: Trouvez le diagramme à moustaches des durées de l’éruption dans l'ensemble de données «faithful».

•  SOLUTION: Le diagramme à moustache des durées de l’éruption est …

30 Variance avec R

Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 5: 29 octobre 2012�

Voir aussi http://www.r-tutor.com/

•  PROBLÈME: Trouver la variance des durée de l’éruption dans l'ensemble de données «faithful».

•  SOLUTION: La variance des durées de l’éruption est 1,3027.

31 Écart type avec R

Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 5: 29 octobre 2012�

Voir aussi http://www.r-tutor.com/

•  PROBLÈME: Trouvez l'écart type des durées de l’éruption de l'ensemble de données «faithful».

•  SOLUTION: L'écart-type des durée de l’éruption est 1.1414.

32 Coefficient d’asymétrie avec R

Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 5: 29 octobre 2012�

Voir aussi http://www.r-tutor.com/

•  PROBLÈME: Trouvez l'asymétrie des durées de l'éruption de l'ensemble de données «faithful».

•  SOLUTION: L'asymétrie de la durée de l'éruption est -0.41355. Il indique que la distribution des durées de l’éruption est biaisé vers la gauche.

33 Coefficient d’aplatissement avec R

Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 5: 29 octobre 2012�

Voir aussi http://www.r-tutor.com/

•  PROBLÈME: Trouvez l'aplatissement de la durée de l’éruption dans l'ensemble de données «faithful».

•  SOLUTION: L'aplatissement de la durée de l'éruption est -1.5116, ce qui indique que la distribution de la durée de l’éruption est platikurtic. Ceci est cohérent avec le fait que son histogramme n'est pas en forme de cloche.

34 Lectures

Lectures complémentaires

•  Lafaye de Micheaux, P., Drouilhet, R. Liquet, B. (2011): Le logiciel R – Maîtriser le langange, effectuer des analyses statistiques. Springer Verlag, France.

! chapitre 9

•  Quinn, G.P, Keough, M.J. (2002) Experimental design and data analysis for biologists. Cambridge University Press.

! chapitres 2.1-2.2

Lectures obligatoires •  Gotelli, N.J. and Ellison, A.M. (2004): A Primer of Ecological Statistics. Sinauer Associates Inc., Sunderland, MA, USA.

! chapitre 3

•  http://www.r-tutor.com/elementary-statistics/numerical-measures

Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 5: 29 octobre 2012�