71

Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions

Embed Size (px)

Citation preview

Page 1: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions
Page 2: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions
Page 3: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions
Page 4: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions
Page 5: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions
Page 6: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions
Page 7: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions
Page 8: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions

Introduction

Les concepts de base

Page 9: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions

Thèmes

• La statistique - pourquoi?

• Les statistiques descriptives– Analyse des fréquences

• Les distributions

– Les mesures de tendance centrale• Quelle mesure faut-il prendre ?

– Les mesures de la dispersion– La relation entre deux variables

• La statistique inférentielle

Page 10: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions

La statistique sert à ...

• La description des données • Inférence: étude des caractéristiques

d’une population à partir d’un sous-ensemble (échantillon) tiré de cette population– Estimation des paramètres– Vérification des hypothèses

Page 11: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions

Présentation de toutes les données

Page 12: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions

La statistique descriptive

Les étapes– Poser une question– Élaborer une étude (choix de l’échantillon,

choix des mesures)– Récolter les données– Décrire les données – Interpréter les données

Hypothèse Données Conclusion

Page 13: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions

Un exempleQuestion: Développement de la population Méthode: Recensions de la population au Canada

Page 14: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions

Tracé en arborescence

Page 15: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions

Type de variables• Variable: Une variable est une caractéristique qui peut supposer

plus d'un ensemble de valeurs auquel il est possible d'attribuer une mesure numérique

• Les variables nominales servent uniquement à catégoriser, aucun ordre et aucune métrique ne correspond à la classification (ex: couleur des yeux)

• Les variables ordinales fournissent un ordre. Pourtant les intervalles entre les catégories correspondant aux chiffres peuvent être variables (ex: mise en rang des préférences)

• Les variables par intervalles sont métriques. Des intervalles égaux et mesurables existent entre chacune des catégories, pourtant le point zéro est arbitraire (ex: échelles de température Fahrenheit et Celsius)

• Les variables de rapport sont des variables par intervalle avec un zéro absolu (ex: les fréquences absolues, l’échelle de température Kelvin)

Page 16: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions

Analyse des fréquences

Page 17: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions

Taille des personnes

Page 18: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions

Forme de la distribution

Distribution bimodaleDistribution symétriquemoyenne = médiane = mode

Biais positif: moyenne > médiane > mode

Biais négatif: mode > médiane > moyenne

Page 19: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions

SPSS - Frequencies

Page 20: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions
Page 21: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions
Page 22: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions

Mesures de la tendance centrale

Mode : Valeur ou catégorie d’une variable ayant la plus forte fréquence

Médiane : Valeur qui divise le nombre des observations d’une distribution en deux parts égales

Moyenne arithmétique : Somme pondérée des valeurs d’une variable

Page 23: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions

Exemple

• Données: nombre de partenaires sexuelles

50 100 150 200 250

part

0

500

1000

1500

Count

femmes hommes

50 100 150 200 250

part

Page 24: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions

Calcul du mode

50 100 150 200 250

part

0

500

1000

1500

Count

femmes hommes

50 100 150 200 250

part

La valeur la plus fréquente

Page 25: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions

Calcul de la médiane

• Trier les observations selon leur ordre de magnitude

• Identifiez le chiffre au milieuEx. : Quelle est la médiane de la série

suivante ?:11, 11, 13, 15, 17, 17, 17, 19, 19, 19, 19et de celle-ci ?:

1,5,6,9,11,12

Page 26: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions

Calcul de moyenne

µ = x/n

Ex. : la moyenne de 1,2,3,6,6,7,9 est:

La somme x est (1+2+3+…+9) = 34

Il y a n = 7 observations

µ = 34 / 7 = 4.9

Page 27: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions

Autre types de moyennes

Trimean: La somme du 25e quartile (Q1) plus deux fois le 50e quartile (Q2) plus le 75e quartile (Q3) divisé par 4.

Donc: (Q1 + (2*Q2) + Q3)/4

Moyenne tronquée (trimmed mean):Avant de calculer la moyenne 5% des valeurs extrêmes sont enlevées (Ex: Notes de patinage artistique)

Page 28: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions

Exemple

Tendence centrale Femmes Hommes

Mode 1 1

Median 1 4

Moyenne 3.37 10.92

Trimean 1.50 4.75

Trimmed mean 2.40 6.92

Page 29: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions

SPSS - Explore

Page 30: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions
Page 31: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions
Page 32: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions

Quelle mesure faut-il prendre ?

• Échelle de mesure

• Distribution des données

Page 33: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions

Distribution • Un chercheur pose la question à savoir combien de

livres de statistique et de méthodologie possèdent les étudiants.

• Dans un groupe cours les 5 étudiants ont tous un livre de stats de leurs cours du CEGEP, du Bac et du Doctorat ainsi que deux livres de métho.

100 1 2 3 4 5 6 7 8 9 11 12

Page 34: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions

• Dans un autre cours, plusieurs étudiants ont vendu certains livres alors que d’autres étudiants ont acheté des livres plus spécialisés.

100 1 2 3 4 5 6 7 8 9 11 12

Page 35: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions

• Finalement, dans un autre groupe cours, il y a une personne qui possède maintenant 12 livres.

100 1 2 3 4 5 6 7 8 9 11 12

Page 36: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions

Mesures de la dispersion

Pourquoi? Les mesures de tendance centrale décrivent

les observations "en général" ou "en moyenne".

Les mesures de la dispersion nous informent jusqu'à quel point ces observations sont proche ou loin de leur "moyenne".

Page 37: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions

L’étendue

• La différence entre la valeur la plus grande et la valeur la plus petite.

• Cette mesure est très sensible aux valeurs extrêmes.

Ex: 3 5 7 8 9 10 12 13 l’étendu: 13-3 = 10

Femmes: 100 Hommes: 253

Page 38: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions

Intervalle semi-interquartile

• La moitié de la différence entre le 75e quartile (Q3) et le 25e quartile (Q1).

• Donc: (Q3-Q1)/2.

• Cette mesure est très peu sensible au valeurs extrêmes.

Femmes: 2 Hommes: 9

Page 39: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions

0

1

2

3

4

5

6

7

0 2 4 6 8 10 12

Sujet

Partenaires

-2 -3

2

-1

1

3

-2

1 1 = 8

= −8

Page 40: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions

Écart-type

x i − x( )∑ x i − x( )Sommes des carrés (SC) =

Variance (s2) = SS/N-1

Écart-type (s) =

2

xi−x( )∑N −1

Femmes: 6.25 Hommes: 23.51

Femmes: 39.08 Hommes: 552.63

Page 41: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions

Erreur-type

Page 42: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions

La relation entre deux variables

Page 43: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions

La covarianceLa moyenne du produit des déviations des valeurs des variables par rapport à leur moyenne.

cov(x,y) =xi −x ( ) yi −y ( )∑

N −1

• Cette mesure varie selon l'échelle de mesure. Ex: On obtient une valeur différente pour la taille quand on la mesure soit en pouce soit en centimètre.

Page 44: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions

La corrélation: La covariance divisée par le produit des écart types des variables

• Le coefficient de corrélation varie entre -1 et 1. • Le signe correspond à la direction de la corrélation.

Quand les deux valeurs augmentent ou diminuent ensemble il s'agit d'une corrélation positive.

• Quand une valeur augmente alors que l'autre diminue il s'agit d'une corrélation négative

• La taille absolue correspond au degré du lien entre les deux variables

r =covx,y

sxsy

Page 45: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions

Corrélation

Page 46: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions

• Sir Francis Galton se posa la question à savoir s’il y a un lien entre la taille des parents et la taille de leurs enfants. Il a donc mesuré la taille de 952 parents et de leurs enfants.

Exemple

Sir Francis Galton1822-1911

Page 47: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions

Régression vers la moyenne

Page 48: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions

SPSS - Corrélations

Page 49: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions

Fenêtre des variables

Page 50: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions

Output

Page 51: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions

Scatterplot

Page 52: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions
Page 53: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions

Scatterplot

Page 54: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions

LE THÉORÈME DES LIMITES CENTRALES

La statistique inférentielle

Page 55: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions

Un dé

Page 56: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions

Deux dés

Page 57: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions

Trois dés

Page 58: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions

Quatre dés

Page 59: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions

Le théorème des limites centrales

Pour une variable x avec une distribution de moyenne µ et d’un écart-type , la distribution d’échantillonnage de la moyenne x , basé sur un échantillon aléatoire de la taille n, a:

– une forme qui approche la courbe normale pour les tailles d’échantillons larges

– une moyenne égale à µ et– un écart-type égal à:

Page 60: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions

Les tests d’hypothèses

Comparaison entre deux moyennes

Estimation des paramètres

Page 61: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions

Stendhal (1839) La chartreuse de Parme

J'avouerai que j'ai eu la hardiesse de laisser au personnages les aspérités de leurs caractères; mais, en revanche, je le déclare hautement, je déverse le blâme le plus moral sur beaucoup de leurs actions. A quoi bon leur donner la haute moralité et les grâces des caractères français, lesquels aiment l'argent par-dessus tout et ne font guère de péchés par haine ou par amour? Les Italiens de cette nouvelle sont à peu près le contraire.

Page 62: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions

Étude de Stieglitz et al.

Pays Moyenne ET Min Max N

Italie 19.8 4.6 6.5 31.5 122

France 13.4 4.0 3.9 23.6 119

Page 63: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions

Intervalle de confiance• La moyenne m est un estimé de µ• L’erreur-type (se) est un estimé de • Dans une distribution normale 68% des valeur se

retrouvent dans la région d’un E.T. autour de la moyenne, 95% se retrouvent dans la région de deux E.T. autours de la moyenne

x±2ETN

Page 64: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions

Intervalles de confiance

19.8 ± 2.4 ∗4.6

122=19.8 ±1.03

13.4±2.4∗4.0119

=13.4±0.88

10 14 16 20

Page 65: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions

Intervalle de confiance de la différence

m = 19.8-13.4 = 6.4

se=121* 4.6( ) 118* 4.0( )

122+119−2

⎝ ⎜

⎠ ⎟

122+119122*119

⎛ ⎝ ⎜

⎞ ⎠ ⎟ =0.6

0.95CI = 6.4 ± 2 * .06 = 6.4 ±1.2

Page 66: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions

Statistique inférentielle

Tests d’hypothèses

Page 67: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions

Logique du Test - T

• Si les deux échantillons proviennent d’une même population les moyennes devraient être à peu près identiques

• Nous comparons la différence entre les deux moyennes avec un estimé de la dispersion des moyennes dans la population (erreur-type).

• Quand la différence est plus grande que notre estimé de la dispersion laisse croire, les deux moyennes sont soit:– Atypiques pour une seule population– Typiques pour leur population et proviennent de populations

différentes

Page 68: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions

Courbe t avec s = .06

t = 1x − 2xse

=6.40.6

=10.7

Carl Friedrich GaussAvril, 30 1777 (Braunschweig, Allemagne) - Février, 23 1855 (Göttingen, Allemagne)

Page 69: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions

SPSS - T-testW.S. Gosset (1905)

Page 70: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions
Page 71: Introduction Les concepts de base Thèmes La statistique - pourquoi? Les statistiques descriptives –Analyse des fréquences Les distributions