76
1 L3 PRO

1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

Embed Size (px)

Citation preview

Page 1: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

1

L3 PRO

Page 2: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

2

Echantillonnage – Estimation d’un paramètre

Extraction de n échantillons d’une population P

Si l’on extrait plusieurs échantillons représentatifs de taille n fixée, les différences observées entre les résultats obtenus sont dues à des fluctuations d’échantillonnage. A partir d’un échantillon, on n’a donc pas de certitudes mais des estimations de paramètres.

L'estimation d'un paramètre peut être faite - par un seul nombre: estimation ponctuelle- par 2 nombres entre lesquels le paramètre peut se trouver: estimation par intervalle

Page 3: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

3

Echantillonnage – Estimation d’un paramètre

Estimation ponctuelle d’une moyenne

1

)(1

2

2

n

xxs

n

ii

x

Estimateur sans biais

n

iixn

x1

1

x barre

n

ss xx Ecart type de la moyenne

Page 4: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

4

Echantillonnage – Estimation d’un paramètre

Pour améliorer la connaissance de la moyenne, il faut augmenter la taille de l’échantillon

Page 5: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

5

Intervalle de confiance de la moyenne

Cas des grands échantillons (variance connue):

Soit une population obéissant à une loi normale de moyenne et d’écart type .

1)Pr( 2/2/

nZx

nZx

Echantillonnage – Estimation d’un paramètre

Page 6: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

6

Echantillonnage – Estimation d’un paramètre

Exemple:

45 hommes

cm 10

cm 164

x

9.2164

9.166;161

45

1096.1164;

45

1096.1164

x

x

x

à 95% de confiance

Page 7: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

7

Echantillonnage – Estimation d’un paramètre

Page 8: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

8

Cas des petits échantillons:

Quand n<30 ou quand la variance est inconnue, on prend la loi de Student.

1)Pr( 2/2/n

stx

n

stx xx

Echantillonnage – Estimation d’un paramètre

Intervalle de confiance de la moyenne

Finalement on peut toujours utiliser la loi de Student puisque t tend vers la loi normale quand n est grand…

Pour = n-1 degrés de liberté

Page 9: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

9

La loi de Student: t()

degrés de liberté

Converge vers la loi Normale quand augment.

Page 10: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

10

La probabilité d’obtenir une valeur de t à l’extérieur de l’intervalle (-t/2 et t/2) -> TABLES.

)( 2/ttP

La loi de Student: t()

Page 11: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

11

Echantillonnage – Estimation d’un paramètre

Page 12: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

12

Echantillonnage – Estimation d’un paramètre

Exemple:6 hommes

cm 11

cm 165

xs

x

12165

177;153

6

1157.2165;

6

1157.2165

x

x

x

à 95% de confiance

Finalement on peut toujours utiliser la loi de Student puisque t tend vers la loi normale quand n est grand…

Page 13: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

13

Echantillonnage – Estimation d’un paramètre

Intervalle de confiance de la variance

Soit une population obéissant à une loi normale de moyenne (inconnue) et d’écart type (inconnu).

1))1()1(

Pr(2

2/

22

2)2/1(

2xx snsn

Pour = n-1 degrés de liberté

Page 14: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

14

Si Z1, Z2, Zn sont des variables aléatoires normales centrées réduites et indépendantes entres elles, la somme des carrées de ces varaibles aléatoires obéit à la loi du 2 à degrés de libertés

222

21

2 .... ZZZ

La loi du Khi carré: 2

Page 15: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

15

La loi du Khi carré: 2

Page 16: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

16

En fait, les calculs sont fastidueux -> TABLES

)( 22 P

La loi du Khi carré: 2

Page 17: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

17

La loi du Khi carré: 2

Page 18: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

18

Echantillonnage – Estimation d’un paramètre

Intervalle de confiance de l’écart type (idem)

Soit une population obéissant à une loi normale de moyenne et d’écart type .

1))1()1(

Pr(2

2/

2

2)2/1(

2xx snsn

Pour = n-1 degrés de liberté

Page 19: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

19

Echantillonnage – Estimation d’un paramètre

Estimation ponctuelle d’un pourcentage

La population est formée d’individus ayant ou non un caractère A. Soit p la probabilité pour qu’un individu pris au hasard dans la population présente le caractère A.

1

)1(

/

2

n

pps

nap

p

Quand on dispose d’un seul échantillon de taille n, la meilleure estimation ponctuelle de P est donc la fréquence p observée sur l’échantillon.

Page 20: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

20

Echantillonnage – Estimation d’un paramètre

Grands échantillons (n>30), p ni voisin de 0, ni voisin de 1, (np>5, n(1-p)>5)

La variable fréquence obéit à une loi normale centrée réduite

1))1()1(

Pr( 2/2/ n

ppZpP

n

ppZp

Intervalle de confiance d’un pourcentage

Page 21: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

21

Echantillonnage – Estimation d’un paramètre

Un problème très fréquent!Un quotidien publie tous les mois la cote du chef du gouvernement à partir d'un sondage réalisé sur un échantillon représentatif de 1000 personnes. En janvier, la cote publiée était de 38% d'opinions favorables, en février de 36%. Un journaliste commente alors ces valeurs par "Le chef du gouvernement perd 2 points !!"

En fait: On construit un intervalle de confiance autour des proportions. Avec un seuil de 95%, on obtient respectivement [35;41] et [33;39] pour les valeurs 36% et 38%. Les deux intervalles ayant une intersection non vide, on ne peut pas conclure qu'il y ait eu baisse ou augmentation de la cote du chef de gouvernement.

Page 22: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

22

L3 PRO

Page 23: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

23

On sait qu’un homme de néanerthal mesure en moyenne 165 cm.

Sur un site on trouve 16 hommes avec une moyenne de 167 et un écart type de 8 cm (e.t. échantillon).

Comparaison de la moyenne avec la valeur théorique de 165 cm

Quel est le problème…?

Théorie de la statistique de décision

Possibilités:Moyenne très élevée: Nous pourrons être amenés à croire que ces hommes ont des tailles différentes de 165 cm

Moyenne faiblement plus élevée: on ne pourra pas conclure si c’est significativement supérieur à la norme ou si c’est l’effet du hasard.

Page 24: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

24

Question: à partir de quelle limite pouvons nous raisonnablement conclure à une différence?

H0: =165 (il n’y pas de différence)H1: ≠165

Calcul de

Sur la table la probabilité pour que la moyenne d’échantillonnage soit différente celle de la population de plus 2,131 de écart-type est de 5%.

216

8

n

ss xx

Théorie de la statistique de décision

Page 25: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

25

On sait qu’un homme de Neandertal mesure en moyenne 165 cm.

Sur un site on trouve 40 hommes avec une moyenne de 167 et un écart type de 8 cm (e.t. échantillon).

Comparaison de la moyenne avec la valeur théorique de 165 cm

Quel est le problème…?

Théorie de la statistique de décision

Possibilités:Moyenne très élevée: Nous pourrons être amenés à croire que ces hommes ont des tailles différentes de 165 cm

Moyenne faiblement plus élevée: on ne pourra pas conclure si c’est significativement supérieur à la norme ou si c’est l’effet du hasard.

Page 26: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

26

Question: à partir de quelle limite pouvons nous raisonnablement conclure à une différence?

H0: =165 (il n’y pas de différence)H1: ≠165

Calcul de

On mesure en fait 167 +/- 2.48 à 95% de confiance, ce qui n’est pas différent de 165 cm!

265.140

8

n

ss xx

Théorie de la statistique de décision

Page 27: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

27

Les deux risques d’erreur dans un test.

Décision H0 est vraie H1 est vraie H0 acceptée H0 rejetée

Bonne décision Erreur

Erreur Bonne décision

Erreur de 1ere espèce

Erreur de 2nde espèce (compliquée)1-

1-

A priori on ne sait pas à quel type d’erreur on sera confronté:Le résultat de l’échantillon a révélé 167 cm probablement par pur hasard.On conclue que la moyenne pourrait être 165 cm alors qu’en fait elle est mesurée à 167 cm.

Théorie de la statistique de décision

Page 28: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

28

H0 : hypothèse nulle ou principaleEx: Les haches de type A présentent les mêmes teneurs en Sn que les haches de type B.

H1 : hypothèse alternative ou contraire …

Soumission à une épreuve de vérité!

Conclusion : différence attribuable aux fluctuations d’échantillonnage???

Théorie de la statistique de décision

Page 29: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

29

Niveau de signification : un peu arbitraire…significatif : 0.05hautement significatif : 0.01très hautement significatif : 0.001.

Test bilatéral / unilatéral : bilatéral : différence sans se préoccuper du sens.Unilatéral : > ou <. Zone de rejet d’un seul coté de la distribution de probabilité de référence.

Echantillons indépendants ou appariés:Indépendants : aucune influence du 1er ech sur le 2nd.Appariés : prélèvements par paires. Ex : fumeurs H + F.

Théorie de la statistique de décision

Page 30: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

30

Comparaison des moyennes de 2 grands échantillons indépendants (n1 et n2 >30):

Comparaison de deux moyennes expérimentales–grands échantillons -

2

2

1

2

21

21

n

s

n

s

xxZ

xx

c

Deux échantillons qui suivent des lois normales: 1, 21; 2, 2

2

Si H0 est vraie, Zc suit une loi normale N(0,1)

Page 31: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

31

H1 ≠bilatéral

Comparaison de deux moyennes expérimentales–grands échantillons -

Page 32: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

32

H1unilatéral

Comparaison de deux moyennes expérimentales–grands échantillons -

Page 33: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

33

H1 unilatéral

Comparaison de deux moyennes expérimentales–grands échantillons -

Page 34: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

34

H0 H1 Rejet de H0 si = 0.05 = 0.01

1 = 2 1 2

1 > 2

1 < 2

|Zc| |z/2| Zc zZc z

|z/2| = 1.96 z= 1.64 z= 1.64

|z/2| = 2.57 z= 2.33 z= 2.33

Pour résumer:

Maintenant un exemple...

Comparaison de deux moyennes expérimentales–grands échantillons -

Page 35: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

35

Taille des silex sur deux sites

Les moyennes de ces deux échantillons prélevés indépendamment l’un de l’autre diffèrent-elles d’une façon hautement significative?

mms

mms

mmx

n

x

x

09,6

18,37

86,158

50

1

1

22

1

1

mms

mms

mmx

n

x

x

09,5

92,25

46,134

67

2

2

22

2

2

Comparaison de deux moyennes expérimentales–grands échantillons -

Page 36: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

36

n1 et n2 grands -> test sur la loi normale

H0 : a = b

H1 : a b (bilatéral)

2

22

1

21

21

ns

ns

xxZ

xx

c

9.22

6792.25

5018.37

66.13486.158

cZ

= 0.01, Z/2 = 2.57

Comparaison de deux moyennes expérimentales–grands échantillons -

Page 37: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

37

H0 rejetée au seuil de signification de 1%

Comparaison de deux moyennes expérimentales–grands échantillons -

Page 38: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

38

Comparaison d’une moyenne empirique à une moyenne théorique

Même principe que précédemment (quand n est grand):

n

sx

Zx

c0

que l’on teste sur la loi normale N(0,1)

H0: =0

Page 39: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

39

Cas des petits échantillons: Test t

Deux populations normales 1 et 2 de même variance (au moins approximativement) 2. Si n1 et n2 sont petits, s2

x1 et s2x2 sont des

estimateurs peu précis de 2.

Dans ce cas, la variable différence centrée réduite n’obéit plus à une loi normale mais à une loi de Student à =n1+n2-2 degrés de liberté.

Comparaison de deux moyennes expérimentales– petits échantillons -

Page 40: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

40

La variance de la distribution des différences de moyennes est estimées par s2

D

21

22 11

nnss pdD

2

)1()1(

21

22

212 21

nn

snsns xxpd

avec

Comparaison de deux moyennes expérimentales– petits échantillons -

Page 41: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

41

Ce qui donne…

H0 : a = b

Dc s

xxt 21

Avec = n1 + n2 - 2

Comparaison de deux moyennes expérimentales– petits échantillons -

Page 42: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

42

Si les variances s’avèrent inégales alors test t modifié.

2

2

1

2

21

21

n

s

n

s

xxt

xx

cm

11 2

2

2

2

1

2

1

2

2

2

2

1

2

21

21

n

n

s

n

n

s

n

s

n

s

xx

xx

avec

Comparaison de deux moyennes expérimentales– petits échantillons -

Page 43: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

43

Comparaison d’une moyenne empirique à une moyenne théorique

Même principe que précédemment. Suivant si n est petit ou grand, on calcule les variables auxiliaires suivantes:

n

sx

tx

c0

n

sx

Zx

c0

que l’on teste sur la loi de Student ou loi normale N(0,1)

H0: =0

Page 44: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

44

Fondée sur les différences de chaque paire d’éléments

21 iii xxd

On imagine que la différence obéit à une loi normale, mais en général on utilise une loi de Student à n-1 degrés de liberté:

Comparaison de moyennes de deux échantillons appariés

1

)(et 1

2

n

dds

n

ss

n

ii

dd

d

Page 45: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

45

H0 : 1 = 2 ou d = 0

H1: 1 2 , bilatéralH1: 1 > 2 , unilatéralH1: 1 < 2 , unilatéral

d

c s

dt

Comparaison de moyennes de deux échantillons appariés

t calculé pour = n-1 degrés de liberté

Page 46: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

46

Comparaison de deux fréquences expérimentales

Comparaison des fréquences de 2 grands échantillons indépendants.

H0 : p1 = p2 = p

Deux échantillons : f1, n1; f2, n2

On approxime la loi binomiale par la loi normale mais:n1>30, n2>30, n1f1>5, n2f2>5, n1(1-f1)>5, n2(1-f2)>5

Page 47: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

47

Comparaison de deux fréquences expérimentales

Sous H0 on peut réunir les deux échantillons, et on est conduit à l’estimation de p

21

2211ˆnn

fnfnp

Zc devient

21

21

11)ˆ1(ˆ

nnpp

ffZc

H1: p1≠p2

H1: p1>p2

H1: p1<p2

Test sur la loi normale N(0,1)

Page 48: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

48

Comparaison d’une fréquence empirique et d’une fréquence théorique

La différence entre f et p est-elle seulement explicable par les aléas dus à l’échantillonnage?

On approxime la loi binomiale par la loi normale mais:n>30, np>5 et nq>5

H0: f = p

npp

pfZc

)1(

H1: p1≠p2

H1: p1>p2

H1: p1<p2

Test sur la loi normale N(0,1)

Page 49: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

49

Comparaison de deux variances expérimentales

Deux échantillons qui suivent des lois normales: 1, 21; 2, 2

2

H0: 21=2

2

calcul de :2

2

B

A

x

xc s

sF

Plus grande variance

Plus petite variance

>1

Si H0 est vraie, Fc suit une loi de Fisher-Snedecor avec 1=n1-1 et 2=n2-1

Page 50: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

50

Soit 21 et 2

2, un couple de variables aléatoires indépendantes suivant respectivement des lois du 2 à 1 et 2 degrés de libertés.

222

121

/

/

F

Utile pour les tests de variance et de covariance

La loi de Fisher - Snedecor : F(1,2)

Page 51: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

51

)(2121 ,, FFP

La loi de Fisher - Snedecor : F(1,2)

Page 52: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

52

H1: 21>2

2

Sous H0: Pr(Fc<F)=1-

F

Accept. H0rejet H0

Comparaison de deux variances expérimentales

Page 53: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

53

H1: 21≠2

2

Sous H0 : Pr(Fc<F)=1-

F

Accept. H0rejet H0

/2

Comparaison de deux variances expérimentales

Page 54: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

54

Comparaison de deux variances expérimentales

Table de Fisher-Snedecor

Page 55: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

11/04/23 Statistiques 55

L3 PRO

Page 56: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

11/04/23 Statistiques 56

Les tests non paramétriques ne font aucune hypothèse sur la distribution sous-jacente des données. On les qualifie souvent de tests distribution free. L’étape préalable consistant à estimer les paramètres des distributions (p.e. moyenne et écart type) avant de procéder au test d’hypothèse proprement dit n’est plus nécessaire.

Quand?:

1. L’échelle des données est ordinale plutôt que sous forme d’intervalles ou de rapports. Dans ce cas les opérations arithmétiques n’ont pas de sens!

2. Les mesures sont sur des échelles d’intervalles ou de rapports mais les distributions de fréquences observées sont très éloignées de la distribution normale.

Pourquoi et quand utiliser des statistiques non-paramétriques?

1. Généralités – Conditions d’application

Page 57: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

11/04/23 Statistiques 57

Données Paramétrique Non-paramétrique

Distribution normale

n grand

Précis et fiable Si H0 est rejeté, le résultat devrait être le même qu’avec le test paramétrique

Si H0 est accepté, le résultat n’est peut être pas fiable

Distribution non normale

n petit

Résultat absolument pas fiable: souvent un rejet de H0 abusif

Meilleur résultat possible avec de telles données

1. Généralités – Conditions d’application

Page 58: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

Test du χ2 d’adéquation/conformité:Il s'agit de juger de l'adéquation entre une série de données statistiques et une loi de probabilité définie a priori ou à une population donnée.

Test du χ2 d’homogénéité:Il s'agit alors de se demander si deux listes de nombres de même effectif peuvent dériver de la même loi de probabilité.

PrincipeL’analyse se fait à l’aide d’un tableau de corrélation (variables quantitatives regroupées en classes) ou (plus souvent) de contingence (variables qualitatives). Il ne concerne que des données discrètes.

On calcule les fréquences attendues de chacune des cases puis les écarts entre celles-ci et les fréquences observées.

Test du χ2

Page 59: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

Tableau de contingence: les MnMs transgéniques

Préparation des données. Test du χ2

Page 60: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

Les tableaux de corrélation: le territoire et la masse des marsupiaux

Préparation des données. Test du χ2

Page 61: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

61

La loi du Khi carré: 2

Page 62: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

Pour calculer la statistique χ2, on a besoin des:- fréquences absolues observées- fréquences absolues attendues

Remarque importante: les fréquences du tableau sont des fréquences absolues observées, jamais des fréquences relatives!

Conformité. Test du χ2

Page 63: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

Les fréquences attendues (théoriques) sont nécessaires

1. Si on connaît déjà (grâce à une théorie) les fréquences attendues théoriques, on les utilise directement. Exemple: l'hérédité des pois de Mendel:

Conformité. Test du χ2

Page 64: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

Test du χ2

H0 : Il n’y a pas de relation entre les variables…χ2 = 0

H1: Il y a une relation entre les variables…χ2 > 0

Conformité. Test du χ2

Page 65: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

k

j j

jj

k

kk

e

eo

e

eo

e

eo

e

eo

1

22

2

222

1

2112 ...

où, si N est la fréquence totale

Neo jj Si 2 = 0, fréq théoriques identiques aux fréq. obs., si 2 > 0, elles ne sont pas exactement identiques.

H0: 2=0H1: 2>0

Conformité. Test du χ2

Page 66: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

Un exemple

Le tableau suivant montre la distribution des unités 0, 1,2, …, 9 d’une table de nombres aléatoires comportant 250 nombres. Est-ce que la distribution observée est significativement différente de la distribution théorique?

Unités 0 1 2 3 4 5 6 7 8 9

Fréq Obs 17 31 29 18 14 20 35 30 20 36

Fréq Est. 25 25 25 25 25 25 25 25 25 25

3.23

25

2536...

25

2517 222

Solution:

295.0 critique à = 10-1 = 9 degrés de liberté = 16,92

23.3>16,92. Cette table de nombre aléatoire est suspecte.

Conformité. Test du χ2

Page 67: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

Pourquoi 9 degrés de liberté dans l’exemple précédent?

= k -1 si les fréquences théoriques peuvent être calculées sans avoir à estimer les paramètres de la population à partir des statistiques d’échantillon.

= k – 1 – m si les fréquences théoriques peuvent être calculées en n’estimant que m paramètres de la population à partir des statistiques d’échantillon.

Idéalement, au moins 5 occurrences par case!

Degré de liberté. Test du χ2

Page 68: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

11/04/23 Statistiques 68

Degré de liberté. Test du χ2

Page 69: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

11/04/23 Statistiques 69

Homogénéité. Test du χ2

Page 70: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

11/04/23 Statistiques 70

Homogénéité. Test du χ2

Page 71: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

Guérit Ne guérit pas Total

Groupe A (serum) 75 25 100

Groupe B (sans sérum) 65 35 100

Total 140 60 200

Fréquences observées

Guérit Ne guérit pas Total

Groupe A (serum) 70 30 100

Groupe B (sans sérum) 70 30 100

Total 140 60 200

Fréquences attendues sous H0

84.3;1)1)(1(

38.230

3035

30

3025

70

7065

70

7075

295.0

22222

kh

Impossibilité de rejeter H0

Homogénéité. Test du χ2

Page 72: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

ExempleTableau de contingence du nombre de joueurs de hockey de différentes nationalités utilisant différentes marques de bâtons de hockey.

Le choix de la marque du bâton de hockey que les joueurs utilisent est-il influencé par l’origine du joueur?

Étape 1 : Question “biologique”

Homogénéité. Test du χ2

Page 73: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

H0: il n’y a pas de préférence de marque de bâton de hockey chez les joueurs de différentes nationalités (donc: la variable "marque de bâton" et la variable "nationalité" sont indépendantes) :

χ2 = 0H1: les joueurs de différentes nationalités ont des préférences différentes au niveau de la marque de bâton de hockey qu’ils utilisent :

χ2 > 0

Étape 3 : Test statistique utilisé

• données sous forme de fréquences• indépendance des observations• fréquences distribuées normalement

Étape 4: Conditions d’application

Étape 2: Déclaration des hypothèses

Homogénéité. Test du χ2

Page 74: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

fth(i,j) = (ni × nj)/N exemple, la première cellule :

Calcul des fréquences théoriques:

Homogénéité. Test du χ2

Page 75: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

Étape 5 : Distribution de la variable auxiliaire

Si H0 est vraie, la statistique χ2calc suit une distribution de χ2 à υ = (l – 1) × (c – 1)

= (5 – 1) × (6 –1) = 20 d.d.l.

On rejette H0 si χ2calc ≥ χ2

(0,05, 20) = 31,41

Étape 7: Calcul du test

Étape 8: Décision statistique

On ne rejette pas H0 au seuil α = 0,05 car si χ2calc < χ2

(0,05, 20)

Les joueurs de différentes nationalités n’utilisent pas des bâtons de hockey de marques différentes car les compagnies font la promotion de leurs bâtons avec la même intensité dans les pays étudiés.

Étape 6 : Règle de décision

Étape 9: Interprétation biologique

Homogénéité. Test du χ2

Page 76: 1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs

11/04/23 Statistiques 76

1. Généralités – Les tests non paramétriques en pratique