Pr. A. SOULAYMANICours Statistique 20051 Fluctuations de léchantillonnage Léchantillonnage & Ses Fluctuations

Pr. A. SOULAYMANI Cours Statistique 2005 1

Fluctuations de l’échantillonnage

L’échantillonnage&

Ses Fluctuations



Généralités

Recensement

Population

Echantillonnage

Tous les sujets de la

population sont « examinés »

Une partie des sujets de la population

sont « examinés »

Supposons une population infiniment grande sur laquelle on veut évaluer la fréquence ou la proportion d’un caractère.



• Recensement = vérité• l’information que l’on désire est

disponible pour tous les individus de la population étudiée.

• Échantillon = estimation de la vérité• l’information n’est disponible que

pour un sous-ensemble des individus de la population étudiée.



I- L’échantillon



L’échantillon en lui-même n’est pas intéressant,

Plusieurs échantillons peuvent être constitués

En général,on procède à ce qu’on appelle échantillonnage.L’échantillon est donc un groupe restreint de la population dont il est issu.

Pop

ce sont les conclusions sur la population que l’on peut tirer de son observation qui en font l’intérêt : Inférence.



Il s’agit là, d’un tirage non aléatoire ou biaisé.

Cet échantillon est dit non représentatif si au cours du tirage, on procède à un choix préalable ou à une sélection.

Pop

Les conclusions sur la population ne peuvent pas être tirer de l’observation de tels échantillons.

Tirage Biaisé

Echantillon non représentatif



Pour que l’échantillon soit représentatif, il faut que tous les individus de la population aient la même chance d’être tirés.

Ceci peut être obtenu par un brassage adéquat et convenable des individus et permet de tirer véritablement au hasard un échantillon représentatif.

Tirage Aléatoire



En définitif, un échantillon représentatif est un échantillon issu de façon

parfaitement aléatoire, non conditionné par un choix préalable ou sélection.

Tirage parfaitementau hasard



• Un échantillon a pour but de représenter la population, donc être représentatif.

• En quelque sorte, l’échantillon est un modèle pour la population.

• Il n’est pas possible de déterminer si un échantillon est représentatif ou non.

• Un bon plan d’échantillonnage peut cependant contribuer à éliminer des échantillons non représentatifs.



Étapes à suivre

• Déterminer l’objectif de l’échantillonnage• Déterminer la condition recherchée• Définir la population à vérifier• Déterminer la taille de l’échantillonnage• Sélectionner les échantillons• Effectuer les tests et évaluer les résultats• Analyser les erreurs projetées• Plans d’échantillonnage statistique



II- Le Pari



Considérons une population où la proportion théorique d’un caractère donné est pth (p théorique).

Population

Pthéorique

Tirage parfaitementau hasard

Échantillon

Pobservée.



Population

Pthéorique

Échantillon

Pobservée.

Tirage parfaitement

au hasard

La proportion observée du caractère (sa fréquence) au niveau de l’échantillon Pobs n’est pas obligatoirement

identique à la proportion théorique au niveau de la population dont il est issu, même si l’échantillon est représentatif.

Elle peut prendre toutes les valeurs possibles comprise entre 0 et 1.

C’est les fluctuations de l’échantillonnage



Exemple de Pari

Population

p théorique = 050 Échantillon

p observée

Tirage parfaitement au hasard

En générale pobs fluctue autour de pth et on peut

calculer la probabilité pour que pobs sorte d’une

certaine marge entourant pth.

Considérons une population où la proportion théorique d’un caractère donné est pth = 0,50 (p théorique).



on peut parier que la fréquence au niveau d’un échantillon tiré au hasard de cette population sera comprise entre 40% et 60% (0.40 ≤ pobs .≤ 0.60).

- Qu’elle est la probabilité pour que notre pari soit juste ? (p ?)

- Quel est le risque qu’on a pris en choisissant cet intervalle [0.40-0.60] ? ( ?)

et p présente la relation = 1 – p et p = 1 - .

Une question s’impose à ce niveau et peut poser de deux façons différentes mais complémentaires:



Intervalle de pari

L’intervalle de pari est défini par un écart e autour de pth. ; ainsi, l’intervalle 40 à 60% autour de 50% est défini par e = 10%.

La table de l’écart réduit ( loi normale) ne peut être utilisée directement pour évaluer le risque du pari ; de ce fait, l’écart e est transformé en écart réduit appelé écart réduit observé ou calculé tel que :

0,50 0,600,400 1

Pth.



Npthpthpp

Npthpth

eeThObs

Obs )1()1(..

.

Dans l’exemple précédant, en supposant que l’effectif de l’échantillon est de 100, on aura :

205.0

10.0

10050.050.0

10.0

x

e



La table de l’écart réduit donne pour tout écart observé le risque qui lui est associé.Pour la valeur de 2 de notre exemple, il n’y a pas de correspondance directe mais on peut remarquer que notre valeur est comprise entre deux risque :

th = 1,96 < os. = 2 < th = 2,058



Donc, lorsqu’on a parié sur l’intervalle 40%-60% sur un échantillon de 100 tiré d’une population pour laquelle la fréquence théorique est de 50%, on a 5% de chance de se tromper contre une probabilité de 95% de tomber sur cet intervalle par tirage au hasard.

Sans chercher à interpoler,on

prendra toujours la valeur la

plus proche de 2 qui correspond

dans ce cas à = 5% et p = 95%.

th=1,96 < obs.=2 < th=2,058



En conclusion, lorsqu’on a parié sur l’intervalle 40%-60% sur un échantillon de 100 tiré d’une population pour laquelle la fréquence théorique est de 50%, on a 5% de chance de se tromper contre une probabilité de 95% de tomber sur cet intervalle par tirage au hasard.

Remarque : La table de l’écart réduit ne peut être utilisée que si l’échantillon est « grand ». Pour le calcul; on considère que l’échantillon est « grand » si et seulement si Np ≥ 5 et N(1-p) ≥ 5.



III- Loi des Grands Nombres



Avec une urne présentant une fréquence pth.= 50% ;

on se propose d’estimer le risque d’erreur pour un même intervalle de pari [0.40-0.60] mais pour des effectifs différents (N1=16 ; N2=100 et N3=400).

N e

16 0,125 0,10 0,80 0,47

100 0,05 0,10 2 0,05

400 0,025 0,10 4 <0,001

Npthpth .)1.(

Npppp

thth

thobs

obs )1(



Ainsi, pour le même écart absolu (10%), on prend beaucoup plus de risques avec des petits échantillons.

c’est la loi des grands nombre

Donc, l’écart entre la composition de l’échantillon et celle de la population a d’autant moins de chance d’être dépassé lorsque la taille de l’échantillon est grande.

Documents

Pr. A. SOULAYMANICours Statistique 20051 Fluctuations de léchantillonnage Léchantillonnage & Ses Fluctuations