Upload
malloren-rasmussen
View
76
Download
2
Embed Size (px)
DESCRIPTION
Pierre Duchesne courriel: [email protected] téléphone: 343-7267 bureau: 4251 web: www.dms.umontreal.ca/~duchesne Version: 27 juillet 2014. STT-2000 Échantillonnage. Plan de cours. 1. Structure d’une enquête par sondage. 2. Méthodes d’échantillonnage. - PowerPoint PPT Presentation
Citation preview
STT-2000Échantillonnage
Pierre Duchesne
courriel: [email protected]
téléphone: 343-7267
bureau: 4251
web: www.dms.umontreal.ca/~duchesneVersion: 27 juillet 2014
STT-2000; Échantillonnage
2
Plan de cours
1. Structure d’une enquête par sondage. 2. Méthodes d’échantillonnage. 3. Utilisation de variables auxiliaires. 4. Sondages empiriques. 5. Types d’erreur de sondage. 6. Méthode de Monte Carlo.
STT-2000; Échantillonnage
3
Barême Le barême proposé est le suivant:
– Examen intra : 30%.– Examen final : 40%.– Sondage : 7.5%.– Devoirs : 7.5% x 3 = 22.5%.
Ouvrages de référenceLohr (2009), Sampling : Design and Analysis, Seconde édition, NY: Duxbury Press.
Särndal, Swensson et Wretman (1992), Model Assisted Survey Sampling, NY: Springer-Verlag (Obligatoire)(Fortement recommandé).
Échantillonnage (STT-2000)
Section 1
Structure d’une enquête par sondage.
STT-2000; Échantillonnage
5
Qu’est ce qu’un sondage?
Dans la société actuelle, nous avons besoin d’une grande quantité d’information qui doit être précise.– Préférences, choix.– Besoins.– Comportement des individus.
STT-2000; Échantillonnage
6
Qu’est ce qu’un sondage?
La partie la plus visible du grand public sont les sondages d’opinion.
De manière générale, on peut considérer que ceux qui ont besoin des sondages sont:– Gouvernements.– Entreprises.– Institutions sociales.
STT-2000; Échantillonnage
7
Qu’est ce qu’un sondage?
La partie la plus visible du grand public sont les sondages d’opinion.
De manière générale, on peut considérer que ceux qui ont besoin des sondages sont:– Gouvernements.– Entreprises.– Institutions sociales.
STT-2000; Échantillonnage
8
Industries des sondages
Secteur gouvernemental– Statistique Canada, Institut de la statistique du Québec, U.S.
Bureau of Census Secteur privé
– Gallup, Harris Survey, Reid. Ces agences sondent l’opinion publique sur des « sujets chauds ».
Recherche– Universités, hôpitaux.
Gestion, affaires– Études de marché, marketing.
STT-2000; Échantillonnage
9
Définition d’un sondage
Méthode de collecte de l’information sur un échantillon d’individus (unités). Ces unités pourraient être des humains, des animaux, des maisons ou encore des entreprises.
Remarque: l’échantillon n’est qu’une fraction de la population, contrairement à un recensement où tous les membres de la population sont étudiés.
STT-2000; Échantillonnage
10
Exemples de sondages
Exemple 1:Un échantillon de personnes aptes à voter est questionnée à l’avance sur une élection pour déterminer comment le public perçoit un candidat et les résultats.
Exemple 2: Département de la santé publique veut déterminer la proportion des enfants allant à l’école primaire qui ont été vaccinés contre les maladies infentiles (polio, tétanos, etc).
STT-2000; Échantillonnage
11
Concentrons-nous sur le second exemple
Pour des raisons administratives: un mois. Option 1
– On réunit le personnel nécessaire et on va voir chaque enfant dans la région/province.
Frais du personnel? Temps? Frais de déplacement? Contraintes de coûts?
Option 2– On choisit un échantillon représentatif, c’est-à-dire un
sous-ensemble de toutes les mesures, la population. Pour une fraction du coût, permet de gagner du temps.
STT-2000; Échantillonnage
12
Erreurs lorsque l’on dispose d’un échantillon (SSW, p. 14; Lohr, p.15)
Erreurs dues à l’échantillonnage.– Échantillon n’est pas la population.
Erreurs non dues à l’échantillonnage.– Erreurs de mesures; biais de sélection.
Biais de sélection (Lohr; p. 4)– Représentation exagérée d’une partie de la population; Sous-
couverture de la population; doubles dans la base de sondage; interviewer néglige certaines personnes; population cible n’est pas la population échantillonnée; choix délibéré des personnes à interviewer; non-réponse.
Avec un recensement, qu’en est-il?
STT-2000; Échantillonnage
13
Échantillon versus recensement
Un échantillon est souvent plus fiable qu’un recensement!
Il ne faut pas penser strictement en termes mathématiques!
Il est vrai qu’avec un échantillon, pas d’erreurs quantitatives dues à l’échantillonnage.
Cependant, les ressources nécessaires pour effectuer un recensement peuvent être telles que:
– Besoin de personnel qualifié en quantité suffisante.– Travail bâclé s’il est trop d’envergure.– Jamais à l’abri de la non-réponse pouvant fausser les
résultats. Avec un échantillon, on peut mobiliser les ressources
afin de contrôler la qualité de l’information recueillie.
STT-2000; Échantillonnage
14
Comment choisir l’échantillon?
À l’aveuglette? NON!– On veut une méthode objective.
Parmi les volontaires? NON!– Sur les questions sensibles, seulement ceux qui se sentent
concernés sans être compromis sont susceptibles de participer.
NON aux SLOPS! (self-selected opinion polls)– Sondages télé où les gens appellent; lignes ouvertes.– Les gens avec des préjugés, fortes opinions (souvent
négatives) s’expriment souvent sur ces questions (avortement, racisme, etc).
STT-2000; Échantillonnage
15
Comment choisir l’échantillon? (suite)
On veut une méthode scientifique telle que chaque personne dans la population possède une chance mesurable (que l’on peut quantifier) de sélection.
Commenter l’affirmation suivante: pour obtenir un échantillon, il faut que chaque unité possède une chance égale de faire partie de l’échantillon. (ATTENTION au piège!)
STT-2000; Échantillonnage
16
Avantages de la méthode scientifique
Avec la méthode scientifique, tout le monde se voit poser les mêmes questions dans le même ordre.
On peut projeter les résultats de l’échantillon sur toute la population.
Le but d’un sondage n’est pas de décrire un individu en particulier. On veut une image, un profil, de la population.
STT-2000; Échantillonnage
17
Taille de l’échantillon?
C’est quoi le n? – On va y revenir! Il faut introduire des critères.– De manière générale, cela dépends de la qualité de
l’information que l’on désire.– Dans les sondages nationaux, souvent n=1000 fait l’affaire.
Si 1000 individus peut refléter plusieurs caractéristiques de la population qui peut comporter des millions d’individus, cela donne un poids à l’utilisation des sondages en pratique.
Remarque: dans une population de 100 000 ou 1 000 000 d’individus, n=1000 fournira une précision comparable. La taille de la population n’est pas une considération si importante que ça.
STT-2000; Échantillonnage
18
Les étapes d’un sondage
1. Sélection d’un échantillon.2. Collecte de données.3. Vérification et imputation.4. Estimation et analyse.5. Publication des résultats.
STT-2000; Échantillonnage
19
Sélection d’un échantillon
On doit procéder à l’identification de la population cible; population visée?
Construction d’une base de sondage.– Idéalement, on tente de trouver une base de sondage
existante. Sinon, l’on doit en construire une.– Une base de sondage contient la numérotation de
tous les éléments de la population cible; elle contient des étiquettes.
STT-2000; Échantillonnage
20
Base de sondage versus population visée
Choses à être conscient:
Est que la base de sondage corresponds à la population visée?
Si on s’intéresse à la population québécoise et que l’on utilise les listes de téléphone, est-ce que la population cible = base de sondage?
On peut contourner certaines difficultés? Conséquences sinon?
STT-2000; Échantillonnage
21
1. Sélection d’un échantillon
Une fois que l’on dispose d’une base de sondage, on cherche à choisir un échantillon s dans la population:
U={1,2,…,k,…,N}. On aura ainsi que . Pour obtenir l’échantillon, on procède à un
échantillonnage, c’est-à-dire que l’on procède à une sélection dans U selon un plan d’échantillonnage p.
Us
STT-2000; Échantillonnage
22
2. Collecte des données
On a besoin d’instruments– Téléphone (méthode CATI).– Interview personnelle (interviewer qui se déplace à la
maison) (méthode CAPI).– Courrier (mail surveys). Doit retourner un
questionnaire.– Accès Internet.
Pour l’enregistrement– Papier/crayon versus ordinateur (CATI/CAPI)
STT-2000; Échantillonnage
23
Méthode CATI (Computer assisted telephone interview)
L’interviewer a devant lui un ordinateur. Les questions apparaissent à l’écran. La personne interviewée réponds et les données sont
immédiatement entrées. Avantages: ordre dans les questions toujours le même,
rapide, qualité. Inconvénients: peut être dispendieux à mettre en
œuvre pour les petites boîtes et pour les sondages non-répétés (occasionnels).
STT-2000; Échantillonnage
24
Méthode CAPI (Computer assisted personal interview)
L’interviewer se présente chez les gens avec un ordinateur portatif (laptop).
L’interviewer ou le répondant peut entrer directement les réponses.
Exemple: le sondage mensuel CPS (Current Population Survey) de la population américaine utilise un mélange des méthodes CAPI/CATI.
STT-2000; Échantillonnage
25
Interviewers
Traditionnellement, travail à temps partiel. De plus en plus, être interviewer est un travail
à plein temps dans les grosses boîtes.– Entraînement,– Formation,– Etc.
STT-2000; Échantillonnage
26
Questionnaire (Lohr, p.10)
Nécessite la présence des « experts du sujet » (sociologues, psychologues).
Les questions doivent être validées. Exemple: Aux USA, dans un sondage NBC/Wall Street
J.– 1. Êtes-vous en faveur de couper dans les
programmes tels la sécurité du revenu, les soins médicaux, les subventions agricoles afin de réduire de déficit?
– 2. Êtes-vous en faveur de coupures gouvernementales afin de réduire le déficit?
STT-2000; Échantillonnage
27
Résultats du sondage NBC/Wall Street J.
Gens qui ont répondus à la première question:– Pour: 23%– Contre: 66%– Sans opinion: 11%.
Gens qui ont répondus à la seconde question:– Pour: 61%– Contre: 25%– Sans opinion: 14%.
STT-2000; Échantillonnage
28
3. Vérification et analyse
Si pas déjà dans un fichier ordinateur, alors il faut procéder à une transcription des données.– Codification. Parfois les logiciels traitent seulement
l’information chiffrées. – Variable Sexe; 1=H, 2=F.
Vérification– Est-ce que l’information est cohérente?
Date de naissance: 29/03/90; Permis de conduire: Oui.
– Vérification manuelle/automatique.
STT-2000; Échantillonnage
29
Imputation (SSW, Chap. 15)
L’information peut être manquante.– Questionnaire non-rendu.– Trous dans le questionnaire
Non-réponse par item (au moins une question est répondue mais pas toutes)
Non-réponse par unité (la personne ou l’unité ne donne aucune réponse).
Dans de tels cas, il peut être envisagé de procéder à de l’imputation. Imputation: méthodes pour boucher les trous.
STT-2000; Échantillonnage
30
Méthodologie dans un recensement
Il est intéressant de noter que si un recensement est entrepris, beaucoup de la méthodologie des sondages doit être mise en œuvre:– Base de sondage à créer, valider,– Personnel à former pour les interviews,– Etc.
Rappelons les sources d’erreurs reliées à un recensement…
STT-2000; Échantillonnage
31
4. Estimation et analyse
On doit choisir un estimateur pour chaque paramètre à estimer de la population finie. Exemples:– Moyenne.
– Total.
– Variance.
U kU y
Ny
1
U kyU yt
U UkyU yy
NS 22 )(
1
1
STT-2000; Échantillonnage
32
Estimations ponctuelles
Une estimation ponctuelle consiste en un seul chiffre pour estimer un paramètre.
On pourrait le noter:
Un seul chiffre n’est cependant suffisant pour apprécier de la qualité de l’estimation. On utile un estimateur de la variance:
Uy
UyV ˆˆ
STT-2000; Échantillonnage
33
Estimateurs
En fait, le chiffre qui servira à estimer le paramètre inconnu est un estimateur.
Un estimateur est une variable aléatoire. Pour chaque échantillon possible, l’estimateur prend une certaine valeur.
La distribution de l’estimateur est obtenue sur l’ensemble de tous les échantillons possibles.
STT-2000; Échantillonnage
34
V versus V chapeau
Remarque: On aimerait idéalement utiliser la vraie variance de l’estimateur:
Cependant, cette dernière est inconnue en pratique.
UyV ˆ
STT-2000; Échantillonnage
35
Estimation par intervalles de confiance
Un intervalle de confiance de niveau 95% pour le paramètre moyenne est donné par
Pour que cet intervalle marche, que faut-il?
UU yVy ˆˆ96.1ˆ
STT-2000; Échantillonnage
36
5. Publication des résultats
La dernière étape du sondage consiste à publier les résultats.
Cette étape ne doit pas être prise à la légère. On devrait retrouver:
– Conditions de la réalisation du sondage.– Lignes de conduite (dans la précision des résultats).– Discussions des erreurs
Erreurs non dues à l’échantillonnage. Erreurs dues à l’échantillonnage.
Présentation de l’information– Tableaux, graphiques, couleurs, etc.