Guide pratique d'échantillonnage pour les évaluations d'impact

DIME – FRAGILE STATESDUBAI, MAY 31 – JUNE 4

Guide pratique d'échantillonnage pour les évaluations d'impactMatthias RiegerGraduate Institute, Geneva World Bank

Introduction Comment construire un échantillon permettant de

détecter de manière crédible un effet significatif ? Quels groupes ou quelle population nous intéressent et où les

trouver ? Combien de communes, villages, ménages et personnes faut-il

interviewer/observer dans cette population ? Quelles en sont les conséquences sur le budget de l'évaluation ?

Attention ! Cette présentation n'a pas la prétention de faire de vous un

expert en échantillonnage Elle ne cherche pas non plus à vous compliquer la vie! Il s'agit plutôt de répondre à la question générale : Comment les

composantes de l'échantillonnage affectent-elles ce qu’une évaluation d'impact peut nous apprendre?

Plan de présentation

1. Cadre d'échantillonnage Quels groupes ou quelles populations nous

intéressent ? Comment les trouve-t-on ?

2. Taille de l'échantillon Pourquoi est-ce si important : crédibilité des résultats Déterminants de la taille adéquate d’un échantillon Autres questions Exemples

3. Budgets

Cadre d'échantillonnage Qui nous intéresse ?

a) Communes/quartiers (fonctionnaires des communes)b) Villages (chefs des villages)c) Ménages (chefs des ménages)d) Individuse) Enfants, femmes

Garder à l'esprit la validité externe Les conclusions tirées d'une population peuvent-elles être utiles pour

préparer des mesures à portée nationale ?

Il faut aussi garder à l'esprit la faisabilité et ce que vous voulez apprendre Il peut ne pas être possible ou souhaitable de piloter un programme

ou une politique dont le champ d’application est extrêmement large

Cadre d'échantillonnage : Déterminer quelles sont les unités qui nous intéressent

Fonction de la taille et du type d'expérience Sélection aléatoire parmi les candidats

Exemple : Programme de dévelopment communautaire (CDD) dans 100 communes rurales d’un pays. Choix aléatoire de 50 communes qui recevront le traitement

Possibilité d'utiliser des unités de traitement et de comparaison à partir du pool de communes

Villages/ménages: Il faut prendre un échantillon pour mesurer l'impact Changement de politique

Exemple : un changement du montant de la taxe de marché dans un échantillon aléatoire de communes rurales

Pour mesurer l'impact sur les marchands, on ne peut pas échantillonner tous les marchands du marché dans les communes de traitement et dans les communes de comparaison

Il faudra prendre un échantillon de marchands au sein des communes Informations nécessaires avant de prendre un échantillon

Une liste exhaustive de toutes les unités d'observation disponibles pour l'échantillonnage dans chaque zone ou chaque groupe (liste des communes, villages et ménages)

Plan de présentation

1. Cadre d'échantillonnage Quels groupes ou quelles populations nous intéressent ? Comment les trouve-t-on ?

2. Taille de l'échantillon Pourquoi est-ce si important : crédibilité des

résultats Déterminants de la taille adéquate d’un

échantillon Autres questions Exemples

3. Budgets

Taille de l'échantillon et crédibilité des résultats Commencer par une question plus simple que l'impact

du programme

Si par exemple nous voulons savoir quel est la moyenne de revenu agricole des ménages pour évaluer un programme d’engrais modernes… Option 1 : Nous interrogeons cinq ménages et nous utilisons la

moyenne de leurs réponses Option 2 : Nous interrogeons 1000 ménages et nous utilisons la

moyenne de leurs réponses

Quelle sera la moyenne la plus proche de la vraie moyenne ?

Taille de l'échantillon et crédibilité des résultats

Cinq Ménages1 000 MénagesRevenus Agricoles Ménages$0 - $10 1$ 10 -$50 2$50-100 1$100 - $150 0$150+ 1

Revenus Agricoles Ménages$0 - $10 70$ 10 -$50 150$50-100 650$100 - $150 125$150 + 5

Taille de l'échantillon et crédibilité des résultats De manière similaire, quand on détermine

l'impact du programme… Il faut de nombreuses observations pour

pouvoir dire avec certitude que le résultat moyen du groupe de traitement est plus/moins élevé que celui du groupe de comparaison

Qu’entend-on par certitude? Réduire au minimum l'erreur statistique

Taille de l'échantillon et certitude Erreur de Type 1 : Trouver un impact du programme

quand il n'y en a pas L'erreur peut être minimisée après la collecte des données, au cours de

l'analyse statistique Besoin d'ajuster les niveaux de significativité des estimations d'impact

(par ex. intervalles de confiance à 99 % ou 95 %) Erreur de Type 2 : Ne pas pouvoir détecter un effet alors

qu’il y en a un En jargon statistique: la puissance du test est faible Il faut minimiser l'erreur avant la collecte des données Meilleur moyen d'y parvenir : s'assurer que vous disposez d'un

échantillon suffisamment important Tout l'intérêt d'une évaluation d'impact est d'en apprendre

quelque chose Ex ante (a priori) : Nous ne savons pas quelle est l'importance de

l'impact de ce programme Faible puissance ex-post (a posteriori) : Ce programme pourrait avoir

fait progresser les revenus agricoles des ménages de 50%, mais nous ne pouvons pas distinguer avec certitude une augmentation de 50% d'une augmentation nulle

Calcul de la taille de l'échantillon En fait, il existe une formule… L'essentiel de ce qu'il faut avoir à

l'esprit :1. Taille de l'effet détectable2. Probabilité d'erreurs de type 1 et 23. Variance du/des résultat(s)4. Unités

(communes/villages/ménages) par zone traitée

Calcul de la taille de l'échantillon Taille de l'effet détectable

L'effet minimal recherché pour faire la distinction par rapport à zéro Une augmentation des revenus agricoles de 20 %, une amélioration

de la santé des enfants (poids et taille-âge) de 10 %

Échantillons plus larges des effets moindres sont plus faciles à détecter

Calcul de la taille de l'échantillon Comment choisir la taille de l'effet détectable

L'effet minimal incitant la réponse d’une intervention publique

L'effet minimal qui vous permettra de dire qu'un programme n'a pas été un échec Ce programme a fait progresser de manière significative

le poids/âge des enfants de 10 % Génial - voyons comment nous pouvons répliquer ceci à plus

grande échelle Ce programme a fait progresser de manière significative

le poids/âge de 2 % Génial...euh... voyons-voir : on a dépensé tout ça pour ne faire

progresser les ventes que de si peu?

Calcul de la taille de l'échantillon Erreurs de Type 1 et Type 2

Type 1 Niveau de significativité des estimations fixé

généralement à 1 % ou 5 % Probabilité de 1 % ou 5 % qu'il n'y ait pas d'effet,

mais nous en trouvons un Type 2

Puissance généralement fixée à 80 % ou 90 % Probabilité de 20 % ou 10 % qu'il y ait un effet

mais nous ne pouvons pas le détecter Échantillons plus larges puissance plus grande

Calcul de la taille de l'échantillon

Variance des résultats Moins de variabilité sous-jacente différences plus

faciles à détecter possibilité d’avoir un plus petit échantillon

15

Calcul de la taille de l'échantillon Variance des résultats Comment la connaître avant de décider de la

taille de l'échantillon et avant de collecter nos données ? Idéalement, données préexistantes

Souvent...inexistantes Possibilité d'utiliser des données préexistantes

provenant d'une population similaire Exemples : Enquêtes des ménages/communes/villages

Relève plus de l’expérience que des sciences exactes

Autres questions

1. Groupes de traitement multiples2. Résultats désagrégés par groupe3. Participation4. Qualité des données

Autres questions Groupes de traitement multiples

Simplicité de la comparaison de chaque traitement séparément au groupe de comparaison

Il faut de très grands échantillons pour comparer les groupes de traitement Notamment si les traitements sont très similaires, les différences entre

les groupes de traitement seront moindres En fait, c'est comme si l'on fixait une taille d'effet détectable très petite

Résultats désagrégés par groupe Les effets diffèrent-ils entre hommes et femmes ? Pour les

différents secteurs d’emploi du ménage ? Si les genres/secteurs ont tendance à réagir de manière

similaire, il faudra aussi des échantillons très larges pour estimer les différences d'impact du traitement

Autres questions Résultats désagrégés par groupe

Pour assurer un équilibre entre les groupes de traitement et les groupes de comparaison, il est recommandé de diviser l'échantillon en strates avant l'assignation du traitement

Strates Sous-populations Strates courantes: espaces géographiques, sexe,

secteurs, valeurs initiales de la variable de résultat L'assignation au traitement (ou l'échantillonnage) se

déroule au sein de ces groupes

Pourquoi faut-il des strates ?

Un exemple géographique Quel est l'impact dans une région particulière ? Parfois difficile à déterminer avec certitude = T = C

Pourquoi faut-il des strates ?

Assignation aléatoire à un traitement au sein

d' unités géographiques Dans chaque unité, une moitié sera du

groupe de traitement, l’autre du groupe de comparaison.

Même logique pour sexe, métier, taille de communes, etc.

Autres questions Participation

Une faible participation augmente la taille de l'effet détectable Un effet ne se détecte que s'il est vraiment important Réduit efficacement la taille de l'échantillon

Exemple : Offre d’engrais modernes aux ménages agricoles Offre à 5 000 ménages 50 utilisent les engrais modernes C’est seulement dans les cas où ces ménages auraient des

énormes augmentations de revenus après l’intervention que l’on pourra dire avec certitude qu'il y a un effet sur les revenus agricoles

Autres questions

Qualité des données Des données de qualité médiocre

augmentent sensiblement la taille requise de l'échantillon Observations manquantes Bruit accru

Peut être en parti résolu avec le coordonnateur de terrain dans le suivi de la collecte des données sur le terrain

Un exemple fictif Les calculs peuvent être faits à l'aide de nombreux logiciels de statistiques - par

exemple STATA, OD ou R-Cran

Exemple fictif: Programme de Dévelopment Agricole visant à accroître les revenus agricoles des ménages avec des engrais modernes

Revenu agricole par mois d’un ménage, valeur de référence 50$ par mois Données sur les revenus généralement bruitées, donc un coefficient de variation > 1 est fréquent

Exemple de code STATA pour détecter une augmentation de 10% des revenus 50$ -> 55$ : sampsi 50 55, p(0,8) pre(1) post(1) r1(0,5) sd1(50) sd2(50) Disponibilité de données de référence et de suivi aide à réduire la taille nécessaire pour

l’échantillon (pré et post)

Résultats Augmentation de 10% (de 50 à 55) : 1 178 ménages de chaque groupe Augmentation de 20% (de 50 à 60) : 295 ménages de chaque groupe Augmentation de 50% (de 50 à 75) : 48 ménages de chaque groupe (mais cette taille d'effet n'est

pas réaliste)

En bref

1. Cadre d'échantillonnage Quels groupes ou quelles populations nous

intéressent ? Comment les trouve-t-on ?

2. Taille de l'échantillon Pourquoi est-ce si important : crédibilité des résultats Déterminants de la taille adéquate d’un échantillon Autres questions Exemples

3. Budgets

Budgets Que faut-il prévoir ?

Formation des enquêteurs Pré-test/Pilotage Collecte des données

Société de sondages Saisie des données

Coordonnateur de terrain pour assurer que le traitement suive le protocole de randomisation et pour surveiller la collecte des données

Analyse des données

Budgets Combien tout ceci va-t-il coûter ?

Un éventail de coûts très large. Souvent fonction de… La durée de l'enquête La distribution spatiale des personnes à interroger Les problèmes de sécurité Matériel, prix de location des voitures, prix de l‘essence Capital humain requis par l'énumérateur Etc.

Données d'enquête sur les ménages: 40$+/ménage Coordonnateur de terrain: 800$-4000$/mois

Varie en fonction des possibilités de recrutement sur place

Synthèse La taille de l'échantillon de votre évaluation d'impact

déterminera la quantité d'information que vous pourrez tirer de votre expérience

Les calculs supposent une dose de jugement et de supposition mais il est important d'y consacrer du temps Si la taille de l'échantillon est trop faible : perte de temps et

d'argent car vous ne pourrez pas détecter un impact non nul avec certitude

Si la conception de l'échantillon et la collecte des données sont réalisées avec peu d'efforts : voir ci-dessus

Questions ?

Documents

Guide pratique d'échantillonnage pour les évaluations d'impact