Upload
yvonne-lepage
View
102
Download
0
Embed Size (px)
Citation preview
Réponse équilibrée et ajustement des estimations:
Deux étapes dans le traitement de la non-réponse
Carl-Erik Särndal
Université d’Örebro
Statistique Suède
2012-11-06
7e Colloque francophone sur les sondagesRennes , 2012
.
Face à la non-réponse :
deux types d’activités
(a) au « stade collecte (des données) »
(b) au « stade estimation », collecte ayant été terminée
Les étapes (a) et (b) ne sont pas indépendantes . Nous examinerons les deux, et leur interaction
.
• Collecte des données: Évolue sur une période de temps (des jours, semaines). Aspect dynamique. Objectif: obtenir à la fin un ensemble de répondants bien équilibré
• Estimation: Objectif: Ajustement pour réduire le biais qui affecte néanmoins les estimations (malgré un certain équilibrage).
.
• Collecte des données• Estimation
Les deux activités dépendent intégralement de l’accès aux variables auxiliaires
Plus on en a, mieux c’est
En Scandinavie, on est bien équipé
Les idées pour cette présentation
Collecte adaptive (Responsive design, USA, Canada) Europe:
Statistics Netherlands (projet RISQ; représentativité) Statistics Sweden (réponse équilibrée) : projet en collaboration avec Peter Lundquist
Points de départ:
Les variables d’intérêt (variables y) : affectées par une non-réponse non-aléatoire (même conditionnellement sur vecteur auxiliaire x)
• Estimations plus ou moins baisées• Le biais ne sera jamais entièrement éliminé• La non-réponse ignorable (MAR) n’existe pas.
Points de départ:
Les variables auxiliaires (variables x) jouent un rôle primordial. Connues pour les unités de l’échantillon s (répondants et non-répondants), peut-être pour toute la population
Vecteur x multivarié
Points de départ: En Scandinavie, aux Pays-Bas et de plus en plus ailleurs
Une multitude de variables auxiliaires disponibles ,
surtout pour les enquêtes sur ménages et individus :
Sources : Les registres administratifs
Nécessité de choisir “les meilleures”.
Exemple, Suède :
• Pays d’origine• Revenu• Age• Sexe• Statut civil• Région• Taille de ménage• Périodes sans emploi• Urbain/rural• Occupation et beaucoup d’autres
Enquête sur ménages et individus, parmi les variables auxiliaires potentielles:
.
Je vous présente une théorie pour ce qui est pour nous, en Scandinavie, une réalité,
chez vous, c’est peut-être différent …
Les étapes de ma présentation
1. La notion de maléquilibre (ang.: imbalance) 2. Stade collecte : surveiller et intervenir 3. Partager le travail et les ressources :
collecte vis-à-vis estimation4. Stade estimation : réduction du biais
Population U = {1, …, k , ..., N}
Échantillon probabiliste s (s U)
1. La notion de mal-équilibre
.
Proba d’inclusion de l’unité k :
Poids d’échantillonnage de k :
kπ
kkd π/1
Population U = {1, …, k , ..., N} Échantillon probabiliste s Ensemble des répondants r r s U
Sélectionnés mais non-répondants: s – r
La non-réponse arrive
r s kk ddP /Taux de réponse
pondéré : dk = 1/k
La (les) variable(s) d’intérêt y
continue ou catégorique
Usrrkyk ;pourOn observe valeur
.
emploisans si1 kyk sinon0; ky
par exemple
r yd kk
k θ
1
Pondération désirable mais hypothétique
Y
Serait sans biais pour le total de y, mais inutilisable
proba de réponse k inconnu, tout unité k :
.
Introduisons
Les concepts d’équilibre et de distance reposant sur des variables auxiliaires
(Mais la variable d’intérêt yk pour k r seulement)
r s U
Vecteur auxiliaire xk de dimension J 1
connu k s, ou bien pour
tout k U
;
),,...,...,(:vecteurEn 1 Jj DDDD
jsjrj xxD
moyennerépondants
Contraster les répondants avec l’échantillon entier
Pour la variable xj , calculer
moyenneéchantillon entier
sr xxD
;
Comparer répondants avec l’échantillon entier
Le vecteur des différences , dim. J 1
r kr kkr dd /xx
s ks kks dd /; xx
pondéré : dk = 1/k
Répondants égaux (en moyenne) à l’échantillon tout entier
Réponse équilibrée :
0xxD
nechantillorepondantssr
Désirable, mais difficile à réaliser entièrement
Objectif pour la collecte : un niveau d’équilibre élevé
néanmoins, au stade estimation, un ajustement s’impose
.
: réponse mal équilibrée
D étant vectoriel, on forme une mesure uni-variée du maléquilibre (ang: imbalance)
s ks kkks dd /xxΣ
DΣD 1 s )()( 1srssr xxΣxx
,
Matrice J J de pondération, non-singulier :
0xxD sr,tNormalemen
Exemple, la Suède :
• Pays d’origine• Revenu• Age• Sexe• Statut civil• Région• Taille de ménage• Période(s) sans emploi• Urbain/rural• Occupation
Vecteur x composé de :
dimension souvent 40 ou plus
Notation :
IMB = imbalance = maléquilibre
DΣD 1 sIMB
IMB est une mesure descriptive - parmi d’autres également possibles -
de l’ensemble r des répondants, tel qu’il se présente à un certain moment
de la collecte des données.
.
)()( 1srssr xxΣxx
Remarquer :
dépend de
(i) la composition du vecteur auxiliaire xk
(ii) la composition de r , étant donné s
DΣD 1 sIMB
),( srIMB kx serait notation plus complète
Mais par simplicité, utilisons IMB tout court
)()( 1srssr xxΣxx
Propriété : Pour réponse r et échantillon s fixés ,
ajouter plus de variables au vecteur x
fera augmenter IMB
Un vecteur x plus grand donne plus de maléquilibre, naturellement, car davantage de variables pour lesquelles les moyennes doivent concorder.
Le vecteur trivial xk = 1 donne IMB = 0
mais c’est un vecteur dépourvu d’intérêt
.
La pondération avec s
nous permet de poser une borne supérieure simple pour
le maléquilibre DΣD 1 sIMB
Pour toute réalisation (s, r) et vecteur xk ,
11
0 P
IMB
20% non-response : 0 IMB 0.25
50% non-response : 0 IMB 1
IMB n’est pas numériquement grand
Mais IMB = 0.20 indique maléquilibre considérable comparablement à IMB = 0 (équilibre parfait)
P = taux de réponse
La notion de distance
entre répondants r and non-répondants nr = s - r
Relation simple avec maléquilibre IMB :
2/11 )}(){( rsrsrsrnrrdist
xxΣxx
IMBP
dist nrr
1
1
P = taux de réponse
La distance
Par exemple, 40% non-réponse, et maléquilibre 16.0IMB
1 nrrdist
IMBP
dist nrr
1
1
)1(
1
PPdist nrr
peu importe r, s et choix de vecteur x
Par ex., non-réponse 50% dist 2
Pour nos données, dist rarement 0.5
mais varie selon le choix du vecteur x
Propritété :
2. Stade collecte: surveiller et intervenir(un aspect de « Responsive Design »)
Optique dynamique : Surveiller la collecte des données, vue en fonction du temps (les jours, les tentatives de contact);
Envisager des interventions ou altérations dans un plan original.
Surveiller et modifier la collecte
Optique dynamique : Une série d’ensembles de répondants emboités, fonctions du point temporel a
...... )()2()1( arrr
Pour simplicité r dénotera n’importe lequel de ces ensembles
Tirage aléatoire simple de personnes dans le registre de la population suédoise.Interviews par téléphone.Les tentatives de contact sont enregistrées par le dispositif WinDATINous analysons ici un sous-échantillon de taille 8,220
Exemple d’application:
Enquête sur les Conditions de Vie , Suède 2009
ECV2009
tributaire du EU-SILC
.
Tentatives de contact enregistrées par WinDATI.
Période collecte ordinaire: 3 semaines; pour beaucoup d’unités, > 30 tentatives; à la fin de cette période, taux de réponse P = 60.4 %
Période des suivis (follow-up), 3 semaines , taux de réponse ultime P = 67.4%
Enquête sur les conditions de vie, Suède 2009(ECV2009)
.
Collecte ordinaire> 30 tentatives pour bon nombre d’unités
Collecte suiviesouvent > 10 tentatives
Toutes ces tentatives … 53258, au total Est-que cela vaut la peine ? Fortement douteux.
.
)()( 1srssr xxΣxx
Pour le fichier ECV2009, calculonsle maléquilibre
et la distance rép/non-rép
DΣD 1sIMB
2/11 )}(){( rsrsrsrnrrdist
xxΣxx
IMBP
1
1
sur vecteur x = (educ owner origin); dim = 23 = 8
.
3 variables binaires :Éduc (élevée ou non)Own (propriétaire ou non)Origine (suédois ou non)
x = (educ owner origin); dim = 2 2 2 = 8
Fichier ECV2009 tel quel
Tentative Taux rép.
100 Pdistr/nr
100 IMB
no.1 ordin 12.8 0.233 4.13
no. 5 ordin 44.3 0.310 2.99
no.12 ordin 57.7 0.394 2.78
Fin ordin 60.4 0.417 2.72
no. 1 fol-up 61.4 0.418 2.61
no.4 fol-up 64.6 0.435 2.37
Final 67.4 0.471 2.36
La distance augmente sans cesse. Comment est-ce possible ?
Fichier ECV2009 :
La distance augmente
de 0.310 tentative no. 5à 0.471 fin collecte
Répondants de moins en moins semblables aux non-répondants ...
C’est troublant …Mais dites-vous, cela dépend du vecteur x choisi …
IMBP
dist nrr
1
1
.
Durant la phase collecte, comment réduire le maléquilibre ?
Quelles interventions pouvons nous apporter à la collecte?
Quelles modifications dans un plan original, pour pouvoir terminer avec
un ensemble de répondants plus approprié?
Pour répondre à ces questions , il faudrait effectuer des expériences dans la collecte des données de la ECV.
.
Faute d’ expériences réelles, nous effectuons des “expériences rétrospectives” dans le fichier ECV2009
On considère la collecte terminée dans un sous-groupe ayant atteint un certain taux de réponse
comme 55% ou 60% ou 65%
Cela possible avec le fichier ECV2009
.
.
Ainsi, dans ces expériences, on rejette volontairement une partie des données du fichier ECV2009 (pour que le reste soit plus équilibré et avoir un IMB moindre)
.
.
Les groupes définis par le vecteur connu k s
x = (educ owner origin)de dimension = 2 2 2 = 8
On sait que ces groupes diffèrent dans leur disposition à répondre
ECV2009
.
Résultats d’une de ces expériences rétrospectives: Considérer collecte terminée dans un group ayant atteint un taux de réponse de 60%
les 23 = 8 groupes définis par le vecteurx = (educ owner origin)
ECV2009
.
Expérience rétrospective : collecte terminée dans un groupe si son taux réponse > 60%
Tentative Taux rép.
100 Pdistr/nr
100 IMB
7 ordin 50.9 0.357 3.07
8 ordin 52.5 0.353 2.81
9 ordin 53.8 0.341 2.49
15 ordin 56.0 0.287 1.59
3 fol-up 58.6 0.252 1.09
Final 58.9 0.220 0.82
La distance maintenant décroissante, comme on souhaite
Comparaison au point Final (collecte terminée)
Moins de réponses (58.9% vs. 67.4%) Mais distance très réduite (0.22 vs. 0.42)
.
ECV tel quel 67.4 2.36 0.417
Expérience 58.9 0.82 0.220(interventionpar groupes)
Taux rép.100 P 100 IMB distance
Non seulement économise-t-on sur le nombre de tentatives (réduction d’environ 15%)mais la distance diminue aussi (répondants et non-répondants plus semblables)
.
.
3. Collecte vis-à-vis estimation Comment partager les ressources ?
Quelle utilisation doit-on faire de l’information auxiliaire disponible?
Quand faut-il agir, et dans quelle mesure ?• stade collecte ou bien• stade estimation ou les deux ?
On se rend compte alors que les variables auxiliaires (nombreuses)
doivent être regroupés en deux catégories :
• Celles qu’on utilise lors du stade collecte, pour une surveillance• Celles qu’on utilise, la collecte terminée,
lors du stade estimation
.
Le vecteur surveillance xa
contient les variables x destinées à surveiller
et diriger la collecte de données,
pour s’assurer à la fin d’un ensemble de répondants bien équilibré, qui
ressemble fortement à l’échantillon probabiliste s.
.
D’autres variables auxiliaires, quoique disponibles, demeurent inactives lors de la collecte ;
Ce vecteur supplémentaire xb
prend de l’importance au stade estimation
pour calculer les poids de calage.
.
C’est un fait : Certaines unités faciles à rejoindre ou à faire participer,
d’autres plus dures, et cela dépendamment de leurs caractéristiques
observables (leurs données auxiliaires)
.
.Le contexte dynamique:
A tout point de la collecte, toute unité k s est caractérisée par son
Intensité de réponse (ang.: Response Propensity)
par rapport au vecteur surveillance choisi xa
s s akakakkakkkak dIdP xxxx 1)()(ˆ
Interprétation : Régression de l’indicateur de réponse Ik = 1 si réponse ; 0 sinon, sur xak
Intensité de réponse
Peut se calculer à n’importe quel point de la collecte, pour k s
sak
ks k P
Pd
d2
2
)1ˆ
(1
:)variationde(coeffrelativevariance
s s akakakkakkkak dIdP xxxx 1)()(ˆ
Pd
d
d
PdP
s k
r k
s k
s akkas
ˆ
ˆ:moyenne
P étant le taux de réponse réussi à ce point de la collecte
où IMBa est le mal-équilibre de xa
c’est-à-dire la valeur de
calculée sur x = xa
On découvre une relation entre maléquilibre et
intensité de réponse
s s akakakkakkkak dIdP xxxx 1)()(ˆ
)()( 1srssrIMB xxΣxx
aak IMBP )ˆ(variationde coeff.
.
.
La relation :
entre intensité de réponse et maléquilibre est logique :
Plus les intensités de réponse varient, plus il doit y avoir maléquilibre,
à un moment donné de la collecte.
.
aak IMBP )ˆ(variationcoeff
Note mathématique: Nous considérons ici la famille de
vecteurs x tels que :
On peut spécifier vecteur tel que
)1,....,1,1(prendre
skk allfor1xμ
)0,1(prendre,),1(Si kk xx
)0,...,1,...,0(Si kx
La majorité des vecteurs d’importance sont de cette espèce, par exemple
OO
Disponible pour ECV2009 :
multitude variables auxiliaires potentielles
Prenons un exemple
Retour à l’Enquête Conditions de Vie, Suède (ECV2009)
.
.
Exemple : On a retenu les variables auxiliaires suivantes (toutes catégoriques) :
.
Binaires :Éduc (élevée ou non)Own (propriétaire ou non)Origine (suédois ou non)Phone (téléphone ou non)Civil (marié ou non)Sexe (homme ou femme)
Par 4 groupes :Age
.
))(( SexeCivilAgePhoneOriginOwnEduc x
Préalablement analyser le fichier ECV2009 tel quel, pour maléquilibre et distance ,avec le vecteur (de toutes les variables de la liste)
.
.
dim(x) = 23+ 1 + (4 – 1) + 1 + 1 = 14
Fichier ECV2009 tel quel (aucune intervention)
TentativeTaux rép.
100×Pdistr|nr 100×IMB
8 ordinaire 53.0 0.515 5.85
Fin ordin. 60.4 0.552 4.79
3 follow-up 63.8 0.581 4.43
Final 67.4 0.623 4.14
La distance rép/non-rép augmente sans cesse
))(( SexeCivilAgePhoneOriginOwnEduc x
Faire mieux: Expériences rétrospectives
Préciser un vecteur xa de surveillance pour
effectuer des interventions « après coup » dans ECV2009 :
Considérer les tentatives de contact terminées
pour des unités « ne valant plus la peine d’être poursuivies »
Procédure
Arrêter les efforts de contact pour les unités ayant intensité élevée.
Du coup, quand on continue avec celles qui restent, ils vont successivement atteindre une intensité de réponse plus élevée.
akP
.
.
.
Vecteur de surveillance : Comment le choisir ?
Options :• Affecter toutes les variables de la liste
au vecteur xa de surveillance
• Affecter une partie des variables à la surveillance, laisser les autres pour l’estimation
.
Liste des variables auxiliaires retenues :
.
Binaires :Éduc (élevée ou non)Own (propriétaire ou non)Origine (suédois ou non)Phone (téléphone ou non)Civil (marié ou non)Sexe (homme ou femme)
Par 4 groupes :Age
.
.
))(( SexeCivilAgePhoneOriginOwnerEduca x
Dim(xa ) = 23+1 + 3 + 1 + 1 = 14
Nombre de valeurs possibles de xa = nombre de
propriétés reconnues chez les unités = 256
Affecter toutes les variables à la surveillance
1bx
Procédure
A chacun de J points définis à l’avance, mettre de côté (ne plus poursuivre) une partie, 1/(J+1), des unités,
celles ayant des valeurs élevées de l’intensité akP
OO
xa de dim.14 (toutes les var. x) , aucun xb
TentativeTaux rép.
100×Pdistr|nr
100×
IMBa
8 ordinaire 53.0 0.515 5.85
Fin ordin. 58.6 0.473 3.85
3 follow-up 60.0 0.446 3.18
Final 60.5 0.418 2.72
Reduction du nombre de tentatives : 16.1%
Distance diminue ; bon signe.
Alternativement,affecter seulement une partie des variables
à la surveillance ; retenir les autres pour l’estimation (inactives au stade collecte)
82dim);( 3 OriginOwnEducax
.
7dim);( SexeCivilAgePhonebx
.
Conséquence : IMB et distr/nr plus élevés,
comparativement à la surveillance sur toutes les variables x de la liste.
.
Donnéesfinales
taux rép. 100P
distr/nr IMBab
ECV2009tel quel; aucunesurveillance
67.4 0.623 4.14
Surveiller
sur une partie xa
de dim 8
60.8 0.513 3.45
Surveillersur toutes
xa de dim 14
60.5 0.418 2.72
.
Comparaison, 3 différentes collectes de données
Surveillance plus serrée distance diminue
Donnéesfinales
IMBab
(total)
IMBb
(marg)
IMBa/b
(cond)ECV2009tel quel ; aucunesurveillance
4.14 2.77 1.37
Surveillersur une partie
xa de dim 8
3.45 3.04 0.41
Surveillersur toutes
xa de dim 14
2.72 2.17 0.55
.
Maléquilibre total, marginal , conditionnel
)( SexeCivilAgePhoneb x
4. Stade estimation : ajustement pour non-réponse
yk disponible k r seulement
La situation est changée : r est désormais fixé plus possible d’améliorer sa composition ; faut l’accepter tel quel pour l’estimation
Objectif: Construire un vecteur x puissant
r s Uréponse échantillon population
.
Disponible : Liste de variables auxiliaires (nombreux)
Objectif: construire un vecteur x pour un calcul des poids de calage
réduire autant que possible le biais des estimations
car il y en a, malgré un certain équilibrage lors du collecte des données
Comment choisir, dans une manière « stepwise » ou autrement, les variables x à retenir ?
« Prendre les meilleurs d'abord » est une solution.
Les variables y sont nombreuses, ce qui complique le choix des variables x . Celles qui sont bonnes pour une certaine y ne l’est peut-être pas pour les autres.
Pour la théorie nous examinons une seule variable y.
OO
U s r population échantillon répondants
yk observé k r seulement
Estimateurs de
r kkkCAL ymdY par calage; moins biaisé
s kkFUL ydY sans biais mais irréalisable
par expansion; tres biaisédrs kEXP ydY ;)(ˆ
U kyY
r kkk ymdCALY
Estimateur calage de
avec poids de calage
Propriété calage des poids dkmk
colonnerangee
xxxx ks r kkkkkk ddm
1))(
s kkr kkk dmd xx
U kyY
0 FULY
Quand xk devient plus puissant, étant donne r et s :
ajustement
EXPCAL YY ˆˆ
CALEXP YY ˆˆ
EXPY
.
Ajustement
s’éloigne de l’estimation rudimentaire CALY
grandit
0
FULY
CALYEXPYs’éloigne de
pour se rapprocher de
EXPYCALYFULY
(très biaisé)
(sans biais)
diminuantFULEXP
CALEXP
YY
YYˆˆ
ˆˆ1biaisduratio
Pour r et s fixés :
La tendance lorsque x devient plus puissant :
OO
L’intuition nous dit : plus il y a du maléquilibre, plus il faudra ajuster les estimations. C’est ainsi.
.
.
Ajustement standardisé :
y
CALEXP
SN
YYStAdj
ˆˆ
Sy = écart-type de y, calculé sur la réponse r
ou IMB est le maléquilibre
Ry,x et RDC des coefficients de corrélation
y
CALEXP
SN
YYStAdj
ˆ
ˆˆ
CDy RRIMB ,, x
Une analyse montre que StAdj se décompose en 3 facteurs :
.
L’importance de l’ajustement dépend (en partie) du maléquilibre IMB subsistant encore malgré les efforts de l’équilibrage au stade collecte)
Pas de maléquilibre pas d’ajustement
y
CALEXP
SN
YYStAdj
ˆ
ˆˆCDy RRIMB ,, x
1avonsNous , xyR 1; D,C
R
3.00souventet IMB
%82.08.05.0
yEXPCAL SN
Y
N
Y 08.0
ˆ
ˆ
ˆ
ˆ
StAdjex.Par
CDy RRIMBStAdj ,, x
OO
ajustement = 0.08 écarts-type
Estimation ajustée
Conclusion:
Comment « optimiser » le partage d’une quantité de variables x , entre les deux étapes, surveillance de la collecte et estimation.
Serait-ce possible ? .
.
.
Bibliographie
Groves, R.M. and Heeringa, S.G. (2006). Responsive design for household surveys: tools for actively controlling survey errors and costs. Journal of the Royal Statistical Society: Series A, 169.
Bethlehem, J., Cobben, F. and Schouten, B. (2011). Handbook of Nonresponse in Household Surveys. New York: Wiley.
Schouten, B., Cobben, F. and Bethlehem, J. (2009). Indicators for the representativeness of survey response. Survey Methodology, 35, 101-113.
Schouten, B., Shlomo, N. and Skinner, C. (2011). Indicators for monitoring and improving representativeness of response. Journal of Official Statistics, 27, 231-253.
Särndal, C.E. and Lundström, S. (2005). Estimation in Surveys with Nonresponse. New York: Wiley.Särndal, C.E. (2011a). Dealing with Survey Nonresponse in Data Collection, in Estimation (Morris Hansen
lecture). Journal of Official Statistics, 27, 1-21.Särndal, C.E. (2011b). Three factors to signal nonresponse bias, with applications to categorical auxiliary
variables. International Statistical Review, 79, 233-254.Lundquist, P. and Särndal, C.E. (2012). Aspects of responsive design with applications to the Swedish Living
Conditions Survey. Report 2011:1, Statistics Sweden
Merci de votre attention
.