View
1.172
Download
0
Embed Size (px)
DESCRIPTION
Sessione I Campionamento e stima
Citation preview
SESSIONE I CAMPIONAMENTO E STIMA
Il metodo sequenziale di aggiustamento delle componenti della mancata risposta totale sperimentato nell’indagine Istat sulladisabilità
Relatore: Francesca Inglese
Claudia De Vitiis, Francesca Inglese e Marco Dionisio Terribili
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014
Indice
1. Cause ed effetti della mancata risposta totale nelle indagini
2. Metodi di aggiustamento della mancata risposta totale
3. Un approccio alternativo per il trattamento della mancata risposta totale: il metodo sequenziale di aggiustamento dei pesi campionari
4. Il metodo sequenziale di aggiustamento dei pesi campionari in due fasi
5. Sequential two-stage propensity model adjustments
6. Modelli CART annidati
7. La correzione delle componenti della mancata risposta totale nell’indagine Istat sulla Disabilità
8. Conclusioni e sviluppi futuri
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014 Il metodo sequenziale di aggiustamento delle componenti della mancata risposta totale sperimentato nell’Indagine Istat sulla disabilità | Francesca Inglese
Con il termine mancata risposta totale si considera la circostanza che un’attesa risposta, da parte dell’unità statistica chiamata a partecipare alla rilevazione, per un qualsiasi motivo, non perviene all’ente promotore della rilevazione stessa (Särndal et al., 2005).
Cause ed effetti della mancata risposta totale nelle indagini
Effetti >= Riduzione dell’attendibilità delle stime
Aumento della varianza di campionamento
Introduzione di effetti distorsivi
Gli effetti della distorsione sulle stime possono variare a seconda delle cause che determinano la mancata risposta totale
Può essere dovuta al fatto che l’unità statistica di rilevazione
• non ha ricevuto il modello di rilevazione o non è stata contattata dall’intervistatore (irreperibilità o mancato contatto)
• ha espressamente manifestato la volontà di non collaborare all’indagine (rifiuto)
• è inabile a rispondere (inabilità)
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014 Il metodo sequenziale di aggiustamento delle componenti della mancata risposta totale sperimentato nell’Indagine Istat sulla disabilità | Francesca Inglese
Tecniche di riponderazione basate sull’uso di informazioni ausiliarie 1. legate alla probabilità di risposta e note sia per le unità rispondenti che per le
unità non rispondenti (fonti amministrative, precedenti indagini)
2. stimate sul campione complessivo o note sulla popolazione di interesse (stimatori di ponderazione vincolata)
Särndal, (1992), Särndal, C.E., Swensson, B. and Wretman, J.H. (1992), Rizzo et al., (1996), Kalton and Flores-Cervantes, (2003)
Metodi di aggiustamento della mancata risposta totale
Nel primo caso la costruzione dei fattori correttivi è perseguita attraverso una modellizzazione esplicita della probabilità di risposta in cui si assume l’esistenza di un legame funzionale tra la propensione delle unità del campione ad essere rispondenti e le caratteristiche da esse possedute
Si basano su una metodologia che consiste nella modifica dei pesi campionari associati alle unità rispondenti, affinché essi possano rappresentare le unità non rispondenti
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014 Il metodo sequenziale di aggiustamento delle componenti della mancata risposta totale sperimentato nell’Indagine Istat sulla disabilità | Francesca Inglese
La costruzione dei fattori correttivi può essere realizzata tramite
a. Modelli parametrici (propensity score method)
b. Modelli non parametrici (alberi di classificazione)
Metodi di aggiustamento della mancata risposta totale
Il metodo propensity score (Rosenbaum and Rubin, 1983)
• E’ basato su due importanti assunzioni
Missing at random (MAR)
Matching assumption
• Utilizza per la stima della probabilità di risposta modelli di tipo logit (o probit)
• La costruzione dei fattori correttivi può essere effettuata con approcci diversi
Il metodo basato sugli alberi di classificazione (CART)
• Conduce alla costruzione di fattori correttivi definiti per gruppi omogenei (celle di aggiustamento)
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014 Il metodo sequenziale di aggiustamento delle componenti della mancata risposta totale sperimentato nell’Indagine Istat sulla disabilità | Francesca Inglese
Tiene conto
• delle differenti tipologie di non risposta (mancato contatto, rifiuto)
• della natura sequenziale del processo di risposta
Inoltre
• le componenti di mancata risposta sono gerarchicamente distinte
• i fattori correttivi sono determinati per ogni fase del processo di risposta
Ipotesi >= le fasi del processo di risposta sono indipendenti condizionatamente a un insieme di variabili ausiliarie
Un approccio alternativo per il trattamento della mancata risposta totale: il metodo sequenziale di aggiustamento dei pesi campionari
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014 Il metodo sequenziale di aggiustamento delle componenti della mancata risposta totale sperimentato nell’Indagine Istat sulla disabilità | Francesca Inglese
Il metodo sequenziale di aggiustamento dei pesi campionari
Può essere basato su
Modelli parametrici annidati
E’ un adattamento del propensity score method (Bethlehem et al., 2011)
La costruzione dei fattori correttivi è basata sull’utilizzo di modelli logistici annidati (Bethlehem et al., 2011; Groves and Couper, 1998; Iannacchione, 2003)
Modelli non parametrici annidati
Modelli di classificazione di tipo CART specificati per ogni fase del processo di risposta
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014 Il metodo sequenziale di aggiustamento delle componenti della mancata risposta totale sperimentato nell’Indagine Istat sulla disabilità | Francesca Inglese
Il processo di risposta - contatto e partecipazione
Campione iniziales
Mancato contatto Contatto
Rifiuto Partecipazione
Ci=0 Ci=1
Pi=1Pi=0
Il metodo sequenziale di aggiustamento in due fasi
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014 Il metodo sequenziale di aggiustamento delle componenti della mancata risposta totale sperimentato nell’Indagine Istat sulla disabilità | Francesca Inglese
Il metodo sequenziale di aggiustamento in due fasi basato su modelli parametrici:
Sequential two-stage propensity model adjustments
Nella prima fase la probabilità della i-esima unità del campione iniziale di essere
contattata condizionatamente alle caratteristiche
è
Nella seconda fase la probabilità della i-esima unità, del campione delle unità
contattate, di partecipare all’indagine condizionatamente alle caratteristiche è
1 1 1C Ci i i iP C X X
2 2 ( ) P( 1| , 1)P Pi i i i iP C X X
1 2( )'C
i i i iqX ,X ,...,XX
1 2( , ,..., ) 'P
i i i ivX X XX
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014 Il metodo sequenziale di aggiustamento delle componenti della mancata risposta totale sperimentato nell’Indagine Istat sulla disabilità | Francesca Inglese
Modello logit per la probabilità di contatto (prima fase)
(i=1,…,n)
>= La stima della probabilità di contatto
Modello logit per la probabilità di partecipazione (seconda fase)
>= La stima della probabilità di partecipazione all’indagine delle unità contattate
Sequential two-stage propensity model adjustments
11C C Cii i
i
Clog logit '
C
X X β
1 11
C CiC
i i C Ci
ˆexpˆ ˆ
ˆexp
X βX
X β
1 1 121
P C P C P Cii i
i
Plog log it '
P
X X β ( 1,..., )
Ci n
i
1 1
2 2 1 1
1
P
P C P Ci
i P C P Ci
ˆexpˆ ˆ
ˆexp
X βX
X β
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014 Il metodo sequenziale di aggiustamento delle componenti della mancata risposta totale sperimentato nell’Indagine Istat sulla disabilità | Francesca Inglese
• Approccio diretto - Response propensity weighting
Le probabilità individuali predette tramite i modelli sono utilizzate direttamente. I due fattori correttivi sono calcolati per le due fasi del processo di risposta come ,
• Approccio indiretto - Response propensity stratification
Le probabilità individuali predette per le due fasi del processo di risposta sono utilizzate per la costruzione di strati (o celle di aggiustamento) definiti prima sul campione iniziale e poi sul campione delle unità contattate come ,
Sequential two-stage propensity model adjustments
La costruzione dei fattori di aggiustamento nelle due fasi
Cii ˆ X1
1
1
Pii ˆ X2
2
1
1
1
1
f
f,C
f'f
n
n̂
1
1
2
g,C
g,P
g'g
n
n̂
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014 Il metodo sequenziale di aggiustamento delle componenti della mancata risposta totale sperimentato nell’Indagine Istat sulla disabilità | Francesca Inglese
Nella prima fase il modello CART di contatto descrive la distribuzione
condizionata ed è specificato dalla coppia
Nella seconda fase il modello CART di partecipazione descrive la distribuzione
condizionata ed è specificato dalla coppia
Il metodo sequenziale di aggiustamento in due fasi basato su modelli non parametrici :
Modelli CART annidati
CC ,T Θ
PP ,T Θ
I due modelli di classificazione per la costruzione dei fattori correttivi sono specificati per ogni fase del processo di risposta
CXC
PXP
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014 Il metodo sequenziale di aggiustamento delle componenti della mancata risposta totale sperimentato nell’Indagine Istat sulla disabilità | Francesca Inglese
Prima fase
La stima del parametro (modello CART di contatto) è data dal
tasso di contatto osservato negli L nodi terminali dell’albero
ottimale, , e il fattore di aggiustamento è calcolato come inverso del tasso di contatto
Modelli CART annidati
ˆCT
1 2ˆ ˆ ˆ ˆ, ,...,C
L Θ
ˆPT
1 2ˆ ˆ ˆ ˆ, ,...,P
J Θ
CΘ
PΘ
La determinazione dei fattori di aggiustamento nelle due fasi
Seconda fase
La stima del parametro (modello CART di partecipazione) è data dal
tasso di partecipazione osservato nei J nodi terminali dell’albero
ottimale, , e il fattore di aggiustamento è calcolato come inverso del tasso di
partecipazione all’indagine delle unità contattate
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014 Il metodo sequenziale di aggiustamento delle componenti della mancata risposta totale sperimentato nell’Indagine Istat sulla disabilità | Francesca Inglese
Caratteristiche dell’indagine
è un’indagine di ritorno condotta nel 2010 sul sotto-campione degli individui risultati disabili all’indagine multiscopo “Condizioni di salute e ricorso ai servizi sanitari” condotta nel 2005
sono disponibili per la correzione della mancata risposta totale tutte le variabili rilevate alla prima occasione d’indagine (informazioni di tipo socio-demografico o relative alla inabilità o disabilità)
è realizzata con una tecnica di rilevazione di tipo CATI
è affetta da un elevato tasso di mancata risposta totale determinato principalmente dall’irreperibilità degli individui, ancor più che dal rifiuto di collaborare all’indagine espresso dagli individui contattati
La correzione delle componenti della mancata risposta totale nell’indagine Istat sulla Disabilità
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014 Il metodo sequenziale di aggiustamento delle componenti della mancata risposta totale sperimentato nell’Indagine Istat sulla disabilità | Francesca Inglese
La correzione delle componenti della mancata risposta totale nell’indagine Istat sulla Disabilità
Tavola 1 – Tipologie di risposta nelle due fasi del processo
Fasi Esiti Numero di casi Tasso
Prima
Unità non contattate 1290 47,0%
Unità contattate 1454 53,0%
Campione effettivo 2744 100,0%
Seconda
Unità partecipanti 1114 76,6%
Unità che rifiutano 340 23,4%
Unità contattate 1454 100,0%
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014 Il metodo sequenziale di aggiustamento delle componenti della mancata risposta totale sperimentato nell’Indagine Istat sulla disabilità | Francesca Inglese
Sperimentazione• è stata sviluppata secondo due impostazioni, l’approccio standard in una
singola fase e l’approccio di aggiustamento sequenziale
• i risultati delle due procedure sono stati valutati attraverso un’analisi comparativa basata su due indicatori
l’indice di concordanza tra le probabilità individuali osservate e quelle predette sulla base dei criteri scelti (indicatore indiretto della correzione della distorsione indotta dalla mancata risposta)
la statistica di Kish (1992), che è una misura dell’impatto sulla varianza delle stime dell’incremento di variabilità dei pesi campionari dovuta alla correzione della mancata risposta
La correzione delle componenti della mancata risposta totale nell’indagine Istat sulla Disabilità
La costruzione dei fattori correttivi è stata realizzata a partire dalle probabilità individuali predette tramite i modelli logit e CART. Per il modello logit, le celle di aggiustamento sono state definite con la tecnica degli uguali quantili della distribuzione delle probabilità predette
21 CV
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014 Il metodo sequenziale di aggiustamento delle componenti della mancata risposta totale sperimentato nell’Indagine Istat sulla disabilità | Francesca Inglese
Risultati
Sperimentazione
Tavola 2 – Modelli logit e CART per la variabile risposta, contatto e partecipazione
Approccio tradizionale Approccio sequenziale
Risposta Contatto Partecipazione Modello
Covariate Indice Covariate Indice Covariate Indice
Logit AIC
Presenza del telefono 4 classi di età Stato civile Livello di disabilità Difficoltà motorie Numero di invalidità
3.388
Presenza del telefono 2 classi di età Stato civile Difficoltà motorie Numero di invalidità Numero di disabilità
3.347 5 classi di età 1.564
CART
Presenza del telefono 4 classi di età Difficoltà nelle funzioni giornaliere
0.406 Presenza del telefono 0.325 3 classi di età 0.249
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014 Il metodo sequenziale di aggiustamento delle componenti della mancata risposta totale sperimentato nell’Indagine Istat sulla disabilità | Francesca Inglese
Sperimentazione
Tavola 3 – Indice di concordanza
Indice di concordanza
Modello Metodo Tecnica Approccio
tradizionale Approccio sequenziale
Risposta Contatto Partecipazione
Quartili 0,569 0,574
Quintili 0,569 0,581 0,645 Response propensity stratification
Decili 0,573 0,584 Logit
Response propensity weighting Probabilità individuale 0,565 0,569 0,647
Cart Nodi terminali 0,574 0,583 0,648
Risultati
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014 Il metodo sequenziale di aggiustamento delle componenti della mancata risposta totale sperimentato nell’Indagine Istat sulla disabilità | Francesca Inglese
Sperimentazione
Risultati
Tavola 4 – Sintesi delle distribuzioni dei pesi finali
Approccio tradizionale
Modello Metodo Tecnica Media Max Min 1+CV2
Quartili 1046.72 7692.57 98.83 1.680
Quintili 1037.98 8861.92 99.02 1.673 Response propensity stratification
Decili 1037.62 9781.18 89.22 1.731 Logit
Response propensity weighting Probabilità individuale 1022.55 7235.38 94.09 1.615
Cart Nodi terminali 1035.76 6796.77 94.09 1.567
Approccio sequenziale
Response propensity stratification Quintili 1028.87 7081.31 104.13 1.555 Logit
Response propensity weighting Probabilità individuale 1027.73 7350.38 101.51 1.555
Cart Nodi terminali 1026.71 7003.45 102.98 1.531
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014 Il metodo sequenziale di aggiustamento delle componenti della mancata risposta totale sperimentato nell’Indagine Istat sulla disabilità | Francesca Inglese
• Nella sperimentazione l’approccio sequenziale conduce sempre a risultati migliori (in termini di variabilità dei pesi finali corretti)
• La tecnica di correzione sequenziale basata sugli alberi di classificazione risulta, nel nostro caso, preferibile ed è stata utilizzata per il calcolo dei pesi dell’indagine
Conclusioni e sviluppi futuri (1)
Problematiche connesse all’approccio sequenziale
• Debolezza dell’assunzione di indipendenza delle fasi del processo di riposta, ad esempio quando si è in presenza di errori di classificazione delle tipologie di risposta
• Stima della varianza campionaria che tenga conto delle diversi fasi di aggiustamento dei pesi campionari: i software disponibili nell’Istituto, basati su metodi di replicazione, considerano l’approccio tradizionale del trattamento della mancata risposta totale, in un’unica fase
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014 Il metodo sequenziale di aggiustamento delle componenti della mancata risposta totale sperimentato nell’Indagine Istat sulla disabilità | Francesca Inglese
Approfondimento e studio di altri metodi
Sample selection model (Bethlehem et al., 2011)
• è basato sull’assunzione dell’esistenza sia di correlazione tra i tipi di risposta, sia della relazione tra la variabile risposta e la variabile di interesse dell’indagine
• è applicabile al trattamento della mancata risposta totale nelle indagini mix-mode, modalità di intervista verso cui stanno andando alcune rilevazioni dell’Istat (ad esempio, per le indagini sui laureati e sui diplomati)
• presenta livelli di complessità elevati ma consente di incorporare nella costruzione di fattori correttivi gli effetti incrociati della tecnica di rilevazione e delle componenti di mancata risposta totale
Conclusioni e sviluppi futuri (2)
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014 Il metodo sequenziale di aggiustamento delle componenti della mancata risposta totale sperimentato nell’Indagine Istat sulla disabilità | Francesca Inglese
Bibliografia• Bethlehem, J., Cobben, F. and Schouten, B. (2011). Handbook of Nonresponse in household surveys. Wiley,
New York.• Breiman, L., Friedman, J.H., Olshen, R.A. and Stone, C.J. (1984). Classification Regression Trees. Wadsworth
International Group, Belmont.Groves, R.M., Couper, M.P. (1998). Nonresponse in household interview surveys. Wiley, New York.
• Cocchi, D., De Vitiis, C., Inglese, F., Terribili, M.D. (2014) Treatment of total nonreponse via sequential weight adjustment in the italian disability survey, in corso di pubbl. in Italian Journal of applied Statistics
• Groves, R.M., Couper, M.P. (1998). Nonresponse in household interview surveys. Wiley, New York.• Iannacchione, V.G. (2003). Sequential weight adjustments for location and cooperation propensity for 1995
national survey of family growth. Journal of Official Statistics, 19: 31-43.• ISTAT (2012). Inclusione sociale delle persone con limitazioni dell’autonomia personale. Statistiche report.
http://www.istat.it/it/archivio/77546.• Kalton, G., Flores-Cervantes, I. (2003). Weighting methods. Journal of Official Statistics, 19: 81-97. • Kish, L. (1992). Weighting for Unequal Pi. Journal of Official Statistics 8: 183-200.• Rosenbaum, P.R. and Rubin, D.B. (1984) Reducing the bias in observational studies using subclassification
on the propensity score, Journal of the American Statistical Association, 79, 516-524.• Rizzo, L., Kalton, G. and Brick, J.M. (1996). A comparison of some weighting adjustment methods for panel
nonresponse, Survey Methodology, 22: 43-53.• Särndal, C.E., Swensson, B. and Wretman, J.H. (1992). Model Assisted Survey Sampling, Cap XV, Springer.
New York.• Särndal, C.E., Lundström, S. (2005). Estimation in surveys with nonresponse. Wiley, New York.
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014 Il metodo sequenziale di aggiustamento delle componenti della mancata risposta totale sperimentato nell’Indagine Istat sulla disabilità | Francesca Inglese