Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
Proaktiv (övervakad) datainsamling
begrepp, teori, exempel
Kurs SU, del 3
Kurs SU 20/04 – 2015
Peter Lundquist och Carl-Erik Särndal
1 2015-04-18_PL
1. Kontroll av och ingrepp i datainsamlingen
• Hur administrera kontaktförsöken?
• Skapa minskad obalans i slutlig svarandemängd
• Svarsintensitet, definition, dess roll som verktyg Tröskelmetoden,
Lika-andel-metoden
• Samband mellan svarsintensitet och obalans
• Reducerad obalans: Blir estimatens bias mindre?
2. Experiment med genererade svarsmängder
• Generera svarsmängder med låg obalans (threshold method)
• Experimentresultat: Bias och varians för de jämförda estimatorerna
3. Teoretiska resultat om sambandet mellan obalans och bias
4. Experiment med alternativa kontaktstrategier
5. Avslutande kommentarer
Proaktiv (monitored) datainsamling
2
Datainsamling i fler faser
3
Revidera designen med hänsyn till bestämda regler
Stopp-kriteriet uppfyllt?
Stopp. Genomför estimationen
Samla in data för nästa fas , Reviderad design
Datainsamlingsfas 1, Ursprunglig design
Analys av tillgänglig data (Målvariabler, processdata
och x-variabler)
Nej
Ja
Hur administrera kontaktförsöken?
• En responsive (adaptiv) design kan variera mycket
beroende på vilka prioriteringar man gör i samband
med undersökningens datainsamlingsstrategi.
• Det finns ofta många önskemål att ta hänsyn till i
datainsamlingen. Det kan därför blir svårt att
optimera datainsamlingsstrategin; viktiga beslut
måste fattas.
4
Hur administrera kontaktförsöken?
Traditionellt tänkande när man vill skräddarsy en
undersökning: Man måste ta hänsyn till:
• kostnader,
• bias,
• varians och
• andra önskemål (som t.ex. hög svarsandel)
• Olika undersökningar kommer med andra ord att
ha olika strategier beroende på vilka faktorer man
prioriterar.
5
Hur administrera kontaktförsöken?
Miska kostnaderna
• Mindre suburval till bortfallsuppföljningen
(Ökad varians)
• Billigare datainsamlingsmetoder
(Blir fel av andra typer än bortfallsfelet större?)
• Riktar in sig på individer som svarar ”lättare”
(Kan öka bortfallsbiasen)
Maximera svarsandelen
• Suburval till bortfallsuppföljningen
(Ökad varians)
• I suburvalet rikta in sig på individer som svarar ”lättare”
(Kan öka bortfallsbiasen)
6
Hur administrera kontaktförsöken?
Minska (risken för) bias
• Suburval bland bortfallet
(Utnyttja dyrare effektivare insamling)
• Försök få fatt på individer som är underrepresenterade
(Kan öka kostnaderna och minska svarsandelen)
Minska variansen
• Försök få tag på individer med hög 𝑑𝑘 − vikt och hög svarsintensitet
(Kan förvärra biasen)
7
Hur administrera kontaktförsöken?
Vi har i vårt arbete framförallt försökt
öka balansen
för att minska risken för bias.
8
Våra metoder och experiment använder begreppet
svarsintensitet (eng. response propensity).
Den kan beräknas för alla objekten i samplet s och på vilken tidpunkt som helst under datainsamlingen (för vilken
svarsmängd r som helst).
Tanken bakom: Objekten som har låg svarsintensitet på
en given tidpunkt i datainsamlingen (där vi stannar upp och
tittar) är de som vi måste koncentrera oss på att få in svar
ifrån.
De som har hög svarsintensitet ”har vi redan tillräckligt
av”. Få in fler av samma sort (även om ”lättfångade” av
intervjuarstaben) förbättrar inte balansen.
9
Svarsintensiteten beräknas relativt en lämpligt vald
monitoringvektor (övervakningsvektor) xMV
och är baserad på regression (lineär eller logistisk) av
Ik på xMVk
Responsindikator Ik = 1 om k svarar, Ik = 0 annars.
Experiment: med hjälp av begreppet svarsintensitet
genererar vi experimentella svarsmängder.
10
.
Svarsintensiteten definieras här som det
predicerade värdet i lineär regression (över 𝑠) av 𝐼𝑘 på 𝐱𝑀𝑉𝑘 :
med regressionsvektorn
MVkP̂
ˆ ˆMVk k MVk MVP I xx b
Eftersom 𝐼𝑘 är 0/1-variabel kan svarsintensiteten
beräknas alternativt med logistisk eller annan icke-
linjär regression. Konsekvenserna för våra syften är
inte så viktiga.
s MVkkks MVkMVkkMVs Idd xxxb1)(
11
Svarsintensiteten för objekt k relativt
monitoringvektorn xMV :
Tolkning: Lineär regression Ik på xMVk
MVsMVkMVkP bxˆ
s MVkkks MVkMVkkMVs Idd xxxb1)(
12
Svarsintensiteten
(beräkningsbar för alla k s) kan visas ha medeltal
Svarsandelen
𝑃 = svarsandel uppnådd på den punkten i datainsamlingen
Pd
d
d
PdP
s k
r k
s k
s MVkk
MVs
ˆˆ
MVsMVkMVkP bxˆ
13
Svarsintensiteten
har (definitionsmässigt) variansen
Viktigt resultat:
Svarsintensitetens varians = svarsmängdens obalans,
som den är på den punkten i datainsamlingen
s MVkk
s ksP
PPdd
S 22ˆ )ˆ(
1
Övning: Kan visas,
kom ihåg 𝐼𝑀𝐵 𝑟, 𝐱 𝑠 = 𝑃2(𝐱 𝒓 − 𝐱 𝒔)′ (𝐱 𝒓 − 𝐱 𝒔)−𝟏𝒔
)()(),( 122ˆ srssrsP PsrIMBS xxΣxxx
14
Svarsintensitetens varians = obalansen i svarsmängden
För praktiken innebär det:
Jobba med datainsamlingen på så sätt att variansen i
svarsintensiteterna reduceras (dessa kan vi fortlöpande
beräkna). Då reduceras obalansen.
),(2ˆ srIMBS sP x
Vi har använt två metoder för det:
Tröskelmetoden och Lika-andelsmetoden
(Fler metoder kan konstrueras)
15
Tröskelmetoden
• På i förväg angivna ställen (interventionspunkter)
i datainsamlingen, beräkna svarsintensiteteten,
, för alla objekt i samplet s och
• Sätt åt sidan (sluta kontakta) objekt som har
svarsintensitet högre än ett tröskelvärde (t.ex.
60%)
• Datainsamling (kontaktförsök) fortsätter med
övriga, ännu inte svarande, för att få upp deras
svarsintensitet.
MVkP̂
16
Tröskelmetoden
Vid varje interventionspunkt räknar vi om svarsintensiteten
𝑃 𝑀𝑉𝑘 för alla objekt 𝑘 ∈ 𝑠 (även de som tidigare satts åt sidan).
Ytterligare några kommer då att få 𝑃 𝑀𝑉𝑘 > tröskelvärdet
Dessa sätts då också åt sidan.
Man fortsätter så genom serien av interventionspunkter.
Resultat: Utjämnande av intensiteterna, de får
successivt minskande varians, alltså
minskad obalans IMB i svarsmängden
17
Tröskelvärdet
hur sätts det ?
Ju mindre tröskel, dess mer tvingas intensiteterna bli
lika. Och eftersom deras varians är lika med
obalansen IMB, så reduceras denna.
Vi rekommenderar sätta tröskelvärdet i närheten av
den svarsandel man tror sig få i undersökningen.
Interventionspunkternas inplacering över
datainsamlingsperioden är också en viktig fråga.
18
Tröskelmetoden
Ju mindre tröskel, dess mer tvingas intensiteterna bli lika.
Och eftersom deras varians är lika med obalansen IMB, så reduceras denna under datainsamlingen
Som följd därav:
Klart att justeringen bör bli mindre och mindre.
Vi vill se om samma gäller avvikelsen för CAL
ˆ ˆ ˆjusteringen ( )EXP CAL r s rY Y N x x b
avvikelsen ˆ ˆ ˆ ( )CAL FUL r s sCAL Y Y N b b x
19
Vi har också räknat på
Lika-andelsmetoden
En konstant andel sätts åt sidan i varje
interventionspunkt.
T.ex. om 5 interventionspunkter har fixerats,
sätt åt sidan 1/6 av samplet varje gång ;
sista sjättedelen fortsätter till slutet.
Uppgift : Hitta på fler och smartare metoder
för ”𝑰𝑴𝑩-reducering” i datainsamlingen
20
dim = 11 ; antal värden = 8x4 = 32
Experiment på ULF2009
Monitoringvektorer :
dim = 14; antal värden = 256
)(1 OriginOwnerEducMV x
))((2 AgeOriginOwnerEducMV x
))((3 GenderCivilAgePhoneOriginOwnerEducMV x
dim = 8 = antal värden
21
I ett av experimenten : Monitoringvektorn
med dimension 14 :
Vi jämför Faktiska svarmängden i ULF2009 med tre utifrån
denna genererade svarsmängder,
Tröskelmetoden; tröskelvärden: 65%, 55% , 50%;
fem i förväg valda interventionspunkter
Vi vill se hur
IMB, Justeringstermen och CAL-avvikelsen
beter sig för tre olika y-variabler
))((3 GenderCivilAgePhoneOriginOwnerEducMV x
22
I ett av experimenten : Monitoringvektorn
med dimension 14 :
Vi beräknar
IMB
(Relativa) Justeringen RADJ
(Relativa) CAL-avvikelsen RDEVCAL
))((3 GenderCivilAgePhoneOriginOwnerEducMV x
ˆ ˆ ˆ= 100 ( ) /EXP CAL CALRDAJ Y Y Y
ˆ ˆ ˆ100 ( ) /CAL CAL FUL FULRDEV Y Y Y
23
När obalansen IMB avtar (som följd av stramare interventioner)
så ser vi :
Relativa justeringen RADJ : Klar reducering
Relativa CAL-avvikelsen RDEVCAL: Reducering, men mindre
CAL beräknad på x-vektorn = monitoringvektorn
))(( GenderCivilAgePhoneOriginOwnerEduc x
Resultat: ULF 2009
Verklig svarsmängd och tre genererade.
y-variabel: Sysselsatt (0/1 variabel)
y = Sysselsatt
Svarsmängd 100xIMB RADJ RDEVCAL
Faktiska 1.88 1.68 3.08
Tröskel 65% 1.12 1.46 3.00
Tröskel 55% 0.65 0.79 2.94
Tröskel 50% 0.43 0.42 2.61
24
Då IMB avtar, avtagande tendens både i RADJ och RDEVCAL.
CAL-vektor = montoringvektor =
Resultat: ULF 2009
Verklig svarsmängd och tre genererade.
y-variabler: Ersättning (0/1) ; Inkomst (kontinuerlig)
y = Ersättning y = Inkomst
Svarsmängd RADJ RDEVCAL RADJ RDEVCAL
Faktiska -4.85 -4.56 3.45 3.30
Tröskel 65% -3.64 -3.75 2.20 3.35
Tröskel 55% -3.63 -1.41 1.61 2.75
Tröskel 50% -3.07 -0.95 1.20 2.32
))(( GenderCivilAgePhoneOriginOwnerEduc x
25
För samtliga tre y-variabler har vi sett:
Att Relativa justeringen RADJ reduceras när IMB
genom interventioner tvingas bli lägre. Det är väntat.
Att Relativa CAL-avvikelsen RDEVCAL krymper är
« lovande »
Resultat: ULF 2009
Faktisk svarsmängd och tre genererade.
26
Ett vidare perspektiv:
I det faktiska ULF2009 materialet är R-kvadrat = 28%
i lineär regression av y = Inkomst på dim(14)-vektorn
Fråga: Vad är sambandet mellan
Förklaringsgrad (R-kvadrat av y på x-vektorn)
och
IMB-nivå i svarsmängden r ?
Vi ville veta mer om det och gjorde följande
empiriska försök rapporterat i
J. Survey Statistics & Methodology (2014)
))(( GenderCivilAgePhoneOriginOwnerEduc x
27
.
Dess storlek påverkas så klart av regressionens styrka :
Om
så är avvikelsen noll.
Om R-kvadrat < 1 men hög, så kan vi vänta att den är
liten.
Om vi reducerar IMB i datainsamlingen (med t.ex. våra
metoder), kan vi då förvänta oss att CAL-avvikelsen avtar ?
Inte utan vidare klart. Ganska svår matematisk fråga.
Empiriskt leds vi att studera samspelet mellan två faktorer :
Nivån på R-kvadrat och Nivån på IMB
alla , d.v.s. R kvadrat 1k ky k s x β
ˆ ˆ ˆCAL-avvikelsen ( )CAL FUL r s sY Y N b b x
28
.
I praktiken:
IMB-nivån i den slutliga svarsmängden i
datainsamlingen, den kan vi manipulera
med våra metoder (tröskelmetoden t.ex.)
Nivån på R-kvadrat för regr. av y på x-vektorn kan vi
inte göra så mycket åt, den är vad den är. Klart vi kan
göra den lite högre genom att ta med fler (och ”bättre”)
variabler i x-vektorn.
ˆ ˆ ˆCAL-avvikelsen ( )CAL FUL r s sY Y N b b x
29
Experiment med data från två SCB-undersökningar
ULF2009 och PSU2010
Två faktorer påverkar estimatorerna CAL and EXP :
Förklaringsgraden (y på vektor x) och
IMB-nivån (hos r-mängden)
Hur ändras CAL - FUL (CAL-estimatorns avvikelse)
och EXP – CAL (justeringens storlek)
när de två faktorerna ändras ?
30
Experiment
med data från ULF2009 och PSU2010
Faktorer som påverkar CAL and EXP :
Förklaringsgraden (y på vektor x) och
IMB-nivån (hos r-mängden)
Vi varierade systematiskt de två faktorerna för att se deras
effekt
på avvikelsen CAL - FUL (primära intresset)
på justeringen EXP – CAL
. 31
Två-faktor-experiment
IMB-nivån beror på monitoringvektorn och på
tröskelvärdet (om vi använder tröskelmetoden).
Vi använde tre sådana vektorer ;
för var och en, tre olika tröskelvärden.
Undersökningsvariabel : y = Inkomst
(en registervariabel, känd för hela stickprovet s)
32
Två-faktor experiment
Vi genererade flera svarsmängder r , med olika IMB, genom interventioner “i efterhand” i den faktiskt
registrerade svarsmängden i ULF2009
Vi genererade också flera y-variabler med olika
förklaringsgrad R2 för regr. av y på x , genom
transformationer av den verkliga variabeln
y = Inkomst tillgänglig i ULF2009-filen)
Hur reagerar RDEVCAL
och RADJ
på dessa systematiska ändringar i de två faktorerna?
33
Vi visar resultat för
Monitoringvektorn xMV
= Kalibreringsvektorn xCAL
=
Dimension = 14 ; med antal möjliga värden = 256
3 (( ) )MV CAL Educ Owner Origin Phone Age Civil Gender x x
34
Vi får en tablå av följande typ
Kolumner : förklaringsgrad = F2 = 1%, 49% , 81%
Rader : IMB-nivåer, Verkliga, och 3 genererade
F = 0.1 F = 0.7 F = 0.9
svar 100IMB RDEVcal RADJ RDEVcal RADJ RDEVcal RADJ
Faktisk 1.88
65% 1.12
55% 0.65
50% 0.43
IMB avtar, som väntat, fast inte här till nära noll
Vad blir effekten på RDEVCAL och RADJ ?
3 (( ) )MV CAL Educ Owner Origin Phone Age Civil Gender x x
35
Rel. avvikelsen RDEVCAL
för y = Income
Kolumner (förklaringsgrad): F2 = 0.01, 0.49, 0.81
Rader (IMB-nivå): Faktisk; 3 genererade. trösklar 65, 55,
50%
F = 0.1 F = 0.7 F = 0.9
svar 100IMB RDEVcal RDEVcal RDEVcal
Actual 1.88 3.89 2.79 1.70
65% 1.12 3.95 2.83 1.73
55% 0.65 3.24 2.32 1.42
50% 0.43 2.74 1.96 1.20
Kolumneffekt : Minskad IMB ger klar,
fast ganska blygsam, reduktion av RDEVcal
Radeffekt: Högre förklaringsgrad ger
(ganska väntat) stor minskning I RDEVcal 36
Justeringen RADJ för y = Income
Kolumner (förklaringsgrad): F2 = 0.01, 0.49, 0.81
Rader(IMB-nivå): Faktisk, 3 genererade, trösklar 65, 55, 50%
F = 0.1 F = 0.7 F = 0.9
svar 100IMB RADJ RADJ RADJ
Faktisk 1.88 -0.42 5.01 7.05
65% 1.12 -0.50 3.30 4.76
55% 0.65 -0.49 2.48 3.63
50% 0.43 -0.42 1.88 2.78
Kolumneffekt: RADJ sjunker klart för F = 0.7 ;
än mer för F = 0.9
OBS: negativ RADJ for F = 0.1 (inte helt oväntat)
Radeffekt: (Väntade) ökningen i RADJ
mest påfallande för Faktisk 37
Kommentar om bortfallsjusteringen RADJ :
Vi vet att RADJ = 0 när IMB = 0
(ingen justering av inträffar ; EXP och CAL identiska)
Här i experimentet kommer vi inte ner till IMB = 0,
så i sista raden är RADJ inte nära noll
F = 0.1 F = 0.7 F = 0.9
svar 100IMB RADJ RADJ RADJ
Actual 1.88 -0.42 5.01 7.05
65% 1.12 -0.50 3.30 4.76
55% 0.65 -0.49 2.48 3.63
50% 0.43 -0.42 1.88 2.78
38
Sammanfattning RDEVcal and RADJ
y = Income med tre nivåer på förklaringsgrad F2
Response; Faktisk, och 3 genererede med trösklar,
thresholds 65, 55, 50 %
F = 0.1 F = 0.7 F = 0.9
svar RDEVcal RADJ RDEVcal RADJ RDEVcal RADJ
Actual 3.89 -0.42 2.79 5.01 1.70 7.05
65% 3.95 -0.50 2.83 3.30 1.73 4.76
55% 3.24 -0.49 2.32 2.48 1.42 3.63
50% 2.74 -0.42 1.96 1.88 1.20 2.78
x-vektor för CAL-estimatorn är
(( ) )CAL Educ Owner Origin Phone Age Civil Gender x
39
Teoretiska resultat om CAL-avvikelsen
där ( )r r s s Δ b b xˆ ˆ ˆCAL FUL rY Y N
är inte så lätta att ta fram, för problemet har ganska
komplex inramning. Många faktorer inverkar.
40
Särndal, Lumiste och Traat (2014)
ett samarbete med Univ. i Tartu, Estland
mean( , , ) 0r r m s x
2 var( , , )r rS m s x
2
,
21 )(y gr
S IMBp
m p
där ( )r r s s Δ b b xˆ ˆ ˆCAL FUL rY Y N
Egenskaper (medelvärde och varians) hos r
för given IMB-nivå
för det enkla fallet OSU, n från N ;
x är gruppvektor ; andel svar p = m/n :
41
Teoretiska resultat om CAL-avvikelsen
Teoretiska resultat om CAL-avvikelsen
2
21 11 ) ( ) varians vid slumpmässigt bortfall(ygr ygrS
p Sm m n
där ( )r r s s Δ b b xˆ ˆ ˆCAL FUL rY Y N
2
2
21 )(ygr
S IMBS p
m p
2
2ytterligare varians när obalans 0
ygrS IMBIMB
m p
42
Relativa varianstillägget för CAL-estimatorns
avvikelse på grund av obalans :
. 2
/ (1 )IMB
pp
Till exempel,
obalans IMB = 0,04; p = 50% svar :
ger relativa varianstillägget = 32%
43
Experiment på ULF
I samband med att studier görs för att förbättra kvaliteten i
datainsamlingen behöver man bestämma vilken typ av mått
som är centralt för att kunna tala om att den nya
datainsamlingsstrategin (metoden) ger en förbättring.
Nedan redovisas experiment på ULF genomförda 2011 och
2012.
Syfte: Att försöka förbättra balansen i svarsmängden; att få
en bättra kontroll av kostnader och intervjuresurser.
Centrala mått att studera: Indikatorer
44
Experimentet 2011:
I CATI-gruppen testades en ny kontaktstrategi på höstens delurval i ULF. (Läs mer i R&D rapporten 2013)
Experimentet 2012:
Genomfördes bland fältintervjuarna under höstens delurval i ULF. Ett test av möjligheten att prioritera de kvarvarande urvalsobjekten i bortfallsuppföljningen. (Lundquist 2013)
Tanken var att båda stegen skulle genomföras under 2011 års undersökning, men p.g.a. dålig svarsandel i det ordinarie urvalet 2011 valde vi att skjuta den senare delen ett år. Redovisningen ska ses som ett försök att arbeta med en adaptiv design i ULF som man med fördel kan arbeta vidare med.
45
Experiment 2011: Ny kontaktstrategi
Grupper Kontroll Experiment
Hög risk för övertäckning [2%] Svarsandel Kontaktförsök mv
33% 7.8
38% 5.4
Alla åldrar, född utrikes utan fastighet [14%]
Svarsandel Kontaktförsök mv
43% 9.7
50% 9.0
65+ år med fastighet [21%] Svarsandel Kontaktförsök mv
64% 5.5
62% 5.1
Upp till 64 år, född inrikes med fastighet [23%]
Svarsandel Kontaktförsök mv
56% 8.2
72% 8.2
Upp till 64 år, kvarvarande blandad grupp [39%]
Svarsandel Kontaktförsök mv
54% 8.8
60% 9.9
Totalt Svarsandel Kontaktförsök mv
55% 8.1
61% 8.2
46
Urvalsstorlek: nKontroll
=1055 och nExperiment
=1053 individer
Fas i datainsamlingen Svar BI dist
EXP urvalet
Ordinarie datainsamling 50.3% 0.773 0.453
Efter bortfallsuppföljning 61.4% 0.771 0.470
Kontroll urvalet
Ordinarie datainsamling 42.7% 0.788 0.428
Efter bortfallsuppföljning 54.5% 0.803 0.396
47
Hjälpvektor: 5 grupper + Hög utbildning + Gift + Kön
Experiment 2011: Vägd svarsandel och Indikatorer
Experiment 2011: Resultat
Den nya kontaktstrategin
• Gav högre andel svar (vägt), 61.4% vs. 54.5%
• Producerade inte bättre balans eller lägre distans i
svarsmängden (inga signifikanta skillnader)
• Är inte praktiskt realiserbar som den genomfördes.
Den påminner om hur fältintervjuarna genomför sitt
arbete
• Det visade sig att tidpunkten för första kontakt var
en förklarade faktor för skillnaden i svar mellan
experiment och kontrollgrupp
48
Experiment 2012: Stopprocedur
49
Definiera för sk “svarsintensiteten” vid den aktuella tidpunkten i undersökningen:
s s kkkkkkkk dIdP xxxx1)()(ˆ (regression av Ik på xk)
Efter den ordinarie datainsamlingen beräkna för alla objekt k; stoppa de med en svarsintensitet högre än ett i förväg bestämt värde.
kP̂
Alternativt kan logistisk regression användas för att ta fram
svarsintensiteterna.
50
Stoppregel 1: 60% svarsintensitet
Fältarbete 100×P BI distr|nr
Antal
kontaktförsök Reduktion i %
Ordinarie datainsamling 50.3 0.773 0.453 6226 0
Intervention: Slutligt resultat 59.5 0.818 0.371 8380 3.3
Stoppregel 2: 48.67% [median] svarsintensitet
Fältarbete 100×P BI distr|nr
Antal
kontaktförsök Reduktion i %
Ordinarie datainsamling 50.3 0.773 0.453 6226 0
Intervention: Slutligt resultat 56.7 0.850 0.302 7792 10.1
Experiment 2012: Stopprocedur testad på Exp Sample 2011
Notera: Data från experimenturvalet 2011 används för att designa
stopproceduren i ULF 2012 experimentet
Hjälpvektor: 5 grupper + Hög utbildning + Gift + Kön
Experiment 2012: Realisering
För EXP stickprovet beräknades svarsintensiteterna med
hjälp av följande monitoringvektor (ej samma som i
experimentet 2011) :
Ålder, Kön, Gift, Hög utbildning, Anställd, Storstad
Objekten i stickprovet med de högsta svarsintensiteterna
uteslöts, de n/4 största .
Omgång # borttagna Gränsvärde för svarsintensiteten
C09 47
C10 38
C11 32
561.0ˆ kP
591.0ˆ kP
588.0ˆ kP
117 individer ej avslutade objekt uteslöts ur bortfallsuppföljningen med denna
stopprocedur, p.g.a. en hög svarsintensitet för gruppen.
kP̂
51
Experiment 2012: Vägd svarsandel och indikatorer
Urval 100×P BI dist R-ind LB-R UB-R mv Kf
Kontroll (n=2,304)
Ordinarie datainsamling 50.4 0.816 0.368 0.809 0.766 0.851 9.2
Efter bortfallsuppföljning 58.9 0.812 0.383 0.820 0.776 0.863 12.0
Experiment (n=1,648)
Ordinarie datainsamling 51.8 0.804 0.392 0.814 0.766 0.863 9.4
Efter bortfallsuppföljning 58.7 0.841 0.324 0.848 0.798 0.898 11.7
Inga signifikanta skillnader på 5%-sign. nivå
Hjälpvektor: Ålder + Kön + Gift + Hög utbildning + Anställd + Storstad
52
Experiment 2012: Resultat
Stopproceduren visade att
• Det är tekniskt möjligt att styra datainsamlingen till
grupper med låg svarsintensitet,
• Den vägda svarsandelen minskar endast
marginellt, balansen, distansen går i rätt riktning
och antalet kontaktförsök minskar (ej signifikant),
• Besparingen, det minskade antalet kontaktförsök,
kan användas för att sätta in åtgärder i andra
grupper såsom yngre personer och invandrare.
53
Avslutande kommentarer
• Vi har nu beskrivit mått som gör att man
fortlöpande kan mäta kvaliteten i datainsamlingen
och analysarbetet genom nya indikatorer –
Avstånd, Balans, R-indikator och RDEV. Detta har
medfört förbättrad struktur och metodik i studiet av
bortfallet och dess effekter.
• Idag används dessa och andra indikatorer av
minst ett 20-tal statistiska institut (både akademi
och statistikproducenter).
54
Avslutande kommentarer
• Vi har sett att en viss förbättring av CAL-estimatorns
tillförlitlighet (reducering av dess avvikelse från
unbiased skattning) kan förväntas genom att
reducera obalansen (IMB) i svarsmängden.
• Det finns andra skäl till att använda IMB eller
liknande mått i datainsamlingen. De tjänar till att
kontinuerligt följa gången i datainsamlingen, att
undvika ”duplikat” av typer av enheter som redan
finns väl representerade i svarsmängden och som
även om svar erhölls skulle ha negligerbar inverkan
på skattningarna.
55
Referenser Bethlehem, J., F. Cobben, and B. Schouten (2011). Handbook of Nonresponse
in Households Surveys, New York: Wiley.
Groves, R. (2006), “Research Synthesis: Nonresponse Rates and Nonresponse
Error in Household Surveys,” Public Opinion Quarterly, 70, 646–675.
Groves, R. M., and S. G. Heeringa (2006). Responsive Design for household
surveys: Tools for actively controlling survey errors and costs. Journal of the
Royal Statistical Society: Series A, 169, 439–457.
Little, R.J.A . and Rubin, D.B. (2002). Statistical analysis with missing data,
2nd ed, New York: Wiley
Lundquist, P. and Särndal, C.E. (2012). Aspects of responsive design for the
Swedish Living Conditions Survey. R&D report 2012:1, Statistics Sweden,
www.scb.se.
Lundquist, P. and Särndal, C.E. (2013). Responsive design, Phase II –
Indicators and measures. R&D report 2013:1, Statistics Sweden,
www.scb.se.
Lundquist, P. (2013). Building a final survey response set. [Experiment på ULF
presenterat vid ESRA konferensen i Ljubljana, Slovenien.]
Lundquist, P., and C. E. Särndal (2013), “Aspects of Responsive Design—With
Applications to the Swedish Living Conditions Survey,” Journal of Official
Statistics, 29, 557–582.
56
http://www.scb.se/statistik/_publikationer/OV9999_2012A01_BR_X103BR1201.pdfhttp://www.scb.se/statistik/_publikationer/OV9999_2012A01_BR_X103BR1201.pdf
Schouten, B., F. Cobben, and J. Bethlehem (2009). Indicators for the
representativeness of survey response. Survey Methodology, 35, 101–113.
Särndal, C.E. and Lundström, S. (2005). Estimations in Surveys with
Nonresponse. New York: Wiley.
Särndal, C. E., and S. Lundström (2010), “Design for Estimation: Identifying
Auxiliary Vectors to Reduce Nonresponse Bias,” Survey Methodology, 36,
131–144.
Särndal, C. E. (2011). Dealing with survey nonresponse in data collection, in
Estimation. Journal of Official Statistics, 27, 1–21.
Särndal, C.E., and P. Lundquist (2014). Accuracy in estimation with
nonresponse: A function of degree of imbalance and degree of explanation.
Journal of Survey Statistics and Methodology, 2, 361-387.
Särndal, C.E. and Lundquist, P. (2014). Balancing the response and adjusting
estimates for nonresponse bias: Complementary activities. Journal de la
Société Française de Statistique, 155(4), 28-50
Särndal, C.E., K. Lumiste and I. Traat. (2014). Reducing the response
imbalance: Is the accuracy of the estimates improved? Submitted for
publication.
57