Proaktiv (övervakad) datainsamling begrepp, teori, exempel ......2015/04/20 · 3. Teoretiska resultat om sambandet mellan obalans och bias 4. Experiment med alternativa kontaktstrategier

Proaktiv (övervakad) datainsamling

begrepp, teori, exempel

Kurs SU, del 3

Kurs SU 20/04 – 2015

Peter Lundquist och Carl-Erik Särndal

1 2015-04-18_PL

1. Kontroll av och ingrepp i datainsamlingen

• Hur administrera kontaktförsöken?

• Skapa minskad obalans i slutlig svarandemängd

• Svarsintensitet, definition, dess roll som verktyg Tröskelmetoden,

Lika-andel-metoden

• Samband mellan svarsintensitet och obalans

• Reducerad obalans: Blir estimatens bias mindre?

2. Experiment med genererade svarsmängder

• Generera svarsmängder med låg obalans (threshold method)

• Experimentresultat: Bias och varians för de jämförda estimatorerna

3. Teoretiska resultat om sambandet mellan obalans och bias

4. Experiment med alternativa kontaktstrategier

5. Avslutande kommentarer

Proaktiv (monitored) datainsamling

2

Datainsamling i fler faser

3

Revidera designen med hänsyn till bestämda regler

Stopp-kriteriet uppfyllt?

Stopp. Genomför estimationen

Samla in data för nästa fas , Reviderad design

Datainsamlingsfas 1, Ursprunglig design

Analys av tillgänglig data (Målvariabler, processdata

och x-variabler)

Nej

Ja

Hur administrera kontaktförsöken?

• En responsive (adaptiv) design kan variera mycket

beroende på vilka prioriteringar man gör i samband

med undersökningens datainsamlingsstrategi.

• Det finns ofta många önskemål att ta hänsyn till i

datainsamlingen. Det kan därför blir svårt att

optimera datainsamlingsstrategin; viktiga beslut

måste fattas.

4


Traditionellt tänkande när man vill skräddarsy en

undersökning: Man måste ta hänsyn till:

• kostnader,

• bias,

• varians och

• andra önskemål (som t.ex. hög svarsandel)

• Olika undersökningar kommer med andra ord att

ha olika strategier beroende på vilka faktorer man

prioriterar.

5


Miska kostnaderna

• Mindre suburval till bortfallsuppföljningen

(Ökad varians)

• Billigare datainsamlingsmetoder

(Blir fel av andra typer än bortfallsfelet större?)

• Riktar in sig på individer som svarar ”lättare”

(Kan öka bortfallsbiasen)

Maximera svarsandelen

• Suburval till bortfallsuppföljningen

(Ökad varians)

• I suburvalet rikta in sig på individer som svarar ”lättare”

(Kan öka bortfallsbiasen)

6


Minska (risken för) bias

• Suburval bland bortfallet

(Utnyttja dyrare effektivare insamling)

• Försök få fatt på individer som är underrepresenterade

(Kan öka kostnaderna och minska svarsandelen)

Minska variansen

• Försök få tag på individer med hög 𝑑𝑘 − vikt och hög svarsintensitet

(Kan förvärra biasen)

7


Vi har i vårt arbete framförallt försökt

öka balansen

för att minska risken för bias.

8

Våra metoder och experiment använder begreppet

svarsintensitet (eng. response propensity).

Den kan beräknas för alla objekten i samplet s och på vilken tidpunkt som helst under datainsamlingen (för vilken

svarsmängd r som helst).

Tanken bakom: Objekten som har låg svarsintensitet på

en given tidpunkt i datainsamlingen (där vi stannar upp och

tittar) är de som vi måste koncentrera oss på att få in svar

ifrån.

De som har hög svarsintensitet ”har vi redan tillräckligt

av”. Få in fler av samma sort (även om ”lättfångade” av

intervjuarstaben) förbättrar inte balansen.

9

Svarsintensiteten beräknas relativt en lämpligt vald

monitoringvektor (övervakningsvektor) xMV

och är baserad på regression (lineär eller logistisk) av

Ik på xMVk

Responsindikator Ik = 1 om k svarar, Ik = 0 annars.

Experiment: med hjälp av begreppet svarsintensitet

genererar vi experimentella svarsmängder.

10

.

Svarsintensiteten definieras här som det

predicerade värdet i lineär regression (över 𝑠) av 𝐼𝑘 på 𝐱𝑀𝑉𝑘 :

med regressionsvektorn

MVkP̂

ˆ ˆMVk k MVk MVP I xx b

Eftersom 𝐼𝑘 är 0/1-variabel kan svarsintensiteten

beräknas alternativt med logistisk eller annan icke-

linjär regression. Konsekvenserna för våra syften är

inte så viktiga.

s MVkkks MVkMVkkMVs Idd xxxb1)(

11

Svarsintensiteten för objekt k relativt

monitoringvektorn xMV :

Tolkning: Lineär regression Ik på xMVk

MVsMVkMVkP bxˆ

s MVkkks MVkMVkkMVs Idd xxxb1)(

12

Svarsintensiteten

(beräkningsbar för alla k s) kan visas ha medeltal

Svarsandelen

𝑃 = svarsandel uppnådd på den punkten i datainsamlingen

Pd

d

d

PdP

s k

r k

s k

s MVkk

MVs

ˆˆ

MVsMVkMVkP bxˆ

13

Svarsintensiteten

har (definitionsmässigt) variansen

Viktigt resultat:

Svarsintensitetens varians = svarsmängdens obalans,

som den är på den punkten i datainsamlingen

s MVkk

s ksP

PPdd

S 22ˆ )ˆ(

1

Övning: Kan visas,

kom ihåg 𝐼𝑀𝐵 𝑟, 𝐱 𝑠 = 𝑃2(𝐱 𝒓 − 𝐱 𝒔)′ (𝐱 𝒓 − 𝐱 𝒔)−𝟏𝒔

)()(),( 122ˆ srssrsP PsrIMBS xxΣxxx

14

Svarsintensitetens varians = obalansen i svarsmängden

För praktiken innebär det:

Jobba med datainsamlingen på så sätt att variansen i

svarsintensiteterna reduceras (dessa kan vi fortlöpande

beräkna). Då reduceras obalansen.

),(2ˆ srIMBS sP x

Vi har använt två metoder för det:

Tröskelmetoden och Lika-andelsmetoden

(Fler metoder kan konstrueras)

15

Tröskelmetoden

• På i förväg angivna ställen (interventionspunkter)

i datainsamlingen, beräkna svarsintensiteteten,

, för alla objekt i samplet s och

• Sätt åt sidan (sluta kontakta) objekt som har

svarsintensitet högre än ett tröskelvärde (t.ex.

60%)

• Datainsamling (kontaktförsök) fortsätter med

övriga, ännu inte svarande, för att få upp deras

svarsintensitet.

MVkP̂

16

Tröskelmetoden

Vid varje interventionspunkt räknar vi om svarsintensiteten

𝑃 𝑀𝑉𝑘 för alla objekt 𝑘 ∈ 𝑠 (även de som tidigare satts åt sidan).

Ytterligare några kommer då att få 𝑃 𝑀𝑉𝑘 > tröskelvärdet

Dessa sätts då också åt sidan.

Man fortsätter så genom serien av interventionspunkter.

Resultat: Utjämnande av intensiteterna, de får

successivt minskande varians, alltså

minskad obalans IMB i svarsmängden

17

Tröskelvärdet

hur sätts det ?

Ju mindre tröskel, dess mer tvingas intensiteterna bli

lika. Och eftersom deras varians är lika med

obalansen IMB, så reduceras denna.

Vi rekommenderar sätta tröskelvärdet i närheten av

den svarsandel man tror sig få i undersökningen.

Interventionspunkternas inplacering över

datainsamlingsperioden är också en viktig fråga.

18

Tröskelmetoden

Ju mindre tröskel, dess mer tvingas intensiteterna bli lika.

Och eftersom deras varians är lika med obalansen IMB, så reduceras denna under datainsamlingen

Som följd därav:

Klart att justeringen bör bli mindre och mindre.

Vi vill se om samma gäller avvikelsen för CAL

ˆ ˆ ˆjusteringen ( )EXP CAL r s rY Y N x x b

avvikelsen ˆ ˆ ˆ ( )CAL FUL r s sCAL Y Y N b b x

19

Vi har också räknat på

Lika-andelsmetoden

En konstant andel sätts åt sidan i varje

interventionspunkt.

T.ex. om 5 interventionspunkter har fixerats,

sätt åt sidan 1/6 av samplet varje gång ;

sista sjättedelen fortsätter till slutet.

Uppgift : Hitta på fler och smartare metoder

för ”𝑰𝑴𝑩-reducering” i datainsamlingen

20

dim = 11 ; antal värden = 8x4 = 32

Experiment på ULF2009

Monitoringvektorer :

dim = 14; antal värden = 256

)(1 OriginOwnerEducMV x

))((2 AgeOriginOwnerEducMV x

))((3 GenderCivilAgePhoneOriginOwnerEducMV x

dim = 8 = antal värden

21

I ett av experimenten : Monitoringvektorn

med dimension 14 :

Vi jämför Faktiska svarmängden i ULF2009 med tre utifrån

denna genererade svarsmängder,

Tröskelmetoden; tröskelvärden: 65%, 55% , 50%;

fem i förväg valda interventionspunkter

Vi vill se hur

IMB, Justeringstermen och CAL-avvikelsen

beter sig för tre olika y-variabler


22

I ett av experimenten : Monitoringvektorn

med dimension 14 :

Vi beräknar

IMB

(Relativa) Justeringen RADJ

(Relativa) CAL-avvikelsen RDEVCAL


ˆ ˆ ˆ= 100 ( ) /EXP CAL CALRDAJ Y Y Y

ˆ ˆ ˆ100 ( ) /CAL CAL FUL FULRDEV Y Y Y

23

När obalansen IMB avtar (som följd av stramare interventioner)

så ser vi :

Relativa justeringen RADJ : Klar reducering

Relativa CAL-avvikelsen RDEVCAL: Reducering, men mindre

CAL beräknad på x-vektorn = monitoringvektorn

))(( GenderCivilAgePhoneOriginOwnerEduc x

Resultat: ULF 2009

Verklig svarsmängd och tre genererade.

y-variabel: Sysselsatt (0/1 variabel)

y = Sysselsatt

Svarsmängd 100xIMB RADJ RDEVCAL

Faktiska 1.88 1.68 3.08

Tröskel 65% 1.12 1.46 3.00

Tröskel 55% 0.65 0.79 2.94

Tröskel 50% 0.43 0.42 2.61

24

Då IMB avtar, avtagande tendens både i RADJ och RDEVCAL.

CAL-vektor = montoringvektor =

Resultat: ULF 2009

Verklig svarsmängd och tre genererade.

y-variabler: Ersättning (0/1) ; Inkomst (kontinuerlig)

y = Ersättning y = Inkomst

Svarsmängd RADJ RDEVCAL RADJ RDEVCAL

Faktiska -4.85 -4.56 3.45 3.30

Tröskel 65% -3.64 -3.75 2.20 3.35

Tröskel 55% -3.63 -1.41 1.61 2.75

Tröskel 50% -3.07 -0.95 1.20 2.32


25

För samtliga tre y-variabler har vi sett:

Att Relativa justeringen RADJ reduceras när IMB

genom interventioner tvingas bli lägre. Det är väntat.

Att Relativa CAL-avvikelsen RDEVCAL krymper är

« lovande »

Resultat: ULF 2009

Faktisk svarsmängd och tre genererade.

26

Ett vidare perspektiv:

I det faktiska ULF2009 materialet är R-kvadrat = 28%

i lineär regression av y = Inkomst på dim(14)-vektorn

Fråga: Vad är sambandet mellan

Förklaringsgrad (R-kvadrat av y på x-vektorn)

och

IMB-nivå i svarsmängden r ?

Vi ville veta mer om det och gjorde följande

empiriska försök rapporterat i

J. Survey Statistics & Methodology (2014)


27

.

Dess storlek påverkas så klart av regressionens styrka :

Om

så är avvikelsen noll.

Om R-kvadrat < 1 men hög, så kan vi vänta att den är

liten.

Om vi reducerar IMB i datainsamlingen (med t.ex. våra

metoder), kan vi då förvänta oss att CAL-avvikelsen avtar ?

Inte utan vidare klart. Ganska svår matematisk fråga.

Empiriskt leds vi att studera samspelet mellan två faktorer :

Nivån på R-kvadrat och Nivån på IMB

alla , d.v.s. R kvadrat 1k ky k s x β

ˆ ˆ ˆCAL-avvikelsen ( )CAL FUL r s sY Y N b b x

28

.

I praktiken:

IMB-nivån i den slutliga svarsmängden i

datainsamlingen, den kan vi manipulera

med våra metoder (tröskelmetoden t.ex.)

Nivån på R-kvadrat för regr. av y på x-vektorn kan vi

inte göra så mycket åt, den är vad den är. Klart vi kan

göra den lite högre genom att ta med fler (och ”bättre”)

variabler i x-vektorn.

ˆ ˆ ˆCAL-avvikelsen ( )CAL FUL r s sY Y N b b x

29

Experiment med data från två SCB-undersökningar

ULF2009 och PSU2010

Två faktorer påverkar estimatorerna CAL and EXP :

Förklaringsgraden (y på vektor x) och

IMB-nivån (hos r-mängden)

Hur ändras CAL - FUL (CAL-estimatorns avvikelse)

och EXP – CAL (justeringens storlek)

när de två faktorerna ändras ?

30

Experiment

med data från ULF2009 och PSU2010

Faktorer som påverkar CAL and EXP :

Förklaringsgraden (y på vektor x) och

IMB-nivån (hos r-mängden)

Vi varierade systematiskt de två faktorerna för att se deras

effekt

på avvikelsen CAL - FUL (primära intresset)

på justeringen EXP – CAL

. 31

Två-faktor-experiment

IMB-nivån beror på monitoringvektorn och på

tröskelvärdet (om vi använder tröskelmetoden).

Vi använde tre sådana vektorer ;

för var och en, tre olika tröskelvärden.

Undersökningsvariabel : y = Inkomst

(en registervariabel, känd för hela stickprovet s)

32

Två-faktor experiment

Vi genererade flera svarsmängder r , med olika IMB, genom interventioner “i efterhand” i den faktiskt

registrerade svarsmängden i ULF2009

Vi genererade också flera y-variabler med olika

förklaringsgrad R2 för regr. av y på x , genom

transformationer av den verkliga variabeln

y = Inkomst tillgänglig i ULF2009-filen)

Hur reagerar RDEVCAL

och RADJ

på dessa systematiska ändringar i de två faktorerna?

33

Vi visar resultat för

Monitoringvektorn xMV

= Kalibreringsvektorn xCAL

=

Dimension = 14 ; med antal möjliga värden = 256

3 (( ) )MV CAL Educ Owner Origin Phone Age Civil Gender x x

34

Vi får en tablå av följande typ

Kolumner : förklaringsgrad = F2 = 1%, 49% , 81%

Rader : IMB-nivåer, Verkliga, och 3 genererade

F = 0.1 F = 0.7 F = 0.9

svar 100IMB RDEVcal RADJ RDEVcal RADJ RDEVcal RADJ

Faktisk 1.88

65% 1.12

55% 0.65

50% 0.43

IMB avtar, som väntat, fast inte här till nära noll

Vad blir effekten på RDEVCAL och RADJ ?

3 (( ) )MV CAL Educ Owner Origin Phone Age Civil Gender x x

35

Rel. avvikelsen RDEVCAL

för y = Income

Kolumner (förklaringsgrad): F2 = 0.01, 0.49, 0.81

Rader (IMB-nivå): Faktisk; 3 genererade. trösklar 65, 55,

50%

F = 0.1 F = 0.7 F = 0.9

svar 100IMB RDEVcal RDEVcal RDEVcal

Actual 1.88 3.89 2.79 1.70

65% 1.12 3.95 2.83 1.73

55% 0.65 3.24 2.32 1.42

50% 0.43 2.74 1.96 1.20

Kolumneffekt : Minskad IMB ger klar,

fast ganska blygsam, reduktion av RDEVcal

Radeffekt: Högre förklaringsgrad ger

(ganska väntat) stor minskning I RDEVcal 36

Justeringen RADJ för y = Income

Kolumner (förklaringsgrad): F2 = 0.01, 0.49, 0.81

Rader(IMB-nivå): Faktisk, 3 genererade, trösklar 65, 55, 50%

F = 0.1 F = 0.7 F = 0.9

svar 100IMB RADJ RADJ RADJ

Faktisk 1.88 -0.42 5.01 7.05

65% 1.12 -0.50 3.30 4.76

55% 0.65 -0.49 2.48 3.63

50% 0.43 -0.42 1.88 2.78

Kolumneffekt: RADJ sjunker klart för F = 0.7 ;

än mer för F = 0.9

OBS: negativ RADJ for F = 0.1 (inte helt oväntat)

Radeffekt: (Väntade) ökningen i RADJ

mest påfallande för Faktisk 37

Kommentar om bortfallsjusteringen RADJ :

Vi vet att RADJ = 0 när IMB = 0

(ingen justering av inträffar ; EXP och CAL identiska)

Här i experimentet kommer vi inte ner till IMB = 0,

så i sista raden är RADJ inte nära noll

F = 0.1 F = 0.7 F = 0.9

svar 100IMB RADJ RADJ RADJ

Actual 1.88 -0.42 5.01 7.05

65% 1.12 -0.50 3.30 4.76

55% 0.65 -0.49 2.48 3.63

50% 0.43 -0.42 1.88 2.78

38

Sammanfattning RDEVcal and RADJ

y = Income med tre nivåer på förklaringsgrad F2

Response; Faktisk, och 3 genererede med trösklar,

thresholds 65, 55, 50 %

F = 0.1 F = 0.7 F = 0.9

svar RDEVcal RADJ RDEVcal RADJ RDEVcal RADJ

Actual 3.89 -0.42 2.79 5.01 1.70 7.05

65% 3.95 -0.50 2.83 3.30 1.73 4.76

55% 3.24 -0.49 2.32 2.48 1.42 3.63

50% 2.74 -0.42 1.96 1.88 1.20 2.78

x-vektor för CAL-estimatorn är

(( ) )CAL Educ Owner Origin Phone Age Civil Gender x

39

Teoretiska resultat om CAL-avvikelsen

där ( )r r s s Δ b b xˆ ˆ ˆCAL FUL rY Y N

är inte så lätta att ta fram, för problemet har ganska

komplex inramning. Många faktorer inverkar.

40

Särndal, Lumiste och Traat (2014)

ett samarbete med Univ. i Tartu, Estland

mean( , , ) 0r r m s x

2 var( , , )r rS m s x

2

,

21 )(y gr

S IMBp

m p


Egenskaper (medelvärde och varians) hos r

för given IMB-nivå

för det enkla fallet OSU, n från N ;

x är gruppvektor ; andel svar p = m/n :

41



2

21 11 ) ( ) varians vid slumpmässigt bortfall(ygr ygrS

p Sm m n


2

2

21 )(ygr

S IMBS p

m p

2

2ytterligare varians när obalans 0

ygrS IMBIMB

m p

42

Relativa varianstillägget för CAL-estimatorns

avvikelse på grund av obalans :

. 2

/ (1 )IMB

pp

Till exempel,

obalans IMB = 0,04; p = 50% svar :

ger relativa varianstillägget = 32%

43

Experiment på ULF

I samband med att studier görs för att förbättra kvaliteten i

datainsamlingen behöver man bestämma vilken typ av mått

som är centralt för att kunna tala om att den nya

datainsamlingsstrategin (metoden) ger en förbättring.

Nedan redovisas experiment på ULF genomförda 2011 och

2012.

Syfte: Att försöka förbättra balansen i svarsmängden; att få

en bättra kontroll av kostnader och intervjuresurser.

Centrala mått att studera: Indikatorer

44

Experimentet 2011:

I CATI-gruppen testades en ny kontaktstrategi på höstens delurval i ULF. (Läs mer i R&D rapporten 2013)

Experimentet 2012:

Genomfördes bland fältintervjuarna under höstens delurval i ULF. Ett test av möjligheten att prioritera de kvarvarande urvalsobjekten i bortfallsuppföljningen. (Lundquist 2013)

Tanken var att båda stegen skulle genomföras under 2011 års undersökning, men p.g.a. dålig svarsandel i det ordinarie urvalet 2011 valde vi att skjuta den senare delen ett år. Redovisningen ska ses som ett försök att arbeta med en adaptiv design i ULF som man med fördel kan arbeta vidare med.

45

Experiment 2011: Ny kontaktstrategi

Grupper Kontroll Experiment

Hög risk för övertäckning [2%] Svarsandel Kontaktförsök mv

33% 7.8

38% 5.4

Alla åldrar, född utrikes utan fastighet [14%]

Svarsandel Kontaktförsök mv

43% 9.7

50% 9.0

65+ år med fastighet [21%] Svarsandel Kontaktförsök mv

64% 5.5

62% 5.1

Upp till 64 år, född inrikes med fastighet [23%]


56% 8.2

72% 8.2

Upp till 64 år, kvarvarande blandad grupp [39%]


54% 8.8

60% 9.9

Totalt Svarsandel Kontaktförsök mv

55% 8.1

61% 8.2

46

Urvalsstorlek: nKontroll

=1055 och nExperiment

=1053 individer

Fas i datainsamlingen Svar BI dist

EXP urvalet

Ordinarie datainsamling 50.3% 0.773 0.453

Efter bortfallsuppföljning 61.4% 0.771 0.470

Kontroll urvalet

Ordinarie datainsamling 42.7% 0.788 0.428

Efter bortfallsuppföljning 54.5% 0.803 0.396

47

Hjälpvektor: 5 grupper + Hög utbildning + Gift + Kön

Experiment 2011: Vägd svarsandel och Indikatorer

Experiment 2011: Resultat

Den nya kontaktstrategin

• Gav högre andel svar (vägt), 61.4% vs. 54.5%

• Producerade inte bättre balans eller lägre distans i

svarsmängden (inga signifikanta skillnader)

• Är inte praktiskt realiserbar som den genomfördes.

Den påminner om hur fältintervjuarna genomför sitt

arbete

• Det visade sig att tidpunkten för första kontakt var

en förklarade faktor för skillnaden i svar mellan

experiment och kontrollgrupp

48

Experiment 2012: Stopprocedur

49

Definiera för sk “svarsintensiteten” vid den aktuella tidpunkten i undersökningen:

s s kkkkkkkk dIdP xxxx1)()(ˆ (regression av Ik på xk)

Efter den ordinarie datainsamlingen beräkna för alla objekt k; stoppa de med en svarsintensitet högre än ett i förväg bestämt värde.

kP̂

Alternativt kan logistisk regression användas för att ta fram

svarsintensiteterna.

50

Stoppregel 1: 60% svarsintensitet

Fältarbete 100×P BI distr|nr

Antal

kontaktförsök Reduktion i %

Ordinarie datainsamling 50.3 0.773 0.453 6226 0

Intervention: Slutligt resultat 59.5 0.818 0.371 8380 3.3

Stoppregel 2: 48.67% [median] svarsintensitet

Fältarbete 100×P BI distr|nr

Antal

kontaktförsök Reduktion i %

Ordinarie datainsamling 50.3 0.773 0.453 6226 0

Intervention: Slutligt resultat 56.7 0.850 0.302 7792 10.1

Experiment 2012: Stopprocedur testad på Exp Sample 2011

Notera: Data från experimenturvalet 2011 används för att designa

stopproceduren i ULF 2012 experimentet

Hjälpvektor: 5 grupper + Hög utbildning + Gift + Kön

Experiment 2012: Realisering

För EXP stickprovet beräknades svarsintensiteterna med

hjälp av följande monitoringvektor (ej samma som i

experimentet 2011) :

Ålder, Kön, Gift, Hög utbildning, Anställd, Storstad

Objekten i stickprovet med de högsta svarsintensiteterna

uteslöts, de n/4 största .

Omgång # borttagna Gränsvärde för svarsintensiteten

C09 47

C10 38

C11 32

561.0ˆ kP

591.0ˆ kP

588.0ˆ kP

117 individer ej avslutade objekt uteslöts ur bortfallsuppföljningen med denna

stopprocedur, p.g.a. en hög svarsintensitet för gruppen.

kP̂

51

Experiment 2012: Vägd svarsandel och indikatorer

Urval 100×P BI dist R-ind LB-R UB-R mv Kf

Kontroll (n=2,304)

Ordinarie datainsamling 50.4 0.816 0.368 0.809 0.766 0.851 9.2

Efter bortfallsuppföljning 58.9 0.812 0.383 0.820 0.776 0.863 12.0

Experiment (n=1,648)

Ordinarie datainsamling 51.8 0.804 0.392 0.814 0.766 0.863 9.4

Efter bortfallsuppföljning 58.7 0.841 0.324 0.848 0.798 0.898 11.7

Inga signifikanta skillnader på 5%-sign. nivå

Hjälpvektor: Ålder + Kön + Gift + Hög utbildning + Anställd + Storstad

52

Experiment 2012: Resultat

Stopproceduren visade att

• Det är tekniskt möjligt att styra datainsamlingen till

grupper med låg svarsintensitet,

• Den vägda svarsandelen minskar endast

marginellt, balansen, distansen går i rätt riktning

och antalet kontaktförsök minskar (ej signifikant),

• Besparingen, det minskade antalet kontaktförsök,

kan användas för att sätta in åtgärder i andra

grupper såsom yngre personer och invandrare.

53

Avslutande kommentarer

• Vi har nu beskrivit mått som gör att man

fortlöpande kan mäta kvaliteten i datainsamlingen

och analysarbetet genom nya indikatorer –

Avstånd, Balans, R-indikator och RDEV. Detta har

medfört förbättrad struktur och metodik i studiet av

bortfallet och dess effekter.

• Idag används dessa och andra indikatorer av

minst ett 20-tal statistiska institut (både akademi

och statistikproducenter).

54

Avslutande kommentarer

• Vi har sett att en viss förbättring av CAL-estimatorns

tillförlitlighet (reducering av dess avvikelse från

unbiased skattning) kan förväntas genom att

reducera obalansen (IMB) i svarsmängden.

• Det finns andra skäl till att använda IMB eller

liknande mått i datainsamlingen. De tjänar till att

kontinuerligt följa gången i datainsamlingen, att

undvika ”duplikat” av typer av enheter som redan

finns väl representerade i svarsmängden och som

även om svar erhölls skulle ha negligerbar inverkan

på skattningarna.

55

Referenser Bethlehem, J., F. Cobben, and B. Schouten (2011). Handbook of Nonresponse

in Households Surveys, New York: Wiley.

Groves, R. (2006), “Research Synthesis: Nonresponse Rates and Nonresponse

Error in Household Surveys,” Public Opinion Quarterly, 70, 646–675.

Groves, R. M., and S. G. Heeringa (2006). Responsive Design for household

surveys: Tools for actively controlling survey errors and costs. Journal of the

Royal Statistical Society: Series A, 169, 439–457.

Little, R.J.A . and Rubin, D.B. (2002). Statistical analysis with missing data,

2nd ed, New York: Wiley

Lundquist, P. and Särndal, C.E. (2012). Aspects of responsive design for the

Swedish Living Conditions Survey. R&D report 2012:1, Statistics Sweden,

www.scb.se.

Lundquist, P. and Särndal, C.E. (2013). Responsive design, Phase II –

Indicators and measures. R&D report 2013:1, Statistics Sweden,

www.scb.se.

Lundquist, P. (2013). Building a final survey response set. [Experiment på ULF

presenterat vid ESRA konferensen i Ljubljana, Slovenien.]

Lundquist, P., and C. E. Särndal (2013), “Aspects of Responsive Design—With

Applications to the Swedish Living Conditions Survey,” Journal of Official

Statistics, 29, 557–582.

56

http://www.scb.se/statistik/_publikationer/OV9999_2012A01_BR_X103BR1201.pdfhttp://www.scb.se/statistik/_publikationer/OV9999_2012A01_BR_X103BR1201.pdf

Schouten, B., F. Cobben, and J. Bethlehem (2009). Indicators for the

representativeness of survey response. Survey Methodology, 35, 101–113.

Särndal, C.E. and Lundström, S. (2005). Estimations in Surveys with

Nonresponse. New York: Wiley.

Särndal, C. E., and S. Lundström (2010), “Design for Estimation: Identifying

Auxiliary Vectors to Reduce Nonresponse Bias,” Survey Methodology, 36,

131–144.

Särndal, C. E. (2011). Dealing with survey nonresponse in data collection, in

Estimation. Journal of Official Statistics, 27, 1–21.

Särndal, C.E., and P. Lundquist (2014). Accuracy in estimation with

nonresponse: A function of degree of imbalance and degree of explanation.

Journal of Survey Statistics and Methodology, 2, 361-387.

Särndal, C.E. and Lundquist, P. (2014). Balancing the response and adjusting

estimates for nonresponse bias: Complementary activities. Journal de la

Société Française de Statistique, 155(4), 28-50

Särndal, C.E., K. Lumiste and I. Traat. (2014). Reducing the response

imbalance: Is the accuracy of the estimates improved? Submitted for

publication.

57

Documents

Proaktiv (övervakad) datainsamling begrepp, teori, exempel ......2015/04/20 · 3. Teoretiska resultat om sambandet mellan obalans och bias 4. Experiment med alternativa kontaktstrategier