57
Proaktiv (övervakad) datainsamling begrepp, teori, exempel Kurs SU, del 3 Kurs SU 20/04 2015 Peter Lundquist och Carl-Erik Särndal 1 2015-04-18_PL

Proaktiv (övervakad) datainsamling begrepp, teori, exempel ......2015/04/20  · 3. Teoretiska resultat om sambandet mellan obalans och bias 4. Experiment med alternativa kontaktstrategier

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

  • Proaktiv (övervakad) datainsamling

    begrepp, teori, exempel

    Kurs SU, del 3

    Kurs SU 20/04 – 2015

    Peter Lundquist och Carl-Erik Särndal

    1 2015-04-18_PL

  • 1. Kontroll av och ingrepp i datainsamlingen

    • Hur administrera kontaktförsöken?

    • Skapa minskad obalans i slutlig svarandemängd

    • Svarsintensitet, definition, dess roll som verktyg Tröskelmetoden,

    Lika-andel-metoden

    • Samband mellan svarsintensitet och obalans

    • Reducerad obalans: Blir estimatens bias mindre?

    2. Experiment med genererade svarsmängder

    • Generera svarsmängder med låg obalans (threshold method)

    • Experimentresultat: Bias och varians för de jämförda estimatorerna

    3. Teoretiska resultat om sambandet mellan obalans och bias

    4. Experiment med alternativa kontaktstrategier

    5. Avslutande kommentarer

    Proaktiv (monitored) datainsamling

    2

  • Datainsamling i fler faser

    3

    Revidera designen med hänsyn till bestämda regler

    Stopp-kriteriet uppfyllt?

    Stopp. Genomför estimationen

    Samla in data för nästa fas , Reviderad design

    Datainsamlingsfas 1, Ursprunglig design

    Analys av tillgänglig data (Målvariabler, processdata

    och x-variabler)

    Nej

    Ja

  • Hur administrera kontaktförsöken?

    • En responsive (adaptiv) design kan variera mycket

    beroende på vilka prioriteringar man gör i samband

    med undersökningens datainsamlingsstrategi.

    • Det finns ofta många önskemål att ta hänsyn till i

    datainsamlingen. Det kan därför blir svårt att

    optimera datainsamlingsstrategin; viktiga beslut

    måste fattas.

    4

  • Hur administrera kontaktförsöken?

    Traditionellt tänkande när man vill skräddarsy en

    undersökning: Man måste ta hänsyn till:

    • kostnader,

    • bias,

    • varians och

    • andra önskemål (som t.ex. hög svarsandel)

    • Olika undersökningar kommer med andra ord att

    ha olika strategier beroende på vilka faktorer man

    prioriterar.

    5

  • Hur administrera kontaktförsöken?

    Miska kostnaderna

    • Mindre suburval till bortfallsuppföljningen

    (Ökad varians)

    • Billigare datainsamlingsmetoder

    (Blir fel av andra typer än bortfallsfelet större?)

    • Riktar in sig på individer som svarar ”lättare”

    (Kan öka bortfallsbiasen)

    Maximera svarsandelen

    • Suburval till bortfallsuppföljningen

    (Ökad varians)

    • I suburvalet rikta in sig på individer som svarar ”lättare”

    (Kan öka bortfallsbiasen)

    6

  • Hur administrera kontaktförsöken?

    Minska (risken för) bias

    • Suburval bland bortfallet

    (Utnyttja dyrare effektivare insamling)

    • Försök få fatt på individer som är underrepresenterade

    (Kan öka kostnaderna och minska svarsandelen)

    Minska variansen

    • Försök få tag på individer med hög 𝑑𝑘 − vikt och hög svarsintensitet

    (Kan förvärra biasen)

    7

  • Hur administrera kontaktförsöken?

    Vi har i vårt arbete framförallt försökt

    öka balansen

    för att minska risken för bias.

    8

  • Våra metoder och experiment använder begreppet

    svarsintensitet (eng. response propensity).

    Den kan beräknas för alla objekten i samplet s och på vilken tidpunkt som helst under datainsamlingen (för vilken

    svarsmängd r som helst).

    Tanken bakom: Objekten som har låg svarsintensitet på

    en given tidpunkt i datainsamlingen (där vi stannar upp och

    tittar) är de som vi måste koncentrera oss på att få in svar

    ifrån.

    De som har hög svarsintensitet ”har vi redan tillräckligt

    av”. Få in fler av samma sort (även om ”lättfångade” av

    intervjuarstaben) förbättrar inte balansen.

    9

  • Svarsintensiteten beräknas relativt en lämpligt vald

    monitoringvektor (övervakningsvektor) xMV

    och är baserad på regression (lineär eller logistisk) av

    Ik på xMVk

    Responsindikator Ik = 1 om k svarar, Ik = 0 annars.

    Experiment: med hjälp av begreppet svarsintensitet

    genererar vi experimentella svarsmängder.

    10

  • .

    Svarsintensiteten definieras här som det

    predicerade värdet i lineär regression (över 𝑠) av 𝐼𝑘 på 𝐱𝑀𝑉𝑘 :

    med regressionsvektorn

    MVkP̂

    ˆ ˆMVk k MVk MVP I xx b

    Eftersom 𝐼𝑘 är 0/1-variabel kan svarsintensiteten

    beräknas alternativt med logistisk eller annan icke-

    linjär regression. Konsekvenserna för våra syften är

    inte så viktiga.

    s MVkkks MVkMVkkMVs Idd xxxb1)(

    11

  • Svarsintensiteten för objekt k relativt

    monitoringvektorn xMV :

    Tolkning: Lineär regression Ik på xMVk

    MVsMVkMVkP bxˆ

    s MVkkks MVkMVkkMVs Idd xxxb1)(

    12

  • Svarsintensiteten

    (beräkningsbar för alla k s) kan visas ha medeltal

    Svarsandelen

    𝑃 = svarsandel uppnådd på den punkten i datainsamlingen

    Pd

    d

    d

    PdP

    s k

    r k

    s k

    s MVkk

    MVs

    ˆˆ

    MVsMVkMVkP bxˆ

    13

  • Svarsintensiteten

    har (definitionsmässigt) variansen

    Viktigt resultat:

    Svarsintensitetens varians = svarsmängdens obalans,

    som den är på den punkten i datainsamlingen

    s MVkk

    s ksP

    PPdd

    S 22ˆ )ˆ(

    1

    Övning: Kan visas,

    kom ihåg 𝐼𝑀𝐵 𝑟, 𝐱 𝑠 = 𝑃2(𝐱 𝒓 − 𝐱 𝒔)′ (𝐱 𝒓 − 𝐱 𝒔)−𝟏𝒔

    )()(),( 122ˆ srssrsP PsrIMBS xxΣxxx

    14

  • Svarsintensitetens varians = obalansen i svarsmängden

    För praktiken innebär det:

    Jobba med datainsamlingen på så sätt att variansen i

    svarsintensiteterna reduceras (dessa kan vi fortlöpande

    beräkna). Då reduceras obalansen.

    ),(2ˆ srIMBS sP x

    Vi har använt två metoder för det:

    Tröskelmetoden och Lika-andelsmetoden

    (Fler metoder kan konstrueras)

    15

  • Tröskelmetoden

    • På i förväg angivna ställen (interventionspunkter)

    i datainsamlingen, beräkna svarsintensiteteten,

    , för alla objekt i samplet s och

    • Sätt åt sidan (sluta kontakta) objekt som har

    svarsintensitet högre än ett tröskelvärde (t.ex.

    60%)

    • Datainsamling (kontaktförsök) fortsätter med

    övriga, ännu inte svarande, för att få upp deras

    svarsintensitet.

    MVkP̂

    16

  • Tröskelmetoden

    Vid varje interventionspunkt räknar vi om svarsintensiteten

    𝑃 𝑀𝑉𝑘 för alla objekt 𝑘 ∈ 𝑠 (även de som tidigare satts åt sidan).

    Ytterligare några kommer då att få 𝑃 𝑀𝑉𝑘 > tröskelvärdet

    Dessa sätts då också åt sidan.

    Man fortsätter så genom serien av interventionspunkter.

    Resultat: Utjämnande av intensiteterna, de får

    successivt minskande varians, alltså

    minskad obalans IMB i svarsmängden

    17

  • Tröskelvärdet

    hur sätts det ?

    Ju mindre tröskel, dess mer tvingas intensiteterna bli

    lika. Och eftersom deras varians är lika med

    obalansen IMB, så reduceras denna.

    Vi rekommenderar sätta tröskelvärdet i närheten av

    den svarsandel man tror sig få i undersökningen.

    Interventionspunkternas inplacering över

    datainsamlingsperioden är också en viktig fråga.

    18

  • Tröskelmetoden

    Ju mindre tröskel, dess mer tvingas intensiteterna bli lika.

    Och eftersom deras varians är lika med obalansen IMB, så reduceras denna under datainsamlingen

    Som följd därav:

    Klart att justeringen bör bli mindre och mindre.

    Vi vill se om samma gäller avvikelsen för CAL

    ˆ ˆ ˆjusteringen ( )EXP CAL r s rY Y N x x b

    avvikelsen ˆ ˆ ˆ ( )CAL FUL r s sCAL Y Y N b b x

    19

  • Vi har också räknat på

    Lika-andelsmetoden

    En konstant andel sätts åt sidan i varje

    interventionspunkt.

    T.ex. om 5 interventionspunkter har fixerats,

    sätt åt sidan 1/6 av samplet varje gång ;

    sista sjättedelen fortsätter till slutet.

    Uppgift : Hitta på fler och smartare metoder

    för ”𝑰𝑴𝑩-reducering” i datainsamlingen

    20

  • dim = 11 ; antal värden = 8x4 = 32

    Experiment på ULF2009

    Monitoringvektorer :

    dim = 14; antal värden = 256

    )(1 OriginOwnerEducMV x

    ))((2 AgeOriginOwnerEducMV x

    ))((3 GenderCivilAgePhoneOriginOwnerEducMV x

    dim = 8 = antal värden

    21

  • I ett av experimenten : Monitoringvektorn

    med dimension 14 :

    Vi jämför Faktiska svarmängden i ULF2009 med tre utifrån

    denna genererade svarsmängder,

    Tröskelmetoden; tröskelvärden: 65%, 55% , 50%;

    fem i förväg valda interventionspunkter

    Vi vill se hur

    IMB, Justeringstermen och CAL-avvikelsen

    beter sig för tre olika y-variabler

    ))((3 GenderCivilAgePhoneOriginOwnerEducMV x

    22

  • I ett av experimenten : Monitoringvektorn

    med dimension 14 :

    Vi beräknar

    IMB

    (Relativa) Justeringen RADJ

    (Relativa) CAL-avvikelsen RDEVCAL

    ))((3 GenderCivilAgePhoneOriginOwnerEducMV x

    ˆ ˆ ˆ= 100 ( ) /EXP CAL CALRDAJ Y Y Y

    ˆ ˆ ˆ100 ( ) /CAL CAL FUL FULRDEV Y Y Y

    23

  • När obalansen IMB avtar (som följd av stramare interventioner)

    så ser vi :

    Relativa justeringen RADJ : Klar reducering

    Relativa CAL-avvikelsen RDEVCAL: Reducering, men mindre

    CAL beräknad på x-vektorn = monitoringvektorn

    ))(( GenderCivilAgePhoneOriginOwnerEduc x

    Resultat: ULF 2009

    Verklig svarsmängd och tre genererade.

    y-variabel: Sysselsatt (0/1 variabel)

    y = Sysselsatt

    Svarsmängd 100xIMB RADJ RDEVCAL

    Faktiska 1.88 1.68 3.08

    Tröskel 65% 1.12 1.46 3.00

    Tröskel 55% 0.65 0.79 2.94

    Tröskel 50% 0.43 0.42 2.61

    24

  • Då IMB avtar, avtagande tendens både i RADJ och RDEVCAL.

    CAL-vektor = montoringvektor =

    Resultat: ULF 2009

    Verklig svarsmängd och tre genererade.

    y-variabler: Ersättning (0/1) ; Inkomst (kontinuerlig)

    y = Ersättning y = Inkomst

    Svarsmängd RADJ RDEVCAL RADJ RDEVCAL

    Faktiska -4.85 -4.56 3.45 3.30

    Tröskel 65% -3.64 -3.75 2.20 3.35

    Tröskel 55% -3.63 -1.41 1.61 2.75

    Tröskel 50% -3.07 -0.95 1.20 2.32

    ))(( GenderCivilAgePhoneOriginOwnerEduc x

    25

  • För samtliga tre y-variabler har vi sett:

    Att Relativa justeringen RADJ reduceras när IMB

    genom interventioner tvingas bli lägre. Det är väntat.

    Att Relativa CAL-avvikelsen RDEVCAL krymper är

    « lovande »

    Resultat: ULF 2009

    Faktisk svarsmängd och tre genererade.

    26

  • Ett vidare perspektiv:

    I det faktiska ULF2009 materialet är R-kvadrat = 28%

    i lineär regression av y = Inkomst på dim(14)-vektorn

    Fråga: Vad är sambandet mellan

    Förklaringsgrad (R-kvadrat av y på x-vektorn)

    och

    IMB-nivå i svarsmängden r ?

    Vi ville veta mer om det och gjorde följande

    empiriska försök rapporterat i

    J. Survey Statistics & Methodology (2014)

    ))(( GenderCivilAgePhoneOriginOwnerEduc x

    27

  • .

    Dess storlek påverkas så klart av regressionens styrka :

    Om

    så är avvikelsen noll.

    Om R-kvadrat < 1 men hög, så kan vi vänta att den är

    liten.

    Om vi reducerar IMB i datainsamlingen (med t.ex. våra

    metoder), kan vi då förvänta oss att CAL-avvikelsen avtar ?

    Inte utan vidare klart. Ganska svår matematisk fråga.

    Empiriskt leds vi att studera samspelet mellan två faktorer :

    Nivån på R-kvadrat och Nivån på IMB

    alla , d.v.s. R kvadrat 1k ky k s x β

    ˆ ˆ ˆCAL-avvikelsen ( )CAL FUL r s sY Y N b b x

    28

  • .

    I praktiken:

    IMB-nivån i den slutliga svarsmängden i

    datainsamlingen, den kan vi manipulera

    med våra metoder (tröskelmetoden t.ex.)

    Nivån på R-kvadrat för regr. av y på x-vektorn kan vi

    inte göra så mycket åt, den är vad den är. Klart vi kan

    göra den lite högre genom att ta med fler (och ”bättre”)

    variabler i x-vektorn.

    ˆ ˆ ˆCAL-avvikelsen ( )CAL FUL r s sY Y N b b x

    29

  • Experiment med data från två SCB-undersökningar

    ULF2009 och PSU2010

    Två faktorer påverkar estimatorerna CAL and EXP :

    Förklaringsgraden (y på vektor x) och

    IMB-nivån (hos r-mängden)

    Hur ändras CAL - FUL (CAL-estimatorns avvikelse)

    och EXP – CAL (justeringens storlek)

    när de två faktorerna ändras ?

    30

  • Experiment

    med data från ULF2009 och PSU2010

    Faktorer som påverkar CAL and EXP :

    Förklaringsgraden (y på vektor x) och

    IMB-nivån (hos r-mängden)

    Vi varierade systematiskt de två faktorerna för att se deras

    effekt

    på avvikelsen CAL - FUL (primära intresset)

    på justeringen EXP – CAL

    . 31

  • Två-faktor-experiment

    IMB-nivån beror på monitoringvektorn och på

    tröskelvärdet (om vi använder tröskelmetoden).

    Vi använde tre sådana vektorer ;

    för var och en, tre olika tröskelvärden.

    Undersökningsvariabel : y = Inkomst

    (en registervariabel, känd för hela stickprovet s)

    32

  • Två-faktor experiment

    Vi genererade flera svarsmängder r , med olika IMB, genom interventioner “i efterhand” i den faktiskt

    registrerade svarsmängden i ULF2009

    Vi genererade också flera y-variabler med olika

    förklaringsgrad R2 för regr. av y på x , genom

    transformationer av den verkliga variabeln

    y = Inkomst tillgänglig i ULF2009-filen)

    Hur reagerar RDEVCAL

    och RADJ

    på dessa systematiska ändringar i de två faktorerna?

    33

  • Vi visar resultat för

    Monitoringvektorn xMV

    = Kalibreringsvektorn xCAL

    =

    Dimension = 14 ; med antal möjliga värden = 256

    3 (( ) )MV CAL Educ Owner Origin Phone Age Civil Gender x x

    34

  • Vi får en tablå av följande typ

    Kolumner : förklaringsgrad = F2 = 1%, 49% , 81%

    Rader : IMB-nivåer, Verkliga, och 3 genererade

    F = 0.1 F = 0.7 F = 0.9

    svar 100IMB RDEVcal RADJ RDEVcal RADJ RDEVcal RADJ

    Faktisk 1.88

    65% 1.12

    55% 0.65

    50% 0.43

    IMB avtar, som väntat, fast inte här till nära noll

    Vad blir effekten på RDEVCAL och RADJ ?

    3 (( ) )MV CAL Educ Owner Origin Phone Age Civil Gender x x

    35

  • Rel. avvikelsen RDEVCAL

    för y = Income

    Kolumner (förklaringsgrad): F2 = 0.01, 0.49, 0.81

    Rader (IMB-nivå): Faktisk; 3 genererade. trösklar 65, 55,

    50%

    F = 0.1 F = 0.7 F = 0.9

    svar 100IMB RDEVcal RDEVcal RDEVcal

    Actual 1.88 3.89 2.79 1.70

    65% 1.12 3.95 2.83 1.73

    55% 0.65 3.24 2.32 1.42

    50% 0.43 2.74 1.96 1.20

    Kolumneffekt : Minskad IMB ger klar,

    fast ganska blygsam, reduktion av RDEVcal

    Radeffekt: Högre förklaringsgrad ger

    (ganska väntat) stor minskning I RDEVcal 36

  • Justeringen RADJ för y = Income

    Kolumner (förklaringsgrad): F2 = 0.01, 0.49, 0.81

    Rader(IMB-nivå): Faktisk, 3 genererade, trösklar 65, 55, 50%

    F = 0.1 F = 0.7 F = 0.9

    svar 100IMB RADJ RADJ RADJ

    Faktisk 1.88 -0.42 5.01 7.05

    65% 1.12 -0.50 3.30 4.76

    55% 0.65 -0.49 2.48 3.63

    50% 0.43 -0.42 1.88 2.78

    Kolumneffekt: RADJ sjunker klart för F = 0.7 ;

    än mer för F = 0.9

    OBS: negativ RADJ for F = 0.1 (inte helt oväntat)

    Radeffekt: (Väntade) ökningen i RADJ

    mest påfallande för Faktisk 37

  • Kommentar om bortfallsjusteringen RADJ :

    Vi vet att RADJ = 0 när IMB = 0

    (ingen justering av inträffar ; EXP och CAL identiska)

    Här i experimentet kommer vi inte ner till IMB = 0,

    så i sista raden är RADJ inte nära noll

    F = 0.1 F = 0.7 F = 0.9

    svar 100IMB RADJ RADJ RADJ

    Actual 1.88 -0.42 5.01 7.05

    65% 1.12 -0.50 3.30 4.76

    55% 0.65 -0.49 2.48 3.63

    50% 0.43 -0.42 1.88 2.78

    38

  • Sammanfattning RDEVcal and RADJ

    y = Income med tre nivåer på förklaringsgrad F2

    Response; Faktisk, och 3 genererede med trösklar,

    thresholds 65, 55, 50 %

    F = 0.1 F = 0.7 F = 0.9

    svar RDEVcal RADJ RDEVcal RADJ RDEVcal RADJ

    Actual 3.89 -0.42 2.79 5.01 1.70 7.05

    65% 3.95 -0.50 2.83 3.30 1.73 4.76

    55% 3.24 -0.49 2.32 2.48 1.42 3.63

    50% 2.74 -0.42 1.96 1.88 1.20 2.78

    x-vektor för CAL-estimatorn är

    (( ) )CAL Educ Owner Origin Phone Age Civil Gender x

    39

  • Teoretiska resultat om CAL-avvikelsen

    där ( )r r s s Δ b b xˆ ˆ ˆCAL FUL rY Y N

    är inte så lätta att ta fram, för problemet har ganska

    komplex inramning. Många faktorer inverkar.

    40

  • Särndal, Lumiste och Traat (2014)

    ett samarbete med Univ. i Tartu, Estland

    mean( , , ) 0r r m s x

    2 var( , , )r rS m s x

    2

    ,

    21 )(y gr

    S IMBp

    m p

    där ( )r r s s Δ b b xˆ ˆ ˆCAL FUL rY Y N

    Egenskaper (medelvärde och varians) hos r

    för given IMB-nivå

    för det enkla fallet OSU, n från N ;

    x är gruppvektor ; andel svar p = m/n :

    41

    Teoretiska resultat om CAL-avvikelsen

  • Teoretiska resultat om CAL-avvikelsen

    2

    21 11 ) ( ) varians vid slumpmässigt bortfall(ygr ygrS

    p Sm m n

    där ( )r r s s Δ b b xˆ ˆ ˆCAL FUL rY Y N

    2

    2

    21 )(ygr

    S IMBS p

    m p

    2

    2ytterligare varians när obalans 0

    ygrS IMBIMB

    m p

    42

  • Relativa varianstillägget för CAL-estimatorns

    avvikelse på grund av obalans :

    . 2

    / (1 )IMB

    pp

    Till exempel,

    obalans IMB = 0,04; p = 50% svar :

    ger relativa varianstillägget = 32%

    43

  • Experiment på ULF

    I samband med att studier görs för att förbättra kvaliteten i

    datainsamlingen behöver man bestämma vilken typ av mått

    som är centralt för att kunna tala om att den nya

    datainsamlingsstrategin (metoden) ger en förbättring.

    Nedan redovisas experiment på ULF genomförda 2011 och

    2012.

    Syfte: Att försöka förbättra balansen i svarsmängden; att få

    en bättra kontroll av kostnader och intervjuresurser.

    Centrala mått att studera: Indikatorer

    44

  • Experimentet 2011:

    I CATI-gruppen testades en ny kontaktstrategi på höstens delurval i ULF. (Läs mer i R&D rapporten 2013)

    Experimentet 2012:

    Genomfördes bland fältintervjuarna under höstens delurval i ULF. Ett test av möjligheten att prioritera de kvarvarande urvalsobjekten i bortfallsuppföljningen. (Lundquist 2013)

    Tanken var att båda stegen skulle genomföras under 2011 års undersökning, men p.g.a. dålig svarsandel i det ordinarie urvalet 2011 valde vi att skjuta den senare delen ett år. Redovisningen ska ses som ett försök att arbeta med en adaptiv design i ULF som man med fördel kan arbeta vidare med.

    45

  • Experiment 2011: Ny kontaktstrategi

    Grupper Kontroll Experiment

    Hög risk för övertäckning [2%] Svarsandel Kontaktförsök mv

    33% 7.8

    38% 5.4

    Alla åldrar, född utrikes utan fastighet [14%]

    Svarsandel Kontaktförsök mv

    43% 9.7

    50% 9.0

    65+ år med fastighet [21%] Svarsandel Kontaktförsök mv

    64% 5.5

    62% 5.1

    Upp till 64 år, född inrikes med fastighet [23%]

    Svarsandel Kontaktförsök mv

    56% 8.2

    72% 8.2

    Upp till 64 år, kvarvarande blandad grupp [39%]

    Svarsandel Kontaktförsök mv

    54% 8.8

    60% 9.9

    Totalt Svarsandel Kontaktförsök mv

    55% 8.1

    61% 8.2

    46

    Urvalsstorlek: nKontroll

    =1055 och nExperiment

    =1053 individer

  • Fas i datainsamlingen Svar BI dist

    EXP urvalet

    Ordinarie datainsamling 50.3% 0.773 0.453

    Efter bortfallsuppföljning 61.4% 0.771 0.470

    Kontroll urvalet

    Ordinarie datainsamling 42.7% 0.788 0.428

    Efter bortfallsuppföljning 54.5% 0.803 0.396

    47

    Hjälpvektor: 5 grupper + Hög utbildning + Gift + Kön

    Experiment 2011: Vägd svarsandel och Indikatorer

  • Experiment 2011: Resultat

    Den nya kontaktstrategin

    • Gav högre andel svar (vägt), 61.4% vs. 54.5%

    • Producerade inte bättre balans eller lägre distans i

    svarsmängden (inga signifikanta skillnader)

    • Är inte praktiskt realiserbar som den genomfördes.

    Den påminner om hur fältintervjuarna genomför sitt

    arbete

    • Det visade sig att tidpunkten för första kontakt var

    en förklarade faktor för skillnaden i svar mellan

    experiment och kontrollgrupp

    48

  • Experiment 2012: Stopprocedur

    49

    Definiera för sk “svarsintensiteten” vid den aktuella tidpunkten i undersökningen:

    s s kkkkkkkk dIdP xxxx1)()(ˆ (regression av Ik på xk)

    Efter den ordinarie datainsamlingen beräkna för alla objekt k; stoppa de med en svarsintensitet högre än ett i förväg bestämt värde.

    kP̂

    Alternativt kan logistisk regression användas för att ta fram

    svarsintensiteterna.

  • 50

    Stoppregel 1: 60% svarsintensitet

    Fältarbete 100×P BI distr|nr

    Antal

    kontaktförsök Reduktion i %

    Ordinarie datainsamling 50.3 0.773 0.453 6226 0

    Intervention: Slutligt resultat 59.5 0.818 0.371 8380 3.3

    Stoppregel 2: 48.67% [median] svarsintensitet

    Fältarbete 100×P BI distr|nr

    Antal

    kontaktförsök Reduktion i %

    Ordinarie datainsamling 50.3 0.773 0.453 6226 0

    Intervention: Slutligt resultat 56.7 0.850 0.302 7792 10.1

    Experiment 2012: Stopprocedur testad på Exp Sample 2011

    Notera: Data från experimenturvalet 2011 används för att designa

    stopproceduren i ULF 2012 experimentet

    Hjälpvektor: 5 grupper + Hög utbildning + Gift + Kön

  • Experiment 2012: Realisering

    För EXP stickprovet beräknades svarsintensiteterna med

    hjälp av följande monitoringvektor (ej samma som i

    experimentet 2011) :

    Ålder, Kön, Gift, Hög utbildning, Anställd, Storstad

    Objekten i stickprovet med de högsta svarsintensiteterna

    uteslöts, de n/4 största .

    Omgång # borttagna Gränsvärde för svarsintensiteten

    C09 47

    C10 38

    C11 32

    561.0ˆ kP

    591.0ˆ kP

    588.0ˆ kP

    117 individer ej avslutade objekt uteslöts ur bortfallsuppföljningen med denna

    stopprocedur, p.g.a. en hög svarsintensitet för gruppen.

    kP̂

    51

  • Experiment 2012: Vägd svarsandel och indikatorer

    Urval 100×P BI dist R-ind LB-R UB-R mv Kf

    Kontroll (n=2,304)

    Ordinarie datainsamling 50.4 0.816 0.368 0.809 0.766 0.851 9.2

    Efter bortfallsuppföljning 58.9 0.812 0.383 0.820 0.776 0.863 12.0

    Experiment (n=1,648)

    Ordinarie datainsamling 51.8 0.804 0.392 0.814 0.766 0.863 9.4

    Efter bortfallsuppföljning 58.7 0.841 0.324 0.848 0.798 0.898 11.7

    Inga signifikanta skillnader på 5%-sign. nivå

    Hjälpvektor: Ålder + Kön + Gift + Hög utbildning + Anställd + Storstad

    52

  • Experiment 2012: Resultat

    Stopproceduren visade att

    • Det är tekniskt möjligt att styra datainsamlingen till

    grupper med låg svarsintensitet,

    • Den vägda svarsandelen minskar endast

    marginellt, balansen, distansen går i rätt riktning

    och antalet kontaktförsök minskar (ej signifikant),

    • Besparingen, det minskade antalet kontaktförsök,

    kan användas för att sätta in åtgärder i andra

    grupper såsom yngre personer och invandrare.

    53

  • Avslutande kommentarer

    • Vi har nu beskrivit mått som gör att man

    fortlöpande kan mäta kvaliteten i datainsamlingen

    och analysarbetet genom nya indikatorer –

    Avstånd, Balans, R-indikator och RDEV. Detta har

    medfört förbättrad struktur och metodik i studiet av

    bortfallet och dess effekter.

    • Idag används dessa och andra indikatorer av

    minst ett 20-tal statistiska institut (både akademi

    och statistikproducenter).

    54

  • Avslutande kommentarer

    • Vi har sett att en viss förbättring av CAL-estimatorns

    tillförlitlighet (reducering av dess avvikelse från

    unbiased skattning) kan förväntas genom att

    reducera obalansen (IMB) i svarsmängden.

    • Det finns andra skäl till att använda IMB eller

    liknande mått i datainsamlingen. De tjänar till att

    kontinuerligt följa gången i datainsamlingen, att

    undvika ”duplikat” av typer av enheter som redan

    finns väl representerade i svarsmängden och som

    även om svar erhölls skulle ha negligerbar inverkan

    på skattningarna.

    55

  • Referenser Bethlehem, J., F. Cobben, and B. Schouten (2011). Handbook of Nonresponse

    in Households Surveys, New York: Wiley.

    Groves, R. (2006), “Research Synthesis: Nonresponse Rates and Nonresponse

    Error in Household Surveys,” Public Opinion Quarterly, 70, 646–675.

    Groves, R. M., and S. G. Heeringa (2006). Responsive Design for household

    surveys: Tools for actively controlling survey errors and costs. Journal of the

    Royal Statistical Society: Series A, 169, 439–457.

    Little, R.J.A . and Rubin, D.B. (2002). Statistical analysis with missing data,

    2nd ed, New York: Wiley

    Lundquist, P. and Särndal, C.E. (2012). Aspects of responsive design for the

    Swedish Living Conditions Survey. R&D report 2012:1, Statistics Sweden,

    www.scb.se.

    Lundquist, P. and Särndal, C.E. (2013). Responsive design, Phase II –

    Indicators and measures. R&D report 2013:1, Statistics Sweden,

    www.scb.se.

    Lundquist, P. (2013). Building a final survey response set. [Experiment på ULF

    presenterat vid ESRA konferensen i Ljubljana, Slovenien.]

    Lundquist, P., and C. E. Särndal (2013), “Aspects of Responsive Design—With

    Applications to the Swedish Living Conditions Survey,” Journal of Official

    Statistics, 29, 557–582.

    56

    http://www.scb.se/statistik/_publikationer/OV9999_2012A01_BR_X103BR1201.pdfhttp://www.scb.se/statistik/_publikationer/OV9999_2012A01_BR_X103BR1201.pdf

  • Schouten, B., F. Cobben, and J. Bethlehem (2009). Indicators for the

    representativeness of survey response. Survey Methodology, 35, 101–113.

    Särndal, C.E. and Lundström, S. (2005). Estimations in Surveys with

    Nonresponse. New York: Wiley.

    Särndal, C. E., and S. Lundström (2010), “Design for Estimation: Identifying

    Auxiliary Vectors to Reduce Nonresponse Bias,” Survey Methodology, 36,

    131–144.

    Särndal, C. E. (2011). Dealing with survey nonresponse in data collection, in

    Estimation. Journal of Official Statistics, 27, 1–21.

    Särndal, C.E., and P. Lundquist (2014). Accuracy in estimation with

    nonresponse: A function of degree of imbalance and degree of explanation.

    Journal of Survey Statistics and Methodology, 2, 361-387.

    Särndal, C.E. and Lundquist, P. (2014). Balancing the response and adjusting

    estimates for nonresponse bias: Complementary activities. Journal de la

    Société Française de Statistique, 155(4), 28-50

    Särndal, C.E., K. Lumiste and I. Traat. (2014). Reducing the response

    imbalance: Is the accuracy of the estimates improved? Submitted for

    publication.

    57