33
Töötamine erinevate andmeallikatega Ene-Margit Tiit Küsitlusuuringute metodoloogia seminar, Tartu, 18.10.2013

Töötamine erinevate andmeallikatega

Embed Size (px)

DESCRIPTION

Töötamine erinevate andmeallikatega. Ene-Margit Tiit Küsitlusuuringute metodoloogia seminar, Tartu, 18.10.2013. Kuidas ühendada andmestikke?. Andmestikud võivad olla: Register, st kõikne andmekogu Uuring, st valimipõhine andmekogu. Eeldame , et valimi disain on teada. - PowerPoint PPT Presentation

Citation preview

Page 1: Töötamine erinevate andmeallikatega

Töötamine erinevate andmeallikatega

Ene-Margit Tiit

Küsitlusuuringute metodoloogia seminar, Tartu, 18.10.2013

Page 2: Töötamine erinevate andmeallikatega

Kuidas ühendada andmestikke?

Andmestikud võivad olla:– Register, st kõikne andmekogu– Uuring, st valimipõhine andmekogu. Eeldame, et

valimi disain on teada.

Ühendamiseks vajalikud eeldused: 1. Kirjed on identifitseeritavad2. Andmestikkudel on ühine üldkogum.Ülesanne on lahendatav ka siis, kui ühe

andmestiku üldkogum sisaldub teise üldkogumis.

Page 3: Töötamine erinevate andmeallikatega

Ülesande tüübid

• Register + register register• Register + valim valim• Register + valim register• Valim + valim valimKüsimused:Millal on need ülesanded lahenduvad?Missugused on nende ülesannete lahendamisega

seotud põhimõttelised ja tehnoloogilised raskused?

Page 4: Töötamine erinevate andmeallikatega

REGISTER + REGISTER REGISTER

Page 5: Töötamine erinevate andmeallikatega

Register + register register

• Eeldused– kõik objektid on identifitseeritud – üldkogum on sama (vrdl üldkogumi objektide

definitsioone).Eestis on isikuregistrite puhul enamasti 1. eeldus

täidetud (isikukoodid). Teine tingimus vajab kontrollimist.

• Näide: RR ja REL rahvastik. – Väike erisus II eelduse osas: püsielaniku

definitsioon – REL puhul viitaeg

Page 6: Töötamine erinevate andmeallikatega

Kahe registri ühendamine

Page 7: Töötamine erinevate andmeallikatega

Selgitus

• Enamasti leidub objekte, mis (kes) on olemas ühes, aga puuduvad teises registris (ja vastupidi).

• Kui neid ei ole palju, ei põhjusta see suuri ebatäpsusi andmestiku edasisel kasutamisel.

• Saadud uuest registrist on võimalik moodustada agregeeritud väljundeid (tabeleid) nii, et osa tunnuseid pärineb ühest, osa – teisest algsest registrist. Tulemus on põhimõtteliselt täpne.

Page 8: Töötamine erinevate andmeallikatega

REGISTER + VALIM VALIM

Page 9: Töötamine erinevate andmeallikatega

Register + valim valim

• Eeldused– kõik objektid on identifitseeritud – üldkogum on sama või valimi üldkogum sisaldub

registri üldkogumis ja on registri tunnuste abil defineeritav.

• Väga sageli rakendatav. • Põhimõttelisi probleeme ei ole, kui eeldused

on täidetud.

Page 10: Töötamine erinevate andmeallikatega

Registri andmete lisamine valimile

Page 11: Töötamine erinevate andmeallikatega

Selgitus• Registritunnuste väärtused lisatakse

identifikaatori abil.• Registrist lisatud tunnused vastavad

põhimõtteliselt valimi disainile. • Registritunnustega täiendatud valimist võimalik

moodustada agregeeritud väljundeid (tabeleid) nii, et osa tunnuseid pärineb valimist, osa – registrist. Tulemus on põhimõtteliselt korrektne, täpsus on disaini põhjal hinnatav.

Page 12: Töötamine erinevate andmeallikatega

REGISTER + VALIM REGISTER

Page 13: Töötamine erinevate andmeallikatega

Register + valim register• Registri täiendamine valimuuringu abil?• Üldjuhul põhimõtteliselt võimatu. – On võimalik saada korrektseid agregeeritud tulemusi

(tabeleid), piirangud tulenevad valimist.– Seda kasutatakse praktikas, lubatud protseduur ka

rahvaloenduse korral.– On võimalik simuleerida valimi tasemel mõõdetud tunnuse

väärtused ülejäänud registriobjektidele nii, et jaotusparameetrid vastavad valimi omadele.

– Seda kasutatakse uuringutes. – Simuleeritud väärtused võivad tegelikest oluliselt erineda,

seetõttu ei sobi need registrisse.

Page 14: Töötamine erinevate andmeallikatega

Registri täiendamine valimi abil

Page 15: Töötamine erinevate andmeallikatega

Seletus

• Kuna valimis on üldjuhul objekte palju vähem kui registris, jääb suur osa registriobjekte ilma valimi põhjal lisatavast väärtusest.

• Üks võimalus on leida igale registriobjektile võimalikult sarnane valimi objekt ja omistada registriobjektidele puuduvad väärtused sarnasuse põhjal.

• Teine võimalus on vältimaks ühesuguseid väärtusi lisada neile juhuslik müra, mis aga täpsust vähendab.

Page 16: Töötamine erinevate andmeallikatega

Mida siiski on võimalik saada?

• On võimalik saada korrektseid agregeeritud tulemusi (tabeleid), piirangud tulenevad valimist.

• See ülesanne on sisuliselt samaväärne eelmise ülesandega – registriandmed lisatakse valimiandmetele ja moodustatakse tabel, arvestades valimi disaini.

• Seda kasutati ka REL andmete puhul (töötundide arv nädalas).

Page 17: Töötamine erinevate andmeallikatega

VALIM + VALIM VALIMÜHISOSATA VALIMITE JUHTUM

Page 18: Töötamine erinevate andmeallikatega

Valim + valim valim

• Erinevad ülesanded sõltuvalt sellest, kas valimitel on ühisosa või mitte.

• Kuigi kõik valimiobjektid on identifitseeritud ja valimitel on ühine üldkogum, kui

• valimitel ei ole ühisosa, – on see ülesanne põhimõtteliselt mittelahenduv.

Puudub teave erinevates valimites mõõdetud tunnuste omavaheliste seoste kohta.

Page 19: Töötamine erinevate andmeallikatega

Kaks ühisosata valimit

Page 20: Töötamine erinevate andmeallikatega

KorrelatsioonimaatriksV1 V2 W1 W2

V1 1 Rv12 Rvw11 Rvw12

V2 Rv12 1 Rvw21 Rvw22

W1 Rvw11 Rvw21 1 Rw12

W2 Rvw12 Rvw22 Rw12 1

Page 21: Töötamine erinevate andmeallikatega

Sõltumatute tunnuserühmade erijuht

• Mõnikord on alust eeldada, et kahe valimi tunnused on sõltumatud, st et seosekordajate maatriksis oleksid kõik punased kordajad nullid (statistiliselt mitteolulised).

• Sel juhul on võimalik ühisjaotuse jaoks kasutada eeskirja

P12 = P1xP2,kus P1 tähistab esimese valimi ja P2 teise valimi

tõenäosusjaotusi.

Page 22: Töötamine erinevate andmeallikatega

Kahe sõltumatute tunnustega valimi ühendamine

Page 23: Töötamine erinevate andmeallikatega

Seletus

Kasutades sõltumatuse eeldust on võimalik moodustada agregeeritud väljundeid (tabeleid) nii, et osa tunnuseid pärineb ühest, osa – teisest valimist. Tulemuse täpsus on disaini põhjal hinnatav juhul kui sõltumatuse eeldus paika peab, kui mitte, siis põhjustab see täiendava vea.

Näide: kui suurt ebatäpsust põhjustab oletus, et Eesti rahvastikus on sugu ja vanus sõltumatud tunnused.

Page 24: Töötamine erinevate andmeallikatega

Näide: naiste vanusejaotus: tegelik ning arvutatud soo ja vanuse järgi sõltuvust arvestamata

0 1--4 5--9 10--14

15--19

20--24

25--29

30--34

35--39

40--44

45--49

50--54

55--59

60--64

65--69

70--74

75--79

80--84

85+0

0.5

1

1.5

2

2.5

3

3.5

4

4.5

N_tegelikN_arvut

Page 25: Töötamine erinevate andmeallikatega

Kahe sõltuvate tunnustega valimi ühendamine

Page 26: Töötamine erinevate andmeallikatega

Seletus• Oletame, et kahe valimi korral on eelnevast teada, et

ühe valimi teatavate väärtuste puhul on eelistatud teise valimi teatavad konkreetsed väärtused (tähistagu neid skeemil tumedamad sinised ja tumedamad punased väärtused).

• Ühendatud valimi (mida saab kasutada üksnes tabelite moodustamiseks) jaotus peaks seda siis ka vastavalt kajastama.

• Üldjuhul pole ühisjaotuse genereerimine sel juhul lihtne, selleks puudub üldsobiv metoodika ja tehnoloogia.

Page 27: Töötamine erinevate andmeallikatega

VALIM + VALIM VALIMÜHISOSAGA VALIMITE JUHTUM

Page 28: Töötamine erinevate andmeallikatega

Kahel valimil on ühiseid objekte ja/või ühiseid tunnuseid

Põhimõtteliselt on siin kolm erinevat ülesannet:Samadele objektidele täiendavate tunnuste

lisamine;Samade tunnuste mõõtmine uutel objektidel;Uues valimis on niihästi uusi objekte kui ka uusi

tunnuseid.

Page 29: Töötamine erinevate andmeallikatega

tüüp 1 tüüp 2 tüüp 3

Page 30: Töötamine erinevate andmeallikatega

1.Esimene ülesande tüüp on tavaline paneeluuringutes.

• Enamasti on probleemiks objektide arvu kahanemine, mis tähendab, et muuta tuleb laiendustegureid.

2. Teine tüüp on lahendatav laiendustegurite ühitamise teel.

Page 31: Töötamine erinevate andmeallikatega

Kolmas tüüp

• Sobiv on laiendustegurite arvutamiseks kasutada valimite ühiseid tunnuseid.

• Mida suurem on ühiste tunnuste osa, seda väiksem on määramatus tunnustevaheliste seoste osas.

• Kuid teadaolevad seosed (alljärgnevas maatriksis mustad arvud) ei määra üheselt mitteteadaolevaid (punaseid) seoseid.

• Seega sellise ülesande lahendamisel jääb paratamatult tulemustesse teatav ebatäpsus.

Page 32: Töötamine erinevate andmeallikatega

Seosekordajate maatriksV1 V2 Ü1 Ü2 W1 W2

V1 1 rv1v2 rü1v1 rü2v1 rv1w1 rv1w2

V2 rv1v2 1 rü1v2 rü2v2 rv2w1 rv2w2

Ü1 rü1v1 rü1v2 1 rü1ü2 rü1w1 rü1w2

Ü2 rü2v1 rü2v2 rü1ü2 1 rü1w1 rü1w2

W1 rv1w1 rv2w1 rü1w1 rü2w1 1 rw1w2

W2 rv1w2 rv2w2 rü1w2 rü2w2 rw1w2 1

Page 33: Töötamine erinevate andmeallikatega

Sõltuvuste genereerimine?

• Teoreetiline uurimistöö – võimalik teatavate jaotuse tüüpide korral (nt normaaljaotus, selle üldistused jne).

• Praktiliselt teostatav pigem lähendusmeetodite abil (nt lineaarne planeerimine – sihifunktsiooniks on eeldatav ühisjaotuse seosemaatriks).