Töötamine erinevate andmeallikatega

Töötamine erinevate andmeallikatega

Ene-Margit Tiit

Küsitlusuuringute metodoloogia seminar, Tartu, 18.10.2013

Kuidas ühendada andmestikke?

Andmestikud võivad olla:– Register, st kõikne andmekogu– Uuring, st valimipõhine andmekogu. Eeldame, et

valimi disain on teada.

Ühendamiseks vajalikud eeldused: 1. Kirjed on identifitseeritavad2. Andmestikkudel on ühine üldkogum.Ülesanne on lahendatav ka siis, kui ühe

andmestiku üldkogum sisaldub teise üldkogumis.

Ülesande tüübid

• Register + register register• Register + valim valim• Register + valim register• Valim + valim valimKüsimused:Millal on need ülesanded lahenduvad?Missugused on nende ülesannete lahendamisega

seotud põhimõttelised ja tehnoloogilised raskused?

REGISTER + REGISTER REGISTER

Register + register register

• Eeldused– kõik objektid on identifitseeritud – üldkogum on sama (vrdl üldkogumi objektide

definitsioone).Eestis on isikuregistrite puhul enamasti 1. eeldus

täidetud (isikukoodid). Teine tingimus vajab kontrollimist.

• Näide: RR ja REL rahvastik. – Väike erisus II eelduse osas: püsielaniku

definitsioon – REL puhul viitaeg

Kahe registri ühendamine

Selgitus

• Enamasti leidub objekte, mis (kes) on olemas ühes, aga puuduvad teises registris (ja vastupidi).

• Kui neid ei ole palju, ei põhjusta see suuri ebatäpsusi andmestiku edasisel kasutamisel.

• Saadud uuest registrist on võimalik moodustada agregeeritud väljundeid (tabeleid) nii, et osa tunnuseid pärineb ühest, osa – teisest algsest registrist. Tulemus on põhimõtteliselt täpne.

REGISTER + VALIM VALIM

Register + valim valim

• Eeldused– kõik objektid on identifitseeritud – üldkogum on sama või valimi üldkogum sisaldub

registri üldkogumis ja on registri tunnuste abil defineeritav.

• Väga sageli rakendatav. • Põhimõttelisi probleeme ei ole, kui eeldused

on täidetud.

Registri andmete lisamine valimile

Selgitus• Registritunnuste väärtused lisatakse

identifikaatori abil.• Registrist lisatud tunnused vastavad

põhimõtteliselt valimi disainile. • Registritunnustega täiendatud valimist võimalik

moodustada agregeeritud väljundeid (tabeleid) nii, et osa tunnuseid pärineb valimist, osa – registrist. Tulemus on põhimõtteliselt korrektne, täpsus on disaini põhjal hinnatav.

REGISTER + VALIM REGISTER

Register + valim register• Registri täiendamine valimuuringu abil?• Üldjuhul põhimõtteliselt võimatu. – On võimalik saada korrektseid agregeeritud tulemusi

(tabeleid), piirangud tulenevad valimist.– Seda kasutatakse praktikas, lubatud protseduur ka

rahvaloenduse korral.– On võimalik simuleerida valimi tasemel mõõdetud tunnuse

väärtused ülejäänud registriobjektidele nii, et jaotusparameetrid vastavad valimi omadele.

– Seda kasutatakse uuringutes. – Simuleeritud väärtused võivad tegelikest oluliselt erineda,

seetõttu ei sobi need registrisse.

Registri täiendamine valimi abil

Seletus

• Kuna valimis on üldjuhul objekte palju vähem kui registris, jääb suur osa registriobjekte ilma valimi põhjal lisatavast väärtusest.

• Üks võimalus on leida igale registriobjektile võimalikult sarnane valimi objekt ja omistada registriobjektidele puuduvad väärtused sarnasuse põhjal.

• Teine võimalus on vältimaks ühesuguseid väärtusi lisada neile juhuslik müra, mis aga täpsust vähendab.

Mida siiski on võimalik saada?

• On võimalik saada korrektseid agregeeritud tulemusi (tabeleid), piirangud tulenevad valimist.

• See ülesanne on sisuliselt samaväärne eelmise ülesandega – registriandmed lisatakse valimiandmetele ja moodustatakse tabel, arvestades valimi disaini.

• Seda kasutati ka REL andmete puhul (töötundide arv nädalas).

VALIM + VALIM VALIMÜHISOSATA VALIMITE JUHTUM

Valim + valim valim

• Erinevad ülesanded sõltuvalt sellest, kas valimitel on ühisosa või mitte.

• Kuigi kõik valimiobjektid on identifitseeritud ja valimitel on ühine üldkogum, kui

• valimitel ei ole ühisosa, – on see ülesanne põhimõtteliselt mittelahenduv.

Puudub teave erinevates valimites mõõdetud tunnuste omavaheliste seoste kohta.

Kaks ühisosata valimit

KorrelatsioonimaatriksV1 V2 W1 W2

V1 1 Rv12 Rvw11 Rvw12

V2 Rv12 1 Rvw21 Rvw22

W1 Rvw11 Rvw21 1 Rw12

W2 Rvw12 Rvw22 Rw12 1

Sõltumatute tunnuserühmade erijuht

• Mõnikord on alust eeldada, et kahe valimi tunnused on sõltumatud, st et seosekordajate maatriksis oleksid kõik punased kordajad nullid (statistiliselt mitteolulised).

• Sel juhul on võimalik ühisjaotuse jaoks kasutada eeskirja

P12 = P1xP2,kus P1 tähistab esimese valimi ja P2 teise valimi

tõenäosusjaotusi.

Kahe sõltumatute tunnustega valimi ühendamine

Seletus

Kasutades sõltumatuse eeldust on võimalik moodustada agregeeritud väljundeid (tabeleid) nii, et osa tunnuseid pärineb ühest, osa – teisest valimist. Tulemuse täpsus on disaini põhjal hinnatav juhul kui sõltumatuse eeldus paika peab, kui mitte, siis põhjustab see täiendava vea.

Näide: kui suurt ebatäpsust põhjustab oletus, et Eesti rahvastikus on sugu ja vanus sõltumatud tunnused.

Näide: naiste vanusejaotus: tegelik ning arvutatud soo ja vanuse järgi sõltuvust arvestamata

0 1--4 5--9 10--14

15--19

20--24

25--29

30--34

35--39

40--44

45--49

50--54

55--59

60--64

65--69

70--74

75--79

80--84

85+0

0.5

1

1.5

2

2.5

3

3.5

4

4.5

N_tegelikN_arvut

Kahe sõltuvate tunnustega valimi ühendamine

Seletus• Oletame, et kahe valimi korral on eelnevast teada, et

ühe valimi teatavate väärtuste puhul on eelistatud teise valimi teatavad konkreetsed väärtused (tähistagu neid skeemil tumedamad sinised ja tumedamad punased väärtused).

• Ühendatud valimi (mida saab kasutada üksnes tabelite moodustamiseks) jaotus peaks seda siis ka vastavalt kajastama.

• Üldjuhul pole ühisjaotuse genereerimine sel juhul lihtne, selleks puudub üldsobiv metoodika ja tehnoloogia.

VALIM + VALIM VALIMÜHISOSAGA VALIMITE JUHTUM

Kahel valimil on ühiseid objekte ja/või ühiseid tunnuseid

Põhimõtteliselt on siin kolm erinevat ülesannet:Samadele objektidele täiendavate tunnuste

lisamine;Samade tunnuste mõõtmine uutel objektidel;Uues valimis on niihästi uusi objekte kui ka uusi

tunnuseid.

tüüp 1 tüüp 2 tüüp 3

1.Esimene ülesande tüüp on tavaline paneeluuringutes.

• Enamasti on probleemiks objektide arvu kahanemine, mis tähendab, et muuta tuleb laiendustegureid.

2. Teine tüüp on lahendatav laiendustegurite ühitamise teel.

Kolmas tüüp

• Sobiv on laiendustegurite arvutamiseks kasutada valimite ühiseid tunnuseid.

• Mida suurem on ühiste tunnuste osa, seda väiksem on määramatus tunnustevaheliste seoste osas.

• Kuid teadaolevad seosed (alljärgnevas maatriksis mustad arvud) ei määra üheselt mitteteadaolevaid (punaseid) seoseid.

• Seega sellise ülesande lahendamisel jääb paratamatult tulemustesse teatav ebatäpsus.

Seosekordajate maatriksV1 V2 Ü1 Ü2 W1 W2

V1 1 rv1v2 rü1v1 rü2v1 rv1w1 rv1w2

V2 rv1v2 1 rü1v2 rü2v2 rv2w1 rv2w2

Ü1 rü1v1 rü1v2 1 rü1ü2 rü1w1 rü1w2

Ü2 rü2v1 rü2v2 rü1ü2 1 rü1w1 rü1w2

W1 rv1w1 rv2w1 rü1w1 rü2w1 1 rw1w2

W2 rv1w2 rv2w2 rü1w2 rü2w2 rw1w2 1

Sõltuvuste genereerimine?

• Teoreetiline uurimistöö – võimalik teatavate jaotuse tüüpide korral (nt normaaljaotus, selle üldistused jne).

• Praktiliselt teostatav pigem lähendusmeetodite abil (nt lineaarne planeerimine – sihifunktsiooniks on eeldatav ühisjaotuse seosemaatriks).

Documents

Töötamine erinevate andmeallikatega