Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
17.9.2009 SurveyMetodiikka 2009 Seppo 1
Surveymetodiikka
Helsingin yliopisto, Syksy 2009
Seppo Laaksonen
Tämän materiaalin copyright on tekijän. Sitä voi käyttää asianmukaisella
viittauksella (sivut jos tarkempi viittaus on tarpeen):
Laaksonen, Seppo (2009). Surveymetodiikka. Kurssimateriaali. Matematiikan ja
tilastotieteen laitos, Helsingin yliopisto. Saatavana tekijältä.
17.9.2009 SurveyMetodiikka 2009 Seppo 2
SurveymetodiikkaHelsingin yliopisto, Syksy 2009Seppo Laaksonen
Luennot joihin sisältyy keskustelua, pieniä ryhmätöitä ja kysymyksiä:
TI 08.09.2009 16:00-19:00 PÄÄRAKENNUS AUD XIVTI 15.09.2009 16:00-19:00 PÄÄRAKENNUS AUD XVTO 17.09.2009 16:00-19:00 PÄÄRAKENNUS AUD XIIITI 22.09.2009 16:00-19:00 PÄÄRAKENNUS AUD XVTO 24.09.2009 16:00-19:00 PÄÄRAKENNUS AUD XIIITI 29.09.2009 16:00-19:00 PÄÄRAKENNUS AUD XVTO 08.10.2009 16:00-19:00 PÄÄRAKENNUS AUD XIIITI 13.10.2009 16:00-19:00 PÄÄRAKENNUS AUD XVTO 15.10.2009 16:00-19:00 PÄÄRAKENNUS AUD XIII
Luennot pidetään suurin piirtein yhteen menoon, tarvittaessa pieni hengähdystauko. Istunto päättyy siten hieman yli puoli seitsemän.
17.9.2009 SurveyMetodiikka 2009 Seppo 3
Atk-luokka Kumpulan ekakerroksessa (C128) on varattu
ke 16.9. - 23.9. klo 14-16 sekäke 7.10. - 14.10. klo 14-16jama 14.9.- 28.9. klo 16-18 sekä
ma 12.10. klo 16-18.
Tällöin on mahdollisuus harjoitella muutamia kurssin aiheita ohjelmiston avulla. Ensimmäisellä kerralla tutustutaan ohjelmistoihin eli SAS:iin ja SPSS:ään (mahdollisesti hieman Exceliä). Sellaiset jotka jo hallitsevat perusteet, voivat jättää sen väliin.
Tarkoitus on, että osanottaja osallistuu ainakin neljään-viiteen harjoituskertaan tai toteuttaa vastaavia asioita omina aikoinaan mutta raportoi tulokset Sepolle.
17.9.2009 SurveyMetodiikka 2009 Seppo 4
Mahtaisiko surveyllä ja kirkkovenesoudulla olla jotain yhteistä?
Sulk
ava 1
1.7
.20
09
17.9.2009 SurveyMetodiikka 2009 Seppo 5
Surveymetodiikka - ajatellut aihepiirit
1 : Johdantoa, surveyn käsite, lomake, tapausesimerkkien esittely
(niitä jatketaan myöhemmissä osioissa)
2 : Surveyaineiston käsitteet, otanta, ryvästyminen ja
otanta, perusestimointia
3 : Puuttuneisuus ja sen seuraukset, otoskoko
4 : Datan editointi ja imputointi, painotusmenetelmiä lisää
5 : Data-analyysiä, keskiarvoja, taulukoita ja malleja,
Liitteet (ilmestyvät myöhemmin erillisesti nettiin):
1. Skaalat, muunnokset, suhteellisuus ja indikaattorit
2. Uusien aineistojen muodostaminen yhdistelemällä
17.9.2009 SurveyMetodiikka 2009 Seppo 6
Surveytutkimuksella tai surveyllä tarkoitan kyselyä tai tiedustelua, jossa
tiedon antaa tai siitä vastaa ihminen. Se ei tule siis suoraan esimerkiksi
koneesta. Tiedon ei toki tarvitse koskea ihmistä itseään, vaan kysymykseen
tulevat esimerkiksi yritys, kunta, jokin muu maantieteellinen alue tai
ihmisten muodostama kokonaisuus kuten kotitalous tai perhe sekä myös
ihmisen jokin osa.
Tämä on varmaankin hieman epämääräinen määritelmä, mutta selkenee
kurssin aikana. Yleisesti ottaen oma määritelmäni on laaja, laajempi kuin
monen muun. Siten esimerkiksi väestörekisteri on minusta surveytietoa,
sillä se kerätään ihmisten itsensä (vaikkapa muuttoilmoitus) tai heidän
edustajiensa (syntymän tai kuoleman tai avioliiton vahvistaja) kautta. Kun
se on rekisterissä, se ei ehkä enää näytä surveytiedolta mutta on sitä.
Tällainen rekisteritieto on periaatteessa täysin oikeata mutta takeita ei ole
onko se päivitetty ajan tasalle. Asenteita tai muuta ei-faktatietoa sen sijaan
ei rekisteröidä eikä vastaaja itse aina muistane jälkeenpäin mitä on kertonut
kyselijälle esimerkiksi koskien sitä, kuinka kauan aikaa on käyttänyt
television ajankohtaisohjelmien katseluun viime aikoina?
Mikä on survey? 1
17.9.2009 SurveyMetodiikka 2009 Seppo 7
Alphabetic List of Variables and Attributes
# Variable Type Len Format Informat Label
42 AALUE Char 4 Äänestysalue
57 AEPV Char 8 Avioeropäivä
14 AMMS Char 35 Ammattinimike
53 BLKM Char 2 Biol. lasten lkm
9 EDKANS Char 3 Edellinen kansalaisuus
50 EKATUOS Char 50 Edell. katuosoite
51 EKATUOSN Char 7 Edell. osoitenumero
17 EN Char 50 Etunimet
52 EPOSNO Char 5 Edell. postinumero
16 ESN Char 20 Entinen sukunimi
2 HT Char 11 Henkilötunnus
28 HUKO Char 2 Huoneiston käytössäolo
31 HUONEL Char 2 Huoneluku
29 HUPA Char 3 Huoneiston pinta-ala
27 HUPE Char 1 Huoneistotiet. peruste
40 HUTIVAR Char 5 Huoneiston varusteet
30 HUTY Char 1 Huoneistotyyppi
35 IKOORD Char 6 I-koordinaatti
6 KANS1 Char 3 Kansalaisuus
7 KANS2 Char 3 Kansalaisuus - 2
8 KANS3 Char 3 Kansalaisuus - 3
10 KANSS Char 10 Kansalais. selväkielisenä
Alk
uo
sa V
äes
töre
sk
iste
rin m
uu
ttujis
ta
17.9.2009 SurveyMetodiikka 2009 Seppo 8
Survey-aineiston kuten monen muunkin tilastoaineiston keruussa
hyödynnetään yleisesti otantaa. Tämä merkitsee sitä, että ainakin osa
aineiston tilastoyksiköistä on poimittu otannalla. Otannan käytön luonnollisia
syitä ovat kustannusten pienentäminen ja tietojen nopeampi käyttöönotto
sekä myös, että tutkittava joukko eli perusjoukko on usein epätarkasti
etukäteen hahmotettavissa, ja tiedot siitä kerättävissä. Kaikissa tilanteissa
kuitenkin tavoitteena on tuottaa tuloksia jonkin perusjoukon tasolle.
Tilastotieteen näkökulmasta tässä on kysymys estimoinnista. Estimointi
pitää olennaisena osana sisällään myös tuloksen eli estimaatin
epävarmuuden mittaamisen (keskivirhe, luottamusväli, …).
Kysely tai tiedustelu voidaan toteuttaa vaihtelevin välinein, kuten postitse,
puhelimitse (sekä kiinteällä että kuljetettavalla), käyntihaastatteluin tai
sähköisen viestimen kuten netin/webin avulla. Kaikissa tapauksissa vastaus
pyrkii kuvaamaan halutun tilastoyksikön ominaisuuksia. Toki on kyselyjä,
joissa ei ole erityisiä estimointitavoitteita mutta niistä en juurikaan puhu tällä
kurssilla, ehkä joskus moitin.
Mikä on survey? 2
17.9.2009 SurveyMetodiikka 2009 Seppo 9
Surveymetodiikka
Keskeiset aineistot joita on ajateltu käytettävän (tilanne voi muuttuakin):
-Irakin kuolleisuustutkimus (Iraq Mortality Survey) jonka kahden
tiedoston kuvaus on erillisessä liitteessä. Harjoituksissa katsellaan datoja
heti ensi kerralla.
-Eurooppalaisen uhritutkimuksen pilotti jota Suomessa toteuttavat
Heuni, Tilastokeskus ja HY (minä) jännittävällä otannalla. Tämä on
monitahoinen myös siksi että kokeillaan sekä käyntihaastattelua että
puhelinhaastattelua että nettiä. Ensi vaiheen harjoittelua varten toivon
kaikkien lähtevän katsomaan nettikyselyn lomaketta kohteesta: http://digiumenterprise.com/answer/?sid=346211&chk=Z5SZHB6D
Tästä tulee kaksi tehtävää: (i) Mainitse ainakin 3 kysymystä joihin on hankala vastata ja perustelu,
(ii) Mainitse kaksi kysymystä joissa on huono kysymyksenasettelu ja kerro miten olisi parempi
kysyä. LÄHETÄ vastaus s-postilla minulle mielellään ennen ensi viikon luentoa.
-Historia-tietoisuus Suomessa –projektin alkuvaihe -http://blogs.helsinki.fi/historiatietoisuus/
17.9.2009 SurveyMetodiikka 2009 Seppo 10
Surveymetodiikka
Keskeiset aineistot (jatkoa):
- Kulutustutkimus jossa tiedot kerätään skannerilla ja lähetetään
enemmän tai vähemmän automaattisesti aineiston käyttäjälle.
Otoksessa mukana olevaa kutsutaan panelistiksi. Alkuosa tarinasta
erillisenä liitteenä.
- European Social Survey (ESS), ks. www.europeansocialsurvey.org:
Lomakkeen tutkimiseen, otannan tarkasteluun, tiedoston luontiin
ja analyysiin. Uudet tiedot tulevat nettiin syyskuun lopussa.
- PISA (Programme for International Student Assessment of the OECD),
ks. http://www.pisa.oecd.org/
Otantakin käydään läpi mutta painotus on analyysissä.
Lisäksi esille otetaan sopiva yritysaineisto mikäli kiinnostusta ilmenee.
17.9.2009 SurveyMetodiikka 2009 Seppo 11
Surveymetodiikka
Mahdollisia nettikyselytekniikkoja:
- Edellä esitelty Uhritutkimuksen ohjelma Digium
- Survey Monkey on vapaa väline lomakkeiden tekoon ja kyselyn
toteuttamiseen. Katso netistä lisää.
-Yliopistossa on ns. E-lomake jota on helppo käyttää myös
nettikyselyissä ja käytetään mm. kurssien arvioinneissa.-https://alma.helsinki.fi/doclink/128157
17.9.2009 SurveyMetodiikka 2009 Seppo 12
Tiedonkeruu ja lomakesuunnittelu 1
Lomakkeella tarkoitetaan sen kaikkia muotoja, joita ovat:
- paperinen postitiedustelussa käytetty itse täytettävä lomake,
- paperinen haastattelijan kokonaan tai osittain täyttämä lomake (herkät
kysymykset on usein hyvä pyytää täyttämään itse haastattelutilanteessakin
tai lähettämään erikseen survey-organisaatiolle),
- elektroninen haastattelijan täyttämä lomake (tässä haastattelija voi olla
lähellä tai kaukana esimerkiksi puhelimen päässä),
- vastaajan täyttämä elektroninen lomake kannettavalle tietokoneelle tms.,
josta se toimitetaan netitse ja postitsekin (vähenemään päin oltuaan varsin
yleinen) survey-organisaatiolle,
- nettilomake jonka vastaaja täyttää (tämä voi olla täysin avoin tai pääsy on
vain otokseen valituille mikä on tietysti ainoa vaihtoehto laadukkaalle
surveylle),
- lomakkeen tiedot ’imuroidaan’ vastaajan tiedostoista automaattisesti (tietysti
tähän on annettu lupa).
17.9.2009 SurveyMetodiikka 2009 Seppo 13
Tiedonkeruu ja lomakesuunnittelu 2 (engl. termejä)
PAPI = Paper and Pencil Interview = Perinteinen haastattelu jossahaastattelija täyttää lomakkeen kirjoittamalla (ei enää Suomessa yleinen);kehitysmaissa lähes ainoa vaihtoehto.CAPI = Computer Assisted Personal Interview = Tässä haastattelija täyttäälomakkeen suoraan tietokoneelle, tietokoneohjelmassa voi olla esieditointivalmiina jolloin vastaukset ovat tiettyyn tasoon asti jo tarkistettuja.Face to Face Interview (f2f)= Käyntihaastattelu joka voi olla toteutettuPAPI:lla tai CAPI:lla ja jatkettu vaikka netillä tai postilla.CASI = Computer Assisted Self Interview = Itse täytettävä lomake jota tietokoneohjelma ohjaa; osin tarkistettu data; tämä voi olla toteutettu netissä tai omalla tietokoneella ja täyttämisen jälkeen lähetetty sähköpostina tai muuna elektronisena lähetteenä survey-insituuttiin. CATI = Computer Assisted Telephone Interview = Puhelimitse toteutettu kysely jossa haastattelija esittää kysymykset ja merkitsee vastaukset saman tien tiedostoon josta tulee osin tarkistettu. Tässä kyselyssä on usein valmiina myös automatiikka vastaajan valitsemiseksi.
17.9.2009 SurveyMetodiikka 2009 Seppo 14
Tiedonkeruu ja lomakesuunnittelu 3 (kv. termejä)
TSI = Telephone Self Interview = Vastaaja soittaa pyydettyyn numeroon jossa
automaatti esittää kysymyksen ja pyytää vastaamaan esimerkiksi numeroilla
joiden ilmaisin ilmoitetaan sitä ennen. Tällaiset kyselyt eivät voi olla kovin
laajoja. Tämä toteutetaan myös siten että annetaan eri numeroita eri
vaihtoehdoille, jolloin riittää vain soittaa tähän numeroon. Suorissa TV-
ohjelmissa näitä käytetään paljon ja annetaan ymmärtää että tästä saataisiin
jotenkin luotettava kuva. Luotettavuus jää tosiasiassa täysin ilmaan.
Postal Survey = Postikysely jossa lomake täytetään itse tavallisesti paperille
tai vaihtoehtoisesti annetaan nettiosoite josta löytyy sama lomake. Mukana
on myös kirjoittautumistunnus jotta tiedetään kuka vastaa ja vastaa vain
kerran. Postikyselyssä on mukana kirjekuori johon vastaukset sijoitetaan.
Web/Internet Survey = yleensä itse täytettävä lomake. Tässä voi olla otos
annettuna etukäteen mutta sen kattavuus ei vielä tätä nykyä ole kovin hyvä
edes Suomessa. Useat websurveyt siis eivät täytä yksistään kovin korkeita
laatukriteerejä. Vielä epäselvempiä edustavuudeltaan ovat surveyt joihin
websurfaajat vastaavat omasta tahdostaan yhden tai useamman kerran.
CAI = Computer Assisted Interview joka siis kattaa useita edellisistä.
17.9.2009 SurveyMetodiikka 2009 Seppo 15
Tiedonkeruu ja lomakesuunnittelu 4
Peruskysymyksiä joihin on hyödyllistä vastata lomaketta laadittaessa:
1. Vastaako kysymys haluttuun tutkimusongelmaan?
2. Tuottaako kysymys hyödyllistä informaatiota kokonaisuutena, ottaen siis
huomioon muut kysymykset ja analyysitarpeet?
3. Mahtavatko vastaajat ymmärtää kysymyksen siten kuin on tarkoitettu?
4. Onko vastaajilla riittävästi tietoa vastatakseen kysymykseen?
5. Ovatko vastaajat halukkaita vastaamaan annettuun kysymykseen?
6. Pitäisikö kysymys olla esitetty kaikille vain osalle kohdejoukkoa?
7. Onko olemassa muuta tietoa, joka auttaisi analysoimaan kysymykseen
annettuja vastauksia (siis myös kysymyksen luotettavuutta)?
Lähestymistapa tai –tyyli on myös erinomaisen tärkeä. Jos esimerkiksi käytät
postitiedustelua, on lähetekirjeeseen kiinnitettävä suuri huomio. Erityyppisille
vastaajaryhmille voidaan käyttää myös erilaisia lähetekirjeitä. Jos kysely on
suoraan kontaktiin perustuva, on myös huolella selvitettävä paras
lähestymistapa. Käyntihaastattelussa on myös pukeutuminen tärkeätä.
Vastausohjeistot itse vastattaviin kysymyksiin on tehtävä selkeiksi ja helposti
löydettäviksi. Harva esimerkiksi rakastaa ohjeiden etsimistä liitteistä tai
netistä.
17.9.2009 SurveyMetodiikka 2009 Seppo 16
Tiedonkeruu ja lomakesuunnittelu 5
Lomakkeen laajuus on eräs iso kysymys. Sen ei tule olla liian laaja eikä niin
suppea ettei olennaista informaatiota saada käyttöön. Siis ota huomioon
muun muassa seuraavia seikkoja:
1. Valitse mahdollisia kysymyksiä ja kysymyksen sisäisiä vaihtoehtoja
huolellisesti.
2. Päätä myös huolellisesti mitkä kysymykset lopulta sisällytät kyselyyn.
3. Vastaako kysymys siihen mihin se on tarkoitettu vastaamaan (validiteetti)?
4. Sisällytä sopiva määrä kysymyksiä kuhunkin aihealueeseen ottaen
huomioon myös reliabiliteettin (varmistusta siitä että vastaus on uskottava eli
kysymys on oikein ymmärretty ja vastaukset annettu vakavuudella).
5. Kuinka kauan lomakkeen täyttämiseen menee, olkoon se haastattelijan tai
vastaajan itsensä täyttämä?
- Vastaajalle on syytä kertoa etukäteen täytöstä johtuva vastausrasite.
Mutta on myös otettava huomioon tiedon keruusta johtuva vastausrasite,
mikä voi olla suurempi kuin lomakkeen täyttämisestä johtuva edellyttäen että
annetaan mahdollisimman totuuden mukaista tietoa (koskee siis faktatietoja
kuten tuloja ja kuluja).
17.9.2009 SurveyMetodiikka 2009 Seppo 17
Tiedonkeruu ja lomakesuunnittelu 6
Kysymysten järjestys on olennainen. Ota huomioon muun muassa:
1. Että ensimmäinen kysymys on hyvin tärkeä. Usein on hyvä, jos se on jo
läheisesti itse tutkimuksen pääaiheeseen liittyvä, kiinnostava kysymys tai
kysymyspatteristo. Aloituskysymyksen ei tulisi olla hankalasti vastattava.
Luonnollisesti sen tulisi olla myös sellainen, että se koskee kaikkia eikä vain
osaa kohdejoukosta.
2. Missä on sopiva taustakysymysten (sukupuoli ja ikä jolleivät ole muuten
tiedettyjä, koulutus, ammatti) paikka? Joskus ne ovat heti aluksi, mutta hyvin
usein varsin lopussa. Joskus on hyvä sijoittaa osa alkuun (kuten hyvin
helposti vastattavat eivätkä herkät) ja osa loppuun (herkemmät kuten tulot).
3. Kussakin surveyssä tietyt asiat ovat keskeisessä roolissa, ainakin pitäisi
olla. Siksi on erikseen tutkittava mikä olisi paras paikka näiden kysymiseksi.
Väärä ’konteksti’ voi harhaistaa tuloksia.
17.9.2009 SurveyMetodiikka 2009 Seppo 18
Tiedonkeruu ja lomakesuunnittelu 7
Kysymyksiähän voi olla eri tyyppejä, mutta voidaan jakaa vain kahteenkin
pääryhmään:
1. Tosiasioita, faktoja koskevat kysymykset. Näitä ovat mm. taustamuuttujat
sekä kvantitatiivisia mittoja kuten tuloja ja liikevaihtoa koskevat tiedot.
2. Subjektiivisia näkökohtia koskevat kysymykset: asenteet, mielipiteet,
arvioinnit ja tarkoitukset.
Tosiasiakysymysten tarkistaminen on periaatteessa helpompaa, jollei täysin,
niin ainakin suuruusluokan tasolla. Subjektiiviset tekijät voivat joskus muuttua
nopeastikin ja siksi vastaustiedon tarkistaminen jonkin aikaa kyselyn jälkeen
voi olla mahdotonta. Koska subjektiivisiin kysymyksiin liittyy suurempi
epävarmuus, on hyvä laatia samasta aihepiiristä useampi kysymys.
Tällöin puhutaan kysymyspatteristoista. Jatkossa tällaisesta patteristosta
etsitään usein perusulottuvuudet, piilevät muuttujat, vaikkapa
faktorianalyysillä, ja näin taas vähennetään varsinaisten analysoitavien
muuttujien määrää.
17.9.2009 SurveyMetodiikka 2009 Seppo 19
Tiedonkeruu ja lomakesuunnittelu 8
Lomakkeissa voi olla vastausvaihtoehdot valmiina (ns. suljettu kysymys) tai
vastaukset annetaan vapaassa muodossa (avoin kysymys) tekstinä tai
numerona.
Jatkuvatkin muuttujat kuten tulot kysytään joskus suuruusluokittain, ei siis
antaen yhden vapaan mutta määrätyn mittaisen tilan vastattavaksi. Edellinen
vaihtoehto voi herkän muuttujan (tulot, varallisuus) tapauksessa tuottaa
paremmin vastauksia mutta toisaalta tietojen tarkkuustaso voi olla liian huono
jatkoanalyyseihin. Näin on erityisesti jos viimeisellä vaihtoehdolla ei ole
ylärajaa. Tämä siis aiheuttaa osittaisen puuttuvuuden aineistoon. Jos on kyse
isoista luvuista, vaikkapa miljoonista, voi vastaajilla olla vaikeuksia
hahmottaa suuruusluokkaa oikein. Eräs tapa on pyytää tietoa lyhyempänä,
esimerkiksi tuhansina. Kummassakin tapauksessa voi tulla
suuruusluokkavirhe. Lomakkeen tulee olla äärimmäisen selkeä tämän
välttämiseksi. Jos tietoa kysytään hyvin tarkasti, esimerkiksi sadasosina
(sentteinä), voidaan tämäkin ymmärtää väärin. Jollei tämä tarkkuus ole
erityisen olennainen, on siitä paras luopua.
17.9.2009 SurveyMetodiikka 2009 Seppo 20
Tiedonkeruu ja lomakesuunnittelu 9
Valmiiden vastausvaihtoehtojen antaminen on luonnollisinta subjektiivisten
kysymysten yhteydessä, edellyttäen että kysymys on validoitu niin hyvin että
vaihtoehdot kuvaavat mahdollisia vastauksia riittävästi. Tällöin voidaan
muuttuja ja siis kysymys muodostaa enemmän tai vähemmän
yksityiskohtaisena. Joihinkin kysymyksiin riittää kaksi vaihtoehtoa kuten
1=kyllä ja 0=ei, mutta moniin asennetyyppisiin on hyvä käyttää
järjestysasteikollista skaalaa. Ehkä yleisin käytetty on viisiluokkainen
(1=erittäin huono, 2=huono, 3=tyydyttävä, 4=hyvä, 5=erittäin hyvä), mutta
jotkut tutkijat pitävät 7-luokkaista optimaalisimpana. Ja ESS:ssä on menty
yleisesti skaalaan 0-10; tässä tekstimuodossa ilmaistaan vain
äärivaihtoehdot. Olen nähnyt myös skaalan 0-100.
On kiinnostavaa ja ymmärrettävää huomata, että epäsymmetrinen skaala
(esim. edellisen sijasta seuraava: 1=huono, 2=tyydyttävä, 3=hyvä, 4=erittäin
hyvä ja 5=kiitettävä) toimii varsin symmetrisesti ainakin jos kyselyssä on
numerot 1:stä 5:een kuten edellä. Suurin osa vastaajista ei siis katso tekstiä
vaan skaalaa. Symmetrinen skaala on luonnollisesti reilumpi sekä tekstien
että numeroiden osalta. Huomattakoon, että jotkut haluavat tehdä sellaisen
symmetrisen vaihtoehdon jossa keskimmäinen neutraali vaihtoehto puuttuu.
Tämä saattaa lisätä puuttuvien vastausten määrää.
17.9.2009 SurveyMetodiikka 2009 Seppo 21
Tiedonkeruu ja lomakesuunnittelu 10
Erityiskysymys on kuinka vastaamattomuus on sallittu:
lomakkeissa voi olla tai sitten ei vaihtoehto
’en osaa’ tai olennaisesti eri asiana ’en halua sanoa’
tai
’tieto ei ole käytettävissä’, jolloin rima on korkeammalla vastata ’puuttuvasti.’
Lisäksi tulokseen voi vaikuttaa se miten vaihtoehdot on merkitty lomakkeelle.
ESS:n lomakkeessa on yleensä yksi koodi vastaamattomuudelle mutta
lopullisessa aineistossa koodeja on usein kolme. Edellisen lisäksi
kieltäytyneet sekä ei osaa sanoa, jotka haastattelija merkitsee.
Lisäksihän monesti lomake on strukturoitu siten, että vastaamisesta tiettyyn
kysymykseen esimerkiksi ’EI’ seuraa ettei toiseen kysymykseen saa tulla
vastauksia. Tämä on tyypillistä ja ongelmakin, kun arvioidaan vaikkapa
kunnallisen palvelun hyvyyttä. Jollei ole käyttänyt palvelua, voi toki vastata
sen hyvyyteen kuulopuheiden pohjalta muttei omakohtaisen kokemuksen
mukaan. The Economist näyttää lukijatutkimuksissaan minimoivan tätä lähettämällä tietyn
lehden uudelleen, jotta vastaaja voi katsoa lukiko artikkelin vain ei. Tosin itse vasta tällöin katson,
että tuon olisin lukenut huolella, tuota en ollenkaan.
17.9.2009 SurveyMetodiikka 2009 Seppo 22
Tiedonkeruu ja lomakesuunnittelu 11 (Monikansalliset)
Monikansalliset surveyt on laajeneva alue, ja niissä on oltava vielä
huolellisempia lomakesuunnittelun kanssa. Niiden suunnittelu on
kansainvälisen ryhmän tehtävänä, jonka pitää myös arvioida kysymysten
validiteetti ja reliabiliteetti siten että nämä toimivat yhtä hyvin kaikissa
osallistujamaissa. On hyvin mahdollista, että kysymyksissä painottuvat
’vahvojen maiden’ näkökohdat. Toisaalta vaikeaksi tehtäväksi muodostuu
kielikysymys.
On luonnollisesti myös selvä, että on kysymysaiheita, erityisesti
tosiasioita koskevia, jotka on syytä muotoilla eri tavoin eri maissa joten
aikanaan aineistoa käytettäessä kunkin tutkijan on syytä miettiä huolella
miten tehdä yhdenmukainen muuttuja. Tyypillinen esimerkki on puolue
jota kannattaa tai äänesti edellisissä vaaleissa; nehän eivät ole samat
kaikissa maissa. Myös maantieteeseen ja elinkeinoihin sekä etniseen ja
uskonnolliseen taustaan liittyvät kysymykset on hyvä muotoilla kuhunkin
maahan sopivasti. Keksi oma esimerkki!
17.9.2009 SurveyMetodiikka 2009 Seppo 23
Tiedonkeruu ja lomakesuunnittelu 12 (Monikansalliset 2)
Esimerkiksi PISA:ssa ja Eurobarometrissa lomake tehdään aluksi sekä
englanniksi että ranskaksi. Siten lomakesuunnitteluryhmässä on riittävän
hyvä osaaminen molemmista kielistä. Tämän jälkeen lomake on käännettävä
kaikille kielille joita osallistujamaissa on. Tämä ei ole ollenkaan niin helppo
tehtävä kuin voisi kuvitella. Tavallisin tapa on käyttää kahta riippumatonta
kääntäjää ja verrata näiden käännöksiä keskenään sekä löytää kompromissi.
Tämä käännetään mahdollisesti vielä alkuperäisille kielille eri ammattilaisten
toimesta ja katsotaan kuinka hyvä oli tulos.
Tämä näyttää jonkin verran vaihtelevan monikansallisesta surveystä
toiseen. Vaativimmissa tiedusteluissa esimerkiksi suomenruotsi ja
ruotsinruotsi tai ranskanranska, belgianranska ja sveitsinranska ovat eri
kieliä, mutta joissain kelpuutetaan nämä samaksi.
ESS:ssä peruslomake on englanniksi ja kaikkien tutkittavissa netistä. Kussakin
maassa suoritetaan sen kääntäminen parhaalla mahdollisella tavalla. Tämä voi
tuottaa virheitä kuten Suomen lomakkeessa jossa kysymys joutumisesta
murtovarkauden tai väkivallan uhriksi alkuperäislomakkeessa ”burglary or assault”)
murtovarkaus käännettiin kolmella kierroksella virheellisesti sanalla varkaus.
Tämän seurauksena Suomen kohdalla kyllä-vastauksia voidaan arvioida olevan
tarkoitettua enemmän kuin jos olisi kysytty murtovarkaudesta.
17.9.2009 SurveyMetodiikka 2009 Seppo 24
Haastattelijan roolista
’Haastattelija’ on tässä henkilö, joka tiedon keruun hoitaa joko suoraan tai
epäsuorasti. Haastattelijoita yhdessä surveyssä voi olla vain muutama mutta
myös hyvin huomattava määrä. Jokin suhde otoskokoon haastattelijoiden
määrällä kuitenkin on. Isommissa survey-instituuteissa on 100-200
käyntihaastattelijaa ja jos otoskoko on esimerkiksi 10000, niin kullekin tulisi
silloin 50-100 haastateltavaa. Puhelin- tai muu kaukohaastattelu vie yleensä
vähemmän aikaa haastateltavaa kohti kuin käyntihaastattelu.
Haastattelijalla ei pitäisi olla vaikutusta itse tietoon, mutta tätä ei voi estää.
Useissa survey-aineistoissa onkin haastattelijan koodi käytettävissä, joten
voidaan myös analysoida ns. haastattelijavaikutusta. Suosittelen sen
tutkimista mikäli tieto on käytettävissä. Joskus koodin takaa löytyy myös
haastattelijan taustatietoa, kuten sukupuoli, ikä ja vaikkapa kokemus
haastattelijana. Haastattelijoiden enemmistö useimmissa teollisuusmaissa on
naisia, mutta on kulttuureja joissa nainen ei voi haastatella miestä ja toisaalta
nainenkaan ei helposti voi mennä haastattelemaan naista, koska tämä ei ole
perheen pää. Perheen pään kautta taas joissain kulttuureissa vastaukset
vain annetaan. Surveyn onnistuminen vaatiikin näissä oloissa hyvin
monitahoisen haastattelija- ja vastaajakokoonpanon eikä mitä tahansa
kysymyksiä kannata edes harkita esitettävän.
17.9.2009 SurveyMetodiikka 2009 Seppo 25
Oheinen taulukko on kopio F.M. Orkinin esitelmäkalvosta ISI:n (International Statistical Instituten) konferenssista Durbanissa 2009.Tulokset koskevat kahdella eri tavalla muotoiltuja kysymyksiä eli onko kaksi (puolesta tai vastaan) vai kolme (puolesta, vastaan ja siltä väliltä) vaihtoehtoa
kysymyksessä?
Lomake-esimerkki
Lomakkeen testaus ja vaikutus, Historiatietoisuus Suomessa esimerkkiKyösti Knuuttila (2009)
Historiatietoisuus Suomessa -tutkimushankkeen esitutkimus toteutettiin
lomakekyselynä. Kyselylomake postitettiin 1000 väestörekisteristä
satunnaisesti poimitulle 15 - 79 -vuotiaalle Manner-Suomessa asuvalle
vastaajalle viikolla 13 (23.3 - 29.3.2009). Ruotsinkielen äidinkielekseen
ilmoittaneille (40 kpl) lähetettiin ruotsinkielinen kyselylomake ja muille
suomenkielinen (960 kpl).
Esitutkimuksen otoskoko valikoitui kompromissina aikataulun, tulosten
tarkkuuden ja kustannusten välillä. Esitutkimuksen tavoitteena oli saada
200 vastausta eli 20 % vastausprosentti. Kyselylomakkeen palautti
yhteensä 148 vastaajaa 31.5.2009 mennessä. Palautuneista
lomakkeista 5 oli kokonaan tyhjiä ja yhden oli täyttänyt otokseen valitun
henkilön puoliso. Nämä 6 lomaketta jätettiin pois kyselystä. Täten
vastauksia kertyi yhteensä 142 eli todelliseksi vastausprosentiksi
muodostui 14,2 %.
Lomakkeen testaus ja vaikutus, Historiatietoisuus Suomessa esimerkki 2
Kohdassa 1 "Mikä on historian merkitys Teille?" kysymys e. "tietoa,
joka auttaa minua elämän ja muutoksien hallinnassa." osoittautui
hankalaksi vastata. Vastaajista 35 % oli vastannut "ei samaa eikä eri
mieltä" ja 8 % vastaajista ei ollut vastannut kohtaan lainkaan.
Kysymystä tarkennettiin yksiselitteisemmäksi muotoon "Tietoa, joka
auttaa minua ymmärtämään yhteiskunnan muutoksia.”
Kohdan 3 muotoilu "Juhlitteko Suomen itsenäisyyspäivää?"
muutettiin muotoon "Vietättekö Suomen itsenäisyyspäivää?".
Useampi vastaaja oli kommentoinut, että he eivät koe juhlivansa
itsenäisyyspäivää, mutta katsovat esimerkiksi televisiosta Linnan
juhlat ja polttavat kynttilät. Tämä muotoilu tavoittanee suuremman
joukon vastaajia. Itsenäisyyspäivän viettoa koskeva kysymys
siirrettiin järjestyksessä neljänneksi.
Lomakkeen testaus ja vaikutus, Historiatietoisuus Suomessa esimerkki 3
Kohdassa 2 "Oletteko viimeisen noin vuoden aikana pohdittiin
vastausasteikon toimivuutta. Viisiasteinen vastausasteikko "en
kertaakaan, kerran, 2-3 kertaa, 4-5 kertaa ja yli 5 kertaa" arvioitiin
turhan tarkaksi ja hankalaksi vastata huomioiden kysymyksen
aikarajauksen. Tämän johdosta kysymyksessä päätettiin käyttää
neliportaista vastausasteikkoa "en kertaakaan, kerran, muutaman
kerran, usein". Uusi vastausasteikko on lähempänä arkista tapaa
ajatella viimeisen vuoden aikana tehtyä. Tulosten tulkinnan kannalta
vastausten tarkkuus ymmärrettävästi hiukan laskee, mutta toisaalta
voidaan pohtia kuinka luotettavia ovat tarkan lukumäärän ilmoittavat
vastaukset tämäntapaisessa kysymyksessä.
Kysymys h. "Presidentti Kekkosen suhteet Neuvostoliittoon olivat
tarpeettoman läheiset." poistettiin päällekkäisenä kysymyksen g.
"Presidentti Urho Kekkonen oli liian itsevaltainen" kanssa. Vahva
korrelaatio muuttujien välillä vahvisti tulkinnan (korrelaatio=0,63).
Lomakkeen testaus ja vaikutus,
Historiatietoisuus Suomessa esimerkki 4
Kysymys g. "Maahanmuuttajat ovat talouden kannalta ongelmallisia,
koska heistä koituu tuntuvia menoja sosiaaliturvamäärärahoihin"
muotoiltiin uudelleen "Maahanmuuttajista koituu liikaa menoja
sosiaaliturvamäärärahoihin".
Entinen kohta 14 "Mitä yksittäistä tapahtumaa tai kehityskulkua pidätte
oman ikäluokkanne / sukupolvenne kannalta merkittävimpänä?" keräsi
hyvin vastauksia, mutta useat vastaajat olivat luetelleet pitkähköjä
listoja heidän mielestään merkittävistä tapahtumista. Kysymys ei
myöskään tavoittanut parhaalla mahdollisella tavalla sukupolvien
avainkokemuksia. Tämän johdosta kysymystä terävöitettiin muotoon
"Nuoruusvuosien yhteiskunnallisten kokemusten ajatellaan vaikuttavan
sukupolvien muotoutumiseen. Mitä yksittäistä tapahtumaa tai
kehityskulkua pidätte oman sukupolvenne kannalta merkittävimpänä?
Mainitkaa jokaiseen ainoastaan yksi tapahtuma." Vastausvaihtoehdot
rajattiin a. "Suomessa" ja b. "muualla maailmassa"
Lomakenäkökohtia lisää
Lomaketta suunniteltaessa on hyvä tehdä yleinen hahmotelma sen kokonaisuudesta. Kahdella seuraavalla sivulla on hahmotelma jonka teimme Eurooppalaisen uhritutkimuksen yleissuunnitteluvaiheessa. Siitä ilmenevät eri teemat ja niiden esitysjärjestys lomakkeessa. Voit tutkia onko nettilomakkeessa noudatettu tätä suunnitelmaa. Tuo hahmotelmahan tehtiin kaksi vuotta sitten.
Toiseksi: ESS:n lomakkeessa on heti alkusivuilla kuvaus sen rakenteesta. Katso(taan) vaikkapa uusinta kierroksen 4 lomaketta;
siitä myös tehtävä hetken kuluttua.
Draft Questionnaire 0_a
Draft Questionnaire 0_ b
17.9.2009 SurveyMetodiikka 2009 Seppo 33
Aluksi otan käsitteen perusjoukko. Vaikka joskus se esitetään yksikäsitteisenä, sitä se ei ole. Mielestäni viisi eri perusjoukon käsitettä on jo poikkileikkaustutkimuksessa tarpeen: 1. Kiinnostusperusjoukko on karkea hahmotus tutkijan mielessä alkuvaiheessa olevasta perusjoukosta. Harvoin (paitsi jos joku on määritellyt sen) se on aluksi täsmällinen, mutta kun se on sitä, voimmekin määritellä2.Tavoiteperusjoukon (joskus kohdeperusjoukko) mikä on jo tarkasti määritelty ja aikaan sidottu (vaikkapa kuun alku, vuoden loppu tai aikaväli) sekä realistinen.
Surveyaineiston Peruskäsitteistö 1
ESS:lle tämä on 15+ -vuotiaat, PISA:lle hieman 15 vuotta (tarkan vuoden aikana syntyneiden) täyttäneiden koululaisten joukko, Uhritutkimuksen pilotissa 15-74 –vuotiaat mutta varsinaisessa ei kuuluisi olla ylärajaa, Historiatutkimuksessa 15-79 -vuotiaat. Ikä on määriteltynä kenttätyön alun mukaan. Muut rajaukset hieman vaihtelevat. ESS:ssä ja Uhritutkimuksessa mukana ovat maassa asuvat kansalaisuudesta riippumatta. PISA:ssa suomenkieliset ja ruotsinkieliset koulut ovat mukana. Historiatutkimuksessa päädyttäneen jättämään muut kuin suomen- ja ruotsinkieliset pois.. Miksihän?.
17.9.2009 SurveyMetodiikka 2009 Seppo 34
Surveyaineiston Peruskäsitteistö 2
Jotta tavoiteperusjoukko saataisiin koottua, on oltava3. Kehikkoperusjoukko, josta poimitaan kaikki tai osa haluttua tiedustelua varten. Jos käytetään otosta, puhutaan myös otantakehikosta. Kehikkoperusjoukon yksikkö voi olla esimerkiksi henkilö, yritys, kunta, muu alue, kotitalous tai aikaväli. Se ei aina ole saatavissa tiedustelun ajankohdalta, vaan jossain määrin aikaisemmalta mistä aiheutuu kiusaa (katsotaan myöhemmin).
Kehikkoja voi olla useitakin, kuten PISA:ssa jossa ensin tarvitaan koulujen kehikko ja myöhemmin oppilaiden kehikko. Koulutietojen (ml. oppilasmäärätiedot) pieni epätarkkuus ei haittaa paljoa mutta jollei valittujen koulujen oppilastietoja saada kunnolla, tilanne on hankala. Näin ei yleensä ole ja voidaankin uskoa että oppilaskehikko on ainakin Suomessa hyvin ajantasainen. Uhritutkimuksessa kehikkoperusjoukko luodaan Väestörekisteristä heinäkuun 2009 lopun mukaisena. Se ei takaa että kaikki väestötieto olisi harhatonta. Historiatutkimuksen kehikko luodaan samasta pohjasta. ESS-otosten perusidea on sama Suomessa mutta monessa maassa käytetään aluekehikkoja aluksi ja henkilöiden valinnassa paikallisia tietoja.
17.9.2009 SurveyMetodiikka 2009 Seppo 35
Surveyaineiston Peruskäsitteistö 3
Koska kehikko usein muuttuu tiedustelun ajankohtaan mennessä, tarvitaan
4. Päivitetty kehikkoperusjoukko, jota käytetään estimoinnissa. Valitettavan harvoin tutkija muodostaa tällaisen perusjoukon. Pääsyy on luonnollinen: sellaisen hankkiminen on monesti vaikeata, jopa mahdotonta. Toisaalta tämän puuttuminen ei aina haittaa yhtä paljon, ei ainakaan ihmisiä koskevissa tutkimuksissa; yritystiedusteluissa tämän perusjoukon puuttuminen voi vaikuttaa tuloksiin paljon. Vaikkei kehikkoa päivitettäisi, on tutkijan syytä arvioida mitä harhaa vanha kehikko voi tuloksiin aiheuttaa.
Lopulta keräämme itse aineiston ja saamme toivon mukaan mahdollisimman paljon tavoiteperusjoukkoa muistuttavan
5. Tutkimusperusjoukon.
17.9.2009 SurveyMetodiikka 2009 Seppo 36
Surveyaineiston Peruskäsitteistö 4
On hyvä huomata, että jos kehikon ja tavoiteperusjoukon yksiköt ovat samoja tilanne on helpompi kuin tilanteessa jossa ne eivät ole samoja. PISA:ssa ensimmäisen asteen kehikkoyksiköt = koulut eivät ole oppilasaineistossa siis tutkittavia yksiköitä eli oppilaita, mutta PISA:n koulututkimuksessa ne ovat. Suomen ESS:ssä kehikossa on saatavissa 15+ -vuotiaat Suomessa asuvat, mutta useimmissa muissa maissa ensimmäisenä kehikkona ovat maantieteelliset pienalueet. Vasta näistä sopivien tultua valituksi lähestytään itse vastaajakandidaatteja. Muutamissa maissa tämä tapahtuu suoraan mutta hyvin monissa seuraavana kehikkona ovat valittujen pienalueiden osoitteet tai kotitaloudet. Kolmas kehikko on sitten periaatteessa helppo koska se koskee valitun osoitteen tai kotitalouden 15+ -vuotiaita henkilöitä. Irakin kuolleisuustutkimuskin vastaa viimeksi mainittua mutta kotitalouden sisältä ei valita enää kehikkoa vaan tutkimus koskee kaikkia kotitalouden jäseniä tutkimusajanjaksolta (katso datasta mikä on aikaväli).
17.9.2009 SurveyMetodiikka 2009 Seppo 37
Surveyaineiston Peruskäsitteistö 5
Mikäli kaikki periaatteessa täsmälliset perusjoukot eli neljä viimeistä kattavat saman joukon, ei kehikko-ongelmia esiinny. Mutta huonommassa tilanteessa voimme vertailemalla eritellä erilaisia virhetekijöitä:- alipeittävyys (alipeitto): yksiköt jotka kuuluvat tavoiteperusjoukkoon mutta joita ei tavoiteta- ylipeittävyys (ylipeitto): yksiköt jotka eivät kuulu tavoiteperusjoukkoon mutta jotka on poimittu aineistoon.- luokitteluvirheet kehikon osalta: voivat aiheuttaa ylipeittoa ja alipeittoa ja virheitä aineistoon (voidaan havaita ja korjatakin).
Jos tutkimus(perus)joukko ei sisällä kaikkia tavoiteperusjoukkoon kuuluvia poimittuja yksiköitä, on kyse yksikkövastauskadosta, mikä on hyvin hankala ongelma nykypäivän surveyssä. Tämä on osa puuttuvuutta. Myös alipeitto on puuttuvuutta. Osittainen vastauksen puuttuminen (muuttujakohtainen puuttuvuus) on erävastauskatoa mikäli tieto halutaan. On myös hyväksyttävää puuttuvuutta. Mitä?
17.9.2009 SurveyMetodiikka 2009 Seppo 38
Surveyaineiston Peruskäsitteistö 6
Alipeittoa eli syntyneitä tai muuten uusia tapauksia tai luokitteluvirheellisiä tapauksia ei normaalitilanteessa voida yksikkötasolla havaita tiedustelun kehikkoa muodostettaessa, muutenhan nämä yksiköt sisällytettäisiin kehikkoperusjoukkoon.
Ylipeitto voidaan havaita tiedusteluun valittujen yksiköiden osalta jos nämä tapaukset tavoitetaan tai saadaan tieto niistä muuta kautta, vaikkapa rekistereistä. Kyseessä ovat siis kuolleet tai toimintansa lopettaneet yksiköt, toiseen perusjoukkoon muuttaneet tai luokitteluvirheelliset kehikkoperusjoukon tapaukset. Otokseen sisällytettyjen osalta ylipeitto pitäisi voida aina saada selville (havaittu ylipeitto). Sen sijaan kehikkotason tai tiedustelussa tavoittamattomien osalta ylipeitto voi jäädä havaitsemattomaksi. Tässäkin tapauksessa sen laajuus pitäisi jälkikäteen arvioida ja vastaavasti sen vaikutukset itse tuloksiin. Jos kaikkia tiedusteluun valittuja ei tavoiteta, eikä muuta ulkopuolista tietoa ole käytettävissä, jääkin epäselväksi ovatko nämä tapaukset ylipeittoa vai vastauskatoa.
17.9.2009 SurveyMetodiikka 2009 Seppo 39
Surveyaineiston Peruskäsitteistö 6
Tavoite-perusjoukko
Kehikko-perusjoukko
Ali-peitto
Yli-peitto
Kehikko- ja tavoiteperusjoukko sekä otos
Otos
Tästä puuttuu kiinnostusperusjoukko, jonka koko voi olla isompi kuin mikään yllä olevista tai suppeampi.
17.9.2009 SurveyMetodiikka 2009 Seppo 40
Surveyaineiston Peruskäsitteistö 7
Edellä survey oli yksitasoinen. Jos tiedustelu on useampitasoinen eli tutkimusyksiköitä on hierarkkisesti useampia, voi hyvinkin olla niin, että vastaus saadaan ylemmältä tasolta, esimerkiksi perheen tai palvelusyksikön tasolta, mutta yksi tai useampi vastaus jää puuttumaan seuraavaksi alemmalta tasolta, esimerkiksi koskien perheen jäseniä tai palveluyksikön työntekijöitä tai asiakkaita. Vastaavasti voidaan puhua ensimmäisen ja toisen asteen tai tason vastauskadosta.
Vielä erityisempi on tilanne jos vastauskadon tarkemmaksi tutkimiseksi on päätetty ottaa (osa)otos vastaamattomista ja tiedustella näiltä joitakin avainkysymyksiä tai kenties koko lomakkeisto mutta käyttäen parempaa tiedustelumenetelmää kuin aikaisemmassa vaiheessa (esim. jos perustiedustelu on postitiedustelu, tämä erityistiedustelu voidaan hoitaa käyntihaastatteluin). Tällöin on kyseessä kaksivaiheinen surveytutkimus.
Kaksivaiheinen tutkimus voidaan tehdä myös muista syistä, esimerkiksi tekemällä suppea tiedustelu isolle joukolle ja samalla kartoittaa ilmiötä karkeasti, ja toisessa vaiheessa laajempi tiedustelu suppealle joukolle, jonka otos voi olla kohdennettu tutkimuksen päätavoitteiden mukaan.
17.9.2009 SurveyMetodiikka 2009 Seppo 41
Otospohjaisen surveyaineiston kuvaus 1
Esitän kuviosarjan, joka havainnollistaa poikkileikkausaineistoa, ns.mikrotiedostoa eli poimintatason yksiköihin perustuvaa tiedostoa. Tämätiedosto tai havaintomatriisi on myös vain yksitasoinen eli tältäkin osinyksinkertaistettu. Mittasuhteet eivät vastaa todellisuutta esimerkiksi siinämielessä, että poimittu otos olisi kuvion mukaisen suuri. Tämä kuvasarjaon tietynlainen yhteenveto käsitteistä joita datan luomisessa japuhdistamisessa tarvitaan. Tarkempi kuvaus useimmista niistä tuleekuitenkin esille vasta kurssin muissa osissa. Katso siinä vaiheessa ainavälillä näitä kohtia.
17.9.2009 SurveyMetodiikka 2009 Seppo 42
Otospohjaisen surveyaineiston kuvaus 2
Aloitan yksinkertaisimmasta mahdollisesta tiedostotyypistä, jossa on
onnistuttu keräämään koko perusjoukon tiedot kaikille muuttujille.
Mahdollisesti on myös muista lähteistä kerätty lisämuuttujia X.
YKSIKKÖ
Nimi
Yhteystiedot
MUISTIO
16.1.2007
1(1)
Tilasto-yk-
köt
1
i
N
Tunnistimet- poikittainen- pitkittäinen- suojattu
X -MuuttujatMuualtakerätytmuuttujat
Y -Muuttujat (tulosmuuttujat) Monia tyyppejä ml.
- erot skaalauksessa
- avainmuuttujat ja muut
Tilastollisen poikkileikkausmikrotiedoston yleinen hahmo
Symbolit: N = perusjoukon koko
Esimerkiksi:väestö rekisteristä heinäkuun lopussa. Lisämuuttuja koulutus poimittututkintorekisteristä ja verorekisteristäverotettu tulo.
17.9.2009 SurveyMetodiikka 2009 Seppo 43
Otospohjaisen surveyaineiston kuvaus 3
Jos kuitenkin on toteutettu otossurvey (joistakin osista voi olla otettu kaikkikin
mukaan) ja vastausten saamisen jälkeen on vastanneet ja ylipeitto määritelty,
saadaan seuraavan kaavion mukainen tiedosto. Tähän on luotu käytettyyn
otanta-asetelmaan perustuva ns. asetelmapaino brutto-otokselle.
Tilasto-yk-
köt
-n(D)
-N(D)
1
i
r
n
N
Tunnistimet- poikittainen- pitkittäinen- suojattu
X -Muuttujat-otoksen poimintaan
- muutulkoisetapu-muuttujat
Y -Muuttujat (tulosmuuttujat)Monia tyyppejä ml.
- erot skaalauksessa
- avainmuuttujat ja muut
Otos- ja muutPainot
- asetelmapaino
Kehikko-
Ylipeitto Otosylipeitto
Yksikkövastauskato
Ei sisällytetty otossurveyhin
Tilastollisen poikkileikkausmikrotiedoston yleinen hahmo
Symbolit:r = vastaajien määrä; N(D) ja n(D) = ylipeiton suuruus kehikossa ja poimitussa otoksessa
n = lopullinen hyväksytty otoskoko (ilman ylipeittoa),
17.9.2009 SurveyMetodiikka 2009 Seppo 44
Otospohjaisen surveyaineiston kuvaus 4
Tämän jälkeen aineistoa tutkitaan lisää ja muun muassa määritellään
erävastauskato sekä pyritään löytämään tilastollisella editoinnilla virheet.
Lisäksi vastaajille lasketaan ns. peruspaino, jossa on otanta-asetelman
lisäksi huomioitu puuttuvuus eli ylipeitto, vastauskato ja muu puuttuvuus.
Tilasto-yk-
köt
-n(D)
-N(D)
1
i
r
n
N
Tunnistimet- poikittainen- pitkittäinen- suojattu
X -Muuttujat-otoksen poimintaan
- muutulkoisetapu-muuttujat
Y -Muuttujat (tulosmuuttujat)Monia tyyppejä ml. - erot skaalauksessa- avainmuuttujat ja muut
Otos- ja muutPainot
- asetelmapaino- peruspaino
Kehikko-
Ylipeitto Otosylipeitto
Erä-
Yksikkövastauskato
Ei sisällytetty otossurveyhin
Tilastollisen poikkileikkausmikrotiedoston yleinen hahmo
vastauskato
Virheitä löydetty
17.9.2009 SurveyMetodiikka 2009 Seppo 45
Otospohjaisen surveyaineiston kuvaus 5Tässä vaiheessa on kehikkoperusjoukko päivitetty ja joitakin tietojakin
alipeitosta saatu kasaan. Tämä ei ole ehkä kovin realistinen mutta ainakin
on hahmotettu alipeiton suuruutta jossain määrin. Samaan aikaan on tehty
kaikki voitava virheiden poistamiseksi sekä erävastauskadon ja muun
puuttuvuuden imputoimiseksi ja lisäksi on luotu aikaisempaa paremmat
otospainot, joita kutsutaan adjustoiduiksi painoiksi.
Tilasto-yk-
köt
-n(D)
-N(D)
1
i
r
n
N(real)
N(true)
Tunnistimet- poikittainen
- pitkittäinen
- suojattu
X -Muuttujat-otoksen
poimintaan
- muut
ulkoiset
apu-
muuttujat
Y -Muuttujat (tulosmuuttujat)Monia tyyppejä ml.
- erot skaalauksessa
- avainmuuttujat ja muut
- lippumuuttujat (luonne, imputoitu,
tietosuojattu, alustava, lopullinen,...)
Otos- ja muutPainot
- asetelmapaino
- peruspaino
- adjustoitu paino
- vertailupainoKehikko-
Ylipeitto Otosylipeitto
Impu-
Yksikkövastauskato
Alipeitto
Ei sisällytetty otossurveyhin
Tilastollisen poikkileikkausmikrotiedoston yleinen hahmo
Symbolit:r = vastaajien määrä; N(D) ja n(D) = ylipeiton suuruus kehikossa ja poimitussa otoksessa
n = lopullinen hyväksytty otoskoko (ilman ylipeittoa), N = perusjoukon koko (true = tavoiteperusjoukolle,
real = kehikkoperusjoukolle);
toituja
17.9.2009 SurveyMetodiikka 2009 Seppo 46
Otospohjaisen surveyaineiston kuvaus 6
Tiedostoa voidaan laajentaa erityistilanteisiin, kuten jos- on poimittu otos vastaamattomista laadun tutkimiseksi ja painotuksen parantamiseksi- jos otos on jaettu osiin, kuten uhritutkimuksessa jossa on kolme otosta eli puhelin-, käynti- ja nettikysely- jos on toteutettu kaksivaiheinen kysely vaikkapa siten että vastanneilta on toisessa vaiheessa kyselty uusia asioita.
Kokeile muodostaa kuvio jostakin tällaisesta tilanteesta.
Seuraavalla sivulla on uusin kehitelmäni ihanteellisesta tiedostosta jossa eivät ole mukana Y-muuttujat (mutta ne siis liitetään tähän aineistoon)
eivätkä painot. Tätä kutsun otantatiedostoksi. Esimerkki on höystetty
konkreettisilla muuttujilla.
Käyttötiedostona edellinen tai sen muunnelma ei ole paras mutta toki voidaan tuotakin käyttää. Mikä olisi sopiva käyttötiedosto?
SurveyMetodiikka 2009 Seppo
Exemplary sampling data SAS file for a survey of peoples
Identity Sampling design variables Fieldwork Other Auxiliary variables
Mode and outcome External Internal
47
17.9.2009 SurveyMetodiikka 2009 Seppo 48
Käsitteiden lisätarkasteluja 1
Tunnisteet:Perustunnus (henkilötunnus, yritystunnus, organisaatiotunnus, kuntatunnus), jota käytetään tiedonkeruussa, on joskus herkkä tieto eikä sitä anneta kenelle tahansa. Sen vuoksi voidaan muodostaa uusi, tietosuojattu tunnus, esimerkiksi sopivan satunnaisprosessin kautta.Pitkittäis- ja paneliaineistoissa tarvitaan myös pitkittäistunnus (ellei aikaisempi tunnus riitä), mikä on erityisesti yritys- ja muiden ryväsyksiköiden yhteydessä hyvinkin hankala eikä yksikäsitteinen.
Varsinaisia muuttujia tilastoaineistossa on kahta tyyppiä, ns. X-muuttujia eli apu- tai lisämuuttujia ja Y-muuttujia eli tulos- tai tutkimusmuuttujia Toki X-muuttujiakin voi käyttää tulosmuuttujina. Y-muuttujien erikoistapauksina ovat kuviossa ns. lippumuuttujat joilla kerrotaan aineiston ja eri muuttujien ominaisuuksista, jolleivät ne muuten ilmene valistuneelle lukijalle. Esimerkiksi, että arvo on imputoitu, epävarma, korjattu, ennustettu tai karkea arvio.
17.9.2009 SurveyMetodiikka 2009 Seppo 49
Käsitteiden lisätarkasteluja 2
Painomuuttujien osasto, joiden rakentamisen vaihe (tavallisin) esitettiin edellä olevissa kuvioissa. Tätä ei tarvita jos koko perusjoukko on mukana aineistossa (tai voidaan ajatella että painot ovat =1). Painomuuttuja on tietysti välttämätön kaikissa otossurveyssä, jossa tapauksessa voidaan muodostaa aineistoon yksi tai useampia (huonompia ja parempia) ns. otospainoja. Niitä käytetään kaikessa analyysissä.
Kehikkotietoja käyttäen luodaan ensimmäinen otospaino, asetelmapaino, mitä voi käyttää estimoitaessa brutto-otoksen tietoja eli X-muuttujia. Kun aineisto saadaan koottua, on mahdollista luoda ensiksi otanta-asetelman ja saatuun aineistoon perustuva uusi paino, jota kutsun peruspainoksi tai perusotospainoksi, mitä käytetään estimoitaessa vastaajien tiedoista. Jos on käytettävissä muutakin tietoa kuin alkuperäisen kehikon tiedot (katso esittämääni huipputason tiedostoa otantatiedostosta), niin mahdollista luoda parempia, oikaistuja tai adjustoituja otospainoja. Toki näin tulisi aina tehdäkin vaikkei niiden vaikutus tuloksiin olisikaan olennainen.
17.9.2009 SurveyMetodiikka 2009 Seppo 50
Käsitteiden lisätarkasteluja 3
Aineisto on jokseenkin hyödytön ilman pätevää metadataa ja sen hyötyä lisää myös hyvä paradata.
Metadata (lippumuuttujat oli jo edellä esimerkki tästä) kertoo mitä data on, kattaen tiedon kaikista datan keruuvaiheista (lomake, sen laatutestaukset, otanta, aineiston muokkaus jne.) siihen miten muuttujat on nimetty ja koodattu.
Paradata antaa lisätietoa esimerkiksi aineiston keruusta, kuten tietoa haastattelijasta, haastattelun ajasta ja kestosta ja haastattelijan merkinnöistä haastattelusta. Tätä voi myös analysoida. Katso ESS:n tiedostosta minkälaista paradataa sieltä löytyy. Samalla katso myös sen metadatan piirteet. Ja arvioi niiden laatua. Omasta mielestäni laatu on korkea.
Hyvin toteutetuissa surveyssä on lisäksi taustadataa, koskien esimerkiksi surveyn kenttätyöajan tapahtumia tai ilmapiiriä, jopa sääoloja.
17.9.2009 SurveyMetodiikka 2009 Seppo 51
Mil
tä s
ur
ve
yn
äk
ym
ät
va
iku
tta
va
t a
lun
ja
k
äs
ite
os
an
jä
lke
en
?
17.9.2009 SurveyMetodiikka 2009 Seppo 52
Tehtäväosio edeltävästä aineistosta:
Tehdään ohjatusti harjoituksissa mutta voit tehdä omissa oloissasi missä tapauksessa toimitat vastauksesi sähköpostilla.
Kurssin nettisivulla on kaksi Irakin kuolleisuustutkimuksen dataa sekä osa Suomen PISA 2006 dataa.
(i) Selosta kaikkien datojen muuttujien luonne edellä esitetyillä käsitteillä.
(ii) Minkälaisia parannuksia ehdottaisit datojen kuvaukseen?
(iii) Tutki ESS4:n lomaketta (hae netistä) ja etsi sieltä ainakin neljä kiinnostavaa kysymystä siten että kiinnostus on määritelty kysymyksen muotoilun ja/tai aiheen mukaan. Kiinnostavista aiheista ajetaan kun data tulevat syyskuun lopulla tuloksia.
17.9.2009 SurveyMetodiikka 2009 Seppo 53
Käsitteiden lisätarkasteluja: Paneliaineisto 1
(i) Retrospektiivinen tutkimus (paneli)Tässä aineisto tuotetaan jälkikäteen kysymällä tietoja vastaajienmenneestä historiasta, yleensä määrävälein kuten vuosittain.Ongelmana on muun muassa muistin pettäminen, josta syystämenneitä muistoja voidaan ’kullata’ tai päinvastoin ’mustamaalata.’Retrospektiivinen näkökulma on kuitenkin erittäin yleinen, koskasurveyllä on käyttökelpoista kysellä edeltävistä ajoista. Esimerkiksiuhritutkimuksissa kysytään uhriksi joutumisesta hyvinkin erilaisillataaksepäin suuntautuvilla ajanjaksoilla. Joissain muissa kysytään vainyhdeltä periodilta, kuten viikolta, kuukaudelta, vuodelta.Kysymyslomakkeiden suunnittelijan olisi hyvä löytää mahdollisimmanoikean pituinen edeltävä periodi (viiteaikaväli) siten, että estimaattiitse olisi luotettava ja että muistivirhe olisi mahdollisimman pieni.
17.9.2009 SurveyMetodiikka 2009 Seppo 54
Käsitteiden lisätarkasteluja: Paneliaineisto 2
Vaikka retrospektiivisen tutkimusasetelman viiteaikavälitonnistuttaisiinkin saamaan hyviksi tai vaikka vieläpä tutkimuskäyttäisi faktatietoa esimerkiksi rekistereistä, tämä lähestymistapa eiole ongelmaton. Syynä on, että alkuperusjoukko voi olla harhainentutkimusasetelman kannalta, sillä retrospektiivisessa tutkimuksessa onmyös aineisto harhautunut, koska se kerätään joukosta jotka ovateräänä ajankohtana käytettävissä. Siten kiinnostavia ja ilmiön kannaltatärkeitä yksiköitä voi olla mukana ’epäedustavasti.’
(ii) Prospektiivinen eli eteenpäin suuntautuva paneli eli seurantatutkimus
• Puhdas tai jatkuva paneli tai kohorttitutkimus, jolloin tiettyä aluksi
valittua joukkoa seurataan tietty aika. Aineisto yleensä supistuu joko ylipeiton (panelikuoleman) tai vastauskadon johdosta. Tämä johtaa sitä jännittävämpiin tilanteisiin mitä monimutkaisempi on tutkittava ja seurattava yksikkö.
17.9.2009 SurveyMetodiikka 2009 Seppo 55
Käsitteiden lisätarkasteluja: Paneliaineisto 2
• Rotatoiva paneli, jolloin aineistoa täydennetään määrävälein ja osa
alkuperäisistä vapautetaan. Tämän strategian tarkoitus on ettäaineistosta voitaisiin kohtuullisesti estimoida sekä poikkileikkaus- ettämuutostietoja.
• Edellisten sekoitus (sekapaneli), jolloin toisaalta seurataan tiettyä
joukkoa ja toisaalta poimitaan riippumaton rinnakkaisaineisto, jolloinjälkimmäisestä saadaan poikkileikkaustiedot luotettavasti ja edellisestämuutostiedot. Kaikista näistä voidaan muodostaa tasapainotettupaneli, jolloin mukaan hyväksytään vain ne joista on tietoja jokaiseltaajankohdalta. Vastaavasti muut panelit ovat tasapainottamattomia.
17.9.2009 SurveyMetodiikka 2009 Seppo 56
Nämä kuvaavatpaneleja.
Selosta minkälaisia.