Upload
gazit
View
46
Download
0
Embed Size (px)
DESCRIPTION
Luento 4: Regressioanalyysi. Petri Nokelainen. [email protected] http://www.uta.fi/~petri.nokelainen. Kasvatustieteiden yksikkö Tampereen yliopisto. Sisältö. 1. General Linear Model (GLM) 1.1 Korrelaatio 2. Regressioanalyysi 2.1 Regressioanalyysin historia - PowerPoint PPT Presentation
Citation preview
Luento 4: Regressioanalyysi
Petri Nokelainen
Kasvatustieteiden yksikköTampereen yliopisto
[email protected]://www.uta.fi/~petri.nokelainen
Sisältö1. General Linear Model (GLM)
1.1 Korrelaatio
2. Regressioanalyysi 2.1 Regressioanalyysin historia 2.2 Regressioanalyysin lajit 2.3 Regressioanalyysin käyttötapoja 2.4 Regressioanalyysin rajoituksia 2.5 Regressioanalyysin vaiheet
3. Kahden muuttujan regressioanalyysi4. Useamman muuttujan regressioanalyysi
4.1 Hierarkkinen regressioanalyysi4.2 Askeltava regressioanalyysi
5. Kanoninen korrelaatioLähteet
1. General Linear Model (GLM)
ezz xy (3.2)
k
ixiy ezzi
1
(3.3)
k
ixim
p
iyjm ezz
imjm11
(3.4)
Pearsonin tulomomenttikorrelaatiokerroin (r) 1, jatkuva 1, jatkuva
X (IV) Y (DV)
Monimuuttujaregressioanalyysi (Multivariate RA) n, jatkuva n, jatkuvaMonimuuttujavarianssianalyysi (MANOVA) n, epäjatkuva n, jatkuvaErotteluanalyysi (LDA) n, jatkuva n, epäjatkuvaFaktorianalyysi (EFA) n, latentti n, jatkuvaPääkomponenttianalyysi (PCA) n, latentti n, jatkuva
Regressioanalyysi (Multiple RA) n, jatkuva 1, jatkuvaVarianssianalyysi (n-way ANOVA) n, epäjatkuva 1, jatkuvaKahden ryhmän erotteluanalyysi (Two-group LDA) n, jatkuva 1, dikotominen
(Nokelainen, 2008.)
1 jatkuva
n jatkuvaa
Joitakin Seq. Multiple R
1 jatkuva
DV IV Kovariaatit Analyysi
Ei Multiple R
Bivariate r
Ei yhtään n-way Freq. Anal.n diskr.
n jatkuvaa Canonical Rn jatkuvaa
1 diskr. Multilevel modelingn jatkuvaatai diskr.
Muuttujienvälisten
riippuvuuksienvoimakkuus
Muuttujienvälisten
riippuvuuksienvoimakkuus
1.1 Korrelaatio
IV 1 DV
ezz xy (3.2)
Sisältö1. General Linear Model (GLM)
1.1 Korrelaatio
2. Regressioanalyysi 2.1 Regressioanalyysin historia 2.2 Regressioanalyysin lajit 2.3 Regressioanalyysin käyttötapoja 2.4 Regressioanalyysin rajoituksia 2.5 Regressioanalyysin vaiheet
3. Kahden muuttujan regressioanalyysi4. Useamman muuttujan regressioanalyysi
4.1 Hierarkkinen regressioanalyysi4.2 Askeltava regressioanalyysi
5. Kanoninen korrelaatioLähteet
2. Regressioanalyysi
ezz xy (3.2)
k
ixiy ezzi
1
(3.3)
k
ixim
p
iyjm ezz
imjm11
(3.4)
Pearsonin tulomomenttikorrelaatiokerroin (r) 1, jatkuva 1, jatkuva
X (IV) Y (DV)
Monimuuttujaregressioanalyysi (Multivariate RA) n, jatkuva n, jatkuvaMonimuuttujavarianssianalyysi (MANOVA) n, epäjatkuva n, jatkuvaErotteluanalyysi (LDA) n, jatkuva n, epäjatkuvaFaktorianalyysi (EFA) n, latentti n, jatkuvaPääkomponenttianalyysi (PCA) n, latentti n, jatkuva
Regressioanalyysi (Multiple RA) n, jatkuva 1, jatkuvaVarianssianalyysi (n-way ANOVA) n, epäjatkuva 1, jatkuvaKahden ryhmän erotteluanalyysi (Two-group LDA) n, jatkuva 1, dikotominen
(Nokelainen, 2008.)
1 jatkuva
n jatkuvaa
Joitakin Seq. Multiple R
1 jatkuva
DV IV Kovariaatit Analyysi
Ei Multiple R
Bivariate r
Ei yhtään n-way Freq. Anal.n diskr.
n jatkuvaa Canonical Rn jatkuvaa
1 diskr. Multilevel modelingn jatkuvaatai diskr.
Muuttujienvälisten
riippuvuuksienvoimakkuus
Muuttujienvälisten
riippuvuuksienvoimakkuus
2. Regressioanalyysi
IV 1
IV 2
IV 3
IV 4
DVr
k
ixiy ezzi
1
(3.3)
2. Regressioanalyysi
”…regression analysis is a method of analyzing the variability of a dependent variable by resorting to information available on one or more independent variables.”
(Pedhazur, 1982, 5)
2. Regressioanalyysi
• Tarkastelee muuttujien välistä lineaarista yhteyttä, ts. ilmoittaa korrelaatiokertoimen tavoin kahden muuttujan välisen vaikutussuhteen voimakkuuden (-1, …, 1).
• Mahdollistaa lisäksi DV -muuttujan arvojen ennustamisen IV –muuttujan (tai muuttujien) arvojen perusteella.
Sisältö1. General Linear Model (GLM)
1.1 Korrelaatio
2. Regressioanalyysi 2.1 Regressioanalyysin historia 2.2 Regressioanalyysin lajit 2.3 Regressioanalyysin käyttötapoja 2.4 Regressioanalyysin rajoituksia 2.5 Regressioanalyysin vaiheet
3. Kahden muuttujan regressioanalyysi4. Useamman muuttujan regressioanalyysi
4.1 Hierarkkinen regressioanalyysi4.2 Askeltava regressioanalyysi
5. Kanoninen korrelaatioLähteet
2.1 Regressioanalyysin historia
• Perustuu Galtonin (1885) havaintoihin: – Pitkien isien pojista ei keskimäärin
tullutkaan yhtä pitkiä kuin isistään, lyhyiden isien pojista tulikin keskimäärin pidempiä kuin isistään.
– Poikien keskipituus lähestyi keskipituutta.
Sir Francis Galton1822-1911
2.1 Regressioanalyysin historia
• Regressioanalyysi on yksi kasvatustieteiden käytetyimmistä menetelmistä, mutta usein unohdetaan että sen tulisi perustua vahvalle teoreettiselle pohjalle.
Sisältö1. General Linear Model (GLM)
1.1 Korrelaatio
2. Regressioanalyysi 2.1 Regressioanalyysin historia 2.2 Regressioanalyysin lajit 2.3 Regressioanalyysin käyttötapoja 2.4 Regressioanalyysin rajoituksia 2.5 Regressioanalyysin vaiheet
3. Kahden muuttujan regressioanalyysi4. Useamman muuttujan regressioanalyysi
4.1 Hierarkkinen regressioanalyysi4.2 Askeltava regressioanalyysi
5. Kanoninen korrelaatioLähteet
2.2 Regressioanalyysin lajit
• Yhden tai useamman ennustemuuttujan (IV) regressioanalyysi
• Monimuuttujaregressioanalyysi (Multivariate regression analysis)(ks. lisää esim. Nummenmaa et al., 1997, 307-326; Kerlinger, 1986, 527-561).
• Hierarkkinen regressioanalyysi– Hierarchical/sequential multiple regression
(Pedhazur, 1982; Tabachnick & Fidell, 2007)
• Askeltava regressioanalyysi– Stepwise multiple regression (Pedhazur, 1982;
Tabachnick & Fidell, 2007)
• Kanoninen korrelaatio– Canonical correlation (Kerlinger, 1986, 561-568)
• Logistinen regressioanalyysi– Logistic regression analysis– Poistaa lineaarisen regressioanalyysin vaatimuksen
selitettävän muuttujan jatkuvuudesta, ks. esimerkki dokumentista ”6.1 Logistinen regressio” (FSD)
– Multiway frequency analysis (Nummenmaa et al., 1997, 127-147)
2.2 Regressioanalyysin lajit
A
B
C
A Standardi RB Hierarkkinen RC Askeltava R
IV1
IV2
IV3
Sisältö1. General Linear Model (GLM)
1.1 Korrelaatio
2. Regressioanalyysi 2.1 Regressioanalyysin historia 2.2 Regressioanalyysin lajit 2.3 Regressioanalyysin käyttötapoja 2.4 Regressioanalyysin rajoituksia 2.5 Regressioanalyysin vaiheet
3. Kahden muuttujan regressioanalyysi4. Useamman muuttujan regressioanalyysi
4.1 Hierarkkinen regressioanalyysi4.2 Askeltava regressioanalyysi
5. Kanoninen korrelaatioLähteet
• Käyttötapoja:– Selittävien (IV) muuttujien etsiminen
• Opiskelumenestyksen selittäminen motivaation ja oppimisstrategioiden avulla.
– Selittävien (IV) muuttujien selitysosuuden tutkiminen
• Kuinka suuri vaikutus varhaisessa vaiheessa tapahtuneella erityisluokalle siirrolla on erityisoppilaan koulumenestykseen.
– Selittävien (IV) muuttujien keskinäisen selitysosuuden vertailu eli mitkä muuttujat ovat toisia parempia tietyn Ilmiön selittäjinä.
– Selitettävän (DV) muuttujan ennustaminen.
2.3 Regressioanalyysin käyttötapoja
Sisältö1. General Linear Model (GLM)
1.1 Korrelaatio
2. Regressioanalyysi 2.1 Regressioanalyysin historia 2.2 Regressioanalyysin lajit 2.3 Regressioanalyysin käyttötapoja 2.4 Regressioanalyysin rajoituksia 2.5 Regressioanalyysin vaiheet
3. Kahden muuttujan regressioanalyysi4. Useamman muuttujan regressioanalyysi
4.1 Hierarkkinen regressioanalyysi4.2 Askeltava regressioanalyysi
5. Kanoninen korrelaatioLähteet
• Yleisiä rajoituksia– Regressioanalyysin avulla löydetyt
vaikutussuhteet eivät välttämättä ole kausaalisia. • Kausaalisuuden määrittely on looginen ja
koeasetelmallinen ongelma (Pearl, 2000).
– Analyysiin mukaan otettujen DV ja IV muuttujien valinnan tulee olla teoreettisesti, loogisesti tms. perusteltavissa.
2.4 Regressioanalyysin rajoituksia
• Teknisiä rajoituksia– Otoskoko (esim. viisi IV muuttujaa)
• Greenin (1991) mukaan – N > 50+8m (useita IV muuttujia), esim. N = 50+8*5 = 90– N > 104 + m (yksi IV), esim. N = 104 + 5 = 109
• Stevensin (1996) mukaan – N = 15m (kaikissa tapauksissa), esim. 15*5 = 75
– IV muuttujien väliset suhteet• Multikollineaarisuutta (korkeita r = +/- .9 korrelaatioita)
ei saa esiintyä.• Singulaarisuutta (muuttuja on toisen/toisten
kombinaatio, esim. kolmen testin yksittäiset pistemäärät ja niiden summamuuttuja) ei saa esiintyä.
2.4 Regressioanalyysin rajoituksia
• Teknisiä rajoituksia– Poikkeavat arvot (outlier) tulisi poistaa, korvata
uudella arvolla (rescore) tai muuntaa (transform).• X Y –muuttujien kuvaajien tarkastelu!
– Regressioanalyysiohjelmissa (SAS, BMDP, SPSS) poikkeavien arvojen vaikutusta tutkitaan seuraavilla mittaluvuilla:
• Leverage (l) arvioi poikkeavia arvoja IV muuttujien joukossa
– Korkeat arvot ovat “kaukana” toisista• Discrepancy (d) arvioi sitä kuinka tapaus on linjassa
muiden kanssa.• Influency (l) = l * d.
2.4 Regressioanalyysin rajoituksia
2.4 Regressioanalyysin rajoituksia
Korkea lMatala dKohtuullinen i
Korkea lKorkea dKorkea i
Matala lKorkea dKohtuullinen i
(Tabachnik & Fidell, 1996, 135.)
• Residuaalien (havaitun ja ennustetun DV arvon välinen erotus, regressioyhtälön virhetermi tai jäännöstermi, ) – Normaalisuus
• Residuaalien (ennustevirheiden) tulisi olla normaalisti jakautuneita
– Lineaarisuus• Residuaalien ja ennustettujen DV arvojen välillä tulisi olla
lineaarinen suhde
– Homoskedastisuus• DV muuttujien residuaalien varianssien tulisi olla yhtä
suuria.
– Riippumattomuus• Residuaalien tulisi olla toisistaan riippumattomia.
2.4 Regressioanalyysin rajoituksia
– A) Normaalisuus ei toteudu
– B) Lineaarisuus ei toteudu
– C) Homoskedastisuus ei toteudu
2.4 Regressioanalyysin rajoituksia
0 0
0 0
A
CB
Sisältö1. General Linear Model (GLM)
1.1 Korrelaatio
2. Regressioanalyysi 2.1 Regressioanalyysin historia 2.2 Regressioanalyysin lajit 2.3 Regressioanalyysin käyttötapoja 2.4 Regressioanalyysin rajoituksia 2.5 Regressioanalyysin vaiheet
3. Kahden muuttujan regressioanalyysi4. Useamman muuttujan regressioanalyysi
4.1 Hierarkkinen regressioanalyysi4.2 Askeltava regressioanalyysi
5. Kanoninen korrelaatioLähteet
• Regressioanalyysin vaiheet:– Muuttujien valinta (DV, IV)
• Paitsi jos käytetään “Enter” -menetelmää
– Analyysi– Mallille tehtävät diagnostiset tarkastelut
2.5 Regressioanalyysin vaiheet
Sisältö1. General Linear Model (GLM)
1.1 Korrelaatio
2. Regressioanalyysi 2.1 Regressioanalyysin historia 2.2 Regressioanalyysin lajit 2.3 Regressioanalyysin käyttötapoja 2.4 Regressioanalyysin rajoituksia 2.5 Regressioanalyysin vaiheet
3. Kahden muuttujan regressioanalyysi4. Useamman muuttujan regressioanalyysi
4.1 Hierarkkinen regressioanalyysi4.2 Askeltava regressioanalyysi
5. Kanoninen korrelaatioLähteet
1 jatkuva
n jatkuvaa
Joitakin Seq. Multiple R
1 jatkuva
DV IV Kovariaatit Analyysi
Ei Multiple R
Bivariate r
Ei yhtään n-way Freq. Anal.n diskr.
n jatkuvaa Canonical Rn jatkuvaa
1 diskr. Multilevel modelingn jatkuvaatai diskr.
Muuttujienvälisten
riippuvuuksienvoimakkuus
Muuttujienvälisten
riippuvuuksienvoimakkuus
• Kahden muuttujan regressioanalyysi– Määritellään kahden, riippuvan (DV) ja
riippumattoman (IV) muuttujan välinen yhtälö. • Esim. ennustetaan akateemista tuottavuutta (DV)
kognitiivisten oppimistuotosten, esim. GPA, avulla (IV).
– Jokaiselle yhtälössä olevalle riippumattomalle muuttujalle annetaan painokerroin (), jotka yhdessä muodostavat ns. Beta –vektorin (B).
– Selitettävän muuttujan arvo saadaan kun selittävät muuttujat lasketaan yhteen painokertoimilla painotettuna ja summaan lisätään vakio.
• Mallissa on aina mukana virhettä, jota kuvataan
jäännöstermin, residuaalin, () avulla.
3. Kahden muuttujan regressioanalyysi
• Yksinkertaisessa kahden muuttujan välisessä regressiossa määritetään lineaarinen yhtälö joka kuvaa riippuvan (Y) ja riippumattoman (X) muuttujan välistä suhdetta:y = 0 + x + y = riippuva muuttuja0 = leikkauskohta (intercept, constant)
= regressioparametri (slope), kuvaa Y –muuttujan ennustettua arvon muutosta kun X –muuttujan arvo kasvaa yhden yksikön
x = riippumaton muuttuja = jäännöstermi
3. Kahden muuttujan regressioanalyysi
y
x
yi = 0 + xi + ei
yi
yj,
3. Kahden muuttujan regressioanalyysi
• Mallin (regressioyhtälö) ”hyvyyden” mittana käytetään selitettävän (DV, Y) ja selittävien (IV, X) muuttujien välistä korrelaatiota R.
• H0 = DV ja IV muuttujien välillä ei ole korrelaatiota (yksikin regressiokerroin saa arvon 0).– Suurella otoskoolla nollahypoteesi tulee siis
lähes varmasti hylätyksi.
3. Kahden muuttujan regressioanalyysi
3. Kahden muuttujan regressioanalyysi
• R2 on mallin selitysaste– Kuinka monta prosenttia malli (siis
ennustemuuttuja eli IV) pystyy selittämään riippuvan muuttujan (DV) vaihtelusta.
– SPSS laskee kaksi selitysastetta, joista tieteellisissä raporteissa käytetään konservatiivisempaa (”Adjusted R2”).
– Selitysasteen (R2) perusteella voidaan tehdä päätelmiä efektikoosta:
3. Kahden muuttujan regressioanalyysi
3. Kahden muuttujan regressioanalyysi
3. Kahden muuttujan regressioanalyysi
Sisältö1. General Linear Model (GLM)
1.1 Korrelaatio
2. Regressioanalyysi 2.1 Regressioanalyysin historia 2.2 Regressioanalyysin lajit 2.3 Regressioanalyysin käyttötapoja 2.4 Regressioanalyysin rajoituksia 2.5 Regressioanalyysin vaiheet
3. Kahden muuttujan regressioanalyysi4. Useamman muuttujan regressioanalyysi
4.1 Hierarkkinen regressioanalyysi4.2 Askeltava regressioanalyysi
5. Kanoninen korrelaatioLähteet
1 jatkuva
n jatkuvaa
Joitakin Seq. Multiple R
1 jatkuva
DV IV Kovariaatit Analyysi
Ei Multiple R
Bivariate r
Ei yhtään n-way Freq. Anal.n diskr.
n jatkuvaa Canonical Rn jatkuvaa
1 diskr. Multilevel modelingn jatkuvaatai diskr.
Muuttujienvälisten
riippuvuuksienvoimakkuus
Muuttujienvälisten
riippuvuuksienvoimakkuus
• Määritellään yhden riippuvan (DV) ja usean riippumattoman (IV) muuttujan välisiä yhtälöitä.– Esim. ennustetaan työssä koettua stressiä (DV)
esimiehen johtamisominaisuuksien (IV1) ja ryhmän toimintakyvyn perusteella (IV2).
• Kaikki riippumattomat muuttujat analysoidaan (“Enter” –menetelmä), niitä ei valita tai aseteta järjestykseen.
4. Useamman muuttujan regressioanalyysi
• Usean muuttujan lineaarisessa regressiossa määritetään lineaarinen yhtälö joka kuvaa yhden riippuvan ja usean riippumattoman muuttujan välistä suhdetta:y = 0 + 1x1 + 2x2 + ... + nxn + y = riippuva muuttuja
0 = vakio (constant)
1…n = regressioparametreja
x1…n = riippumattomia muuttujia
= virhetermi
4. Useamman muuttujan regressioanalyysi
y
x
yi = 0 + 1ix1i + 2ix2i + ... + nixni +
ei
yi
yj,
4. Useamman muuttujan regressioanalyysi
Knowledge
Value
Satisfaction
Performance
(Warren, White, & Fuller, 1974.)
4. Useamman muuttujan regressioanalyysi
WorldSkills kilpailumenestys
WorldSkills kilpailumenestys
4. Useamman muuttujan regressioanalyysi
Yläasteen opintomenestysYläasteen opintomenestys
Ammatillisten opintojen menestys
Ammatillisten opintojen menestys
KontrolliuskomuksetKontrolliuskomukset
Näyttötilanteiden jännittäminen
Näyttötilanteiden jännittäminen
Tekemällä oppiminenTekemällä oppiminen
Ulkoinen tavoiteorientaatioUlkoinen tavoiteorientaatio
N=64
4. Useamman muuttujan regressioanalyysi
• Regressioanalyysin suorittaminen PASW/SPSS -ohjelmassa– Analyze – Regression - Linear
• Dependent: kilpailumenestys (alle 23-vuotiaiden menestyminen WSC –kilpailuissa, luokiteltu 3 luokkaan: 1 = heikko, 2 = keskitasoinen, 3 = paras).
• Independent(s): str_3 (Learning by Doing, asteikko 1 = täysin eri mieltä .. 5 = täysin samaa mieltä), mot_2 (Extrinsic Goal Orientation), mot_4 (Control Beliefs), mot_6 (Test Anxiety), ammatopmenestys (menestyminen ammatillisissa opinnoissa), ya_ka (yläasteen päästötodistuksen keskiarvo).
• Statistics: Estimates, Confidence intervals (95%), Model fit, Collinearity diagnostics, Durbin-Watson.
• Plots: Y: *ZRESID (standardoidut residuaalit) ja X: *ZPRED (standardoidut ennustetut arvot)
4. Useamman muuttujan regressioanalyysi
• Ensin tarkastellaan tulosteen lopusta ”Charts” –osasta täyttävätkö residuaalit niille asetetut vaatimukset normaaliuden ja lineaarisuuden osalta:
Residuaalit ovat jakautuneet normaalisti ja lineaarisesti.
4. Useamman muuttujan regressioanalyysi
• Seuraavaksi tarkastellaan Model Summary –taulukon Durbin-Watson –sarakkeesta täyttävätkö residuaalit niille asetetut vaatimukset myös riippumattomuuden osalta:
Durbin-Watson saa arvoja väliltä 0 – 4, arvon 2 osoittaessa korreloimattomia residuaaleja (D-W < 2 = positiivinen korrelaatio, D-W > 2 = negatiivinen korrelaatio). Hyväksyttävät arvot vaihtelevat 1.0 – 3.0 välillä (2.0 = optimi).
Tässä aineistossa residuaalien voidaan todeta olevan normaaleja, lineaarisia ja riippumattomia, jolloin voidaan edetä varsinaisen regressioanalyysin tulosten tulkintaan.
Kuvaa mallin yleistettävyyttä populaatioon, ts. pitäisi olla lähellä R2 –
arvoa. Jos malli olisi laskettu populaatiosta, eikä tästä 64 nuoren otoksesta, se selittäisi noin 11% vähemmän kilpailumenestyksestä (.442 - .331= .111).
4. Useamman muuttujan regressioanalyysi
Malli selittää tilastollisesti merkitsevästi kilpailumenestystä.
Luottamusväli joko osoittaa (tai sitten ei) otoksesta lasketun painokertoimen (B) kuvaavan populaation mielipidettä. Esim. B=.644 kuvaa ”tekemällä oppimisen” positiivista yhteyttä kilpailumenestykseen (p=.021), ja samaa viestiä tarjoaa luottamusvälikin (B:n arvo vaihtelee populaatiossa 95% todennäköisyydellä välillä .104 - 1.185). Heikon selittäjän, esim. ”ulkoinen tavoiteorientaatio” (B=.242 , p=.368), osalta luottamusväli ilmaisee että populaatiossa on todennäköisesti myös henkilöitä joilla ulkoisen tavoiteorientaation vaikutus kilpailumenestykseen on negatiivinen (-.299).
4. Useamman muuttujan regressioanalyysiMultikollineaarisuus-tarkastelu suoritetaan vertaamalla Tolerance -sarakkeen arvoja lukuun .67 (1-R2=1-.33). Suuret korrelaatiot eivät ole ongelma, koska arvot vaihtelevat välillä .730-.893 eli ovat arvoa .67 suurempia. Huom. Tolerance = 1 / VIF.
Standardoimattomat kertoimet kuvaavat IV –muuttujan (prediktori) yhden yksikön kasvun vaikutusta DV –muuttujassa. Esim. kun ammatillinen opintomenestys kasvaa yhdellä arvosanalla, kilpailumenestyksen odotetaan paranevan .66 sijoituksen verran.
WorldSkills kilpailumenestys
4. Useamman muuttujan regressioanalyysi
Yläasteen opintomenestys
Ammatillisten opintojen menestys
Kontrolliuskomukset
Näyttötilanteiden jännittäminen
Tekemällä oppiminen
Ulkoinen tavoiteorientaatio .644(.341).242(.138)
-.426(-.362)
.247(.166)
.644(.417)
-.141(.139)
R2=33%
4. Useamman muuttujan regressioanalyysi
Ammattitaidon maailmanmestaruuskilpailuissa menestymistä selittäviä tekijöitä tarkasteltiin regressioanalyysilla kuuden ennustemuuttujan avulla. Parhaat ennustajat olivat aiempi ammattiopintomenestys (=.417, p=.001), tekemällä oppiminen (=.361, p=.021) ja näyttötilanteiden jännittäminen (=-.362, p=.018). Malli sopi aineistoon (p=.005) ja tuloksen efektikoko oli Cohenin (1988) mukaan suuri, =.331. 2
aR
1 jatkuva
n jatkuvaa
Joitakin Seq. Multiple R
1 jatkuva
DV IV Kovariaatit Analyysi
Ei Multiple R
Bivariate r
Ei yhtään n-way Freq. Anal.n diskr.
n jatkuvaa Canonical Rn jatkuvaa
1 diskr. Multilevel modelingn jatkuvaatai diskr.
Muuttujienvälisten
riippuvuuksienvoimakkuus
Muuttujienvälisten
riippuvuuksienvoimakkuus
Sisältö1. General Linear Model (GLM)
1.1 Korrelaatio
2. Regressioanalyysi 2.1 Regressioanalyysin historia 2.2 Regressioanalyysin lajit 2.3 Regressioanalyysin käyttötapoja 2.4 Regressioanalyysin rajoituksia 2.5 Regressioanalyysin vaiheet
3. Kahden muuttujan regressioanalyysi4. Useamman muuttujan regressioanalyysi
4.1 Hierarkkinen regressioanalyysi4.2 Askeltava regressioanalyysi
5. Kanoninen korrelaatioLähteet
4.1 Hierarkkinen regressioanalyysi
• Hierarchical/sequential multiple regression (Pedhazur, 1982; Tabachnick & Fidell, 2007)
• Rajoitukset ovat samat kuin perinteisessä regressioanalyysissa.
• Analyysin suorittamiseen tarvitaan yksi jatkuva DV ja kaksi tai useampia jatkuva tai ei-jatkuva IV muuttuja.
• Analyysin avulla voi selvittää kunkin IV muuttujan suhteellisen selitysosuuden DV muuttujan varianssista.
4.1 Hierarkkinen regressioanalyysi
• Riippumattomat muuttujat sijoitetaan regressioyhtälöön tutkijan määrittämässä järjestyksessä.
• Yleensä sijoittelun taustalla on teoreettinen, kausaalinen tms. oletus.– Tutkittaessa koettua stressiä (DV) sisäisten
prosessien (IV) ja ulkoisten tapahtumien hallinnan (IV) toimiessa selittävinä muuttujina, on varmasti hyvä ottaa malliin mukaan työkokemus (IV) ja minäkäsitys (IV).
4.1 Hierarkkinen regressioanalyysi
• Pääselittäjien ”voimaa” voi myös tutkia sijoittamalla yhtälöön ensin vähempiarvoisia selittäjiä (=kontrolloimalla niitä).– Henkilön lukunopeutta (DV) voi tutkia
intensiivikurssin sisällön (IV) ja keston (IV) kannalta sijoittamalla yksilölliset erot lukunopeudessa (IV) yhtälöön ensimmäiseksi.
Sisältö1. General Linear Model (GLM)
1.1 Korrelaatio
2. Regressioanalyysi 2.1 Regressioanalyysin historia 2.2 Regressioanalyysin lajit 2.3 Regressioanalyysin käyttötapoja 2.4 Regressioanalyysin rajoituksia 2.5 Regressioanalyysin vaiheet
3. Kahden muuttujan regressioanalyysi4. Useamman muuttujan regressioanalyysi
4.1 Hierarkkinen regressioanalyysi4.2 Askeltava regressioanalyysi
5. Kanoninen korrelaatioLähteet
4.2 Askeltava regressioanalyysi• Stepwise multiple regression, statistical
regression (Pedhazur, 1982; Tabachnick & Fidell, 2007)
• Menetelmää kutsutaan ”tilastolliseksi” regressioanalyysiksi, koska selittävien muuttujien valinta perustuu puhtaasti tilastollisiin kriteereihin (esim. korrelaation voimakkuus DV muuttujan kanssa).
• Muuttujien valinta tapahtuu yleisimmin kolmen menetelmän avulla: (1) forward selection, (2) backward selection, ja (3) stepwise selection.
4.2 Askeltava regressioanalyysi• Forward selection (lisäävä menettely)
– Tyhjään yhtälöön lisätään tilastollisen kriteerin täyttävä IV yksi kerrallaan. Kukin lisätty IV jää yhtälöön.
• Backward selection (poistava menettely)– Kaikki IV muuttujat ovat alussa yhtälössä.
Tilastollisen kriteerin ulkopuolelle jäävät IV:t poistetaan yhtälöstä yksi kerrallaan.
• Stepwise selection (askeltava menettely)– Yhdistelmä edellisistä. Yhtälö on aluksi tyhjä, ja
siihen lisätään IV muuttujia yksi kerrallaan. Yhtälöstä voidaan myös poistaa IV muuttujia kun uusia, paremmin selittäviä tulee tilalle.
4.2 Askeltava regressioanalyysi
• Perinteisessä regressioanalyysissa (A) voimakkaasti selitettävän muuttujan (DV) kanssa korreloiva selittävä muuttuja (IV1) voi jäädä statistin rooliin.
A
4.2 Askeltava regressioanalyysi
• Askeltavassa mallinnuksessa (C) selitettävät muuttujat saavat ”krediitit” riippuvan muuttujan selittämisestä korrelaation voimakkuuden perusteella.
C
4.2 Askeltava regressioanalyysi
• Ylisovitus (overfitting) on askeltavien menetelmien riski, erityisesti tehtäessä tulkintoja yhden näytteen perusteella.
• Ristiinvalidointi (cross validation) esim. toisen näytteen avulla (tai suuren datatiedoston puolitus) on suositeltavaa käytettäessä tilastollisia regressiomenetelmiä.– Ajetaan sama regressioanalyysi kaksi kertaa
eri aineistoilla, esim. jaetaan yksi riittävän suuri aineisto kahteen satunnaisesti muodostettuun aliotokseen.
Sisältö1. General Linear Model (GLM)
1.1 Korrelaatio
2. Regressioanalyysi 2.1 Regressioanalyysin historia 2.2 Regressioanalyysin lajit 2.3 Regressioanalyysin käyttötapoja 2.4 Regressioanalyysin rajoituksia 2.5 Regressioanalyysin vaiheet
3. Kahden muuttujan regressioanalyysi4. Useamman muuttujan regressioanalyysi
4.1 Hierarkkinen regressioanalyysi4.2 Askeltava regressioanalyysi
5. Kanoninen korrelaatioLähteet
1 jatkuva
n jatkuvaa
Joitakin Seq. Multiple R
1 jatkuva
DV IV Kovariaatit Analyysi
Ei Multiple R
Bivariate r
Ei yhtään n-way Freq. Anal.n diskr.
n jatkuvaa Canonical Rn jatkuvaa
1 diskr. Multilevel modelingn jatkuvaatai diskr.
Muuttujienvälisten
riippuvuuksienvoimakkuus
Muuttujienvälisten
riippuvuuksienvoimakkuus
5. Kanoninen korrelaatio
• Canonical correlation– (Kerlinger, 1986, 561-568)
• Yleismenetelmä, jonka erikoistapauksia ovat mm. regressioanalyysi, erotteluanalyysi ja MANOVA.
• Käytetään tutkimuskirjallisuudessa enemmän kuvailuun kuin hypoteesintestaukseen.– ”Tulokset ovat usein matemaattisesti
elegantteja, mutta vaikeasti tulkittavissa” (Tabachnik & Fidell, 2007, 570).
5. Kanoninen korrelaatio
• Menetelmän avulla tutkitaan kahden muuttujaryhmän välisiä vaikutussuhteita.– Toinen ryhmä voi koostua DV (esim.
ympäristötietoisuus) ja toinen IV (esim. sukupuoli, koulutustaso, poliittinen kanta) muuttujista.
– Tutkijan kannalta muuttujien valinta ja erityisesti tulosten mielekäs tulkinta on haasteellista.
Lähteet
Berk, R. A. (2004). Regression Analysis: A Constructive Critique. Thousand Oaks: Sage.
Cohen, J. (1988). Statistical power analysis for the behavioral sciences. Hillsdale, NJ: Erlbaum.
Cronbach, L. J. (1951). Coefficient alpha and the internal structure of tests. Psychometrika, 16, 297-334.
Galton, F. (1885). Regression towards mediocrity in hereditary stature. Journal of the Anthropological Institute, 15, 246-63.
Green, S. B. (1991). How many subjects does it take to do a regression analysis? Multivariate Behavioral Research, 26, 499-510.
Gulliksen, H. (1950). Theory of Mental Tests. New York: John Wiley & Sons.
Lähteet
Howell, D. (1997). Statistical Methods for Psychology. Belmont, CA: Wadsworth Publishing Company.
Kerlinger, F. (1986). Foundations of Behavioral Research. Third Edition. New York: CBS College Publishing.
Kuder, G. F., & Richardson, M. W. (1937). The theory of the estimation of test reliability. Psychometrika, 2, 151-160.
Metsämuuronen, J. (2003). Tutkimuksen tekemisen perusteet ihmistieteissä. Helsinki: International Methelp Ky.
Nummenmaa, L. (2009). Käyttäytymistieteiden tilastolliset menetelmät. Ensimmäinen painos, uudistettu laitos. Helsinki: Tammi.
Nummenmaa, T., Konttinen, R., Kuusinen, J., & Leskinen, E. (1997). Tutkimusaineiston analyysi. Porvoo: WSOY.
Lähteet
Pierce, C. A., Block, R., & Aguinis, H. (2004). Cautionary note on reporting Eta-squared values from multifactor ANOVA designs. Educational and Psychological Measurement, 64(6), 916-924.
Pearl, J. (2000). Causality. New York: Cambridge University Press.Pedhazur, E. (1982). Multiple Regression Analysis in Behavioral
Research. New York: Holt, Rinehart and Winston.
Stevens, J. (1996). Applied Multivariate Statistics for the Social Sciences. Third edition. Mahwah, NJ: Lawrence Erlbaum.
Tabachnick, B. G., & Fidell, L. S. (1996). Using Multivariate Statistics. Third Edition. New York: Harper Collins.
Lähteet
Tabachnick, B. G., & Fidell, L. S. (2007). Using Multivariate Statistics. Fifth Edition. Boston: Pearson.
Warren, R. D., White, J. K., & Fuller, W. A. (1974). An errors-in-variables analysis of managerial role performance. Journal of American Statistical Association, 69, 886-893.
Vehkalahti, K. (2007). Kyselytutkimuksen mittarit ja menetelmät. http://www.helsinki.fi/%7ekvehkala/mmm/moniste.pdf