Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset
Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset / Ratkaisut
Aiheet: Regressiodiagnostiikka Avainsanat: Cooken etäisyys, Funktionaalinen muoto, Diagnostinen grafiikka, Diagnostiset testit, Heteroskedastisuus, Homoskedastisuuden testaaminen, Homoskedastisuus, Jäännöstermi, Jäännösvarianssi, Leverage, Lineaarinen regressiomalli, Merkitsevyystaso, Muunnokset, p- arvo, Pienimmän neliösumman menetelmä, Poikkeavat havainnot, Poistoresiduaali, Regressiodiagnostiikka, Residuaali, Residuaalidiagrammi, Selitettävä muuttuja, Selittäjä, Selittävä muuttuja, Selitysaste, Standardoitu poistoresiduaali, Standardoitu residuaali, Systemaattinen osa, Sovite, Vipuluku
1. REGRESSIOMALLIN SYSTEMAATTISEN OSAN MUOTO Päämääränä on estimoida regressiomalli, jossa vehnän satoa selitetään käytetyn lannoiteaineen määrän avulla.
STATISTIX-tiedostoon SATO on talletettu seuraavat muuttujat:
LANNOITE = Lannoiteaineen määrä / pinta-alayksikkö
SATO = Sato / pinta-alayksikkö
(a) Tutustu aineistoon piirtämällä pistediagrammi
(LANNOITE, SATO)
Onko lineaarinen regressiomalli sopiva kuvaus sadon riippuvuudelle käytetyn lannoiteaineen määrästä?.
(b) Estimoi PNS-menetelmällä yhden selittäjän regressiomalli
(1) SATO = β0 + β1 LANNOITE + ε
Tarkastele mallin (1) sopivuutta aineistoon piirtämällä residuaalidiagrammi
(SOVITE, RESIDUAALI)
Onko malli (1) sopiva kuvaus sadon riippuvuudelle käytetyn lannoiteaineen määrästä?
(c) Lisää tiedostoon SATO muuttujan LANNOITE neliö muuttujaksi LANSQR.
Estimoi PNS-menetelmällä kahden selittäjän regressiomalli
(2) SATO = β0 + β1 LANNOITE + β2 LANSQR + ε
Onko muuttuja LANSQR tarpeellinen mallissa?
Vertaa mallin (2) selitysastetta mallin (1) selitysasteeseen.
Tarkastele mallin (2) sopivuutta aineistoon piirtämällä residuaalidiagrammi
(SOVITE, RESIDUAALI)
Onko malli (1) sopiva kuvaus sadon riippuvuudelle käytetyn lannoiteaineen määrästä?
TKK/SAL © Ilkka Mellin (2005) 1/37
Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset
RATKAISU: (a) AINEISTOON TUTUSTUMINEN: PISTEDIAGRAMMI (SELITTÄJÄ, SELITETTÄVÄ)
Piirretään pistediagrammi (LANNOITE, SATO)
Pistediagrammin avulla voidaan havainnollistaa muuttujien välistä riippuvuutta.
STATISTIX: Statistics > Summary Statistics > Scatter Plot X Axis Variables = LANNOITE Y Axis Variables = SATO
0 2 4 6 8 10
18
23
28
33
Scatter Plot of SATO vs LANNOITE
SATO
LANNOITE Sadon ja lannoiteaineen määrän riippuvuus ei näytä lineaariselta:
Aluksi lannoiteaineen määrän lisääminen kasvattaa satoa, mutta tietyn pisteen jälkeen lannoiteaineen määrän lisääminen alkaa pienentää satoa.
TKK/SAL © Ilkka Mellin (2005) 2/37
Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset
(b) YHDEN SELITTÄJÄN LINEAARISEN REGRESSIOMALLIN FORMULOINTI JA ESTIMOINTI
Mallin estimointi Olkoon mallina
(1) SATO = β0 + β1 LANNOITE + ε
STATISTIX: Statistics > Linear Models > Linear Regression Dependent Variable = SATO Independent Variables = LANNOITE
STATISTIX FOR WINDOWS SATO UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF SATO PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P --------- ----------- --------- ----------- ------ CONSTANT 22.8063 0.79583 28.66 0.0000 LANNOITE 0.63074 0.13452 4.69 0.0001 R-SQUARED 0.4149 RESID. MEAN SQUARE (MSE) 5.97161 ADJUSTED R-SQUARED 0.3961 STANDARD DEVIATION 2.44369 SOURCE DF SS MS F P ---------- --- ---------- ---------- ----- ------ REGRESSION 1 131.285 131.285 21.98 0.0001 RESIDUAL 31 185.120 5.97161 TOTAL 32 316.405 CASES INCLUDED 33 MISSING CASES 0
Malli selittää selitettävän muuttujan SATO vaihtelusta 41 %.
Muuttuja LANNOITE on selittäjänä tilastollisesti merkitsevä ja vastaava regressiokerroin on positiivinen. Sen mukaan lannoiteaineen määrän lisääminen aina kasvattaa satoa.
Tämä on kuitenkin ristiriidassa sen kanssa, että (a)-kohdan pistediagrammista nähtiin, että lannoiteaineen määrän lisääminen kasvattaa satoa vain aluksi ja tietyn pisteen jälkeen lannoiteaineen määrän lisääminen alkaa pienentää satoa.
TKK/SAL © Ilkka Mellin (2005) 3/37
Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset
Residuaalidiagrammi (SOVITE, RESIDUAALI) Regressiomallien tuloksia analysoitaessa on aina syytä piirtää residuaalidiagrammi (SOVITE, RESIDUAALI)
Diagrammi näyttää miten hyvin malli kuvaa selitettävän muuttujan käyttäytymistä.
Kuvio saattaa paljastaa mallin rakenneosan virheellisen muotoilun, residuaalien hetero- skedastisuuden ja poikkeavat havainnot.
STATISTIX: Linear Regression – Coefficient Table Results > Plots > Std Resids by Fitted Values
22 24 26 28 30
-2.0
-1.2
-0.4
0.4
1.2
2.0
Regression Residual Plot
Stan
dard
ized
Res
idua
ls
Fitted values Residuaalit eivät muodosta hyvän mallin vaakasuoraa ja tasaleveätä pisteiden vyötä.
Residuaalikuvio kertoo samaa kuin (a)-kohdan pistediagrammi: Tavanomainen yhden selittäjän lineaarinen regressiomalli ei kuvaa hyvin muuttujan SATO riippuvuutta muuttujasta LANNOITE.
Johtopäätös: Mallin (1) rakenneosa on virheellistä muotoa.
TKK/SAL © Ilkka Mellin (2005) 4/37
Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset
(c) MODIFIOIDUN REGRESSIOMALLIN FORMUOLINTI JA ESTIMOINTI
Lisäselittäjän konstruointi Kohtien (a) ja (b) tulosten perusteella mallin (1) rakenneosaa päätetään korjata lisäämällä malliin (1) selittäjäksi lannoiteaineen määrän neliö.
Tällöin saadaan malli, jonka rakenneosa on muotoa
f(x) = β0 + β1x + β2x2
Funktion f kuvaaja on paraabeli. On odotettavissa, että kerroin β2 on negatiivinen. Tällöin paraabeli aukeaa alaspäin ja sillä on yksikäsitteinen globaali maksimi, mikä sopii yhteen kohdan (a) pistediagrammista saatavien tietojen kanssa.
Huomaa, että syntyvä malli on regressiokertoimiensa β0, β1, β2 suhteen lineaarinen malli, jonka (aitoina) selittäjinä ovat x ja x2. Koska malli on lineaarinen, sen parametrit voidaan estimoida tavanomaisilla lineaarisen mallin estimointimenetelmillä.
Lisätään lannoiteaineen määrän neliö muuttujaksi LANSQR tiedostoon SATO:
STATISTIX: Data > Transformations Transformation Expression LANSQR = LANNOITE * LANNOITE
TKK/SAL © Ilkka Mellin (2005) 5/37
Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset
Mallin estimointi Olkoon mallina
(2) SATO = β0 + β1 LANNOITE + β2 LANSQR + ε
STATISTIX: Statistics > Linear Models > Linear Regression Dependent Variable = SATO Independent Variables = LANNOITE, LANSQR
STATISTIX FOR WINDOWS SATO UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF SATO PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P VIF --------- ----------- --------- ----------- ------ ----- CONSTANT 19.2491 0.51017 37.73 0.0000 LANNOITE 3.00224 0.23736 12.65 0.0000 13.8 LANSQR -0.23715 0.02286 -10.37 0.0000 13.8 R-SQUARED 0.8724 RESID. MEAN SQUARE (MSE) 1.34528 ADJUSTED R-SQUARED 0.8639 STANDARD DEVIATION 1.15986 SOURCE DF SS MS F P ---------- --- ---------- ---------- ----- ------ REGRESSION 2 276.047 138.023 102.60 0.0000 RESIDUAL 30 40.3583 1.34528 TOTAL 32 316.405 CASES INCLUDED 33 MISSING CASES 0
Mallin (2) selitysaste on kasvanut 87 %:iin.
Sekä LANNOITE että LANSQR ovat selittäjinä tilastollisesti merkitseviä. Muuttujan LANSQR regressiokerroin on negatiivinen, mikä merkitsee sitä, että mallin rakenneosa on muuttujan LANNOITE funktiona alaspäin aukeava paraabeli, mikä vastaa graafisen tarkastelun ja yhden selittäjän mallista saatua kuvaa muuttujien SATO ja LANNOITE riippuvuuden luonteesta.
TKK/SAL © Ilkka Mellin (2005) 6/37
Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset
Residuaalidiagrammi (Sovite, Residuaali) Piirretään residuaalidiagrammi
(SOVITE, RESIDUAALI)
STATISTIX: Linear Regression – Coefficient Table Results > Plots > Std Resids by Fitted Values
19 21 23 25 27 29
-3
-2
-1
0
1
2
3
Regression Residual Plot
Stan
dard
ized
Res
idua
ls
Fitted values Residuaalidiagrammin mukaan mallin rakenneosassa ei ole enää selviä puutteita. Sen sijaan residuaalidiagrammi viittaa jäännöstermin heteroskedastisuuteen.
Homoskedastisuusoletuksen testaaminen jätetään lukijalle; ota mallia tehtävästä 4.
TKK/SAL © Ilkka Mellin (2005) 7/37
Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset
2. POIKKEAVAT HAVAINNOT 7. harjoitusten tehtävässä 5 testattiin ostovoimapariteetti-hypoteesin voimassaoloa aineistossa, johon oli kerätty tiedot valuuttojen keskimääräisistä vuosimuutoksista vaihtokursseissa USA:n dollariin nähden ja keskimääräisten vuotuisten inflaatio-vauhtien erotuksista USA:han nähden 44 maasta.
Tiedot on talletettu STATISTIX-tiedostoon PPP.
Ostovoimapariteetti-hypoteesin testaus tapahtuu estimoimalla regressiomalli
(1) CEXCR75 = β0 + β1 CINFR75 + ε
jossa
CEXCR75 = Keskimääräinen vuosimuutos vaihtokurssissa USA:n dollariin nähden vuosina 1975-90
CINFR75 = Keskimääräisten vuotuisten inflaatiovauhtien erotus USA:han nähden vuosina 1975-90
ja testaamalla tilastollisia hypoteeseja
H00 : β0 = 0
H01 : β1 = 1
Residuaaleja kuvaavien diagrammien perusteella aineistossa on poikkeuksellinen havainto:
IRAN
Tarkastellaan nyt poikkeavan havainnon tunnistamista erityisesti tähän tarkoitukseen konstruoitujen tunnuslukujen avulla. Aineisto on annettu STATISTIX-tiedostossa PPP.
(a) Estimoi malli (1) PNS-menetelmällä ja talleta tiedostoon seuraavat muuttujat:
LEVERAGE = Vipuluku (leverage)
STANDARDIZED RESIDUAL
= Standardoitu eli studentisoitu residuaali
DIST = Cooken etäisyys
P (DIST) = Cooken etäisyyttä vastaava p-arvo
OUT = Standardoitu poistoresiduaali
P (OUT) = Poistoresiduaalia vastaava p-arvo
(b) Tunnista poikkeavat havainnot kohdassa (a) määrättyjen tunnuslukujen avulla. Käytä tällöin apuna myös sopivia graafisia esityksiä. Tulkitse todennäköisyydet P (DIST) ja P (OUT).
(c) Estimoi malli uudelleen ilman poikkeavia havaintoja ja tutki miten havaintojen poistaminen vaikuttaa regressiokertoimien estimaatteihin ja selitysasteeseen.
TKK/SAL © Ilkka Mellin (2005) 8/37
Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset
RATKAISU: (a) MALLIN ESTIMOINTI
Piirretään pistediagrammi (CINFR75, CEXCR75)
Pistediagrammin avulla voidaan havainnollistaa muuttujien välistä riippuvuutta.
STATISTIX: Statistics > Summary Statistics > Scatter Plot X Axis Variables = CINFR75 Y Axis Variables = CEXCR75
-10 10 30 50 70
-20
0
20
40
60
Scatter Plot of CEXCR75 vs CINFR75
CEX
CR
75
CINFR75 Muuttujien CEXCR75 ja CINFR75 riippuvuus näyttää lineaariselta, mutta havaintojen joukossa näyttää olevan (ainakin) yksi poikkeava (nuolella kuviossa merkitty) havainto:
IRAN
TKK/SAL © Ilkka Mellin (2005) 9/37
Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset
Mallin estimointi Olkoon mallina
(1) CEXCR75 = β0 + β1 CINFR75 + ε
STATISTIX: Statistics > Linear Models > Linear Regression Dependent Variable = CEXCR75 Independent Variables = CINFR75
STATISTIX FOR WINDOWS PPP, 16.03.2003, 11:36:49 UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF CEXCR75 PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P --------- ----------- --------- ----------- ------ CONSTANT -0.00928 0.42391 -0.02 0.9826 CINFR75 1.01759 0.02685 37.89 0.0000 R-SQUARED 0.9716 RESID. MEAN SQUARE (MSE) 5.49359 ADJUSTED R-SQUARED 0.9709 STANDARD DEVIATION 2.34384 SOURCE DF SS MS F P ---------- --- ---------- ---------- ----- ------ REGRESSION 1 7888.57 7888.57 1435.96 0.0000 RESIDUAL 42 230.731 5.49359 TOTAL 43 8119.30 CASES INCLUDED 44 MISSING CASES 0
Malli selittää selitettävän muuttujan CEXCR75 vaihtelusta 97 %.
Muuttuja CINFR75 on selittäjänä tilastollisesti merkitsevä ja vastaava regressiokerroin on positiivinen ja lähellä arvoa 1. Vakio ei ole tilastollisesti merkitsevä. Nämä arvot ovat sopusoinnussa ostovoimapariteettihypoteesin kanssa.
Testit kertoimia koskeville hypoteeseille: Ks. 7. harjoitusten tehtävä 5.
TKK/SAL © Ilkka Mellin (2005) 10/37
Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset
Pistediagrammi ja regressiosuora luottamusvöineen Piirretään pistediagrammi (SELITTÄJÄ, SELITETTÄVÄ), estimoitu PNS-suora sekä luottamusvyöt ennusteille.
STATISTIX: Linear Regression – Coefficient Table Results > Plots > Simple Regression Plot
-10 10 30 50 70
-20
0
20
40
60
Simple Regression Plot
CEX
CR
75
CINFR75
CEXCR75 = -9.28E-03 + 1.0176 * CINFR75 95% conf and pred intervals Poikkeava havainto IRAN asettuu selvästi luottamusvöiden ulkopuolelle.
TKK/SAL © Ilkka Mellin (2005) 11/37
Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset
Residuaalidiagrammi (SOVITE, RESIDUAALI) Piirretään residuaalidiagrammi (SOVITE, RESIDUAALI)
STATISTIX: Linear Regression – Coefficient Table Results > Plots > Std Resids by Fitted Values
-10 10 30 50 70
-5
-3
-1
1
3
5
Regression Residual Plot
Stan
dard
ized
Res
idua
ls
Fitted values Residuaalidiagrammin mukaan mallin rakenneosassa ei ole puutteita. Sen sijaan poikkeava havainto IRAN erottuu selvästi.
TKK/SAL © Ilkka Mellin (2005) 12/37
Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset
Poikkeavien havaintojen tunnistamiseen tarkoitetut tunnusluvut Talletetaan tiedostoon PPP poikkeavien havaintojen tunnistamisessa käytettävien tunnuslukujen havaintokohtaiset arvot.
STATISTIX: Linear Regression – Coefficient Table Results > Save Residuals Fitted Value = FIT Residual = RES Levarage = LEV Standardized Residual = STDRES Distance = DIST P (Distance) = PDIST Outlier = OUT P (Outlier) = POUT
(b) POIKKEAVIEN HAVAINTOJEN TUNNISTAMINEN
Tulostetaan havainnot 18-24 muuttujista LEV, OUT, POUT, DIST, PDIST.
STATISTIX FOR WINDOWS PPP CASE LEV OUT POUT DIST PDIST 18 0.0289762 0.2460758 0.8068513 0.0009242 0.9990763 19 0.0278973 1.0548905 0.2976523 0.0159246 0.9842074 20 0.0227617 0.6837322 0.4979906 0.0055143 0.9945016 21 0.0235212 -7.358078 0.0 0.2878565 0.7513367 22 0.0272061 -0.420961 0.6759816 0.0025275 0.9974758 23 0.2944152 -0.517788 0.6073885 0.0569273 0.9447355 24 0.0241648 -0.621783 0.5375263 0.0048579 0.9951545
Edellä piirrettyjen kuvioiden perusteella havainto 21 (IRAN) on poikkeava.
Vipuluku (levarage) ei kuitenkaan ole havainnon 21 kohdalla poikkeavan suuri.
Sen sijaan poistoresiduaali OUT ja sitä vastaava p-arvo POUT sekä Cooken etäisyys DIST ja sitä vastaava ns. pseudotodennäköisyys PDIST indikoivat selvästi, että havainto on poikkeava.
Ks. lisätietoja STATISTIX-ohjelman Helpistä.
Jos poikkeavien havaintojen tunnistamiseen käytetään poistoresiduaaleja OUT ja Cooken etäisyyksiä DIST, aineistossa ei ole muita poikkeavia havaintoja kuin IRAN.
TKK/SAL © Ilkka Mellin (2005) 13/37
Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset
Esitetään Cooken etäisyydet vielä graafisesti havaintojen numeroinnin määräämässä järjestyksessä.
STATISTIX: Statistics > Summary Statistics > Scatter Plot X Axis Variables = COUNTRY Y Axis Variables = DIST
0 9 18 27 36 45
0.00
0.06
0.12
0.18
0.24
0.30
Scatter Plot of DIST vs COUNTRY
DIS
T
COUNTRY Poikkeavaa havaintoa IRAN vastaava Cooken etäisyys erottuu selvästi.
TKK/SAL © Ilkka Mellin (2005) 14/37
Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset
(c) MALLIN ESTIMOINTI ILMAN POIKKEAVAA HAVAINTOA
Olkoon mallina
(1) CEXCR75 = β0 + β1 CINFR75 + ε
Poistetaan ensin havainto 21:
STATISTIX: Data > Omit/Select/Restore Cases Omit/Select/Restore Expression Omit Case = 21
Estimoidaan malli.
STATISTIX: Statistics > Linear Models > Linear Regression Dependent Variable = CEXCR75 Independent Variables = CINFR75
STATISTIX FOR WINDOWS PPP UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF CEXCR75 PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P --------- ----------- --------- ----------- ------ CONSTANT 0.22161 0.28340 0.78 0.4387 CINFR75 1.02133 0.01785 57.22 0.0000 R-SQUARED 0.9876 RESID. MEAN SQUARE (MSE) 2.42514 ADJUSTED R-SQUARED 0.9873 STANDARD DEVIATION 1.55729 SOURCE DF SS MS F P ---------- --- ---------- ---------- ----- ------ REGRESSION 1 7940.26 7940.26 3274.15 0.0000 RESIDUAL 41 99.4306 2.42514 TOTAL 42 8039.70 CASES INCLUDED 43 MISSING CASES 0
Havainnon IRAN poistaminen mallista, on nostanut selitysasteen arvosta 97.2 % arvoon 98.8 %.
Muuttuja CINFR75 on selittäjänä tilastollisesti merkitsevä ja vastaava regressiokerroin on positiivinen ja lähellä arvoa 1. Vakio ei ole tilastollisesti merkitsevä. Nämä arvot ovat sopusoinnussa ostovoimapariteettihypoteesin kanssa.
Testit kertoimia koskeville hypoteeseille: Ks. 7. harjoitusten tehtävä 5.
TKK/SAL © Ilkka Mellin (2005) 15/37
Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset
Tarkasteltaessa poikkeavien havaintojen tunnistamisessa käytettävien tunnuslukujen havaintokohtaisia arvoja havaitaan, että havainto 23 on Cooken etäisyyden DIST mukaan ja havainnot 11 ja 12 ovat taas poistoresiduaalien OUT mukaan epäilyttäviä (tarkista tämä).
Kun malli estimoidaan uudelleen ilman poikkeavia havaintoja, saattaa ilmaantua uusia poikkeavia havaintoja. Vaikutusvaltaiset poikkeavat havainnot estävät usein lievemmin poikkeavien havaintojen poikkeuksellisuuden näkymästä.
TKK/SAL © Ilkka Mellin (2005) 16/37
Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset
3. MUUTTUJATRANSFORMAATIOT JA MALLIN LINEARISOINTI Vaikka selitettävän muuttujan y riippuvuus selittävästä muuttujasta x olisi luonteeltaan epälineaarinen, sopivasti muunnettujen muuttujien välille saattaa olla mahdollista muodostaa hyvin toimiva lineaarinen malli. Toisin sanoen on mahdollista löytää funktiot f ja g siten, että
(1) f(yj) = β0 + β1 g(xj) + εj , j = 1, 2, …, n
STATISTIX-tiedostoon TRANS on talletettu muuttujat X, Y2, Y4PLUS, Y5. Muuttujat Y1, Y2, Y3 ovat selitettäviä muuttujia ja muuttuja X on kaikille yhteinen selittäjä.
Kaikki muuttujat ovat keinotekoisia ja tehtävänä on selvittää, mitä transformaatiota on mitäkin selitettävää muuttujaa Y = Y2 / Y4PLUS / Y5 generoitaessa käytetty. Ehdokkaat ovat seuraavat:
(i) ( ) ( ) log( )
(ii) ( ) ( )(iii) ( ) ( ) 1/
f y y g x x
f y y g x xf y y g x x
= =
= == =
Tee jokaiselle selitettävän muuttujan Y = Y2 / Y4PLUS / Y5 ja selittäjän X parille seuraavat operaatiot:
(a) Piirrä pistediagrammi (X, Y).
(b) Estimoi lineaarinen malli
(2) Y = β0 + β1 X + ε
ja piirrä residuaalikuvio (SOVITE, RESIDUAALI).
(c) Valitse kohdissa (a) ja (b) piirrettyjen kuvioiden perusteella sopivat muunnokset f ja g, jotka linearisovat mallin.
(d) Tee muunnokset ja piirrä pistediagrammi (g(X), f(Y)).
(e) Estimoi malli (1) ja piirrä residuaalikuvio (SOVITE, RESIDUAALI).
(f) Päättele kohtien (d) ja (e) kuvioiden perusteella, että olet valinnut oikein.
TKK/SAL © Ilkka Mellin (2005) 17/37
Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset
RATKAISU: (a) PISTEDIAGRAMMIT
Piirretään pistediagrammit (X, Y)
jossa Y = Y2 / Y4PLUS / Y5.
Pistediagrammien avulla voidaan havainnollistaa muuttujien välistä riippuvuutta.
STATISTIX: Statistics > Summary Statistics > Scatter Plot X Axis Variables = X Y Axis Variables = Y2 / Y4PLUS / Y5
Pistediagrammi (X, Y2):
0 2 4 6 8 10
3
7
11
15
Scatter Plot of Y2 vs X
Y2
X
TKK/SAL © Ilkka Mellin (2005) 18/37
Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset
Pistediagrammi (X, Y4PLUS):
0 2 4 6 8 10
2
4
6
8
10
12
Scatter Plot of Y4PLUS vs X
Y4PL
US
X Pistediagrammi (X, Y5):
0 2 4 6 8 10
5
8
11
14
Scatter Plot of Y5 vs X
Y5
X
TKK/SAL © Ilkka Mellin (2005) 19/37
Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset
Kaikissa kolmessa diagrammissa muuttujan Y = Y2 / Y4PLUS / Y5 ja X riippuvuus näyttää epälineaariselta.
Koska vaihtoehdot muuttujan X muunnoksille on annettu, on helppo päätellä, että muuttuja Y2 liittyy muunnokseen (iii).
Sen sijaan muuttujiin Y4PLUS ja Y5 liittyvien muunnosten tunnistaminen ei ole yhtä helppoa.
Koska kuitenkin muuttujan Y4PLUS kuviossa pisteparven olkapää on pyöreämpi, voidaan tehdä arvaus, että muuttuja Y4PLUS liittyy muunnokseen (i) ja muuttuja Y5 liittyy muunnokseen (ii).
(b) LINEAARISTEN MALLIEN ESTIMOINTI JA RESIDUAALIKUVIOIDEN PIIRTÄMINEN
Mallien estimointi Olkoon mallina
(1) Y = β0 + β1 X + ε
jossa Y = Y2 / Y4PLUS / Y5.
STATISTIX: Statistics > Linear Models > Linear Regression Dependent Variable = Y2 / Y4PLUS / Y5 Independent Variables = X
Residuaalidiagrammit (SOVITE, RESIDUAALI) Piirretään residuaalidiagrammit (SOVITE, RESIDUAALI)
STATISTIX: Linear Regression – Coefficient Table Results > Plots > Std Resids by Fitted Values
TKK/SAL © Ilkka Mellin (2005) 20/37
Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset
Otteet estimointituloksista
Malli: Y2 = β0 + β1 X + ε
UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF Y2 PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P --------- ----------- --------- ----------- ------ CONSTANT 8.60910 0.47318 18.19 0.0000 X -0.44757 0.07714 -5.80 0.0000 R-SQUARED 0.4122
4.1 5.0 5.9 6.8 7.7 8.6
-4
-2
0
2
4
Regression Residual Plot
Stan
dard
ized
Res
idua
ls
Fitted values Mallin selitysaste on 41 %.
Muuttuja X on selittäjänä merkitsevä.
Residuaalidiagrammi indikoi, että mallin rakenneosa on virheellisesti muotoiltu.
TKK/SAL © Ilkka Mellin (2005) 21/37
Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset
Malli: Y4PLUS = β0 + β1 X + ε
UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF Y4PLUS PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P --------- ----------- --------- ----------- ------ CONSTANT 5.46256 0.35955 15.19 0.0000 X 0.60312 0.05862 10.29 0.0000 R-SQUARED 0.6880
5 7 9 11 13
-3
-2
-1
0
1
2
3
Regression Residual Plot
Stan
dard
ized
Res
idua
ls
Fitted values Mallin selitysaste on 69 %.
Muuttuja X on selittäjänä merkitsevä.
Residuaalidiagrammi indikoi, että mallin rakenneosa on virheellisesti muotoiltu.
TKK/SAL © Ilkka Mellin (2005) 22/37
Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset
Malli: Y5 = β0 + β1 X + ε
UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF Y5 PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P --------- ----------- --------- ----------- ------ CONSTANT 7.72262 0.27950 27.63 0.0000 X 0.49635 0.04557 10.89 0.0000 R-SQUARED 0.7120
7.6 8.5 9.4 10.3 11.2 12.1 13.0
-2.7
-1.8
-0.9
0.0
0.9
1.8
2.7
Regression Residual Plot
Stan
dard
ized
Res
idua
ls
Fitted values Mallin selitysaste on 71 %.
Muuttuja X on selittäjänä merkitsevä.
Residuaalidiagrammi indikoi, että mallin rakenneosa on virheellisesti muotoiltu.
TKK/SAL © Ilkka Mellin (2005) 23/37
Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset
(c) MUUNNOSTEN IDENTIFIOINTI
Kohtien (a) ja (b) tulosten perusteella teemme seuraavat identifioinnit:
Y 2: ( ) ( ) 1/Y 4PLUS: ( ) ( ) log( )
Y5 : ( ) ( )
f y y g x xf y y g x x
f y y g x x
= == =
= =
(d) MUUNNOKSET JA PISTEDIAGRAMMIT
Muunnokset Lisätään muuttujat
XINV: ( ) 1/XLOG : ( ) log( )
XSQRT : ( )
g x xg x x
g x x
==
=
tiedostoon TRANS.
STATISTIX: Data > Transformations Transformation Expression XINV = 1 / X
STATISTIX: Data > Transformations Transformation Expression XLOG = Ln(X)
STATISTIX: Data > Transformations Transformation Expression XSQRT = Sqrt( X)
TKK/SAL © Ilkka Mellin (2005) 24/37
Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset
Pistediagrammit Piirretään pistediagrammit
(X, Y)
jossa X = XINV / XLOG / XSQRT ja Y = Y2 / Y4PLUS / Y5.
Pistediagrammien avulla voidaan havainnollistaa muuttujien välistä riippuvuutta.
STATISTIX: Statistics > Summary Statistics > Scatter Plot X Axis Variables = XINV / XLOG / XSQRT Y Axis Variables = Y2 / Y4PLUS / Y5 Display Regression Line
Pistediagrammi (XINV, Y2):
0.0 0.9 1.8 2.7 3.6 4.5
3
7
11
15
Scatter Plot of Y2 vs XINV
Y2
XINV
TKK/SAL © Ilkka Mellin (2005) 25/37
Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset
Pistediagrammi (XLOG, Y4PLUS):
-1.6 -0.8 0.0 0.8 1.6 2.4
2
4
6
8
10
12
Scatter Plot of Y4PLUS vs XLOG
Y4PL
US
XLOG
Pistediagrammi (XSQRT, Y5):
0.4 1.1 1.8 2.5 3.2
5
8
11
14
Scatter Plot of Y5 vs XSQRT
Y5
XSQRT
Kaikkien yo. pistediagrammeissa muuttujien X = XINV / XLOG / XSQRT ja Y = Y2 / Y4PLUS / Y5 riippuvuus näyttää lineaariselta.
TKK/SAL © Ilkka Mellin (2005) 26/37
Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset
Tarkastellaan vielä muuttujapareja (XLOG, Y5) ja (XSQRT, Y4PLUS).
Pistediagrammi (XLOG, Y5):
-1.6 -0.8 0.0 0.8 1.6 2.4
5
8
11
14
Scatter Plot of Y5 vs XLOG
Y5
XLOG
Pistediagrammi (XLOG, Y5)
0.4 1.1 1.8 2.5 3.2
2
4
6
8
10
12
Scatter Plot of Y4PLUS vs XSQRT
Y4PL
US
XSQRT
TKK/SAL © Ilkka Mellin (2005) 27/37
Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset
Nämä pistediagrammit osoittavat, että
Y 4PLUS: ( ) ( ) log( )
Y5 : ( ) ( )
f y y g x x
f y y g x x
= =
= =
ovat oikeat valinnat.
Tämä perustuu seuraaviin huomioihin:
(i) Pistediagrammissa (XLOG, Y5) pistepilvi käyristyy regressiosuoran alapuolelle. Siten muunnos ( ) x=g x ei linearisoi muuttujan X ja Y4PLUS välistä riippuvuutta.
(ii) Pistediagrammissa (XSQRT, Y4PLUS) pistepilvi käyristyy regressiosuoran yläpuolelle. Siten muunnos g x ei linearisoi muuttujan X ja Y5 välistä riippuvuutta. ( ) log( )x=
(e) LINEAARISTEN MALLIEN ESTIMOINTI JA RESIDUAALIKUVIOIDEN PIIRTÄMINEN MUUNNETUISTA MUUTTUJISTA
Mallien estimointi
Olkoon mallina
(1) Y = β0 + β1 X + ε
jossa Y = Y2 / Y4PLUS / Y5 ja X = XINV / XLOG / XSQRT
STATISTIX: Statistics > Linear Models > Linear Regression Dependent Variable = Y2 / Y4PLUS / Y5 Independent Variables = XINV / XLOG / XSQRT
Residuaalidiagrammit (SOVITE, RESIDUAALI)
Piirretään residuaalidiagrammit
(SOVITE, RESIDUAALI)
STATISTIX: Linear Regression – Coefficient Table Results > Plots > Std Resids by Fitted Values
TKK/SAL © Ilkka Mellin (2005) 28/37
Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset
Otteet estimointituloksista
Malli: Y2 = β0 + β1 XINV + ε
UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF Y2 PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P --------- ----------- --------- ----------- ------ CONSTANT 5.02999 0.15793 31.85 0.0000 XINV 2.05250 0.13776 14.90 0.0000 R-SQUARED 0.8222
4 6 8 10 12 14
-2.7
-1.8
-0.9
0.0
0.9
1.8
2.7
Regression Residual Plot
Stan
dard
ized
Res
idua
ls
Fitted values Mallin selitysaste on 82 %.
Muuttuja XINV on selittäjänä merkitsevä.
Residuaalidiagrammi indikoi, että mallin rakenneosa on oikein muotoiltu.
TKK/SAL © Ilkka Mellin (2005) 29/37
Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset
Malli: Y4PLUS = β0 + β1 XLOG + ε
UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF Y4PLUS PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P --------- ----------- --------- ----------- ------ CONSTANT 6.11708 0.20933 29.22 0.0000 XLOG 1.95665 0.12486 15.67 0.0000 R-SQUARED 0.8365
3 5 7 9 11
-2.7
-1.8
-0.9
0.0
0.9
1.8
2.7
Regression Residual Plot
Stan
dard
ized
Res
idua
ls
Fitted values Mallin selitysaste on 84 %.
Muuttuja XLOG on selittäjänä merkitsevä.
Residuaalidiagrammi indikoi, että mallin rakenneosa on oikein muotoiltu.
TKK/SAL © Ilkka Mellin (2005) 30/37
Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset
Malli: Y5 = β0 + β1 XSQRT + ε
UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF Y5 PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P --------- ----------- --------- ----------- ------ CONSTANT 6.19962 0.36909 16.80 0.0000 XSQRT 1.93523 0.16110 12.01 0.0000 R-SQUARED 0.7504
7.0 7.9 8.8 9.7 10.6 11.5 12.4
-2.7
-1.8
-0.9
0.0
0.9
1.8
2.7
Regression Residual Plot
Stan
dard
ized
Res
idua
ls
Fitted values Mallin selitysaste on 75 %.
Muuttuja XSQRT on selittäjänä merkitsevä.
Residuaalidiagrammi indikoi, että mallin rakenneosa on oikein muotoiltu.
TKK/SAL © Ilkka Mellin (2005) 31/37
Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset
(f) JOHTOPÄÄTÖKSET
Kohdan (e) perusteella näyttää siltä, että seuraavat muunnokset ovat oikeita:
Y 2: ( ) ( ) 1/Y 4PLUS: ( ) ( ) log( )
Y5 : ( ) ( )
f y y g x xf y y g x x
f y y g x x
= == =
= =
Nämä ovat todellakin ne muunnokset, joita on käytetty havaintojen generoinnissa:
Y 2: 5 2Y 4 PLUS: 6 2log( )
Y 5 : 6 2
y xy x
y x
εε
ε
= + += + +
= + +
Muuttujat x ja ε generoitiin seuraavasti:
Uniform(0,10)N(0,1)
xε∼∼
TKK/SAL © Ilkka Mellin (2005) 32/37
Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset
4. HOMOSKEDASTISUUDEN TESTAAMINEN STATISTIX-tiedostoon CITYDATA on talletettu seuraavat muuttujat:
HSEVAL = Omakotitalojen hintojen keskiarvo
SIZEHSE = Talojen mediaanikoko
TAXRATE = Kiinteistöverosuhde
TOTEXP = Kunnallispalveluihin käytetty rahamäärä
COMPER = Vuokratalojen osuus
Aineisto koostuu 90 USA:n kuntaa koskevista tiedoista.
(a) Estimoi lineaarinen regressiomalli
HSEVAL = β0 + β1 SIZEHSE + β2 TAXRATE
+ β3 TOTEXP + β4 COMPER + ε
Ovatko kaikki selittäjät tilastollisesti merkitseviä?
Tuntuvatko regressiokertoimien estimaattien merkit järkeviltä?
(b) Piirrä residuaalikuvio (SOVITE, RESIDUAALI).
Ovatko residuaalit homo- vai heteroskedastisia?
(c) Tee homoskedastisuustesti, joka perustuu apuregressioon
20 1 ˆj je y jα α δ= + +
Jos R2 on tästä apuregressiosta määrätty selitysaste, niin
2 2 (1)nR χ∼
homoskedastisuusoletuksen pätiessä.
Ovatko residuaalit homo- vai heteroskedastisia?
TKK/SAL © Ilkka Mellin (2005) 33/37
Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset
RATKAISU: (a) MALLIN ESTIMOINTI
Olkoon mallina
(1) HSEVAL = β0 + β1 SIZEHSE + β2 TAXRATE
+ β3 TOTEXP + β4 COMPER + ε
STATISTIX: Statistics > Linear Models > Linear Regression Dependent Variable = HSEVAL Independent Variables = SIZEHSE, TAXRATE, TOTEXP, COMPER
STATISTIX FOR WINDOWS CITYDAT UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF HSEVAL PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P VIF --------- ----------- --------- ----------- ------ ----- CONSTANT -23.4328 8.98561 -2.61 0.0108 SIZEHSE 9.21014 1.56419 5.89 0.0000 1.1 TAXRATE -177.534 39.8668 -4.45 0.0000 1.0 TOTEXP 1.423E-06 2.963E-07 4.80 0.0000 1.1 COMPER -20.3704 6.19937 -3.29 0.0015 1.2 R-SQUARED 0.5505 RESID. MEAN SQUARE (MSE) 11.5623 ADJUSTED R-SQUARED 0.5294 STANDARD DEVIATION 3.40033 SOURCE DF SS MS F P ---------- --- ---------- ---------- ----- ------ REGRESSION 4 1203.84 300.960 26.03 0.0000 RESIDUAL 85 982.792 11.5623 TOTAL 89 2186.63 CASES INCLUDED 90 MISSING CASES 0
Mallin selitysaste on 55 %.
Kaikki selittäjät ovat tilastollisesti merkitseviä ja merkeiltään järkeviä (pohdi tätä).
TKK/SAL © Ilkka Mellin (2005) 34/37
Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset
(b) RESIDUAALIDIAGRAMMI (SOVITE, RESIDUAALI)
Piirretään residuaalidiagrammi (SOVITE, RESIDUAALI)
STATISTIX: Linear Regression – Coefficient Table Results > Plots > Std Resids by Fitted Values
13 16 19 22 25 28 31
-4
-2
0
2
4
Regression Residual Plot
Stan
dard
ized
Res
idua
ls
Fitted values Residuaalidiagrammi indikoi, että mallin rakenneosa on oikein muotoiltu, mutta jäännöstermit saattavat olla heteroskedastisia, koska residuaalien vyö levenee oikealle.
(c) HOMOGEENISUUDEN TESTAAMINEN
Tässä käytettävä homogeenisuustesti perustuu apuregressioon
20 1 ˆ , 1,2, ,j j je y jα α δ= + + = … n
Jos R2 on tästä apuregressiosta määrätty selitysaste, niin
2 2 (1)nR χ∼
homoskedastisuusoletuksen pätiessä.
TKK/SAL © Ilkka Mellin (2005) 35/37
Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset
Sovitteiden ja residuaalien tallettaminen Talletetaan sovitteet ja residuaalit tiedostoon CITYDATA.
STATISTIX: Linear Regression – Coefficient Table Results > Save Residuals Fitted Value = FIT Residual = RES
Lisätään residuaalien neliöt muuttujaksi RESSQR tiedostoon CITYDATA.
STATISTIX: Data > Transformations Transformation Expression RESSQR = RES * RES
Apuregression estimointi Olkoon mallina
(2) RESSQR = β0 + β1 FIT + ε
STATISTIX: Statistics > Linear Models > Linear Regression Dependent Variable = RESSQR Independent Variables = FIT
STATISTIX FOR WINDOWS CITYDAT UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF RESSQR PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P --------- ----------- --------- ----------- ------ CONSTANT -15.0943 11.9630 -1.26 0.2104 FIT 1.23697 0.56043 2.21 0.0299 R-SQUARED 0.0525 RESID. MEAN SQUARE (MSE) 378.099 ADJUSTED R-SQUARED 0.0417 STANDARD DEVIATION 19.4448 SOURCE DF SS MS F P ---------- --- ---------- ---------- ----- ------ REGRESSION 1 1841.99 1841.99 4.87 0.0299 RESIDUAL 88 33272.7 378.099 TOTAL 89 35114.7 CASES INCLUDED 90 MISSING CASES 0
TKK/SAL © Ilkka Mellin (2005) 36/37
Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset
TKK/SAL © Ilkka Mellin (2005) 37/37
Homogeenisuustesti Olkoon nollahypoteesina
20H : Var( ) , 1,2, ,j j nε σ= = #
Nollahypoteesin H0 pätiessä
2 2 (1)nR χ∼
jossa R2 on em. apuregression selitysaste.
Nyt
nR2 = 90×0.0525 = 4.725
Testisuureen arvoa 4.725 vastaava p-arvo saadaan seuraavalla STATISTIX-operaatiolla:
STATISTIX: Statistics > Probability Functions Chi-square (x, df) X = 4.725 DF = 1
Koska testisuuteen arvoa 4.725 vastaava p-arvo = 0.02973, voidaan nollahypoteesi mallin (1) jäännöstermin homoskedastisuudesta hylätä merkitsevyystasolla 0.05, mutta ei merkitsevyys- tasolla 0.01.
Johtopäätös: Mallin (1) jäännöstermi on jonkin verran heteroskedastinen.