37
Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset / Ratkaisut Aiheet: Regressiodiagnostiikka Avainsanat: Cooken etäisyys, Funktionaalinen muoto, Diagnostinen grafiikka, Diagnostiset testit, Heteroskedastisuus, Homoskedastisuuden testaaminen, Homoskedastisuus, Jäännöstermi, Jäännösvarianssi, Leverage, Lineaarinen regressiomalli, Merkitsevyystaso, Muunnokset, p-arvo, Pienimmän neliösumman menetelmä, Poikkeavat havainnot, Poistoresiduaali, Regressiodiagnostiikka, Residuaali, Residuaalidiagrammi, Selitettävä muuttuja, Selittäjä, Selittävä muuttuja, Selitysaste, Standardoitu poistoresiduaali, Standardoitu residuaali, Systemaattinen osa, Sovite, Vipuluku 1. REGRESSIOMALLIN SYSTEMAATTISEN OSAN MUOTO Päämääränä on estimoida regressiomalli, jossa vehnän satoa selitetään käytetyn lannoiteaineen määrän avulla. STATISTIX-tiedostoon SATO on talletettu seuraavat muuttujat: LANNOITE = Lannoiteaineen määrä / pinta-alayksikkö SATO = Sato / pinta-alayksikkö (a) Tutustu aineistoon piirtämällä pistediagrammi (LANNOITE, SATO) Onko lineaarinen regressiomalli sopiva kuvaus sadon riippuvuudelle käytetyn lannoiteaineen määrästä?. (b) Estimoi PNS-menetelmällä yhden selittäjän regressiomalli (1) SATO = β 0 + β 1 LANNOITE + ε Tarkastele mallin (1) sopivuutta aineistoon piirtämällä residuaalidiagrammi (SOVITE, RESIDUAALI) Onko malli (1) sopiva kuvaus sadon riippuvuudelle käytetyn lannoiteaineen määrästä? (c) Lisää tiedostoon SATO muuttujan LANNOITE neliö muuttujaksi LANSQR. Estimoi PNS-menetelmällä kahden selittäjän regressiomalli (2) SATO = β 0 + β 1 LANNOITE + β 2 LANSQR + ε Onko muuttuja LANSQR tarpeellinen mallissa? Vertaa mallin (2) selitysastetta mallin (1) selitysasteeseen. Tarkastele mallin (2) sopivuutta aineistoon piirtämällä residuaalidiagrammi (SOVITE, RESIDUAALI) Onko malli (1) sopiva kuvaus sadon riippuvuudelle käytetyn lannoiteaineen määrästä? TKK/SAL © Ilkka Mellin (2005) 1/37

Mat-2.104 Tilastollisen analyysin perusteetsalserver.org.aalto.fi/vanhat_sivut/Opinnot/Mat-2.2104/harjoitukset... · Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset RATKAISU:

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset

Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset / Ratkaisut

Aiheet: Regressiodiagnostiikka Avainsanat: Cooken etäisyys, Funktionaalinen muoto, Diagnostinen grafiikka, Diagnostiset testit, Heteroskedastisuus, Homoskedastisuuden testaaminen, Homoskedastisuus, Jäännöstermi, Jäännösvarianssi, Leverage, Lineaarinen regressiomalli, Merkitsevyystaso, Muunnokset, p- arvo, Pienimmän neliösumman menetelmä, Poikkeavat havainnot, Poistoresiduaali, Regressiodiagnostiikka, Residuaali, Residuaalidiagrammi, Selitettävä muuttuja, Selittäjä, Selittävä muuttuja, Selitysaste, Standardoitu poistoresiduaali, Standardoitu residuaali, Systemaattinen osa, Sovite, Vipuluku

1. REGRESSIOMALLIN SYSTEMAATTISEN OSAN MUOTO Päämääränä on estimoida regressiomalli, jossa vehnän satoa selitetään käytetyn lannoiteaineen määrän avulla.

STATISTIX-tiedostoon SATO on talletettu seuraavat muuttujat:

LANNOITE = Lannoiteaineen määrä / pinta-alayksikkö

SATO = Sato / pinta-alayksikkö

(a) Tutustu aineistoon piirtämällä pistediagrammi

(LANNOITE, SATO)

Onko lineaarinen regressiomalli sopiva kuvaus sadon riippuvuudelle käytetyn lannoiteaineen määrästä?.

(b) Estimoi PNS-menetelmällä yhden selittäjän regressiomalli

(1) SATO = β0 + β1 LANNOITE + ε

Tarkastele mallin (1) sopivuutta aineistoon piirtämällä residuaalidiagrammi

(SOVITE, RESIDUAALI)

Onko malli (1) sopiva kuvaus sadon riippuvuudelle käytetyn lannoiteaineen määrästä?

(c) Lisää tiedostoon SATO muuttujan LANNOITE neliö muuttujaksi LANSQR.

Estimoi PNS-menetelmällä kahden selittäjän regressiomalli

(2) SATO = β0 + β1 LANNOITE + β2 LANSQR + ε

Onko muuttuja LANSQR tarpeellinen mallissa?

Vertaa mallin (2) selitysastetta mallin (1) selitysasteeseen.

Tarkastele mallin (2) sopivuutta aineistoon piirtämällä residuaalidiagrammi

(SOVITE, RESIDUAALI)

Onko malli (1) sopiva kuvaus sadon riippuvuudelle käytetyn lannoiteaineen määrästä?

TKK/SAL © Ilkka Mellin (2005) 1/37

Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset

RATKAISU: (a) AINEISTOON TUTUSTUMINEN: PISTEDIAGRAMMI (SELITTÄJÄ, SELITETTÄVÄ)

Piirretään pistediagrammi (LANNOITE, SATO)

Pistediagrammin avulla voidaan havainnollistaa muuttujien välistä riippuvuutta.

STATISTIX: Statistics > Summary Statistics > Scatter Plot X Axis Variables = LANNOITE Y Axis Variables = SATO

0 2 4 6 8 10

18

23

28

33

Scatter Plot of SATO vs LANNOITE

SATO

LANNOITE Sadon ja lannoiteaineen määrän riippuvuus ei näytä lineaariselta:

Aluksi lannoiteaineen määrän lisääminen kasvattaa satoa, mutta tietyn pisteen jälkeen lannoiteaineen määrän lisääminen alkaa pienentää satoa.

TKK/SAL © Ilkka Mellin (2005) 2/37

Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset

(b) YHDEN SELITTÄJÄN LINEAARISEN REGRESSIOMALLIN FORMULOINTI JA ESTIMOINTI

Mallin estimointi Olkoon mallina

(1) SATO = β0 + β1 LANNOITE + ε

STATISTIX: Statistics > Linear Models > Linear Regression Dependent Variable = SATO Independent Variables = LANNOITE

STATISTIX FOR WINDOWS SATO UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF SATO PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P --------- ----------- --------- ----------- ------ CONSTANT 22.8063 0.79583 28.66 0.0000 LANNOITE 0.63074 0.13452 4.69 0.0001 R-SQUARED 0.4149 RESID. MEAN SQUARE (MSE) 5.97161 ADJUSTED R-SQUARED 0.3961 STANDARD DEVIATION 2.44369 SOURCE DF SS MS F P ---------- --- ---------- ---------- ----- ------ REGRESSION 1 131.285 131.285 21.98 0.0001 RESIDUAL 31 185.120 5.97161 TOTAL 32 316.405 CASES INCLUDED 33 MISSING CASES 0

Malli selittää selitettävän muuttujan SATO vaihtelusta 41 %.

Muuttuja LANNOITE on selittäjänä tilastollisesti merkitsevä ja vastaava regressiokerroin on positiivinen. Sen mukaan lannoiteaineen määrän lisääminen aina kasvattaa satoa.

Tämä on kuitenkin ristiriidassa sen kanssa, että (a)-kohdan pistediagrammista nähtiin, että lannoiteaineen määrän lisääminen kasvattaa satoa vain aluksi ja tietyn pisteen jälkeen lannoiteaineen määrän lisääminen alkaa pienentää satoa.

TKK/SAL © Ilkka Mellin (2005) 3/37

Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset

Residuaalidiagrammi (SOVITE, RESIDUAALI) Regressiomallien tuloksia analysoitaessa on aina syytä piirtää residuaalidiagrammi (SOVITE, RESIDUAALI)

Diagrammi näyttää miten hyvin malli kuvaa selitettävän muuttujan käyttäytymistä.

Kuvio saattaa paljastaa mallin rakenneosan virheellisen muotoilun, residuaalien hetero- skedastisuuden ja poikkeavat havainnot.

STATISTIX: Linear Regression – Coefficient Table Results > Plots > Std Resids by Fitted Values

22 24 26 28 30

-2.0

-1.2

-0.4

0.4

1.2

2.0

Regression Residual Plot

Stan

dard

ized

Res

idua

ls

Fitted values Residuaalit eivät muodosta hyvän mallin vaakasuoraa ja tasaleveätä pisteiden vyötä.

Residuaalikuvio kertoo samaa kuin (a)-kohdan pistediagrammi: Tavanomainen yhden selittäjän lineaarinen regressiomalli ei kuvaa hyvin muuttujan SATO riippuvuutta muuttujasta LANNOITE.

Johtopäätös: Mallin (1) rakenneosa on virheellistä muotoa.

TKK/SAL © Ilkka Mellin (2005) 4/37

Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset

(c) MODIFIOIDUN REGRESSIOMALLIN FORMUOLINTI JA ESTIMOINTI

Lisäselittäjän konstruointi Kohtien (a) ja (b) tulosten perusteella mallin (1) rakenneosaa päätetään korjata lisäämällä malliin (1) selittäjäksi lannoiteaineen määrän neliö.

Tällöin saadaan malli, jonka rakenneosa on muotoa

f(x) = β0 + β1x + β2x2

Funktion f kuvaaja on paraabeli. On odotettavissa, että kerroin β2 on negatiivinen. Tällöin paraabeli aukeaa alaspäin ja sillä on yksikäsitteinen globaali maksimi, mikä sopii yhteen kohdan (a) pistediagrammista saatavien tietojen kanssa.

Huomaa, että syntyvä malli on regressiokertoimiensa β0, β1, β2 suhteen lineaarinen malli, jonka (aitoina) selittäjinä ovat x ja x2. Koska malli on lineaarinen, sen parametrit voidaan estimoida tavanomaisilla lineaarisen mallin estimointimenetelmillä.

Lisätään lannoiteaineen määrän neliö muuttujaksi LANSQR tiedostoon SATO:

STATISTIX: Data > Transformations Transformation Expression LANSQR = LANNOITE * LANNOITE

TKK/SAL © Ilkka Mellin (2005) 5/37

Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset

Mallin estimointi Olkoon mallina

(2) SATO = β0 + β1 LANNOITE + β2 LANSQR + ε

STATISTIX: Statistics > Linear Models > Linear Regression Dependent Variable = SATO Independent Variables = LANNOITE, LANSQR

STATISTIX FOR WINDOWS SATO UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF SATO PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P VIF --------- ----------- --------- ----------- ------ ----- CONSTANT 19.2491 0.51017 37.73 0.0000 LANNOITE 3.00224 0.23736 12.65 0.0000 13.8 LANSQR -0.23715 0.02286 -10.37 0.0000 13.8 R-SQUARED 0.8724 RESID. MEAN SQUARE (MSE) 1.34528 ADJUSTED R-SQUARED 0.8639 STANDARD DEVIATION 1.15986 SOURCE DF SS MS F P ---------- --- ---------- ---------- ----- ------ REGRESSION 2 276.047 138.023 102.60 0.0000 RESIDUAL 30 40.3583 1.34528 TOTAL 32 316.405 CASES INCLUDED 33 MISSING CASES 0

Mallin (2) selitysaste on kasvanut 87 %:iin.

Sekä LANNOITE että LANSQR ovat selittäjinä tilastollisesti merkitseviä. Muuttujan LANSQR regressiokerroin on negatiivinen, mikä merkitsee sitä, että mallin rakenneosa on muuttujan LANNOITE funktiona alaspäin aukeava paraabeli, mikä vastaa graafisen tarkastelun ja yhden selittäjän mallista saatua kuvaa muuttujien SATO ja LANNOITE riippuvuuden luonteesta.

TKK/SAL © Ilkka Mellin (2005) 6/37

Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset

Residuaalidiagrammi (Sovite, Residuaali) Piirretään residuaalidiagrammi

(SOVITE, RESIDUAALI)

STATISTIX: Linear Regression – Coefficient Table Results > Plots > Std Resids by Fitted Values

19 21 23 25 27 29

-3

-2

-1

0

1

2

3

Regression Residual Plot

Stan

dard

ized

Res

idua

ls

Fitted values Residuaalidiagrammin mukaan mallin rakenneosassa ei ole enää selviä puutteita. Sen sijaan residuaalidiagrammi viittaa jäännöstermin heteroskedastisuuteen.

Homoskedastisuusoletuksen testaaminen jätetään lukijalle; ota mallia tehtävästä 4.

TKK/SAL © Ilkka Mellin (2005) 7/37

Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset

2. POIKKEAVAT HAVAINNOT 7. harjoitusten tehtävässä 5 testattiin ostovoimapariteetti-hypoteesin voimassaoloa aineistossa, johon oli kerätty tiedot valuuttojen keskimääräisistä vuosimuutoksista vaihtokursseissa USA:n dollariin nähden ja keskimääräisten vuotuisten inflaatio-vauhtien erotuksista USA:han nähden 44 maasta.

Tiedot on talletettu STATISTIX-tiedostoon PPP.

Ostovoimapariteetti-hypoteesin testaus tapahtuu estimoimalla regressiomalli

(1) CEXCR75 = β0 + β1 CINFR75 + ε

jossa

CEXCR75 = Keskimääräinen vuosimuutos vaihtokurssissa USA:n dollariin nähden vuosina 1975-90

CINFR75 = Keskimääräisten vuotuisten inflaatiovauhtien erotus USA:han nähden vuosina 1975-90

ja testaamalla tilastollisia hypoteeseja

H00 : β0 = 0

H01 : β1 = 1

Residuaaleja kuvaavien diagrammien perusteella aineistossa on poikkeuksellinen havainto:

IRAN

Tarkastellaan nyt poikkeavan havainnon tunnistamista erityisesti tähän tarkoitukseen konstruoitujen tunnuslukujen avulla. Aineisto on annettu STATISTIX-tiedostossa PPP.

(a) Estimoi malli (1) PNS-menetelmällä ja talleta tiedostoon seuraavat muuttujat:

LEVERAGE = Vipuluku (leverage)

STANDARDIZED RESIDUAL

= Standardoitu eli studentisoitu residuaali

DIST = Cooken etäisyys

P (DIST) = Cooken etäisyyttä vastaava p-arvo

OUT = Standardoitu poistoresiduaali

P (OUT) = Poistoresiduaalia vastaava p-arvo

(b) Tunnista poikkeavat havainnot kohdassa (a) määrättyjen tunnuslukujen avulla. Käytä tällöin apuna myös sopivia graafisia esityksiä. Tulkitse todennäköisyydet P (DIST) ja P (OUT).

(c) Estimoi malli uudelleen ilman poikkeavia havaintoja ja tutki miten havaintojen poistaminen vaikuttaa regressiokertoimien estimaatteihin ja selitysasteeseen.

TKK/SAL © Ilkka Mellin (2005) 8/37

Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset

RATKAISU: (a) MALLIN ESTIMOINTI

Piirretään pistediagrammi (CINFR75, CEXCR75)

Pistediagrammin avulla voidaan havainnollistaa muuttujien välistä riippuvuutta.

STATISTIX: Statistics > Summary Statistics > Scatter Plot X Axis Variables = CINFR75 Y Axis Variables = CEXCR75

-10 10 30 50 70

-20

0

20

40

60

Scatter Plot of CEXCR75 vs CINFR75

CEX

CR

75

CINFR75 Muuttujien CEXCR75 ja CINFR75 riippuvuus näyttää lineaariselta, mutta havaintojen joukossa näyttää olevan (ainakin) yksi poikkeava (nuolella kuviossa merkitty) havainto:

IRAN

TKK/SAL © Ilkka Mellin (2005) 9/37

Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset

Mallin estimointi Olkoon mallina

(1) CEXCR75 = β0 + β1 CINFR75 + ε

STATISTIX: Statistics > Linear Models > Linear Regression Dependent Variable = CEXCR75 Independent Variables = CINFR75

STATISTIX FOR WINDOWS PPP, 16.03.2003, 11:36:49 UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF CEXCR75 PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P --------- ----------- --------- ----------- ------ CONSTANT -0.00928 0.42391 -0.02 0.9826 CINFR75 1.01759 0.02685 37.89 0.0000 R-SQUARED 0.9716 RESID. MEAN SQUARE (MSE) 5.49359 ADJUSTED R-SQUARED 0.9709 STANDARD DEVIATION 2.34384 SOURCE DF SS MS F P ---------- --- ---------- ---------- ----- ------ REGRESSION 1 7888.57 7888.57 1435.96 0.0000 RESIDUAL 42 230.731 5.49359 TOTAL 43 8119.30 CASES INCLUDED 44 MISSING CASES 0

Malli selittää selitettävän muuttujan CEXCR75 vaihtelusta 97 %.

Muuttuja CINFR75 on selittäjänä tilastollisesti merkitsevä ja vastaava regressiokerroin on positiivinen ja lähellä arvoa 1. Vakio ei ole tilastollisesti merkitsevä. Nämä arvot ovat sopusoinnussa ostovoimapariteettihypoteesin kanssa.

Testit kertoimia koskeville hypoteeseille: Ks. 7. harjoitusten tehtävä 5.

TKK/SAL © Ilkka Mellin (2005) 10/37

Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset

Pistediagrammi ja regressiosuora luottamusvöineen Piirretään pistediagrammi (SELITTÄJÄ, SELITETTÄVÄ), estimoitu PNS-suora sekä luottamusvyöt ennusteille.

STATISTIX: Linear Regression – Coefficient Table Results > Plots > Simple Regression Plot

-10 10 30 50 70

-20

0

20

40

60

Simple Regression Plot

CEX

CR

75

CINFR75

CEXCR75 = -9.28E-03 + 1.0176 * CINFR75 95% conf and pred intervals Poikkeava havainto IRAN asettuu selvästi luottamusvöiden ulkopuolelle.

TKK/SAL © Ilkka Mellin (2005) 11/37

Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset

Residuaalidiagrammi (SOVITE, RESIDUAALI) Piirretään residuaalidiagrammi (SOVITE, RESIDUAALI)

STATISTIX: Linear Regression – Coefficient Table Results > Plots > Std Resids by Fitted Values

-10 10 30 50 70

-5

-3

-1

1

3

5

Regression Residual Plot

Stan

dard

ized

Res

idua

ls

Fitted values Residuaalidiagrammin mukaan mallin rakenneosassa ei ole puutteita. Sen sijaan poikkeava havainto IRAN erottuu selvästi.

TKK/SAL © Ilkka Mellin (2005) 12/37

Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset

Poikkeavien havaintojen tunnistamiseen tarkoitetut tunnusluvut Talletetaan tiedostoon PPP poikkeavien havaintojen tunnistamisessa käytettävien tunnuslukujen havaintokohtaiset arvot.

STATISTIX: Linear Regression – Coefficient Table Results > Save Residuals Fitted Value = FIT Residual = RES Levarage = LEV Standardized Residual = STDRES Distance = DIST P (Distance) = PDIST Outlier = OUT P (Outlier) = POUT

(b) POIKKEAVIEN HAVAINTOJEN TUNNISTAMINEN

Tulostetaan havainnot 18-24 muuttujista LEV, OUT, POUT, DIST, PDIST.

STATISTIX FOR WINDOWS PPP CASE LEV OUT POUT DIST PDIST 18 0.0289762 0.2460758 0.8068513 0.0009242 0.9990763 19 0.0278973 1.0548905 0.2976523 0.0159246 0.9842074 20 0.0227617 0.6837322 0.4979906 0.0055143 0.9945016 21 0.0235212 -7.358078 0.0 0.2878565 0.7513367 22 0.0272061 -0.420961 0.6759816 0.0025275 0.9974758 23 0.2944152 -0.517788 0.6073885 0.0569273 0.9447355 24 0.0241648 -0.621783 0.5375263 0.0048579 0.9951545

Edellä piirrettyjen kuvioiden perusteella havainto 21 (IRAN) on poikkeava.

Vipuluku (levarage) ei kuitenkaan ole havainnon 21 kohdalla poikkeavan suuri.

Sen sijaan poistoresiduaali OUT ja sitä vastaava p-arvo POUT sekä Cooken etäisyys DIST ja sitä vastaava ns. pseudotodennäköisyys PDIST indikoivat selvästi, että havainto on poikkeava.

Ks. lisätietoja STATISTIX-ohjelman Helpistä.

Jos poikkeavien havaintojen tunnistamiseen käytetään poistoresiduaaleja OUT ja Cooken etäisyyksiä DIST, aineistossa ei ole muita poikkeavia havaintoja kuin IRAN.

TKK/SAL © Ilkka Mellin (2005) 13/37

Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset

Esitetään Cooken etäisyydet vielä graafisesti havaintojen numeroinnin määräämässä järjestyksessä.

STATISTIX: Statistics > Summary Statistics > Scatter Plot X Axis Variables = COUNTRY Y Axis Variables = DIST

0 9 18 27 36 45

0.00

0.06

0.12

0.18

0.24

0.30

Scatter Plot of DIST vs COUNTRY

DIS

T

COUNTRY Poikkeavaa havaintoa IRAN vastaava Cooken etäisyys erottuu selvästi.

TKK/SAL © Ilkka Mellin (2005) 14/37

Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset

(c) MALLIN ESTIMOINTI ILMAN POIKKEAVAA HAVAINTOA

Olkoon mallina

(1) CEXCR75 = β0 + β1 CINFR75 + ε

Poistetaan ensin havainto 21:

STATISTIX: Data > Omit/Select/Restore Cases Omit/Select/Restore Expression Omit Case = 21

Estimoidaan malli.

STATISTIX: Statistics > Linear Models > Linear Regression Dependent Variable = CEXCR75 Independent Variables = CINFR75

STATISTIX FOR WINDOWS PPP UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF CEXCR75 PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P --------- ----------- --------- ----------- ------ CONSTANT 0.22161 0.28340 0.78 0.4387 CINFR75 1.02133 0.01785 57.22 0.0000 R-SQUARED 0.9876 RESID. MEAN SQUARE (MSE) 2.42514 ADJUSTED R-SQUARED 0.9873 STANDARD DEVIATION 1.55729 SOURCE DF SS MS F P ---------- --- ---------- ---------- ----- ------ REGRESSION 1 7940.26 7940.26 3274.15 0.0000 RESIDUAL 41 99.4306 2.42514 TOTAL 42 8039.70 CASES INCLUDED 43 MISSING CASES 0

Havainnon IRAN poistaminen mallista, on nostanut selitysasteen arvosta 97.2 % arvoon 98.8 %.

Muuttuja CINFR75 on selittäjänä tilastollisesti merkitsevä ja vastaava regressiokerroin on positiivinen ja lähellä arvoa 1. Vakio ei ole tilastollisesti merkitsevä. Nämä arvot ovat sopusoinnussa ostovoimapariteettihypoteesin kanssa.

Testit kertoimia koskeville hypoteeseille: Ks. 7. harjoitusten tehtävä 5.

TKK/SAL © Ilkka Mellin (2005) 15/37

Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset

Tarkasteltaessa poikkeavien havaintojen tunnistamisessa käytettävien tunnuslukujen havaintokohtaisia arvoja havaitaan, että havainto 23 on Cooken etäisyyden DIST mukaan ja havainnot 11 ja 12 ovat taas poistoresiduaalien OUT mukaan epäilyttäviä (tarkista tämä).

Kun malli estimoidaan uudelleen ilman poikkeavia havaintoja, saattaa ilmaantua uusia poikkeavia havaintoja. Vaikutusvaltaiset poikkeavat havainnot estävät usein lievemmin poikkeavien havaintojen poikkeuksellisuuden näkymästä.

TKK/SAL © Ilkka Mellin (2005) 16/37

Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset

3. MUUTTUJATRANSFORMAATIOT JA MALLIN LINEARISOINTI Vaikka selitettävän muuttujan y riippuvuus selittävästä muuttujasta x olisi luonteeltaan epälineaarinen, sopivasti muunnettujen muuttujien välille saattaa olla mahdollista muodostaa hyvin toimiva lineaarinen malli. Toisin sanoen on mahdollista löytää funktiot f ja g siten, että

(1) f(yj) = β0 + β1 g(xj) + εj , j = 1, 2, …, n

STATISTIX-tiedostoon TRANS on talletettu muuttujat X, Y2, Y4PLUS, Y5. Muuttujat Y1, Y2, Y3 ovat selitettäviä muuttujia ja muuttuja X on kaikille yhteinen selittäjä.

Kaikki muuttujat ovat keinotekoisia ja tehtävänä on selvittää, mitä transformaatiota on mitäkin selitettävää muuttujaa Y = Y2 / Y4PLUS / Y5 generoitaessa käytetty. Ehdokkaat ovat seuraavat:

(i) ( ) ( ) log( )

(ii) ( ) ( )(iii) ( ) ( ) 1/

f y y g x x

f y y g x xf y y g x x

= =

= == =

Tee jokaiselle selitettävän muuttujan Y = Y2 / Y4PLUS / Y5 ja selittäjän X parille seuraavat operaatiot:

(a) Piirrä pistediagrammi (X, Y).

(b) Estimoi lineaarinen malli

(2) Y = β0 + β1 X + ε

ja piirrä residuaalikuvio (SOVITE, RESIDUAALI).

(c) Valitse kohdissa (a) ja (b) piirrettyjen kuvioiden perusteella sopivat muunnokset f ja g, jotka linearisovat mallin.

(d) Tee muunnokset ja piirrä pistediagrammi (g(X), f(Y)).

(e) Estimoi malli (1) ja piirrä residuaalikuvio (SOVITE, RESIDUAALI).

(f) Päättele kohtien (d) ja (e) kuvioiden perusteella, että olet valinnut oikein.

TKK/SAL © Ilkka Mellin (2005) 17/37

Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset

RATKAISU: (a) PISTEDIAGRAMMIT

Piirretään pistediagrammit (X, Y)

jossa Y = Y2 / Y4PLUS / Y5.

Pistediagrammien avulla voidaan havainnollistaa muuttujien välistä riippuvuutta.

STATISTIX: Statistics > Summary Statistics > Scatter Plot X Axis Variables = X Y Axis Variables = Y2 / Y4PLUS / Y5

Pistediagrammi (X, Y2):

0 2 4 6 8 10

3

7

11

15

Scatter Plot of Y2 vs X

Y2

X

TKK/SAL © Ilkka Mellin (2005) 18/37

Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset

Pistediagrammi (X, Y4PLUS):

0 2 4 6 8 10

2

4

6

8

10

12

Scatter Plot of Y4PLUS vs X

Y4PL

US

X Pistediagrammi (X, Y5):

0 2 4 6 8 10

5

8

11

14

Scatter Plot of Y5 vs X

Y5

X

TKK/SAL © Ilkka Mellin (2005) 19/37

Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset

Kaikissa kolmessa diagrammissa muuttujan Y = Y2 / Y4PLUS / Y5 ja X riippuvuus näyttää epälineaariselta.

Koska vaihtoehdot muuttujan X muunnoksille on annettu, on helppo päätellä, että muuttuja Y2 liittyy muunnokseen (iii).

Sen sijaan muuttujiin Y4PLUS ja Y5 liittyvien muunnosten tunnistaminen ei ole yhtä helppoa.

Koska kuitenkin muuttujan Y4PLUS kuviossa pisteparven olkapää on pyöreämpi, voidaan tehdä arvaus, että muuttuja Y4PLUS liittyy muunnokseen (i) ja muuttuja Y5 liittyy muunnokseen (ii).

(b) LINEAARISTEN MALLIEN ESTIMOINTI JA RESIDUAALIKUVIOIDEN PIIRTÄMINEN

Mallien estimointi Olkoon mallina

(1) Y = β0 + β1 X + ε

jossa Y = Y2 / Y4PLUS / Y5.

STATISTIX: Statistics > Linear Models > Linear Regression Dependent Variable = Y2 / Y4PLUS / Y5 Independent Variables = X

Residuaalidiagrammit (SOVITE, RESIDUAALI) Piirretään residuaalidiagrammit (SOVITE, RESIDUAALI)

STATISTIX: Linear Regression – Coefficient Table Results > Plots > Std Resids by Fitted Values

TKK/SAL © Ilkka Mellin (2005) 20/37

Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset

Otteet estimointituloksista

Malli: Y2 = β0 + β1 X + ε

UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF Y2 PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P --------- ----------- --------- ----------- ------ CONSTANT 8.60910 0.47318 18.19 0.0000 X -0.44757 0.07714 -5.80 0.0000 R-SQUARED 0.4122

4.1 5.0 5.9 6.8 7.7 8.6

-4

-2

0

2

4

Regression Residual Plot

Stan

dard

ized

Res

idua

ls

Fitted values Mallin selitysaste on 41 %.

Muuttuja X on selittäjänä merkitsevä.

Residuaalidiagrammi indikoi, että mallin rakenneosa on virheellisesti muotoiltu.

TKK/SAL © Ilkka Mellin (2005) 21/37

Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset

Malli: Y4PLUS = β0 + β1 X + ε

UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF Y4PLUS PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P --------- ----------- --------- ----------- ------ CONSTANT 5.46256 0.35955 15.19 0.0000 X 0.60312 0.05862 10.29 0.0000 R-SQUARED 0.6880

5 7 9 11 13

-3

-2

-1

0

1

2

3

Regression Residual Plot

Stan

dard

ized

Res

idua

ls

Fitted values Mallin selitysaste on 69 %.

Muuttuja X on selittäjänä merkitsevä.

Residuaalidiagrammi indikoi, että mallin rakenneosa on virheellisesti muotoiltu.

TKK/SAL © Ilkka Mellin (2005) 22/37

Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset

Malli: Y5 = β0 + β1 X + ε

UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF Y5 PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P --------- ----------- --------- ----------- ------ CONSTANT 7.72262 0.27950 27.63 0.0000 X 0.49635 0.04557 10.89 0.0000 R-SQUARED 0.7120

7.6 8.5 9.4 10.3 11.2 12.1 13.0

-2.7

-1.8

-0.9

0.0

0.9

1.8

2.7

Regression Residual Plot

Stan

dard

ized

Res

idua

ls

Fitted values Mallin selitysaste on 71 %.

Muuttuja X on selittäjänä merkitsevä.

Residuaalidiagrammi indikoi, että mallin rakenneosa on virheellisesti muotoiltu.

TKK/SAL © Ilkka Mellin (2005) 23/37

Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset

(c) MUUNNOSTEN IDENTIFIOINTI

Kohtien (a) ja (b) tulosten perusteella teemme seuraavat identifioinnit:

Y 2: ( ) ( ) 1/Y 4PLUS: ( ) ( ) log( )

Y5 : ( ) ( )

f y y g x xf y y g x x

f y y g x x

= == =

= =

(d) MUUNNOKSET JA PISTEDIAGRAMMIT

Muunnokset Lisätään muuttujat

XINV: ( ) 1/XLOG : ( ) log( )

XSQRT : ( )

g x xg x x

g x x

==

=

tiedostoon TRANS.

STATISTIX: Data > Transformations Transformation Expression XINV = 1 / X

STATISTIX: Data > Transformations Transformation Expression XLOG = Ln(X)

STATISTIX: Data > Transformations Transformation Expression XSQRT = Sqrt( X)

TKK/SAL © Ilkka Mellin (2005) 24/37

Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset

Pistediagrammit Piirretään pistediagrammit

(X, Y)

jossa X = XINV / XLOG / XSQRT ja Y = Y2 / Y4PLUS / Y5.

Pistediagrammien avulla voidaan havainnollistaa muuttujien välistä riippuvuutta.

STATISTIX: Statistics > Summary Statistics > Scatter Plot X Axis Variables = XINV / XLOG / XSQRT Y Axis Variables = Y2 / Y4PLUS / Y5 Display Regression Line

Pistediagrammi (XINV, Y2):

0.0 0.9 1.8 2.7 3.6 4.5

3

7

11

15

Scatter Plot of Y2 vs XINV

Y2

XINV

TKK/SAL © Ilkka Mellin (2005) 25/37

Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset

Pistediagrammi (XLOG, Y4PLUS):

-1.6 -0.8 0.0 0.8 1.6 2.4

2

4

6

8

10

12

Scatter Plot of Y4PLUS vs XLOG

Y4PL

US

XLOG

Pistediagrammi (XSQRT, Y5):

0.4 1.1 1.8 2.5 3.2

5

8

11

14

Scatter Plot of Y5 vs XSQRT

Y5

XSQRT

Kaikkien yo. pistediagrammeissa muuttujien X = XINV / XLOG / XSQRT ja Y = Y2 / Y4PLUS / Y5 riippuvuus näyttää lineaariselta.

TKK/SAL © Ilkka Mellin (2005) 26/37

Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset

Tarkastellaan vielä muuttujapareja (XLOG, Y5) ja (XSQRT, Y4PLUS).

Pistediagrammi (XLOG, Y5):

-1.6 -0.8 0.0 0.8 1.6 2.4

5

8

11

14

Scatter Plot of Y5 vs XLOG

Y5

XLOG

Pistediagrammi (XLOG, Y5)

0.4 1.1 1.8 2.5 3.2

2

4

6

8

10

12

Scatter Plot of Y4PLUS vs XSQRT

Y4PL

US

XSQRT

TKK/SAL © Ilkka Mellin (2005) 27/37

Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset

Nämä pistediagrammit osoittavat, että

Y 4PLUS: ( ) ( ) log( )

Y5 : ( ) ( )

f y y g x x

f y y g x x

= =

= =

ovat oikeat valinnat.

Tämä perustuu seuraaviin huomioihin:

(i) Pistediagrammissa (XLOG, Y5) pistepilvi käyristyy regressiosuoran alapuolelle. Siten muunnos ( ) x=g x ei linearisoi muuttujan X ja Y4PLUS välistä riippuvuutta.

(ii) Pistediagrammissa (XSQRT, Y4PLUS) pistepilvi käyristyy regressiosuoran yläpuolelle. Siten muunnos g x ei linearisoi muuttujan X ja Y5 välistä riippuvuutta. ( ) log( )x=

(e) LINEAARISTEN MALLIEN ESTIMOINTI JA RESIDUAALIKUVIOIDEN PIIRTÄMINEN MUUNNETUISTA MUUTTUJISTA

Mallien estimointi

Olkoon mallina

(1) Y = β0 + β1 X + ε

jossa Y = Y2 / Y4PLUS / Y5 ja X = XINV / XLOG / XSQRT

STATISTIX: Statistics > Linear Models > Linear Regression Dependent Variable = Y2 / Y4PLUS / Y5 Independent Variables = XINV / XLOG / XSQRT

Residuaalidiagrammit (SOVITE, RESIDUAALI)

Piirretään residuaalidiagrammit

(SOVITE, RESIDUAALI)

STATISTIX: Linear Regression – Coefficient Table Results > Plots > Std Resids by Fitted Values

TKK/SAL © Ilkka Mellin (2005) 28/37

Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset

Otteet estimointituloksista

Malli: Y2 = β0 + β1 XINV + ε

UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF Y2 PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P --------- ----------- --------- ----------- ------ CONSTANT 5.02999 0.15793 31.85 0.0000 XINV 2.05250 0.13776 14.90 0.0000 R-SQUARED 0.8222

4 6 8 10 12 14

-2.7

-1.8

-0.9

0.0

0.9

1.8

2.7

Regression Residual Plot

Stan

dard

ized

Res

idua

ls

Fitted values Mallin selitysaste on 82 %.

Muuttuja XINV on selittäjänä merkitsevä.

Residuaalidiagrammi indikoi, että mallin rakenneosa on oikein muotoiltu.

TKK/SAL © Ilkka Mellin (2005) 29/37

Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset

Malli: Y4PLUS = β0 + β1 XLOG + ε

UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF Y4PLUS PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P --------- ----------- --------- ----------- ------ CONSTANT 6.11708 0.20933 29.22 0.0000 XLOG 1.95665 0.12486 15.67 0.0000 R-SQUARED 0.8365

3 5 7 9 11

-2.7

-1.8

-0.9

0.0

0.9

1.8

2.7

Regression Residual Plot

Stan

dard

ized

Res

idua

ls

Fitted values Mallin selitysaste on 84 %.

Muuttuja XLOG on selittäjänä merkitsevä.

Residuaalidiagrammi indikoi, että mallin rakenneosa on oikein muotoiltu.

TKK/SAL © Ilkka Mellin (2005) 30/37

Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset

Malli: Y5 = β0 + β1 XSQRT + ε

UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF Y5 PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P --------- ----------- --------- ----------- ------ CONSTANT 6.19962 0.36909 16.80 0.0000 XSQRT 1.93523 0.16110 12.01 0.0000 R-SQUARED 0.7504

7.0 7.9 8.8 9.7 10.6 11.5 12.4

-2.7

-1.8

-0.9

0.0

0.9

1.8

2.7

Regression Residual Plot

Stan

dard

ized

Res

idua

ls

Fitted values Mallin selitysaste on 75 %.

Muuttuja XSQRT on selittäjänä merkitsevä.

Residuaalidiagrammi indikoi, että mallin rakenneosa on oikein muotoiltu.

TKK/SAL © Ilkka Mellin (2005) 31/37

Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset

(f) JOHTOPÄÄTÖKSET

Kohdan (e) perusteella näyttää siltä, että seuraavat muunnokset ovat oikeita:

Y 2: ( ) ( ) 1/Y 4PLUS: ( ) ( ) log( )

Y5 : ( ) ( )

f y y g x xf y y g x x

f y y g x x

= == =

= =

Nämä ovat todellakin ne muunnokset, joita on käytetty havaintojen generoinnissa:

Y 2: 5 2Y 4 PLUS: 6 2log( )

Y 5 : 6 2

y xy x

y x

εε

ε

= + += + +

= + +

Muuttujat x ja ε generoitiin seuraavasti:

Uniform(0,10)N(0,1)

xε∼∼

TKK/SAL © Ilkka Mellin (2005) 32/37

Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset

4. HOMOSKEDASTISUUDEN TESTAAMINEN STATISTIX-tiedostoon CITYDATA on talletettu seuraavat muuttujat:

HSEVAL = Omakotitalojen hintojen keskiarvo

SIZEHSE = Talojen mediaanikoko

TAXRATE = Kiinteistöverosuhde

TOTEXP = Kunnallispalveluihin käytetty rahamäärä

COMPER = Vuokratalojen osuus

Aineisto koostuu 90 USA:n kuntaa koskevista tiedoista.

(a) Estimoi lineaarinen regressiomalli

HSEVAL = β0 + β1 SIZEHSE + β2 TAXRATE

+ β3 TOTEXP + β4 COMPER + ε

Ovatko kaikki selittäjät tilastollisesti merkitseviä?

Tuntuvatko regressiokertoimien estimaattien merkit järkeviltä?

(b) Piirrä residuaalikuvio (SOVITE, RESIDUAALI).

Ovatko residuaalit homo- vai heteroskedastisia?

(c) Tee homoskedastisuustesti, joka perustuu apuregressioon

20 1 ˆj je y jα α δ= + +

Jos R2 on tästä apuregressiosta määrätty selitysaste, niin

2 2 (1)nR χ∼

homoskedastisuusoletuksen pätiessä.

Ovatko residuaalit homo- vai heteroskedastisia?

TKK/SAL © Ilkka Mellin (2005) 33/37

Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset

RATKAISU: (a) MALLIN ESTIMOINTI

Olkoon mallina

(1) HSEVAL = β0 + β1 SIZEHSE + β2 TAXRATE

+ β3 TOTEXP + β4 COMPER + ε

STATISTIX: Statistics > Linear Models > Linear Regression Dependent Variable = HSEVAL Independent Variables = SIZEHSE, TAXRATE, TOTEXP, COMPER

STATISTIX FOR WINDOWS CITYDAT UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF HSEVAL PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P VIF --------- ----------- --------- ----------- ------ ----- CONSTANT -23.4328 8.98561 -2.61 0.0108 SIZEHSE 9.21014 1.56419 5.89 0.0000 1.1 TAXRATE -177.534 39.8668 -4.45 0.0000 1.0 TOTEXP 1.423E-06 2.963E-07 4.80 0.0000 1.1 COMPER -20.3704 6.19937 -3.29 0.0015 1.2 R-SQUARED 0.5505 RESID. MEAN SQUARE (MSE) 11.5623 ADJUSTED R-SQUARED 0.5294 STANDARD DEVIATION 3.40033 SOURCE DF SS MS F P ---------- --- ---------- ---------- ----- ------ REGRESSION 4 1203.84 300.960 26.03 0.0000 RESIDUAL 85 982.792 11.5623 TOTAL 89 2186.63 CASES INCLUDED 90 MISSING CASES 0

Mallin selitysaste on 55 %.

Kaikki selittäjät ovat tilastollisesti merkitseviä ja merkeiltään järkeviä (pohdi tätä).

TKK/SAL © Ilkka Mellin (2005) 34/37

Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset

(b) RESIDUAALIDIAGRAMMI (SOVITE, RESIDUAALI)

Piirretään residuaalidiagrammi (SOVITE, RESIDUAALI)

STATISTIX: Linear Regression – Coefficient Table Results > Plots > Std Resids by Fitted Values

13 16 19 22 25 28 31

-4

-2

0

2

4

Regression Residual Plot

Stan

dard

ized

Res

idua

ls

Fitted values Residuaalidiagrammi indikoi, että mallin rakenneosa on oikein muotoiltu, mutta jäännöstermit saattavat olla heteroskedastisia, koska residuaalien vyö levenee oikealle.

(c) HOMOGEENISUUDEN TESTAAMINEN

Tässä käytettävä homogeenisuustesti perustuu apuregressioon

20 1 ˆ , 1,2, ,j j je y jα α δ= + + = … n

Jos R2 on tästä apuregressiosta määrätty selitysaste, niin

2 2 (1)nR χ∼

homoskedastisuusoletuksen pätiessä.

TKK/SAL © Ilkka Mellin (2005) 35/37

Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset

Sovitteiden ja residuaalien tallettaminen Talletetaan sovitteet ja residuaalit tiedostoon CITYDATA.

STATISTIX: Linear Regression – Coefficient Table Results > Save Residuals Fitted Value = FIT Residual = RES

Lisätään residuaalien neliöt muuttujaksi RESSQR tiedostoon CITYDATA.

STATISTIX: Data > Transformations Transformation Expression RESSQR = RES * RES

Apuregression estimointi Olkoon mallina

(2) RESSQR = β0 + β1 FIT + ε

STATISTIX: Statistics > Linear Models > Linear Regression Dependent Variable = RESSQR Independent Variables = FIT

STATISTIX FOR WINDOWS CITYDAT UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF RESSQR PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P --------- ----------- --------- ----------- ------ CONSTANT -15.0943 11.9630 -1.26 0.2104 FIT 1.23697 0.56043 2.21 0.0299 R-SQUARED 0.0525 RESID. MEAN SQUARE (MSE) 378.099 ADJUSTED R-SQUARED 0.0417 STANDARD DEVIATION 19.4448 SOURCE DF SS MS F P ---------- --- ---------- ---------- ----- ------ REGRESSION 1 1841.99 1841.99 4.87 0.0299 RESIDUAL 88 33272.7 378.099 TOTAL 89 35114.7 CASES INCLUDED 90 MISSING CASES 0

TKK/SAL © Ilkka Mellin (2005) 36/37

Mat-2.104 Tilastollisen analyysin perusteet 9. harjoitukset

TKK/SAL © Ilkka Mellin (2005) 37/37

Homogeenisuustesti Olkoon nollahypoteesina

20H : Var( ) , 1,2, ,j j nε σ= = #

Nollahypoteesin H0 pätiessä

2 2 (1)nR χ∼

jossa R2 on em. apuregression selitysaste.

Nyt

nR2 = 90×0.0525 = 4.725

Testisuureen arvoa 4.725 vastaava p-arvo saadaan seuraavalla STATISTIX-operaatiolla:

STATISTIX: Statistics > Probability Functions Chi-square (x, df) X = 4.725 DF = 1

Koska testisuuteen arvoa 4.725 vastaava p-arvo = 0.02973, voidaan nollahypoteesi mallin (1) jäännöstermin homoskedastisuudesta hylätä merkitsevyystasolla 0.05, mutta ei merkitsevyys- tasolla 0.01.

Johtopäätös: Mallin (1) jäännöstermi on jonkin verran heteroskedastinen.