26
TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Regressiodiagnostiikka TKK (c) Ilkka Mellin (2004) 2 Yleinen lineaarinen malli ja regressiodiagnostiikka Regressiografiikka Poikkeavat havainnot Regressiokertoimien vakioisuus Multikollineaarisuus Homoskedastisuus ja heteroskedastisuus Autokorrelaatio Normaalisuus Mallin ennustuskyky Regressiodiagnostiikka TKK (c) Ilkka Mellin (2004) 3 Regressiodiagnostiikka: Mitä opimme? – 1/2 Regressiomallien soveltamisen pääkysymys on seuraava: Kuvaako selitettävän muuttujan ja selittäjien väliselle tilastolliselle riippuvuudelle täsmennetty regressiomalli riippuvuutta oikein? Ns. standardioletukset takaavat sen, että pienimmän neliösumman menetelmä tuottaa regressioparametreille optimaaliset estimaattorit. Jos ns. standardioletukset eivät päde, pienimmän neliösumman menetelmä ei välttämättä ole optimaalinen. Regressiodiagnostiikassa estimoituun regressiomalliin kohdistetaan diagnostisia testejä, joilla pyritään selvittämään pätevätkö mallista tehdyt standardioletukset. Jos diagnostiset testi osoittavat, että regressiomalli on täsmennetty väärin, voidaan mallia pyrkiä korjaamaan niin, että se kuvaisi paremmin selitettävä muuttujan ja selittäjien välistä tilastollista riippuvuutta. TKK (c) Ilkka Mellin (2004) 4 Regressiodiagnostiikka: Mitä opimme? – 2/2 Tässä luvussa tarkastellaan seuraavia regressiodiagnostiikan kohtia: Regressiografiikan käyttö regressiodiagnostiikassa Poikkeavat havainnot ja niiden tunnistaminen Regressiokertoimien vakioisuuden testaaminen Selittäjien multikollineaarisuuden vaikutukset ja mittaaminen Mallin jäännöstermin homoskedastisuus ja heteroskedastisuus Mallin jäännöstermin korreloituneisuus Mallin jäännöstermin normaalisuus Mallin ennustuskyky TKK (c) Ilkka Mellin (2004) 5 Regressiodiagnostiikka: Esitiedot Esitiedot: ks. seuraavia lukuja: Yleinen lineaarinen malli Moniulotteiset satunnaismuuttujat ja todennäköisyysjakaumat Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (2004) 6 Regressiodiagnostiikka: Lisätiedot Yleisen lineaarisen mallin soveltamisen erityiskysymyksiä käsitellään myös luvuissa Regressiomallin valinta Regressioanalyysin erityiskysymyksiä

Regressiodiagnostiikka - Aalto

  • Upload
    others

  • View
    11

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Regressiodiagnostiikka - Aalto

1

TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseenRegressiodiagnostiikka

TKK (c) Ilkka Mellin (2004) 2

Yleinen lineaarinen malli ja regressiodiagnostiikkaRegressiografiikkaPoikkeavat havainnotRegressiokertoimien vakioisuusMultikollineaarisuusHomoskedastisuus ja heteroskedastisuusAutokorrelaatioNormaalisuusMallin ennustuskyky

Regressiodiagnostiikka

TKK (c) Ilkka Mellin (2004) 3

Regressiodiagnostiikka:Mitä opimme? – 1/2

• Regressiomallien soveltamisen pääkysymys on seuraava:Kuvaako selitettävän muuttujan ja selittäjien väliselle tilastolliselle riippuvuudelle täsmennetty regressiomalli riippuvuutta oikein?

• Ns. standardioletukset takaavat sen, että pienimmän neliösumman menetelmä tuottaa regressioparametreille optimaaliset estimaattorit.

• Jos ns. standardioletukset eivät päde, pienimmän neliösumman menetelmä ei välttämättä ole optimaalinen.

• Regressiodiagnostiikassa estimoituun regressiomalliin kohdistetaan diagnostisia testejä, joilla pyritään selvittämään pätevätkö mallista tehdyt standardioletukset.

• Jos diagnostiset testi osoittavat, että regressiomalli on täsmennetty väärin, voidaan mallia pyrkiä korjaamaan niin, että se kuvaisi paremmin selitettävä muuttujan ja selittäjien välistä tilastollista riippuvuutta.

TKK (c) Ilkka Mellin (2004) 4

Regressiodiagnostiikka:Mitä opimme? – 2/2

• Tässä luvussa tarkastellaan seuraavia regressiodiagnostiikan kohtia:– Regressiografiikan käyttö regressiodiagnostiikassa– Poikkeavat havainnot ja niiden tunnistaminen– Regressiokertoimien vakioisuuden testaaminen– Selittäjien multikollineaarisuuden vaikutukset ja mittaaminen– Mallin jäännöstermin homoskedastisuus ja heteroskedastisuus– Mallin jäännöstermin korreloituneisuus– Mallin jäännöstermin normaalisuus– Mallin ennustuskyky

TKK (c) Ilkka Mellin (2004) 5

Regressiodiagnostiikka:Esitiedot

• Esitiedot: ks. seuraavia lukuja:Yleinen lineaarinen malli

Moniulotteiset satunnaismuuttujat ja todennäköisyysjakaumatMoniulotteisia todennäköisyysjakaumia

TKK (c) Ilkka Mellin (2004) 6

Regressiodiagnostiikka:Lisätiedot

• Yleisen lineaarisen mallin soveltamisen erityiskysymyksiä käsitellään myös luvuissa

Regressiomallin valintaRegressioanalyysin erityiskysymyksiä

Page 2: Regressiodiagnostiikka - Aalto

2

TKK (c) Ilkka Mellin (2004) 7

>> Yleinen lineaarinen malli ja regressiodiagnostiikkaRegressiografiikkaPoikkeavat havainnotRegressiokertoimien vakioisuusMultikollineaarisuusHomoskedastisuus ja heteroskedastisuusAutokorrelaatioNormaalisuusMallin ennustuskyky

Regressiodiagnostiikka

TKK (c) Ilkka Mellin (2004) 8

AvainsanatDeterministinen malliHeteroskedastisuusHomoskedastisuusJäännöstermiKorrelaatioNormaalisuusLineaarinen regressiomalliMallin ennustuskykyMallin spesifiointiMallin täsmentäminenMultikollineaarisuusPienimmän neliösumman

menetelmäPoikkeava havaintoRakenneosa

Yleinen lineaarinen malli ja regressiodiagnostiikka

RegressioanalyysiRegressiodiagnostiikkaRegressiofunktioRegressiokerroinRegressiomalliSatunnainen osaSelitettävä muuttujaSelittäjien valintaSelittäminenSelittävä muuttujaSpesifiointivirheStandardioletusSystemaattinen osaTilastollinen riippuvuusVakioparametrisuusoletus

TKK (c) Ilkka Mellin (2004) 9

Yleinen lineaarinen malli ja regressiodiagnostiikka Regressiomallit selitysmalleina

• Oletetaan, että tavoitteena on selittää selitettävän muuttujan y havaittujen arvojen vaihtelu selittävien muuttujien eli selittäjien x1, x2, … , xk havaittujen arvojen vaihtelun avulla.

• Sitä varten selitettävän muuttujan y tilastolliselle riippuvuudelle selittäjistä x1, x2, … , xk pyritään rakentamaan tilastollinen malli, jota kutsutaan regressiomalliksi.

TKK (c) Ilkka Mellin (2004) 10

Yleinen lineaarinen malli ja regressiodiagnostiikka Regressiomallien yleinen muoto 1/3

• Olkoon

selitettävän muuttujan y regressiomalli selittäjien x1, x2, … , xk suhteen.

• Tällöinyj = selitettävän muuttujan y satunnainen ja

havaittu arvo havaintoyksikössä jxji = selittävän muuttujan xi havaittu arvo

havaintoyksikössä j, i = 1, 2, … , kεj = satunnainen ja ei-havaittu jäännös- eli

virhetermi havaintoyksikössä j

1 2( , , , ; ) , 1,2, ,j j j jk jy f x x x j nε= + =β… …

TKK (c) Ilkka Mellin (2004) 11

Yleinen lineaarinen malli ja regressiodiagnostiikka Regressiomallien yleinen muoto 2/3

• Regressiomallissa

selittäjien x1, x2, … , xk havaittujen arvojen funktio

muodostaa mallin systemaattisen osan eli rakenneosanja jäännöstermi

εj

muodostaa mallin satunnaisen osan.• Mallin systemaattinen osa kuvaa selitettävän muuttujan y

tilastollista riippuvuutta selittäjistä x1, x2, … , xk.

1 2( , , , ; ) , 1,2, ,j j j jk jy f x x x j nε= + =β… …

1 2( , , , ; )j j jkf x x x β…

TKK (c) Ilkka Mellin (2004) 12

Yleinen lineaarinen malli ja regressiodiagnostiikka Regressiomallien yleinen muoto 3/3

• Regressiomallissa

mallin systemaattisen osan määräävä funktio

riippuu parametristaβ = (β1, β2, … , βp)

joka tarkemmin määrää funktion f muodon.• Huomautus:

Tavallisesti parametrin β arvo on tuntematon ja on siksi estimoitava havainnoista.

1 2( , , , ; ) , 1,2, ,j j j jk jy f x x x j nε= + =β… …

1 2( , , , ; )j j jkf x x x β…

Page 3: Regressiodiagnostiikka - Aalto

3

TKK (c) Ilkka Mellin (2004) 13

Yleinen lineaarinen malli ja regressiodiagnostiikka Onko malli oikea ja onko malli hyvä?

• Regressioanalyysin peruskysymykset:(i) Kuvaako malli selitettävän muuttujan ja selittäjien

välistä riippuvuutta sisällöllisesti oikein? Kysymys 1 ei ole tilastotieteellinen ja siihenvastaaminen vaatii tutkittavaa ilmiötä kuvaavan taustateorian tuntemusta.

(ii) Kuvaako malli selitettävän muuttujan ja selittäjien välistä riippuvuutta tilastollisesti oikein?Kysymys 2 on tilastotieteellinen ja siihen voidaan pyrkiä vastaamaan tilastotieteen keinoin.

TKK (c) Ilkka Mellin (2004) 14

Yleinen lineaarinen malli ja regressiodiagnostiikkaRegressiomallin hyvyys ja regressiodiagnostiikka 1/2

• Regressiomallia pidetään tilastollisesti oikeana, jos mallista saadut estimointitulokset ovat sopusoinnussa mallia koskevien oletuksien kanssa.

• Siksi regressiomallia koskevien oletuksien tarkistaminenmuodostaa keskeisen osan regressioanalyysin soveltamista.

• Regressiomallia koskevien oletuksien tarkistamista on tapana kutsua regressiodiagnostiikaksi.

TKK (c) Ilkka Mellin (2004) 15

Yleinen lineaarinen malli ja regressiodiagnostiikkaRegressiomallin hyvyys ja regressiodiagnostiikka 2/2

• Regressiodiagnostiikassa käytetään seuraavia menetelmiä:– Estimoinnin onnistumista havainnollistetaan

tilastografiikalla.– Estimoinnin onnistumista kuvataan

diagnostisilla tunnusluvuilla.– Mallia koskevia oletuksia testataan

diagnostisilla testeillä.

TKK (c) Ilkka Mellin (2004) 16

Yleinen lineaarinen malli ja regressiodiagnostiikkaRegressiomallin spesifiointi eli täsmentäminen 1/2

• Tilastollisen mallin muodon ja mallia koskevien oletuksienmäärittelemistä kutsutaan mallin spesifioinniksi eli täsmentämiseksi.

• Määriteltyä mallia kutsutaan spesifikaatioksi tai täsmennykseksi.

TKK (c) Ilkka Mellin (2004) 17

Yleinen lineaarinen malli ja regressiodiagnostiikkaRegressiomallin spesifiointi eli täsmentäminen 2/2

• Regressiomallin spesifioiminen tarkoittaa seuraavien valintojen tekemistä:(i) Mallin selitettävän muuttujan ja selittäjien valinta.(ii) Mallin systemaattisen eli rakenneosan funktionaalisen

muodon ja parametroinnin valinta.(iii) Mallin selitettävän muuttujan ja selittäjien

funktionaalisen muodon valinta.(iv) Mallin jäännöstermiä koskevien stokastisten

oletuksien valinta.

TKK (c) Ilkka Mellin (2004) 18

Yleinen lineaarinen malli ja regressiodiagnostiikkaRegressiomallin täsmentäminen:Kommentteja

• Valinnat (i)-(iii) liittyvät regressiomallin rakenneosan spesifiointiin.

• Valinta (iv) liittyy regressiomallin jäännöstermin spesifiointiin.

• Huomautus:Valinnat (i)-(iv) eivät ole toisistaan riippumattomia.

Page 4: Regressiodiagnostiikka - Aalto

4

TKK (c) Ilkka Mellin (2004) 19

Yleinen lineaarinen malli ja regressiodiagnostiikkaLineaariset regressiomallit

• Olkoon selitettävän muuttujan y regressiomalli selittäjien x1, x2, … , xk suhteen muotoa

• Tällöin malli on lineaarinen sekä parametrien (regressio-kertoimien) β0, β1, β2, … , βk että selittäjien x1, x2, … , xksuhteen ja sitä kutsutaan yleiseksi lineaariseksi malliksi.

0 1 1 2 2 , 1,2, ,j j j k jk jy x x x j nβ β β β ε= + + + + + = …

TKK (c) Ilkka Mellin (2004) 20

Yleinen lineaarinen malli ja regressiodiagnostiikkaYleinen lineaarinen malli:Määritelmä

• Olkoon

yleinen lineaarinen malli, jossayj = selitettävän muuttujan y satunnainen ja

havaittu arvo havaintoyksikössä jxji = selittävän muuttujan eli selittäjän xi havaittu

arvo havaintoyksikössä j , i = 1, 2, … , kβ0 = vakioselittäjän tuntematon regressiokerroinβi = selittäjän xi tuntematon regressiokerroinεj = satunnainen ja ei-havaittu jäännös- eli

virhetermi havaintoyksikössä j

0 1 1 2 2 , 1,2, ,j j j k jk jy x x x j nβ β β β ε= + + + + + = …

TKK (c) Ilkka Mellin (2004) 21

Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli:Matriisiesitys

• Yleinen lineaarinen malli voidaan esittää matriiseinmuodossa

jossay = selitettävän muuttujan y havaittujen arvojen

muodostama satunnainen n-vektoriX = selittäjien x1, x2, … , xk havaittujen arvojen

ja ykkösten muodostama n×(k + 1)-matriisiβ = regressiokertoimien muodostama tuntematon

ja kiinteä eli ei-satunnainen (k + 1)-vektoriε = jäännöstermien muodostama ei-havaittu ja

satunnainen n-vektori

+y = Xβ ε

TKK (c) Ilkka Mellin (2004) 22

Yleinen lineaarinen malli ja regressiodiagnostiikkaYleinen lineaarinen malli:Standardioletukset kiinteille selittäjille

• Jos yleisen lineaarisen mallin selittäjät x1, x2, … , xk ovat kiinteitä eli ei-satunnaisia muuttujia, mallia koskevat standardioletukset voidaan esittää matriisein seuraavassa muodossa:(i) Matriisin X alkiot ovat ei-satunnaisia vakioita.(ii) Matriisi X on täysiasteinen: r(X) = k + 1(iii) E(ε) = 0(iv)&(v) Homoskedastisuus- ja korreloimattomuusoletus:

Cov(ε) = σ2I(vi) Normaalisuusoletus:

ε ∼ Nn(0, σ2I)

+y = Xβ ε

TKK (c) Ilkka Mellin (2004) 23

Yleinen lineaarinen malli ja regressiodiagnostiikkaYleinen lineaarinen malli:Standardioletukset satunnaisille selittäjille

• Jos yleisen lineaarisen mallin selittäjät x1, x2, … , xk ovat satunnaismuuttujia, mallia koskevat standardioletukset voidaan esittää matriisein seuraavassa muodossa:(i)´ Matriisin X alkiot ovat satunnaismuuttujia.(ii)´ Matriisi X on täysiasteinen: r(X) = k + 1(iii)´ E(ε | X) = 0(iv)´&(v)´ Homoskedastisuus- ja korreloimattomuusoletus:

Cov(ε | X) = σ2I(vi)´ Normaalisuusoletus:

(ε | X) ∼ Nn(0, σ2I)

+y = Xβ ε

TKK (c) Ilkka Mellin (2004) 24

Yleinen lineaarinen malli ja regressiodiagnostiikkaYleinen lineaarinen malli:Rakenneosa ja jäännösosa

• Yleisessä lineaarisessa mallissa

selitettävä muuttujan arvojen vektori y on esitetty kahden osatekijän summana.

• Mallin systemaattinen eli rakenneosa

riippuu selittäjien havaituista arvoista.• Jäännöstermi ε muodostaa mallin satunnaisen osan, joka

ei riipu selittäjien havaituista arvoista.

= +y Xβ ε

E( ) =y X Xβ

Page 5: Regressiodiagnostiikka - Aalto

5

TKK (c) Ilkka Mellin (2004) 25

Yleinen lineaarinen malli ja regressiodiagnostiikkaYleinen lineaarinen malli:Regressiokertoimien PNS-estimointi 1/2

• Yleisen lineaarisen mallin

regressiokertoimienβ0, β1, β2, … , βk

PNS- eli pienimmän neliösumman estimaattoritb0, b1, b2, … , bk

minimoivat jäännös- eli virhetermien εj neliösumman

kertoimien β0, β1, β2, … , βk suhteen.

2 20 1 1 2 2

1 1( )

n n

j j j j k jkj j

y x x xε β β β β= =

= − − − − −∑ ∑

0 1 1 2 2 , 1,2, ,j j j k jk jy x x x j nβ β β β ε= + + + + + = …

TKK (c) Ilkka Mellin (2004) 26

Yleinen lineaarinen malli ja regressiodiagnostiikkaYleinen lineaarinen malli:Regressiokertoimien PNS-estimointi 2/2

• Yleisen lineaarisen mallin

regressiokertoimien vektorin β = (β0, β1, β2, … , βk)

PNS-estimaattori voidaan esittää matriisein muodossa

= +y Xβ ε

1( )−′ ′=b X X X y

TKK (c) Ilkka Mellin (2004) 27

Yleinen lineaarinen malli ja regressiodiagnostiikkaYleinen lineaarinen malli:PNS-estimaattorin ominaisuudet

• Yleisen lineaarisen mallin

regressiokertoimien vektorin β PNS-estimaattorilla

on standardioletuksien (i)-(vi) pätiessä seuraavat stokastiset ominaisuudet:

= +y Xβ ε

1( )−′ ′=b X X X y

2 1

2 11

E( )Cov( ) ( )

N ( , ( ) )k

σ

σ

−+

=

′=

b βb X X

b β X X∼

TKK (c) Ilkka Mellin (2004) 28

Yleinen lineaarinen malli ja regressiodiagnostiikkaYleinen lineaarinen malli:Sovitteet ja residuaalit 1/2

• Olkoonb = (b0, b1, b2, … , bk)

regressiokertoimien vektorinβ = (β0, β1, β2, … , βk)

PNS-estimaattori.• Määritellään estimoidun mallin sovitteet kaavalla

• Määritellään estimoidun mallin residuaalit ej kaavalla0 1 1 2 2 , 1,2, ,ˆ j j j k jky b b x b x b x j n= + + + + = …

0 1 1 2 2

ˆ, 1,2, ,

j j j

j j j k jk

e y y

y b b x b x b x j n

= −

= − − − − − = …

ˆ jy

TKK (c) Ilkka Mellin (2004) 29

Yleinen lineaarinen malli ja regressiodiagnostiikkaYleinen lineaarinen malli:Sovitteet ja residuaalit 2/2

• Sovitteiden muodostama n-vektori voidaan esittäämatriisein muodossa

• Residuaalien muodostama n-vektori voidaan esittäämatriisein muodossa

• Huomautus:Koska residuaalit kuvaavat estimoidun regressiomallin ja havaintoarvojen yhteensopivuutta, monet regressiodiagnostiikan menetelmistä perustuvat estimoidun regressiomallin residuaaleihin tai niiden muunnoksiin.

1ˆ ( )−′ ′= = =y Xb X X X X y Py

1ˆ ( ( ) ) ( )−′ ′= − = − = − =e y y I X X X X y I P y My

TKK (c) Ilkka Mellin (2004) 30

Yleinen lineaarinen malli ja regressiodiagnostiikkaYleinen lineaarinen malli:Sovitteiden ja residuaalien ominaisuudet

• Sovitteiden muodostamalla n-vektorilla on seuraavat stokastiset ominaisuudet :

• Residuaalien muodostamalla n-vektorilla e on seuraavat stokastiset ominaisuudet :

• Huomautus:Yllä olevan mukaan residuaalit ej ovat yleensä sekäheteroskedastisia että korreloituneita, vaikka jäännöstermit εj on oletettu homoskedastisiksi ja korreloimattomiksi.

2 2 1

ˆE( )ˆCov( ) ( )σ σ −

=

′ ′= =

y Xβy P X X X X

2 2 2 1

E( )Cov( ) ( ) ( ( ) )σ σ σ −

=

′ ′= = − = −

e 0e M I P I X X X X

y

Page 6: Regressiodiagnostiikka - Aalto

6

TKK (c) Ilkka Mellin (2004) 31

Yleinen lineaarinen malli ja regressiodiagnostiikkaYleinen lineaarinen malli:Projektiomatriisit P ja M

• Matriisit

ovat symmetrisiä ja idempotentteja eli projektioita:

• LisäksiPM = MP = 0

• Matriisia P kutsutaan regressiodiagnostiikassa usein hattumatriisiksi.

1

1

( )( )

′ ′=

′ ′= − = −

P X X X XM I P I X X X X

2

2

′ = =

′ = =

P P P PM M M M

TKK (c) Ilkka Mellin (2004) 32

Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli:Jäännösvarianssin estimointi

• Yleisen lineaarisen mallin jäännöstermien εj varianssin eli jäännösvarianssin σ2 harhaton estimaattori on

jossaej = estimoidun mallin residuaali, j = 1, 2, … , nn = havaintojen lukumääräk = (aitojen) selittäjien xi lukumäärä

2 2

1

11

n

jj

s en k =

=− − ∑

TKK (c) Ilkka Mellin (2004) 33

Yleinen lineaarinen malli ja regressiodiagnostiikkaYleinen lineaarinen malli:Mallin spesifiointi

• Yleistä lineaarista mallia

sovellettaessa pääkiinnostus kohdistuu mallin systemaattisen osan eli rakenneosan

oikeaan spesifiointiin eli täsmentämiseen, koska juuri mallin rakenneosa kuvaa selitettävän muuttujan yriippuvuutta selittäjistä x1, x2, … , xk .

• Virheet mallin rakenneosan spesifioinnissa johtavat virheellisiin johtopäätöksiin selitettävän muuttujan ja selittäjien välisestä riippuvuudesta.

= +y Xβ ε

E( ) =y X Xβ

TKK (c) Ilkka Mellin (2004) 34

Yleinen lineaarinen malli ja regressiodiagnostiikkaYleinen lineaarinen malli:Spesifiointivirheet mallin rakenneosassa 1/3

• Spesifiointivirheitä lineaarisen mallin rakenneosassa:(i) Sovelletaan lineaarista mallia, vaikka selitettävän

muuttujan y riippuvuus selittäjistä x1, x2, … , xk ei ole lineaarista.

(ii) Mallissa on väärät selittäjät:– Mallista puuttuu selittäjiä.– Mallissa on liikaa selittäjiä.

(iii) Selitettävä muuttuja ja/tai selittäjät ovat mallissa väärässä funktionaalisessa muodossa.

(iv) Oletetaan virheellisesti, että regressiokertoimet ovat vakioita.

TKK (c) Ilkka Mellin (2004) 35

Yleinen lineaarinen malli ja regressiodiagnostiikkaYleinen lineaarinen malli:Spesifiointivirheet mallin rakenneosassa 2/3

• Kommentteja kohtiin (i)-(iv):(i) Epälineaaristen regressiomallien käsittely

sivuutetaan tässä esityksessä.(ii) Selittäjien valinta on regressioanalyysin keskeisiä

– ja vaikeimpia – ongelmia.Ks. lukua Regressiomallin valinta.

(iii) Sopiva selitettävän muuttujan ja/tai selittäjien muunnos saattaa linearisoida selitettävän muuttujan ja selittäjien epälineaarisen riippuvuuden. Ks. lukua Regressiomallin valinta.

(iv) Parametrien vakioisuutta on mahdollista testata.Ks. kappaletta Parametrien vakioisuus.

TKK (c) Ilkka Mellin (2004) 36

Yleinen lineaarinen malli ja regressiodiagnostiikkaYleinen lineaarinen malli:Spesifiointivirheet mallin rakenneosassa 3/3

• Vain huolellinen perehtyminen tutkittavan ilmiön taustateoriaan mahdollistaa regressiomallin rakenneosan spesifioinnin oikein.

• Spesifiointivirheet regressiomallin rakenneosassa tulevat tavallisesti esiin estimoidun mallinresiduaaleissa.

Page 7: Regressiodiagnostiikka - Aalto

7

TKK (c) Ilkka Mellin (2004) 37

Yleinen lineaarinen malli ja regressiodiagnostiikkaYleinen lineaarinen malli:Mallin jäännöstermin spesifiointi

• Vaikka yleistä lineaarista mallia

sovellettaessa pääasiallinen kiinnostus kohdistuu mallin systemaattisen osan eli rakenneosan

oikeaan spesifiointiin, on syytä huomata, että mallin jäännöstermille

εvalittu spesifikaatio eli täsmennys vaikuttaa sekäestimointimenetelmän valintaan että mallista tehtävään tilastolliseen päättelyyn.

= +y Xβ ε

E( ) =y X Xβ

TKK (c) Ilkka Mellin (2004) 38

Yleinen lineaarinen malli ja regressiodiagnostiikkaYleinen lineaarinen malli:Spesifiointivirheet mallin jäännöstermissä 1/3

• Spesifiointivirheitä lineaarisen mallin jäännöstermissä:(i) Oletetaan virheellisesti, että jäännöstermi ε on

homoskedastinen ja korreloimaton.(ii) Oletetaan virheellisesti, että jäännöstermi ε on

normaalinen.

TKK (c) Ilkka Mellin (2004) 39

Yleinen lineaarinen malli ja regressiodiagnostiikkaYleinen lineaarinen malli:Spesifiointivirheet mallin jäännöstermissä 2/3

• Kommentteja kohtiin (i)-(ii):(i) Jos jäännöstermiä koskeva homoskedastisuus-

tai korreloimattomuusoletus ei päde, regressio-kertoimien PNS-estimaattorit eivät ole parhaitaGaussin ja Markovin lauseen mielessä.Ks. lukua Regressiomallin erityiskysymyksiä.

(ii) Jos jäännöstermiä koskeva normaalisuusoletus ei päde, t- ja F-jakaumiin perustuva tilastolliset testit eivät välttämättä ole päteviä.

TKK (c) Ilkka Mellin (2004) 40

Yleinen lineaarinen malli ja regressiodiagnostiikkaYleinen lineaarinen malli:Spesifiointivirheet mallin jäännöstermissä 3/3

• Spesifiointivirheet regressiomallin jäännöstermissänäkyvät tavallisesti estimoidun mallin residuaaleissa.

• Estimoidun mallin residuaaleissa havaittu hetero-skedastisuus, korreloituneisuus tai epänormaalisuus ei kuitenkaan välttämättä merkitse sitä, että mallin jäännöstermi on spesifioitu väärin.

• Residuaalien heteroskedastisuus, korreloituneisuus tai epänormaalisuus saattavat indikoida myös sitä, ettämallin rakenneosa on spesifioitu väärin.

TKK (c) Ilkka Mellin (2004) 41

Yleinen lineaarinen malli ja regressiodiagnostiikkaYleinen lineaarinen malli:Spesifiointivirheiden vaikutukset

• Regressioanalyysissa pääkiinnostus kohdistuu oikean spesifikaation löytämiseen regressiomallin systemaattiselle osalle eli rakenneosalle, koska juuri rakenneosa kuvaa selitettävän muuttujan riippuvuutta selittäjistä.

• Regressiomallin jäännöstermin spesifikaatio vaikuttaa kuitenkin voimakkaasti sekä mallin estimointiin ettätestaukseen.

• Sekä regressiomallin rakenneosan että jäännöstermin virheellinen spesifiointi näkyy tavallisesti estimoidun mallin residuaaleissa.

TKK (c) Ilkka Mellin (2004) 42

Yleinen lineaarinen malli ja regressiodiagnostiikkaYleinen lineaarinen malli:Diagnostiset tarkistukset

• Regressiomalli on aina syytä alistaa seuraavien diagnostisten tarkistusten kohteeksi:(i) Onko havaintojen joukossa regressioanalyysin

tuloksia vääristäviä poikkeavia havaintoja?(ii) Ovatko regressiokertoimet vakioita?(iii) Ovatko selittäjät itsenäisiä?(iv) Ovatko mallin jäännöstermit homoskedastisia?(v) Ovatko mallin jäännöstermit korreloimattomia?(vi) Ovatko mallin jäännöstermit normaalisia?

Page 8: Regressiodiagnostiikka - Aalto

8

TKK (c) Ilkka Mellin (2004) 43

Yleinen lineaarinen malli ja regressiodiagnostiikkaYleinen lineaarinen malli:Mallin ennustuskyvyn arviointi

• On syytä muistaa, että voimakkain testi tieteelliselle selitysmallille on sen kyky ennustaa.

• Siksi regressiomalleja sovellettaessa on aina syytä testata mallin ennustuskykyä tavanomaisten diagnostisten tarkistusten lisäksi.

TKK (c) Ilkka Mellin (2004) 44

Yleinen lineaarinen malli ja regressiodiagnostiikka>> Regressiografiikka

Poikkeavat havainnotParametrien vakioisuusMultikollineaarisuusHomoskedastisuus ja heteroskedastisuusAutokorrelaatioNormaalisuusMallin ennustuskyky

Regressiodiagnostiikka

TKK (c) Ilkka Mellin (2004) 45

AvainsanatAikasarjadiagrammiHeteroskedastisuusHomoskedastisuusJäännöstermiKorrelaatioLineaarinen regressiomalliPistediagrammiRakenneosaRegressiografiikkaResiduaaliResiduaalidiagrammiSatunnainen osaSelitysasteSoviteSystemaattinen osa

Regressiografiikka

TKK (c) Ilkka Mellin (2004) 46

RegressiografiikkaRegressiomallin hyvyys ja regressiografiikka

• Regressiomallin hyvyyttä voidaan tutkia mallista saatuja estimointituloksia havainnollistavien graafisten esitystenavulla.

• Regressiografiikan standardikuviot:(i) Kuviot, joiden avulla estimoidun mallin sovitteita

verrataan selitettävän muuttujan havaittuihin arvoihin.

(ii) Kuviot, joiden avulla havainnollistetaan estimoidun mallin residuaaleja.

TKK (c) Ilkka Mellin (2004) 47

RegressiografiikkaSovitteiden tutkiminen:Pistediagrammien käyttö 1/2

• Regressiomallin spesifikaation hyvyyttä voidaan tutkia vertaamalla estimoidun mallin sovitteita selitettävän muuttujan havaittuihin arvoihin piirtämällä niiden riippuvuutta havainnollistava pistediagrammi:Piirretään sovitteet selitettävän muuttujan havaittuja arvoja vastaan eli esitetään lukuparit

pisteinä avaruudessa .ˆ( , ) , 1,2, ,j jy y j n= …

2

TKK (c) Ilkka Mellin (2004) 48

RegressiografiikkaSovitteiden tutkiminen:Pistediagrammien käyttö 2/2

• Regressiomalli on sitä parempi mitä lähempänä pisteet

ovat suoraa, jonka kulmakerroin = 1.• Pisteiden muodostaman pistepilven

tai -parven käyristyminen viittaa regressiomallin rakenne-osan väärään spesifikaatioon eli täsmennykseen.

• Poikkeavat havainnot erottuvat tavallisesti ”kaukana” em. suorasta olevina pisteinä.

ˆ( , ) , 1,2, ,j jy y j n= …

ˆ( , ) , 1,2, ,j jy y j n= …

Page 9: Regressiodiagnostiikka - Aalto

9

TKK (c) Ilkka Mellin (2004) 49

RegressiografiikkaSovitteiden tutkiminen:Mallin hyvyyden mittaaminen

• Regressiomallin hyvyyden mittarina voidaan käyttää selitettävän muuttujan y havaittujen arvojen yj ja estimoidun mallin sovitteiden otoskorrelaatiokerrointa

• Jos estimoitu regressiomalli on lineaarinen ja mallissa on vakio,

jossa R2 on estimoidun mallin selitysaste.[ ]2 2ˆCor( , )y y R=

ˆCor( , )y yˆ jy

TKK (c) Ilkka Mellin (2004) 50

RegressiografiikkaResiduaalien tutkiminen:Residuaalidiagrammit 1/2

• Regressiomallin spesifikaation hyvyyttä voidaan tutkia piirtämällä estimoidun mallin residuaaleista kuviot, joita kutsutaan residuaalidiagrammeiksi:(i) Piirretään residuaalit sovitteita vastaan eli esitetään

lukuparit

pisteinä avaruudessa .(ii) Piirretään residuaalit eri selittäjien arvoja vastaan eli

esitetään lukuparit

pisteinä avaruudessa .

ˆ( , ) , 1,2, ,j jy e j n= …

( , ) , 1,2, , ; 1,2, ,ji jx e j n i k= =… …

2

2

TKK (c) Ilkka Mellin (2004) 51

RegressiografiikkaResiduaalien tutkiminen:Residuaalidiagrammit 2/2

• Oikein täsmennetyn regressiomallin residuaali-diagrammeissa pisteet muodostavat vaakatasossa vasemmalta oikealle etenevät tasaleveät pistepilvet tai -parvet, joissa ei näy poikkeavia havaintoja.

• Residuaalidiagrammien pistepilvien käyristyminen viittaa regressiomallin rakenneosan väärään spesifikaatioon elitäsmennykseen:(i) Selitettävän muuttujan riippuvuus selittäjistä ei ole

lineaarista.(ii) Mallissa ei ole oikeita selittäjiä.(iii) Selitettävä muuttuja ja/tai selittäjät eivät ole oikeassa

funktionaalisessa muodossa.TKK (c) Ilkka Mellin (2004) 52

RegressiografiikkaResiduaalien tutkiminen:Heteroskedastisuus

• Jos residuaalidiagrammien pistepilvet tai -parvet eivät ole tasaleveitä (esim. pilvet levenevät oikealle tai vasemmalle), regressiomallin jäännöstermi saattaa olla heteroskedastinen.

• Estimoidun mallin residuaalien heteroskedastisuus saattaa kuitenkin viitata myös mallin rakenneosan väärään spesifikaatioon eli täsmennykseen.

TKK (c) Ilkka Mellin (2004) 53

RegressiografiikkaAikasarjojen regressiomallit

• Aikasarjojen regressiomalleissa oletetaan, että havainnot on järjestetty ajassa niin, että havaintoindeksin

j = 1, 2, … , narvot viittaavat peräkkäisiin ajanhetkiin.

• Huomautus:Aikasarjoissa havaintoindeksinä käytetään usein kirjainta t:

t ← time

TKK (c) Ilkka Mellin (2004) 54

RegressiografiikkaAikasarjojen regressiomallit:Sovitteiden ja residuaalien tutkiminen 1/3

• Aikasarjojen regressiomallin spesifikaation hyvyyttätutkitaan tavallisesti piirtämällä seuraavat aikasarja-diagrammit:(i) Piirretään selitettävän muuttujan havaitut arvot

ja estimoidun mallin sovitteet

aikasarjoina samaan kuvioon.(ii) Piirretään estimoidun mallin residuaalit

aikasarjana.

ˆ , 1,2,...,jy j n=

, 1,2,...,jy j n=

, 1,2,...,je j n=

Page 10: Regressiodiagnostiikka - Aalto

10

TKK (c) Ilkka Mellin (2004) 55

RegressiografiikkaAikasarjojen regressiomallit:Sovitteiden ja residuaalien tutkiminen 2/3

• Aikasarjadiagrammit ovat pistediagrammeja, joissa muuttujan arvot piirretään aikaa vastaan.Tavallisesti peräkkäisiin havaintoihin liittyvät pisteet yhdistetään aikasarjadiagrammissa janalla.

• Siten edellisellä kalvolla mainitut aikasarjadiagrammien piirtäminen merkitsee seuraavien pistediagrammien piirtämistä:(i) Selittettävän muuttujan arvot:

Sovitteet:(ii) Residuaalit:

ˆ( , ) , 1,2,...,jj y j n=( , ) , 1,2,...,jj y j n=

( , ) , 1,2,...,jj e j n=

TKK (c) Ilkka Mellin (2004) 56

RegressiografiikkaAikasarjojen regressiomallit:Sovitteiden ja residuaalien tutkiminen 3/3

• Regressiomalli on sitä parempi, mitä lähempänäestimoidun mallin sovitteiden muodostama aikasarja

kulkee selitettävän muuttujan havaittujen arvojen muodostamaa aikasarjaa

tai − mikä on sama asia − mitä pienempiä ovat residuaalit

• Aikasarjadiagrammeista (i) ja (ii) (ks. edelliset kalvot) nähdään minä ajanhetkinä malli selittää selitettävän muuttujan käyttäytymistä hyvin ja minä huonosti.

ˆ , 1,2, ,jy j n= …

, 1,2, ,jy j n= …

, 1,2,...,je j n=

TKK (c) Ilkka Mellin (2004) 57

RegressiografiikkaAikasarjojen regressiomallit:Residuaalit ja regressiodiagnostiikka

• Jos residuaaliaikasarjan pistepilvi ei ole tasaleveä (esim. pilvi levenee oikealle tai vasemmalle), regressiomallin jäännöstermi saattaa olla heteroskedastinen.

• Residuaaliaikasarjan heteroskedastisuus saattaa kuitenkin viitata myös mallin rakenneosan väärään spesifikaatiooneli täsmennykseen.

• Jäännöstermin korreloituneisuus tulee esille residuaali-aikasarjan sisäisessä rytmiikassa (autokorrelaatio-rakenteessa).

• Residuaaliaikasarjan korreloituneisuus saattaa kuitenkin viitata myös mallin rakenneosan väärään spesifikaatioon eli täsmennykseen.

TKK (c) Ilkka Mellin (2004) 58

Yleinen lineaarinen malli ja regressiodiagnostiikkaRegressiografiikka

>> Poikkeavat havainnotParametrien vakioisuusMultikollineaarisuusHomoskedastisuus ja heteroskedastisuusAutokorrelaatioNormaalisuusMallin ennustuskyky

Regressiodiagnostiikka

TKK (c) Ilkka Mellin (2004) 59

AvainsanatCookin etäisyysHattumatriisiLeverageLineaarinen regressiomalliNormaali havaintoPoikkeava havaintoPoistoresiduaaliResiduaaliResiduaalidiagrammiSoviteStandardoitu poistoresiduaaliStandardoitu residuaaliVipuluku

Poikkeavat havainnot

TKK (c) Ilkka Mellin (2004) 60

Poikkeavat havainnotPoikkeavat ja normaalit havainnot

• Poikkeavalla havainnolla (engl. outlier) tarkoitetaan havaintoa, joka eroaa jossakin mielessä merkitsevästi muista havainnoista.

• Tilastollisen analyysin kannalta havaintoa voidaan pitääpoikkeavana, jos se vääristää tilastollisen analyysin tulokset:(i) Jos havainnon poistaminen muuttaa olennaisesti

tilastollisen analyysin tuloksia, havainto on poikkeava.

(ii) Jos havainnon poistaminen ei olennaisesti muutatilastollisen analyysin tuloksia, havainto on normaali.

Page 11: Regressiodiagnostiikka - Aalto

11

TKK (c) Ilkka Mellin (2004) 61

Poikkeavat havainnotPoikkeavien havaintojen vaikutukset

• Regressioanalyysissa poikkeavat havainnot saattavat aiheuttaa seuraavia vaikeuksia:(i) Mallin valinta vaikeutuu.(ii) Mallin estimointi hankaloituu.(iii) Mallia koskeva tilastollinen päättely saattaa vääristyä.

TKK (c) Ilkka Mellin (2004) 62

Poikkeavat havainnotPoikkeavien havaintojen tunnistaminen 1/2

• Regressioanalyysissa poikkeavien havaintojen tunnistamiseen käytetään sekä graafisia menetelmiä ettäerityisesti niiden tunnistamiseen konstruoituja tunnuslukuja.

• Poikkeavat havainnot voidaan usein tunnistaa suoraan residuaalidiagrammeista.

TKK (c) Ilkka Mellin (2004) 63

Poikkeavat havainnotPoikkeavien havaintojen tunnistaminen 2/2

• Tässä kappaleessa tarkastellaan seuraavia poikkeavien havaintojen tunnistamiseen tarkoitettuja tunnuslukuja:– Residuaalit– Standardoidut residuaalit– Poistoresiduaalit– Standardoidut poistoresiduaalit– Vipuluvut eli leverage-luvut– Cookin etäisyydet

TKK (c) Ilkka Mellin (2004) 64

Poikkeavat havainnot Yleinen lineaarinen malli:Määritelmä

• Olkoon

yleinen lineaarinen malli, jossayj = selitettävän muuttujan y satunnainen ja

havaittu arvo havaintoyksikössä jxji = selittävän muuttujan eli selittäjän xi havaittu

arvo havaintoyksikössä j , i = 1, 2, … , kβ0 = vakioselittäjän tuntematon regressiokerroinβi = selittäjän xi tuntematon regressiokerroinεj = satunnainen ja ei-havaittu jäännös- eli

virhetermi havaintoyksikössä j

0 1 1 2 2 , 1,2, ,j j j k jk jy x x x j nβ β β β ε= + + + + + = …

TKK (c) Ilkka Mellin (2004) 65

Poikkeavat havainnotResiduaalit:Määritelmä

• Olkootb0, b1, b2, … , bk

regressiokertoimienβ0, β1, β2, … , βk

PNS-estimaattorit.• Määritellään estimoidun mallin sovitteet kaavalla

• Määritellään estimoidun mallin residuaalit ej kaavalla0 1 1 2 2 , 1,2, ,ˆ j j j k jky b b x b x b x j n= + + + + = …

0 1 1 2 2

ˆ, 1,2, ,

j j j

j j j k jk

e y y

y b b x b x b x j n

= −

= − − − − − = …

ˆ jy

TKK (c) Ilkka Mellin (2004) 66

Poikkeavat havainnotResiduaalit:Poikkeavien havaintojen tunnistaminen

• Estimoidun mallin residuaaleja ej voidaan käyttääpoikkeavien havaintojen tunnistamiseen.

• Voimakkaasti muista residuaaleista poikkeavat residuaalitsaattavat viitata poikkeaviin havaintoihin.

Page 12: Regressiodiagnostiikka - Aalto

12

TKK (c) Ilkka Mellin (2004) 67

Poikkeavat havainnotStandardoidut residuaalit:Määritelmä 1/2

• Koska estimoidun lineaarisen regressiomallin PNS-residuaalit ej ovat yleensä heteroskedastisia, regressio-diagnostiikassa tarkastellaan PNS-residuaalien sijasta usein standardoituja residuaaleja.

• Residuaalin ej , j = 1, 2, … , n varianssi on

jossa

on hattumatriisin

j. diagonaalialkio.

2 2D ( ) (1 )j jje hσ= −

[ ]jj jjh = P

1( )−′ ′=P X X X X

TKK (c) Ilkka Mellin (2004) 68

Poikkeavat havainnotStandardoidut residuaalit:Määritelmä 2/2

• Standardoidut eli studentisoidut residuaalit Std(ej) , j = 1, 2, … , n saadaan PNS-residuaaleista ej kaavalla

• Standardoidun residuaalin Std(ej) kaavassa

on residuaalin ej varianssin estimaattori, jossa

on jäännösvarianssin σ2 harhaton estimaattori.

Std( )D( )

jj

j

ee

e=

2 2D ( ) (1 )j jje s h= −

2 2

1

11

n

jj

s en k =

=− − ∑

TKK (c) Ilkka Mellin (2004) 69

Poikkeavat havainnotStandardoidut residuaalit:Poikkeavien havaintojen tunnistaminen

• Standardoituja residuaaleja Std(ej) voidaan käyttääpoikkeavien havaintojen tunnistamiseen.

• Jos estimoitu regressiomalli on riittävä kuvaamaan kaikkia havaintoja, standardoitujen residuaalien itseisarvot saavat vain pienellä todennäköisyydellä suurempia arvoja kuin2.5-3.

• Lukuarvoja 2.5-3 suuremmat standardoitujen residuaalienitseisarvot saattavat viitata poikkeaviin havaintoihin.

• Standardoitujen residuaalien itseisarvoja voidaan verrata Studentin t-jakaumasta sopivasti valittuun kriittiseen rajaan.

TKK (c) Ilkka Mellin (2004) 70

Poikkeavat havainnotPoistoresiduaalit:Määritelmä 1/2

• Poikkeavia havaintoja voidaan etsiä poistoresiduaalienavulla:(i) Estimoidaan malli siten, että havainto j jätetään pois.(ii) Määrätään havaintoa j vastaava poistoresiduaali

selitettävän muuttujan y havaitun arvon yj ja ilman havaintoa j estimoidun mallin muuttujalle y antaman arvon erotuksena (ennustevirheenä).

• Havaintoa j vastaava poistoresiduaali mittaa ilman havaintoa j estimoidun mallin kykyä ennustaa selitettävän muuttujan y arvo havainnossa j.

TKK (c) Ilkka Mellin (2004) 71

Poikkeavat havainnotPoistoresiduaalit:Määritelmä 2/2

• Poistoresiduaalit dj , j = 1, 2, … , n saadaan PNS-residuaaleista ej kaavalla

jossa

on hattumatriisin

j. diagonaalialkio.

1j

jjj

ed

h=

[ ]jj jjh = P

1( )−′ ′=P X X X X

TKK (c) Ilkka Mellin (2004) 72

Poikkeavat havainnotStandardoidut poistoresiduaalit:Määritelmä 1/2

• Poistoresiduaalin dj , j = 1, 2, … , n varianssi on

jossa

on hattumatriisin

j. diagonaalialkio.

22D ( )

1jjj

dh

σ=

[ ]jj jjh = P

1( )−′ ′=P X X X X

Page 13: Regressiodiagnostiikka - Aalto

13

TKK (c) Ilkka Mellin (2004) 73

Poikkeavat havainnotStandardoidut poistoresiduaalit:Määritelmä 2/2

• Standardoidut eli studentisoidut poistoresiduaalitStd(dj) , j = 1, 2, … , n saadaan poistoresiduaaleista djkaavalla

jossa

on poistoresiduaalin dj varianssin estimaattori, jossa on jäännösvarianssin σ2 harhaton estimaattori mallista, josta havainto j on jätetty pois.

Std( )D( )

jj

j

dd

d=

2( )2D ( )

1j

jjj

sd

h=

−2( )js

TKK (c) Ilkka Mellin (2004) 74

Poikkeavat havainnotStandardoidut poistoresiduaalit:Poikkeavien havaintojen tunnistaminen

• Standardoituja poistoresiduaaleja Std(dj) voidaan käyttääpoikkeavien havaintojen tunnistamiseen.

• Jos estimoitu regressiomalli on riittävä kuvaamaan kaikkia havaintoja, standardoitujen poistoresiduaalien itseisarvot saavat vain pienellä todennäköisyydellä suurempia arvojakuin 2.5-3.

• Lukuarvoja 2.5-3 suuremmat standardoitujen poisto-residuaalien itseisarvot saattavat viitata poikkeaviin havaintoihin.

• Standardoitujen poistoresiduaalien itseisarvoja voidaan verrata Studentin t-jakaumasta sopivasti valittuun kriittiseen rajaan.

TKK (c) Ilkka Mellin (2004) 75

Poikkeavat havainnotVipuluvut: Määritelmä 1/2

• Poikkeavia havaintoja voidaan etsiä vipulukujen eli leverage-lukujen avulla.

• Havaintoa j vastaava vipuluku (leverage) hjj , j = 1, 2, … , non hattumatriisin

j. diagonaalialkio:

1( )−′ ′=P X X X X

[ ]jj jjh = P

TKK (c) Ilkka Mellin (2004) 76

Poikkeavat havainnotVipuluvut: Määritelmä 2/2

• Vipuluvut hjj ovat verrannollisia havaintopisteiden

etäisyyksiin selittävien muuttujien havaintoarvojen aritmeettisten keskiarvojen muodostamasta pisteestä

1 2( , , , )j j jkx x x…

1 2( , , , )kx x x…

TKK (c) Ilkka Mellin (2004) 77

Poikkeavat havainnotVipuluvut:Poikkeavien havaintojen tunnistaminen

• Jos havaintoa j vastaava vipuluku (leverage) hjj on selvästi muita suurempi, havainto j on syrjässä selittävien muuttujien muihin havaintoarvoihin nähden.

• Syrjässä olevat havainnot saattavat vääristää regressio-analyysin tulokset.

TKK (c) Ilkka Mellin (2004) 78

Poikkeavat havainnotCookin etäisyydet:Määritelmä 1/3

• Poikkeavia havaintoja voidaan etsiä Cookin etäisyyksienavulla:(i) Estimoidaan malli niin, että kaikki havainnot ovat

mukana.Lasketaan estimoidulle mallille sovitteet , l = 1, 2, … , n.

(ii) Estimoidaan malli jättämällä pois havainto j.Lasketaan ilman havaintoa j estimoidun mallin antama arvo kaikille havaintoyksiköille l = 1, 2, … , n.

(iii) Verrataan lukuja ja toisiinsa.

ˆly

( )ˆl jy

ˆly ( )ˆl jy

Page 14: Regressiodiagnostiikka - Aalto

14

TKK (c) Ilkka Mellin (2004) 79

Poikkeavat havainnotCookin etäisyydet:Määritelmä 2/3

• Cookin etäisyydet Dj , j = 1, 2, … , n saadaan kaavalla

jossa

on jäännösvarianssin σ2 harhaton estimaattori, joka on määrätty, kun mallin estimoinnissa on käytetty kaikkia havaintoja.

2( )1

2

ˆ ˆ( )( 1)

nl l jl

j

y yD

k s=

−=

+∑

2 2

1

11

n

jj

s en k =

=− − ∑

TKK (c) Ilkka Mellin (2004) 80

Poikkeavat havainnotCookin etäisyydet:Määritelmä 3/3

• Cookin etäisyydet Dj , j = 1, 2, … , n voidaan laskea myös kaavalla

jossaStd(ej)

on havaintoa j vastaava standardoitu residuaali ja

on hattumatriisin

j. diagonaalialkio.

[ ]jj jjh = P

1( )−′ ′=P X X X X

Std( )1 1

j jjj

jj

e hD

k h= ⋅

+ −

TKK (c) Ilkka Mellin (2004) 81

Poikkeavat havainnotCookin etäisyydet:Poikkeavien havaintojen tunnistaminen

• Cookin etäisyyksiä Dj voidaan käyttää poikkeavien havaintojen tunnistamiseen.

• Jos havaintoa j vastaava Cookin etäisyysDj > 1

tai on selvästi muiden havaintojen Cookin etäisyyttäsuurempi, havainto kannattaa ottaa erikoistarkasteluun.

TKK (c) Ilkka Mellin (2004) 82

Poikkeavat havainnotTilastografiikan käyttö poikkeavien havaintojen tunnistamisessa 1/2

• Poikkeavien havaintojen tunnistamiseen tarkoitettujen tunnuslukujen käyttöä voidaan usein helpottaa sopivilla graafisilla esityksillä.

• Tällöin käytetyn tunnusluvun havaintokohtaiset arvot Tj , j = 1, 2, … , n

piirretään havaintonumeroa vastaan pistediagrammina(j, Tj) , j = 1, 2, … , n

• Poikkeavat havainnot erottuvat kuviosta tavallisesti helposti.

TKK (c) Ilkka Mellin (2004) 83

Poikkeavat havainnotTilastografiikan käyttö poikkeavien havaintojen tunnistamisessa 2/2

• Pistediagrammissa(j, Tj) , j = 1, 2, … , n

tunnusluku Tj voi olla esimerkiksi mikä tahansa seuraavista tunnusluvuista:– Residuaali– Standardoitu residuaali– Poistoresiduaali– Standardoitu poistoresiduaali– Vipuluku– Cookin etäisyys

TKK (c) Ilkka Mellin (2004) 84

Yleinen lineaarinen malli ja regressiodiagnostiikkaRegressiografiikkaPoikkeavat havainnot

>> Parametrien vakioisuusMultikollineaarisuusHomoskedastisuus ja heteroskedastisuusAutokorrelaatioNormaalisuusMallin ennustuskyky

Regressiodiagnostiikka

Page 15: Regressiodiagnostiikka - Aalto

15

TKK (c) Ilkka Mellin (2004) 85

AvainsanatChow-testiEnnustaminenF-testiLineaarinen regressiomalliRegressiokerroinSelitettävä muuttujaSelittävä muuttujaVakioparametrisuusoletus

Parametrien vakioisuus

TKK (c) Ilkka Mellin (2004) 86

Parametrien vakioisuusVakioparametrisuusoletusyleisessä lineaarisessa mallissa

• Kun yleinen lineaarinen malli spesifioidaan muodossa

spesifikaatioon sisältyy implisiittisesti seuraava mallin regressiokertoimia koskeva vakioparametrisuusoletus:Regressiokertoimet

β0, β1, β2, … , βk

ovat samat kaikille havainnoille j = 1, 2, … , n.• Lisäksi mallia koskeviin standardioletuksiin kuuluu

homoskedastisuusoletus eli jäännösvarianssia koskevavakioparametrisuusoletus:

0 1 1 2 2 , 1,2, ,j j j k jk jy x x x j nβ β β β ε= + + + + + = …

2Var( ) , 1,2, ,j j nε σ= = …

TKK (c) Ilkka Mellin (2004) 87

Parametrien vakioisuusVakioparametrisuusoletuksen testaaminen:Testausasetelma 1/4

• Jaetaan havainnotj = 1, 2, … , n

kahteen osaan:Osa 1: j = 1, 2, … , h (h kpl)Osa 2: j = h + 1, h + 2, … , n ((n – h) kpl)

• Oletetaan lisäksi, ettäh ≥ k +1

• Muodostetaan kaksi lineaarista regressiomallia:(i) Käytetään mallissa (1) havaintoja j = 1, 2, … , h.(ii) Käytetään mallissa (2) havaintoja j = 1, 2, … , n.

TKK (c) Ilkka Mellin (2004) 88

Parametrien vakioisuusVakioparametrisuusoletuksen testaaminen:Testausasetelma 2/4

• Malli (1) voidaan esittää matriisein muodossa

jossa Xh on h×(k+1)-matriisi.• Tehdään mallista (1) seuraavat oletukset:

h h h h= +y X β ε

2

( ) 1

N ( , )h

h h h

r k

σ

= +X

ε 0 I∼

TKK (c) Ilkka Mellin (2004) 89

Parametrien vakioisuusVakioparametrisuusoletuksen testaaminen:Testausasetelma 3/4

• Malli (2) voidaan esittää matriisein muodossa

jossa Xn on n×(k+1)-matriisi.• Tehdään mallista (2) seuraavat oletukset:

n n n n= +y X β ε

2

( ) 1

N ( , )n

n n n

r k

σ

= +Xε 0 I∼

TKK (c) Ilkka Mellin (2004) 90

Parametrien vakioisuusVakioparametrisuusoletuksen testaaminen:Testausasetelma 4/4

• Huomaa, että mallin (2) n×(k + 1)-matriisi Xn voidaan esittää muodossa

jossa (n – h)×(k + 1)-matriisi X2 on liittyy havaintoihinj = h + 1, h + 2, … , n

2

hn

=

XX

X

Page 16: Regressiodiagnostiikka - Aalto

16

TKK (c) Ilkka Mellin (2004) 91

Parametrien vakioisuusVakioparametrisuusoletuksen testaaminen:Testisuure

• Estimoidaan molemmat mallit (1) ja (2) PNS-menetelmällä.

• OlkoonSSEh = jäännösneliösumma mallista (1)SSEn = jäännösneliösumma mallista (2)

• Muodostetaan F-testisuure1 n h

h

SSE SSEn kFn h SSE

−− −= ⋅

TKK (c) Ilkka Mellin (2004) 92

Parametrien vakioisuusVakioparametrisuusoletuksen testaaminen:Chow-testi

• Jos nollahypoteesi

pätee, testisuure

noudattaa F-jakaumaa vapausastein (n – h) ja (n – k – 1):

• Suuret testisuureen arvot viittaavat siihen, että oletus parametrien vakioisuudesta ei päde.

• Testi tunnetaan kirjallisuudessa nimellä Chow-testi.

1 n h

h

SSE SSEn kFn h SSE

−− −= ⋅

2 20H : ,n h n hσ σ= =β β

( , 1)F F n h n k− − −∼

TKK (c) Ilkka Mellin (2004) 93

Parametrien vakioisuusVakioparametrisuusoletuksen testaaminen:Testisuureen toinen muoto 1/4

• Ennustetaan selitettävän muuttujan y arvot havainnoissaj = h + 1, h + 2, … , n

regressiomallilla (1):

jossa

1 1 1 10 1 1 2 2ˆ , 1, 2, ,j j j k jky b b x b x b x j h h n= + + + + = + + …

1 1 1 10 1 2( , , , , )

regressiokertoimien vektorin PNS-estimaattori mallista (1)

h k

h

b b b b=

=

TKK (c) Ilkka Mellin (2004) 94

Parametrien vakioisuusVakioparametrisuusoletuksen testaaminen:Testisuureen toinen muoto 2/4

• Olkoon

ennustevirheiden

muodostama (n – h)-vektori.• Vektorilla u on seuraavat stokastiset ominaisuudet:

jossaX2 = havaintoihin j = h + 1, h + 2, … , n liittyvä osa

matriisista Xn

ˆ , 1, 2, ,j j ju y y j h h n= − = + + …

1 2( , , , )h h nu u u+ +=u …

2 12 2

E( )Cov( ) ( ( ) )h h hσ −

=

′ ′= +

u 0u I X X X X

TKK (c) Ilkka Mellin (2004) 95

Parametrien vakioisuusVakioparametrisuusoletuksen testaaminen:Testisuureen toinen muoto 3/4

• Olkoon lisäksi

• Tällöin matriisi

on ennustevirheiden vektorin u kovarianssimatriisin Cov(u) estimaattori.

2

2tavanomainen harhaton estimaattorijäännösvarianssille mallista (1)

h

h

=

2 12 2Cov( ) ( ( ) )h h hs −′ ′= +u I X X X X

TKK (c) Ilkka Mellin (2004) 96

Parametrien vakioisuusVakioparametrisuusoletuksen testaaminen:Testisuureen toinen muoto 4/4

• Chow-testisuure nollahypoteesille

voidaan edellä olevia merkintöjä käyttäen esittäämuodossa

• Chow-testisuureella on siten seuraava tulkinta:Chow-testisuure testaa havainnoista j = 1, 2, … , hestimoidun mallin (1) kykyä ennustaa selitettävän muuttujan y arvoja havainnoissa j = h + 1, h + 2, … , n.

2 20H : ,n h n hσ σ= =β β

11 Cov( )Fn h

− ′= −

u u u

Page 17: Regressiodiagnostiikka - Aalto

17

TKK (c) Ilkka Mellin (2004) 97

Yleinen lineaarinen malli ja regressiodiagnostiikkaRegressiografiikkaPoikkeavat havainnotParametrien vakioisuus

>> MultikollineaarisuusHomoskedastisuus ja heteroskedastisuusAutokorrelaatioNormaalisuusEnnustuskyky

Regressiodiagnostiikka

TKK (c) Ilkka Mellin (2004) 98

AvainsanatKorrelaatiomatriisiKovarianssimatriisiLineaarinen regressiomalliLineaarinen riippuvuusMatriisin asteMatriisin kuntoisuuslukuMomenttimatriisiMultikollineaarisuusOminaisarvoSelitettävä muuttujaSelittävä muuttujaVarianssin inflaatiotekijä

Multikollineaarisuus

TKK (c) Ilkka Mellin (2004) 99

MultikollineaarisuusLineaarinen riippuvuus ja multikollineaarisuus 1/3

• Olkoon

standardioletukset toteuttava yleinen lineaarinen malli, jossa X on selittäjien arvojen ja ykkösten muodostama täysiasteinen n×(k + 1)-matriisi.

• Regressiokertoimien vektorin β PNS-estimaattori on

• PNS-estimaattorin b kovarianssimatriisi on

= +y Xβ ε

1( )−′ ′=b X X X y

2 1Cov( ) ( )σ −′=b X X

TKK (c) Ilkka Mellin (2004) 100

MultikollineaarisuusLineaarinen riippuvuus ja multikollineaarisuus 2/3

• Yleisen lineaarinen mallin regressiokertoimien vektorin βPNS-estimaattorin ja sen kovarianssimatriisin kaavoista nähdään:Jos matriisi X ei ole täysiasteinen, PNS-estimaattoria ja sen kovarianssimatriisia on mahdotonta muodostaa em. kaavoilla.

• Matriisin X täysiasteisuus eli ehtor(X) = k + 1

merkitsee sitä, että matriisin X sarakkeiden on oltava lineaarisesti riippumattomia.

TKK (c) Ilkka Mellin (2004) 101

MultikollineaarisuusLineaarinen riippuvuus ja multikollineaarisuus 3/3

• Jos yleisen lineaarisen mallin

selittävien muuttujien havaittujen arvojen muodostama n×(k + 1)-matriisi X ei ole täysiasteinen eli

r(X) < k + 1 PNS-estimointi ei ole tavanomaisessa mielessä mahdollista.

• Jos matriisi X on täysiasteinen eli r(X) = k + 1

mutta matriisin X sarakkeet ovat lähes lineaarisesti riippuvia, sanotaan, että mallin selittäjät ovat multikollineaarisia.

= +y Xβ ε

TKK (c) Ilkka Mellin (2004) 102

MultikollineaarisuusMultikollineaarisuuden vaikutukset 1/2

• Multikollineaarisuus saattaa hankaloittaa sekä regressio-mallin estimointia että mallista tehtävää tilastollista päättelyä.

• Siten voimakas multikollineaarisuus saattaa hankaloittaa myös mallin valintaa.

• Koska multikollineaarisuus on suhteellinen ominaisuus –toisin kuin lineaarinen riippuvuus – voidaan puhua multikollineaarisuuden asteesta.

Page 18: Regressiodiagnostiikka - Aalto

18

TKK (c) Ilkka Mellin (2004) 103

MultikollineaarisuusMultikollineaarisuuden vaikutukset 2/2

• Mitä vähemmän selittäjät ovat multikollineaarisia, sitäitsenäisempiä ovat selittävät muuttujat selitettävän muuttujan käyttäytymisen selittäjinä.

• Jos selittäjät ovat voimakkaasti multikollineaarisia, ne kertovat jossakin mielessä samaa asiaa selitettävän muuttujan käyttäytymisestä.

TKK (c) Ilkka Mellin (2004) 104

MultikollineaarisuusVarianssin inflaatiotekijä 1/3

• Oletetaan, että selitettävää muuttujaa y selitetään lineaarisella regressiomallilla, jonka selittäjinä ovat muuttujat x1 , x2 , … , xk .

• Olkoon bi selittäjän xi regressiokertoimen βi PNS-estimaattori.

• Tällöin

jossa on selitysaste lineaarisesta regressiomallista, jonka selitettävänä muuttujana on alkuperäisen mallin selittäjä xi ja selittäjinä ovat muut alkuperäisen mallin selittäjistä.

2iR

2

2 21

1Var( )1 ( )

i ni ji ij

bR x x

σ

=

= ⋅− −∑

TKK (c) Ilkka Mellin (2004) 105

MultikollineaarisuusVarianssin inflaatiotekijä 2/3

• Regressiokertoimen bi varianssin kaavassa esiintyväätekijää

kutsutaan selittäjää xi vastaavaksi varianssin inflaatio-tekijäksi.

2

1 , 1,2, ,1i

i

VIF i kR

= =−

TKK (c) Ilkka Mellin (2004) 106

MultikollineaarisuusVarianssin inflaatiotekijä 3/3

• Jos selittäjät x1 , x2 , … , xk ovat ortogonaalisia eli korreloimattomia,

jaVIFi = 1 kaikille i = 1, 2, … , k

• Jos selittäjä xi voidaan esittää muiden selittäjien x1 , x2 , … , xi–1 , xi+1 , … , xk lineaarikombinaationa,

jaVIFi = +∞

2 0 kaikille 1,2, ,iR i k= = …

2 1iR =

TKK (c) Ilkka Mellin (2004) 107

MultikollineaarisuusVarianssin inflaatiotekijän tulkinta 1/2

• Kaavasta

nähdään seuraavaa:(i) Estimaattorin bi varianssi on sitä suurempi, mitä

suurempi on vastaava varianssin inflaatiotekijä VIFi .(ii) Estimaattorin bi varianssi on sitä pienempi, mitä

pienempi on vastaava varianssin inflaatiotekijä VIFi .

2

21

Var( )( )

i i nji ij

b VIFx xσ

=

= ⋅−∑

TKK (c) Ilkka Mellin (2004) 108

MultikollineaarisuusVarianssin inflaatiotekijän tulkinta 2/2

• Regressiomallin selittäjien voimakasta multi-kollineaarisuutta pidetään tavallisesti haitallisena ja selittäjien mahdollisimman suurta ortogonaalisuutta hyödyllisenä ominaisuutena regressioanalyysissa.

• Jos VIFi > 10 jollekin i = 1, 2, … , k

multikollineaarisuudesta saattaa olla haittaa.• Puhtaissa koeasetelmissa, joissa selittävien muuttujien

arvot voidaan valita, selittäjät pyritään saamaan ortogonaalisiksi (tai lähes ortogonaalisiksi).

Page 19: Regressiodiagnostiikka - Aalto

19

TKK (c) Ilkka Mellin (2004) 109

MultikollineaarisuusMomenttimatriisi 1/2

• Selittäjien x1 , x2 , … , xk havaittujen arvojen momentti-matriisin A = [ aij ] i. rivin ja j. sarakkeen alkio aij on muuttujien xi ja xj havaittujen arvojen tulomomentti:

jossa1

( )( )n

ij li i lj jl

a x x x x=

= − −∑

1 1

1 1n n

i li j ljl l

x x x xn n= =

= =∑ ∑

TKK (c) Ilkka Mellin (2004) 110

MultikollineaarisuusMomenttimatriisi 2/2

• Selittäjien x1 , x2 , … , xk havaittujen arvojen momentti-matriisi A voidaan esittää matriisein muodossa

jossaZ = aitojen selittäjien x1 , x2 , … , xk havaittujen

arvojen muodostama n×k-matriisi= aitojen selittäjien x1 , x2 , … , xk havaittujen

arvojen aritmeettisten keskiarvojen muodostama k-vektori

( ) ( )n′ ′ ′= − −

′ ′= −A Z 1z Z 1z

Z Z z z

z

TKK (c) Ilkka Mellin (2004) 111

MultikollineaarisuusOtoskovarianssimatriisi 1/2

• Selittäjien x1 , x2 , … , xk havaittujen arvojen otos-kovarianssimatriisin S = [ sij ] i. rivin ja j. sarakkeen alkio sij on muuttujien xi ja xj havaittujen arvojen otoskovarianssi:

jossa

• Erityisesti

1

1 ( )( )1

n

ij li i lj jl

s x x x xn =

= − −− ∑

2ii i

ii i

s s

s s

=

=

1 1

1 1n n

i li j ljl l

x x x xn n= =

= =∑ ∑

TKK (c) Ilkka Mellin (2004) 112

MultikollineaarisuusOtoskovarianssimatriisi 2/2

• Selittäjien x1 , x2 , … , xk havaittujen arvojen otos-kovarianssimatriisi S voidaan esittää matriisein muodossa

jossaZ = aitojen selittäjien x1 , x2 , … , xk havaittujen

arvojen muodostama n×k-matriisi= aitojen selittäjien x1 , x2 , … , xk havaittujen

arvojen aritmeettisten keskiarvojen muodostama k-vektori

A = aitojen selittäjien x1 , x2 , … , xk havaittujen arvojen muodostama k×k-momenttimatriisi

1 1( ) ( )1 1n n

′ ′ ′= − − =− −

S Z 1z Z 1z A

z

TKK (c) Ilkka Mellin (2004) 113

MultikollineaarisuusOtoskorrelaatiomatriisi 1/2

• Selittäjien x1 , x2 , … , xk havaittujen arvojen otos-korrelaatiomatriisin R = [ rij ] i. rivin ja j. sarakkeen alkio rij on muuttujien xi ja xj havaittujen arvojen otoskorrelaatio:

jossa sij = muuttujien xi ja xj havaittujen arvojen

otoskovarianssi = on muuttujan xi otoskeskihajonta = on muuttujan xj otoskeskihajonta

ijij

i j

sr

s s=

i iis s=

j jjs s=

TKK (c) Ilkka Mellin (2004) 114

MultikollineaarisuusOtoskorrelaatiomatriisi 2/2

• Selittäjien x1 , x2 , … , xk havaittujen arvojen otoskorrelaatiomatriisi R voidaan esittää matriiseinmuodossa

jossaS = aitojen selittäjien x1, x2, … , xk havaittujen

arvojen muodostama otoskovarianssimatriisiDs =

= selittäjien x1, x2, … , xk havaittujen arvojen otoskeskihajontojen s1, s2, … , sk muodostama diagonaalimatriisi

1 1s s− −=R D SD

1 2diag( , , , )ks s s…

Page 20: Regressiodiagnostiikka - Aalto

20

TKK (c) Ilkka Mellin (2004) 115

MultikollineaarisuusMultikollineaarisuus ja selittäjien korreloituneisuus

• Selittäjien x1 , x2 , … , xk multikollineaarisuutta voidaan tutkia – paitsi tarkastelemalla selittäjiä vastaavia varianssin inflaatiotekijöitä – tutkimalla myös seuraavien matriisien ominaisarvoja (ja ominaisvektoreita):(i) Aitojen selittäjien havaittujen arvojen n×k-matriisista

Z saatava k×k-matriisi Z´Z(ii) Selittäjien havaittujen arvojen momenttimatriisi A(ii) Selittäjien havaittujen arvojen kovarianssimatriisi S(iii) Selittäjien havaittujen arvojen korrelaatiomatriisi R

• Multikollineaarisuuden mittarina voidaan käyttääesimerkiksi matriisin kuntoisuuslukua eli suurimman ja pienimmän ominaisarvon suhdetta.

TKK (c) Ilkka Mellin (2004) 116

Yleinen lineaarinen malli ja regressiodiagnostiikkaRegressiografiikkaPoikkeavat havainnotParametrien vakioisuusMultikollineaarisuus

>> Homoskedastisuus ja heteroskedastisuusAutokorrelaatioNormaalisuusEnnustuskyky

Regressiodiagnostiikka

TKK (c) Ilkka Mellin (2004) 117

AvainsanatHeteroskedastisuusHomoskedastisuusJäännöstermiJäännösvarianssiLineaarinen regressiomalliRakenneosaResiduaaliSelitettävä muuttujaSelittävä muuttujaSovite

Homoskedastisuus ja heteroskedastisuus

TKK (c) Ilkka Mellin (2004) 118

Homoskedastisuus ja heteroskedastisuusHomoskedastisuusoletus

• Yleistä lineaarista mallia koskevan standardioletuksen (iv) mukaan kaikilla mallin jäännöstermeillä εj on sama varianssi:

• Tätä oletusta kutsutaan homoskedastisuusoletukseksi.• Jos homoskedastisuusoletus ei päde, niin sanomme, että

jäännöstermit ovat heteroskedastisia ja kirjoitamme

• Tällöin siis on olemassa indeksit k ja l siten, että

2Var( ) , 1,2, ,j j nε σ= = …

2Var( ) , 1,2, ,j j j nε σ= = …

2 2Var( ) Var( )k k l lε σ σ ε= ≠ =

TKK (c) Ilkka Mellin (2004) 119

Homoskedastisuus ja heteroskedastisuusHeteroskedastisuuden vaikutukset

• Jos regressiomallin jäännöstermit εj ovat hetero-skedastisia, mallin regressiokertoimien PNS-estimaattoriteivät ole enää parhaita lineaaristen ja harhattomien estimaattoreiden joukossa.

• Tämä merkitsee sitä, että regressiokertoimien PNS-estimaattoreiden varianssit ovat tarpeettoman suuria:(i) Regressiokertoimien luottamusväleistä tulee

tarpeettoman leveitä.(ii) Regressiokertoimia koskevista testisuureiden arvoista

tulee tarpeettoman pieniä.

TKK (c) Ilkka Mellin (2004) 120

Homoskedastisuus ja heteroskedastisuusHeteroskedastisuuden havaitseminen

• Jäännöstermien heteroskedastisuus tulee usein esille estimoidun mallin hyvyyttä havainnollistavista residuaali-diagrammeista:(i) Piirretään standardoidut residuaalit sovitteita vastaan:

(ii) Aikasarjojen regressiomalleille residuaalit piirretään yleensä aikasarjana:

• Jos residuaalidiagrammin pisteiden vyö ei ole tasaleveä(esim. vyö levenee oikealle tai vasemmalle), regressio-mallin jäännöstermi saattaa olla heteroskedastinen.

ˆ( ,Std( )) , 1,2, ,j jy e j n= …

( , ) , 1,2,...,jj e j n=

Page 21: Regressiodiagnostiikka - Aalto

21

TKK (c) Ilkka Mellin (2004) 121

Homoskedastisuus ja heteroskedastisuusHomoskedastisuuden testaaminen

• Olkoon

estimoidun lineaarisen mallin tuottama sovite ja

vastaava residuaali.• Määrätään selitysaste R2 apuregressiosta

• Jos homoskedastisuusoletus pätee,

• Suuret testisuureen nR2 arvot johtavat homoskedastisuus-oletuksen hylkäämiseen.

ˆ , 1,2, ,jy j n= …

, 1,2, ,je j n= …

20 1 ˆj j je yα α δ= + +

2 2 (1)nR χ∼

TKK (c) Ilkka Mellin (2004) 122

Homoskedastisuus ja heteroskedastisuusHomoskedastisuuden testaaminen: Kommentteja

• Homoskedastisuustestit saattavat reagoida myös regressio-mallin rakenneosan väärään spesifikaatioon.

• Siten homoskedastisuustestin testisuureen merkitseväarvo ei saa automaattisesti johtaa toimenpiteisiin, joilla pyritään korjaamaan jäännöstermin heteroskedastisuus.

TKK (c) Ilkka Mellin (2004) 123

Homoskedastisuus ja heteroskedastisuusJäännösvarianssin stabiloivia muunnoksia

• Sopiva selitettävän muuttujan arvojen muunnos saattaa stabiloida jäännöstermien varianssin:

[ ] ( )[ ]

2

2

2

22

Heteroskedastisuuden Stabiloivatyyppi muunnos

vakio

E( )

E( ) 1 E( ) arcsin

E( ) log( )

y y

y y y

y y y y

y y y

σ

σ

σ

σ

′∝ =

′∝ =

′∝ − =

′∝ =

TKK (c) Ilkka Mellin (2004) 124

Yleinen lineaarinen malli ja regressiodiagnostiikkaRegressiografiikkaPoikkeavat havainnotParametrien vakioisuusMultikollineaarisuusHomoskedastisuus ja heteroskedastisuus

>> AutokorrelaatioNormaalisuusEnnustuskyky

Regressiodiagnostiikka

TKK (c) Ilkka Mellin (2004) 125

AvainsanatAutokorrelaatioDurbinin ja Watsonin testisuureJäännöstermiKorrelaatioLineaarinen regressiomalliRakenneosaResiduaaliSelitettävä muuttujaSelittävä muuttujaSovite

Autokorrelaatio

TKK (c) Ilkka Mellin (2004) 126

AutokorrelaatioKorreloimattomuusoletus

• Yleistä lineaarista mallia koskevan standardioletuksen (v) mukaan mallin jäännöstermit εj ovat korreloimattomia:

• Tätä oletusta kutsutaan korreloimattomuusoletukseksi.• Jos

niin sanomme, että jäännöstermit ovat korreloituneita.

Cor( , ) 0 ,j l j lε ε = ≠

Cor( , ) 0 ,j l j lε ε ≠ ≠

Page 22: Regressiodiagnostiikka - Aalto

22

TKK (c) Ilkka Mellin (2004) 127

AutokorrelaatioKorreloituneisuuden vaikutukset

• Jos regressiomallin jäännöstermit εj ovat korreloituneita, mallin regressiokertoimien PNS-estimaattorit eivät ole enää parhaita lineaaristen ja harhattomien estimaattoreiden joukossa.

• Tämä merkitsee sitä, että regressiokertoimien PNS-estimaattoreiden varianssit ovat tarpeettoman suuria:(i) Regressiokertoimien luottamusväleistä tulee

tarpeettoman leveitä.(ii) Regressiokertoimia koskevista testisuureiden arvoista

tulee tarpeettoman pieniä.

TKK (c) Ilkka Mellin (2004) 128

AutokorrelaatioKorreloituneisuus ja aikasarjat

• Korreloituneisuus on aikasarjojen regressiomallientavallinen ongelma.

• Aikasarjojen regressiomalleissa kiinnitetään huomio korreloituneisuuden lajiin, jota kutsutaan autokorrelaatioksi.

• Oletetaan, että havainnot ovat aikajärjestyksessä.• Olkoon εj lineaarisen mallin

jäännöstermi.• Koska havainnot ovat aikajärjestyksessä, jäännöstermit εj

muodostavat aikasarjan.

0 1 1 2 2 , 1,2, ,j j j k jk jy x x x j nβ β β β ε= + + + + + = …

TKK (c) Ilkka Mellin (2004) 129

AutokorrelaatioAutokovarianssit

• Koska lineaarisen mallin jäännöstermeistä εj on oletettu

jäännöstermien εj muodostaman aikasarjan τ. auto-kovarianssi γτ voidaan määritellä kaavalla

• Erityisesti

on aikasarjan εj , j = 1, 2, … , n varianssi.• Huomautus:

Autokovarianssit γτ ovat riippumattomia ajanhetkestä j.

E( ) , 1, 2, , , 0,1,2, , 1j j j n nτ τγ ε ε τ τ τ−= = + + = −… …

20 Var( ) , 1,2, ,j j nγ ε σ= = = …

E( ) 0 , 1,2, ,j j nε = = …

TKK (c) Ilkka Mellin (2004) 130

AutokorrelaatioAutokorrelaatiokertoimet

• Olkootγτ = jäännöstermien εj τ. autokovarianssiγ0 = Var(εj) = σ2

= jäännöstermien εj varianssi• Jäännöstermien εj muodostaman aikasarjan τ. auto-

korrelaatiokerroin ρτ määritellään kaavalla

• Huomautus:Autokorrelaatiokertoimet ρτ ovat riippumattomia ajanhetkestä j.

0

, 0,1,2, , 1nττ

γρ τγ

= = −…

TKK (c) Ilkka Mellin (2004) 131

AutokorrelaatioAutokorrelaatiokertoimien ominaisuudet

• Autokorrelaatiokertoimilla ρτ on seuraavat ominaisuudet:(i)(ii)(iii)

0 1ρ =

τ τρ ρ− =| | 1τρ ≤

TKK (c) Ilkka Mellin (2004) 132

Autokorrelaatio1. kertaluvun autokorrelaation testaaminen

• Tarkastelemme seuraavassa 1. kertaluvun auto-korrelaation testaamista.

• Asetetaan nollahypoteesi

jossa ρ1 on 1. kertaluvun autokorrelaatiokerroin.• Vaikka nollahypoteesi H0 kiinnittää huomiota vain

jäännöstermien 1. kertaluvun autokorrelaatioon, sen testaamisella on keskeinen rooli regressiodiagnostiikassa.

0 1H : 0ρ =

Page 23: Regressiodiagnostiikka - Aalto

23

TKK (c) Ilkka Mellin (2004) 133

AutokorrelaatioDurbinin ja Watsonin testisuure

• Määritellään Durbinin ja Watsonin testisuure kaavalla

• Voidaan osoittaa, ettäDW ≈ 2

jos nollahypoteesi pätee.• Suuret DW-testisuureen poikkeamat sen normaaliarvosta ≈

2 johtavat nollahypoteesin hylkäämiseen.

21

2

2

1

( )n

j jj

n

jj

e eDW

e

−=

=

−=∑

0 1H : 0ρ =

TKK (c) Ilkka Mellin (2004) 134

AutokorrelaatioDurbinin ja Watsonin testisuure: Ominaisuudet

• Durbinin ja Watsonin testisuureella on seuraavat ominaisuudet:(i) 0 ≤ DW ≤ 4(ii) DW ≈ 0 ⇔ ρ1 ≈ +1(iii) DW ≈ 2 ⇔ ρ1 ≈ 0(iv) DW ≈ 4 ⇔ ρ1 ≈ –1

• Durbinin ja Watsonin testisuureen jakauma ei ole mitään tavanomaista tyyppiä, mutta DW-testisuureen kriittisiäarvoja on taulukoitu ja useat tilastolliset ohjelmistot tulostavat DW-testisuureen kriittisiä arvoja tai DW-testisuureen arvoja vastaavia p-arvoja.

TKK (c) Ilkka Mellin (2004) 135

Autokorrelaatio1. kertaluvun autokorrelaation testaaminen:Kommentteja

• Durbinin ja Watsonin testi on autokorrelaatiotestinärajoittunut, koska testi kiinnittää huomiota vain 1. kerta-luvun autokorrelaatioon.

• Durbinin ja Watsonin testi saattaa kuitenkin reagoida myös regressiomallin rakenneosan väärään spesifikaatioon.

• Siten Durbinin ja Watsonin testisuureen merkitseväarvo ei saa automaattisesti johtaa toimenpiteisiin, joilla pyritään korjaamaan jäännöstermin auto-korreloituneisuus.

TKK (c) Ilkka Mellin (2004) 136

Yleinen lineaarinen malli ja regressiodiagnostiikkaRegressiografiikkaPoikkeavat havainnotParametrien vakioisuusMultikollineaarisuusHomoskedastisuus ja heteroskedastisuusAutokorrelaatio

>> NormaalisuusMallin ennustuskyky

Regressiodiagnostiikka

TKK (c) Ilkka Mellin (2004) 137

AvainsanatBowmanin ja Shentonin testiJäännöstermiLineaarinen regressiomalliNormaalisuusRakenneosaRankit Plot -kuvioResiduaaliSelitettävä muuttujaSelittävä muuttujaSoviteWilkin ja Shapiron testi

Normaalisuus

TKK (c) Ilkka Mellin (2004) 138

NormaalisuusNormaalisuusoletus

• Yleistä lineaarista mallia koskevan standardioletuksen (vi) mukaan mallin jäännöstermit εj ovat normaalisia:

• Tätä oletusta kutsutaan normaalisuusoletukseksi.• Jos oletus (vi) ei päde, jäännöstermit eivät ole

normaalisia.

2N(0, ) , 1,2,...,j j nε σ =∼

Page 24: Regressiodiagnostiikka - Aalto

24

TKK (c) Ilkka Mellin (2004) 139

NormaalisuusEpänormaalisuuden vaikutukset

• Jos regressiomallin jäännöstermit εj eivät ole normaalisia, t- ja F-jakaumiin perustuva tilastollinen päättely ei välttämättä ole enää pätevää.

• Tämä johtuu siitä, että regressiokertoimien PNS-estimaattoreiden otosjakaumat eivät ole tällaisessa tilanteessa normaalisia.

• Huomautus:Vaikka jäännöstermit εj eivät olisikaan normaalisia, t- ja F-jakaumiin perustuva tilastollinen päättely on kuitenkin yleensäsuuntaa-antavaa, jos poikkeamat normaalisuudesta ovat kohtuullisia.

TKK (c) Ilkka Mellin (2004) 140

NormaalisuusNormaalisuuden testaaminen

• Regressiomallien jäännös- eli virhetermien normaalisuutta voidaan tutkia usealla eri tavalla.

• Monet tilastolliset ohjelmistot tarjoavat esimerkiksi toisen tai molemmat seuraavista testeistä:– Bowmanin ja Shentonin testi– Rankit Plot -kuvio sekä Wilkin ja Shapiron testi

• Tässä käsittelemme vain Bowmanin ja Shentonin testiä.Lisätietoja jakaumaoletusten testaamisesta: ks. lukua Yhteensopivuuden, homogeenisuuden ja riippumattomuuden testaaminenluentosarjassa Johdatus tilastotieteeseen.

TKK (c) Ilkka Mellin (2004) 141

NormaalisuusBowmanin ja Shentonin testi 1/2

• Bowmanin ja Shentonin testi jäännöstermin normaalisuudelle perustuu χ2-testisuureeseen

• Testisuureen lausekkeessa

ovat estimoidun regressiomallin residuaalienej , j = 1, 2, … , n vinous ja huipukkuus, joiden kaavoissa

2 2 21 26 24

n nc cχ = +

3 41 23 2 2

2 2

3m mc cm m

= = −

1 1

1 1( )n n

kk j j

j jm e e e e

n n= =

= − =∑ ∑TKK (c) Ilkka Mellin (2004) 142

NormaalisuusBowmanin ja Shentonin testi 2/2

• Jos nollahypoteesi jäännöstermin normaalisuudesta pätee, testisuure χ2 noudattaa suurissa otoksissaapproksimatiivisesti χ2-jakaumaa vapausasteinf = 2:

• Testisuureen χ2 normaaliarvo eli odotusarvo nolla-hypoteesin H0 pätiessä on

E(χ2) = 2• Normaaliarvoaan merkitsevästi suuremmat χ2-testisuureen

arvot viittaavat siihen, että nollahypoteesi H0 ei päde.

2 2~ (2)aχ χ

TKK (c) Ilkka Mellin (2004) 143

NormaalisuusNormaalisuuden testaaminen: Kommentteja

• Normaalisuustestit saattavat reagoida myös regressio-mallin rakenneosan väärään spesifikaatioon.

• Siten normaalisuustestien testisuureiden merkitsevät arvot eivät saa automaattisesti johtaa toimenpiteisiin, joilla pyritään korjaamaan jäännöstermin epä-normaalisuus.

TKK (c) Ilkka Mellin (2004) 144

Yleinen lineaarinen malli ja regressiodiagnostiikkaRegressiografiikkaPoikkeavat havainnotParametrien vakioisuusMultikollineaarisuusHomoskedastisuus ja heteroskedastisuusAutokorrelaatioNormaalisuus

>> Mallin ennustuskyky

Regressiodiagnostiikka

Page 25: Regressiodiagnostiikka - Aalto

25

TKK (c) Ilkka Mellin (2004) 145

AvainsanatChow-testiχ2-testiEnnustaminenEnnusteEnnustevirheLineaarinen regressiomalliParametrien vakioisuusResiduaaliSelitettävä muuttujaSelittävä muuttujaSovite

Mallin ennustuskyky

TKK (c) Ilkka Mellin (2004) 146

Mallin ennustuskykyEnnuskyvyn testaaminen

• Jossakin mielessä voimakkain testi lineaarisen mallin(1)käyttökelpoisuudelle on mallin kyky ennustaa.

• Mallissa (1):yj = selitettävän muuttujan y havaittu arvo

havainnossa jxji = selittäjän xi havaittu arvo havainnossa j

0 1 1 2 2j j j k jk jy x x xβ β β β ε= + + + + +

TKK (c) Ilkka Mellin (2004) 147

Mallin ennustuskykyEnnuskyvyn testaaminen:Testausasetelma 1/5

• Oletetaan, että sekä selitettävästä muuttujasta y ettäselittäjistä x1, x2, … , xk on käytettävissä havaintoarvot havainnoissa

j = 1, 2, … , n, n + 1, n + 2, … , n + h ((n + h) kpl)• Estimoidaan lineaarinen regressiomalli (1) havainnoista

j = 1, 2, … , n• Käytetään havainnoista j = 1, 2, … , n estimoitua mallia

selitettävän muuttujan y arvojen yj ennustamiseenhavainnoissa

j = n + 1, n + 2, … , n + h

TKK (c) Ilkka Mellin (2004) 148

Mallin ennustuskykyEnnuskyvyn testaaminen:Testausasetelma 2/5

• Olkoon

havainnoista j = 1, 2, … , n muodostettu lineaarinen malli matriisimuodossa.

• Mallissa:X

• Olkoon

vektorin β PNS-estimaattori havainnoista j = 1, 2, … , n.

= +y Xβ ε

2

on ( 1)-matriisi, ( ) 1N ( , )n

n k r kσ

× + = +X Xε 0 I∼

1( )−′ ′=b X X X y

TKK (c) Ilkka Mellin (2004) 149

Mallin ennustuskykyEnnuskyvyn testaaminen:Testausasetelma 3/5

• Muodostetaan selittäjien x1, x2, … , xk havaituista arvoista xji havainnoissa j = n + 1, n + 2, … , n + h vektori

zj = (1, xj1 , xj2 , … , xjk) , j = n + 1, n + 2, … , n + h• Muodostetaan vektoreista zj h×(k + 1)-matriisi

Xh

jossa vektorit zj ovat riveinä.

TKK (c) Ilkka Mellin (2004) 150

Mallin ennustuskykyEnnuskyvyn testaaminen:Testausasetelma 4/5

• Selitettävän muuttujan y arvojen yj havaintoihinj = 1, 2, … , n

perustuvat ennusteet havainnoissaj = n + 1, n + 2, … , n + h

saadaan kaavasta

ja vastaavat ennustevirheet saadaan kaavasta

• Muodostetaan ennustevirheistä uj h-vektoriu = (un+1 , un+2 , … , un+h)

ˆ , 1, 2, ,j jy j n n n h′= = + + +z b …

ˆ , 1, 2, ,j j ju y y j n n n h= − = + + +…

Page 26: Regressiodiagnostiikka - Aalto

26

TKK (c) Ilkka Mellin (2004) 151

Mallin ennustuskykyEnnuskyvyn testaaminen:Testausasetelma 5/5

• Ennustevirheillä

on seuraavat stokastiset ominaisuudet:

• Vastaavasti ennustevirheiden muodostamalla h-vektorilla u = (un+1 , un+2 , … , un+h)

on seuraavat stokastiset ominaisuudet:

2 1

E( ) 0

Var( ) (1 ( ) )j

j j j

u

u σ −

=

′ ′= + z X X z

2 1

E( )Cov( ) ( ( ) )h hσ −

=

′ ′= +

u 0u I X X X X

ˆ ˆ , 1, 2, ,j j j j ju y y y j n n n h′= − = − = + + +z b …

TKK (c) Ilkka Mellin (2004) 152

Mallin ennustuskykyEnnuskyvyn testaaminen:Testisuure

• Muodostetaan χ2-testisuure

jossa

on ennustevirhe havainnossa j jas2

on tavanomainen havainnoista j = 1, 2, … , n määrätty harhaton estimaattori jäännösvarianssille σ2 .

• Estimoitu malli ennustaa huonosti, jos testisuure saa suuria arvoja.

22

21

n hj

j n

us

χ+

= +

= ∑

ˆ , 1, 2, ,j j j j ju y y y j n n n h′= − = − = + + +z b …

TKK (c) Ilkka Mellin (2004) 153

Mallin ennustuskykyEnnuskyvyn testaaminen:Testisuureen jakauma 1/2

• Asetetaan regressiomallin (1) parametrien samuutta otos-ja ennustejaksoilla koskeva nollahypoteesi

jossa indeksi 1 viittaa otosjaksoonj = 1, 2, … , n

ja indeksi 2 viittaa ennustejaksoonj = n + 1, n + 2, … , n + h

2 20 1 2 1 2H : ,σ σ= =β β

TKK (c) Ilkka Mellin (2004) 154

Mallin ennustuskykyEnnuskyvyn testaaminen:Testisuureen jakauma 2/2

• Jos nollahypoteesi

pätee, testisuure

noudattaa χ2-jakaumaa vapausastein h:

• Suuret testisuureen arvot viittaavat siihen, että oletus parametrien vakioisuudesta ei päde.

2 20 1 2 1 2H : ,σ σ= =β β

2 2 ( )hχ χ∼

22

21

n hj

j n

us

χ+

= +

= ∑

TKK (c) Ilkka Mellin (2004) 155

Mallin ennustuskykyEnnuskyvyn testaaminen:Kommentti

• Regressiomallin ennustekykyä voidaan testata myös parametrien vakioisuutta testaavalla Chow-testillä.

• Tässä esitetty χ2-testisuure ja Chow-testi ovat läheistäsukua toisilleen ja antavat asymptoottisesti eli suurilla havaintojen lukumäärillä saman tuloksen.