Ekonometrijos Virtuvė - Vilniaus universitetasweb.vu.lt/ef/v.karpuskiene/files/2017/02/EKONVIRT_V1.pdf · 2017-02-06 · beveik visuose skyriuose: tai Ekonometrijos teorijos pagrindai,

Ekonometrijos Virtuvė

versija 1.0

ekonometrijos mokomoji medžiaga

studentai – studentams

Vita Karpuškienė

Andrej Davidovič

Oleg Davidovič

Karina Majevskaja

Jaroslav Mečkovski

Simona Meškelytė

Laura Mociūnaitė

Giedrius Rupeika

Normantė Šikšniūtė

Vilnius

2017

2

Recenzavo: doc. dr. Algirdas Bartkus (Vilniaus universitetas)

Techninis teksto redagavimas ir maketavimas: Algirdas Bartkus

3

TURINYS

ĮVADAS ............................................................................................................... 5

1. EKONOMETRIJOS SAMPRATA IR TURINYS ..................................... 6

2. REGRESINĖ ANALIZĖ: PASKIRTIS IR MODELIAI .......................... 10

2.1 Regresija – ryšio analizės priemonė ..................................................... 10

2.1.1 Regresinės analizės samprata .......................................................... 10

2.1.2 Regresinės analizės sąvokų išaiškinimas ......................................... 11

2.1.3 Pavyzdys: būsto nuomos kainos Vilniuje ........................................ 17

2.1.4 Koeficientų įvertinimas mažiausių kvadratų metodu ...................... 22

2.1.5 Įverčių savybės ir Gausso-Markovo teorema .................................. 23

2.2 Determinuotumas .................................................................................. 25

2.2.1 Determinacijos koeficientai ............................................................. 25

2.2.2 Informacijos kriterijai ...................................................................... 28

2.3 Intervaliniai įverčiai ir hipotezių tikrinimas ......................................... 29

2.3.1 Intervaliniai įverčiai ......................................................................... 29

2.3.2 Hipotezių tikrinimas: dvipusis ir vienpusis ..................................... 30

2.3.3 Modelio įverčių ir determinacijos koeficiento reikšmingumo

tikrinimas ......................................................................................................... 33

3. FIKTYVŪS (PSEUDO) KINTAMIEJI IR VEIKSNIŲ PARINKIMAS . 36

3.1 Fiktyvių kintamųjų samprata ir naudojimo atvejai ............................... 36

3.2 Fiktyvių kintamųjų taikymo atvejai ...................................................... 40

3.3 Veiksnių parinkimo problema............................................................... 41

4. MULTIKOLINEARUMAS ..................................................................... 45

4.1 Multikolinearumo problemos esmė ...................................................... 45

4.2 Multikolinearumo pasekmės ir požymiai.............................................. 47

4

4.3 Multikolinearumo diagnostika .............................................................. 48

4.4 Multikolinearumo tikrinimas MS Excel pagalba .................................. 50

5. HETEROSKEDASTIJA ........................................................................... 57

5.1 Kas yra heteroskedastija? ...................................................................... 57

5.2 Heteroskedastijos nustatymas ............................................................... 61

5.3 Heteroskedastijos naikinimas ............................................................... 69

5.4 Heteroskedastijos tikrinimas MS Excel pagalba................................... 73

6. AUTOKORELIACIJA ............................................................................. 78

6.1 Autokoreliacijos apibrėžimas ............................................................... 78

6.2 Autokoreliacijos nustatymo būdai ........................................................ 79

6.3 Autokoreliacijos sprendimo būdai ........................................................ 85

7. MODELIO SPECIFIKACIJA .................................................................. 87

7.1 Neteisingai sudarytas modelis .............................................................. 88

7.1.1 Duomenų netikslumai ...................................................................... 88

7.1.2 Veiksnių parinkimo klaidos ............................................................. 90

7.2 Diagnostika ........................................................................................... 93

7.2.1 Grafinė modelio paklaidų analizė .................................................... 93

7.2.2 Ramsey RESET testas ..................................................................... 94

7.2.3 Determinuotumo rodiklių lyginimas ............................................... 96

7.2.4 Modelio specifikacijos patikrinimas MS Excel pagalba ................. 97

7.3 Kiti modelio specifikacijos testai ........................................................ 100

7.3.1 Non-nested F testas ........................................................................ 100

7.3.2 Davidson-MacKinnon J testas ....................................................... 101

LITERATŪROS SĄRAŠAS ............................................................................ 103

GAIRĖS TOLESNIEMS DARBAMS ............................................................. 104

5

ĮVADAS

Jei nutarėte atsiversti šią mokomąją medžiagą, gali būti dvi priežastys:

artėja ekonometrijos atsiskaitymas ar egzaminas arba

Jūs jaučiatės labai alkanas.

Nesvarbu, kuri priežastis paskatino paimti į rankas šią mokomąją medžiagą, mes

Ekonometrijos būrelio nariai, sakome Jums „Sveikas mielas bičiuli. Ketiname Tau pa-

dėti pasiruošti egzaminui pačiu lengviausiu ir suprantamiausiu būdu.“ Šios mokomosios

medžiagos tikslas ekonometriją paversti kasdieninio gyvenimo dalimi. Todėl kviečiame

apsilankyti virtuvėje ir atrasti analogijas tarp maisto patiekalo paruošimo ir ekonometri-

nio modelio sudarymo. Paruoštas maistas turi būti skanus ir maistingas, taip ir ekono-

metrinis modelis turi būti patikimas ir atitinkantis realybę nagrinėjamo ekonominio

reiškinio atvaizdas, išreikštas matematinėmis lygtimis.

Šioje mokomojoje medžiagoje galime išskirti tris struktūrines linijas sutinkamas

beveik visuose skyriuose: tai Ekonometrijos teorijos pagrindai, regresinio modelio pa-

vyzdys apie būtų nuomos kainas Vilniuje ir pasižvalgymas po Ekonometrijos virtuvę.

Dėstymas pradedamas nuo ekonomikos teorijos, iliustruojant kiekvieną klausimą pa-

vyzdžiu ir kartkartėmis užsukant į virtuvę, t.y. sugretinant ekonometrinio modelio suda-

rymą su maisto patiekalo gaminimu.

Studentai, besiruošdami egzaminui arba savarankiškam ekonometriniam tyrimui,

gali pasirinkti kurią nors vieną iš struktūrinių mokomosios medžiagos linijų ir praleisti

kitas. Pvz., jeigu aktuali yra tik ekonometrijos teorinė medžiaga, tuomet galima praleisti

buto nuomos pavyzdį ir virtuvės analogijas. Kita vertus, jeigu studentai ketina savaran-

kiškai sudaryti regresinį modelį, gali daugiau dėmesio skirti buto nuomos pavyzdžiui,

kuriame pateikiama trumpa instrukcija, kaip atlikti skaičiavimus su Excel skaičiuokle.

Teorinė medžiaga parengta remiantis trimis autoriais: D. Gujarati, G.S. Maddala

ir C. Hill. Plačiau ir išsamiau teoriniai ekonometrijos klausimai išdėstyti literatūros są-

raše pateiktuose vadovėliuose, kuriuos galite rasite VU bibliotekoje.

6

1. EKONOMETRIJOS SAMPRATA IR TURINYS

Dabarties mokslo raidai būdinga tai, kad matematika vis labiau skverbiasi į įvai-

rias mokslo sritis. Ekonomika ne išimtis. Ekonomikos ir matematikos sąveika nėra

vienpusė. Ne tik matematiniai metodai skverbiasi į ekonomikos mokslą, bet yra ir grįž-

tamas poveikis. Ekonominiai uždaviniai ir problemos skatina specializuotų matematikos

šakų, tokių kaip matematinis programavimas, lošimų teorija, masinio aptarnavimo teori-

ja, aktuarijų (draudimo) matematika, atsiradimą. Glaudžioje ekonomikos ir matematikos

mokslų sąveikoje susiformavo ir ekonometrija. Ekonometrija – tai ekonomikos teorijos

ir matematinės statistikos junginys.

Statistika ekonominių duomenų analizei pradėta taikyti gana senai. 1699 m.

Charles Davenant paskelbė pirmus „empirinius“ paklausos duomenis. Vėliau 1707 m.

italų statistikas Rudolfo Enini atliko labai novatorišką paklausos statistinę analizę. Greta

statistinės ekonominių procesų analizės, buvo taikomi ir kiti matematiniai metodai, pvz.,

anglų ekonomistas Williamas Petty 1676 m. knygoje „Politinė aritmetika“ siūlė pereiti

prie griežtesnio minčių reiškimo skaičiais, svoriais ir kitais matais. Pirmąjį pasaulyje

ūkio modelį sukūrė prancūzų mokslininkas François Quesnay, 1756 m. paskelbęs darbą

„Ekonominė lentelė“, kuriame ūkio reprodukcijos procesus nagrinėjo pasitelkdamas

matematines lygtis. Prancūzų mokslininko Antoine Augustin Cournot darbas „Turto

teorijos matematinių principų tyrimas“, išleistas 1838 metais, faktiškai suformavo klasi-

kinę matematikos mokyklą ekonomikoje, kuri padarė labai didelę įtaką ekonomikos

mokslo raidai. XX ir XXI amžių galima būtų pavadinti ekonomikos matematizavimo

amžiumi. Visgi esminis ekonometrijos, kaip mokslo šakos atsiradimo etapas buvo nor-

vegų ekonomisto ir matematiko Ragnaro Frischo darbų paskelbimas, kuriuose 1926 m.

pirmą kartą paminėtas ir pats ekonometrijos terminas. 1930 m. susibūrė Ekonometrijos

draugija, o 1933 m. pasirodė pirmasis žurnalas „Econometrica“, kuris yra leidžiamas iki

šiol ir yra vienu iš keleto pačių prestižiškiausių žurnalų visame ekonomikos moksle.

Ekonometrijos apibrėžimai yra gana įvairūs, pradedant nuo labai plačių, įtrau-

kiančių įvairiausius ekonominius matematinius metodus, iki gana siaurų, kai apsiribo-

jama keliais matematinės statistikos metodais.

7

Ekonometrija tai ekonomikos mokslo disciplina, kuri apjungia ekonomikos teo-

riją ir matematinę statistiką, siekiant suteikti skaitines reikšmes ekonominiams proce-

sams.

Arba, ekonometrija tai ekonomikos mokslo disciplina, kurioje taikant matemati-

kos ir statistikos metodus, apskaičiuojami ekonominiai rodikliai ir kita informacija, rei-

kalinga ekonominei analizei ir sprendimų priėmimui.

Ekonometrijos tikslas – ekonometrinio modelio sudarymas.

Ekonometrinis modelis – tai tokia matematinė analitinė išraiška, kurioje viena

lygtimi arba jų sistema užfiksuojami esminiai ūkinių procesų, juos apibūdinančių rodik-

lių ryšiai ir kitimo dėsningumai.

Ekonometrijos pagrindų kursą dažniausiai sudaro dvi dalys: regresinė analizė ir

laiko eilučių modeliai. Regresinė analizė kiekybiškai įvertina kokį poveikį kokie veiks-

niai daro nagrinėjamam ekonominiam reiškiniui. Laiko eilučių analizė leidžia nustatyti

pagrindines ekonominių reiškinių kitimo tendencijas, ciklinius bei sezoninius svyravi-

mus ir kitus svarbius ekonominio reiškinio dinamikos aspektus bei prognozuoti galimas

reikšmes.

Šioje Ekonometrijos mokomoje knygelėje bus pateikti regresinės analizės pa-

grindai.

Jokio ekonometrinio modelio neįmanoma sudaryti be duomenų. Modeliuose gali

būti naudojami trijų rūšių duomenys:

Skerspjūvio (erdvės) duomenys tai informacija apie stebėjimo vienetų: individų,

namų ūkių, įmonių, regionų, miestų ir kt. būklę konkrečiu laiko momentu. Jie gali būti

kaupiami ir renkami įmonėse, šalies Statistikos departamente, tarptautinių organizacijų

(pvz. Pasaulio banko, Eurostato ir kt.) duomenų bazėse, ar netgi elektroninių portalų

duomenų bazėse. Duomenys taip pat gali būti renkami specialiai tyrimui skirtų apklausų

metu. Skerspjūvio duomenys dažniau taikomi mikroekonominėje analizėje.

Laiko eilučių duomenys tai informacija apie stebėjimo vieneto būklės kitimą lai-

ke. Dažniau taikomi makroekonominėje analizėje.

Blokuoti (paneliniai) duomenys – tai skerspjūvio ir laiko eilučių duomenų jungi-

nys, apibūdinantis skerspjūvio stebėjimo objektų būklės kitimą tam tikru laiko periodu.

8

Tokie duomenys yra matricų formos. Jų pagrindu sudaryti modeliai šioje mokomoje

medžiagoje nebus nagrinėjami.

Turint duomenis, galima sudaryti ekonometrinį modelį. Kiekvienas analitikas

einant laikui išsidirba savo individualų modelių kūrimo būdą, o pradedantiesiems bus

pasiūlyta ekonometrinio modelio sudarymo procedūra, apimanti tris paprastus etapus.

Ekonometrinio modelio sudarymo etapai:

1. Ekonominis modelis;

2. Statistinis modelis;

3. Ekonometrinis modelis.

Kiekvienas ekonometrinio modelio etapas yra smulkiau skirstomas į žingsnius:

I etapas: ekonominis modelis.

Pirmas žingsnis: Ekonominės problemos formulavimas (svarbu aiškiai suvokti ir

apsibrėžti, kokį reiškinį siekiate nagrinėti);

Antras žingsnis: Hipotezių apie veiksnių tarpusavio sąveiką iškėlimas (nustaty-

kite galimus ryšius tarp analizuojamų veiksnių);

Trečias žingsnis: Duomenų rinkimas (naudokite patikimus duomenų šaltinius,

pvz., Statistikos departamento, Eurostato, Pasaulio banko ir kt. tarptautinių organizacijų

ar užsienio šalių institucijų duomenų bazes, reprezentatyvių apklausų rezultatus).

II etapas: statistinis modelis

Ketvirtas žingsnis: Statistinė ir grafinė duomenų analizė (turimi duomenys pa-

vaizduojami grafiškai ir apskaičiuojami pagrindiniai statistiniai rodikliai);

Penktas žingsnis: Modelio matematinės išraiškos užrašymas (sudaromos ir užra-

šomos matematinės lygtys);

Šeštas žingsnis: Parametrų įverčių skaičiavimas (remiantis surinktais duomenis

apskaičiuojami modelio koeficientai);

Septintas žingsnis: Modelio patikimumo tikrinimas (naudojami įvairūs testai,

siekiant įsitikinti, jog modelis gali būti naudojamas ekonominiams sprendimams priim-

ti).

III etapas: ekonometrinis modelis

Aštuntas žingsnis: Ekonominės problemos analizė, naudojant apskaičiuotus mo-

delio įverčius ir kitas skaitines charakteristikas;

9

Devintas žingsnis: Ekonominių scenarijų kūrimas, prognozavimas.

Atlikus visus anksčiau išvardintus žingsnius gaunamas ekonometrinis modelis.

Tai yra matematinis modelis, generuojantis ekonominių sprendimų priėmimui reikalin-

gų rodiklių skaitines reikšmes. Visus šiuos etapus ir žingsnius pailiustruosime ekono-

metrinio modelio sudarymo pavyzdžiu. apie būtų nuomos kainų priklausomybę nuo

įvairių veiksnių.

„Užsukime į virtuvę“

Šiuose intarpuose autoriai stengėsi surasti analogiją tarp ekonometrinio

modelio sudarymo ir patiekalo, tarkime salotų, paruošimo. Ekonometrinis mo-

delis yra tarsi kulinarinis kūrinys, kuris gaunamas nagrinėjant produktų skonius

ir tinkamais kiekiais juos derinat tarpusavyje.

Jei esate alkanas ir nusprendžiate gaminti sau patiekalą, Jūs turite nu-

spręsti, ką konkrečiai gaminsite ir apsibrėžti, kiek ir kokių produktų Jums reikės.

Taip pat reikia produktus įsigyti bei žinoti visą patiekalo paruošimo seką.

Tuos pačius veiksmus reikia atlikti ir nagrinėjant kokį nors ekonominį

reiškinį bei sudarant ekonometrinį modelį. Jei, pavyzdžiui, nutariate nagrinėti

nedarbą, Jūs turite nuspręsti, kokiose šalyse jį tirsite, kokius veiksnius, daran-

čius įtaką nedarbui, įtrauksite, taip pat reikia surinkti norimus duomenis (juk

duomenų rinkimas – tai tarsi reikalingų produktų pirkimas Jūsų patiekalui) ir ga-

liausiai svarbu turėti planą, nuo ko pradėsite, ir kokio rezultato sieksite.

Pabandykime įsivaizduoti, kad Jūs sumanėte pasigaminti kažką ska-

naus, tačiau atvėręs šaldytuvą pastebėjote, kad neturite visų pasirinktajam pa-

tiekalui reikalingų produktų. Gurgiančiu pilvu, šiek tiek nusivylęs ir panarinęs

galvą pėdinate į prekybos centrą ir štai įžengus pro duris prieš Jūsų akis atsive-

ria milžiniška įvairovė maisto produktų. Toks didelis pasirinkimas Jums šiek tiek

apsuka galvą ir Jūs jau norite griebti ir krauti į krepšį viską, kas Jums po ranka.

Tačiau žvelkime į tai truputėlį racionaliau. Taigi į parduotuvę užsukote tik tų

produktų, kurių reikia konkrečiam patiekalui pagaminti. Todėl, jei sumanėte pa-

sigaminti vištienos salotas, Jūs turbūt aplenksite saldumynų skyrių, o jei norite

išsikepti šokoladinį pyragą, matyt, nesižvalgysite tose lentynose, kur sudėti

rauginti agurkėliai.

10

2. REGRESINĖ ANALIZĖ: PASKIRTIS IR MODELIAI

2.1 Regresija – ryšio analizės priemonė

Kiekvieną ekonominį reiškinį veikia bent keli veiksniai. Priimant sprendimus

dažnai neužtenka vien tik išvardinti nagrinėjamą ekonominį reiškinį sąlygojančius

veiksnius, bet reikia jų poveikį įvertinti kiekybiškai. Šiam tikslui yra naudojama regre-

sinė analizė. Regresinis modelis leidžia matematinės lygties pagalba užrašyti nagrinė-

jamų veiksnių poveikį ekonominiam reiškiniui. Turint tokią lygtį, galima:

parodyti ekonominio reiškinio susiformavimo mechanizmą;

matematiškai aprašyti nagrinėjamo ekonominio reiškinio priklausomybę nuo

jį sąlygojančių veiksnių;

nustatyti reikšmingus ir nereikšmingus veiksnius;

prognozuoti nagrinėjamo ekonominio reiškinio variantus;

modeliuoti įvairias situacijas ir stebėti, kaip kinta nagrinėjamas reiškinys,

kintant veiksniams;

konkreti regresijos ryšio forma leidžia gauti ekonominės analizės išvadoms

naudingus rodiklius: ryšio ženklą ir pobūdį, nagrinėjamo reiškinio elastin-

gumą kiekvienam iš veiksnių arba visų veiksnių poveikiui bendrai.

Šiame skyriuje bus aptarta regresinės analizės samprata ir pagrindiniai regresi-

nės analizės terminai.

2.1.1 Regresinės analizės samprata

Regresinė analizė yra statistinis metodas, kai taikant matematines procedūras,

gaunama lygtis arba jų sistema, rodanti vieno ar daugiau veiksnių įtaką nagrinėjamas

reiškiniui. Gauta matematinė lygtis yra vadinama regresijos lygtimi arba tiesiog regresi-

ja. Bendras regresinės lygties pavidalas atrodo taip:

1( , , )i i ki iY f X X u (1)

Čia: iY – nagrinėjamas ekonominis reiškinys, nuo

1iX iki kiX – jį sąlygojantys

veiksniai, o iu – regresijos paklaida. i yra stebėjimo numeris, o k tai paskutinio į mo-

delį įtraukto įtakojančio veiksnio numeris.

Kiekvienas regresinis modelis susideda iš dviejų dalių: sisteminės ir atsitiktinės.

Lygtyje 1( , , )i kif X X yra sisteminė, o

iu – atsitiktinė dalis.

11

Svarbu įsidėmėti, kad regresinė analizė taikoma spręsti uždaviniams, kuriuose

ryšiai tarp veiksnių yra tikimybiniai. Tikimybinis ryšys pasižymi tuo, kad jo skaitinę

reikšmę galime sužinoti tik po to, kai reiškinys jau yra įvykęs (pvz., kokią nuomos kainą

per mėnesį suderės studentai atvykę mokytis į Vilnių). Kiti pavyzdžiai: koks bus BVP

metinis augimas ar nedarbo lygis, taip pat sužinome tik metams pasibaigus. Kita tiki-

mybinių sąryšių ypatybė yra ta, kad, esant toms pačioms aplinkybėms, t.y. esant įtako-

jančių veiksnių reikšmėms tokiom pat, nagrinėjamo reiškinio reikšmė gali būti skirtinga.

Pvz., tokį patį butą, tame pačiame rajone studentai gali nuomoti už skirtingą kainą.

2.1.2 Regresinės analizės sąvokų išaiškinimas

Priklausomi ir nepriklausomi kintamieji

Apibrėžiant regresijos sampratą naudojome terminus: nagrinėjamas ekonominis

reiškinys ir jį sąlygojantys veiksniai. Toliau naudosime trumpesnes ir griežtesnes sąvo-

kas. Priklausomas arba aiškinamasis kintamasis yra regresijos lygties kairėje pusėje

esantis kintamasis (iY lygtyje (1)), kurio vidutinių reikšmių pokyčius stengiamasi paaiš-

kinti kitų – dešinėje esančių – veiksnių pokyčiais.

Nepriklausomi arba aiškinantieji kintamieji (1iX ,

2iX ir taip iki kiX ) – tai deši-

nėje lygties pusėje esantys kintamieji, kurie veikia priklausomąjį kintamąjį (iY ). Šiame

pagrindų kurse laikysime, kad nepriklausomųjų kintamųjų reikšmės gali laisvai kisti, o

priklausomas kintamasis jiems įtakos neturės. Žodžiai: priklausomas – aiškinamasis –

regresantas – stimulas bei nepriklausomas – aiškinantysis – regresorius – atsakas, reg-

resinėje analizėje vartojami kaip sinonimai. Šioje mokomojoje medžiagoje vartosime

terminus: „priklausomas“ ir „nepriklausomi“ kintamieji.

Regresinės lygties kintamiesiems apibrėžti naudojamos ir sąvokos endogeninis

bei egzogeninis kintamasis. Dažniausiai jų turinys yra tapatus sąvokoms priklausomas

ir, atitinkamai, nepriklausomas kintamasis, tačiau ne visada. Nagrinėjant autokoreliaciją

pamatysite, kad dešinėje lygties pusėje galės būti ir vėluojantis priklausomas kintama-

sis. Nepaisant buvimo dešinėje pusėje, jis vis vien bus egzogeniniu.

Porinė ir dauginė regresija

Porinė regresija yra tokia regresija, kai vertinamas dviejų kintamųjų tarpusavio

ryšys. Tokią regresiją lengva pavaizduoti grafiškai.

12

Dauginė regresija yra regresija, kai nepriklausomų kintamųjų yra daugiau nei

vienas. Šiuo atveju galima tirti daugelio veiksnių bendrą įtaką priklausomam kintama-

jam. Bendrą įtaką suformuoja visų veiksnių poveikio suma. Atskiro veiksnio įtaka yra

vadinama daline ir nustatoma, darant prielaidą, kad kiti veiksniai tuo metu neveikia.

Tiesinė ir netiesinė regresija

Tiek porinės, tiek dauginės regresijos matematinė išraiška kintamųjų iY ir

iX at-

žvilgiu gali būti ne tik tiesinė, bet ir netiesinė. Žemiau pateiktos dažniausiai naudojamos

regresijos lygties matematinės išraiškos. Visas šias lygtis matematinių procedūrų pagal-

ba (logaritmuojant ir transformuotiems dydžiams suteikiant naujus trumpinius, pvz.,

lni ix X ), nesunkiai galima pervesti į tiesinę formą.

Įvairių matematinių išraiškų panaudojimas regresiniuose modeliuose labai pra-

plečia ekonometrinio modeliavimo taikymo galimybes, tačiau sukelia tyrėjui klausimų,

o kokią formą parinkti analizuojamai situacijai tirti. Atsakymus į šį ir kitus klausimus

galima gauti iškeliant antrame žingsnyje numatytas hipotezes apie veiksnių sąryšius,

tiriant skaidos diagramas bei determinuotumo rodiklius, apie kuriuos bus kalbama kita-

me skyrelyje. Žemiau yra pateiktos pagrindinių ekonometrijoje naudojamų funkcijų sa-

vybės ir jų taikymo pavyzdžiai.

Pav. 1: Tiesinė regresija

Tiesinė regresija 0 1i i iY X u yra pats paprasčiausias sąryšis. Sąryšio po-

būdis išlieka pastovus, esant tiek mažoms tiek ir didelėms X reikšmėms. Tiesinė ma-

tematinė išraiška dažnai naudojama produkcijos ir kaštų sąryšiui aprašyti. Pvz., turime

13

modelį: 0 1i iY X , kuriame

iY -- produkto kaina; 0 – fiksuoti produkcijos gamy-

bos kaštai, o sandauga 1 iX – kintantys kaštai, kurioje

1 parodo X ištekliaus (pvz.

darbo jėgos) sąnaudas produkcijos vienetui.

Pav. 2: Rodiklinė regresija (ištiesinus log-log regresija)

Rodiklinė regresija 1

0 exp( )i i iY X u gali įgauti labai įvairias formas, todėl ji

gana dažnai yra naudojama. Ekonomikoje Cobbo-Douglaso funkcija yra būtent tokia

funkcija, susiejanti pagamintos produkcijos apimtis su gamybos ištekliais, pvz., darbo

jėga ir kapitalu. Tuomet apskaičiuotas laipsnio rodiklis parodo sąnaudų elastingumą.

Pav. 3: Rodiklinė regresija (ištiesinus log-lin regresija)

14

Tai veiksnio X kintančio poveikio funkcija, kurios viena iš galimų matematinių

formų yra 0 1exp( )i i iY X u . Pagrindinė jos ypatybė yra ta, kad esant nedidelėms

X reikšmėms, Y gana lėtai, tačiau spartėjančiu tempu auga, jeigu koeficientas 1 0 .

Todėl esant didesnėms X reikšmėms, Y augimas tampa vis spartesnis. Pvz., gyventojų

skaičiaus augimas pasaulyje arba užkrečiamų ligų plitimas (gripo) tam tikroje teritorijo-

je. Jeigu 1 0 , X veiksnio augimas turi mažinantį poveikį Y reikšmėms, tačiau pats

poveikis yra silpnėjantis iki pasiekiamas toks lygis, kai X kitimas daro labai nežymų

poveikį. Pvz., išmetamų teršalų mažėjimas priėmus įstatymą apie leidimą parduoti tik

aukštos kokybės degalus. Po nutarimo įsigaliojimo vis daugiau mašinų pradės naudoti

švarius degalus, ir todėl išmetimai mažės gana sparčiai, tačiau, kai dauguma pereis prie

naujų degalų, teršalų emisijos stabilizuosis prie tam tikros ribos.

Pav. 4: Rodiklinė regresija (ištiesinus lin-log regresija)

Tai taip pat kintančio poveikio kreivė, kuriai būdinga silpnėjanti veiksnio X

įtaka priklausom kintamajam Y . Pvz., mažėjantis žemės derlingumas metams bėgant,

jeigu žemė nėra tręšiama arba mažėjantis darbo našumas dėl nuovargio, didėjant darbo

valandų skaičiui. Pvz., turime modelį: 0 1 lni iY X , kuriame Y – surinktų braškių

kiekis (kg), o X darbo valandų skaičius per dieną. Tikėtina, kad po 8-9 darbo valandų

našumas pradės kristi. Gali būti ir neigiamas silpnėjantis X poveikis kintamajam Y .

Pvz., mažėjanti šeimos išlaidų dalis maisto produktams, didėjant šeimos pajamoms, jei-

gu šeimos narių skaičius nekinta.

15

Pav. 5: Atvirkštinė regresija

Tai nepastovaus veiksnio X poveikio priklausomam kintamajam funkcija

0 1(1/ )i i iY X u , kuriai yra būdingas atvirkštinis ryšys tarp Y ir X kintamųjų,

t.y. X didėjant Y mažėja, tačiau Y mažėjimas turi neperžengiamą ribą, žemiau kurios

Y reikšmės nenukrenta. Atvirkštinės kreivės forma turi Phillipso kreivė makroekono-

mikoje, kuria remiantis aprašomas sąryšis tarp infliacijos ir nedarbo lygio, darant prie-

laidą, kad infliacijai didėjant nedarbo lygis mažėja, tačiau neperžengia natūralaus ne-

darbo lygio ribos.

Pav. 6: Kvadratinė regresija

16

Antro laipsnio daugianarė funkcija 2

0 1 2i i i iY X X u išsiskiria tuo, kad

turi lūžio tašką, kuris dalina kreivę į augimo ir smukimo periodus (kai 2 koeficientas

prie 2

iX yra neigiamas) ir atvirkščiai kai mažėjimo ir didėjimo periodus, kai 2 teigia-

mas). Makroekonomikoje kvadratine funkcija yra išreikšta Laffero kreivė, kurios pagal-

ba nustatomas ryšys tarp mokestinių pajamų surinkimo į biudžetą ir mokesčio tarifo

reikšmės. Tai reiškia, kad surenkamos mokestinės pajamos į šalies biudžetą didėja, di-

dinant mokesčio tarifą, tačiau tik iki tam tikro lygio, kurį peržengus žmonės praranda

motyvaciją dirbti ar pradeda slėpti pajamas, todėl surenkamos pajamos pradeda mažėti.

Kvadratinė funkcija yra antros eilės polinomo funkcija. Regresinei analizei galima nau-

doti ir aukštesnių eilių polinomines funkcijas. Įsidėmėtina, kad didėjant polinomo eilei,

jo funkcija vis tiksliau aprašo stebėjimus, pagal kuriuos įvertinti polinomo parametrai.

Tačiau didesnės eilės polinomas yra visiškai netinkama funkcija prognozuojant. Prak-

tiškai regresinei analizei ir prognozei taikytinas tik antros eilės polinomas, t.y. kvadrati-

nė funkcija.


Sudarant regresijos modelį kaip ir gaminant patiekalus svarbu apsi-

spręsti kokiu būdu pateiksime ingredientus: keptus, virtus ar tiesiog žalius. Pa-

sirinkdami gaminimo būdą, mes renkamės kokias produktų savybes norime iš-

ryškinti ir kokios jų kombinacijos geriausiai atskleidžia patiekalo skonį. Pavyz-

džiui, gaminant salotas, galima dėti šviežius pomidorus, ridikėlius ir kt. Taip pat

galime dėti jau apdorotus ingredientus, pvz., virtą kiaušinį, raugintą agurką ly-

giai taip pat regresijos lygtyje kintamieji gali būti skirtingų matematinių formų.

Logaritmuotą kintamąjį galime sulyginti su apdorotu salotų ingredientu, pvz.,

raugintu agurku.

Regresijos ryšio parametrai ir jų įverčiai

Pagrindinis uždavinys regresinėje analizėje – teisingai įvertinti regresijos koefi-

cientus. Regresijos lygties koeficientai ir yra veiksnių sąryšio matai. Mes vartojame žo-

dį „įvertinti“, o ne „surasti“ arba „apskaičiuoti“, kadangi labai dažnai apskaičiuoti tikrą-

sias parametrų reikšmes yra neįmanoma.

Regresijos lygties koeficientai kartais vadinami parametrai, o kartais parametrų

įverčiais. Išmatuotus regresijos lygties koeficientus vadintume parametrais, tuomet jei į

17

modelį būtų įtraukti visi populiacijos duomenys (pvz., visų Vilniaus nuomojamų butų

kainos), o ir pats modelis būtų sudarytas nepriekaištingai. Surinkti tiek daug duomenų

praktiškai yra neįmanoma, o dažnai ir neprasminga. Dažniausiai tikrosios parametrų

reikšmės nėra žinomos ir negali būti tiksliai nustatytos, nes visada esama ribojančių

subjektyvių ir objektyvių veiksnių: nėra duomenų arba jie netikslūs, analitikas neteisin-

gai parinko veiksnius, netiksliai nustatė priklausomybės matematinę išraiška ir t.t. Dėl

šių priežasčių modeliai sudaromi naudojant imčių duomenis ir naudojant įvairius statis-

tinius metodus daromos išvados apie tikrąsias parametrų reikšmes. Regresijos lygties

parametrai žymimi raidėmis: 0 ,

1 , ir taip iki k , o parametrų įverčiai yra atitinkamai

0 , 1 , ir taip iki ˆk .

Sąvoka Ceteris paribus

Ceteris paribus yra lotyniškas posakis, kuris reiškia: kitos sąlygos yra tos pačios

arba esant tokioms pačioms sąlygoms. Šis posakis vartojamas nagrinėjant reiškinį ar jo

kurį nors aspektą, kai kitos aplinkybės, kurios gali paveikti aptarinėjamąjį reiškinį, lai-

komos nekintančiomis. Regresinėje analizėje – tai labai svarbu, nagrinėjant konkretaus

nepriklausomojo kintamojo įtaką, darant prielaidą, kad kiti veiksniai lieka nepakitę. Šią

sąvoką sutrumpintai žymėsime CP.

2.1.3 Pavyzdys: būsto nuomos kainos Vilniuje

Įsivaizduokite, kad Jūs ką tik įstojote į Vilniaus universiteto Ekonomikos fakul-

tetą ir greitu metu planuojate persikelti gyventi į Vilnių. Taigi tam, kad galėtumėte sėk-

mingai studijuoti sostinėje, Jūs nusprendžiate pradėti ieškoti būsto, kuriame galėtumėte

apsigyventi. Naršydami internete randate tiek įvairiausių nuomos pasiūlymų, kad net

galva ima svaigti, todėl šiek tiek pasimetate ir sunerimstate, kaip gi išsirinkti patį ge-

riausią variantą. Juk taip norėtųsi patogaus ir jaukaus būsto, tačiau ir nebrangaus, nes

Jūs juk žinote daugybę būdų, kaip geriau ir smagiau panaudoti turimas lėšas nei būsto

nuoma.

Akivaizdu, kad būsto kainą lemia daugybė veiksnų. Regresinė analizė yra puikus

būdas išsiaiškinti veiksnių įtaką. Todėl dabar pabandykime atlikti šį tyrimą ir kartu ap-

rašyti visus ekonometrinio modelio sudarymo etapus.

Pradedame nuo Ekonominio etapo pirmojo žingsnio. Formuluojame tyrimo tiks-

lą, nagrinėjamą reiškinį ir veiksnius.

18

Nagrinėjamas reiškinys – būto nuomos kaina Vilniuje. Tikslas – kiekybiškai ap-

rašyti kainos priklausomybę nuo ją lemiančių veiksnių. Sudarome galimų veiksnių sąra-

šą:

Būsto plotas (m2);

Kambarių skaičius;

Aukštas;

Statybos metai;

Atstumas iki miesto centro (km).

Visi šie veiksniai turi kiekybinį įvertinimą ir matus, kurie nurodyti greta. Tačiau

yra ir kitų veiksnių, kurie daro stiprią įtaką, tačiau kiekybiškai jų išmatuoti negalime.

Tokie veiksniai gali būti:

Būsto tipas (namas, kotedžas, butas, loftas ir pan.);

Vieta, rajonas;

Ar būstas su baldais;

Šildymo sistema (autonominis, centrinis).

Antrame žingsnyje įvardiname ekonomines prielaidas ir sąlygas, kurias turi ten-

kinti sudarytas modelis.

Didesnio ploto buto nuomos kaina, bus aukštesnė;

Butas, kuriame yra daugiau kambarių, kitoms sąlygoms esant tokioms pat,

yra brangesnis;

Kuo būstas arčiau miesto centro, tuo jo nuomos kaina aukštesnė;

Butas su autonominiu šildymu, tikėtina, kad yra brangesnis;

Jei būstas su baldais, jo nuomos kaina yra aukštesnė;

Kuo būstas naujesnis, tuo jo nuomos kaina aukštesnė;

Kuo rajonas saugesnis, patrauklesnis, naujesnis ir pan., tuo būsto kaina aukš-

tesnė.

Trečiame žingsnyje renkame duomenis. Mūsų tyrimui reikiamus duomenis su-

rinkti nesunku, kadangi jie yra skelbiami nekilnojamo turto agentūrų elektroniniuose

puslapiuose.

Studentai surinko 315 nuomojamų būtų iš dvidešimties Vilniaus miesto rajonų

duomenis. Surinktų duomenų fragmentas pateiktas lentelėje.

19

Lentelė 1: Surinkti duomenys apie butus

Kaina Plotas (m2) Aukštas Kambarių skaičius Amžius

Atstumas iki centro Rajonas Tipas Baldai Šildymas

96 14 2 1 16 3 Naujininkai Butas Be baldų Centrinis

101 15 2 1 14 9 Balsiai Butas Su baldais Autonominis

101 25 1 1 11 9 Balsiai Butas Su baldais Autonominis

101 30 2 2 22 8 Dvarčionys Butas Su baldais Centrinis

116 25 1 2 36 2 Užupis Butas Su baldais Autonominis

116 50 3 2 35 6.3 Karoliniškės Butas Su baldais Centrinis

116 64 3 1 24 4 Žirmūnai Butas Su baldais Centrinis

116 15 4 1 27 5 Justiniškės Butas Su baldais Centrinis

116 35 1 2 25 2.8 Naujininkai Butas Su baldais Centrinis

116 25 1 1 44 4.1 Naujamiestis Butas Su baldais Centrinis

Šiame etape nagrinėsime buto nuomos kainos priklausomybę tik nuo kiekybinių

veiksnių, t.y. nuo buto ploto, aukšto, kambarių skaičiaus, senumo ir atstumo nuo centro.

Surinktus duomenis, prasminga atlikti jų statistinę ir grafinę analizę. Žemiau

pateikiami pagrindiniai statistiniai rodikliai:

Vidurkis (angl. Mean) – tai dydis, skaičiuojamas sudedant visas kiekybinio kin-

tamojo reikšmes ir padalijant šią sumą iš reikšmių skaičiaus.

Mediana (angl. Median) – tai požymio reikšmė, kuri dalija variacinę eilutę į dvi

lygias dalis. Lygiai pusė variacinės eilutės turi reikšmes, mažesnes ar lygias medianai, o

kita variacinės eilutės pusė turi reikšmes, didesnes ar lygias medianai.

Standartinis nuokrypis (angl. Standard deviation) – tai dydis, nusakantis atsitik-

tinio dydžio įgyjamų reikšmių sklaidą apie vidurkį.

Asimetrijos koeficientas (angl. Skewness) – statistinė duomenų aibės charakte-

ristika, apibūdinanti skirstinio asimetriškumą.

Ekscesas (angl. Kurtosis) – dydis, kuris rodo skirstinio bukumą ar smailumą.

Lentelė 2: Pagrindinės aprašomosios statistikos charakteristikos

Rodiklis Kaina Plotas Amžius Atstumas iki centro

Vidurkis 477 76 22 5

Mediana 348 55 14 6

Standartinis nuokrypis 379 63 22 3

Dispersija 143649 3977 478 9

Ekscesas 3 10 8 0

Asimetrija 2 3 2 0

Užmojis 1931 436 153 14

Minimali reikšmė 96 14 1 0

Maksimali reikšmė 2027 450 154 14

Iš aprašomosios statiškos rodiklių sužinome, kad pigiausias butas, nuomojamas

už 96 eurus yra 14 m2, name statytame prieš 16 metų. Brangiausias yra namas, kurio

20

nuomos kaina 2027 eurai ir jo plotas 450 m2. Vidurkių analizė yra kitokia: vidutinė

nuomojamo buto kaina yra 477 eurai, tai butas turintis 76 m2, esantis name, statytame

prieš 22 metus ir nuo miesto centro nutolęs 5 km. atstumu. Šitokį skirtumą nulemia tai,

kad vidurkis yra jautrus didžiausioms ir mažiausioms reikšmėms.

Šiame žingsnyje verta pasidomėti ar tarp nuomojamų butų kainų nėra išskirčių.

Galima pasinaudoti trijų standartinių nuokrypių taisykle. Išskirtimis galime laikyti tas

nuomos kainas, kurios nepatenka į intervalą 3 YY s . Pasitelkiant aprašomųjų statistikų

lentelę, randame intervalą 477 3 379 . Matome, kad brangiausio būsto nuomos kainą,

lygią 2027 eurų, galime laikyti išskirtimi.

Grafinė analizė

Grafinei duomenų analizei verta nusibraižyti individualias kintamųjų diagramas,

histogramas bei sklaidos diagramas.

0

500

1000

1500

2000

2500

0 50 100 150 200 250 300 350

Pav. 7: Butų nuomos kainos taškinė diagrama

21

0

10

20

30

40

50

60

70

80

100

200

300

400

500

600

700

800

900

1000

1100

1200

1300

1400

1500

1600

1700

1800

1900

2000

2100

Daugiau

Pav. 8: Butų nuomos kainos histograma

0

500

1000

1500

2000

2500

0 50 100 150 200 250 300 350 400 450 500

Kaina

Plotas

Pav. 9: Butų nuomos kainų priklausomybė nuo ploto

22

2.1.4 Koeficientų įvertinimas mažiausių kvadratų metodu

Pats populiariausias ir geriausiai ištyrinėtas regresijos lygties koeficientų skai-

čiavimo būdas – tai mažiausių kvadratų metodas (MKM). Prieš pradedant vertinti regre-

sijos parametrų įverčius, priklausomo ir nepriklausomų kintamųjų duomenys turi būti

atsakingai paruošti, t.y. suderinti laiko, vietos ir periodiškumo atžvilgiu.

MKM tikslas – nustatyti tokius regresijos parametrų įverčius, kurie minimizuoja

skirtumų tarp faktinių (iY ) ir apskaičiuotų ( ˆ

iY ) pagal pasirinktą regresijos lygtį priklau-

somojo kintamojo reikšmių kvadratų sumą. Matematiškai mažiausių kvadratų kriterijus

užrašomas taip:

2 2

1 1

ˆ ˆ( ) minn n

i i i

i i

Y Y u

(2)

MKM įverčių skaičiavimo formules pagrindimas iliustruotas porinės regresijos

pavyzdžiu. Tiesinės porinės regresijos atveju îY reikšmės bus lygios:

0 1ˆ ˆˆ

i iY X

Apskaičiuojamos funkcijos (2) pirmosios dalinės išvestinės ir prilyginamos nu-

liui:

2

10 1

10

2

10 1

11

ˆˆ ˆ2 ( ) 0

ˆ

ˆˆ ˆ2 ( ) 0

ˆ

nn

iii i

i

nn

iii i i

i

uY X

uY X X

Toliau reikia sudaryti lygčių sistemą iš dešinėje lygybės pusėje esančių reiški-

nių:

0 1

1 1

2

0 1

1 1 1

ˆ ˆ

ˆ ˆ

n n

i i

i i

n n n

i i i i

i i i

Y n X

X Y X X

Išsprendus lygčių sistemą gaunamos porinės tiesinės regresijos lygties parametrų

įverčių nustatymo formulės:

11 11 2 2

1 1

11 10 1

ˆ

( )

ˆˆ ˆ

n nn

i i i iii i

n n

i ii i

n n

i ii i

n X Y X Y

n X X

Y XY X

n

23

Čia Y yra priklausomojo kintamojo faktinių reikšmių vidurkis, X yra nepri-

klausomojo kintamojo reikšmių vidurkis, o n stebėjimų skaičius.

Sudarant dauginę regresiją, koeficientai nustatomi naudojant tuos pačius princi-

pus, tačiau dėl didesnio nepriklausomų kintamųjų skaičiaus, pačios formulės yra sudė-

tingesnės ir talpina savyje daugiau įvairių kintamųjų sumų ir jų sandaugų sumų dėmenų.

2.1.5 Įverčių savybės ir Gausso-Markovo teorema

Jeigu skaičiuojant parametrų įverčius yra tenkinamos klasikinės regresijos prie-

laidos, tuomet turime taip vadinamus „geriausius“ parametrų įverčius, kurie pasižymi

trimis savybėmis: yra nepaslinkti, efektyvūs ir suderinti.

Įverčių nepaslinktumas reiškia, jog, apskaičiavus tą pačią regresijos lygtį su skir-

tingomis duomenų imtimis, gauname įverčius, kurių vidurkis yra lygus tikrajai paramet-

ro reikšmei.

Įverčių efektyvumas. Įverčiai yra efektyvūs tada, kai jų dispersija yra minimali.

Ši savybė reiškia, kad skirtingoms imtims apskaičiuoti regresijos lygties įverčiai įma-

nomai arti išsibarstę aplink tikrąsias parametro reikšmes.

Suderinti įverčiai reiškia, kad, didinant imtims, t.y. stebėjimų skaičiui artėjant

prie begalybės, įverčio reikšmė artėja prie tikrosios parametro reikšmės.

Iš šių savybių seka, kad duomenų pakankamumas yra būtina sąlyga analizei at-

likti. Turint didesnes imtis didėja tikimybė, taikant tinkamą regresijos parametrų įverčių

radimo metodą, nustatyti tikriesiems parametrams artimas įverčių reikšmes.

Klasikinės regresinės analizės prielaidos

Įverčiai bus netikslūs, jeigu apskaičiuota regresijos lygtis netenkins klasikinių

regresijos prielaidų.

Tiesiškumas – regresijos funkcija koeficientų ir paklaidų atžvilgiu yra tiesinė:

0 1 1i i k ki iY X X u

Paklaidų vidurkis lygus nuliui:

( ) 0iE

Paklaidos neautokoreliuoja, t.y. paklaidos tarpusavyje nėra susijusios ir nestebi-

mi sklaidos dėsningumai:

cov( , ) 0i j

Tai tinka visiems i ir j , kai i j .

24

Paklaidų dispersija yra homoskedastiška, t.y. pastovi. Didėjant nepriklausomų

kintamųjų reikšmėms, priklausomojo kintamojo sklaidos intervalas išlieka pastovus:

2var( )i

Nepriklausomi kintamieji nėra tiesiškai tarpusavyje susiję, t.y. nėra vieni kitų

tiesinės kombinacijos (nėra multikolinearumo arba interkoreliacijos).

Paklaidos pasiskirsčiusios pagal normalųjį skirstinį (normalumas).

2~ (0, )i N

Gausso-Markovo teorema

Tai labai svarbi teorema regresinėje analizėje. Ji teigia, kad jeigu yra tenkinamos

klasikinio regresinio modelio prielaidos, tai mažiausių kvadratų metodu (MKM) apskai-

čiuoti regresijos įverčiai yra efektyvūs, t.y. turi mažiausią dispersiją tarp visų tiesinių,

nepaslinktų įverčių (teoremos įrodymas pateiktas priede A).

Ši teorema sako, kad jeigu yra tenkinamos klasikinės regresijos prielaidos, tuo-

met apskaičiuoti MKM įverčiai turi pageidaujamas savybes, t.y. yra tiesiniai, nepaslink-

ti, t.y. arčiausiai tikrųjų populiacijos parametrų reikšmių, lyginant su kitais metodais

apskaičiuotais įverčiais.

Lentelė 3: Dažniausiai naudojamų netiesinių modelių pakeitimais tiesiniais koeficientų atžvilgiu

Regresijos

lygties forma

Matematinė regresi-

jos lygties išraiška

Pakeitimai Tiesinė modelio

išraiška

Tiesinė 0 1i iY X

0 1i iY X

Eksponentinė 0 1exp( )i iY X

0 1ln( ) ln( )i iY X

ln( )i iY Z

*

0 0ln( )

*

0 1i iZ X

Logaritminė 0 1 ln( )i iY X ln( )i iX V

0 1i iY V

Hiperbolinė 0 1(1/ )i iY X 1/ i iX V

0 1i iY V

Kvadratinė 2

0

j

i j j iY X 2

i iX V 0 1 2i i iY X V

Rodiklinė 1

0i iY X 0 1ln( ) ln( ) ln( )i iY X

ln( )i iY Z

*

0 0ln( )

ln( )i iX V

*

0 1i iZ V

25

Gausso-Markovo teorema ir klasikinės regresijos prielaidos reikalauja tik regre-

sijos koeficientų tiesiškumo, kintamieji gi gali būti įvairių matematinių formų.

Pirmas modelis vadinamas lin modeliu, antras log-lin modeliu, trečias lin-log

modeliu, ketvirtas atvirkštiniu modeliu, penktas antro laipsnio polinominiu modeliu ir

paskutinis log-log modeliu.

Norint sudaryti log-log modelį pradžioje reikėtų atlikti duomenų pakeitimus,

kaip parodyta lentelėje, t.y. visus pradinius duomenis pakeisti jų logaritmais. Dauginio

regresinio modelio nepriklausomi kintamieji gali būti įtraukti į modelį skirtingomis ma-

tematinėmis formomis, pvz.:

2

0 1 1 2 2 3 3 4 3ln( )i i i i i iY X X X X

Šiame modelyje kintamasis 1X įtrauktas tiesine forma,

2X – logaritmine, o 3X

– kvadratine.

2.2 Determinuotumas

Šiame skyriuje bus aptarta determinacijos koeficientas, koreguotasis determina-

cijos koeficientas, Akaike informacijos kriterijus (AIC) ir Schwartz informacijos kriteri-

jus (SIC).

2.2.1 Determinacijos koeficientai

Kai kalbama apie koreliacijos koeficientų naudojimą regresinėje analizėje, turi-

ma omenyje, kad mus domina nagrinėjamų kintamųjų ryšio stiprumas. Tačiau to nepa-

kanka, reikia nustatyti, ar įvertinta regresijos modelio lygtis atitinka faktiškus stebėji-

mus, t.y. būtina išsiaiškinti, kokiu mastu Y reikšmių sklaidą paaiškina sudaryta regresi-

ja, kaip gerai modelis tinka Y numatyti, esant duotiems X . Vienas svarbiausių tinka-

mumo matų yra determinacijos koeficientas.

Faktinės ir vidutinės priklausomo kintamojo reikšmės skirtumas yra:

ˆ ˆ( ) ( )

ˆˆ ( )

i i i i

i i

Y Y Y Y Y Y

u Y Y

(3)

Pakėlus abi šios lygybės puses kvadratu ir sudėjus visus stebėjimus, gaunama:

2 2 2

1 1 1

2 2

1 1

ˆ ˆ( ) ( ) ( )

ˆˆ ( )

n n n

i i i i

i i i

n n

i i

i i

Y Y Y Y Y Y

u Y Y

(4)

26

Įveskime naujus žymėjimus ir lygtį (4) pakeiskime į tokią:

TSS RSS ESS (5)

Trumpai apibūdinsime įvestus žymėjimus.

Bendroji kvadratų suma (TSS) įvertina suminį priklausomo kintamojo nuokrypį

nuo vidurkio, t.y., ji išmatuoja iY reikšmių sklaidą apie Y . TSS apskaičiuojama taip:

2

1

( )n

i

i

TSS Y Y

(6)

Regresijos kvadratų suma (ESS) parodo priklausomo kintamojo reikšmės, įver-

tintos pagal sudarytą regresijos modelį, nuokrypio nuo vidurkio kvadratų sumą. Kitaip

tariant, tai yra paaiškinta sklaida, susijusi su X ir Y ryšiu. Ji apskaičiuojama taip:

2

1

ˆ( )n

i

i

ESS Y Y

(7)

Liekamoji paklaidų kvadratų suma (RSS) apskaičiuojama taip:

2 2

1 1

ˆˆ ( )n n

i i i

i i

RSS u Y Y

(8)

Ji parodo, kiek faktiškos stebėjimų reikšmės nukrypsta nuo apskaičiuotųjų pagal

regresijos modelį. Kuo jos reikšmė didesnė, tuo modelyje yra daugiau neįvertintų kin-

tamųjų, veikiančių Y . Kitaip RSS dar vadinama nepaaiškinta kvadratų suma. Tai sklai-

da, nesusijusi su X ir Y ryšiu, o su kitais veiksniais.

Pav. 10: Nuokrypių grafikas

27

Šių kvadratų sumas dar geriau leidžia suprasti 2.1 paveikslėlis.

TSS nusako, kaip faktiškos stebėjimų reikšmės išsisklaidžiusios apie vidurkį.

RSS įvertina, kaip Y reikšmės išsisklaidžiusios apie regresijos tiesę. ESS parodo, kiek

regresijos tiesė skiriasi nuo vidurkio.

Paprasčiausias regresijos kvadratų sumos (ESS) ir bendros kvadratų sumos

(TSS) santykis nusako Y dispersijos dalį, kurią įvertina sudarytas regresijos modelis.

Šis santykis matuoja sudarytos regresijos lygties tinkamumą ir vadinamas determinaci-

jos koeficientu, kurį žymėsime 2R (porinėje regresijoje naudosime 2r santrumpą):

2 ESS

RTSS

(9)

Determinacijos koeficientas parodo, kokią procentinę priklausomo kintamojo ki-

timo dalį nulemia nepriklausomo kintamojo kitimas, o 2(1 )R – kiti neįvertinti kinta-

mieji, kitaip tariant, kaip Y dispersijos kitimą įvertina regresijos modelis.


Tam, kad geriau suvoktume determinacijos koeficiento esmę, galima pa-

teikti analogiją, susijusią su maisto gaminimu. Tarkime, visų produktų, reikalin-

gų salotoms pagaminti, svoris yra 1 kg, tačiau, kai pagaminame salotas – jos

sveria 0,6 kg (600 g). Šiuo atveju TSS būtų pradinis visų produktų svoris, t.y. 1

kg (TSS = 1), o ESS – galutinis salotų svoris, t.y. 0,6 kg (ESS = 0,6). RSS – tai

kas tapo atliekomis ir pateko į šiukšlių dėžę.

Jei, pavyzdžiui modelio determinacijos koeficiento reikšmė 2 0,912R , tuomet

galime sakyti, kad regresijos modelyje pasirinkti nepriklausomi kintamieji paaiškina

91,2% priklausomo kintamojo variacijos, 8,8% – kiti neįvertinti veiksniai.

Gali kilti klausimas, kaip patikrinti, ar gautoji 2R reikšmė yra patikima ir ar ji

atspindi tikrąją priklausomybę. Apie tai bus kalbama kitame skyriuje.

Modelio įverčių reikšmingumo tikrinimas.

Be šios formulės, 2R apskaičiuoti tinka ir kita formulė:

2 1

RSSR

TSS (10)

Porinės regresijos atveju determinacijos koeficientui skaičiuoti gali būti naudo-

jama štai tokia formulė:

28

2

1 1 12

2 2 2 2

1 1 1 1( ) ( )

n n n

i i i ii i i

n n n n

i i i ii i i i

n X Y X Yr

n X X n Y Y

(11)

Determinacijos koeficientas negali būti neigiamas, kadangi tai yra proporcija. Jis

gali įgyti reikšmes tarp 0 ir 1. Kadangi determinacijos koeficientas kinta nuo 0 iki 1, tad

kuo jo reikšmė didesnė, tuo modelis gali būti laikomas sąlyginai geresniu. Tačiau šiam

kriterijui būdingi ir trūkumai. Determinacijos koeficientas niekada nesumažėja, kai į

modelį įtraukiamas naujas nepriklausomas kintamasis, ir todėl aklai pasikliauti tik šiuo

kriterijumi, neatsižvelgiant į modelio koeficientų reikšmingumą neina.

Dėl šios savybės, palyginant modelius, tai traktuojama kaip svarbiausias šio ro-

diklio trūkumas. Todėl praktikoje be determinacijos koeficiento 2R , naudojamas, ypač

dauginėje regresijoje, koreguotasis determinacijos koeficientas, kurį žymėsime 2R .

Koreguotasis determinacijos koeficientas neleidžia be reikalo įtraukti į analizę

nereikšmingų nepriklausomų kintamųjų. Jis visada mažesnis už determinacijos koefi-

cientą. Koreguotasis determinacijos koeficientas apskaičiuojamas taip:

2 2 11 (1 )

1

nR R

n k

(12)

Čia n yra imties dydis, o k nepriklausomų kintamųjų skaičius.

Koreguotasis determinacijos koeficientas yra naudingas lyginant du ar daugiau

modelių, kurie talpina savyje labai didelį nepriklausomų kintamųjų skaičių.

2.2.2 Informacijos kriterijai

Informacijos kriterijai paremtas liekamųjų paklaidų kvadratų sumos (RSS) mi-

nimizavimu arba, kitaip tariant, determinacijos koeficiento reikšmės didinimu. Akaikės

informacijos kriterijus apskaičiuojamas taip:

2 /k n RSS

AIC en

(13)

Skaičiuoti patogiau naudojant logaritminę kriterijaus (13) išraišką:

2

ln( ) lnk RSS

AICn n

(14)

Švarco informacijos kriterijus yra artimas AIC ir apskaičiuojamas pagal tokią

formulę:

/k n RSS

SIC nn

(15)

29

Logaritmavus abi (15) puses, gauname:

ln( ) ln( ) lnk RSS

SIC nn n

(16)

Šie kriterijai labai parankūs lyginant keletą alternatyvių modelių. Geresniu yra

laikomas tas modelis, kurio mažesnė reikšmė.

2.3 Intervaliniai įverčiai ir hipotezių tikrinimas

Šiame skyriuje bus aptarta:

Intervaliniai įverčiai,

Hipotezių tikrinimas: dvipusis ir vienpusis,

Modelio įverčių reikšmingumo tikrinimas.

2.3.1 Intervaliniai įverčiai

Ankstesniuose skyreliuose buvo suformuluoti reikalavimai regresijos modelio

liekamosioms paklaidoms, tačiau nebuvo minimi jokie reikalavimai modelio parametrų

įverčiams. Šioje skyriaus dalyje aptarsime, kaip yra sudaromi intervaliniai parametrų

įverčiai bei kaip galima tikrinti statistines parametrų įverčių reikšmingumo hipotezes,

žinant jų reikšmes.

Parametro i pasikliautinasis intervalas – tai aibė reikšmių, kurios telpa į inter-

valą tarp apatinės ir viršutinės hipotezės tikrinimo kritinių reikšmių. Bet kuri parametro

reikšmė, patenkanti į šį intervalą, yra suderinta su apskaičiuota įverčio reikšme.

Pažymėtina, kad viduryje šio intervalo visuomet bus apskaičiuotoji įverčio

reikšmė, o kitos reikšmės bus išsidėsčiusios į abi puses simetriškai.

Taigi intervaliniai įverčiai apskaičiuojami pagal tokią formulę:

/2, 1 /2, 1ˆ ˆ ˆ ˆ( ) ( )i n k i i n k it SE t SE (17)

Čia i yra parametras, ˆ

i – parametro įvertis, n – imties dydis (stebėjimų skai-

čius), k – nepriklausomų kintamųjų skaičius, – reikšmingumo lygmuo, praktiškai

dažniausiai ieškoma 95% pasikliautinųjų intervalų, kai 0,05 , ˆ( )iSE – parametro

įverčio standartinė paklaida.

Pavyzdžiui, yra įvertinta regresijos modelio lygtis:

( ) (0,057) (0,482)

ˆ 0,388 1,639SEY X (18)

30

Stebėjimų skaičius 25n ir 0,05 . Reikia apskaičiuoti pasikliautinuosius

intervalus kritinei reikšmei 0,025;23 2,069t .

Tada parametrų pasikliautinieji intervalai:

0

1

: (0,388 0,057 2,069) (0,270;0,506)

: ( 1,639 0,482 2,069) ( 2,636; 0,642)

(19)

Kadangi išsiaiškinome intervalinių parametrų įverčių sudarymo procedūrą, svar-

bu sužinoti, kaip vykdomas iškeltų hipotezių tikrinimas, kuris apima î koeficientų bei

determinacijos koeficiento reikšmingumą.

2.3.2 Hipotezių tikrinimas: dvipusis ir vienpusis

Paprastai hipotezių tikrinimas susietas su teiginiais, pagrįstais spėjimais, prielai-

domis arba teorijomis, kurie bus tikrinami. Dažniausiai tikrinamoji hipotezė vadinama

nuline hipoteze ir žymima 0H . Ji visada lydima priešingos jai hipotezės, kuri vadinama

alternatyviąja ir žymima 1H .

1 pavyzdys. Iškelkime tokią hipotezę: mūsų nagrinėjamos porinės regresijos (18)

nuolydžio koeficientas yra -1,5 (žinome, kad tikroji jo reikšmė lygi -1,639), t.y., nulinė

hipotezė 0 1: 1,5H . Tada alternatyvioji jai yra

1 1: 1,5H . Savaime aišku, kad

alternatyva gali būti vienoje iš dviejų nulinės hipotezės 0H pusių: mažesnė nei -1,5 arba

didesnė nei -1,5, t.y. nelygi nulinėje hipotezėje nurodytai reikšmei. Toks hipotezės tikri-

nimas vadinamas dvipusiu, t.y., kai alternatyvią hipotezę formuluojame be griežtos ne-

lygybės.

2 pavyzdys. Tarkime, kad mūsų pasirinktos regresijos (2.3.3) nuolydžio koefi-

cientas yra mažesnis negu -1,5, t.y. 0 1: 1,5H . Tada alternatyvioji jai –

1 1: 1,5H . Tai yra vienpusio hipotezės tikrinimo pavyzdys.

Iš pateiktų pavyzdžių svarbu atsiminti, kad nulinė hipotezė visada formuluojama

su lygybės ženklu (=, ≤ arba ≥). Alternatyviojoje hipotezėje lygybės ženklas niekada

nerašomas (≠, < arba >). Taip pat pažymėtina, jog iškeltas teiginys gali būti užrašomas

tiek nuline, tiek alternatyviąja hipoteze. Tai priklauso nuo jo formuluotės. Kadangi vi-

suomet tikrinama nulinė hipotezė, pirmame pavyzdyje buvo tikrinamas pirminis teigi-

nys, o antrame – priešingas pirminiam. Tai dar geriau leidžia suprasti susisteminta in-

formacija 2.2 lentelėje.

31

Lentelė 4: Nulinės ir alternatyviosios hipotezės formulavimo pavyzdžiai

Pirminis teiginys

Lygus 1 Nelygus 1 Mažiausiai 1 Daugiausiai 1 Daugiau nei 1 Mažiau nei 1

Pirminio teiginio simbolinė išraiška

β1 = 1 β1 ≠ 1 β1 ≥ 1 β1 ≤ 1 β1 > 1 β1 < 1

H0 H0: β1 = 1 H0: β1 = 1 H0: β1 ≥ 1 H0: β1 ≤ 1 H0: β1 ≤ 1 H0: β1 ≥ 1

H1 H1: β1 ≠ 1 H1: β1 ≠ 1 H1: β1 < 1 H1: β1 > 1 H1: β1 > 1 H1: β1 < 1

Grįžkime prie mūsų pavyzdžių. Atliksime pirmame ir antrame pavyzdžiuose iš-

keltų hipotezių tikrinimą. Pradėkime nuo dvipusio tikrinimo.

Dvipusės hipotezės tikrinimo procedūra:

0 1

1 1

: 1,5

: 1,5

H

H

Pav. 11: Dvipusis tikrinimas: atmetimo ir neatmetimo sritys tikrinant hipotezes

Tarkime, kad 0,05 yra pasirinktas reikšmingumo lygmuo. Esant 5 proc.

reikšmingumo lygmeniui ir dvipusiam t kriterijui, atmetama nulinė hipotezė, jeigu t

kriterijaus statistika pagal apskaičiuojamąją formulę 2,069t arba 2,069t (nes

laisvės laipsnių skaičius 25 1 1 23 , o 0,025;23 2,069t ).

Sudarius porinę regresiją gauta: 1ˆ 1,639 , o 1

ˆ( )SE = 0,482.

Skaičiuojame t statistiką:

1 1

1

ˆ 1,639 ( 1,5)0,288

ˆ 0,482( )t

SE

Apskaičiuotasis 0,288t (t.y. > -2,069 ir < 2,069). Išvada: neatmetama nulinė

hipotezė, kad nagrinėjamos porinės regresijos (2.2.3) nuolydžio koeficientas yra -1,5,

esant 5 proc. reikšmingumo lygmeniui. Nėra įrodymų, kad tikrasis nuolydžio koeficien-

tas nėra -1,5.

Pateiksime panašų vienpusės hipotezės tikrinimo pavyzdį.

0 1

1 1

: 1,5

: 1,5

H

H

32

Pav. 12: Vienpusis tikrinimas: atmetimo ir neatmetimo sritys tikrinant hipotezes

Kaip ir prieš tai buvusiame pavyzdyje tebūnie 0,05 . Esant 5 proc. reikš-

mingumo lygmeniui ir vienpusiam t kriterijui, atmetama nulinė hipotezė, jeigu t krite-

rijaus statistika pagal apskaičiuojamąją formulę 1,714t (nes laisvės laipsnių skai-

čius 25 1 1 23 , o 0,05;23 1,714.t ).

Sudarius porinę regresiją gauta: 1ˆ 1,639 , o 1

ˆ( )SE = 0,482.

Skaičiuojame t statistiką:

1 1

1

ˆ 1,639 ( 1,5)0,288

ˆ 0,482( )t

SE

Apskaičiuotasis 0,288t (t.y. > -1,714). Išvada: neatmetama nulinė hipotezė,

kad nagrinėjamos porinės regresijos (2.3.3) nuolydžio koeficientas nemažesnis nei -1,5,

esant 5 proc. reikšmingumo lygmeniui.

Svarbu atkreipti dėmesį į tai, kad egzistuoja ryšys tarp hipotezėje užrašytos pa-

rametro reikšmės ir intervalinio įverčio: jei ši reikšmė patenka į intervalą, tai nulinė hi-

potezė neatmetama, priešingu atveju – atmetama. Mūsų atveju hipotezėje užrašyta pa-

rametro reikšmė -1,5 patenka į intervalą apskaičiuotą pagal formulę (2.3.2), t.y. į

[ 2,636; 0,642] .

Trumpai apibendrinant. Geriau suprasti dvipusį ir vienpusį tikrinimą bei hipote-

zių atmetimą ir neatmetimą padės 2.3 lentelė.

Lentelė 5: Nulinės hipotezės atmetimo taisyklė

Hipotezės rūšis H0 H1 H0 atmetimo taisyklė

Dvipusė βi = βi* βi ≠ βi* |t| > tα/2,n-k-1

Vienpusė-dešiniašonė βi ≤ βi* βi > βi* t > tα,n-k-1

Vienpusė-kairiašonė βi ≥ βi* βi < βi* t < - tα,n-k-1

33

Čia *

i yra hipotezėje užrašyta parametro reikšmė. Analogiškos taisyklės bus

taikomos ir tikrinant modelio įverčių reikšmingumą.

2.3.3 Modelio įverčių ir determinacijos koeficiento reikšmin-

gumo tikrinimas

Įverčio 0 reikšmingumas. Statistinė hipotezė 0 0: 0H aktuali tik tuo atveju,

kai svarbu įsitikinti, ar regresijos tiesė kerta koordinačių susikirtimo tašką (0;0). Taip

būna retai. Todėl šios hipotezės atskirai nenagrinėsime, nes ji tikrinama visiškai analo-

giškai kaip ir įverčio î reikšmingumo hipotezė.

Įverčio î reikšmingumas. Statistinė hipotezė apie įverčio ˆ

i lygybę nuliui for-

muluojama taip:

0

1

: 0

: 0

i

i

H

H

0 : 0iH (nepriklausomas veiksnys (iX ) nedaro įtakos priklausomam kinta-

majam, t.y. koeficientas prie veiksnio gali būti lygus 0),

1 : 0iH (iX poveikis reikšmingas – regresijos koeficientas prie veiksnio ne-

lygus 0).

Kadangi šiuo atveju nulinė hipotezė formuluojama su lygybės ženklu, tai turime

dvipusį tikrinimą.

Šios nulinės hipotezės tikrinimo procedūra formaliai užrašoma:

/2, 1

ˆ ˆ 0~

ˆ ˆ( ) ( )

i i in k

i i

t tSE SE

Dydis t yra pasiskirstęs pagal Stjudento t-skirstinį su / 2 reikšmingumo lyg-

meniu ir 1n k laisvės laipsniais.

Nulinė hipotezė 0H atmetama, esant fiksuotam reikšmingumo lygmeniui , jei

/2, 1| | n kt t :

Kitais atvejais nulinė hipotezė 0H neatmetama. Taigi daromos tokios išvados:

jei apskaičiuota | |t reikšmė yra didesnė už teorinę reikšmę /2, 1n kt

, tuomet nulinė hi-

potezė atmetama ir su 1 tikimybe (pvz., kai 0,05 , t.y. 1 0,95 , tada 95

proc. tikimybe) galime tvirtinti, kad i-tojo veiksnio poveikis yra statistiškai reikšmingas.

Priešingu atveju, kai | |t apskaičiuota reikšmė yra mažesnė už teorinę reikšmę /2, 1n kt

34

negalime atmesti nulinės hipotezės, o tai reiškia, kad negalime tvirtinti, kad i-tojo

veiksnio poveikis yra statistiškai reikšmingas.

Prisiminkime, kad skyrelyje 2.2.1 determinacijos koeficientas buvome susidūrę

su problema, kaip patikrinti, ar gautoji 2R reikšmė yra statistiškai reikšminga. Taigi

dabar aptarsime procedūrą, kurios dėka nustatomas determinacijos koeficiento reikš-

mingumas.

Kaip minėta anksčiau, šis rodiklis naudojamas patikrinti sudaryto regresijos mo-

delio adekvatumą. Kai determinacijos koeficientas yra reikšmingas, tuomet ir įvertintas

regresijos modelis yra adekvatus.

Šio koeficiento reikšmingumui nustatyti taikomas Fišerio kriterijus. Ši kriteri-

jaus statistika apskaičiuojama kaip santykis sisteminių nuokrypių kvadratų sumos su

liekamosios paklaidos nuokrypių kvadratų suma, be to, skaitiklio reikšmė padalijama iš

kintamųjų skaičiaus, o vardiklio – iš laisvės laipsnių skaičiaus.

/

/ ( 1)

ESS kF

RSS n k

(20)

Padaliję (20) formulės skaitiklį ir vardiklį iš TSS, gauname:

2

2

/

(1 ) / ( 1)

R kF

R n k

Esant porines regresijos modeliui, 1k , ir tuomet:

2

2

( 2)

(1 )

r nF

r

Tikrinimo procedūra pradedama nuo hipotezės iškėlimo:

0H : visi 0i (parametrai prie nepriklausomų kintamųjų yra lygūs 0, t.y. reg-

resija yra nereikšminga, nes nė vienas veiksnys neįtakoja priklausomojo kintamojo),

1H : bent vienas iš parametrų i nėra lygus 0 (regresija statistiškai reikšminga,

nes yra bent vienas veiksnys, kuris įtakoja priklausomą kintamąjį).

Antrame žingsnyje yra apskaičiuojama F statistika pagal (2.3.10) arba (2.3.11)

ir turimus laisvės laipsnių skaičius k ir 1n k . Toliau apskaičiuotą faktinę F reikš-

mę lyginame su pasirinkto reikšmingumo, pvz., 5 proc. ( 0,05 ), teorine , 1k n kF

reikšme iš F skirstinio lentelių.

Taigi procedūros pabaigoje daromos tokios išvados: jeigu , 1k n kF F , tuomet su

95% pasikliovimo lygmeniu atmetame nulinę hipotezę, kad regresija yra statistiškai ne-

reikšminga, ir priimame alternatyvią, jog bent vienas nepriklausomas kintamasis daro

35

statistiškai reikšmingą poveikį priklausomam kintamajam. Jeigu yra priešingai, t.y.

, 1k n kF F , tuomet negalime atmesti nulinės hipotezės.


Fišerio kriterijui suprasti, galima pateikti tokią analogiją su maisto gami-

nimu: teorinė (kritinė) , 1k n kF

– tai griežtai pagal recepto reikalavimus gaminto

patiekalo, pavyzdžiui, salotų skonis ir pavidalas, o F apskaičiuota – studento

pagamintų salotų skonis ir pavidalas. Jeigu jie tarpusavyje skiriasi nedaug, ga-

lime sakyti, kad salotos atitinka receptą.

36

3. FIKTYVŪS (PSEUDO) KINTAMIEJI IR VEIKSNIŲ

PARINKIMAS

Iki šiol nagrinėjome įvairius regresijos modelius, tačiau jie pasižymėjo viena

bendra savybe – tiek priklausomi, tiek nepriklausomi kintamieji buvo kiekybiniai, t.y.,

kintamieji buvo išmatuoti intervalų ar santykių matavimo skalėse. Šiame skyriuje bus

nagrinėjami modeliai ne tik su kiekybiniais, bet ir kokybiniais kintamaisiais, kurie pri-

klauso pavadinimų ar ranginei skalei. Juk dažnai regresinėje analizėje regresantui įtakos

turi ne tik kiekybiniai kintamieji, tokie kaip pajamos, gamyba, kainos, kaštai, svoris,

temperatūra, bet ir kokybiniai. Kokybiniai kintamieji regresiniuose modeliuose dažnai

nurodo lytį, rasę, geografinį regioną, tautybę, spalvas bei kitus požymius. Siekiant

įtraukti tokius kintamuosius į regresinį modelį, visų pirma jie yra „sukiekybinami“ su-

formuojant fiktyvius arba dar kitaip vadinamus pseudo kintamuosius, kurie gali įgyti 0

ir 1 reikšmes, atitinkamai nurodančias požymio buvimą arba jo nebuvimą. Pavyzdžiui, 1

gali nurodyti, kad gaminant salotas jos buvo pagardintos druska, o 0 gali žymėti jog

šiuo atveju druska nebuvo naudojama.

Šiame skyriuje bus aptarta: pseudo kintamųjų samprata ir naudojimo atvejai, fik-

tyvių kintamųjų taikymo atvejai, priklausomas pseudo kintamasis, veiksnių parinkimo

problema.

3.1 Fiktyvių kintamųjų samprata ir naudojimo atvejai

Pseudo kintamasis – tai į regresijos lygį įtrauktas veiksnys, įgyjantis ne tikrąsias,

o pagal tam tikrus požymius suformuotas fiktyvias reikšmes.

0 1 1 2 2 3 1 4 2i i i i i iY X X D D u (21)

Jei kokybinis kintamasis įgyja dvi būsenas, tuomet pseudo kintamasis yra išreiš-

kiamas taip: 0iD , jei stebėjimas fiksuojamas būsenoje A ir 1iD , jei stebėjimas fik-

suojamas būsenoje B.

Pavyzdžiui, siekiant ištirti, kaip skiriasi vyrams ir moterims mokamas darbo

užmokestis, įvedamas fiktyvus kintamasis /v m

iD , kuris lygus 0, jei asmuo yra moteris ir

lygus 1, jei asmuo yra vyras.

Jei kokybinis kintamasis įgyja keturias būsenas, tuomet bus naudojami trys fik-

tyvūs kintamieji. Pavyzdžiui, tiriant salotoms reikalingo sūrio kainas, pravartu atsižvelg-

37

ti, kurioje šalyje yra pagamintas produktas. Tarkime išskiriamos būsenos yra Lietuva,

Lenkija, Italija ir kitos šalys. Tuomet fiktyvius kintamuosius galima apibrėžti taip:

0 1 1 2 3 4

LT PL IT

i i i i i iY X D D D u (22)

Čia 1LTD , jei pagaminta Lietuvoje ir 0LTD , jei pagaminta ne Lietuvoje.

1PLD , jei pagaminta Lenkijoje ir 0PLD , jei pagaminta ne Lenkijoje. 1ITD , jei

pagaminta Italijoje ir 0LTD , jei pagaminta ne Italijoje.

Tuo atveju, jeigu 2 bus statistiškai reikšmingas teigiamas dydis, sūrio paga-

minto Lietuvoje kaina bus didesnė dydžiu 2 , lyginant su ne lietuviško, lenkiško ar ita-

liško sūrio kaina, neatsižvelgiant į kitų kintamųjų poveikį. Tuo atveju, jeigu 3 bus sta-

tistiškai reikšmingas neigiamas dydis, sūrio pagaminto Lenkijoje kaina bus mažesnė

dydžiu 3 , lyginant su ne lietuviško, lenkiško ar itališko sūrio kaina, neatsižvelgiant į

kitų kintamųjų poveikį.

Nagrinėjamu atveju bazinė būsena yra „kitos šalys“. Šią būseną atitinkantis fik-

tyvus kintamasis nėra įtraukiamas į lygtį. Tuomet, jei sūris yra pagamintas kitoje šalyje,

visų į lygtį įtrauktų fiktyvių kintamųjų reikšmės bus lygios nuliui.

Taigi, matome, kad įtraukti fiktyvius kintamuosius į regresinį modelį nėra sun-

ku, tačiau tai reikia daryti atidžiai. Jei tiriant sūrių kainų priklausomybę nuo kilmės ša-

lies būtų įtraukiami keturi fiktyvūs kintamieji, tuomet susiformuotų tobulas kolinearu-

mas, nes tarp kintamųjų atsirastų tikslus tiesinis ryšys. Toks modelis yra neįmanomas.

Ši situacija dar vadinama fiktyvių kintamųjų spąstais. Plačiau apie tai sekančioje temo-

je.

Todėl, jei kokybinis kintamasis turi m būsenų, į regresinį modelį turi būti

įtraukti tik 1m fiktyvūs kintamieji. Šią taisyklę galima apibrėžti ir kitaip: į regresinį

modelį įtraukiamų fiktyvių kintamųjų skaičius turi būti vienu vienetu mažesnis negu

kokybinio kintamojo turimų būsenų skaičius.

Būsena, kuriai yra priskiriamas fiktyvus kintamasis lygus nuliui, yra vadinama

bazine, kontroline arba palyginamąja. Kaip jau buvo minėta, šiame pavyzdyje bazinė

būsena yra „kitos šalys“. Kiekviename regresiniame modelyje su įtrauktais fiktyviais

kintamaisiais visi palyginimai yra atliekami atsižvelgiant į bazinę būseną.

Laisvasis narys parodo vidutinę priklausomojo kintamojo reikšmę esant bazinei

būsenai, o koeficientai, esantys prie fiktyvių kintamųjų, pasako, kaip skiriasi vidutinė

38

priklausomojo kintamojo reikšmė esant būsenai, kuri įgauna reikšmę 1, nuo priklauso-

mojo kintamojo reikšmės esant bazinei būsenai.

Bazinė būsena yra pasirenkama tyrėjo nuožiūra. Griežtų apribojimų, kuo re-

miantis ją reikėtų pasirinkti, nėra. Vienas iš pasirinkimo kriterijų gali būti tai, su kuo

norima atlikti palyginimus.

Patys fiktyvūs kintamieji gali būti dviejų tipų – poslinkio ir posūkio (atitinkamai

3.1 ir 3.2 pav.). Poslinkio fiktyvūs kintamieji lemia lygiagretų regresijos tiesės poslinkį

ordinačių ašies atžvilgiu. Jie priklausomąjį kintamąjį veikia tiesiogiai. Tuo tarpu posū-

kio fiktyvūs kintamieji priklausomąjį kintamąjį veikia ne tiesiogiai, o per kitą nepriklau-

somą kintamąjį. Jie lemia regresijos tiesės nuolydžio pasikeitimą.

Pav. 13: Poslinkio fiktyvus kintamasis

39

Pav. 14: Posūkio fiktyvus kintamasis

Pav. 15: Posūkio ir poslinkio fiktyvus kintamasis

40

Fiktyvaus kintamojo poslinkio poveikį įvertina regresija:

0 1 2ˆ ˆ ˆˆ

i i iY X D (23)

Kai 0iD , regresijos laisvasis narys yra 0 . Tuomet regresijos tiesės atkertama

dalis Y ašyje taip pat lygi 0 . Kai fiktyvus kintamasis įgauna reikšmę 1iD , tuomet

laisvasis narys yra 0 ir

1 suma.

Posūkio fiktyvaus kintamojo įtaka regresijos tiesės nuolydžiui yra stebima iš

šios lygties:

0 1 2ˆ ˆ ˆˆ

i i i iY X X D (24)

Šiuo atveju, kai 0iD , regresijos nuolydis yra 1 , o kai 1iD , regresijos nuo-

lydis apskaičiuojamas kaip 1 ir

2 suma.

Bendras posūkio ir poslinkio kintamųjų efektas įvertinamas taip:

0 1 2 3ˆ ˆ ˆ ˆˆ

i i i i iY X D X D (25)

3.2 Fiktyvių kintamųjų taikymo atvejai

Fiktyvūs kintamieji naudojami:

Vertinant kokybinių veiksnių poveikį;

Atliekant koeficientų stabilumo analizę;

Siekiant eliminuoti netipines reikšmes;

Vertinant sezoniškumo įtaką;

Apjungiant laiko ir skerspjūvio duomenis.

Atliekant koeficientų stabilumo analizę, vertinamas į regresijos lygtį įtrauktų

koeficientų prie fiktyvių kintamųjų reikšmingumas. Jei šie koeficientai nėra reikšmingi,

tuomet regresinio modelio koeficientai yra stabilūs.

Pavyzdžiui, nagrinėjant laiko eilutę, tiriamas Lietuvos importo pokytis 2000 –

2014 metų laikotarpiu. Šį laikotarpį galime suskaidyti į dvi dalis – iki Lietuvos įstojimo

į Europos Sąjungą ir po įstojimo bei taip įvertinti, ar šis įvykis turėjo reikšmingą poveikį

importo lygiui Lietuvoje. Tegu 0ES

tD iki įstojimo i ES ir 1ES

tD po įstojimo į ES.

Sukonstruotas regresijos modelis atrodys taip:

0 1 2 3

IMP ES ES

t t t t t tY X D X D u

Jeigu koeficientai 2 ir

3 bus statistiškai reikšmingi, tuomet importo priklau-

somybė nuo nepriklausomo kintamojo iX po įstojimo į ES skiriasi ir yra

2 3 , o

laisvasis narys yra 0 2 .

41

Netipinių įvykių, tokių kaip krizė, lito įvedimas ar įstojimas į ES, įtaka gali būti

eliminuojama įtraukiant į regresinį modelį atitinkamus fiktyvius kintamuosius.

Įvertinti sezoniškumą taip pat galima įtraukus atitinkamus fiktyvius kintamuo-

sius. Pavyzdžiui, nagrinėjant ketvirtinius duomenis, reikia vieną ketvirtį pasirinkti kaip

bazinę būseną. Tuomet į regresinį modelį įtraukus likusius tris ketvirčius žyminčius fik-

tyvius kintamuosius, galime įvertinti kiekvieno ketvirčio dėsningumus bei jų poveikį

priklausomam kintamajam.

Taip pat nagrinėjant laiko eilutes fiktyvūs kintamieji leidžia įtraukti skerspjūvio

duomenis žyminčius kintamuosius, tokius kaip kilmės šalį, gyvenamąjį rajoną ir t.t.

Nagrinėdami skerspjūvio duomenis per fiktyvius kintamuosius, galime įtraukti metų

laikus, ketvirčius ir t.t.

Fiktyvūs kintamieji padeda praplėsti atliekamą analizę, įtraukti kokybinių veiks-

nių poveikį. Jų įtraukimas ir interpretavimas nėra sudėtingas. Fiktyvūs kintamieji yra

vertinami pagal tas pačias taisykles kaip ir kiti kiekybiniai kintamieji. Jiems galioja toks

pat standartinių paklaidų, t statistikų, p reikšmių, pasikliautinųjų intervalų, determinaci-

jos koeficiento 2R traktavimas. Hipotezių tikrinimo procedūros taip pat nesiskiria.

3.3 Veiksnių parinkimo problema

Šiame skyriuje bus aptartas Backward metodas, o jo pritaikymas bus iliustruotas

naudojant MS Excel skaičiuoklę. Backward metodas tai modeliui reikšmingų veiksnių

parinkimo procedūra. Startinė Backward padėtis – modelyje yra visi veiksniai. Norint

atrasti statistiškai reikšmingus veiksnius, pradedame veiksnių atmetimo procesą. Ka-

dangi po kiekvieno žingsnio (išmetus veiksnį) keičiasi parametrų įvertinimas, jų reikš-

mingumas, todėl vieno žingsnio metu galima išmesti tik vieną veiksnį.

Taigi, apskaičiuojame dauginę regresiją, įtraukdami visą kintamųjų sąrašą

1 2ˆ ( , ,..., )kY f X X X . Surandame šio modelio visų įverčių apskaičiuotas statistikas:

1ˆ( )t , 2

ˆ( )t ir taip iki ˆ( )kt . Iš šių statistikų išrenkame mažiausią ˆ| ( ) |it statistiką bei

palyginame gautą statistiką su teorine 1, /2n kt reikšme. Jeigu 1, /2ˆ| ( ) |i n kt t , vadina-

si, i-tasis veiksnys yra mažiausiai reikšmingas mūsų sudarytam modeliui ir jį pašalina-

me. Sekančiame etape apskaičiuojame dauginę regresiją be i-tojo veiksnio ir vėl apskai-

čiuojame visų įverčių t statistikas. Randame mažiausią bei palyginame su teorine statis-

tikos reikšme. Jeigu pasirinkto veiksnio t statistika mažesnė už teorinę t statistiką, šį

42

veiksnį pašaliname iš regresijos. Backward procedūrą baigiama, kai visos apskaičiuotos

įverčių t statistikos yra didesnės už teorinę reikšmę 1, /2n kt

.


Backward procedūrą galima įsivaizduoti, kaip tam tikrą pilną receptą ku-

rio nors patiekalo, pavyzdžiui, salotų. Tačiau suprantama, kad kiekvieno žmo-

gaus skonis yra skirtingas, todėl gaminant salotas yra atsisakoma kai kurių

produktų: iš pradžių vieno, paskui kito, kol individas išgrynina tikrąjį sau skonį.

Be to, pasitaiko atvejų, kai šaldytuve nėra visų reikiamų produktų, o salotas rei-

kia pagaminti skubiai. Tada verčiamės su tais produktais, kuriuos turime, t.y.

taip pat atsisakome kai kurių produktų.

Procedūros pritaikymą iliustruosime būsto kainos regresijos modelio sudarymu

naudojant MS Excel skaičiuoklę. Regresijos lygtis MS Excel skaičiuoklėje galite įver-

tinti naudodami duomenų analizės paketą Regression. Meniu juostoje Data spustelkite

Data Analysis ir pasirinkite pagalbinę priemonę Regression. Backward procedūrai nau-

doti galima t statistikų arba p reikšmių stulpelius modelio išklotinėje (žr. pav. 1).

Pav. 16: Modelio išklotinė

Pirmiausia pašaliname nepriklausomąjį kintamąjį ( )X Kambariai – Kambarių

skaičius, nes tarp kintamųjų ( )X Kambariai ir ( )X Plotas egzistuoja stiprus tiesinis

ryšys (plačiau apie tai skyrelyje skirtam Multikolinearumo tikrinimui). Pasirenkame

plotą kaip statistiškai reikšmingesnį veiksnį. Tęsiame apskaičiuodami naują regresiją jau

be nepriklausomojo kintamojo ( )X Kambariai (žr. Pav. 17).

43

Sudarę naują regresijos lentelę vėl žiūrime į t statistikų ar p reikšmių stulpelius.

Jeigu remiamės t statistika, tada žiūrime, kad nereikšmingų koeficientų t statistikos

modulis būtų pats mažiausias, o jei remiamės p reikšme, tai ieškome pačios didžiausios

p reikšmės. Šiuo atveju mažiausia t reikšmė yra lygi 0,919, o didžiausia p reikšmė, vir-

šijanti 0,05 yra 0,3588 (žr. Pav. 17).

Pav. 17: Modelio išklotinė be kambarių skaičiaus kintamojo

Remiantis ta pačia veiksmų logika iš turimos regresijos išmetame ( )D Kita kin-

tamąjį ir iš naujo įvertiname dar kartą sutrumpintą regresijos modelį. Veiksmus atlieka-

me tol, kol gauname galutinę regresijos lentelę, kurioje visos statistikos reikšmės yra

reikšmingos, t.y. t statistikų moduliai yra ne mažesnė nei t teorinės reikšmės. Jei

sprendimus grindėme p reikšmėmis, šios reikšmės turi būti ne didesnės negu mums pri-

imtinas reikšmingumo lygmuo (dažniausiai 0,05, retkarčiais 0,1). Šiuo atveju mūsų pa-

sirinktas reikšmingumo lygmuo buvo 90%, todėl neradę reikšmių didesnių už 0,1 nu-

traukiame skaičiavimus ir galime teigti, kad esant 90% pasikliautiniam lygmeniui visi į

regresiją įtraukti veiksniai yra statistiškai reikšmingi (žr. Pav. 18).

44

Pav. 18: Modelio išklotinė po Backward procedūros

Pritaikę Backward procedūrą gavome tokią galutinę regresijos lygtį:

( ) 179,774 4,780 ( ) 20,692 ( )

1,324 ( ) 17,349 ( )

97,541 ( ) 217,516 ( )

85,823 ( . )

Kaina X Plotas X Aukštas

X Senumas X Atstumas

D Centras D Namas

D Centr ildymas

Y

š

45

4. MULTIKOLINEARUMAS

Viena iš klasikinio regresinio modelio prielaidų nurodo, kad sudarytas modelis

neturi pasižymėti multikolinearumu. Iš tikrųjų, tai yra dar viena problema, su kuria ana-

litikas gali susidurti įvertinęs regresijos parametrus. Kas yra multikolinearumas, kokį

neigiamą poveikį jis sukelia, kaip nustatyti ir panaikinti šią problemą panagrinėsime

šiame skyriuje. Glaustai, šio skyriaus struktūra yra:

Multikolinearumo problemos esmė;

Multikolinearumo pasekmės;

Multikolinearumo požymiai;

Multikolinearumo atsiradimo priežastys;

Multikolinearumo nustatymo būdai.

4.1 Multikolinearumo problemos esmė

Sąvoką „multikolinearumas“ pirmasis paminėjo norvegų ekonomistas Ragnar

Frisch (1895 - 1973). Situacija vadinama multikolinearia, jei egzistuoja tiesinės priklau-

somybės tarp keleto arba visų regresijos modelio nepriklausomų kintamųjų. Trumpiau

tariant, multikolinearumas yra reiškinys, kai modelio nepriklausomi kintamieji tarpusa-

vyje koreliuoja.

Pav. 19: Multikolinearumas

Pav. 19 schematiškai parodo skirtingus multikolinearumo laipsnius. Apskritimas

Y rodo priklausomo kintamojo variaciją, 1X ir

2X apskritimai atitinkamai rodo nepri-

klausomų kintamųjų variacijas. Multikolinearumo laipsnis gali būti matuojamas pagal

1X ir 2X apskritimų persikirtimo zoną, kuri sąveikauja su Y .

Kairėje dalyje 1X ir

2X nesikerta, vadinasi nėra jokio jų tarpusavio ryšio, t.y.,

multikolinearumo nėra. Tuo tarpu vidurinėje ir dešinėje dalyse jau egzistuoja skirtingo

46

laipsnio multikolinearumas. Vidurinėje dalyje 1X ir

2X kertasi, bet jų sąveika su Y

nėra didelė, tačiau dešinėje dalyje jau persikirtimo zona, sąveikaujanti su Y yra didelė,

todėl egzistuoja stiprus multikolinearumas. Trumpiau tariant, kuo didesnis 1X ir

2X

sutapimas, sąveikaujantis su Y , tuo stipresnis multikolinearumas. Esant kraštutinei situ-

acijai, kai 1X ir

2X visiškai sutaptų (arba kai visas 1X būtų

2X viduje ir atvirkščiai),

tai multikolinearumas būtų tobulas. Dauguma kintamųjų ekonomikoje yra susiję, o tai ir

yra viena iš pagrindinių multikolinearumo atsiradimo priežasčių.


Geriau suvokti multikolinearumo esmę tūrėtų padėti pavyzdys, apie kurį

jau buvo šiek tiek užsiminta šios knygos pradžioje. Prisiminkime, kad ekono-

metrinio modelio sudarymas iš esmės turi labai daug panašumų su patiekalo

ruošimu. Būtent ekonometrinį modelį galima būtų įvardinti, kaip patiekalą, kurį

norime pagaminti, o nepriklausomus kintamuosius, kurie bus naudojami suda-

rant modelį, kaip ruošiamo tam tikro patiekalo sudėtines dalis (maisto produk-

tus).

Tarkime, norime paruošti salotas. Tačiau jei gamindami salotas, naudo-

sime labai panašius maisto produktus, kurie iš esmės labai nesiskirs, tai mūsų

pagamintas patiekalas nebus skanus. Tarkime gamindami salotas naudosime

didelius ir mažus pomidorus, galbūt nepamiršime įdėti dar ir šviesių bei tamsių

pomidorų. Tuomet mūsų salotose bus per daug šių daržovių, kurios turi praktiš-

kai tas pačias skonio savybes. Tokiu atveju gauname tobulą multikolinearumą,

kadangi naudoti ingredientai – pomidorai (tai yra modelio kintamieji) vienas kitą

perdengia. Galbūt mūsų patiekale užtektų panaudoti tik vienos rūšies pomido-

rus ir galutinis patiekalas taptų gerokai skanesnis.

Kuomet gamindami tas pačias salotas įdėtume ir grietinę, ir majonezą,

tada turėtume netobulą multikolinearumą. Tai yra todėl, kad grietinės ir majo-

nezo skoniai skiriasi, tačiau iš esmės tai yra labai panašūs maisto pagardai, ku-

rių paskirtis patiekale yra ta pati. Dėl šios priežasties, dažniausiai, į salotas jie

kartu nėra dedami.

47

Taigi sudarant ekonometrinį modelį, reikėtų vengti tų veiksnių, kurie „iš

pirmo žvilgsnio“ gali atrodyti pakankamai skirtingi, tačiau jų įtaka priklausomam

kintamajam yra labai panaši.

4.2 Multikolinearumo pasekmės ir požymiai

Bendrai tariant, esant koreliuotiems nepriklausomiems kintamiesiems sunku

įvertinti kiekvieno jų įtaką priklausomam kintamajam. Esant stipriam multikolinearu-

mui regresijos nepriklausomų kintamųjų koeficientai pasižymi labai aukštomis standar-

tinėmis paklaidomis, vadinasi koeficientai negali būti tiksliai įvertinti. Esant tobulam

multikolinearumui, regresijos koeficientai nėra apibrėžti ir jų standartinės paklaidos yra

begalinės (apskaičiuoti neįmanoma). Sekantis kiekybinis pavyzdys tai įrodo.

Tarkime turime imties regresinį modelį: 0 1 1 2 2ˆ ˆ ˆ

i i i iY X X u bei žinome

12r , kuris rodo koreliaciją tarp nepriklausomų kintamųjų 1X ir

2X . Kaip šio koreliacijos

koeficiento didėjimas įtakoja įverčio 2 standartinę paklaidą, t statistiką ir intervalinius

įverčius parodo lentelė 6.

Lentelė 6: Koreliacija tarp nepriklausomų kintamųjų ir matavimo tikslumas

12r 2ˆ( )SE 2

ˆ( )t 2 1, /2 2ˆ ˆ( )n kt SE

0,00 A 2 2ˆ( ) / A 2 1, /2

ˆn kt A

0,50 1,15A 2 2ˆ( ) / (1,15 )A 2 1, /2

ˆ 1,15n kt A

0,80 1,67A 2 2ˆ( ) / (1,67 )A 2 1, /2

ˆ 1,67n kt A

0,90 2,29A 2 2ˆ( ) / (2,29 )A 2 1, /2

ˆ 2,29n kt A

0,99 7,09A 2 2ˆ( ) / (7,09 )A 2 1, /2

ˆ 7,09n kt A

Šioje lentelėje skaičius A yra standartinės paklaidos dalis, siejama su koreliacija

tarp nepriklausomų kintamųjų:

22 2

2 121

221221

2

12

ˆ( )

( )(1 )

1

1

1

1

n

ii

n

ii

SE

X r

rX

Ar

48

Koreliacijos koeficientui 12r artėjant prie 1, įverčio standartinė paklaida 2

ˆ( )SE

tampa labai didelė, o 2ˆ( )t labai maža, tuo tarpu intervalinis įvertis tampa labai platus.

Kai koreliacijos koeficientas 12r yra lygus 1, tai negalime apskaičiuoti standartinės pa-

klaidos (kadangi lygties vardiklis lygus 0), vadinasi negalime apskaičiuoti ir 2ˆ( )t bei

intervalinio įverčio.

Tačiau yra ir geroji žinia apie multikolinearumą. Regresinis modelis su multiko-

lineariais veiksniais gali būti naudojamas prognozavimui, kadangi regresijos koeficien-

tai yra nepaslinkti, suderinti ir efektyvūs.

Egzistuoja keli „simptomai“, kurie analitikui, sudarančiam regresinį modelį,

leistų įtarti, jog iškilo multikolinearumo problema:

Įverčiai labai nestabilūs, t.y. įtraukus kelis stebėjimus ar naujus veiksnius,

keičiasi lygties koeficientų ženklai arba stipriai keičiasi pačios jų reikšmės;

Determinacijos koeficiento reikšmė 2R yra labai aukšta, o įverčių t statisti-

kų reikšmės labai žemos, nurodančios, kad nėra statistiškai reikšmingų

veiksnių;

Neadekvatūs ženklai, pvz., koeficientas nurodantis, kad mažėjant investici-

joms, BVP auga.

4.3 Multikolinearumo diagnostika

Pagrindiniai ir dažniausiai naudojami yra multikolinearumo nustatymo būdai yra

šie:

Porinių koreliacijos koeficientų panaudojimas:

o Porinių koreliacijų matrica.

Dauginės determinacijos koeficientų panaudojimas:

o Pagalbinės regresijos;

o VIF statistika;

o Tolerancijos matas TOL .

Porinių koreliacijų matrica. Remiantis šiuo metodu, yra sudaroma nesudėtinga

matrica, pagal kurią galima pasakyti, kurie nepriklausomi kintamieji yra multikolinea-

rūs. Tarkime, turime regresiją su k nepriklausomų kintamųjų:

0 1 1 2 2ˆ ˆ ˆ ˆ...i i i k ki iY X X X u

Yra sudaroma koreliacijos koeficientų tarp iX matrica:

49

12 13 1

21 23 2

31 32 3

1 2 3

1

1

1

1

k

k

k

k k k

r r r

r r r

r r r

r r r

Šioje matricoje atskiri koeficientai rodo ryšio stiprumą (koreliaciją) tarp i – tojo

ir j – tojo nepriklausomų kintamųjų, pvz., 12r rodo koreliaciją tarp

1X ir 2X . Visi kore-

liacijos koeficientai, esantys pagrindinėje matricos įstrižainėje ir matuojantys ryšį tų

pačių kintamųjų (11r ,

22r , 33r ir t.t.) yra lygūs vienetui.

Nykščio taisyklė. Kuo koreliacijos koeficiento modulis bus didesnis, tuo bus di-

desnė rizika susidurti su interkoreliacija tarp i – tojo ir j – tojo veiksnių.

Lentelėje 7 pateiktas porinių koreliacijų koeficientų matricos pavyzdys, kur A,

B, C ir D yra modelio nepriklausomi kintamieji. Matome, kad vienas koreliacijos koefi-

cientas yra didesnis už 0,8, t.y. egzistuoja stiprus ryšys tarp A ir B veiksnių (0,87 > 0,8),

vadinasi egzistuoja rizika susidurti su multikolinearumo problema.

Lentelė 7: Porinių koreliacijos koeficientų matrica

A B C D

A 1

B 0,87 1

C -0,15 0,54 1

D 0,25 0,69 0,08 1

Pagalbinės regresijos. Šio metodo esmė yra sudaryti tiek pagalbinių regresijos

lygčių, kiek yra nepriklausomų kintamųjų pagrindiniame regresijos modelyje. Tarkime,

turime regresinį modelį su keturiais nepriklausomais kintamaisiais:

0 1 1 2 2 3 3 4 4ˆ ˆ ˆ ˆ ˆ

i i i i i iY X X X X u

Tada yra apskaičiuojamos 4 pagalbinės regresijos lygtys:

1 0 1 2 2 3 3 4

2 0 1 1 2 3 3 4

3 0 1 1 2 2 3 4

4 0 1 1 2 2 3 3

i i i i i

i i i i i

i i i i i

i i i i i

X X X X

X X X X

X X X X

X X X X

Kiekvienas nepriklausomas kintamasis yra išreiškiamas per kitus likusius nepri-

klausomus kintamuosius, t.y. gaunamos keturios pagalbinės regresijos, po to iš kiekvie-

nos šios regresijos apskaičiuojami determinacijos koeficientai 2

iR (šiuo atveju 2

1R , 2

2R ,

2

3R ir 2

4R ) ir jie lyginami su pagrindinės regresijos determinacijos koeficientu.

50

Nykščio taisyklė. Jei kurios nors pagalbinės dauginės regresijos determinacijos

koeficiento 2

iR reikšmė yra didesnė už pagrindinės lygties 2R reikšmę, tuomet apskai-

čiuotas regresinis modelis gali pasižymėti interkoreliacija.

VIF statistika. Išvadą, apie multikolinearumo buvimą ar nebuvimą, galima gauti

ir pasinaudojus VIF kriterijumi. Šiam rodikliui greta pagrindinio regresijos modelio

reikia įvertinti jau anksčiau aptartas pagalbines regresijas ir surasti jų determinacijos

koeficientus 2

iR . Tada galiausiai yra nustatomas dispersiją spartinantis veiksnys pagal

formulę:

2

1

1i

i

VIFR

Nykščio taisyklė. Tarp nepriklausomų kintamųjų yra stiprus multikolinearumas,

jei 10iVIF .

Tolerancijos matas TOL. Tai yra atvirkštinis dydis VIF . Multikolinearumas eg-

zistuoja, kai tolerancija mažesnė kaip 0,1. Tolerancija yra apskaičiuojamas taip:

1

i

i

TOLVIF

4.4 Multikolinearumo tikrinimas MS Excel pagalba

Naudodamiesi MS Excel programa nustatysime, ar nagrinėjamame pavyzdyje

apie būsto kainas, egzistuoja multikolinearumo problema. Tai atliksime visais, prieš tai

nagrinėtais, metodais. Galiausiai, gautus rezultatus apibendrinsime.

Porinių koreliacijų matricos sudarymas

1. Norint sudaryti porinių koreliacijų matricą MS Excel aplinkoje, visų pirma,

meniu juostoje Data reikia pasirinkti pagalbinių analizės priemonių paketą

Data Analysis (jei šio paketo nėra, Jums reikia patiems įsidiegti papildinį

Analysis ToolPak).

2. Atsiradusiame lange išsirenkame funkciją Correlation ir spaudžiame OK.

3. Correlation lange ties Input Range pažymime mūsų visus kintamuosius. Tai

yra pažymime ne tik nepriklausomus kintamuosius ( ( )X Plotas ,

( )X Kambariai , ( )X Aukštas , ( )X Senumas , ( )X Atstumas , ( )D Centras ,

( )D Kita , ( )D Namas , ( )D Baldai , ( . )D Centr šildymas ), bet ir priklausomąjį

kintamąjį – ( )Y Kaina . Tai darome todėl, kad esant keliems stipriai koreliuo-

jantiems nepriklausomiems kintamiesiems, galėtume pamatyti, kurie iš jų ge-

51

riausiai sąveikauja su priklausomu kintamuoju, tai yra su ( )Y Kaina . Jei žy-

mime ir stulpelių pavadinimus, būtinai reikia uždėti varnelę ties Labels in

First Row. O Output options galima pasirinkti, kur norėtume rasti sudarytą

lentelę. Viską išsirinkę, spaudžiame OK.

Pav. 20: Porinių koreliacijų matricos sudarymas

Pav. 21: Porinių koreliacijų matrica

Vertindami, ar modelyje nėra multikolinearumo problemos, turime kreipti dėme-

sį tik į nepriklausomus kintamuosius. Kitaip tariant, į reikšmes, esančias ( )Y Kaina

stulpelyje ir eilutėje, neatsižvelgiame. Apžiūrėję porinių koreliacijų matricos koeficien-

tus, matome, kad stipriausias ryšys yra tarp nepriklausomų kintamųjų ( )X Kambariai ir

( )X Plotas (koreliacijos koeficientas yra lygus 0,8262). Taigi ryšys tarp šių nepriklau-

somų kintamųjų gali būti multikolinearumo priežastimi.

Pagalbinių regresijų sudarymas

Norint pasitelkus šį metodą nustatyti, ar modelio nepriklausomi kintamieji tar-

pusavyje koreliuoja, reikia sudaryti pagrindinę ir pagalbines regresijas. Tai atlikus, rei-

52

kia apskaičiuoti pagalbinių regresijų determinacijos koeficientus ir juos lyginti su pa-

grindinės regresijos determinacijos koeficientu.

1. Pirmiausiai sudarykime pagrindinę regresiją. Tam MS Excel aplinkoje, iš

pradžių turime meniu juostoje Data pasirinkti funkciją Data Analysis.

2. Atsiradusiame lange išsirenkame funkciją Regression ir spaudžiame OK.

3. Regression lange ties Input Y Range pažymime priklausomą kintamąjį

( )Y Kaina .

4. Tame pačiame Regression lange ties Input X Range pažymime visus nepri-

klausomus kintamuosius, kuriuos tyrimo pradžioje norime įtraukti į modelį:

( )X Plotas , ( )X Kambariai , ( )X Aukštas , ( )X Senumas , ( )X Atstumas ,

( )D Centras , ( )D Kita , ( )D Namas , ( )D Baldai , ( . )D Centr šildymas . Jei

žymime ir stulpelių pavadinimus, būtinai reikia uždėti varnelę ties Labels in

First Row. Ir galiausiai spaudžiame OK.

Pav. 22: Pagrindinės regresijos sudarymas

5. Taigi įvertinome pagrindinę lygtį. Apskaičiuotoje lentelėje Regression Sta-

tistics yra pateiktas pagrindinės regresijos determinacijos koeficientas, su ku-

riuo lyginsime pagalbinių regresijų determinacijos koeficientus. Matome,

kad 2 0,77R .

53

Pav. 23: Pagrindinės regresijos statistikos ir įverčiai

6. Sekančiuose etapuose sudarysime pagalbines regresijas, kurių kiekis yra ly-

gus nepriklausomų kintamųjų kiekiui pagrindinėje regresijoje. Šiame pavyz-

dyje yra 10 nepriklausomų kintamųjų, todėl reikės sudaryti tiek pat pagalbi-

nių regresijų (kadangi kiekvienas nepriklausomas kintamasis yra išreiškia-

mas per kitus likusius nepriklausomus kintamuosius). Tam, kad įvertintume

pirmąją pagalbinę regresiją MS Excel aplinkoje, meniu Data turime pasi-

rinkti funkciją Data Analysis, o po to Regression (analogiškai kaip buvo at-

likta sudarant pagrindinę regresiją).

7. Regression lange ties Input Y Range pažymime pirmąjį nepriklausomą kin-

tamąjį – ( )X Plotas , kuris pirmoje pagalbinėje regresijoje priklausys nuo ki-

tų linkusių nepriklausomų kintamųjų.

8. Ties Input X Range pažymime likusius nepriklausomus kintamuosius:

( )X Kambariai , ( )X Aukštas , ( )X Senumas , ( )X Atstumas , ( )D Centras ,

( )D Kita , ( )D Namas , ( )D Baldai , ( . )D Centr šildymas . Vėlgi, jei žymime ir

stulpelių pavadinimus, būtinai reikia uždėti varnelę ties Labels in First Row.

Ir galiausiai spaudžiame OK.

9. Regression Statistics lentelėje yra pateiktas šios regresijos determinacijos

koeficientas 2

1R , kuris yra lygus 0,76.

54

Pav. 24: Pirmosios pagalbinės regresijos sudarymas

Pav. 25: Pirmosios pagalbinės regresijos statistikos ir įverčiai

Analogiškai sudarome ir likusias 9 regresijas. Pvz. Antroje pagalbinėje regresi-

joje priklausomas kintamasis – ( )X Kambariai , o jį įtakojantys veiksniai: ( )X Plotas ,

55

( )X Aukštas , ( )X Senumas , ( )X Atstumas , ( )D Centras , ( )D Kita , ( )D Namas ,

( )D Baldai , ( . )D Centr šildymas . Tuomet gauname, kad 2

2 0,72R . Toliau tęsdami ana-

logiškus skaičiavimus gausime tokius šių regresijų determinacijos koeficientus:

2

3 0,12R , 2

4 0,26R , 2

5 0,36R , 2

6 0,47R , 2

7 0,19R , 2

8 0,66R , 2

9 0,1R ,

2

10 0,24R . Taigi matome, kad visi pagalbinių regresijų determinacijos koeficientai ne-

viršija pagrindinės regresijos determinacijos koeficiento 2 0,77R . Vadinasi, pasak šio

metodo, pavyzdys apie būsto kainą multikolinearumu nepasižymi.

Multikolinearumo diagnostika naudojant VIF ir TOL statistikas

Norint pasitelkus šį metodą nustatyti, ar modelio nepriklausomi kintamieji tar-

pusavyje koreliuoja, vėlgi reikia apskaičiuoti pagalbinių regresijų determinacijos koefi-

cientus. Turint šiuos dydžius tuomet nėra sudėtinga apskaičiuoti VIF arba TOL statisti-

kas.

Taip pat kaip ir buvo nagrinėta anksčiau, apskaičiuojame pagalbines regresijas ir

jų determinacijos koeficientus. Pavyzdyje apie būsto kainas jau anksčiau apskaičiavome

šiuos dydžius: 2

1 0,76R , 2

2 0,72R , 2

3 0,12R , 2

4 0,26R , 2

5 0,36R , 2

6 0,47R ,

2

7 0,19R , 2

8 0,66R , 2

9 0,1R , 2

10 0,24R .

Dabar galime apskaičiuoti VIF statistikas (atitinkamai galime paskaičiuoti ir

TOL statistikas, kadangi tai atvirkščiai proporcingas dydis VIF statistikai), pagal for-

mulę 21/ (1 )i iVIF R . Taigi 1 1/ (1 0,76) 4,17VIF , analogiškai sprendžiame toliau

ir gauname tokius rezultatus: 2 3,57VIF ,

3 1,14VIF , 4 1,35VIF ,

5 1,56VIF ,

6 1,89VIF , 7 1,23VIF ,

8 2,95VIF , 9 1,11VIF ,

10 1,32VIF . Taigi matome, kad nei

vienas VIF koeficientas neviršija 10, vadinasi modelis multikolinearumu nepasižymi.

Taip pat galima naudotis ir TOL matu, kuris irgi yra nesudėtingai apskaičiuoja-

mas pagal formulę 1

i iTOL VIF arba 21i iTOL R . Gauname tokius rezultatus:

1 (1 0,76) 0,24TOL , 2 0,28TOL ,

3 0,88TOL , 4 0,74TOL ,

5 0,64TOL ,

6 0,53TOL , 7 0,81TOL ,

8 0,34TOL , 9 0,9TOL ,

10 0,76TOL . Matome, kad

nėra nei vieno TOL mato, kuris yra mažesnis už 0,1. Vadinasi modelis multikolinearu-

mu nepasižymi.

Rezultatų apibendrinimas

Analizuodami, ar pavyzdyje apie būsto kainas egzistuoja multikolinearumo pro-

blema, naudojomės skirtingais metodais. Vis dėlto jie nepateikė vienodų rezultatų, t.y.

56

porinių koreliacijų matrica parodė, kad egzistuoja keli nepriklausomi kintamieji

( ( )X Kambariai ir ( )X Plotas ), tarp kurių yra stiprus ryšys. Tuo tarpu likę panaudoti

metodai multikolinearumo modelyje neparodė. Svarbu suprasti tai, kad atlikti testai pa-

deda tyrėjui susidaryti nuomonę, o sprendimą turi priimti jis pats. Šiuo atveju nors VIF

(ir TOL ) statistika bei pagalbinės regresijos nerodo multikolinearumo, tačiau pasitikė-

sime porinių koreliacijų matricos rezultatais, kurie rodo, kad egzistuoja stiprus ryšys

tarp ( )X Kambariai ir ( )X Plotas . Ir iš tiesų logiška, kad kambarių skaičius ir to paties

būsto plotas yra tiesiogiai susiję dydžiai; dažniausiai didesni butai turi daugiau kamba-

rių nei mažesni, o daugiau kambarių turinčių butų plotas irgi būna didesnis. Todėl gal-

vodami, kaip išspręsti multikolinearumo problemą, grįšime prie porinių koreliacijų mat-

ricos. Multikolinearumą paprasčiausiai galima išspręsti panaikinant vieną iš dviejų stip-

riai sąveikaujančių veiksnių: ( )X Kambariai arba ( )X Plotas . Kaip nuspręsti, kurį rei-

kėtų pašalinti iš modelio? Porinių koreliacijų matricoje matome, koks yra ryšys tarp

( )X Plotas ir ( )Y Kaina bei taip pat, koks yra ryšys tarp ( )X Kambariai ir ( )Y Kaina .

Pirmuoju atveju, jis siekia 0,8521, o atitinkamai antruoju – 0,7558. Taigi matome, kad

plotas stipriau veikia kainą, nei kambariai. Todėl būtent kambarių skaičiaus ir atsisaky-

sime. Šis sprendimas nėra galutinis, nes paaiškėjus naujoms aplinkybėms kambarių

skaičiaus kintamasis galbūt bus grąžintas atgal į modelį.

57

5. HETEROSKEDASTIJA

Šiame skyriuje bus aptarta heteroskedastijos samprata, atsiradimo priežastys, nu-

statymo ir šalinimo būdai.

5.1 Kas yra heteroskedastija?

Šiame skyriuje bus nagrinėjama heteroskedastiškumo (angl. heteroscedasticity)

problema. Tam, kad būtų galima geriau suprasti heteroskedastiškumo esmę, verta pa-

nagrinėti priešingą sąvoką: homoskedastija (homoscedasticity) – vienoda (homo) sklai-

da (scedasticity). Homoskedastija modelyje reiškia, jog paklaidų dispersija yra pastovi.

Tai yra viena iš klasikinio regresinio modelio prielaidų. Jei modelio paklaidos tampa

heteroskedastiškos (paklaidų dispersija nevienoda), tuomet gauti įverčiai nėra BLUE

(best linear unbiased estimators), konkrečiau – jie tampa neefektyvūs.

Matematiškai apibrėžti homoskedastiją galima taip: 2 2( )iE u , visiems i . Tuo

tarpu heteroskedastijos išraiška bus: 2 2( )i iE u .


Aiškiau heteroskedastijos problemą galima suprasti nukeliavus į virtuvę.

Tarkime, gaminant patiekalą naudojame įvairius produktus, kuriuos prieš tai

reikia nuskusti (bulvės, morkos), nulupti (kietai virti kiaušiniai) ar kitaip apdoroti

(agurkai, pomidorai). Priešingai nei multikolinearumas, bet panašiai kaip auto-

koreliacija, heteroskedastija yra susijusi ne tiek su pačiais produktais (kintamai-

siais), kiek su produktų atliekomis (paklaidomis). Šiuo atveju, skutant įvairaus

dydžio bulves ar lupant nevienodus kiaušinius, tarp atliekų gali patekti ir per

daug vis dar gero produkto. Panaši problema atsitiktų, jei būtų pasirinktas ne-

tinkamas apdorojimo būdas, pavyzdžiui, vietoj to, kad bulvės būtų gražiai nu-

skustos, jų lupenos yra nupjaustomos, sumažinant bulvę perpus. Kuo didesnę

bulvę lupame, tuo storesnę lupeną paliekame. Toks produktų paruošimas yra

neefektyvus ir atliekos su savimi nešasi per daug produkto savybių. Efektyvus

gamybos būdas reikštų, jog atliekų kiekis didėtų tolygiai kartu su apdorotų pro-

duktų svoriu – homoskedastiškai.

Tam, kad būtų aiškiau grafiškai galima palyginti 2 pavyzdžius.

58

Pav. 26: Homoskedastiškos paklaidos

Pav. 27: Heteroskedastiškos paklaidos

59

Pav. 26 ir pav. 27 pateikiama vartojimo priklausomybė nuo pajamų. Abejuose

brėžiniuose galima pastebėti, jog augant pajamoms, kartu auga ir vartojimas. Esminis

skirtumas paveiksluose yra vartojimo pasiskirstymas keičiantis pajamoms (sąlyginai

vartojimo sklaida 2 prilyginama paklaidų iu sklaidai). Pav. 26 vartojimo dispersija

yra pastovi – augant pajamoms išlieka tokia pati visuose intervaluose, tačiau pav. 27 ji

kinta – didėja pajamos, kartu didėja ir dispersija. Taigi, abiem atvejais matyti, jog aukš-

tesnes pajamas gaunantys asmenys vidutiniškai vartoja daugiau, tačiau antruoju atveju

jų vartojimo sklaida yra didesnė.

Minėtus homoskedastijos ir heteroskedastijos pavyzdžius galima iliustruoti ne

tik trimatėmis tankio funkcijomis, bet ir dvimatėje erdvėje. Žemiau pateikiami homos-

kedastiškų bei heteroskedastiškų (atitinkamai kairė ir dešinė pav. 28 pusės) paklaidų

pavyzdžiai. Kairėje pusėje matyti, jog paklaidos apie tiesę yra vienodai išsibarsčiusios

visose tiesės dalyse, o dešinėje pusėje paklaidų sklaida didėja augant pajamoms.

Pav. 28: Homoskedastiška (kairėje pusėje) ir heteroskedastiška (dešinėje pusėje) sklaida

Galima išskirti daug priežasčių, kodėl paklaidų dispersijos gali būti nevienodos

ir atsiranda heteroskedastija:

1. Pajamoms augant, žmonės turi daugiau pinigų, atlikusių nuo būtinojo/įprasto

vartojimo. Todėl ir sklaida ( 2 ) tikėtina, kad bus didesnė, nes turint aukš-

tesnes pajamas atsiranda daugiau pasirinkimo galimybių norint išleisti ar

kaupti turimus pinigus.

2. Išskirtys taip pat gali sukelti heteroskedastija. Išskirtis galima traktuoti, kaip

duomenis iš kitos populiacijos. Jos turi ypač didelę įtaką mažose imtyse.

3. Galima priežastis yra ir praleisti svarbūs kintamieji modelyje. Pavyzdžiui

nagrinėjant tam tikros prekės paklausą kaip kintamąjį pasirinkus prekės kai-

60

ną, tačiau praleidus panašių prekių (pakaitalų) kainas ar jų lygį, paklaidų

dispersija gali būti nevienoda. Jei praleisti kintamieji būtų įtraukti – heteros-

kedastiškumas dingtų.

4. Dėl kintamųjų asimetrijos paklaidų dispersijos taip pat gali būti nevienodos.

Labai dažnas to pavyzdys yra turtas/pajamos, kuomet maža dalis populiaci-

jos valdo didelę dalį turto/pajamų.

5. Kita priežastis – neteisingai parinkta funkcinė forma. Pavyzdžiui pasirinkta

tiesinė vietoje logaritminės.

6. Dar viena priežastis – neteisinga duomenų transformacija (duomenų dalyba

iš pasirinkto kintamojo ar kiti santykiai, pirmieji skirtumai)

7. Taip pat egzistuoja mokymosi iš klaidų modeliai, kuriuose laikui einant 2

mažėja. Pavyzdžiui nagrinėjant pradedančiųjų kulinarų laiką sugaištą gami-

nant sudėtingą patiekalą bei pagamintų patiekalų skaičių, būtų galima paste-

bėti, jog įgyjant patirties, laiko gaminant užtrunkama vis mažiau, tuo pačiu ir

nuokrypiai nuo vidurkių ( 2 ) yra mažėjantys.

Heteroskedastija yra labiau būdinga erdvinių/skerspjūvio tipo duomenims negu

laiko eilutėms. Taip atsitinka, nes nagrinėjant skerspjūvio duomenis tam tikru laiko

momentu stebiniai būna iš įvairių populiacijų. Pavyzdžiui, tiriant vidutinį darbo užmo-

kestį Lietuvoje jis priklausys ne tik nuo pramonės šakų, bet ir įmonių dydžio. Tarp di-

desnių įmonių, tikėtina, jog ne tik atlyginimai bus aukštesni bet ir jų nuokrypiai 2 .

Šitaip kintanti dispersija sukeltų heteroskedastiškumą. Tuo tarpu paprastai laiko eilutėse

nagrinėjami kintamieji priklauso vienai populiacijai, tik kinta laike. Pavyzdžiui Lietuvos

BVP, vartojimas, nedarbo lygis, infliacija 2000 – 2014 m. laikotarpyje.

Sudarius modelį mažiausių kvadratų metodu (MKM) ir radus jame heteroske-

dastijos pėdsakų, gali kilti klausimas ar čia tikrai blogai, o galbūt nereiktų kreipti į tai

dėmesio? Iš tiesų MKM būdu gauti įverčiai î yra tiesiniai ir nepaslinkti (nei homoske-

dastiškos, nei heteroskedastiškos paklaidos neturi įtakos įverčių nepaslinktumui). Tai

reiškia, kad didėjant imčiai įverčiai tik artės prie savo tikrosios reikšmės, bet stipriai

nesikeis. Tačiau bus sulaužyta viena iš BLUE sąlygų, t.y. jie nebus geriausi arba efekty-

vūs. Efektyvumas reikalauja, kad įverčiai turėtų mažiausią dispersiją nepaslinktų įverčių

aibėje. Esant heteroskedastijai, ši sąlyga nebus tenkinama.

61

Kodėl neefektyvūs įverčiai yra blogai?

Dėl nevienodos paklaidų sklaidos, naudojant įprastas formules parametrų įverčių

dispersijos ir standartinės paklaidos bus skaičiuojamos neteisingai. Homoskedastijos

atveju nuolydžio koeficiento standartinė paklaida porinėje regresijoje surandama taip:

12

1

ˆ( )

( )n

ii

SE

X X

(26)

Tuo tarpu heteroskedastijos atveju porinės regresijos nuolydžio koeficiento stan-

dartinės paklaidos išraiška yra:

2 2

11 2 2

1

( )ˆ( )

[ ( ) ]

n

i ii

n

ii

X XSE

X X

(27)

Dėl heteroskedastiškumo neteisingai nustatomos ne tik standartinės paklaidos,

bet ir visi kiti su jomis susiję dydžiai, pvz. t statistikos ˆ ˆ/ ( )i it SE . Jeigu esant hete-

roskedastiškoms paklaidoms ir toliau naudojama (26) formulė, gauta t statistika bus

iškreipta. Tarkime, kad (27) formulės pagalba nustatyta standartinė paklaida yra mažes-

nė už (26) lygties pagalba nustatytą. Tokiu atveju (26) formulės naudojimas gali nulemti

tai, kad nebus pastebėtas ryšys tarp kintamųjų kai iš tiesų jis egzistuoja ir susidarytas

klaidingas įspūdis apie tai kokios yra kintamųjų sąveikos.

5.2 Heteroskedastijos nustatymas

Heteroskedastijai nustatyti yra nemažai būdų. Čia bus aptarti populiariausi bei

dažniausiai naudojami, nurodant jų stiprybes bei silpnybes. Kaip jau nagrinėta anksčiau,

heteroskedastija yra nepastovi paklaidų sklaida, todėl dauguma testų remiasi MKM gau-

tais paklaidų įverčiais iu , kurie yra tikrųjų paklaidų

iu atitikmenys imtyje, jei imtis yra

pakankamai didelė.

Vienas iš būdų nustatyti heteroskedastiją tai yra nagrinėjamo reiškinio prigim-

ties pažinimas. Tai reiškia, kad kai kuriems reiškiniams yra būdinga nepastovi sklaida

keičiantis jų reikšmėms. Kaip pavyzdį galima paminėti Prais and Houthakker darbą ti-

riant šeimų biudžetą. Tyrime buvo nustatyta, jog paklaidų sklaida apie vartojimo pri-

klausomybę nuo pajamų regresijos tiesę didėja, augant pajamoms (grafiškai situacija

pavaizduota 28 pav. dešinėje pusėje). Todėl galima tikėtis, jog panašaus tipo tyrimuose

galima susidurti su heteroskedastija. Kaip jau buvo minėta anksčiau, šia problema la-

62

biau pasižymi erdviniai (skerspjūvio) duomenys. Tiriant skerspjūvio duomenų sąryšius,

pvz., investicijas ir darbo užmokestį skirtinguose ūkio sektoriuose, dažnai naudojami

duomenys reprezentuojantys skirtingas populiacijas (skirtingus sektorius) su skirtingo-

mis dispersijomis.

Kitas neformalus, bet plačiai taikomas, yra grafinis metodas. Šio metodo metu

yra sudaroma tiriamojo reiškinio MKM regresija bei gaunami paklaidų bei priklausia-

mojo kintamojo įverčiai (atitinkamai iu ir ˆ

iY ). Toliau paklaidų įverčiai yra pakeliami

kvadratu 2ˆ( )iu . Nors 2ˆ( )iu nėra tas pats kas 2

iu , tačiau tai geriausias 2

iu atitikmuo imtyje.

Kitu žingsniu yra sudaromas grafikas, kuriame vaizduojama 2îu priklausomybė nuo ˆ

iY .

Nagrinėjant 2îu ir ˆ

iY priklausomybę, yra ieškoma sistemiškumo, būdingo trendo.

29 pav. pateikiamos galimos 2îu ir ˆ

iY priklausomybės formos. Brėžinyje (a) jo-

kio sistemiškumo įžvelgti neina, todėl galima daryti išvadą, kad toks modelis pasižymi

homoskedastija. Tuo tarpu (b) – (e) brėžiniuose yra įvairios priklausomybės formos ro-

dančios, jog tiriamam reiškiniui būdinga heteroskedastija. Taip pat vietoje îY galima

naudoti iX , kuris vienmatės regresijos atveju bus tikslus ˆ

iY atitikmuo. Daugiamatės

regresijos atveju, sudarant atskirus brėžinius su skirtingais X-ais galima sužinoti tą ne-

priklausomąjį kintamąjį, kuris sukelia heteroskedastiją.

Pav. 29: Galima paklaidų kvadratų ir priklausomo kintamojo įverčių priklausomybė. (Sudaryta pagal:

Gujarati D.N., Porter D.C. Basic Econometrics, 5th ed. McGraw-Hill, 2009)

63

Toliau bus nagrinėjami formalūs heteroskedastijos tikrinimo būdai. Vienas iš to-

kių yra Park testas. Park iškėlė idėją, jog paklaidų dispersija yra tokia kintamųjų iX

funkcija:

2 2 iv

i iX e (28)

Logaritmavus (28) lygtį, gauname:

2 2ln ln lni i iX v (29)

Kadangi 2

i nėra žinomi, todėl atliekant matavimą yra naudojami 2îu kaip artimi

atitikmenys. Matavimui pritaikyta (29) lygties versija atrodo taip:

2ˆln lni i iu X v (30)

0 : 0H , teigia, kad paklaidos yra homoskedastiškos, o 1 : 0H , kad hete-

roskedastiškos. Jei koeficientas yra statistiškai reikšmingas tuomet atmetama 0H ,

teigianti jog paklaidos yra homoskedastiškos. Priešingu atveju, jei yra statistiškai

nereikšmingas, modelis heteroskedastiškumu nepasižymi. Taigi, Park testas yra nesudė-

tinga kelių žingsnių procedūra:

1. Sudaromas regresinis MKM modelis;

2. Paimami MKM gauti iu , pakeliami kvadratu ir logaritmuojami;

3. Logaritmuojami kintamieji iX ;

4. Sudaroma (30) lygtyje pateikta regresija priklausomu kintamuoju pasiren-

kant logarimuotus paklaidų kvadratus, o nepriklausomais pasirenkant loga-

ritmuotas iX reikšmes;

5. Išvestyje pateikiamas koeficiento t statistikos reikšmes lyginame su teo-

rinėmis ir atmetame arba neatmetame 0H .

Tiesa, Park testas sulaukė Goldfeld ir Quandt kritikos. Jie pastebi, jog paklaidos

iv Park testo lygtyje gali netenkinti MKM prielaidų ir pačios būti heteroskedastiškos.

Panašios prigimties kaip Park testas yra Glejser testas. Kaip ir Park teste, čia

taip pat sudaroma tiriamojo reiškinio regresija bei gaunami paklaidų įverčiai. Skirtumai

yra keli – paklaidos nėra keliamos kvadratu, o imamos absoliutinės jų reikšmės bei nau-

dojamos kitokios funkcinės priklausomybės:

64

0 1

0 1

0 1

0 1

0 1

2

0 1

ˆ| |

1ˆ| |

ˆ| |

1ˆ| |

ˆ| |

ˆ| |

i i i

i i

i

i i i

i i

i

i i i

i i i

u X v

u vX

u X v

u vX

u X v

u X v

(31)

Tokiu būdu galima patikrinti įvairias priklausomybės formas, nes paprastai jos iš

anksto nėra žinomos. MKM pagalba galima išmatuoti tik keturias pirmąsias iš (31) pa-

teiktų lygčių. Paskutinių dviejų lygčių parametrai nėra tiesiniai, todėl MKM jų išmata-

vimui nenaudojamas, o pačios lygtys naudojamos retai.

Visose lygtyse 0 1: 0H , teigia, kad paklaidos yra homoskedastiškos, o

1 1: 0H , kad heteroskedastiškos. Jei 1 koeficientas yra statistiškai reikšmingas

tuomet atmetama 0H , teigianti jog paklaidos yra homoskedastiškos.

Kritika šiam testui yra tokia pati kaip ir Park testui – paklaidos iv gali pasižymė-

ti heteroskedastiškumu. Nepaisant to, Glesjer nustatė, jog didelėse imtyse šis tetas gana

gerai randa heteroskedastiją.

Kitas, dažnai literatūroje pateikiamas, yra Spearman’o ranginės koreliacijos te-

stas. Šio testo idėja tokia, jog esant heteroskedastiškumui ir didėjant kintamojo iX

reikšmėms, paklaidų dispersija kartu arba didės arba mažės. Tokiu atveju 2

i ir iX bus

koreliuoti, o koreliacijų analizei galima skaičiuoti Spearman‘o ranginės koreliacijos

koeficientą.

Tarkime turime paprastą porinę regresiją 0 1i i iY X u . Spearman testo ei-

ga bus:

Iš MKM būdu apskaičiuotos regresijos gaunami paklaidų įverčiai iu ;

Imamos absoliutinės įverčių reikšmės ˆ| |iu ir išrikiuojamos didėjimo (arba mažė-

jimo) tvarka. Šalia išrikiuojamos iX reikšmės taip pat didėjimo (arba mažėjimo) tvarka.

Tuomet skaičiuojamas Spearman’o ranginės koreliacijos koeficientas, kur id yra skir-

tumas tarp nepriklausomojo kintamojo ir paklaidos variacinių eilučių rangų:

2

1

21 6

( 1)

n

iis

dr

n n

65

Koreliacijos koeficiento reikšmingumas patikrinamas surandant tokią t kriteri-

jaus statistikos reikšmę:

2

2

1

s

s

r nt

r

Jeigu apskaičiuota t bus didesnė už teorinę reikšmę, tai bus pagrindas atmesti

0H apie esamą homoskedastiją.

Tokiu būdu patikrinamas homoskedastijos buvimas pagal vieną iš kintamųjų. Jei

jų yra daugiau (daugiamatė regresija), tikrinama pagal kiekvieną iš jų atskirai.

Vienas dažniausiai naudojamų yra Goldfeld-Quandt testas. Testas yra paremtas

prielaida, jog heteroskedastija yra sukeliama vieno iš nepriklausomų kintamųjų. Jeigu

bus taip, tai paklaidų sklaida proporcingai keisis didėjant arba mažėjant nepriklausomo

kintamojo reikšmėms. Tarkime turime tokią regresiją: 0 1i i iY X u . Tam, kad

būtų galima atlikti šį testą reikalingi toki žingsniai:

1. Duomenys išrikiuojami pagal iX didėjimo tvarka.

Lentelė 8: Neišrikiuoti ir išrikiuoti duomenys

Pirminiai duomenys Išrikiuoti duomenys

Y X Y X

50 85 60 70

80 95 75 80

60 70 50 85

75 80 80 95

2. Pašalinami keli viduriniai stebėjimai c , o likę stebėjimai padalinami į dvi

lygias grupes po ( ) / 2n c stebėjimų kiekvienoje. Dviejų kintamųjų mode-

lyje jei imties dydis 30n , c galėtų būti nuo 4 iki 8. Jeigu 30n , c galėtų

būti nuo 10 iki 16.

3. Šioms atskiroms stebėjimų grupėms sudaromos MKM regresijos ir gauna-

mos paklaidų kvadratų sumos 1RSS (pirma imties dalis su mažesnėmis

iX

reikšmėmis) bei 2RSS (antra imties dalis su didesnėmis

iX reikšmėmis). Čia

abu RSS turi ( ) / 2 1n c k laisvės laipsnių.

4. Tuomet tikrinama standartinė F testo hipotezė apie dviejų dispersijų lygy-

bę. Jeigu dispersijos bus pripažintos lygiomis, galima bus konstatuoti ho-

moskedastiją. Kadangi 1RSS ir

2RSS turi tuos pačius laisvės laipsnius, lygi-

nant dispersijas galima apsiriboti dviem RSS sumoms. Testo statistika, kurią

66

autoriai pavadino , surandama didesnį RSS dalinant iš mažesnio. Jeigu

1 2RSS RSS , tai bus:

1

2

RSS

RSS

5. Apskaičiuota reikšmė yra lyginama su kritine F skirstinio reikšme pasi-

rinkus tam tikrą reikšmingumo lygmenį. Jei ( )/2 1,( )/2 1n c k n c kF , tuomet

nulinė hipotezė dėl homoskedastiškumo yra atmetama ir teigiama, jog egzis-

tuoja heteroskedastija.

Verta pastebėti, kad testo rezultatai priklausys ne tik, kaip įprasta, nuo pasirinkto

reikšmingumo lygmens, bet ir nuo c (pašalinamų stebinių) dydžio. Kuo c bus didesnis,

tuo skirtumas tarp dviejų grupių tikėtina bus ryškesnis.

Taip pat, jei modelyje yra keli nepriklausomi kintamieji, tai rikiavimas (pirmasis

testo žingsnis) gali būti atliekamas pagal bet kurį pasirinktą kintamąjį. Taip bus nusta-

toma ar konkretus kintamasis sukelia heteroskedastiją.

Kitas, taip pat populiarus, yra Breusch-Pagan-Godfrey testas. Lyginant šį testą

su Goldfeld-Quandt testu, išvengiama c (vidurinių reikšmių šalinimo) pasirinkimo di-

lemos bei tinkamo X , pagal kurį rikiuojami stebiniai, nustatymo. Testo idėja yra tokia:

tarkime turime k-kintamųjų regresiją:

0 1 1 2 2i i i k ki iY X X X u (32)

Paklaidų dispersija tebūnie Z funkcija:

2

0 1 1( )i i m mif a a Z a Z

Čia Z kintamaisiais gali būti keli ar net visi kintamieji X . Konkrečiu atveju, jei

turime šią lygtį, tai 2

i yra tiesiškai priklausoma nuo Z . Jei visi koeficientai, pradedant

1a yra lygūs nuliui (1 2 0ma a a ), tuomet 2

0i a ir modelis yra homoskedas-

tiškas. Šio testo procedūra yra tokia:

1. Įvertinama turima regresija (32) bei gaunami paklaidų įverčiai 1 2ˆ ˆ ˆ, , , nu u u .

2. Gaunama 2 , naudojant šią formulę:

2

2 1ˆ

n

iiu

n

3. Sukonstruojami nauji kintamieji ip , naudojant šią formulę:

2

2

î

i

up

4. Sudaroma nauja regresija, kur Z vaidmenį atlieka X :

67

0 1 1i i k ki ip a a X a X v (33)

5. Gaunama (33) lygties ESS ir apskaičiuojama testo statistika :

1

2ESS

6. Darant prielaidą, jog gautos paklaidos iu yra normaliai pasiskirstę, apskai-

čiuota reikšmė lyginama su kritine 2 reikšme, esant k laisvės laipsnių:

2~ k . Jei su pasirinktu reikšmingumo lygmeniu 2~ k , tai 0H teigianti,

jog (1 2 0ka a a ) atmetama bei priimama

1H bylojanti apie esamą

heteroskedastiją.

White heteroskedastijos testas. Šis testas dar vadinamas Bendruoju heteroske-

dastijos testu, o ir jo atlikimas yra gana paprastas. Tarkime, kad nagrinėjame tokią reg-

resiją:

0 1 1 2 2i i i iY X X u (34)

1. Pirmajame etape įvertinamas (34) regresijos modelis ir randami paklaidų

įverčiai iu .

2. Antrajame etape sudaroma nauja regresija:

2 2 2

0 1 1 2 2 3 1 4 2 5 1 2ˆ

i i i i i i i iu a a X a X a X a X a X X v (35)

Kaip matyti, regresijos (35) dešinėje pusėje naudojamos originalios nepriklau-

somų kintamųjų reikšmės, jų kvadratai bei tarpusavio sandaugos. Taip pat galima

įtraukti ir aukštesnius X laipsnius. Surandamas šios pagalbinės regresijos 2R .

3. Turint 2R jis padauginamas iš imties dydžio n ir lyginamas su kritine 2

skirstinio reikšme (laisvės laipsnių skaičius lygus įtrauktų kintamųjų skai-

čiui, šiuo atveju 5):

2 2~ dfLM nR

Jei su pasirinktu reikšmingumo lygmeniu 2

dfLM , tai atmetama 0H ir teigia-

ma jog yra heteroskedastija.

Vis dėlto, testas neatsako į klausimą kokio tipo heteroskedastiškumas egzistuoja.

Taip pat, jei modelyje yra nemažai kintamųjų, norint įtraukti jų tarpusavio sandaugas,

juos pačius bei jų kvadratus ar aukštesnio lygio laipsnius, sunaudojama nemažai laisvės

laipsnių, todėl čia nereikėtų persistengti. Pastebima, jog White testui atmetant 0H , hete-

roskedastijos gali ir nebūti – tiesiog netinkamai parinkta modelio specifikacija. Dėl šios

priežasties išskiriamos 2 galimos testo atmainos:

68

į testą neįtraukiant nepriklausomų kintamųjų tarpusavio sandaugų, šis tikrins

grynai tik heteroskedastiškumą

įtraukiant tarpusavio sandaugas bus tikrinamas heteroskedastiškumas bei

modelio specifikacija.

Koenker-Bassett testas. KB testas savo prigimtini panašus į Park, Breusch-

Pagan-Godfrey ar White testus, nes remiasi paklaidų įverčių kvadratais 2îu , tačiau ne-

priklausomų kintamųjų vietoje naudojami ne paprasti regresijos kintamieji X (kaip kad

buvo ankstesniuose testuose), o 2îu išreiškiamas per priklausomo kintamojo įverčio

kvadratą 2îY . Tarkime yra tokia regresija:

0 1 1 2 2i i i k ki iY X X X u (36)

Tada, atliekami šie žingsniai:

1. MKM apskaičiuojama regresija (36) bei randami paklaidų įverčiai iu .

2. Toliau sudaroma nauja regresija:

2 2

0 1ˆˆ

i i iu a a Y v (37)

Pagalbinėje regresijoje (37) priklausomas kintamasis yra paklaidų įverčiai pakel-

ti kvadratu, o nepriklausomu kintamuoju tampa tiriamojo reiškinio įverčiai.

3. Tikrinama 0 1: 0H a . Jei gautas parametro įvertis yra statistiškai nereikš-

mingas (su pasirinktu reikšmingumo lygmeniu), 0H neatmetama ir galima

teigti, kad heteroskedastijos nėra.

Apibendrinant galima pasakyti, jog nėra vieno paties geriausio testo. Vieni yra

gana jautrūs imties dydžiui (reikšmingumo lygmens svarba), galiai (tikimybė atmesti

melagingą hipotezę – išvengta antros rūšies klaidos) ar išskirčių įtakai. Kaip jau minėta,

White ir Goldfeld-Quandt teste sunaudojus nemažai laisvės laipsnių sumažinama testo

galia. Breusch-Pagan-Godfrey yra gana priklausomas nuo normalumo prielaidos kas

taip pat mažina testo galią.

John D. Lyon ir Chih-Ling Tsai tyrime „A Comparison of Tests for Heterosce-

dasticity“ lygino įvairius heteroskedastijos nustatymo metodus bei gavo tokias išvadas:

esant paklaidų nenormalumui Koenker testas pasirodė stipresnis nei White. Apskritai,

daugelis testų pranoko White testą modeliuose, kurie pasižymi heteroskedastija, todėl

pastarąjį naudoti bei interpretuoti atsargiai.

69

5.3 Heteroskedastijos naikinimas

Tam, kad gauti parametrų įverčiai taptų efektyvūs ir būtų galima pasitikėti t sta-

tistikos reikšmėmis reikia išspręsti heteroskedastijos problemą. Sprendimo būdai yra

keli ir gali būti skirstomi į 2 grupes: kai dispersijos 2

i yra žinomos ir kai nėra žinomos.

Lentelė 9: Duomenų pavyzdys

COMPENSATION PER EMPLOYEE ($) IN NONDURABLE MANUFACTURING INDUSTRIES ACCORDING TO EMPLOYMENT SIZE OF ESTABLISHMENT. 1958

Employment size (average number of employees)

Industry 1-4 5-9 10-19 20-49 50-99 100-249 250-499 500-999 1000-2499

Food and kindred products 2994 3295 3565 3907 4189 4486 4676 4968 5342

Tobacco products 1721 2057 3336 3320 2980 2848 3072 2969 3822

Textile mil products 3600 3657 3674 3437 3340 3334 3225 3163 3168

Apparel and related products 3494 3787 3533 3215 3030 2834 2750 2967 3453

Paper and ailed products 3498 3847 3913 4135 4445 4885 5132 5342 5326

Printing and publishing 3611 4206 4695 5083 5301 5269 5182 5395 5552

Chemicals and ailed products 3875 4660 4930 5005 5114 5248 5630 5870 5876

Petroleum and coal products 4616 5181 5317 5337 5421 5710 6316 6455 6347

Rubber and plastic products 3538 3984 4014 4287 4221 4539 4721 4905 5481

Leather and leather products 3016 3196 3149 3317 3414 3254 3177 3346 4067

Average compensation 3396 3787 4013 4104 4146 4241 4388 4538 4843

Standard deviation 742.2 851.4 727.8 805.06 929.9 1080.6 1241.2 1307.7 1110.5

Average productivity 9355 8584 7962 8275 8389 9418 9796 10281 11,750

Šaltinis: Gujarati D.N., Porter D.C. Basic Econometrics, 5th ed. McGraw-Hill, 2009

2 yra žinomas.

Žinant dispersijas, yra naudojamas svertinis mažiausių kvadratų metodas (sver-

tinis MKM). Galima panagrinėti Gujarati vadovėlyje pateikiamą pavyzdį. Šiuo atveju

yra tiriama darbo užmokesčio priklausomybė nuo įmonės dydžio skirtingose ūkio šako-

se. Apibendrinti duomenys pateikiami greta esančioje lentelėje. Iš duomenų matyti, jog

vidutinis darbo užmokestis auga, didėjant vidutiniam darbuotojų skaičiui, tačiau disper-

sija yra nepastovi ir taip pat didėja.

Tarkime yra tokia regresija:

1 2 2 3 3i i i k ki iY X X X u

70

Pavyzdyje pateikiamu atveju iY – vidutinis darbo užmokestis, o

iX – darbuotojų

skaičius. Paprastumo dėlei intervalus galima pažymėti atitinkamai: 1 – (1-4 darbuoto-

jai), 2 – (5-9), 3 – (10-19) ir t.t.

Tada pradinė regresija pakeičiama nauja, padalinant iš atitinkamų dispersijų:

11 2

ˆ1i i ki ik

i i i i i

Y X X u

Pavyzdžio atveju duomenų lentelė yra tokia.

Lentelė 10: Heteroskedastiškumo šalinimo iliustracija

Compensation, (Y) Employment size (X) σi Yi/σi Xi/σi

3396 1 743.7 4.5664 0.0013

3787 2 851.4 4.4480 0.0023

4013 3 727.8 5.5139 0.0041

4104 4 805.06 5.0978 0.0050

4146 5 929.9 4.4585 0.0054

4241 6 1080.6 3.9247 0.0055

4387 7 12432 3.5288 0.0056

4538 8 1307.7 3.4702 0.0061

4843 9 1112.5 4.3532 0.0081


Gautoje regresijoje bus panaikinta heteroskedastijos problema bei įverčiai bus

efektyvūs.

Kai 2

i nėra žinomas.

Paprastai gyvenime visos populiacijos duomenys nėra pasiekiami ir dėl to atski-

rų dispersijų išmatuoti nėra galimybės. Dėl šios priežasties yra naudojami kiti metodai

heteroskedastiškumui panaikinti.

Galima naudoti White metodu apskaičiuotas standartine paklaidas. Kai kurie sta-

tistiniai suteikia tokią galimybę, kuomet dispersijos ir standartinė paklaidos pateikiamos

koregavus jų reikšmes, atsižvelgiant į heteroskedastiją.

Taip pat galima priimti įvairias prielaidas apie paklaidų dispersijos pobūdį. Pa-

vyzdžiui: paklaidų dispersija yra tiesiogiai proporcinga tiriamo priklausomo kintamojo

vidurkio kvadratui: 2 2 2( ) [ ( )]i iE u E Y . Tokiu atveju pirmiausiai MKM apskaičiuojama

regresija:


Įvertinus lygtį iš jos gaunami îY , o tada sudaromas naujas modelis:

71

10 1

1

ˆ ˆ ˆ ˆ î i ki i

k

i i i i i

Y X X u

Y Y Y Y Y

Jei prielaida apie dispersiją buvo teisinga, tuomet naujas modelis nepasižymės

heteroskedastiškumu. Praktikoje tokia transformacija padeda, jei imtis yra pakankamai

didelė.

Kita galima prielaida, paklaidų dispersija tiesiogiai proporcinga kintamojo kvad-

ratui: 2 2 2( )i iE u X . Tokia priklausomybė pavaizduota grafiškai pav. 30.

Pav. 30: Paklaidų dispersija proporcinga regresoriaus kvadratui (kairėje) ir regresoriui (dešinėje)

Šiuo atveju modelio reikšmės dalinamos iš kintamojo iX , kuris galimai sukelia

heteroskedastiją, reikšmių. Tuomet sudaroma bei MKM apskaičiuojama tokia regresija:

10 1

1 1 1 1 1

1i i ki ik

i i i i i

Y X X u

X X X X X

Šiame pavyzdyje pasirinktas nepriklausomas kintamasis 1X ir iš jo kintančių

reikšmių 1iX padalinti duomenys. Verta atkreipti dėmesį, jog išoriškai pats koeficientas

1 tampa laisvuoju nariu, nors iš tiesų jis ir toliau parodys kintamojo 1iX poveikį.

Dar viena galima panaši prielaida, paklaidų dispersija tiesiogiai proporcinga kin-

tamajam iX : 2 2( )i iE u X . Tokia priklausomybė pavaizduota grafiškai 4.16 pav. To-

kiu atveju atliekama panašūs žingsniai aprašyti anksčiau, tik dalinama ne iš iX , o iš

0.5

iX . Gauta regresija tuomet atrodo taip:

10 1

1 1 1 1 1

1i i ki ik

i i i i i

Y X X u

X X X X X

Reikia atkreipti dėmesį, jog norint pritaikyti šią transformaciją iX reikšmės turi

būti teigiamos. Taip pat čia tik išoriškai nėra laisvojo nario, todėl atliekant matavimus

reikia įvertinti modelį be laisvojo nario.

72

Dažnai heteroskedastiją padeda spręsti duomenų logaritmavimas. Šiuo metodu

paprastos X ir Y reikšmės pakeičiamos jų natūriniais logaritmais. Taigi, jei paprasta

regresija yra:


Tuomet transformuota atrodys taip:

0 1 1 2 2ln ln ln lni i i k ki iY X X X u

Logaritminės transformacijos dėka duomenys bei jų skirtumai yra „suspaudžia-

mi“. Pavyzdžiui, jei vieno individo pajamos yra 1000 Lt, o kito 10000Lt, tai nominalus

santykis yra 10 kartų, tačiau logaritmavus: ln1000 6,908 , o ln10000 9,213 santykis

tampa tik 1,33 karto. Taip pat tokios transformacijos pagalba parodo Y elastingumą

X , t.y. procentinį pokytį.

Taip pat galima peržiūrėti modelio specifikaciją – pasirinkti kitus kintamuosius

X arba jų netiesines transformacijas.

Apibendrinant heteroskedastijos naikinimą, reikia pabrėžti, jog daugelis prielai-

dų, skirtų problemos sprendimui, yra ad hoc (hipotezė, sugalvota norint paaiškinti nei-

giamus eksperimentų ar stebėjimų rezultatus, kad būtų galima išgelbėti teoriją nuo pa-

neigimo). Tai reiškia, tikra 2

i prigimtis nėra žinoma, o tik bandoma nuspėti. Todėl he-

teroskedastiją išspręs geriausiai tas būdas, kurio prielaidos bus arčiausiai tikrosios pa-

klaidų dispersijos kilmės. Taip pat verta paminėti tam tikrus nesklandumus susijusius

duomenų transformacijomis:

Nagrinėjant daugiamatę regresiją iš anksto nėra žinoma, kuris kintamasis iX

sukelia heteroskedastiškumą, todėl gali užtrukti teisingo kintamojo identifi-

kavimas;

Logaritminės transformacijos naudoti negalima, jei Y ir X turi neigiamų

arba lygių nuliui reikšmių;

Transformacija gali sukelti melagingą koreliaciją. Pirminiame modelyje Y ir

X gali nesieti tarpusavio koreliacija, tačiau transformavus modelį į jie gali

tapti koreliuotais;

Tikrinimo procedūrose naudojant t ar F testus, laikomasi prielaidos, jog

imtys yra didelės, todėl turint mažas imtis gautus transformacijų rezultatus

reiktų reikia vertinti itin atsargiai.

73

Vis dėlto, per daug stipriai į heteroskedastijos problemą reaguoti nereikėtų – juk

įverčiai išlieka tiesiniai, nepaslinkti bei asimptotiškai normaliai pasiskirstę (jei imtis

pakankamai didelė). Ypatingas dėmesys yra reikalingas esant dideliems skirtumams tarp

paklaidų dispersijų. Jonh Fox siūlo atkreipti dėmesį kai didžiausia dispersija yra 10 kar-

tų didesnė už mažiausiąją.

5.4 Heteroskedastijos tikrinimas MS Excel pagalba

Teorinėje dalyje buvo apžvelgta, kodėl sveikas modelis neturėtų pasižymėti he-

teroskedastijos problema, bei kaip šią problemą spręsti. Žinoma, net ir turint regresiją,

kurios paklaidos yra heteroskedastiškos dar neverta jos mesti į šiukšliadėžę, tačiau mo-

delis nebebus toks „skanus“. Šioje dalyje bus parodoma, kaip nustatyti heteroskedastijos

buvimą bei kaip jį panaikinti, siekiant pagaminti gerą modelį. Visa procedūra bus atlie-

kama lietuviška MS Excel versijos pagalba.

Parko testas. Šiuo atveju yra tiriama būsto nuomos kainos Vilniuje priklauso-

mybė nuo įvairių veiksnių. Norint patikrinti ar modelis nepasižymi heteroskedastišku-

mu, pirmiausia reikia pagaminti bandomąją regresiją. Tam bus naudojama regresija,

gauta po Backward procedūros. Turint tam tikrą pusgaminį, jau galima atlikti Park testą.

Pirmiausiai sudaromas regresinis modelis ir ištraukiamos jo paklaidos (žr. pav. 31 ir

pav. 32 ).

Pav. 31: Regresijos modelio sudarymas

74

Pav. 32: Regresijos modelio paklaidos suvestinėje

Tada sudaromas naujas duomenų masyvas: gautos paklaidos pakeliamos kvadra-

tu ir logaritmuojamos, taip pat logaritmuojami kiekybiniai nepriklausomi kintamieji.

Kokybiniai kintamieji nėra logaritmuojami.

Pav. 33: Naujo duomenų masyvo sudarymas

75

Sudaroma regresija, priklausomu kintamuoju pasirenkant logarimuotus paklaidų

kvadratus, o nepriklausomais pasirenkant logaritmuotas regresorių reikšmes ir kokybi-

nius kintamuosius.

Pav. 34: Parko regresijos sudarymas

Išvestyje pateikiamas koeficientų t statistikos reikšmes lyginame su teorinėmis

ir priimame arba atmetame hipotezę dėl heteroskedastiškumo.

Pav. 35: Įvertinta Parko regresija

76

Kaip galima pastebėti 5 punkte pateiktoje išvestyje, daugelis kintamųjų (pažy-

mėti geltonai) yra statistiškai reikšmingi, o tai reiškia, kad modelyje egzistuoja heteros-

kedastijos problema. Šią problemą panaikinti galima įvairiais būdais. Šiuo atveju loga-

ritmuojamas priklausomas kintamasis – kaina, bei nepriklausomas kintamasis – plotas.

Taip pat, modelis papildomas dar vienu kintamuoju – būsto amžiumi pakeltu kvadratu.

White‘o testas. Naujai sudarytai regresijai galima atlikti ir White’o heteroske-

dastijos testą.

Pav. 36: Pagalbinės White‘o regresijos sudarymas

Pav. 37: White‘o testo statistikos suradimas

77

Apskaičiuojama regresija bei randami paklaidų įverčiai iu (procedūra identiška

Parko testo 1 ir 2 žingsniams). Tada sudaroma nauja regresija (žr. pav. 36) Suradus de-

terminacijos koeficientą 2 0,0477R , jis padauginamas iš imties dydžio 308n ir ga-

vus White‘o statistikos reikšmę 14,7LM ji lyginama su kritine 2 skirstinio reikš-

me. Laisvės laipsnių skaičius lygus įtrauktų kintamųjų skaičiui, kuris šiuo atveju yra 16.

Pasirinkus 0,05 reikšmingumo lygmenį 2

16 26,3 . Atsižvelgiant į tai, kad testo statisti-

ka yra mažesnė už kritinę reikšmę, nulinė homoskedastiškumo hipotezė neatmetama.

78

6. AUTOKORELIACIJA

Šiame skyriuje bus aptarta autokoreliacijos samprata, jos nustatymo ir sprendi-

mo būdai.

6.1 Autokoreliacijos apibrėžimas

Sąlyga, kad skirtingų stebėjimų paklaidos iu nekoreliuotos, yra svarbi įvertinant

regresinį modelį mažiausių kvadratų metodu (MKM). Autokoreliacijos nustatymas reiš-

kia, kad viena iš Gausso-Markovo klasikinės regresijos prielaidų, teigiančių, kad pa-

klaidos neautokoreliuoja ir nestebimi sklaidos dėsningumai, yra pažeista. Formaliai,

tačiau neatsižvelgiant į šio reiškinio turinį, neautokoreliuotumo sąlyga gali būti užrašo-

ma taip:

( ) 0, kai i jE u u i j

Autokoreliacija apibrėžiama kaip koreliacija tarp tos pačios eilutės narių. Anali-

zuojant laiko eilutes autokoreliacija reikštų, kad tam tikro periodo duomenys koreliuoja

su anksčiau, praeityje fiksuotomis savo reikšmėmis. Paklaidų autokoreliacija laiko eilu-

tėse yra atvejis, kai t periodo paklaidos koreliuoja su t k periodo paklaidomis:

( ) 0, kai 0t t kE u u k

Autokoreliacijos reiškinys labai dažnai sutinkamas laiko eilutėse dėl jų inertiš-

kumo ir dėl kintamiesiems būdingo uždelsto poveikio. Skerspjūvio arba erdvės duome-

nų analizėje autokoreliacijos samprata neturi prasmės, išskyrus tuos atvejus, kai gali

būti tik vienas ar keli unikalūs duomenų išdėstymai, o gretutiniai elementai sąveikauja.

Įprastais atvejais skerspjūvio duomenų analizėje visiškai nesvarbus stebėjimų išdėsty-

mas (duomenų masyve stebėjimų eilutes sukeitus vietomis būtų vis vien gaunami tie

patys įverčiai), todėl ir prasmės ieškoti koreliacijų, atskirtų vienu ar keliais stebėjimais

tarp to paties kintamojo narių nėra jokios. Neautokoreliuotumo sąlyga, naudojant tin-

kamus laiko indeksus, turėtų būti užrašyta taip:

( ) 0, kai 0t t kE u u k

Šiose lygtyse k yra vėlinimo parametras, o t ku

yra paklaidos vėlavimas arba

ankstinys. Koreliacija tarp tu ir

t ku vadinama k-tosios eilės autokoreliacija, pvz. kore-

liacija tarp tu ir

1tu yra pirmos eilės autokoreliacija, kuri žymima

1 , o koreliacija tarp

tu ir 2tu yra antros eilės autokoreliacija, kuri bus žymima

2 ir t.t. Laiko eilutėje esan-

79

tį stebėjimų skaičių sutrumpinus T , visada galima bus surasti 1T skirtingų eilių auto-

koreliacijos funkcijų.


Kaip pamatysite, autokoreliaciją galima būtų įvardinti kaip atvejį, kai ruo-

šiant mišrainę yra išmetamos ne tik atliekos, bet ir dalis reikiamų ingredientų.

Pavyzdžiui, skutant morkas, nuskutamos ne tik lupenos, bet ir dalis gero pro-

dukto, kuris galėtų būti panaudotas gaminant.

Autokoreliacija laikoma nepageidaujamu reiškiniu, nes:

mažiausių kvadratų metodu (MKM) apskaičiuotas determinacijos koeficien-

tas 2R yra didesnis už tikrąjį;

mažiausių kvadratų metodu (MKM) apskaičiuotos standartinės paklaidos

( )iSE yra nustatytos neteisingai;

tikrinant hipotezes t , 2 ar F kriterijų naudojimas yra nepatikimas, nes visi

koeficientai, paklaidos ir sumos yra nustatyti neteisingai.

Dažniausiai pasitaikančios autokoreliacijos priežastys yra šios:

Dauguma ekonominių reiškinių pasižymi dideliu inertiškumu, t.y. jų būsena

bet kokiu atskirai paimtu t momentu yra glaudžiai susijusi su būsena egzis-

tavusia netolimoje praeityje;

Ekonominiai kintamieji vieni kitiems dažniausiai turi ne momentinį, o už-

delstą poveikį, tad pasikeitus ekonominėms sąlygoms, jie patys į pokyčius

sureaguos ne iš karto, o tik su vėlavimu. Šiuo atveju autokoreliacija signali-

zuotų apie neteisingai specifikuotą dinamiką;

Praleistas svarbus nepriklausomas kintamasis irgi gali sukelti autokoreliaci-

ją;

Vertinant regresijos lygtis su nestacionariais kintamaisiais, paklaidos dažnai

būna autokoreliuotos.

6.2 Autokoreliacijos nustatymo būdai

Autokoreliacijos nustatymo būdų yra ne vienas, o čia aptarsime grafinį, Durbi-

no-Watsono testą, ženklų sekų kriterijų ir Breuscho-Godfrey testą.

80

Grafinis būdas, kaip ir sako jo pavadinimas, yra pagrįstas paklaidų vizualizacija

ir grafikų nubraižymu. ,t t ku u

t t

,t t ku u

t

,t t ku u

Pav. 38: Paklaidų autokoreliacija

Kairėje ir vidurinėje panelėse galima pastebėti atitinkamai tiesinį ir ciklinį pa-

klaidų kitimą einant laikui, o tai yra dėsningumo paklaidose arba autokoreliacijos po-

žymiai. Dešinioji panelė pasižymi tuo, kad šioms paklaidos nėra būdinga jokia kitimo

tendencija, tad autokoreliacijos čia nėra.

Durbino-Watsono testas arba sutrumpintai DW testas yra dažniausiai naudoja-

mas autokoreliacijos nustatymo testas. Šiame teste nulinė hipotezė teigia, kad autokore-

liacijos nėra, o alternatyva sako, kad yra pirmos eilės liekamųjų paklaidų autokoreliaci-

ja. Nors šiuo testu tikrinamas pirmos eilės autokoreliacijos egzistavimas, DW pagalba

galima gauti autokoreliacijos fakto patvirtinimą esant ir aukštesnės eilės sąryšiams.

Testo atspirties taškas yra prielaida, kad paklaidos yra pirmos eilės autoregresi-

nis procesas, sutrumpintai AR(1):

1t t tu u e (38)

Lygtyje (38) yra pirmos eilės autokoreliacijos koeficientas, parodantis kokio

stiprumo ryšys egzistuoja tarp t ir 1t laikotarpių paklaidų. Pats koeficientas yra apri-

botas taip, kad | | 1 . Lygties (38) paklaidos te yra grynai atsitiktinis, nepriklausomai

pasiskirstęs procesas su nuliui lygiu vidurkiu ir pastovia dispersija 2

e , o sutrumpintai

2~ (0, )t ee NID . DW statistika sutrumpintai bus žymima d ir apskaičiuojama taip:

2

12

2

1

( )T

t tt

T

tt

u ud

u

(39)

Skaitiklyje esantį skirtumą pakeliant kvadratu, lygtį (39) galime perrašyti taip:

2 2

1 12 2 2

2

1

T T T

t t t tt t t

T

tt

u u u ud

u

(40)

81

Kadangi sumos 2

tu ir 2

1tu yra apytiksliai lygios (skiriasi tik vienu elemen-

tu), tai DW testo lygtį (40) galima užrašyti ir taip:

2(1 )d

Atsižvelgiant į tai, kad autokoreliacijos koeficientas įgaus skaitinę reikšmę iš

intervalo 1 1 , DW statistika d bus skaičius nuo 0 iki 4. Kai 1 , 0d , kai

1 , 4d , o kai 0 , 2d . Kuo testo statistika d bus arčiau 0 ar 4, tuo paklai-

dos stipriau koreliuos, kuo arčiau 2, tuo koreliacija bus silpnesnė. Atsižvelgiant į nusta-

tytas koeficiento ribas, atvejis kai 2d nurodo, kad autokoreliacijos nėra. Atvejis, kai

2d nurodo, kad egzistuoja teigiama paklaidų autokoreliacija, o atvejis kai 2d sie-

jamas su neigiama paklaidų autokoreliacija.

Tam, kad nustatyti ar apskaičiuota testo statistika reikšmingai skiriasi nuo skiria-

si nuo dviejų autoriai nustatė apatinę ir viršutinę kritines reikšmes (atitinkamai dL ir

dU ). Šios reikšmės priklauso nuo imties T ir regresijos lygties parametrų skaičiaus k .

DW kritinių reikšmių lentelės dažnai pateikiamos įvadinių ekonometrijos ar statistikos

vadovėlių prieduose, taip pat yra daug tinklapių internete, kur jos yra patalpintos, pvz. ši

nuoroda. Radus kritines reikšmes d statistikos intervalas nuo 0 iki 4 padalijamas į pen-

kias dalis ir nulinė hipotezė atmetama arba ne su tikimybę pagal tai į kokį intervalą ap-

skaičiuota d reikšmė patenka. Šie penki intervalai ir jų suradimo būdas yra pateikti pav.

39 esančioje schemoje, o sprendimo priėmimas lentelėje 11.

Pav. 39: DW statistikos intervalai

Jei apskaičiuota statistika patenka į neapibrėžtumo sritį, autokoreliaciją reikia

tikrinti kitu būdu.

Neapibrėžtumo

sritis

https://web.stanford.edu/~clint/bench/dwcrit.htm

82

Lentelė 11: Sprendimo priėmimas DW teste

Nulinė hipotezė Situacija Sprendimas

Nėra teigiamos autokoreliacijos 0 < d < dL Atmesti nulinę hipotezę

Nėra teigiamos autokoreliacijos dL < d < dU Nėra sprendimo

Nėra neigiamos autokoreliacijos 4 - dL < d < 4 Atmesti nulinę hipotezę

Nėra neigiamos autokoreliacijos 4 - dU < d < 4 - dL Nėra sprendimo

Nėra autokoreliacijos dU < d < 4 - dU Negalima atmesti nulinės hipotezės

Tarkime, kad turint 32 stebėjimus buvo sudarytas toks regresinis modelis:

1 2 30,126 0,086 0,148 0,028t t t t tY X X X u

Šios lygties 2 0,86R , o 2,16d . Turint 32 stebėjimus ir 4 parametrus (su

laisvuoju nariu) iš kritinių reikšmių lentelės galima surasti, kad 1,24dL , 1,65dU ,

4 2,35dU , o 4 2,76dL . Kadangi 4dU d dU , t.y. 1,65 2,166 2,35 , tai

nulinė hipotezė neatmetama ir galima teigti, kad modeliui nebūdinga autokoreliacija.

Apibendrinant šį testą galima pasakyti, kad pirmiausiai regresijos modelis yra

įvertinamas, gaunami paklaidų įverčiai ir naudojant formulę (39) apskaičiuojama d

statistikos reikšmė. Pagal T ir k iš statistinių lentelių parenkamos dU ir dL reikšmės,

ir sukonstravus DW reikšmių intervalus priimamas sprendimas ar paklaidos yra autoko-

reliuotos, ar ne.

DW testo negalima taikyti, jeigu regresijos lygtyje tarp nepriklausomų kintamų-

jų yra įtrauktas priklausomo kintamojo vėlavimas. Jis taip pat gali duoti netikslius rezul-

tatus, jeigu paklaidos yra sugeneruotos ne pirmos, o aukštesnės eilės autoregresinio pro-

ceso.

Ženklų sekų kriterijus yra surandamas naudojant standartizuotas paklaidas. Šis

kriterijus yra pagrįstas teigiamų ir neigiamų standartizuotų paklaidų sekų suskaičiavimu.

Šio kriterijaus suradimui greta paklaidų stulpelio patogu įsivesti papildomą stul-

pelį ženklams. Šiame stulpelyje, jei standartinė paklaida bus teigiama reikėtų įterpti „+“

ženklą, o jei neigiama, tai atitinkamai „–“ ženklą. Tada reikia suskaičiuoti sekas, atsi-

žvelgiant į tai, kad viena seką sudaro vienodi ženklai, o kai ženklas pasikeičia, prasideda

kita seka. Teigiamų paklaidų, „+“ ženklų, skaičių sutrumpinus 1n , o neigiamų paklaidų,

„–“ ženklų, skaičių sutrumpinus 2n , sekų skaičiaus k vidurkis ir dispersija bus suran-

dami taip:

1 2

1 2

2 1 2 1 2 1 2

2

1 2 1 2

21

2 (2 )

( ) ( 1)k

n nk

n n

n n n n n n

n n n n

83

Pasikliautinis vidurkio intervalas, naudojant normalųjį skirstinį bus nustatomas

taip:

1,96 1,96k k kk k

Nulinė hipotezė teigia, kad sekų skaičius k yra atsitiktinis ir nepriklausomai pa-

siskirstęs dydis, o alternatyvi sako, kad sekų skaičius nėra nepriklausomai pasiskirstęs

dydis, t.y. nuliniu teiginiu sakoma, kad autokoreliacijos nėra, o alternatyviu, kad ji yra.

Jei apskaičiuota k reikšmė bus mažesnė už apatinį pasikliautinio intervalo rėžį

arba didesnė už viršutinį, nulinė hipotezė gali būti atmetama. Tada galima teigti, jog

autokoreliacija yra.

Lentelė 12: Standartizuotų paklaidų lentelė

Stebėjimas Standartizuotos paklaidos Ženklai n1 n2

1960 -0,036068 - 24 22

1961 -0,030780 -

1962 -0,026724 -

1963 -0,029160 -

1964 -0,026246 -

1965 -0,028348 -

1966 -0,017504 -

1967 -0,006419 -

1968 0,007094 +

1969 0,018409 +

1970 0,024713 +

1971 0,016289 +

1972 0,025305 +

1973 0,025829 +

1974 0,023744 +

1975 0,011131 +

1976 0,018359 +

1977 0,020416 +

1978 0,030781 +

1979 0,033023 +

1980 0,031604 +

1981 0,020801 +

1982 0,038719 +

1983 0,014416 +

1984 0,001774 +

1985 0,001620 +

1986 0,013471 +

1987 0,013725 +

1988 0,017232 +

1989 -0,004818 -

1990 -0,006232 -

1991 -0,004118 -

1992 -0,005078 -

1993 -0,010686 -

1994 -0,023553 -

1995 -0,027874 -

1996 -0,039805 -

1997 -0,041164 -

1998 -0,013576 -

1999 -0,006674 -

2000 0,010887 +

84

2001 0,007551 +

2002 0,000453 +

2003 -0,006673 -

2004 -0,015650 -

2005 -0,020198 -


Kaip matome lentelėje 12 iš pradžių turime 8 neigiamas paklaidas – tai viena se-

ka, po to eina 21 teigiama paklaida – tai kita seka, 11 neigiamų – trečia seka, 3 teigia-

mas paklaidas – ketvirta seka ir 3 neigiamas – penkta. Iš viso 46 stebėjimuose turime 5

ženklų sekas. Taigi ženklų sekų skaičius 5k , „+“ ženklų skaičius 1 24n , „–“ ženklų

skaičius 2 22n , vidurkis 23,95652k , dispersija ir standartinis nuokrypis atitinka-

mai 2 11,20101k , ir 3,346791k . Gautas 95 proc. pasikliovimo intervalas ženklų

sekų skaičiui yra:

23,95652 1,96 3,346791 23,95652 1,96 3,346791

17,39681 30,51623

k

k

Akivaizdu, kad reikšmė 5k nepatenka į šį intervalą, todėl nulinė hipotezė,

kad sekų skaičius k yra atsitiktinis ir, nepriklausomai pasiskirstęs dydis yra atmetama,

o tai reiškia, kad paklaidoms būdinga autokoreliacija.

Kaip taisyklė, jei modeliui būdinga teigiama autokoreliacija, sekų skaičius bus

nedidelis, ir atvirkščiai, jei egzistuoja neigiama autokoreliacija – sekų skaičius bus dide-

lis.

Breusch-Godfrey testas išvengia Durbin-Watson testo trūkumų, regresijos lyg-

tyje tarp regresorių gali būti ir priklausomo kintamojo vėlavimas, o paklaidos gali būti

aukštesne autoregresiškos, ne tik pirma eile. Paprastumo dėlei pasinaudosime dviejų

kintamųjų regresija, nors galima įtraukti ir daugiau nepriklausomų kintamųjų:

0 1t t tY X u (41)

Liekamosios paklaidos bendru atveju gali būti formuojamos p eilės autoregre-

sinio proceso, AR(p):

1 1 2 2t t t p t p tu a u a u a u e (42)

Šioje lygtyje paklaidos te yra atsitiktinės, nepriklausomai pasiskirstę, turinčios

nuliui lygų vidurkį ir pastovią dispersiją, o sutrumpintai 2~ (0, )t ee NID . Kintamasis,

kuris tenkina šias sąlygas yra laikomas baltuoju triukšmu. Nulinė hipotezė šiame teste

teigia, kad autokoreliacijos nėra ir simboliškai gali būti užrašyta kaip

1 2 0pa a a . Alternatyvi hipotezė teigia, kad paklaidoms būdinga autokorelia-

cija, kaip aprašyta (42) lygtimi.

85

Atliekant šį testą pirmiausiai surandami lygties (41) paklaidų įverčiai tu , o tada

įvertinama pagalbinė regresija:

0 1 1 1 2 2

ˆ ˆ ˆt t t t p t p tY X bu b u b u (43)

Suradus šios lygties determinacijos koeficientą 2R , jis padauginamas iš imties

dydžio T ir autoregresinių koeficientų skaičiaus p ir taip gaunama Lagrandžo daugik-

lio statistika, kuriai būdingas 2 pasiskirstymas su p laisvės laipsniais:

2 2( ) ~ pLM T p R

Jeigu 2

pLM , tai nulinę hipotezę reikia atmesti, o pati regresija pasižymi p

eilės paklaidų autokoreliacija. Jeigu 2

pLM , tai nulinės hipotezės atmesti negalima,

t.y. jokios autokoreliacijos nėra.

6.3 Autokoreliacijos sprendimo būdai

Modelio matematinės išraiškos peržiūrėjimas retais atvejais padės išspręsti auto-

koreliacijos problemą, tačiau bet kuriuo atveju ji privalo būti tinkama. Bendru atveju,

autokoreliacija nurodo, kad kažkas iš tam tikro praeityje esančio periodo yra neįtraukta į

regresijos modelį, todėl priklausomo ar nepriklausomo kintamojo vėlavimų įtraukimas

dažniausiai padeda pašalinti autokoreliaciją. Šis sprendimas veikia net ir turint netinka-

mą funkcinę forma.

Jeigu paklaidos yra pirma eile autoregresiškos, tinkamas būdas išspręsti šią pro-

blemą yra Cochrane-Orcut procedūra. Tarkime, kad modelis yra toks:

0 1t t tY X u (44)

Pirma eile autoregresiškų paklaidų lygtis yra:

1t t tu u e (45)

Pirmiausiai abi lygties (44) puses padauginame iš ir perrašome vienu periodu

atgal į praeitį:

1 0 2 1 1t t tY X u (46)

Tada iš lygties (44) atimame lygtį (46) ir gauname tokį modelį, kur naujos pa-

klaidos yra ne tu , o

1t t te u u :

1 0 2 1 1(1 ) ( ) ( )t t t t t tY Y X X u u

Įveskime naujas santrumpas *

1t t tY Y Y , *

0 0(1 ) , *

1t t tX X X ir

užrašykime galutinę pertvarkytos regresijos išraišką:

* * *

0 1t t tY X e (47)

86

Jeigu koeficientas yra artimas vienetui, Cochrane-Orcutt regresija (47) susi-

prastina iki tokio modelio:

1t t tY X e

Nepaisant to, kad laisvojo nario nėra, atliekant matavimą dėl įvairių sumetimų

jis visgi įtraukiamas:

0 1t t tY X e

Pokyčių, o ne absoliučių dydžių regresija irgi gali padėti išspręsti autokoreliaci-

jos problemą.

87

7. MODELIO SPECIFIKACIJA

Kiekvienas empirinei analizei sudaromas modelis turėtų atitikti šiuos kriterijus:

Pagal sudarytą modelį gautos prognozės turi būti logiškos.

Modelis turi būti suderintas su ekonomikos teorija.

Nepriklausomi kintamieji turi nekoreliuoti su paklaidomis. Kai kuriose situ-

acijose yra siekiama, kad nepriklausomi kintamieji būtų griežtai egzogeni-

niai. Griežtai egzogeniški kintamieji yra nepriklausomi nuo dabartinių, atei-

ties ir praeities paklaidų reikšmių.

Modelio parametrai turi būti pastovūs, t.y. parametrų reikšmės turi būti stabi-

lios. Priešingu atveju, prognozavimas remiantis nestabiliais parametrais būtų

sudėtingas ir netgi klaidingas. Friedman‘as teigia, kad vienintelis būdas pa-

tikrinti modelio tinkamumą yra gautų prognozių įvertinimas atsižvelgiant į

sukauptą patirtį.

Modelis turėtų sugebėti paaiškinti konkuruojančių modelių rezultatus.

Paklaidos turi atitikti baltojo triukšmo reikalavimus. Jei regresinis modelis

yra adekvatus, tai sudaryto modelio paklaidos yra baltasis triukšmas, tačiau

priešingu atveju modelyje atsiranda specifikacijos paklaidų ir baltojo triukš-

mo reikalavimai yra nebetenkinami.

Viena iš klasikinių regresijos prielaidų sako, kad kiekvienas regresinis modelis,

naudojamas analizei turi būti tinkamai specifikuotas. Šioje dalyje aptarsime neteisingos

modelio specifikacijos atvejus. Nors apibrėžti „gerą modelį“ nėra sudėtinga, tačiau su-

daryti visus reikalavimus atitinkantį modelį nėra taip lengva. Veiksnių parinkimo klai-

dos, neteisinga matematinės priklausomybės forma ar duomenų netikslumai yra dažnos

neteisingos specifikacijos priežastys.


Remiantis analogija su salotų gaminimu, tinkamą specifikaciją būtų ga-

lima apibūdinti kaip salotas, kurios yra pagamintos iš kokybiškų bei šviežių pro-

duktų, kas atitinka tikslius ir patikimus duomenis. Į šias salotas turėtų būti

įtraukti visi reikalingi – recepte nurodyti ar tiesiog pageidaujamas skonio savy-

88

bes turintys produktai, kas rodytų, jog buvo išvengta veiksnių parinkimo klaidų.

Taip pat visi produktai turi būti tinkamai apdoroti – galbūt išvirti, o galbūt pa-

naudojami žali, kas realaus modelio atveju atitiktų teisingą matematinės pri-

klausomybės formą.

7.1 Neteisingai sudarytas modelis

Šiame skyriuje bus aptarti trys klaidų tipai. Pirmas iš jų susijęs su klaidingai pa-

rinkta matematine išraiška, antras su duomenų netikslumais, o trečias su veiksnių parin-

kimo klaidomis.

Klaidingai parinkta matematinė išraiška reikalauja mažiausio aptarimo, todėl

pradėsime nuo jos. Tarkime, kad teisinga regresija yra:

0 1i i iY X u

Tačiau sudarytas modelis yra:

0 1ln i i iY X u

Matome, kad geriausiai priklausomybė tarp priklausomo ir nepriklausomo kin-

tamojo perteikiama, kai priklausomas kintamasis yra išreiškiamas tiesine forma. Netei-

singai sudarytoje regresijoje šis ryšys perteikiamas log-lin funkcija, kuri iškreipia nepri-

klausomo kintamojo poveikį priklausomam kintamajam.

7.1.1 Duomenų netikslumai

Regresinėje analizėje naudojami duomenys gali būti netikslūs, t.y. tiek priklau-

somi, tiek nepriklausomi kintamieji gali būti išmatuoti ir pateikti su klaidomis.

Priklausomojo kintamojo matavimo klaidos. Tarkime, kad turime regresiją:

0 1 1 2 2 3 3 4 4i i i i i iY X X X X u (48)

Tačiau iY nėra stebimas tiesiogiai, jis yra su klaidomis taip kad *

i i iY Y , kur

i klaidų vektorius. Iš tiesų išmatuojama regresija atrodys taip:

*

0 1 1 2 2 3 3 4 4 ( )i i i i i i iY b b X b X b X b X u (49)

Suteikus naują santrumpą i i iv u , gauname:

*

0 1 1 2 2 3 3 4 4i i i i i iY b b X b X b X b X v (50)

Priklausomojo kintamojo matavimo klaidų poveikis regresijos lygčiai gali būti

trejopas.

89

Pirma. Paprastumo dėlei teigiame, kad klasikinės regresinio modelio prielaidos

yra tenkinamos ir ( ) 0iE u , ( ) 0iE , bei cov( , ) 0X u , t.y. paklaidų vidurkis yra

lygus 0 ir nepriklausomi kintamieji nekoreliuoja su modelio paklaidomis. Taip pat tei-

giame, kad cov( , ) 0X t.y., kad nepriklausomi kintamieji nekoreliuoja su priklauso-

mo kintamojo stebėjimo paklaidomis ir cov( , ) 0u , kuri perteikia, jog lygties paklai-

dos ir priklausomo kintamojo stebėjimo paklaidos taip pat nekoreliuoja. Tuomet para-

metrų įverčiai 0 1, , , kb b b yra nepaslinkti, suderinti, bet neefektyvūs. Taip pat

1 2, , , k ir 1 2, , , kb b b įverčių, apskaičiuotų atitinkamai pagal (48) ir (50) lygtis

dispersija ir standartinės paklaidos skiriasi, nes pagal (48) modelį bet kurio nuolydžio

koeficiento dispersija bys 2 2ˆvar( ) / ( )k u k ki kVIF X X , o pagal (50) modelį

2 2 2ˆvar( ) ( ) / ( )k u k ki kb VIF X X . Taigi, nors ir modelio su priklausomo kinta-

mojo matavimo paklaidomis parametrų įverčiai yra nepaslinkti, tačiau parametrų disper-

sija yra didesnė.

Antra. Tuo atveju, jei ( ) 0iE , t.y. priklausomo kintamojo stebėjimo paklaidų

vidurkis nėra lygus 0, bet cov( , ) 0X u , nepriklausomi kintamieji nekoreliuoja su pri-

klausomo kintamojo stebėjimo paklaidomis iu , tuomet

0b bus paslinktas, o 1 2, , , kb b b

nepaslinkti, suderinti, bet neefektyvūs.

Trečia. Jei ( ) 0iE , bet cov( , ) 0X u , t.y. nepriklausomi kintamieji koreliuo-

ja su priklausomo kintamojo stebėjimo paklaidomis, tada 0b ir koreliuojančių kintamųjų

koeficientai 1 2, , , kb b b yra paslinkti ir neefektyvūs.

Nepriklausomo kintamojo matavimo klaidos. Trakime, kad turime regresiją:

0 1 1 2 2 3 3 4 4i i i i i iY X X X X u (51)

Tačiau 3X yra su klaidomis *

3 3i i iX X . Iš tiesų išmatuojama regresija atrodo

taip:

0 1 1 2 2 3 3 4 4

0 1 1 2 2 3 3 4 4 3

( )i i i i i i i

i i i i i i i

Y b b X b X b X b X u

Y b b X b X b X b X b u

(52)

Įvedus naują santrumpą 3i i ib u lygtis (52) įgauna tokį pavidalą:

0 1 1 2 2 3 3 4 4i i i i i iY b b X b X b X b X (53)

Nors mes ir teigiame, kad nepriklausomo kintamojo stebėjimo paklaidų i vi-

durkis yra lygus 0, jos yra nepriklausomos ir nekoreliuoja su modelio paklaidomis iu ,

mes nebegalime teigti, kad bendros paklaidos i nekoreliuoja su nepriklausomu kinta-

muoju 3iX , nes:

90

3 3 3

3

2

3

2

3

cov( , ) [ [ ( )]]

[( ) ]

( )

i i i i i

i i i

i

X E X E X

E u b

E b

b

(54)

Taigi, nepriklausomas kintamasis 3iX ir paklaidos (53) lygtyje koreliuoja, o tai

pažeidžia vieną esminių klasikinės regresijos prielaidų, kad nepriklausomi kintamieji

turi nekoreliuoti su paklaidomis. Jei ši prielaida pažeidžiama, tuomet 3b yra ne tik pa-

slinktas, bet ir nesuderintas. Jis išlieka paslinktas, net ir tuomet, kai imties dydis neapi-

brėžtai auga. Koeficientas 0b taip pat tampa paslinktu.

7.1.2 Veiksnių parinkimo klaidos

Veiksnių parinkimo klaidos yra susiję su praleistais reikšmingais veiksniais arba

įtrauktais nereikšmingais veiksniais. Pirmiausiai panagrinėkime praleistų reikšmingų

veiksnių atvejį. Tarkime, kad teisingas modelis yra:

0 1 1 2 2i i i iY X X u (55)

Bet dėl tam tikrų priežasčių apskaičiuotas modelis yra:

0 1 1i i iY X (56)

Pasekmės dėl neįtraukto reikšmingo nepriklausomo kintamojo 2iX yra tokios:

1. Jei neįtrauktas kintamasis 2iX koreliuoja su įtrauktu nepriklausomu kinta-

muoju 1iX , koreliacijos koeficientas tarp šių kintamųjų

12 0r , tuomet pa-

rametrų įverčiai 0 ir

1 yra paslinkti ir nesuderinti, ir 0 0ˆ( )E , o

1 1ˆ( )E . Atitinkamai, jei regresiniame modelyje yra daugiau nepriklau-

somų kintamųjų, su kuriais koreliuoja 2iX , tuomet parametrų įverčiai prie

šių kintamųjų taip pat yra paslinkti ir nesuderinti.

2. Jei 2iX ir

1iX nekoreliuoja, tada 1 yra nepaslinktas, o

0 yra paslinktas.

3. Paklaidų dispersija 2 įvertinama neteisingai.

4. Įprastas pasikliautinasis intervalas hipotezių tikrinimo procedūroms, tikėtina,

duos klaidingas išvadas apie įvertintų parametrų statistinį reikšmingumą.

5. Gautos prognozės, remiantis neteisingai sudarytu modeliu ir prognozių pasi-

kliautinieji intervalai, bus nepatikimi.

Įverčio 1 paslinktumą ar nepaslinktumą puikiai iliustruoja ir paaiškina šis pa-

vyzdys.

91

1 1 2 21ˆ( )E b , kur

21b yra lygties su neįtrauktu nepriklausomu kintamuoju

2X ir įtrauktu regresoriumi 1X nuolydis. Kaip rodo ši lygtis,

1 yra paslinktas, nebent

2 arba 21b , ar

2 ir 21b kartu yra lygūs 0. Tačiau šiuo nagrinėjamu atveju

2 negali

būti lygus nuliui, nes mes tiriame reikšmingo kintamojo neįtraukimą į modelį, o jei 2

būtų lygus 0, tai reikštų, kad šis nepriklausomas kintamasis yra nereikšmingas ir jokia

modelio specifikacijos klaida nėra padaryta. Koeficientas 21b gali būti lygus 0 tuo atve-

ju, kai kintamieji 2X ir

1X nekoreliuoja.

Parametrų įverčių variacijų skirtumus paaiškina šis pavyzdys.

2 2

1 1ˆvar( ) / iX ir

2 2

1 1 1ˆvar( ) / ( )iVIF X X , kur VIF yra kolinea-

rumo matas ir yra lygus 2

121/ (1 )r . 12r yra koreliacijos koeficientas tarp kintamųjų

1X

ir 2X . Kadangi šios lygtys nėra vienodos, todėl ir

1ˆvar( ) skiriasi nuo 1

ˆvar( ) . Mes

žinome, kad 1ˆvar( ) yra paslinkta, o 1

ˆvar( ) nepaslinkta. Remiantis žiniomis, kad

120 1r , atrodytų, jog 1 1ˆˆvar( ) var( ) . Čia dilema, jog nors

1 yra paslinktas, šio

įverčio variacija yra mažesnė, nei 1 , kuris yra nepaslinktas. Pažymėtina, kad šiame

pavyzdyje atvejis, kai 12 0r yra nenagrinėjamas.

Tačiau remiantis vien koreliacijos koeficientu spręsti apie įverčių variaciją yra

klaidinga. Reikia atkreipti dėmesį, kad dispersija 2 , apskaičiuota pagal (55) ir (56)

lygtis bus nevienoda dėl skirtingos modelių paklaidų kvadratų sumos RSS ir skirtingo

laisvės laipsnių skaičiaus df , nes 2ˆ /RSS df . Atitinkamai RSS ir df priklauso nuo

įtrauktų į nagrinėjamą modelį nepriklausomų kintamųjų skaičiaus. Jei į modelį yra

įtraukiami papildomi regresoriai, paklaidų kvadratų suma mažėja, nes yra paaiškinama

vis didesnė vidutinė priklausomo kintamojo išsibarstymo apie vidurkį dalis – determi-

nacijos koeficientas 2R didėja, tačiau laisvės laipsnių skaičius taip pat mažėja, nes atsi-

randa daugiau vertinamų parametrų. Grynasis poveikis priklauso nuo, ar RSS sumažėja

daugiau negu sumažėja laisvės laipsnių skaičius įtraukus daugiau nepriklausomų kinta-

mųjų. Labai tikėtina, kad jei įtraukto nepriklausomo kintamojo poveikis priklausomam

kintamajam yra didelis, tai RSS sumažės daugiau negu df ir modelio tikslumas didės

dėl sumažėjusių įverčių standartinių paklaidų. Tačiau jei kintamieji turi nedidelį poveikį

priklausomam kintamajam ir jie stipriai koreliuoja (jų VIF yra didelis), tuomet nors ir

tokių kintamųjų įtraukimas į modelį sumažins modelio paklaidų kvadratų sumas, tačiau

92

padidins kintamųjų koeficientų standartines paklaidas ir taip padarys juos mažiau efek-

tyvius.

Taigi, akivaizdu, kad siekiant įvertinti 1 ir 1 variacijas, reikia atsižvelgti ne

tik į koreliacijos koeficientą tarp kintamųjų, bet ir į neįtraukto nepriklausomo kintamojo

poveikį priklausomam kintamajam, kuris lemia modelio dispersiją, o tuo pačiu ir įverčių

variacijas.

Atskiras pavyzdys apima prielaidą, kad koreliacijos koeficientas 12 0r , t.y. ne-

priklausomi kintamieji 1X ir

2X nekoreliuoja. Tuomet 1 ir 1 variacijos yra vienodos

ir koeficientas 21b yra lygus 0, todėl

1 yra nepaslinktas. Tačiau žala neįtraukus kinta-

mojo 2X išlieka, nes

1ˆvar( ) išlieka paslinkta.

Įtraukti nereikšmingi veiksniai. Tarkime, kad teisinga regresija yra:

0 1 1i i iY X u (57)

Tačiau sudarytas modelis yra:

0 1 1 2 2i i i iY X X (58)

Pasekmės įtraukus nereikšmingą nepriklausomą kintamąjį:

1. Jei įtrauktas nepriklausomas kintamasis 2iX nekoreliuoja su

1iX , tada para-

metrų įverčiai 0 ir

1 yra nepaslinkti ir suderinti t.y. 0 0ˆ( )E ir

1 1ˆ( )E . Taip pat

1 yra efektyvus, tačiau 0 nėra efektyvus, jo variacija

bus didesnė negu 0 .

2. Paklaidų dispersija 2 yra įvertinama teisingai.

3. Įprasti pasikliautinieji intervalai ir hipotezių tikrinimas išlieka teisingas.

4. Tačiau jei įtrauktas nepriklausomas kintamasis 2X koreliuoja su

1X , tada

0 ir 1 yra paslinkti, nesuderinti ir neefektyvūs. Tuomet

120 1r ir

2 2

1 1 1ˆvar( ) / ( )iX X , 2 2

1 1 1ˆvar( ) / ( )iVIF X X . Iš dviejų pas-

tarųjų išraiškų gauname 1 1ˆˆvar( ) / var( ) VIF .

Lygtys akivaizdžiai rodo, jog 1 1ˆˆvar( ) var( ) , nepaisant to, kad

1 2ˆ( )E .

Šiuo atveju nereikšmingo nepriklausomo kintamojo įtraukimas lėmė didesnę 1 variaci-

ją taip sumažindamas 1 tikslumą. Šios išvados galioja ir

0 .

Paskutinis atvejis apjungia abu pirmuosius ir aprašo situaciją, kai į modelį

įtraukti nereikšmingi ir praleisti reikšmingi veiksniai. Tarkime, kad teisinga regresija

yra:

0 1 1 2 2 3 3 4 4i i i i i iY X X X X u (59)

93

Tačiau apskaičiuota regresija yra:

0 1 1 2 2 3 3 5 5i i i i i iY X X X X (60)

Taip sudaryto modelio pasekmės gali būti dvejopos:

1. Jei įtrauktas nepriklausomas kintamasis 5X nekoreliuoja su

1X , 2X ir

3X ,

tuomet 1 ,

2 ir 3 yra nepaslinkti ir suderinti, o

0 paslinktas. 0 ,

1 , 2

ir 3 yra neefektyvūs.

2. Jei įtrauktas nepriklausomas kintamasis 5X koreliuoja su

1X , 2X ir

3X ,

tuomet 1 ,

2 ir 3 yra paslinkti ir nesuderinti. Atitinkamai jei

5X kore-

liuoja tik su kai kuriais nepriklausomais kintamaisiais, tai paslinkti ir nesude-

rinti yra tik tie parametrai, esantys prie koreliuojančių kintamųjų. 0 ,

1 ,

2 ir 3 yra neefektyvūs nepriklausomai nuo to, ar

5X koreliuoja su visais,

ar tik su tam tikrais kintamaisiais.

7.2 Diagnostika

Iš karto sudarius modelį niekada nėra aišku, ar jis yra tinkamas ir adekvatus. To-

dėl siekiant išsiaiškinti modelio adekvatumą yra tikrinamos koreguoto determinacijos

koeficiento 2

adjR reikšmės, įvertinų parametrų t statistikos, paklaidų autokoreliaciją pa-

rodančios Durbin-Watson statistikos, žiūrima, ar įvertintų koeficientų ženklai nepriešta-

rauja logikai bei nagrinėjami ir kiti svarbūs rodikliai. Tik peržvelgus šiuos rodiklius jau

galima daryti tam tikras išvadas. Pavyzdžiui, jei vidutinė paaiškinta priklausomo kinta-

mojo išsibarstymo apie vidurkį dalis yra labai nedidelė, t.y. 2

adjR yra labai mažas, yra

labai nedaug reikšmingų koeficientų arba jų ženklai prieštarauja adekvačioms prielai-

doms, Durbino-Watsono d statistika yra žema, galima manyti, kad sudarant modelį

galbūt buvo praleistas svarbus veiksnys ar panaudota netinkama kintamojo funkcinė

forma.

Šiame skyriuje bus aptarta grafinė modelio paklaidų analizė, Ramsey RESET te-

stas, papildomi determinuotumo rodikliai. Pabaigoje bus pateiktas modelio specifikaci-

jos tikrinimas MS Excel pagalba.

7.2.1 Grafinė modelio paklaidų analizė

Grafinė modelio paklaidų analizė yra geras būdas nustatyti paklaidų autokorelia-

ciją ar heteroskedastiškumą. Kaip buvo minėta anksčiau, paklaidos taip pat padeda įver-

94

tinti, ar nebuvo praleista svarbių veiksnių, ar nepanaudota netinkama kintamojo forma.

Jei buvo padaryta tokių klaidų, tuomet paklaidų grafikas perteikia aiškius paklaidų raš-

tus, t.y. tendencingą jų išsidėstymą.

Pav. 40: Kaštų priklausomybės nuo gamybos apimčių regresijos

Siekdami iliustruoti šią situaciją, remsimės D. N. Gujarati ir D. C. Porter patei-

kiamu pavyzdžiu – kaštų priklausomybės nuo produkcijos regresija, kur Y yra bendri

kaštai, o X yra produkcija.

Tarkime, kad teisinga regresija yra kubinės formos (kairė pav. 40 panelė):

2 3

0 1 2 3i i i i iY X X X u (61)

Tačiau vienu atveju sudaryta kvadratinės formos regresija (vidurinė pav. 40 pa-

nelė):

2

0 1 2i i i iY X X u (62)

O kitu atveju tiesinės formos regresija (dešinė pav. 40 panelė):

0 1i i iY X u (63)

Iš paklaidų grafikų matome, kad kuo labiau tolstama nuo teisingos regresijos,

tuo paklaidų absoliučios reikšmės darosi didesnės ir matomi dideli cikliški paklaidų

svyravimai.

7.2.2 Ramsey RESET testas

Ramsey RESET testas yra bendras modelio netikslumų testas. Šio testo esmė yra

ta, kad į pagalbinę regresiją yra papildomai įtraukiami priklausomo kintamojo įverčių îY

aukštesni laipsniai. Jei papildomų regresorių įtraukimas į lygtį reikšmingai padidina 2R ,

tikėtina, kad regresijos modelis buvo sudarytas neteisingai, o papildomų netiesinių dė-

menų įtraukti nereikia.

Trakime, kad sudaryta regresija yra:

0 1 1 2 2 3 3i i i i iY X X X u (64)

95

Sudarytas modelis gali būti neteisingas dėl neįtraukto reikšmingo kintamojo 4X

ar galimų netiesinių priklausomybių tarp jau esamų kintamųjų 2X ir

3X . Paprasčiausias

būdas tai išsiaiškinti, gavus priklausomo kintamojo įverčius, įtraukti jų kvadratus ir ku-

bus kaip papildomus regresorius į modelį (64) ir įsitikinti ar jie yra reikšmingi, ar ne.

Nauja pagalbinė regresija tada bus:

2 3

0 1 1 2 2 3 3 1 2ˆ ˆ

i i i i i i iY X X X Y Y (65)

Tuomet skaičiuojami pradinės regresijos (modelis (64)) ir išplėstinės regresijos

(modelis (65)) determinacijos koeficientai 2

rR ir 2

urR . F testo reikšmė apskaičiuojama

pagal formulę:

2 2

2

( ) / ( )

(1 ) / ( )

ur r ur r

ur ur

R R k kF

R n k

Tikrinamos hipotezės 2 2

0 : ur rH R R ir 2 2

1 : ur rH R R . Jei apskaičiuota F reikšmė

yra didesnė už kritinę F statistikos reikšmę, tuomet nulinė hipotezė, kad pradinio ir

išplėstinio modelio determinacijos koeficientai nesiskiria, t.y. sudarant pradinį modelį

nebuvo padaryta modelio specifikacijos klaida, yra atmetama ir priimama alternatyvi

hipotezė, kad sudarytas modelis yra neteisingas.

Kaip jau buvo minėta anksčiau, 2R ir RSS yra glaudžiai susiję, nes didėjant de-

terminacijos koeficientui, modelio paklaidų kvadratų suma mažėja, todėl F testo statis-

tiką galima apskaičiuoti ir kitu būdu:

( ) / ( )

/ ( )

r ur ur r

ur ur

RSS RSS k kF

RSS n k

Šiuo atveju tikrinamos hipotezės 0 : r urH RSS RSS ir

1 : r urH RSS RSS . Jei ap-

skaičiuota F testo statistikos reikšmė yra didesnė už kritinę F statistikos reikšmę,

tuomet nulinė hipotezė, kad pradinio ir išplėstinio modelio paklaidų kvadratų sumos

nesiskiria, t.y. sudarant pradinį modelį nebuvo padaryta modelio specifikacijos klaida,

yra atmetama ir priimama alternatyvi hipotezė, kad sudarytas modelis yra neteisingas.

Pagrindinis RESET testo privalumas yra tas, kad jis yra paprastas, tačiau jis tik

padeda išsiaiškinti, ar modelis yra sudarytas teisingai, tačiau nepadeda surasti geresnės

alternatyvos.

96

7.2.3 Determinuotumo rodiklių lyginimas

Determinuotumo rodikliai suteikia informacijos tiek apie neįtrauktus į modelį

reikšmingus veiksnius, tiek apie netinkamai parinktą kintamųjų matematinės išraišką,

tiek apie modelio tinkamumą prognozavimui. Svarbu atkreipti dėmesį, kad remiantis

determinuotumo rodikliais lyginti skirtingus modelius ir daryti atitinkamas išvadas ga-

lima tik tada, kai lyginamų modelių priklausomi kintamieji yra tos pačios matematinės

formos.

Determinacijos koeficientas. Jau žinome, kad regresinio modelio tinkamumą

padeda įvertinti determinacijos koeficientas, kuris yra apibrėžiamas 2 /R ESS TSS

arba 2 1 /R RSS TSS , kur ESS yra modeliu paaiškinta paklaidų kvadratų suma, TSS

– visa paklaidų kvadratų suma, o RSS – modeliu nepaaiškinta paklaidų kvadratų suma.

Siekiant įvertinti modelio tinkamumą, žiūrima 2R reikšmė, kuri gali svyruoti nuo 0 iki

1. Kuo determinacijos koeficientas yra arčiau 1, tuo vidutinė priklausomo kintamojo

reikšmių išsibarstymo apie vidurkį dalis yra labiau paaiškinta, tuo modelis yra geresnis,

tuo mažesnė galimybė, kad yra praleistas reikšmingas veiksnys ar parinkta klaidinga

kintamojo matematinė išraiška. Tačiau reikia atkreipti dėmesį, kad lyginant modelius su

skirtingu nepriklausomų kintamųjų skaičiumi, gautas rezultatas nėra tikslus, nes įtrau-

kiant į modelį daugiau kintamųjų 2R reikšmė nukristi negali. Dėl šios priežasties prak-

tikoje dažniau naudojamas koreguotas 2R .

Koreguotas determinacijos koeficientas. Viena iš formulių yra

2 21 (1 )( 1) / ( 1)adjR R n n k , kur n yra stebėjimų skaičius, o k – nepriklausomų

kintamųjų skaičius. Iš šios formulės akivaizdžiai matoma, kad 2 2

adjR R . Taigi, kore-

guotas determinacijos koeficientas apskaičiuojamas įvertinus stebėjimų ir vertinamų

parametrų skaičių, todėl išvados, daromos remiantis 2

adjR yra tikslesnės.

Akaike informacijos kriterijus ( AIC )

2 /k n RSSAIC e

n

Lyginant du ar daugiau modelių tinkamiausias yra tas, kurio AIC kriterijaus

reikšmė yra mažiausia, nes tuomet modelio determinuotumas yra didžiausias ir modelio

specifikacijos klaidos tikimybė yra mažiausia.

Schwartzo informacijos kriterijus ( SIC )

97

/k n RSSSIC n

n

SIC informacijos kriterijus taip pat kaip ir AIC parodo, kad tinkamiausias mo-

delis yra tas, kurio SIC reikšmė yra mažiausia.

7.2.4 Modelio specifikacijos patikrinimas MS Excel pagalba

Modelio specifikacijos tikrinimas Ramsey RESET testu pradedamas nuo pri-

klausomojo kintamojo reikšmių Y apskaičiavimo, remiantis regresijos lygtimi. Mūsų

gauta regresijos lygtis yra:

.

.

5

1,495 0,574 0,006 0,046

0,006 5,26 10 0,059

0,123 0,055

Amzi

Kaina P

us Amziau

lo

skv

Cent

tas Aukstas Kambariai

Namas

Centras r sildymas

LogY LogX X X

X X D

D D

Pav. 41: Regresijos lygties įverčiai

Regresijos lygties koeficientai pateikiami pav. 41. Turint juos, pirmiausiai ap-

skaičiuojami priklausomo kintamojo įverčiai (žr. pav. 42), tada surandami jų kvadratai

ir kubai (žr. pav. 43). Turint šiuos dydžius jau galima įvertinti pagalbinę Ramsey regre-

siją (žr. atitinkamai pav. 44 ir 45).

98

Pav. 42: Priklausomo kintamojo įverčių skaičiavimas

Pav. 43: Priklausomo kintamojo įverčių kvadratų ir kubų skaičiavimas

Pav. 44: Pagalbinės regresijos įvertinimas

99

Pav. 45: Pagalbinės regresijos suvestinė

Pav. 46: F statistikos suradimas

100

Galiausiai apskaičiuojama F testo statistika. Ją surandant atsižvelgiame į tai,

jog pateiktame pavyzdyje naujai įtrauktų regresorių skaičius yra lygus 2, parametrų

skaičius išplėstiniame modelyje yra lygus 11, o stebėjimų skaičius yra 308. Apskaičiuo-

ta F statistika yra lygi 8,27 ir ji yra didesnė už kritinę reikšmę 3,026, todėl nulinę hipo-

tezę, teigiančią, kad modelis yra sudarytas teisingai, turime atmesti. Nors šis skirtumas

nėra didelis, tačiau atliktas Ramsey RESET testas rodo, kad sudarant modelį galėjo būti

praleistas tam tikras veiksnys ar parinkta netinkama kintamojo matematinė forma, kas

taip pat galėjo sąlygoti jau anksčiau mūsų nustatytą autokoreliaciją.

7.3 Kiti modelio specifikacijos testai

Šiame skyriuje bus aptarti Non-nested F testas ir Davidson-MacKinnon J testas.

Siekiant apibūdinti šiuos testus, reikia įvertinti tam tikrus regresinių modelių ryšius.

Tarkime, kad turime modelį A:

0 1 1 2 2 3 3 4 4i i i i i iY X X X X u

Ir greta jo modelį B:

0 1 1 2 2i i i iY X X u

Galima matyti, kad modelis B yra išvestinis iš modelio A, t.y. modelis B yra

specifinė modelio A atmaina. Jei mes įvertiname modelį A ir neatmetame hipotezės, kad

3 4 0 ir galiausiai jas patikrinę šių hipotezių neatmetame, tuomet įsitikiname, kad

modelis A tampa modeliu B.

Modeliai C, D ir E tebūnie tokie:

0 1 1 2 2

0 1 1 2 2

0 1 1 2 2ln ln

i i i i

i i i i

i i i i

Y X X e

Y Z Z v

Y Z Z

Šiuo atveju modeliai nėra išvestiniai, nes nei modelis C negali būti kildinamas iš

modelio D, nei D iš C. Čia X ir Z yra skirtingi kintamieji. Tokią situaciją gali iliust-

ruoti toks pavyzdys, kad monetaristai BVP pokyčius aiškina pinigų pasiūlos pokyčiais,

o Keinsistai – visuminių išlaidų elementų pokyčiais. Modeliai D ir E taip pat nėra vie-

nas kito atmainos.

7.3.1 Non-nested F testas

Siekiant išsiaiškinti, ar modelis C, ar modelis D yra geresnis, įvertinamas hibri-

dinis modelis:

101

0 1 1 2 2 3 1 4 2i i i i i iY X X Z Z u

Šis modelis F apima tiek modelį C, tiek modelį D. Jei modelis C yra teisingas,

tuomet 3 4 0 . Jei teisingas modelis yra D, tuomet

1 2 0 . Tai įvertinti galima

įprastu F testu, kuris šiuo atveju yra vadinamas non-nested F testu. Tačiau atliekant

įvertinimo procedūra susiduriama su problemomis. Pirma problema susijusi su tuo, kad

X ir Z kintamieji stipriai koreliuoja, todėl labai tikėtina, jog modelyje tarp kintamųjų

yra multikolinearumas. Dėl šios priežasties vienas ar keli koeficientai i tampa statis-

tiškai nereikšmingi. Dėl šios priežasties nustatyti, kuris modelis yra teisingas, tampa

nebeįmanoma. Taip pat yra ir antra problema. Tarkime, kad pasirenkame modelį C kaip

teisingą ir išsiaiškiname, kad visi šio modelio koeficientai yra reikšmingi. Tuomet į mo-

delį C papildomai įtraukiame kintamąjį 1Z ar

2Z , ar juos abu iš karto. Tuomet panaudo-

ję F testą įsitikiname, kad naujai įtrauktų kintamųjų paaiškinta ESS dalis yra statistiš-

kai nereikšminga. Taigi, pasiliekame prie modelio C.

Bet tarkime, kad visų pirma vietoje modelio C mes pasirinkome modelį D, rem-

damiesi tuo, jog visi šio modelio koeficientai yra reikšmingi. Tuomet į modelį analogiš-

kai įtraukiame kintamuosius 1X ar

2X , ar abu iš karto ir pasinaudoję F testu išsiaiški-

name, kad naujai įtrauktų kintamųjų paaiškinta ESS dalis yra statistiškai nereikšminga,

mes pasiliekame prie modelio D. Taigi, tokiu atveju atlikus šį testą nustatyti, kuris mo-

delis yra geresnis, negalime.

7.3.2 Davidson-MacKinnon J testas

Davidson-MacKinnon J testas yra patobulintas non-nested F testas. Šio testo

atlikimo procedūra yra tokia:

Trakime, kad pirmiausia yra įvertinamas modelis D ir gaunami Y įverčiai ˆD

iY .

Tuomet pirmame žingsnyje gauti Y įverčiai, kaip papildomas regresorius įtrau-

kiami į C modelį:

0 1 1 2 2 3ˆD

i i i i iY X X Y u

Remiantis t testu tikrinama hipotezė, ar 3 0 .

Jei hipotezė, kad 3 0 , yra neatmetama, gailima teigti, kad modelis C yra tei-

singas, nes įtrauktas ˆD

iY , kuris reprezentuoja neįtrauktų į C modelį kintamųjų poveikį,

yra nereikšmingas. Modelis D šiuo atveju nesuteikia jokios papildomos informacijos,

102

kuri galėtų pagerinti modelį C. Jei ši hipotezė neatmetama, tuomet modelis C nėra tei-

singas.

Tuomet procedūra kartojama su kitu modeliu. Gaunamos ˆC

iY reikšmės. Įvertinta

Y reikšmė kaip papildomas regresorius įtraukiamas į modelį D:

0 1 1 2 2 3ˆC

i i i i iY Z Z Y v

Dabar tikrinama hipotezė, kad 3 0 . Jei ši hipotezė yra neatmetama, tuomet

kaip teisingas pasirenkamas modelis D. Tačiau jei hipotezė atmetama, tuomet pasiren-

kamas modelis C.

Lentelė 13: Sprendimai J teste

Hipotezė β3=0 Hipotezė γ3=0

Neatmetama Atmetama

Neatmetama Pasirenkami abu modeliai C ir D Pasirenkamas modelis D, atmetamas C

Atmetama Pasirenkamas modelis C, atmetamas D Atmetami abu modeliai C ir D


Iš lentelės matome, kad tuo atveju, kai J testas procedūra lemia, jog reikia pasi-

rinkti abu modelius, arba abu atmesti, aiškios išvados, kuris modelis tinkamesnis pada-

ryti negalime. Taip pat šį modelio trūkumas yra tas, kas mažoms imtims J testas nėra

labai tikslus, nes dažnai atmetamos teisingos hipotezės.

103

LITERATŪROS SĄRAŠAS

Boguslauskas V. Ekonometrika. Kaunas: Technologija, 2008.

Čekanavičius V., Murauskas G. Statistika ir jos taikymas I. Vilnius: TEV, 2000.

Čekanavičius V., Murauskas G. Statistika ir jos taikymas II. Vilnius: TEV, 2004.

Čekanavičius V., Murauskas G. Statistika ir jos taikymas III. Vilnius: TEV,

2009.

Martišius S. Ekonometrija ir prognozavimas. Vilnius: VU leidykla, 2000.

Martišius S. Regresinės ir koreliacinės analizės metodai. Vilnius: VU leidykla,

1992.

Maddala G.S., Lahiri K. Introduction to Econometrics, 4th

ed. John Wiley &

Sons, 2009.

Hill C., Grffiths W., Judge G. Undergraduate Econometrics, 2nd

ed. John Wiley

& Sons, 2000.

Gujarati D.N., Porter D.C. Basic Econometrics, 5th

ed. McGraw-Hill, 2009.

Wooldridge J.M. Introductory Econometrics. A Modern Approach, 6th

ed.

South-Western College Pub, 2015.

104

GAIRĖS TOLESNIEMS DARBAMS

Savarankiškas savo mokomosios priemonės rašymas ir spragų, kurios yra palik-

tos tekste koregavimas, padės studentams dar geriau įsisavinti medžiagą ir praplėsti sa-

vo suvokimą ekonometrijos srityje. Taip pat tai puiki proga išmokti dirbti su Word te-

ksto redaktoriumi ir MathType formulių redaktoriumi, leidžiančiu įterpti LaTeX kodą į

Word dokumentus.

Sekančioms mokomosios priemonės versijoms būtini šie pakeitimai:

Kiekvienas testas, įvertinimo būdas ar modelio tipas turi turėti savo empirinę

iliustraciją;

Greta skerspjūvio imties prasminga būtų sudaryti ir laiko eilučių imtį, būtiną

empiriniam autokoreliacijos temos iliustravimui;

Empirinės iliustracijos galėtų būti pateiktos nebūtinai tik Excel, bet ir R, ar

EViews pagalba;

Pats tekstas turi tapti nuoseklesniu, t.y. turi atsirasti paaiškinimai kodėl nau-

dojamas vienas ar kitas problemos sprendimo būdas, pvz., kodėl Cochrane-

Orcutt procedūroje viena lygtis yra atimama iš kitos, ko šiuo veiksmu sie-

kiama;

Visus skolinius iš Gujarati ir kitų vadovėlių laikui einant reikėtų pakeisti sa-

vais, o prastos kokybės paveiksliukus perpiešti;

Sunumeruotos turi būti tik pačios svarbiausios formulės arba tos į kurias

duodamos nuorodos tekste.

Recenzentas Algirdas Bartkus

Documents

Ekonometrijos Virtuvė - Vilniaus universitetasweb.vu.lt/ef/v.karpuskiene/files/2017/02/EKONVIRT_V1.pdf · 2017-02-06 · beveik visuose skyriuose: tai Ekonometrijos teorijos pagrindai,