Upload
others
View
7
Download
0
Embed Size (px)
Citation preview
Ekonometrijos Virtuvė
versija 1.0
ekonometrijos mokomoji medžiaga
studentai – studentams
Vita Karpuškienė
Andrej Davidovič
Oleg Davidovič
Karina Majevskaja
Jaroslav Mečkovski
Simona Meškelytė
Laura Mociūnaitė
Giedrius Rupeika
Normantė Šikšniūtė
Vilnius
2017
2
Recenzavo: doc. dr. Algirdas Bartkus (Vilniaus universitetas)
Techninis teksto redagavimas ir maketavimas: Algirdas Bartkus
3
TURINYS
ĮVADAS ............................................................................................................... 5
1. EKONOMETRIJOS SAMPRATA IR TURINYS ..................................... 6
2. REGRESINĖ ANALIZĖ: PASKIRTIS IR MODELIAI .......................... 10
2.1 Regresija – ryšio analizės priemonė ..................................................... 10
2.1.1 Regresinės analizės samprata .......................................................... 10
2.1.2 Regresinės analizės sąvokų išaiškinimas ......................................... 11
2.1.3 Pavyzdys: būsto nuomos kainos Vilniuje ........................................ 17
2.1.4 Koeficientų įvertinimas mažiausių kvadratų metodu ...................... 22
2.1.5 Įverčių savybės ir Gausso-Markovo teorema .................................. 23
2.2 Determinuotumas .................................................................................. 25
2.2.1 Determinacijos koeficientai ............................................................. 25
2.2.2 Informacijos kriterijai ...................................................................... 28
2.3 Intervaliniai įverčiai ir hipotezių tikrinimas ......................................... 29
2.3.1 Intervaliniai įverčiai ......................................................................... 29
2.3.2 Hipotezių tikrinimas: dvipusis ir vienpusis ..................................... 30
2.3.3 Modelio įverčių ir determinacijos koeficiento reikšmingumo
tikrinimas ......................................................................................................... 33
3. FIKTYVŪS (PSEUDO) KINTAMIEJI IR VEIKSNIŲ PARINKIMAS . 36
3.1 Fiktyvių kintamųjų samprata ir naudojimo atvejai ............................... 36
3.2 Fiktyvių kintamųjų taikymo atvejai ...................................................... 40
3.3 Veiksnių parinkimo problema............................................................... 41
4. MULTIKOLINEARUMAS ..................................................................... 45
4.1 Multikolinearumo problemos esmė ...................................................... 45
4.2 Multikolinearumo pasekmės ir požymiai.............................................. 47
4
4.3 Multikolinearumo diagnostika .............................................................. 48
4.4 Multikolinearumo tikrinimas MS Excel pagalba .................................. 50
5. HETEROSKEDASTIJA ........................................................................... 57
5.1 Kas yra heteroskedastija? ...................................................................... 57
5.2 Heteroskedastijos nustatymas ............................................................... 61
5.3 Heteroskedastijos naikinimas ............................................................... 69
5.4 Heteroskedastijos tikrinimas MS Excel pagalba................................... 73
6. AUTOKORELIACIJA ............................................................................. 78
6.1 Autokoreliacijos apibrėžimas ............................................................... 78
6.2 Autokoreliacijos nustatymo būdai ........................................................ 79
6.3 Autokoreliacijos sprendimo būdai ........................................................ 85
7. MODELIO SPECIFIKACIJA .................................................................. 87
7.1 Neteisingai sudarytas modelis .............................................................. 88
7.1.1 Duomenų netikslumai ...................................................................... 88
7.1.2 Veiksnių parinkimo klaidos ............................................................. 90
7.2 Diagnostika ........................................................................................... 93
7.2.1 Grafinė modelio paklaidų analizė .................................................... 93
7.2.2 Ramsey RESET testas ..................................................................... 94
7.2.3 Determinuotumo rodiklių lyginimas ............................................... 96
7.2.4 Modelio specifikacijos patikrinimas MS Excel pagalba ................. 97
7.3 Kiti modelio specifikacijos testai ........................................................ 100
7.3.1 Non-nested F testas ........................................................................ 100
7.3.2 Davidson-MacKinnon J testas ....................................................... 101
LITERATŪROS SĄRAŠAS ............................................................................ 103
GAIRĖS TOLESNIEMS DARBAMS ............................................................. 104
5
ĮVADAS
Jei nutarėte atsiversti šią mokomąją medžiagą, gali būti dvi priežastys:
artėja ekonometrijos atsiskaitymas ar egzaminas arba
Jūs jaučiatės labai alkanas.
Nesvarbu, kuri priežastis paskatino paimti į rankas šią mokomąją medžiagą, mes
Ekonometrijos būrelio nariai, sakome Jums „Sveikas mielas bičiuli. Ketiname Tau pa-
dėti pasiruošti egzaminui pačiu lengviausiu ir suprantamiausiu būdu.“ Šios mokomosios
medžiagos tikslas ekonometriją paversti kasdieninio gyvenimo dalimi. Todėl kviečiame
apsilankyti virtuvėje ir atrasti analogijas tarp maisto patiekalo paruošimo ir ekonometri-
nio modelio sudarymo. Paruoštas maistas turi būti skanus ir maistingas, taip ir ekono-
metrinis modelis turi būti patikimas ir atitinkantis realybę nagrinėjamo ekonominio
reiškinio atvaizdas, išreikštas matematinėmis lygtimis.
Šioje mokomojoje medžiagoje galime išskirti tris struktūrines linijas sutinkamas
beveik visuose skyriuose: tai Ekonometrijos teorijos pagrindai, regresinio modelio pa-
vyzdys apie būtų nuomos kainas Vilniuje ir pasižvalgymas po Ekonometrijos virtuvę.
Dėstymas pradedamas nuo ekonomikos teorijos, iliustruojant kiekvieną klausimą pa-
vyzdžiu ir kartkartėmis užsukant į virtuvę, t.y. sugretinant ekonometrinio modelio suda-
rymą su maisto patiekalo gaminimu.
Studentai, besiruošdami egzaminui arba savarankiškam ekonometriniam tyrimui,
gali pasirinkti kurią nors vieną iš struktūrinių mokomosios medžiagos linijų ir praleisti
kitas. Pvz., jeigu aktuali yra tik ekonometrijos teorinė medžiaga, tuomet galima praleisti
buto nuomos pavyzdį ir virtuvės analogijas. Kita vertus, jeigu studentai ketina savaran-
kiškai sudaryti regresinį modelį, gali daugiau dėmesio skirti buto nuomos pavyzdžiui,
kuriame pateikiama trumpa instrukcija, kaip atlikti skaičiavimus su Excel skaičiuokle.
Teorinė medžiaga parengta remiantis trimis autoriais: D. Gujarati, G.S. Maddala
ir C. Hill. Plačiau ir išsamiau teoriniai ekonometrijos klausimai išdėstyti literatūros są-
raše pateiktuose vadovėliuose, kuriuos galite rasite VU bibliotekoje.
6
1. EKONOMETRIJOS SAMPRATA IR TURINYS
Dabarties mokslo raidai būdinga tai, kad matematika vis labiau skverbiasi į įvai-
rias mokslo sritis. Ekonomika ne išimtis. Ekonomikos ir matematikos sąveika nėra
vienpusė. Ne tik matematiniai metodai skverbiasi į ekonomikos mokslą, bet yra ir grįž-
tamas poveikis. Ekonominiai uždaviniai ir problemos skatina specializuotų matematikos
šakų, tokių kaip matematinis programavimas, lošimų teorija, masinio aptarnavimo teori-
ja, aktuarijų (draudimo) matematika, atsiradimą. Glaudžioje ekonomikos ir matematikos
mokslų sąveikoje susiformavo ir ekonometrija. Ekonometrija – tai ekonomikos teorijos
ir matematinės statistikos junginys.
Statistika ekonominių duomenų analizei pradėta taikyti gana senai. 1699 m.
Charles Davenant paskelbė pirmus „empirinius“ paklausos duomenis. Vėliau 1707 m.
italų statistikas Rudolfo Enini atliko labai novatorišką paklausos statistinę analizę. Greta
statistinės ekonominių procesų analizės, buvo taikomi ir kiti matematiniai metodai, pvz.,
anglų ekonomistas Williamas Petty 1676 m. knygoje „Politinė aritmetika“ siūlė pereiti
prie griežtesnio minčių reiškimo skaičiais, svoriais ir kitais matais. Pirmąjį pasaulyje
ūkio modelį sukūrė prancūzų mokslininkas François Quesnay, 1756 m. paskelbęs darbą
„Ekonominė lentelė“, kuriame ūkio reprodukcijos procesus nagrinėjo pasitelkdamas
matematines lygtis. Prancūzų mokslininko Antoine Augustin Cournot darbas „Turto
teorijos matematinių principų tyrimas“, išleistas 1838 metais, faktiškai suformavo klasi-
kinę matematikos mokyklą ekonomikoje, kuri padarė labai didelę įtaką ekonomikos
mokslo raidai. XX ir XXI amžių galima būtų pavadinti ekonomikos matematizavimo
amžiumi. Visgi esminis ekonometrijos, kaip mokslo šakos atsiradimo etapas buvo nor-
vegų ekonomisto ir matematiko Ragnaro Frischo darbų paskelbimas, kuriuose 1926 m.
pirmą kartą paminėtas ir pats ekonometrijos terminas. 1930 m. susibūrė Ekonometrijos
draugija, o 1933 m. pasirodė pirmasis žurnalas „Econometrica“, kuris yra leidžiamas iki
šiol ir yra vienu iš keleto pačių prestižiškiausių žurnalų visame ekonomikos moksle.
Ekonometrijos apibrėžimai yra gana įvairūs, pradedant nuo labai plačių, įtrau-
kiančių įvairiausius ekonominius matematinius metodus, iki gana siaurų, kai apsiribo-
jama keliais matematinės statistikos metodais.
7
Ekonometrija tai ekonomikos mokslo disciplina, kuri apjungia ekonomikos teo-
riją ir matematinę statistiką, siekiant suteikti skaitines reikšmes ekonominiams proce-
sams.
Arba, ekonometrija tai ekonomikos mokslo disciplina, kurioje taikant matemati-
kos ir statistikos metodus, apskaičiuojami ekonominiai rodikliai ir kita informacija, rei-
kalinga ekonominei analizei ir sprendimų priėmimui.
Ekonometrijos tikslas – ekonometrinio modelio sudarymas.
Ekonometrinis modelis – tai tokia matematinė analitinė išraiška, kurioje viena
lygtimi arba jų sistema užfiksuojami esminiai ūkinių procesų, juos apibūdinančių rodik-
lių ryšiai ir kitimo dėsningumai.
Ekonometrijos pagrindų kursą dažniausiai sudaro dvi dalys: regresinė analizė ir
laiko eilučių modeliai. Regresinė analizė kiekybiškai įvertina kokį poveikį kokie veiks-
niai daro nagrinėjamam ekonominiam reiškiniui. Laiko eilučių analizė leidžia nustatyti
pagrindines ekonominių reiškinių kitimo tendencijas, ciklinius bei sezoninius svyravi-
mus ir kitus svarbius ekonominio reiškinio dinamikos aspektus bei prognozuoti galimas
reikšmes.
Šioje Ekonometrijos mokomoje knygelėje bus pateikti regresinės analizės pa-
grindai.
Jokio ekonometrinio modelio neįmanoma sudaryti be duomenų. Modeliuose gali
būti naudojami trijų rūšių duomenys:
Skerspjūvio (erdvės) duomenys tai informacija apie stebėjimo vienetų: individų,
namų ūkių, įmonių, regionų, miestų ir kt. būklę konkrečiu laiko momentu. Jie gali būti
kaupiami ir renkami įmonėse, šalies Statistikos departamente, tarptautinių organizacijų
(pvz. Pasaulio banko, Eurostato ir kt.) duomenų bazėse, ar netgi elektroninių portalų
duomenų bazėse. Duomenys taip pat gali būti renkami specialiai tyrimui skirtų apklausų
metu. Skerspjūvio duomenys dažniau taikomi mikroekonominėje analizėje.
Laiko eilučių duomenys tai informacija apie stebėjimo vieneto būklės kitimą lai-
ke. Dažniau taikomi makroekonominėje analizėje.
Blokuoti (paneliniai) duomenys – tai skerspjūvio ir laiko eilučių duomenų jungi-
nys, apibūdinantis skerspjūvio stebėjimo objektų būklės kitimą tam tikru laiko periodu.
8
Tokie duomenys yra matricų formos. Jų pagrindu sudaryti modeliai šioje mokomoje
medžiagoje nebus nagrinėjami.
Turint duomenis, galima sudaryti ekonometrinį modelį. Kiekvienas analitikas
einant laikui išsidirba savo individualų modelių kūrimo būdą, o pradedantiesiems bus
pasiūlyta ekonometrinio modelio sudarymo procedūra, apimanti tris paprastus etapus.
Ekonometrinio modelio sudarymo etapai:
1. Ekonominis modelis;
2. Statistinis modelis;
3. Ekonometrinis modelis.
Kiekvienas ekonometrinio modelio etapas yra smulkiau skirstomas į žingsnius:
I etapas: ekonominis modelis.
Pirmas žingsnis: Ekonominės problemos formulavimas (svarbu aiškiai suvokti ir
apsibrėžti, kokį reiškinį siekiate nagrinėti);
Antras žingsnis: Hipotezių apie veiksnių tarpusavio sąveiką iškėlimas (nustaty-
kite galimus ryšius tarp analizuojamų veiksnių);
Trečias žingsnis: Duomenų rinkimas (naudokite patikimus duomenų šaltinius,
pvz., Statistikos departamento, Eurostato, Pasaulio banko ir kt. tarptautinių organizacijų
ar užsienio šalių institucijų duomenų bazes, reprezentatyvių apklausų rezultatus).
II etapas: statistinis modelis
Ketvirtas žingsnis: Statistinė ir grafinė duomenų analizė (turimi duomenys pa-
vaizduojami grafiškai ir apskaičiuojami pagrindiniai statistiniai rodikliai);
Penktas žingsnis: Modelio matematinės išraiškos užrašymas (sudaromos ir užra-
šomos matematinės lygtys);
Šeštas žingsnis: Parametrų įverčių skaičiavimas (remiantis surinktais duomenis
apskaičiuojami modelio koeficientai);
Septintas žingsnis: Modelio patikimumo tikrinimas (naudojami įvairūs testai,
siekiant įsitikinti, jog modelis gali būti naudojamas ekonominiams sprendimams priim-
ti).
III etapas: ekonometrinis modelis
Aštuntas žingsnis: Ekonominės problemos analizė, naudojant apskaičiuotus mo-
delio įverčius ir kitas skaitines charakteristikas;
9
Devintas žingsnis: Ekonominių scenarijų kūrimas, prognozavimas.
Atlikus visus anksčiau išvardintus žingsnius gaunamas ekonometrinis modelis.
Tai yra matematinis modelis, generuojantis ekonominių sprendimų priėmimui reikalin-
gų rodiklių skaitines reikšmes. Visus šiuos etapus ir žingsnius pailiustruosime ekono-
metrinio modelio sudarymo pavyzdžiu. apie būtų nuomos kainų priklausomybę nuo
įvairių veiksnių.
„Užsukime į virtuvę“
Šiuose intarpuose autoriai stengėsi surasti analogiją tarp ekonometrinio
modelio sudarymo ir patiekalo, tarkime salotų, paruošimo. Ekonometrinis mo-
delis yra tarsi kulinarinis kūrinys, kuris gaunamas nagrinėjant produktų skonius
ir tinkamais kiekiais juos derinat tarpusavyje.
Jei esate alkanas ir nusprendžiate gaminti sau patiekalą, Jūs turite nu-
spręsti, ką konkrečiai gaminsite ir apsibrėžti, kiek ir kokių produktų Jums reikės.
Taip pat reikia produktus įsigyti bei žinoti visą patiekalo paruošimo seką.
Tuos pačius veiksmus reikia atlikti ir nagrinėjant kokį nors ekonominį
reiškinį bei sudarant ekonometrinį modelį. Jei, pavyzdžiui, nutariate nagrinėti
nedarbą, Jūs turite nuspręsti, kokiose šalyse jį tirsite, kokius veiksnius, daran-
čius įtaką nedarbui, įtrauksite, taip pat reikia surinkti norimus duomenis (juk
duomenų rinkimas – tai tarsi reikalingų produktų pirkimas Jūsų patiekalui) ir ga-
liausiai svarbu turėti planą, nuo ko pradėsite, ir kokio rezultato sieksite.
Pabandykime įsivaizduoti, kad Jūs sumanėte pasigaminti kažką ska-
naus, tačiau atvėręs šaldytuvą pastebėjote, kad neturite visų pasirinktajam pa-
tiekalui reikalingų produktų. Gurgiančiu pilvu, šiek tiek nusivylęs ir panarinęs
galvą pėdinate į prekybos centrą ir štai įžengus pro duris prieš Jūsų akis atsive-
ria milžiniška įvairovė maisto produktų. Toks didelis pasirinkimas Jums šiek tiek
apsuka galvą ir Jūs jau norite griebti ir krauti į krepšį viską, kas Jums po ranka.
Tačiau žvelkime į tai truputėlį racionaliau. Taigi į parduotuvę užsukote tik tų
produktų, kurių reikia konkrečiam patiekalui pagaminti. Todėl, jei sumanėte pa-
sigaminti vištienos salotas, Jūs turbūt aplenksite saldumynų skyrių, o jei norite
išsikepti šokoladinį pyragą, matyt, nesižvalgysite tose lentynose, kur sudėti
rauginti agurkėliai.
10
2. REGRESINĖ ANALIZĖ: PASKIRTIS IR MODELIAI
2.1 Regresija – ryšio analizės priemonė
Kiekvieną ekonominį reiškinį veikia bent keli veiksniai. Priimant sprendimus
dažnai neužtenka vien tik išvardinti nagrinėjamą ekonominį reiškinį sąlygojančius
veiksnius, bet reikia jų poveikį įvertinti kiekybiškai. Šiam tikslui yra naudojama regre-
sinė analizė. Regresinis modelis leidžia matematinės lygties pagalba užrašyti nagrinė-
jamų veiksnių poveikį ekonominiam reiškiniui. Turint tokią lygtį, galima:
parodyti ekonominio reiškinio susiformavimo mechanizmą;
matematiškai aprašyti nagrinėjamo ekonominio reiškinio priklausomybę nuo
jį sąlygojančių veiksnių;
nustatyti reikšmingus ir nereikšmingus veiksnius;
prognozuoti nagrinėjamo ekonominio reiškinio variantus;
modeliuoti įvairias situacijas ir stebėti, kaip kinta nagrinėjamas reiškinys,
kintant veiksniams;
konkreti regresijos ryšio forma leidžia gauti ekonominės analizės išvadoms
naudingus rodiklius: ryšio ženklą ir pobūdį, nagrinėjamo reiškinio elastin-
gumą kiekvienam iš veiksnių arba visų veiksnių poveikiui bendrai.
Šiame skyriuje bus aptarta regresinės analizės samprata ir pagrindiniai regresi-
nės analizės terminai.
2.1.1 Regresinės analizės samprata
Regresinė analizė yra statistinis metodas, kai taikant matematines procedūras,
gaunama lygtis arba jų sistema, rodanti vieno ar daugiau veiksnių įtaką nagrinėjamas
reiškiniui. Gauta matematinė lygtis yra vadinama regresijos lygtimi arba tiesiog regresi-
ja. Bendras regresinės lygties pavidalas atrodo taip:
1( , , )i i ki iY f X X u (1)
Čia: iY – nagrinėjamas ekonominis reiškinys, nuo
1iX iki kiX – jį sąlygojantys
veiksniai, o iu – regresijos paklaida. i yra stebėjimo numeris, o k tai paskutinio į mo-
delį įtraukto įtakojančio veiksnio numeris.
Kiekvienas regresinis modelis susideda iš dviejų dalių: sisteminės ir atsitiktinės.
Lygtyje 1( , , )i kif X X yra sisteminė, o
iu – atsitiktinė dalis.
11
Svarbu įsidėmėti, kad regresinė analizė taikoma spręsti uždaviniams, kuriuose
ryšiai tarp veiksnių yra tikimybiniai. Tikimybinis ryšys pasižymi tuo, kad jo skaitinę
reikšmę galime sužinoti tik po to, kai reiškinys jau yra įvykęs (pvz., kokią nuomos kainą
per mėnesį suderės studentai atvykę mokytis į Vilnių). Kiti pavyzdžiai: koks bus BVP
metinis augimas ar nedarbo lygis, taip pat sužinome tik metams pasibaigus. Kita tiki-
mybinių sąryšių ypatybė yra ta, kad, esant toms pačioms aplinkybėms, t.y. esant įtako-
jančių veiksnių reikšmėms tokiom pat, nagrinėjamo reiškinio reikšmė gali būti skirtinga.
Pvz., tokį patį butą, tame pačiame rajone studentai gali nuomoti už skirtingą kainą.
2.1.2 Regresinės analizės sąvokų išaiškinimas
Priklausomi ir nepriklausomi kintamieji
Apibrėžiant regresijos sampratą naudojome terminus: nagrinėjamas ekonominis
reiškinys ir jį sąlygojantys veiksniai. Toliau naudosime trumpesnes ir griežtesnes sąvo-
kas. Priklausomas arba aiškinamasis kintamasis yra regresijos lygties kairėje pusėje
esantis kintamasis (iY lygtyje (1)), kurio vidutinių reikšmių pokyčius stengiamasi paaiš-
kinti kitų – dešinėje esančių – veiksnių pokyčiais.
Nepriklausomi arba aiškinantieji kintamieji (1iX ,
2iX ir taip iki kiX ) – tai deši-
nėje lygties pusėje esantys kintamieji, kurie veikia priklausomąjį kintamąjį (iY ). Šiame
pagrindų kurse laikysime, kad nepriklausomųjų kintamųjų reikšmės gali laisvai kisti, o
priklausomas kintamasis jiems įtakos neturės. Žodžiai: priklausomas – aiškinamasis –
regresantas – stimulas bei nepriklausomas – aiškinantysis – regresorius – atsakas, reg-
resinėje analizėje vartojami kaip sinonimai. Šioje mokomojoje medžiagoje vartosime
terminus: „priklausomas“ ir „nepriklausomi“ kintamieji.
Regresinės lygties kintamiesiems apibrėžti naudojamos ir sąvokos endogeninis
bei egzogeninis kintamasis. Dažniausiai jų turinys yra tapatus sąvokoms priklausomas
ir, atitinkamai, nepriklausomas kintamasis, tačiau ne visada. Nagrinėjant autokoreliaciją
pamatysite, kad dešinėje lygties pusėje galės būti ir vėluojantis priklausomas kintama-
sis. Nepaisant buvimo dešinėje pusėje, jis vis vien bus egzogeniniu.
Porinė ir dauginė regresija
Porinė regresija yra tokia regresija, kai vertinamas dviejų kintamųjų tarpusavio
ryšys. Tokią regresiją lengva pavaizduoti grafiškai.
12
Dauginė regresija yra regresija, kai nepriklausomų kintamųjų yra daugiau nei
vienas. Šiuo atveju galima tirti daugelio veiksnių bendrą įtaką priklausomam kintama-
jam. Bendrą įtaką suformuoja visų veiksnių poveikio suma. Atskiro veiksnio įtaka yra
vadinama daline ir nustatoma, darant prielaidą, kad kiti veiksniai tuo metu neveikia.
Tiesinė ir netiesinė regresija
Tiek porinės, tiek dauginės regresijos matematinė išraiška kintamųjų iY ir
iX at-
žvilgiu gali būti ne tik tiesinė, bet ir netiesinė. Žemiau pateiktos dažniausiai naudojamos
regresijos lygties matematinės išraiškos. Visas šias lygtis matematinių procedūrų pagal-
ba (logaritmuojant ir transformuotiems dydžiams suteikiant naujus trumpinius, pvz.,
lni ix X ), nesunkiai galima pervesti į tiesinę formą.
Įvairių matematinių išraiškų panaudojimas regresiniuose modeliuose labai pra-
plečia ekonometrinio modeliavimo taikymo galimybes, tačiau sukelia tyrėjui klausimų,
o kokią formą parinkti analizuojamai situacijai tirti. Atsakymus į šį ir kitus klausimus
galima gauti iškeliant antrame žingsnyje numatytas hipotezes apie veiksnių sąryšius,
tiriant skaidos diagramas bei determinuotumo rodiklius, apie kuriuos bus kalbama kita-
me skyrelyje. Žemiau yra pateiktos pagrindinių ekonometrijoje naudojamų funkcijų sa-
vybės ir jų taikymo pavyzdžiai.
Pav. 1: Tiesinė regresija
Tiesinė regresija 0 1i i iY X u yra pats paprasčiausias sąryšis. Sąryšio po-
būdis išlieka pastovus, esant tiek mažoms tiek ir didelėms X reikšmėms. Tiesinė ma-
tematinė išraiška dažnai naudojama produkcijos ir kaštų sąryšiui aprašyti. Pvz., turime
13
modelį: 0 1i iY X , kuriame
iY -- produkto kaina; 0 – fiksuoti produkcijos gamy-
bos kaštai, o sandauga 1 iX – kintantys kaštai, kurioje
1 parodo X ištekliaus (pvz.
darbo jėgos) sąnaudas produkcijos vienetui.
Pav. 2: Rodiklinė regresija (ištiesinus log-log regresija)
Rodiklinė regresija 1
0 exp( )i i iY X u gali įgauti labai įvairias formas, todėl ji
gana dažnai yra naudojama. Ekonomikoje Cobbo-Douglaso funkcija yra būtent tokia
funkcija, susiejanti pagamintos produkcijos apimtis su gamybos ištekliais, pvz., darbo
jėga ir kapitalu. Tuomet apskaičiuotas laipsnio rodiklis parodo sąnaudų elastingumą.
Pav. 3: Rodiklinė regresija (ištiesinus log-lin regresija)
14
Tai veiksnio X kintančio poveikio funkcija, kurios viena iš galimų matematinių
formų yra 0 1exp( )i i iY X u . Pagrindinė jos ypatybė yra ta, kad esant nedidelėms
X reikšmėms, Y gana lėtai, tačiau spartėjančiu tempu auga, jeigu koeficientas 1 0 .
Todėl esant didesnėms X reikšmėms, Y augimas tampa vis spartesnis. Pvz., gyventojų
skaičiaus augimas pasaulyje arba užkrečiamų ligų plitimas (gripo) tam tikroje teritorijo-
je. Jeigu 1 0 , X veiksnio augimas turi mažinantį poveikį Y reikšmėms, tačiau pats
poveikis yra silpnėjantis iki pasiekiamas toks lygis, kai X kitimas daro labai nežymų
poveikį. Pvz., išmetamų teršalų mažėjimas priėmus įstatymą apie leidimą parduoti tik
aukštos kokybės degalus. Po nutarimo įsigaliojimo vis daugiau mašinų pradės naudoti
švarius degalus, ir todėl išmetimai mažės gana sparčiai, tačiau, kai dauguma pereis prie
naujų degalų, teršalų emisijos stabilizuosis prie tam tikros ribos.
Pav. 4: Rodiklinė regresija (ištiesinus lin-log regresija)
Tai taip pat kintančio poveikio kreivė, kuriai būdinga silpnėjanti veiksnio X
įtaka priklausom kintamajam Y . Pvz., mažėjantis žemės derlingumas metams bėgant,
jeigu žemė nėra tręšiama arba mažėjantis darbo našumas dėl nuovargio, didėjant darbo
valandų skaičiui. Pvz., turime modelį: 0 1 lni iY X , kuriame Y – surinktų braškių
kiekis (kg), o X darbo valandų skaičius per dieną. Tikėtina, kad po 8-9 darbo valandų
našumas pradės kristi. Gali būti ir neigiamas silpnėjantis X poveikis kintamajam Y .
Pvz., mažėjanti šeimos išlaidų dalis maisto produktams, didėjant šeimos pajamoms, jei-
gu šeimos narių skaičius nekinta.
15
Pav. 5: Atvirkštinė regresija
Tai nepastovaus veiksnio X poveikio priklausomam kintamajam funkcija
0 1(1/ )i i iY X u , kuriai yra būdingas atvirkštinis ryšys tarp Y ir X kintamųjų,
t.y. X didėjant Y mažėja, tačiau Y mažėjimas turi neperžengiamą ribą, žemiau kurios
Y reikšmės nenukrenta. Atvirkštinės kreivės forma turi Phillipso kreivė makroekono-
mikoje, kuria remiantis aprašomas sąryšis tarp infliacijos ir nedarbo lygio, darant prie-
laidą, kad infliacijai didėjant nedarbo lygis mažėja, tačiau neperžengia natūralaus ne-
darbo lygio ribos.
Pav. 6: Kvadratinė regresija
16
Antro laipsnio daugianarė funkcija 2
0 1 2i i i iY X X u išsiskiria tuo, kad
turi lūžio tašką, kuris dalina kreivę į augimo ir smukimo periodus (kai 2 koeficientas
prie 2
iX yra neigiamas) ir atvirkščiai kai mažėjimo ir didėjimo periodus, kai 2 teigia-
mas). Makroekonomikoje kvadratine funkcija yra išreikšta Laffero kreivė, kurios pagal-
ba nustatomas ryšys tarp mokestinių pajamų surinkimo į biudžetą ir mokesčio tarifo
reikšmės. Tai reiškia, kad surenkamos mokestinės pajamos į šalies biudžetą didėja, di-
dinant mokesčio tarifą, tačiau tik iki tam tikro lygio, kurį peržengus žmonės praranda
motyvaciją dirbti ar pradeda slėpti pajamas, todėl surenkamos pajamos pradeda mažėti.
Kvadratinė funkcija yra antros eilės polinomo funkcija. Regresinei analizei galima nau-
doti ir aukštesnių eilių polinomines funkcijas. Įsidėmėtina, kad didėjant polinomo eilei,
jo funkcija vis tiksliau aprašo stebėjimus, pagal kuriuos įvertinti polinomo parametrai.
Tačiau didesnės eilės polinomas yra visiškai netinkama funkcija prognozuojant. Prak-
tiškai regresinei analizei ir prognozei taikytinas tik antros eilės polinomas, t.y. kvadrati-
nė funkcija.
„Užsukime į virtuvę“
Sudarant regresijos modelį kaip ir gaminant patiekalus svarbu apsi-
spręsti kokiu būdu pateiksime ingredientus: keptus, virtus ar tiesiog žalius. Pa-
sirinkdami gaminimo būdą, mes renkamės kokias produktų savybes norime iš-
ryškinti ir kokios jų kombinacijos geriausiai atskleidžia patiekalo skonį. Pavyz-
džiui, gaminant salotas, galima dėti šviežius pomidorus, ridikėlius ir kt. Taip pat
galime dėti jau apdorotus ingredientus, pvz., virtą kiaušinį, raugintą agurką ly-
giai taip pat regresijos lygtyje kintamieji gali būti skirtingų matematinių formų.
Logaritmuotą kintamąjį galime sulyginti su apdorotu salotų ingredientu, pvz.,
raugintu agurku.
Regresijos ryšio parametrai ir jų įverčiai
Pagrindinis uždavinys regresinėje analizėje – teisingai įvertinti regresijos koefi-
cientus. Regresijos lygties koeficientai ir yra veiksnių sąryšio matai. Mes vartojame žo-
dį „įvertinti“, o ne „surasti“ arba „apskaičiuoti“, kadangi labai dažnai apskaičiuoti tikrą-
sias parametrų reikšmes yra neįmanoma.
Regresijos lygties koeficientai kartais vadinami parametrai, o kartais parametrų
įverčiais. Išmatuotus regresijos lygties koeficientus vadintume parametrais, tuomet jei į
17
modelį būtų įtraukti visi populiacijos duomenys (pvz., visų Vilniaus nuomojamų butų
kainos), o ir pats modelis būtų sudarytas nepriekaištingai. Surinkti tiek daug duomenų
praktiškai yra neįmanoma, o dažnai ir neprasminga. Dažniausiai tikrosios parametrų
reikšmės nėra žinomos ir negali būti tiksliai nustatytos, nes visada esama ribojančių
subjektyvių ir objektyvių veiksnių: nėra duomenų arba jie netikslūs, analitikas neteisin-
gai parinko veiksnius, netiksliai nustatė priklausomybės matematinę išraiška ir t.t. Dėl
šių priežasčių modeliai sudaromi naudojant imčių duomenis ir naudojant įvairius statis-
tinius metodus daromos išvados apie tikrąsias parametrų reikšmes. Regresijos lygties
parametrai žymimi raidėmis: 0 ,
1 , ir taip iki k , o parametrų įverčiai yra atitinkamai
0 , 1 , ir taip iki ˆk .
Sąvoka Ceteris paribus
Ceteris paribus yra lotyniškas posakis, kuris reiškia: kitos sąlygos yra tos pačios
arba esant tokioms pačioms sąlygoms. Šis posakis vartojamas nagrinėjant reiškinį ar jo
kurį nors aspektą, kai kitos aplinkybės, kurios gali paveikti aptarinėjamąjį reiškinį, lai-
komos nekintančiomis. Regresinėje analizėje – tai labai svarbu, nagrinėjant konkretaus
nepriklausomojo kintamojo įtaką, darant prielaidą, kad kiti veiksniai lieka nepakitę. Šią
sąvoką sutrumpintai žymėsime CP.
2.1.3 Pavyzdys: būsto nuomos kainos Vilniuje
Įsivaizduokite, kad Jūs ką tik įstojote į Vilniaus universiteto Ekonomikos fakul-
tetą ir greitu metu planuojate persikelti gyventi į Vilnių. Taigi tam, kad galėtumėte sėk-
mingai studijuoti sostinėje, Jūs nusprendžiate pradėti ieškoti būsto, kuriame galėtumėte
apsigyventi. Naršydami internete randate tiek įvairiausių nuomos pasiūlymų, kad net
galva ima svaigti, todėl šiek tiek pasimetate ir sunerimstate, kaip gi išsirinkti patį ge-
riausią variantą. Juk taip norėtųsi patogaus ir jaukaus būsto, tačiau ir nebrangaus, nes
Jūs juk žinote daugybę būdų, kaip geriau ir smagiau panaudoti turimas lėšas nei būsto
nuoma.
Akivaizdu, kad būsto kainą lemia daugybė veiksnų. Regresinė analizė yra puikus
būdas išsiaiškinti veiksnių įtaką. Todėl dabar pabandykime atlikti šį tyrimą ir kartu ap-
rašyti visus ekonometrinio modelio sudarymo etapus.
Pradedame nuo Ekonominio etapo pirmojo žingsnio. Formuluojame tyrimo tiks-
lą, nagrinėjamą reiškinį ir veiksnius.
18
Nagrinėjamas reiškinys – būto nuomos kaina Vilniuje. Tikslas – kiekybiškai ap-
rašyti kainos priklausomybę nuo ją lemiančių veiksnių. Sudarome galimų veiksnių sąra-
šą:
Būsto plotas (m2);
Kambarių skaičius;
Aukštas;
Statybos metai;
Atstumas iki miesto centro (km).
Visi šie veiksniai turi kiekybinį įvertinimą ir matus, kurie nurodyti greta. Tačiau
yra ir kitų veiksnių, kurie daro stiprią įtaką, tačiau kiekybiškai jų išmatuoti negalime.
Tokie veiksniai gali būti:
Būsto tipas (namas, kotedžas, butas, loftas ir pan.);
Vieta, rajonas;
Ar būstas su baldais;
Šildymo sistema (autonominis, centrinis).
Antrame žingsnyje įvardiname ekonomines prielaidas ir sąlygas, kurias turi ten-
kinti sudarytas modelis.
Didesnio ploto buto nuomos kaina, bus aukštesnė;
Butas, kuriame yra daugiau kambarių, kitoms sąlygoms esant tokioms pat,
yra brangesnis;
Kuo būstas arčiau miesto centro, tuo jo nuomos kaina aukštesnė;
Butas su autonominiu šildymu, tikėtina, kad yra brangesnis;
Jei būstas su baldais, jo nuomos kaina yra aukštesnė;
Kuo būstas naujesnis, tuo jo nuomos kaina aukštesnė;
Kuo rajonas saugesnis, patrauklesnis, naujesnis ir pan., tuo būsto kaina aukš-
tesnė.
Trečiame žingsnyje renkame duomenis. Mūsų tyrimui reikiamus duomenis su-
rinkti nesunku, kadangi jie yra skelbiami nekilnojamo turto agentūrų elektroniniuose
puslapiuose.
Studentai surinko 315 nuomojamų būtų iš dvidešimties Vilniaus miesto rajonų
duomenis. Surinktų duomenų fragmentas pateiktas lentelėje.
19
Lentelė 1: Surinkti duomenys apie butus
Kaina Plotas (m2) Aukštas Kambarių skaičius Amžius
Atstumas iki centro Rajonas Tipas Baldai Šildymas
96 14 2 1 16 3 Naujininkai Butas Be baldų Centrinis
101 15 2 1 14 9 Balsiai Butas Su baldais Autonominis
101 25 1 1 11 9 Balsiai Butas Su baldais Autonominis
101 30 2 2 22 8 Dvarčionys Butas Su baldais Centrinis
116 25 1 2 36 2 Užupis Butas Su baldais Autonominis
116 50 3 2 35 6.3 Karoliniškės Butas Su baldais Centrinis
116 64 3 1 24 4 Žirmūnai Butas Su baldais Centrinis
116 15 4 1 27 5 Justiniškės Butas Su baldais Centrinis
116 35 1 2 25 2.8 Naujininkai Butas Su baldais Centrinis
116 25 1 1 44 4.1 Naujamiestis Butas Su baldais Centrinis
Šiame etape nagrinėsime buto nuomos kainos priklausomybę tik nuo kiekybinių
veiksnių, t.y. nuo buto ploto, aukšto, kambarių skaičiaus, senumo ir atstumo nuo centro.
Surinktus duomenis, prasminga atlikti jų statistinę ir grafinę analizę. Žemiau
pateikiami pagrindiniai statistiniai rodikliai:
Vidurkis (angl. Mean) – tai dydis, skaičiuojamas sudedant visas kiekybinio kin-
tamojo reikšmes ir padalijant šią sumą iš reikšmių skaičiaus.
Mediana (angl. Median) – tai požymio reikšmė, kuri dalija variacinę eilutę į dvi
lygias dalis. Lygiai pusė variacinės eilutės turi reikšmes, mažesnes ar lygias medianai, o
kita variacinės eilutės pusė turi reikšmes, didesnes ar lygias medianai.
Standartinis nuokrypis (angl. Standard deviation) – tai dydis, nusakantis atsitik-
tinio dydžio įgyjamų reikšmių sklaidą apie vidurkį.
Asimetrijos koeficientas (angl. Skewness) – statistinė duomenų aibės charakte-
ristika, apibūdinanti skirstinio asimetriškumą.
Ekscesas (angl. Kurtosis) – dydis, kuris rodo skirstinio bukumą ar smailumą.
Lentelė 2: Pagrindinės aprašomosios statistikos charakteristikos
Rodiklis Kaina Plotas Amžius Atstumas iki centro
Vidurkis 477 76 22 5
Mediana 348 55 14 6
Standartinis nuokrypis 379 63 22 3
Dispersija 143649 3977 478 9
Ekscesas 3 10 8 0
Asimetrija 2 3 2 0
Užmojis 1931 436 153 14
Minimali reikšmė 96 14 1 0
Maksimali reikšmė 2027 450 154 14
Iš aprašomosios statiškos rodiklių sužinome, kad pigiausias butas, nuomojamas
už 96 eurus yra 14 m2, name statytame prieš 16 metų. Brangiausias yra namas, kurio
20
nuomos kaina 2027 eurai ir jo plotas 450 m2. Vidurkių analizė yra kitokia: vidutinė
nuomojamo buto kaina yra 477 eurai, tai butas turintis 76 m2, esantis name, statytame
prieš 22 metus ir nuo miesto centro nutolęs 5 km. atstumu. Šitokį skirtumą nulemia tai,
kad vidurkis yra jautrus didžiausioms ir mažiausioms reikšmėms.
Šiame žingsnyje verta pasidomėti ar tarp nuomojamų butų kainų nėra išskirčių.
Galima pasinaudoti trijų standartinių nuokrypių taisykle. Išskirtimis galime laikyti tas
nuomos kainas, kurios nepatenka į intervalą 3 YY s . Pasitelkiant aprašomųjų statistikų
lentelę, randame intervalą 477 3 379 . Matome, kad brangiausio būsto nuomos kainą,
lygią 2027 eurų, galime laikyti išskirtimi.
Grafinė analizė
Grafinei duomenų analizei verta nusibraižyti individualias kintamųjų diagramas,
histogramas bei sklaidos diagramas.
0
500
1000
1500
2000
2500
0 50 100 150 200 250 300 350
Pav. 7: Butų nuomos kainos taškinė diagrama
21
0
10
20
30
40
50
60
70
80
100
200
300
400
500
600
700
800
900
1000
1100
1200
1300
1400
1500
1600
1700
1800
1900
2000
2100
Daugiau
Pav. 8: Butų nuomos kainos histograma
0
500
1000
1500
2000
2500
0 50 100 150 200 250 300 350 400 450 500
Kaina
Plotas
Pav. 9: Butų nuomos kainų priklausomybė nuo ploto
22
2.1.4 Koeficientų įvertinimas mažiausių kvadratų metodu
Pats populiariausias ir geriausiai ištyrinėtas regresijos lygties koeficientų skai-
čiavimo būdas – tai mažiausių kvadratų metodas (MKM). Prieš pradedant vertinti regre-
sijos parametrų įverčius, priklausomo ir nepriklausomų kintamųjų duomenys turi būti
atsakingai paruošti, t.y. suderinti laiko, vietos ir periodiškumo atžvilgiu.
MKM tikslas – nustatyti tokius regresijos parametrų įverčius, kurie minimizuoja
skirtumų tarp faktinių (iY ) ir apskaičiuotų ( ˆ
iY ) pagal pasirinktą regresijos lygtį priklau-
somojo kintamojo reikšmių kvadratų sumą. Matematiškai mažiausių kvadratų kriterijus
užrašomas taip:
2 2
1 1
ˆ ˆ( ) minn n
i i i
i i
Y Y u
(2)
MKM įverčių skaičiavimo formules pagrindimas iliustruotas porinės regresijos
pavyzdžiu. Tiesinės porinės regresijos atveju ˆiY reikšmės bus lygios:
0 1ˆ ˆˆ
i iY X
Apskaičiuojamos funkcijos (2) pirmosios dalinės išvestinės ir prilyginamos nu-
liui:
2
10 1
10
2
10 1
11
ˆˆ ˆ2 ( ) 0
ˆ
ˆˆ ˆ2 ( ) 0
ˆ
nn
iii i
i
nn
iii i i
i
uY X
uY X X
Toliau reikia sudaryti lygčių sistemą iš dešinėje lygybės pusėje esančių reiški-
nių:
0 1
1 1
2
0 1
1 1 1
ˆ ˆ
ˆ ˆ
n n
i i
i i
n n n
i i i i
i i i
Y n X
X Y X X
Išsprendus lygčių sistemą gaunamos porinės tiesinės regresijos lygties parametrų
įverčių nustatymo formulės:
11 11 2 2
1 1
11 10 1
ˆ
( )
ˆˆ ˆ
n nn
i i i iii i
n n
i ii i
n n
i ii i
n X Y X Y
n X X
Y XY X
n
23
Čia Y yra priklausomojo kintamojo faktinių reikšmių vidurkis, X yra nepri-
klausomojo kintamojo reikšmių vidurkis, o n stebėjimų skaičius.
Sudarant dauginę regresiją, koeficientai nustatomi naudojant tuos pačius princi-
pus, tačiau dėl didesnio nepriklausomų kintamųjų skaičiaus, pačios formulės yra sudė-
tingesnės ir talpina savyje daugiau įvairių kintamųjų sumų ir jų sandaugų sumų dėmenų.
2.1.5 Įverčių savybės ir Gausso-Markovo teorema
Jeigu skaičiuojant parametrų įverčius yra tenkinamos klasikinės regresijos prie-
laidos, tuomet turime taip vadinamus „geriausius“ parametrų įverčius, kurie pasižymi
trimis savybėmis: yra nepaslinkti, efektyvūs ir suderinti.
Įverčių nepaslinktumas reiškia, jog, apskaičiavus tą pačią regresijos lygtį su skir-
tingomis duomenų imtimis, gauname įverčius, kurių vidurkis yra lygus tikrajai paramet-
ro reikšmei.
Įverčių efektyvumas. Įverčiai yra efektyvūs tada, kai jų dispersija yra minimali.
Ši savybė reiškia, kad skirtingoms imtims apskaičiuoti regresijos lygties įverčiai įma-
nomai arti išsibarstę aplink tikrąsias parametro reikšmes.
Suderinti įverčiai reiškia, kad, didinant imtims, t.y. stebėjimų skaičiui artėjant
prie begalybės, įverčio reikšmė artėja prie tikrosios parametro reikšmės.
Iš šių savybių seka, kad duomenų pakankamumas yra būtina sąlyga analizei at-
likti. Turint didesnes imtis didėja tikimybė, taikant tinkamą regresijos parametrų įverčių
radimo metodą, nustatyti tikriesiems parametrams artimas įverčių reikšmes.
Klasikinės regresinės analizės prielaidos
Įverčiai bus netikslūs, jeigu apskaičiuota regresijos lygtis netenkins klasikinių
regresijos prielaidų.
Tiesiškumas – regresijos funkcija koeficientų ir paklaidų atžvilgiu yra tiesinė:
0 1 1i i k ki iY X X u
Paklaidų vidurkis lygus nuliui:
( ) 0iE
Paklaidos neautokoreliuoja, t.y. paklaidos tarpusavyje nėra susijusios ir nestebi-
mi sklaidos dėsningumai:
cov( , ) 0i j
Tai tinka visiems i ir j , kai i j .
24
Paklaidų dispersija yra homoskedastiška, t.y. pastovi. Didėjant nepriklausomų
kintamųjų reikšmėms, priklausomojo kintamojo sklaidos intervalas išlieka pastovus:
2var( )i
Nepriklausomi kintamieji nėra tiesiškai tarpusavyje susiję, t.y. nėra vieni kitų
tiesinės kombinacijos (nėra multikolinearumo arba interkoreliacijos).
Paklaidos pasiskirsčiusios pagal normalųjį skirstinį (normalumas).
2~ (0, )i N
Gausso-Markovo teorema
Tai labai svarbi teorema regresinėje analizėje. Ji teigia, kad jeigu yra tenkinamos
klasikinio regresinio modelio prielaidos, tai mažiausių kvadratų metodu (MKM) apskai-
čiuoti regresijos įverčiai yra efektyvūs, t.y. turi mažiausią dispersiją tarp visų tiesinių,
nepaslinktų įverčių (teoremos įrodymas pateiktas priede A).
Ši teorema sako, kad jeigu yra tenkinamos klasikinės regresijos prielaidos, tuo-
met apskaičiuoti MKM įverčiai turi pageidaujamas savybes, t.y. yra tiesiniai, nepaslink-
ti, t.y. arčiausiai tikrųjų populiacijos parametrų reikšmių, lyginant su kitais metodais
apskaičiuotais įverčiais.
Lentelė 3: Dažniausiai naudojamų netiesinių modelių pakeitimais tiesiniais koeficientų atžvilgiu
Regresijos
lygties forma
Matematinė regresi-
jos lygties išraiška
Pakeitimai Tiesinė modelio
išraiška
Tiesinė 0 1i iY X
0 1i iY X
Eksponentinė 0 1exp( )i iY X
0 1ln( ) ln( )i iY X
ln( )i iY Z
*
0 0ln( )
*
0 1i iZ X
Logaritminė 0 1 ln( )i iY X ln( )i iX V
0 1i iY V
Hiperbolinė 0 1(1/ )i iY X 1/ i iX V
0 1i iY V
Kvadratinė 2
0
j
i j j iY X 2
i iX V 0 1 2i i iY X V
Rodiklinė 1
0i iY X 0 1ln( ) ln( ) ln( )i iY X
ln( )i iY Z
*
0 0ln( )
ln( )i iX V
*
0 1i iZ V
25
Gausso-Markovo teorema ir klasikinės regresijos prielaidos reikalauja tik regre-
sijos koeficientų tiesiškumo, kintamieji gi gali būti įvairių matematinių formų.
Pirmas modelis vadinamas lin modeliu, antras log-lin modeliu, trečias lin-log
modeliu, ketvirtas atvirkštiniu modeliu, penktas antro laipsnio polinominiu modeliu ir
paskutinis log-log modeliu.
Norint sudaryti log-log modelį pradžioje reikėtų atlikti duomenų pakeitimus,
kaip parodyta lentelėje, t.y. visus pradinius duomenis pakeisti jų logaritmais. Dauginio
regresinio modelio nepriklausomi kintamieji gali būti įtraukti į modelį skirtingomis ma-
tematinėmis formomis, pvz.:
2
0 1 1 2 2 3 3 4 3ln( )i i i i i iY X X X X
Šiame modelyje kintamasis 1X įtrauktas tiesine forma,
2X – logaritmine, o 3X
– kvadratine.
2.2 Determinuotumas
Šiame skyriuje bus aptarta determinacijos koeficientas, koreguotasis determina-
cijos koeficientas, Akaike informacijos kriterijus (AIC) ir Schwartz informacijos kriteri-
jus (SIC).
2.2.1 Determinacijos koeficientai
Kai kalbama apie koreliacijos koeficientų naudojimą regresinėje analizėje, turi-
ma omenyje, kad mus domina nagrinėjamų kintamųjų ryšio stiprumas. Tačiau to nepa-
kanka, reikia nustatyti, ar įvertinta regresijos modelio lygtis atitinka faktiškus stebėji-
mus, t.y. būtina išsiaiškinti, kokiu mastu Y reikšmių sklaidą paaiškina sudaryta regresi-
ja, kaip gerai modelis tinka Y numatyti, esant duotiems X . Vienas svarbiausių tinka-
mumo matų yra determinacijos koeficientas.
Faktinės ir vidutinės priklausomo kintamojo reikšmės skirtumas yra:
ˆ ˆ( ) ( )
ˆˆ ( )
i i i i
i i
Y Y Y Y Y Y
u Y Y
(3)
Pakėlus abi šios lygybės puses kvadratu ir sudėjus visus stebėjimus, gaunama:
2 2 2
1 1 1
2 2
1 1
ˆ ˆ( ) ( ) ( )
ˆˆ ( )
n n n
i i i i
i i i
n n
i i
i i
Y Y Y Y Y Y
u Y Y
(4)
26
Įveskime naujus žymėjimus ir lygtį (4) pakeiskime į tokią:
TSS RSS ESS (5)
Trumpai apibūdinsime įvestus žymėjimus.
Bendroji kvadratų suma (TSS) įvertina suminį priklausomo kintamojo nuokrypį
nuo vidurkio, t.y., ji išmatuoja iY reikšmių sklaidą apie Y . TSS apskaičiuojama taip:
2
1
( )n
i
i
TSS Y Y
(6)
Regresijos kvadratų suma (ESS) parodo priklausomo kintamojo reikšmės, įver-
tintos pagal sudarytą regresijos modelį, nuokrypio nuo vidurkio kvadratų sumą. Kitaip
tariant, tai yra paaiškinta sklaida, susijusi su X ir Y ryšiu. Ji apskaičiuojama taip:
2
1
ˆ( )n
i
i
ESS Y Y
(7)
Liekamoji paklaidų kvadratų suma (RSS) apskaičiuojama taip:
2 2
1 1
ˆˆ ( )n n
i i i
i i
RSS u Y Y
(8)
Ji parodo, kiek faktiškos stebėjimų reikšmės nukrypsta nuo apskaičiuotųjų pagal
regresijos modelį. Kuo jos reikšmė didesnė, tuo modelyje yra daugiau neįvertintų kin-
tamųjų, veikiančių Y . Kitaip RSS dar vadinama nepaaiškinta kvadratų suma. Tai sklai-
da, nesusijusi su X ir Y ryšiu, o su kitais veiksniais.
Pav. 10: Nuokrypių grafikas
27
Šių kvadratų sumas dar geriau leidžia suprasti 2.1 paveikslėlis.
TSS nusako, kaip faktiškos stebėjimų reikšmės išsisklaidžiusios apie vidurkį.
RSS įvertina, kaip Y reikšmės išsisklaidžiusios apie regresijos tiesę. ESS parodo, kiek
regresijos tiesė skiriasi nuo vidurkio.
Paprasčiausias regresijos kvadratų sumos (ESS) ir bendros kvadratų sumos
(TSS) santykis nusako Y dispersijos dalį, kurią įvertina sudarytas regresijos modelis.
Šis santykis matuoja sudarytos regresijos lygties tinkamumą ir vadinamas determinaci-
jos koeficientu, kurį žymėsime 2R (porinėje regresijoje naudosime 2r santrumpą):
2 ESS
RTSS
(9)
Determinacijos koeficientas parodo, kokią procentinę priklausomo kintamojo ki-
timo dalį nulemia nepriklausomo kintamojo kitimas, o 2(1 )R – kiti neįvertinti kinta-
mieji, kitaip tariant, kaip Y dispersijos kitimą įvertina regresijos modelis.
„Užsukime į virtuvę“
Tam, kad geriau suvoktume determinacijos koeficiento esmę, galima pa-
teikti analogiją, susijusią su maisto gaminimu. Tarkime, visų produktų, reikalin-
gų salotoms pagaminti, svoris yra 1 kg, tačiau, kai pagaminame salotas – jos
sveria 0,6 kg (600 g). Šiuo atveju TSS būtų pradinis visų produktų svoris, t.y. 1
kg (TSS = 1), o ESS – galutinis salotų svoris, t.y. 0,6 kg (ESS = 0,6). RSS – tai
kas tapo atliekomis ir pateko į šiukšlių dėžę.
Jei, pavyzdžiui modelio determinacijos koeficiento reikšmė 2 0,912R , tuomet
galime sakyti, kad regresijos modelyje pasirinkti nepriklausomi kintamieji paaiškina
91,2% priklausomo kintamojo variacijos, 8,8% – kiti neįvertinti veiksniai.
Gali kilti klausimas, kaip patikrinti, ar gautoji 2R reikšmė yra patikima ir ar ji
atspindi tikrąją priklausomybę. Apie tai bus kalbama kitame skyriuje.
Modelio įverčių reikšmingumo tikrinimas.
Be šios formulės, 2R apskaičiuoti tinka ir kita formulė:
2 1
RSSR
TSS (10)
Porinės regresijos atveju determinacijos koeficientui skaičiuoti gali būti naudo-
jama štai tokia formulė:
28
2
1 1 12
2 2 2 2
1 1 1 1( ) ( )
n n n
i i i ii i i
n n n n
i i i ii i i i
n X Y X Yr
n X X n Y Y
(11)
Determinacijos koeficientas negali būti neigiamas, kadangi tai yra proporcija. Jis
gali įgyti reikšmes tarp 0 ir 1. Kadangi determinacijos koeficientas kinta nuo 0 iki 1, tad
kuo jo reikšmė didesnė, tuo modelis gali būti laikomas sąlyginai geresniu. Tačiau šiam
kriterijui būdingi ir trūkumai. Determinacijos koeficientas niekada nesumažėja, kai į
modelį įtraukiamas naujas nepriklausomas kintamasis, ir todėl aklai pasikliauti tik šiuo
kriterijumi, neatsižvelgiant į modelio koeficientų reikšmingumą neina.
Dėl šios savybės, palyginant modelius, tai traktuojama kaip svarbiausias šio ro-
diklio trūkumas. Todėl praktikoje be determinacijos koeficiento 2R , naudojamas, ypač
dauginėje regresijoje, koreguotasis determinacijos koeficientas, kurį žymėsime 2R .
Koreguotasis determinacijos koeficientas neleidžia be reikalo įtraukti į analizę
nereikšmingų nepriklausomų kintamųjų. Jis visada mažesnis už determinacijos koefi-
cientą. Koreguotasis determinacijos koeficientas apskaičiuojamas taip:
2 2 11 (1 )
1
nR R
n k
(12)
Čia n yra imties dydis, o k nepriklausomų kintamųjų skaičius.
Koreguotasis determinacijos koeficientas yra naudingas lyginant du ar daugiau
modelių, kurie talpina savyje labai didelį nepriklausomų kintamųjų skaičių.
2.2.2 Informacijos kriterijai
Informacijos kriterijai paremtas liekamųjų paklaidų kvadratų sumos (RSS) mi-
nimizavimu arba, kitaip tariant, determinacijos koeficiento reikšmės didinimu. Akaikės
informacijos kriterijus apskaičiuojamas taip:
2 /k n RSS
AIC en
(13)
Skaičiuoti patogiau naudojant logaritminę kriterijaus (13) išraišką:
2
ln( ) lnk RSS
AICn n
(14)
Švarco informacijos kriterijus yra artimas AIC ir apskaičiuojamas pagal tokią
formulę:
/k n RSS
SIC nn
(15)
29
Logaritmavus abi (15) puses, gauname:
ln( ) ln( ) lnk RSS
SIC nn n
(16)
Šie kriterijai labai parankūs lyginant keletą alternatyvių modelių. Geresniu yra
laikomas tas modelis, kurio mažesnė reikšmė.
2.3 Intervaliniai įverčiai ir hipotezių tikrinimas
Šiame skyriuje bus aptarta:
Intervaliniai įverčiai,
Hipotezių tikrinimas: dvipusis ir vienpusis,
Modelio įverčių reikšmingumo tikrinimas.
2.3.1 Intervaliniai įverčiai
Ankstesniuose skyreliuose buvo suformuluoti reikalavimai regresijos modelio
liekamosioms paklaidoms, tačiau nebuvo minimi jokie reikalavimai modelio parametrų
įverčiams. Šioje skyriaus dalyje aptarsime, kaip yra sudaromi intervaliniai parametrų
įverčiai bei kaip galima tikrinti statistines parametrų įverčių reikšmingumo hipotezes,
žinant jų reikšmes.
Parametro i pasikliautinasis intervalas – tai aibė reikšmių, kurios telpa į inter-
valą tarp apatinės ir viršutinės hipotezės tikrinimo kritinių reikšmių. Bet kuri parametro
reikšmė, patenkanti į šį intervalą, yra suderinta su apskaičiuota įverčio reikšme.
Pažymėtina, kad viduryje šio intervalo visuomet bus apskaičiuotoji įverčio
reikšmė, o kitos reikšmės bus išsidėsčiusios į abi puses simetriškai.
Taigi intervaliniai įverčiai apskaičiuojami pagal tokią formulę:
/2, 1 /2, 1ˆ ˆ ˆ ˆ( ) ( )i n k i i n k it SE t SE (17)
Čia i yra parametras, ˆ
i – parametro įvertis, n – imties dydis (stebėjimų skai-
čius), k – nepriklausomų kintamųjų skaičius, – reikšmingumo lygmuo, praktiškai
dažniausiai ieškoma 95% pasikliautinųjų intervalų, kai 0,05 , ˆ( )iSE – parametro
įverčio standartinė paklaida.
Pavyzdžiui, yra įvertinta regresijos modelio lygtis:
( ) (0,057) (0,482)
ˆ 0,388 1,639SEY X (18)
30
Stebėjimų skaičius 25n ir 0,05 . Reikia apskaičiuoti pasikliautinuosius
intervalus kritinei reikšmei 0,025;23 2,069t .
Tada parametrų pasikliautinieji intervalai:
0
1
: (0,388 0,057 2,069) (0,270;0,506)
: ( 1,639 0,482 2,069) ( 2,636; 0,642)
(19)
Kadangi išsiaiškinome intervalinių parametrų įverčių sudarymo procedūrą, svar-
bu sužinoti, kaip vykdomas iškeltų hipotezių tikrinimas, kuris apima ˆi koeficientų bei
determinacijos koeficiento reikšmingumą.
2.3.2 Hipotezių tikrinimas: dvipusis ir vienpusis
Paprastai hipotezių tikrinimas susietas su teiginiais, pagrįstais spėjimais, prielai-
domis arba teorijomis, kurie bus tikrinami. Dažniausiai tikrinamoji hipotezė vadinama
nuline hipoteze ir žymima 0H . Ji visada lydima priešingos jai hipotezės, kuri vadinama
alternatyviąja ir žymima 1H .
1 pavyzdys. Iškelkime tokią hipotezę: mūsų nagrinėjamos porinės regresijos (18)
nuolydžio koeficientas yra -1,5 (žinome, kad tikroji jo reikšmė lygi -1,639), t.y., nulinė
hipotezė 0 1: 1,5H . Tada alternatyvioji jai yra
1 1: 1,5H . Savaime aišku, kad
alternatyva gali būti vienoje iš dviejų nulinės hipotezės 0H pusių: mažesnė nei -1,5 arba
didesnė nei -1,5, t.y. nelygi nulinėje hipotezėje nurodytai reikšmei. Toks hipotezės tikri-
nimas vadinamas dvipusiu, t.y., kai alternatyvią hipotezę formuluojame be griežtos ne-
lygybės.
2 pavyzdys. Tarkime, kad mūsų pasirinktos regresijos (2.3.3) nuolydžio koefi-
cientas yra mažesnis negu -1,5, t.y. 0 1: 1,5H . Tada alternatyvioji jai –
1 1: 1,5H . Tai yra vienpusio hipotezės tikrinimo pavyzdys.
Iš pateiktų pavyzdžių svarbu atsiminti, kad nulinė hipotezė visada formuluojama
su lygybės ženklu (=, ≤ arba ≥). Alternatyviojoje hipotezėje lygybės ženklas niekada
nerašomas (≠, < arba >). Taip pat pažymėtina, jog iškeltas teiginys gali būti užrašomas
tiek nuline, tiek alternatyviąja hipoteze. Tai priklauso nuo jo formuluotės. Kadangi vi-
suomet tikrinama nulinė hipotezė, pirmame pavyzdyje buvo tikrinamas pirminis teigi-
nys, o antrame – priešingas pirminiam. Tai dar geriau leidžia suprasti susisteminta in-
formacija 2.2 lentelėje.
31
Lentelė 4: Nulinės ir alternatyviosios hipotezės formulavimo pavyzdžiai
Pirminis teiginys
Lygus 1 Nelygus 1 Mažiausiai 1 Daugiausiai 1 Daugiau nei 1 Mažiau nei 1
Pirminio teiginio simbolinė išraiška
β1 = 1 β1 ≠ 1 β1 ≥ 1 β1 ≤ 1 β1 > 1 β1 < 1
H0 H0: β1 = 1 H0: β1 = 1 H0: β1 ≥ 1 H0: β1 ≤ 1 H0: β1 ≤ 1 H0: β1 ≥ 1
H1 H1: β1 ≠ 1 H1: β1 ≠ 1 H1: β1 < 1 H1: β1 > 1 H1: β1 > 1 H1: β1 < 1
Grįžkime prie mūsų pavyzdžių. Atliksime pirmame ir antrame pavyzdžiuose iš-
keltų hipotezių tikrinimą. Pradėkime nuo dvipusio tikrinimo.
Dvipusės hipotezės tikrinimo procedūra:
0 1
1 1
: 1,5
: 1,5
H
H
Pav. 11: Dvipusis tikrinimas: atmetimo ir neatmetimo sritys tikrinant hipotezes
Tarkime, kad 0,05 yra pasirinktas reikšmingumo lygmuo. Esant 5 proc.
reikšmingumo lygmeniui ir dvipusiam t kriterijui, atmetama nulinė hipotezė, jeigu t
kriterijaus statistika pagal apskaičiuojamąją formulę 2,069t arba 2,069t (nes
laisvės laipsnių skaičius 25 1 1 23 , o 0,025;23 2,069t ).
Sudarius porinę regresiją gauta: 1ˆ 1,639 , o 1
ˆ( )SE = 0,482.
Skaičiuojame t statistiką:
1 1
1
ˆ 1,639 ( 1,5)0,288
ˆ 0,482( )t
SE
Apskaičiuotasis 0,288t (t.y. > -2,069 ir < 2,069). Išvada: neatmetama nulinė
hipotezė, kad nagrinėjamos porinės regresijos (2.2.3) nuolydžio koeficientas yra -1,5,
esant 5 proc. reikšmingumo lygmeniui. Nėra įrodymų, kad tikrasis nuolydžio koeficien-
tas nėra -1,5.
Pateiksime panašų vienpusės hipotezės tikrinimo pavyzdį.
0 1
1 1
: 1,5
: 1,5
H
H
32
Pav. 12: Vienpusis tikrinimas: atmetimo ir neatmetimo sritys tikrinant hipotezes
Kaip ir prieš tai buvusiame pavyzdyje tebūnie 0,05 . Esant 5 proc. reikš-
mingumo lygmeniui ir vienpusiam t kriterijui, atmetama nulinė hipotezė, jeigu t krite-
rijaus statistika pagal apskaičiuojamąją formulę 1,714t (nes laisvės laipsnių skai-
čius 25 1 1 23 , o 0,05;23 1,714.t ).
Sudarius porinę regresiją gauta: 1ˆ 1,639 , o 1
ˆ( )SE = 0,482.
Skaičiuojame t statistiką:
1 1
1
ˆ 1,639 ( 1,5)0,288
ˆ 0,482( )t
SE
Apskaičiuotasis 0,288t (t.y. > -1,714). Išvada: neatmetama nulinė hipotezė,
kad nagrinėjamos porinės regresijos (2.3.3) nuolydžio koeficientas nemažesnis nei -1,5,
esant 5 proc. reikšmingumo lygmeniui.
Svarbu atkreipti dėmesį į tai, kad egzistuoja ryšys tarp hipotezėje užrašytos pa-
rametro reikšmės ir intervalinio įverčio: jei ši reikšmė patenka į intervalą, tai nulinė hi-
potezė neatmetama, priešingu atveju – atmetama. Mūsų atveju hipotezėje užrašyta pa-
rametro reikšmė -1,5 patenka į intervalą apskaičiuotą pagal formulę (2.3.2), t.y. į
[ 2,636; 0,642] .
Trumpai apibendrinant. Geriau suprasti dvipusį ir vienpusį tikrinimą bei hipote-
zių atmetimą ir neatmetimą padės 2.3 lentelė.
Lentelė 5: Nulinės hipotezės atmetimo taisyklė
Hipotezės rūšis H0 H1 H0 atmetimo taisyklė
Dvipusė βi = βi* βi ≠ βi* |t| > tα/2,n-k-1
Vienpusė-dešiniašonė βi ≤ βi* βi > βi* t > tα,n-k-1
Vienpusė-kairiašonė βi ≥ βi* βi < βi* t < - tα,n-k-1
33
Čia *
i yra hipotezėje užrašyta parametro reikšmė. Analogiškos taisyklės bus
taikomos ir tikrinant modelio įverčių reikšmingumą.
2.3.3 Modelio įverčių ir determinacijos koeficiento reikšmin-
gumo tikrinimas
Įverčio 0 reikšmingumas. Statistinė hipotezė 0 0: 0H aktuali tik tuo atveju,
kai svarbu įsitikinti, ar regresijos tiesė kerta koordinačių susikirtimo tašką (0;0). Taip
būna retai. Todėl šios hipotezės atskirai nenagrinėsime, nes ji tikrinama visiškai analo-
giškai kaip ir įverčio ˆi reikšmingumo hipotezė.
Įverčio ˆi reikšmingumas. Statistinė hipotezė apie įverčio ˆ
i lygybę nuliui for-
muluojama taip:
0
1
: 0
: 0
i
i
H
H
0 : 0iH (nepriklausomas veiksnys (iX ) nedaro įtakos priklausomam kinta-
majam, t.y. koeficientas prie veiksnio gali būti lygus 0),
1 : 0iH (iX poveikis reikšmingas – regresijos koeficientas prie veiksnio ne-
lygus 0).
Kadangi šiuo atveju nulinė hipotezė formuluojama su lygybės ženklu, tai turime
dvipusį tikrinimą.
Šios nulinės hipotezės tikrinimo procedūra formaliai užrašoma:
/2, 1
ˆ ˆ 0~
ˆ ˆ( ) ( )
i i in k
i i
t tSE SE
Dydis t yra pasiskirstęs pagal Stjudento t-skirstinį su / 2 reikšmingumo lyg-
meniu ir 1n k laisvės laipsniais.
Nulinė hipotezė 0H atmetama, esant fiksuotam reikšmingumo lygmeniui , jei
/2, 1| | n kt t :
Kitais atvejais nulinė hipotezė 0H neatmetama. Taigi daromos tokios išvados:
jei apskaičiuota | |t reikšmė yra didesnė už teorinę reikšmę /2, 1n kt
, tuomet nulinė hi-
potezė atmetama ir su 1 tikimybe (pvz., kai 0,05 , t.y. 1 0,95 , tada 95
proc. tikimybe) galime tvirtinti, kad i-tojo veiksnio poveikis yra statistiškai reikšmingas.
Priešingu atveju, kai | |t apskaičiuota reikšmė yra mažesnė už teorinę reikšmę /2, 1n kt
34
negalime atmesti nulinės hipotezės, o tai reiškia, kad negalime tvirtinti, kad i-tojo
veiksnio poveikis yra statistiškai reikšmingas.
Prisiminkime, kad skyrelyje 2.2.1 determinacijos koeficientas buvome susidūrę
su problema, kaip patikrinti, ar gautoji 2R reikšmė yra statistiškai reikšminga. Taigi
dabar aptarsime procedūrą, kurios dėka nustatomas determinacijos koeficiento reikš-
mingumas.
Kaip minėta anksčiau, šis rodiklis naudojamas patikrinti sudaryto regresijos mo-
delio adekvatumą. Kai determinacijos koeficientas yra reikšmingas, tuomet ir įvertintas
regresijos modelis yra adekvatus.
Šio koeficiento reikšmingumui nustatyti taikomas Fišerio kriterijus. Ši kriteri-
jaus statistika apskaičiuojama kaip santykis sisteminių nuokrypių kvadratų sumos su
liekamosios paklaidos nuokrypių kvadratų suma, be to, skaitiklio reikšmė padalijama iš
kintamųjų skaičiaus, o vardiklio – iš laisvės laipsnių skaičiaus.
/
/ ( 1)
ESS kF
RSS n k
(20)
Padaliję (20) formulės skaitiklį ir vardiklį iš TSS, gauname:
2
2
/
(1 ) / ( 1)
R kF
R n k
Esant porines regresijos modeliui, 1k , ir tuomet:
2
2
( 2)
(1 )
r nF
r
Tikrinimo procedūra pradedama nuo hipotezės iškėlimo:
0H : visi 0i (parametrai prie nepriklausomų kintamųjų yra lygūs 0, t.y. reg-
resija yra nereikšminga, nes nė vienas veiksnys neįtakoja priklausomojo kintamojo),
1H : bent vienas iš parametrų i nėra lygus 0 (regresija statistiškai reikšminga,
nes yra bent vienas veiksnys, kuris įtakoja priklausomą kintamąjį).
Antrame žingsnyje yra apskaičiuojama F statistika pagal (2.3.10) arba (2.3.11)
ir turimus laisvės laipsnių skaičius k ir 1n k . Toliau apskaičiuotą faktinę F reikš-
mę lyginame su pasirinkto reikšmingumo, pvz., 5 proc. ( 0,05 ), teorine , 1k n kF
reikšme iš F skirstinio lentelių.
Taigi procedūros pabaigoje daromos tokios išvados: jeigu , 1k n kF F , tuomet su
95% pasikliovimo lygmeniu atmetame nulinę hipotezę, kad regresija yra statistiškai ne-
reikšminga, ir priimame alternatyvią, jog bent vienas nepriklausomas kintamasis daro
35
statistiškai reikšmingą poveikį priklausomam kintamajam. Jeigu yra priešingai, t.y.
, 1k n kF F , tuomet negalime atmesti nulinės hipotezės.
„Užsukime į virtuvę“
Fišerio kriterijui suprasti, galima pateikti tokią analogiją su maisto gami-
nimu: teorinė (kritinė) , 1k n kF
– tai griežtai pagal recepto reikalavimus gaminto
patiekalo, pavyzdžiui, salotų skonis ir pavidalas, o F apskaičiuota – studento
pagamintų salotų skonis ir pavidalas. Jeigu jie tarpusavyje skiriasi nedaug, ga-
lime sakyti, kad salotos atitinka receptą.
36
3. FIKTYVŪS (PSEUDO) KINTAMIEJI IR VEIKSNIŲ
PARINKIMAS
Iki šiol nagrinėjome įvairius regresijos modelius, tačiau jie pasižymėjo viena
bendra savybe – tiek priklausomi, tiek nepriklausomi kintamieji buvo kiekybiniai, t.y.,
kintamieji buvo išmatuoti intervalų ar santykių matavimo skalėse. Šiame skyriuje bus
nagrinėjami modeliai ne tik su kiekybiniais, bet ir kokybiniais kintamaisiais, kurie pri-
klauso pavadinimų ar ranginei skalei. Juk dažnai regresinėje analizėje regresantui įtakos
turi ne tik kiekybiniai kintamieji, tokie kaip pajamos, gamyba, kainos, kaštai, svoris,
temperatūra, bet ir kokybiniai. Kokybiniai kintamieji regresiniuose modeliuose dažnai
nurodo lytį, rasę, geografinį regioną, tautybę, spalvas bei kitus požymius. Siekiant
įtraukti tokius kintamuosius į regresinį modelį, visų pirma jie yra „sukiekybinami“ su-
formuojant fiktyvius arba dar kitaip vadinamus pseudo kintamuosius, kurie gali įgyti 0
ir 1 reikšmes, atitinkamai nurodančias požymio buvimą arba jo nebuvimą. Pavyzdžiui, 1
gali nurodyti, kad gaminant salotas jos buvo pagardintos druska, o 0 gali žymėti jog
šiuo atveju druska nebuvo naudojama.
Šiame skyriuje bus aptarta: pseudo kintamųjų samprata ir naudojimo atvejai, fik-
tyvių kintamųjų taikymo atvejai, priklausomas pseudo kintamasis, veiksnių parinkimo
problema.
3.1 Fiktyvių kintamųjų samprata ir naudojimo atvejai
Pseudo kintamasis – tai į regresijos lygį įtrauktas veiksnys, įgyjantis ne tikrąsias,
o pagal tam tikrus požymius suformuotas fiktyvias reikšmes.
0 1 1 2 2 3 1 4 2i i i i i iY X X D D u (21)
Jei kokybinis kintamasis įgyja dvi būsenas, tuomet pseudo kintamasis yra išreiš-
kiamas taip: 0iD , jei stebėjimas fiksuojamas būsenoje A ir 1iD , jei stebėjimas fik-
suojamas būsenoje B.
Pavyzdžiui, siekiant ištirti, kaip skiriasi vyrams ir moterims mokamas darbo
užmokestis, įvedamas fiktyvus kintamasis /v m
iD , kuris lygus 0, jei asmuo yra moteris ir
lygus 1, jei asmuo yra vyras.
Jei kokybinis kintamasis įgyja keturias būsenas, tuomet bus naudojami trys fik-
tyvūs kintamieji. Pavyzdžiui, tiriant salotoms reikalingo sūrio kainas, pravartu atsižvelg-
37
ti, kurioje šalyje yra pagamintas produktas. Tarkime išskiriamos būsenos yra Lietuva,
Lenkija, Italija ir kitos šalys. Tuomet fiktyvius kintamuosius galima apibrėžti taip:
0 1 1 2 3 4
LT PL IT
i i i i i iY X D D D u (22)
Čia 1LTD , jei pagaminta Lietuvoje ir 0LTD , jei pagaminta ne Lietuvoje.
1PLD , jei pagaminta Lenkijoje ir 0PLD , jei pagaminta ne Lenkijoje. 1ITD , jei
pagaminta Italijoje ir 0LTD , jei pagaminta ne Italijoje.
Tuo atveju, jeigu 2 bus statistiškai reikšmingas teigiamas dydis, sūrio paga-
minto Lietuvoje kaina bus didesnė dydžiu 2 , lyginant su ne lietuviško, lenkiško ar ita-
liško sūrio kaina, neatsižvelgiant į kitų kintamųjų poveikį. Tuo atveju, jeigu 3 bus sta-
tistiškai reikšmingas neigiamas dydis, sūrio pagaminto Lenkijoje kaina bus mažesnė
dydžiu 3 , lyginant su ne lietuviško, lenkiško ar itališko sūrio kaina, neatsižvelgiant į
kitų kintamųjų poveikį.
Nagrinėjamu atveju bazinė būsena yra „kitos šalys“. Šią būseną atitinkantis fik-
tyvus kintamasis nėra įtraukiamas į lygtį. Tuomet, jei sūris yra pagamintas kitoje šalyje,
visų į lygtį įtrauktų fiktyvių kintamųjų reikšmės bus lygios nuliui.
Taigi, matome, kad įtraukti fiktyvius kintamuosius į regresinį modelį nėra sun-
ku, tačiau tai reikia daryti atidžiai. Jei tiriant sūrių kainų priklausomybę nuo kilmės ša-
lies būtų įtraukiami keturi fiktyvūs kintamieji, tuomet susiformuotų tobulas kolinearu-
mas, nes tarp kintamųjų atsirastų tikslus tiesinis ryšys. Toks modelis yra neįmanomas.
Ši situacija dar vadinama fiktyvių kintamųjų spąstais. Plačiau apie tai sekančioje temo-
je.
Todėl, jei kokybinis kintamasis turi m būsenų, į regresinį modelį turi būti
įtraukti tik 1m fiktyvūs kintamieji. Šią taisyklę galima apibrėžti ir kitaip: į regresinį
modelį įtraukiamų fiktyvių kintamųjų skaičius turi būti vienu vienetu mažesnis negu
kokybinio kintamojo turimų būsenų skaičius.
Būsena, kuriai yra priskiriamas fiktyvus kintamasis lygus nuliui, yra vadinama
bazine, kontroline arba palyginamąja. Kaip jau buvo minėta, šiame pavyzdyje bazinė
būsena yra „kitos šalys“. Kiekviename regresiniame modelyje su įtrauktais fiktyviais
kintamaisiais visi palyginimai yra atliekami atsižvelgiant į bazinę būseną.
Laisvasis narys parodo vidutinę priklausomojo kintamojo reikšmę esant bazinei
būsenai, o koeficientai, esantys prie fiktyvių kintamųjų, pasako, kaip skiriasi vidutinė
38
priklausomojo kintamojo reikšmė esant būsenai, kuri įgauna reikšmę 1, nuo priklauso-
mojo kintamojo reikšmės esant bazinei būsenai.
Bazinė būsena yra pasirenkama tyrėjo nuožiūra. Griežtų apribojimų, kuo re-
miantis ją reikėtų pasirinkti, nėra. Vienas iš pasirinkimo kriterijų gali būti tai, su kuo
norima atlikti palyginimus.
Patys fiktyvūs kintamieji gali būti dviejų tipų – poslinkio ir posūkio (atitinkamai
3.1 ir 3.2 pav.). Poslinkio fiktyvūs kintamieji lemia lygiagretų regresijos tiesės poslinkį
ordinačių ašies atžvilgiu. Jie priklausomąjį kintamąjį veikia tiesiogiai. Tuo tarpu posū-
kio fiktyvūs kintamieji priklausomąjį kintamąjį veikia ne tiesiogiai, o per kitą nepriklau-
somą kintamąjį. Jie lemia regresijos tiesės nuolydžio pasikeitimą.
Pav. 13: Poslinkio fiktyvus kintamasis
39
Pav. 14: Posūkio fiktyvus kintamasis
Pav. 15: Posūkio ir poslinkio fiktyvus kintamasis
40
Fiktyvaus kintamojo poslinkio poveikį įvertina regresija:
0 1 2ˆ ˆ ˆˆ
i i iY X D (23)
Kai 0iD , regresijos laisvasis narys yra 0 . Tuomet regresijos tiesės atkertama
dalis Y ašyje taip pat lygi 0 . Kai fiktyvus kintamasis įgauna reikšmę 1iD , tuomet
laisvasis narys yra 0 ir
1 suma.
Posūkio fiktyvaus kintamojo įtaka regresijos tiesės nuolydžiui yra stebima iš
šios lygties:
0 1 2ˆ ˆ ˆˆ
i i i iY X X D (24)
Šiuo atveju, kai 0iD , regresijos nuolydis yra 1 , o kai 1iD , regresijos nuo-
lydis apskaičiuojamas kaip 1 ir
2 suma.
Bendras posūkio ir poslinkio kintamųjų efektas įvertinamas taip:
0 1 2 3ˆ ˆ ˆ ˆˆ
i i i i iY X D X D (25)
3.2 Fiktyvių kintamųjų taikymo atvejai
Fiktyvūs kintamieji naudojami:
Vertinant kokybinių veiksnių poveikį;
Atliekant koeficientų stabilumo analizę;
Siekiant eliminuoti netipines reikšmes;
Vertinant sezoniškumo įtaką;
Apjungiant laiko ir skerspjūvio duomenis.
Atliekant koeficientų stabilumo analizę, vertinamas į regresijos lygtį įtrauktų
koeficientų prie fiktyvių kintamųjų reikšmingumas. Jei šie koeficientai nėra reikšmingi,
tuomet regresinio modelio koeficientai yra stabilūs.
Pavyzdžiui, nagrinėjant laiko eilutę, tiriamas Lietuvos importo pokytis 2000 –
2014 metų laikotarpiu. Šį laikotarpį galime suskaidyti į dvi dalis – iki Lietuvos įstojimo
į Europos Sąjungą ir po įstojimo bei taip įvertinti, ar šis įvykis turėjo reikšmingą poveikį
importo lygiui Lietuvoje. Tegu 0ES
tD iki įstojimo i ES ir 1ES
tD po įstojimo į ES.
Sukonstruotas regresijos modelis atrodys taip:
0 1 2 3
IMP ES ES
t t t t t tY X D X D u
Jeigu koeficientai 2 ir
3 bus statistiškai reikšmingi, tuomet importo priklau-
somybė nuo nepriklausomo kintamojo iX po įstojimo į ES skiriasi ir yra
2 3 , o
laisvasis narys yra 0 2 .
41
Netipinių įvykių, tokių kaip krizė, lito įvedimas ar įstojimas į ES, įtaka gali būti
eliminuojama įtraukiant į regresinį modelį atitinkamus fiktyvius kintamuosius.
Įvertinti sezoniškumą taip pat galima įtraukus atitinkamus fiktyvius kintamuo-
sius. Pavyzdžiui, nagrinėjant ketvirtinius duomenis, reikia vieną ketvirtį pasirinkti kaip
bazinę būseną. Tuomet į regresinį modelį įtraukus likusius tris ketvirčius žyminčius fik-
tyvius kintamuosius, galime įvertinti kiekvieno ketvirčio dėsningumus bei jų poveikį
priklausomam kintamajam.
Taip pat nagrinėjant laiko eilutes fiktyvūs kintamieji leidžia įtraukti skerspjūvio
duomenis žyminčius kintamuosius, tokius kaip kilmės šalį, gyvenamąjį rajoną ir t.t.
Nagrinėdami skerspjūvio duomenis per fiktyvius kintamuosius, galime įtraukti metų
laikus, ketvirčius ir t.t.
Fiktyvūs kintamieji padeda praplėsti atliekamą analizę, įtraukti kokybinių veiks-
nių poveikį. Jų įtraukimas ir interpretavimas nėra sudėtingas. Fiktyvūs kintamieji yra
vertinami pagal tas pačias taisykles kaip ir kiti kiekybiniai kintamieji. Jiems galioja toks
pat standartinių paklaidų, t statistikų, p reikšmių, pasikliautinųjų intervalų, determinaci-
jos koeficiento 2R traktavimas. Hipotezių tikrinimo procedūros taip pat nesiskiria.
3.3 Veiksnių parinkimo problema
Šiame skyriuje bus aptartas Backward metodas, o jo pritaikymas bus iliustruotas
naudojant MS Excel skaičiuoklę. Backward metodas tai modeliui reikšmingų veiksnių
parinkimo procedūra. Startinė Backward padėtis – modelyje yra visi veiksniai. Norint
atrasti statistiškai reikšmingus veiksnius, pradedame veiksnių atmetimo procesą. Ka-
dangi po kiekvieno žingsnio (išmetus veiksnį) keičiasi parametrų įvertinimas, jų reikš-
mingumas, todėl vieno žingsnio metu galima išmesti tik vieną veiksnį.
Taigi, apskaičiuojame dauginę regresiją, įtraukdami visą kintamųjų sąrašą
1 2ˆ ( , ,..., )kY f X X X . Surandame šio modelio visų įverčių apskaičiuotas statistikas:
1ˆ( )t , 2
ˆ( )t ir taip iki ˆ( )kt . Iš šių statistikų išrenkame mažiausią ˆ| ( ) |it statistiką bei
palyginame gautą statistiką su teorine 1, /2n kt reikšme. Jeigu 1, /2ˆ| ( ) |i n kt t , vadina-
si, i-tasis veiksnys yra mažiausiai reikšmingas mūsų sudarytam modeliui ir jį pašalina-
me. Sekančiame etape apskaičiuojame dauginę regresiją be i-tojo veiksnio ir vėl apskai-
čiuojame visų įverčių t statistikas. Randame mažiausią bei palyginame su teorine statis-
tikos reikšme. Jeigu pasirinkto veiksnio t statistika mažesnė už teorinę t statistiką, šį
42
veiksnį pašaliname iš regresijos. Backward procedūrą baigiama, kai visos apskaičiuotos
įverčių t statistikos yra didesnės už teorinę reikšmę 1, /2n kt
.
„Užsukime į virtuvę“
Backward procedūrą galima įsivaizduoti, kaip tam tikrą pilną receptą ku-
rio nors patiekalo, pavyzdžiui, salotų. Tačiau suprantama, kad kiekvieno žmo-
gaus skonis yra skirtingas, todėl gaminant salotas yra atsisakoma kai kurių
produktų: iš pradžių vieno, paskui kito, kol individas išgrynina tikrąjį sau skonį.
Be to, pasitaiko atvejų, kai šaldytuve nėra visų reikiamų produktų, o salotas rei-
kia pagaminti skubiai. Tada verčiamės su tais produktais, kuriuos turime, t.y.
taip pat atsisakome kai kurių produktų.
Procedūros pritaikymą iliustruosime būsto kainos regresijos modelio sudarymu
naudojant MS Excel skaičiuoklę. Regresijos lygtis MS Excel skaičiuoklėje galite įver-
tinti naudodami duomenų analizės paketą Regression. Meniu juostoje Data spustelkite
Data Analysis ir pasirinkite pagalbinę priemonę Regression. Backward procedūrai nau-
doti galima t statistikų arba p reikšmių stulpelius modelio išklotinėje (žr. pav. 1).
Pav. 16: Modelio išklotinė
Pirmiausia pašaliname nepriklausomąjį kintamąjį ( )X Kambariai – Kambarių
skaičius, nes tarp kintamųjų ( )X Kambariai ir ( )X Plotas egzistuoja stiprus tiesinis
ryšys (plačiau apie tai skyrelyje skirtam Multikolinearumo tikrinimui). Pasirenkame
plotą kaip statistiškai reikšmingesnį veiksnį. Tęsiame apskaičiuodami naują regresiją jau
be nepriklausomojo kintamojo ( )X Kambariai (žr. Pav. 17).
43
Sudarę naują regresijos lentelę vėl žiūrime į t statistikų ar p reikšmių stulpelius.
Jeigu remiamės t statistika, tada žiūrime, kad nereikšmingų koeficientų t statistikos
modulis būtų pats mažiausias, o jei remiamės p reikšme, tai ieškome pačios didžiausios
p reikšmės. Šiuo atveju mažiausia t reikšmė yra lygi 0,919, o didžiausia p reikšmė, vir-
šijanti 0,05 yra 0,3588 (žr. Pav. 17).
Pav. 17: Modelio išklotinė be kambarių skaičiaus kintamojo
Remiantis ta pačia veiksmų logika iš turimos regresijos išmetame ( )D Kita kin-
tamąjį ir iš naujo įvertiname dar kartą sutrumpintą regresijos modelį. Veiksmus atlieka-
me tol, kol gauname galutinę regresijos lentelę, kurioje visos statistikos reikšmės yra
reikšmingos, t.y. t statistikų moduliai yra ne mažesnė nei t teorinės reikšmės. Jei
sprendimus grindėme p reikšmėmis, šios reikšmės turi būti ne didesnės negu mums pri-
imtinas reikšmingumo lygmuo (dažniausiai 0,05, retkarčiais 0,1). Šiuo atveju mūsų pa-
sirinktas reikšmingumo lygmuo buvo 90%, todėl neradę reikšmių didesnių už 0,1 nu-
traukiame skaičiavimus ir galime teigti, kad esant 90% pasikliautiniam lygmeniui visi į
regresiją įtraukti veiksniai yra statistiškai reikšmingi (žr. Pav. 18).
44
Pav. 18: Modelio išklotinė po Backward procedūros
Pritaikę Backward procedūrą gavome tokią galutinę regresijos lygtį:
( ) 179,774 4,780 ( ) 20,692 ( )
1,324 ( ) 17,349 ( )
97,541 ( ) 217,516 ( )
85,823 ( . )
Kaina X Plotas X Aukštas
X Senumas X Atstumas
D Centras D Namas
D Centr ildymas
Y
š
45
4. MULTIKOLINEARUMAS
Viena iš klasikinio regresinio modelio prielaidų nurodo, kad sudarytas modelis
neturi pasižymėti multikolinearumu. Iš tikrųjų, tai yra dar viena problema, su kuria ana-
litikas gali susidurti įvertinęs regresijos parametrus. Kas yra multikolinearumas, kokį
neigiamą poveikį jis sukelia, kaip nustatyti ir panaikinti šią problemą panagrinėsime
šiame skyriuje. Glaustai, šio skyriaus struktūra yra:
Multikolinearumo problemos esmė;
Multikolinearumo pasekmės;
Multikolinearumo požymiai;
Multikolinearumo atsiradimo priežastys;
Multikolinearumo nustatymo būdai.
4.1 Multikolinearumo problemos esmė
Sąvoką „multikolinearumas“ pirmasis paminėjo norvegų ekonomistas Ragnar
Frisch (1895 - 1973). Situacija vadinama multikolinearia, jei egzistuoja tiesinės priklau-
somybės tarp keleto arba visų regresijos modelio nepriklausomų kintamųjų. Trumpiau
tariant, multikolinearumas yra reiškinys, kai modelio nepriklausomi kintamieji tarpusa-
vyje koreliuoja.
Pav. 19: Multikolinearumas
Pav. 19 schematiškai parodo skirtingus multikolinearumo laipsnius. Apskritimas
Y rodo priklausomo kintamojo variaciją, 1X ir
2X apskritimai atitinkamai rodo nepri-
klausomų kintamųjų variacijas. Multikolinearumo laipsnis gali būti matuojamas pagal
1X ir 2X apskritimų persikirtimo zoną, kuri sąveikauja su Y .
Kairėje dalyje 1X ir
2X nesikerta, vadinasi nėra jokio jų tarpusavio ryšio, t.y.,
multikolinearumo nėra. Tuo tarpu vidurinėje ir dešinėje dalyse jau egzistuoja skirtingo
46
laipsnio multikolinearumas. Vidurinėje dalyje 1X ir
2X kertasi, bet jų sąveika su Y
nėra didelė, tačiau dešinėje dalyje jau persikirtimo zona, sąveikaujanti su Y yra didelė,
todėl egzistuoja stiprus multikolinearumas. Trumpiau tariant, kuo didesnis 1X ir
2X
sutapimas, sąveikaujantis su Y , tuo stipresnis multikolinearumas. Esant kraštutinei situ-
acijai, kai 1X ir
2X visiškai sutaptų (arba kai visas 1X būtų
2X viduje ir atvirkščiai),
tai multikolinearumas būtų tobulas. Dauguma kintamųjų ekonomikoje yra susiję, o tai ir
yra viena iš pagrindinių multikolinearumo atsiradimo priežasčių.
„Užsukime į virtuvę“
Geriau suvokti multikolinearumo esmę tūrėtų padėti pavyzdys, apie kurį
jau buvo šiek tiek užsiminta šios knygos pradžioje. Prisiminkime, kad ekono-
metrinio modelio sudarymas iš esmės turi labai daug panašumų su patiekalo
ruošimu. Būtent ekonometrinį modelį galima būtų įvardinti, kaip patiekalą, kurį
norime pagaminti, o nepriklausomus kintamuosius, kurie bus naudojami suda-
rant modelį, kaip ruošiamo tam tikro patiekalo sudėtines dalis (maisto produk-
tus).
Tarkime, norime paruošti salotas. Tačiau jei gamindami salotas, naudo-
sime labai panašius maisto produktus, kurie iš esmės labai nesiskirs, tai mūsų
pagamintas patiekalas nebus skanus. Tarkime gamindami salotas naudosime
didelius ir mažus pomidorus, galbūt nepamiršime įdėti dar ir šviesių bei tamsių
pomidorų. Tuomet mūsų salotose bus per daug šių daržovių, kurios turi praktiš-
kai tas pačias skonio savybes. Tokiu atveju gauname tobulą multikolinearumą,
kadangi naudoti ingredientai – pomidorai (tai yra modelio kintamieji) vienas kitą
perdengia. Galbūt mūsų patiekale užtektų panaudoti tik vienos rūšies pomido-
rus ir galutinis patiekalas taptų gerokai skanesnis.
Kuomet gamindami tas pačias salotas įdėtume ir grietinę, ir majonezą,
tada turėtume netobulą multikolinearumą. Tai yra todėl, kad grietinės ir majo-
nezo skoniai skiriasi, tačiau iš esmės tai yra labai panašūs maisto pagardai, ku-
rių paskirtis patiekale yra ta pati. Dėl šios priežasties, dažniausiai, į salotas jie
kartu nėra dedami.
47
Taigi sudarant ekonometrinį modelį, reikėtų vengti tų veiksnių, kurie „iš
pirmo žvilgsnio“ gali atrodyti pakankamai skirtingi, tačiau jų įtaka priklausomam
kintamajam yra labai panaši.
4.2 Multikolinearumo pasekmės ir požymiai
Bendrai tariant, esant koreliuotiems nepriklausomiems kintamiesiems sunku
įvertinti kiekvieno jų įtaką priklausomam kintamajam. Esant stipriam multikolinearu-
mui regresijos nepriklausomų kintamųjų koeficientai pasižymi labai aukštomis standar-
tinėmis paklaidomis, vadinasi koeficientai negali būti tiksliai įvertinti. Esant tobulam
multikolinearumui, regresijos koeficientai nėra apibrėžti ir jų standartinės paklaidos yra
begalinės (apskaičiuoti neįmanoma). Sekantis kiekybinis pavyzdys tai įrodo.
Tarkime turime imties regresinį modelį: 0 1 1 2 2ˆ ˆ ˆ
i i i iY X X u bei žinome
12r , kuris rodo koreliaciją tarp nepriklausomų kintamųjų 1X ir
2X . Kaip šio koreliacijos
koeficiento didėjimas įtakoja įverčio 2 standartinę paklaidą, t statistiką ir intervalinius
įverčius parodo lentelė 6.
Lentelė 6: Koreliacija tarp nepriklausomų kintamųjų ir matavimo tikslumas
12r 2ˆ( )SE 2
ˆ( )t 2 1, /2 2ˆ ˆ( )n kt SE
0,00 A 2 2ˆ( ) / A 2 1, /2
ˆn kt A
0,50 1,15A 2 2ˆ( ) / (1,15 )A 2 1, /2
ˆ 1,15n kt A
0,80 1,67A 2 2ˆ( ) / (1,67 )A 2 1, /2
ˆ 1,67n kt A
0,90 2,29A 2 2ˆ( ) / (2,29 )A 2 1, /2
ˆ 2,29n kt A
0,99 7,09A 2 2ˆ( ) / (7,09 )A 2 1, /2
ˆ 7,09n kt A
Šioje lentelėje skaičius A yra standartinės paklaidos dalis, siejama su koreliacija
tarp nepriklausomų kintamųjų:
22 2
2 121
221221
2
12
ˆ( )
( )(1 )
1
1
1
1
n
ii
n
ii
SE
X r
rX
Ar
48
Koreliacijos koeficientui 12r artėjant prie 1, įverčio standartinė paklaida 2
ˆ( )SE
tampa labai didelė, o 2ˆ( )t labai maža, tuo tarpu intervalinis įvertis tampa labai platus.
Kai koreliacijos koeficientas 12r yra lygus 1, tai negalime apskaičiuoti standartinės pa-
klaidos (kadangi lygties vardiklis lygus 0), vadinasi negalime apskaičiuoti ir 2ˆ( )t bei
intervalinio įverčio.
Tačiau yra ir geroji žinia apie multikolinearumą. Regresinis modelis su multiko-
lineariais veiksniais gali būti naudojamas prognozavimui, kadangi regresijos koeficien-
tai yra nepaslinkti, suderinti ir efektyvūs.
Egzistuoja keli „simptomai“, kurie analitikui, sudarančiam regresinį modelį,
leistų įtarti, jog iškilo multikolinearumo problema:
Įverčiai labai nestabilūs, t.y. įtraukus kelis stebėjimus ar naujus veiksnius,
keičiasi lygties koeficientų ženklai arba stipriai keičiasi pačios jų reikšmės;
Determinacijos koeficiento reikšmė 2R yra labai aukšta, o įverčių t statisti-
kų reikšmės labai žemos, nurodančios, kad nėra statistiškai reikšmingų
veiksnių;
Neadekvatūs ženklai, pvz., koeficientas nurodantis, kad mažėjant investici-
joms, BVP auga.
4.3 Multikolinearumo diagnostika
Pagrindiniai ir dažniausiai naudojami yra multikolinearumo nustatymo būdai yra
šie:
Porinių koreliacijos koeficientų panaudojimas:
o Porinių koreliacijų matrica.
Dauginės determinacijos koeficientų panaudojimas:
o Pagalbinės regresijos;
o VIF statistika;
o Tolerancijos matas TOL .
Porinių koreliacijų matrica. Remiantis šiuo metodu, yra sudaroma nesudėtinga
matrica, pagal kurią galima pasakyti, kurie nepriklausomi kintamieji yra multikolinea-
rūs. Tarkime, turime regresiją su k nepriklausomų kintamųjų:
0 1 1 2 2ˆ ˆ ˆ ˆ...i i i k ki iY X X X u
Yra sudaroma koreliacijos koeficientų tarp iX matrica:
49
12 13 1
21 23 2
31 32 3
1 2 3
1
1
1
1
k
k
k
k k k
r r r
r r r
r r r
r r r
Šioje matricoje atskiri koeficientai rodo ryšio stiprumą (koreliaciją) tarp i – tojo
ir j – tojo nepriklausomų kintamųjų, pvz., 12r rodo koreliaciją tarp
1X ir 2X . Visi kore-
liacijos koeficientai, esantys pagrindinėje matricos įstrižainėje ir matuojantys ryšį tų
pačių kintamųjų (11r ,
22r , 33r ir t.t.) yra lygūs vienetui.
Nykščio taisyklė. Kuo koreliacijos koeficiento modulis bus didesnis, tuo bus di-
desnė rizika susidurti su interkoreliacija tarp i – tojo ir j – tojo veiksnių.
Lentelėje 7 pateiktas porinių koreliacijų koeficientų matricos pavyzdys, kur A,
B, C ir D yra modelio nepriklausomi kintamieji. Matome, kad vienas koreliacijos koefi-
cientas yra didesnis už 0,8, t.y. egzistuoja stiprus ryšys tarp A ir B veiksnių (0,87 > 0,8),
vadinasi egzistuoja rizika susidurti su multikolinearumo problema.
Lentelė 7: Porinių koreliacijos koeficientų matrica
A B C D
A 1
B 0,87 1
C -0,15 0,54 1
D 0,25 0,69 0,08 1
Pagalbinės regresijos. Šio metodo esmė yra sudaryti tiek pagalbinių regresijos
lygčių, kiek yra nepriklausomų kintamųjų pagrindiniame regresijos modelyje. Tarkime,
turime regresinį modelį su keturiais nepriklausomais kintamaisiais:
0 1 1 2 2 3 3 4 4ˆ ˆ ˆ ˆ ˆ
i i i i i iY X X X X u
Tada yra apskaičiuojamos 4 pagalbinės regresijos lygtys:
1 0 1 2 2 3 3 4
2 0 1 1 2 3 3 4
3 0 1 1 2 2 3 4
4 0 1 1 2 2 3 3
i i i i i
i i i i i
i i i i i
i i i i i
X X X X
X X X X
X X X X
X X X X
Kiekvienas nepriklausomas kintamasis yra išreiškiamas per kitus likusius nepri-
klausomus kintamuosius, t.y. gaunamos keturios pagalbinės regresijos, po to iš kiekvie-
nos šios regresijos apskaičiuojami determinacijos koeficientai 2
iR (šiuo atveju 2
1R , 2
2R ,
2
3R ir 2
4R ) ir jie lyginami su pagrindinės regresijos determinacijos koeficientu.
50
Nykščio taisyklė. Jei kurios nors pagalbinės dauginės regresijos determinacijos
koeficiento 2
iR reikšmė yra didesnė už pagrindinės lygties 2R reikšmę, tuomet apskai-
čiuotas regresinis modelis gali pasižymėti interkoreliacija.
VIF statistika. Išvadą, apie multikolinearumo buvimą ar nebuvimą, galima gauti
ir pasinaudojus VIF kriterijumi. Šiam rodikliui greta pagrindinio regresijos modelio
reikia įvertinti jau anksčiau aptartas pagalbines regresijas ir surasti jų determinacijos
koeficientus 2
iR . Tada galiausiai yra nustatomas dispersiją spartinantis veiksnys pagal
formulę:
2
1
1i
i
VIFR
Nykščio taisyklė. Tarp nepriklausomų kintamųjų yra stiprus multikolinearumas,
jei 10iVIF .
Tolerancijos matas TOL. Tai yra atvirkštinis dydis VIF . Multikolinearumas eg-
zistuoja, kai tolerancija mažesnė kaip 0,1. Tolerancija yra apskaičiuojamas taip:
1
i
i
TOLVIF
4.4 Multikolinearumo tikrinimas MS Excel pagalba
Naudodamiesi MS Excel programa nustatysime, ar nagrinėjamame pavyzdyje
apie būsto kainas, egzistuoja multikolinearumo problema. Tai atliksime visais, prieš tai
nagrinėtais, metodais. Galiausiai, gautus rezultatus apibendrinsime.
Porinių koreliacijų matricos sudarymas
1. Norint sudaryti porinių koreliacijų matricą MS Excel aplinkoje, visų pirma,
meniu juostoje Data reikia pasirinkti pagalbinių analizės priemonių paketą
Data Analysis (jei šio paketo nėra, Jums reikia patiems įsidiegti papildinį
Analysis ToolPak).
2. Atsiradusiame lange išsirenkame funkciją Correlation ir spaudžiame OK.
3. Correlation lange ties Input Range pažymime mūsų visus kintamuosius. Tai
yra pažymime ne tik nepriklausomus kintamuosius ( ( )X Plotas ,
( )X Kambariai , ( )X Aukštas , ( )X Senumas , ( )X Atstumas , ( )D Centras ,
( )D Kita , ( )D Namas , ( )D Baldai , ( . )D Centr šildymas ), bet ir priklausomąjį
kintamąjį – ( )Y Kaina . Tai darome todėl, kad esant keliems stipriai koreliuo-
jantiems nepriklausomiems kintamiesiems, galėtume pamatyti, kurie iš jų ge-
51
riausiai sąveikauja su priklausomu kintamuoju, tai yra su ( )Y Kaina . Jei žy-
mime ir stulpelių pavadinimus, būtinai reikia uždėti varnelę ties Labels in
First Row. O Output options galima pasirinkti, kur norėtume rasti sudarytą
lentelę. Viską išsirinkę, spaudžiame OK.
Pav. 20: Porinių koreliacijų matricos sudarymas
Pav. 21: Porinių koreliacijų matrica
Vertindami, ar modelyje nėra multikolinearumo problemos, turime kreipti dėme-
sį tik į nepriklausomus kintamuosius. Kitaip tariant, į reikšmes, esančias ( )Y Kaina
stulpelyje ir eilutėje, neatsižvelgiame. Apžiūrėję porinių koreliacijų matricos koeficien-
tus, matome, kad stipriausias ryšys yra tarp nepriklausomų kintamųjų ( )X Kambariai ir
( )X Plotas (koreliacijos koeficientas yra lygus 0,8262). Taigi ryšys tarp šių nepriklau-
somų kintamųjų gali būti multikolinearumo priežastimi.
Pagalbinių regresijų sudarymas
Norint pasitelkus šį metodą nustatyti, ar modelio nepriklausomi kintamieji tar-
pusavyje koreliuoja, reikia sudaryti pagrindinę ir pagalbines regresijas. Tai atlikus, rei-
52
kia apskaičiuoti pagalbinių regresijų determinacijos koeficientus ir juos lyginti su pa-
grindinės regresijos determinacijos koeficientu.
1. Pirmiausiai sudarykime pagrindinę regresiją. Tam MS Excel aplinkoje, iš
pradžių turime meniu juostoje Data pasirinkti funkciją Data Analysis.
2. Atsiradusiame lange išsirenkame funkciją Regression ir spaudžiame OK.
3. Regression lange ties Input Y Range pažymime priklausomą kintamąjį
( )Y Kaina .
4. Tame pačiame Regression lange ties Input X Range pažymime visus nepri-
klausomus kintamuosius, kuriuos tyrimo pradžioje norime įtraukti į modelį:
( )X Plotas , ( )X Kambariai , ( )X Aukštas , ( )X Senumas , ( )X Atstumas ,
( )D Centras , ( )D Kita , ( )D Namas , ( )D Baldai , ( . )D Centr šildymas . Jei
žymime ir stulpelių pavadinimus, būtinai reikia uždėti varnelę ties Labels in
First Row. Ir galiausiai spaudžiame OK.
Pav. 22: Pagrindinės regresijos sudarymas
5. Taigi įvertinome pagrindinę lygtį. Apskaičiuotoje lentelėje Regression Sta-
tistics yra pateiktas pagrindinės regresijos determinacijos koeficientas, su ku-
riuo lyginsime pagalbinių regresijų determinacijos koeficientus. Matome,
kad 2 0,77R .
53
Pav. 23: Pagrindinės regresijos statistikos ir įverčiai
6. Sekančiuose etapuose sudarysime pagalbines regresijas, kurių kiekis yra ly-
gus nepriklausomų kintamųjų kiekiui pagrindinėje regresijoje. Šiame pavyz-
dyje yra 10 nepriklausomų kintamųjų, todėl reikės sudaryti tiek pat pagalbi-
nių regresijų (kadangi kiekvienas nepriklausomas kintamasis yra išreiškia-
mas per kitus likusius nepriklausomus kintamuosius). Tam, kad įvertintume
pirmąją pagalbinę regresiją MS Excel aplinkoje, meniu Data turime pasi-
rinkti funkciją Data Analysis, o po to Regression (analogiškai kaip buvo at-
likta sudarant pagrindinę regresiją).
7. Regression lange ties Input Y Range pažymime pirmąjį nepriklausomą kin-
tamąjį – ( )X Plotas , kuris pirmoje pagalbinėje regresijoje priklausys nuo ki-
tų linkusių nepriklausomų kintamųjų.
8. Ties Input X Range pažymime likusius nepriklausomus kintamuosius:
( )X Kambariai , ( )X Aukštas , ( )X Senumas , ( )X Atstumas , ( )D Centras ,
( )D Kita , ( )D Namas , ( )D Baldai , ( . )D Centr šildymas . Vėlgi, jei žymime ir
stulpelių pavadinimus, būtinai reikia uždėti varnelę ties Labels in First Row.
Ir galiausiai spaudžiame OK.
9. Regression Statistics lentelėje yra pateiktas šios regresijos determinacijos
koeficientas 2
1R , kuris yra lygus 0,76.
54
Pav. 24: Pirmosios pagalbinės regresijos sudarymas
Pav. 25: Pirmosios pagalbinės regresijos statistikos ir įverčiai
Analogiškai sudarome ir likusias 9 regresijas. Pvz. Antroje pagalbinėje regresi-
joje priklausomas kintamasis – ( )X Kambariai , o jį įtakojantys veiksniai: ( )X Plotas ,
55
( )X Aukštas , ( )X Senumas , ( )X Atstumas , ( )D Centras , ( )D Kita , ( )D Namas ,
( )D Baldai , ( . )D Centr šildymas . Tuomet gauname, kad 2
2 0,72R . Toliau tęsdami ana-
logiškus skaičiavimus gausime tokius šių regresijų determinacijos koeficientus:
2
3 0,12R , 2
4 0,26R , 2
5 0,36R , 2
6 0,47R , 2
7 0,19R , 2
8 0,66R , 2
9 0,1R ,
2
10 0,24R . Taigi matome, kad visi pagalbinių regresijų determinacijos koeficientai ne-
viršija pagrindinės regresijos determinacijos koeficiento 2 0,77R . Vadinasi, pasak šio
metodo, pavyzdys apie būsto kainą multikolinearumu nepasižymi.
Multikolinearumo diagnostika naudojant VIF ir TOL statistikas
Norint pasitelkus šį metodą nustatyti, ar modelio nepriklausomi kintamieji tar-
pusavyje koreliuoja, vėlgi reikia apskaičiuoti pagalbinių regresijų determinacijos koefi-
cientus. Turint šiuos dydžius tuomet nėra sudėtinga apskaičiuoti VIF arba TOL statisti-
kas.
Taip pat kaip ir buvo nagrinėta anksčiau, apskaičiuojame pagalbines regresijas ir
jų determinacijos koeficientus. Pavyzdyje apie būsto kainas jau anksčiau apskaičiavome
šiuos dydžius: 2
1 0,76R , 2
2 0,72R , 2
3 0,12R , 2
4 0,26R , 2
5 0,36R , 2
6 0,47R ,
2
7 0,19R , 2
8 0,66R , 2
9 0,1R , 2
10 0,24R .
Dabar galime apskaičiuoti VIF statistikas (atitinkamai galime paskaičiuoti ir
TOL statistikas, kadangi tai atvirkščiai proporcingas dydis VIF statistikai), pagal for-
mulę 21/ (1 )i iVIF R . Taigi 1 1/ (1 0,76) 4,17VIF , analogiškai sprendžiame toliau
ir gauname tokius rezultatus: 2 3,57VIF ,
3 1,14VIF , 4 1,35VIF ,
5 1,56VIF ,
6 1,89VIF , 7 1,23VIF ,
8 2,95VIF , 9 1,11VIF ,
10 1,32VIF . Taigi matome, kad nei
vienas VIF koeficientas neviršija 10, vadinasi modelis multikolinearumu nepasižymi.
Taip pat galima naudotis ir TOL matu, kuris irgi yra nesudėtingai apskaičiuoja-
mas pagal formulę 1
i iTOL VIF arba 21i iTOL R . Gauname tokius rezultatus:
1 (1 0,76) 0,24TOL , 2 0,28TOL ,
3 0,88TOL , 4 0,74TOL ,
5 0,64TOL ,
6 0,53TOL , 7 0,81TOL ,
8 0,34TOL , 9 0,9TOL ,
10 0,76TOL . Matome, kad
nėra nei vieno TOL mato, kuris yra mažesnis už 0,1. Vadinasi modelis multikolinearu-
mu nepasižymi.
Rezultatų apibendrinimas
Analizuodami, ar pavyzdyje apie būsto kainas egzistuoja multikolinearumo pro-
blema, naudojomės skirtingais metodais. Vis dėlto jie nepateikė vienodų rezultatų, t.y.
56
porinių koreliacijų matrica parodė, kad egzistuoja keli nepriklausomi kintamieji
( ( )X Kambariai ir ( )X Plotas ), tarp kurių yra stiprus ryšys. Tuo tarpu likę panaudoti
metodai multikolinearumo modelyje neparodė. Svarbu suprasti tai, kad atlikti testai pa-
deda tyrėjui susidaryti nuomonę, o sprendimą turi priimti jis pats. Šiuo atveju nors VIF
(ir TOL ) statistika bei pagalbinės regresijos nerodo multikolinearumo, tačiau pasitikė-
sime porinių koreliacijų matricos rezultatais, kurie rodo, kad egzistuoja stiprus ryšys
tarp ( )X Kambariai ir ( )X Plotas . Ir iš tiesų logiška, kad kambarių skaičius ir to paties
būsto plotas yra tiesiogiai susiję dydžiai; dažniausiai didesni butai turi daugiau kamba-
rių nei mažesni, o daugiau kambarių turinčių butų plotas irgi būna didesnis. Todėl gal-
vodami, kaip išspręsti multikolinearumo problemą, grįšime prie porinių koreliacijų mat-
ricos. Multikolinearumą paprasčiausiai galima išspręsti panaikinant vieną iš dviejų stip-
riai sąveikaujančių veiksnių: ( )X Kambariai arba ( )X Plotas . Kaip nuspręsti, kurį rei-
kėtų pašalinti iš modelio? Porinių koreliacijų matricoje matome, koks yra ryšys tarp
( )X Plotas ir ( )Y Kaina bei taip pat, koks yra ryšys tarp ( )X Kambariai ir ( )Y Kaina .
Pirmuoju atveju, jis siekia 0,8521, o atitinkamai antruoju – 0,7558. Taigi matome, kad
plotas stipriau veikia kainą, nei kambariai. Todėl būtent kambarių skaičiaus ir atsisaky-
sime. Šis sprendimas nėra galutinis, nes paaiškėjus naujoms aplinkybėms kambarių
skaičiaus kintamasis galbūt bus grąžintas atgal į modelį.
57
5. HETEROSKEDASTIJA
Šiame skyriuje bus aptarta heteroskedastijos samprata, atsiradimo priežastys, nu-
statymo ir šalinimo būdai.
5.1 Kas yra heteroskedastija?
Šiame skyriuje bus nagrinėjama heteroskedastiškumo (angl. heteroscedasticity)
problema. Tam, kad būtų galima geriau suprasti heteroskedastiškumo esmę, verta pa-
nagrinėti priešingą sąvoką: homoskedastija (homoscedasticity) – vienoda (homo) sklai-
da (scedasticity). Homoskedastija modelyje reiškia, jog paklaidų dispersija yra pastovi.
Tai yra viena iš klasikinio regresinio modelio prielaidų. Jei modelio paklaidos tampa
heteroskedastiškos (paklaidų dispersija nevienoda), tuomet gauti įverčiai nėra BLUE
(best linear unbiased estimators), konkrečiau – jie tampa neefektyvūs.
Matematiškai apibrėžti homoskedastiją galima taip: 2 2( )iE u , visiems i . Tuo
tarpu heteroskedastijos išraiška bus: 2 2( )i iE u .
„Užsukime į virtuvę“
Aiškiau heteroskedastijos problemą galima suprasti nukeliavus į virtuvę.
Tarkime, gaminant patiekalą naudojame įvairius produktus, kuriuos prieš tai
reikia nuskusti (bulvės, morkos), nulupti (kietai virti kiaušiniai) ar kitaip apdoroti
(agurkai, pomidorai). Priešingai nei multikolinearumas, bet panašiai kaip auto-
koreliacija, heteroskedastija yra susijusi ne tiek su pačiais produktais (kintamai-
siais), kiek su produktų atliekomis (paklaidomis). Šiuo atveju, skutant įvairaus
dydžio bulves ar lupant nevienodus kiaušinius, tarp atliekų gali patekti ir per
daug vis dar gero produkto. Panaši problema atsitiktų, jei būtų pasirinktas ne-
tinkamas apdorojimo būdas, pavyzdžiui, vietoj to, kad bulvės būtų gražiai nu-
skustos, jų lupenos yra nupjaustomos, sumažinant bulvę perpus. Kuo didesnę
bulvę lupame, tuo storesnę lupeną paliekame. Toks produktų paruošimas yra
neefektyvus ir atliekos su savimi nešasi per daug produkto savybių. Efektyvus
gamybos būdas reikštų, jog atliekų kiekis didėtų tolygiai kartu su apdorotų pro-
duktų svoriu – homoskedastiškai.
Tam, kad būtų aiškiau grafiškai galima palyginti 2 pavyzdžius.
58
Pav. 26: Homoskedastiškos paklaidos
Pav. 27: Heteroskedastiškos paklaidos
59
Pav. 26 ir pav. 27 pateikiama vartojimo priklausomybė nuo pajamų. Abejuose
brėžiniuose galima pastebėti, jog augant pajamoms, kartu auga ir vartojimas. Esminis
skirtumas paveiksluose yra vartojimo pasiskirstymas keičiantis pajamoms (sąlyginai
vartojimo sklaida 2 prilyginama paklaidų iu sklaidai). Pav. 26 vartojimo dispersija
yra pastovi – augant pajamoms išlieka tokia pati visuose intervaluose, tačiau pav. 27 ji
kinta – didėja pajamos, kartu didėja ir dispersija. Taigi, abiem atvejais matyti, jog aukš-
tesnes pajamas gaunantys asmenys vidutiniškai vartoja daugiau, tačiau antruoju atveju
jų vartojimo sklaida yra didesnė.
Minėtus homoskedastijos ir heteroskedastijos pavyzdžius galima iliustruoti ne
tik trimatėmis tankio funkcijomis, bet ir dvimatėje erdvėje. Žemiau pateikiami homos-
kedastiškų bei heteroskedastiškų (atitinkamai kairė ir dešinė pav. 28 pusės) paklaidų
pavyzdžiai. Kairėje pusėje matyti, jog paklaidos apie tiesę yra vienodai išsibarsčiusios
visose tiesės dalyse, o dešinėje pusėje paklaidų sklaida didėja augant pajamoms.
Pav. 28: Homoskedastiška (kairėje pusėje) ir heteroskedastiška (dešinėje pusėje) sklaida
Galima išskirti daug priežasčių, kodėl paklaidų dispersijos gali būti nevienodos
ir atsiranda heteroskedastija:
1. Pajamoms augant, žmonės turi daugiau pinigų, atlikusių nuo būtinojo/įprasto
vartojimo. Todėl ir sklaida ( 2 ) tikėtina, kad bus didesnė, nes turint aukš-
tesnes pajamas atsiranda daugiau pasirinkimo galimybių norint išleisti ar
kaupti turimus pinigus.
2. Išskirtys taip pat gali sukelti heteroskedastija. Išskirtis galima traktuoti, kaip
duomenis iš kitos populiacijos. Jos turi ypač didelę įtaką mažose imtyse.
3. Galima priežastis yra ir praleisti svarbūs kintamieji modelyje. Pavyzdžiui
nagrinėjant tam tikros prekės paklausą kaip kintamąjį pasirinkus prekės kai-
60
ną, tačiau praleidus panašių prekių (pakaitalų) kainas ar jų lygį, paklaidų
dispersija gali būti nevienoda. Jei praleisti kintamieji būtų įtraukti – heteros-
kedastiškumas dingtų.
4. Dėl kintamųjų asimetrijos paklaidų dispersijos taip pat gali būti nevienodos.
Labai dažnas to pavyzdys yra turtas/pajamos, kuomet maža dalis populiaci-
jos valdo didelę dalį turto/pajamų.
5. Kita priežastis – neteisingai parinkta funkcinė forma. Pavyzdžiui pasirinkta
tiesinė vietoje logaritminės.
6. Dar viena priežastis – neteisinga duomenų transformacija (duomenų dalyba
iš pasirinkto kintamojo ar kiti santykiai, pirmieji skirtumai)
7. Taip pat egzistuoja mokymosi iš klaidų modeliai, kuriuose laikui einant 2
mažėja. Pavyzdžiui nagrinėjant pradedančiųjų kulinarų laiką sugaištą gami-
nant sudėtingą patiekalą bei pagamintų patiekalų skaičių, būtų galima paste-
bėti, jog įgyjant patirties, laiko gaminant užtrunkama vis mažiau, tuo pačiu ir
nuokrypiai nuo vidurkių ( 2 ) yra mažėjantys.
Heteroskedastija yra labiau būdinga erdvinių/skerspjūvio tipo duomenims negu
laiko eilutėms. Taip atsitinka, nes nagrinėjant skerspjūvio duomenis tam tikru laiko
momentu stebiniai būna iš įvairių populiacijų. Pavyzdžiui, tiriant vidutinį darbo užmo-
kestį Lietuvoje jis priklausys ne tik nuo pramonės šakų, bet ir įmonių dydžio. Tarp di-
desnių įmonių, tikėtina, jog ne tik atlyginimai bus aukštesni bet ir jų nuokrypiai 2 .
Šitaip kintanti dispersija sukeltų heteroskedastiškumą. Tuo tarpu paprastai laiko eilutėse
nagrinėjami kintamieji priklauso vienai populiacijai, tik kinta laike. Pavyzdžiui Lietuvos
BVP, vartojimas, nedarbo lygis, infliacija 2000 – 2014 m. laikotarpyje.
Sudarius modelį mažiausių kvadratų metodu (MKM) ir radus jame heteroske-
dastijos pėdsakų, gali kilti klausimas ar čia tikrai blogai, o galbūt nereiktų kreipti į tai
dėmesio? Iš tiesų MKM būdu gauti įverčiai ˆi yra tiesiniai ir nepaslinkti (nei homoske-
dastiškos, nei heteroskedastiškos paklaidos neturi įtakos įverčių nepaslinktumui). Tai
reiškia, kad didėjant imčiai įverčiai tik artės prie savo tikrosios reikšmės, bet stipriai
nesikeis. Tačiau bus sulaužyta viena iš BLUE sąlygų, t.y. jie nebus geriausi arba efekty-
vūs. Efektyvumas reikalauja, kad įverčiai turėtų mažiausią dispersiją nepaslinktų įverčių
aibėje. Esant heteroskedastijai, ši sąlyga nebus tenkinama.
61
Kodėl neefektyvūs įverčiai yra blogai?
Dėl nevienodos paklaidų sklaidos, naudojant įprastas formules parametrų įverčių
dispersijos ir standartinės paklaidos bus skaičiuojamos neteisingai. Homoskedastijos
atveju nuolydžio koeficiento standartinė paklaida porinėje regresijoje surandama taip:
12
1
ˆ( )
( )n
ii
SE
X X
(26)
Tuo tarpu heteroskedastijos atveju porinės regresijos nuolydžio koeficiento stan-
dartinės paklaidos išraiška yra:
2 2
11 2 2
1
( )ˆ( )
[ ( ) ]
n
i ii
n
ii
X XSE
X X
(27)
Dėl heteroskedastiškumo neteisingai nustatomos ne tik standartinės paklaidos,
bet ir visi kiti su jomis susiję dydžiai, pvz. t statistikos ˆ ˆ/ ( )i it SE . Jeigu esant hete-
roskedastiškoms paklaidoms ir toliau naudojama (26) formulė, gauta t statistika bus
iškreipta. Tarkime, kad (27) formulės pagalba nustatyta standartinė paklaida yra mažes-
nė už (26) lygties pagalba nustatytą. Tokiu atveju (26) formulės naudojimas gali nulemti
tai, kad nebus pastebėtas ryšys tarp kintamųjų kai iš tiesų jis egzistuoja ir susidarytas
klaidingas įspūdis apie tai kokios yra kintamųjų sąveikos.
5.2 Heteroskedastijos nustatymas
Heteroskedastijai nustatyti yra nemažai būdų. Čia bus aptarti populiariausi bei
dažniausiai naudojami, nurodant jų stiprybes bei silpnybes. Kaip jau nagrinėta anksčiau,
heteroskedastija yra nepastovi paklaidų sklaida, todėl dauguma testų remiasi MKM gau-
tais paklaidų įverčiais iu , kurie yra tikrųjų paklaidų
iu atitikmenys imtyje, jei imtis yra
pakankamai didelė.
Vienas iš būdų nustatyti heteroskedastiją tai yra nagrinėjamo reiškinio prigim-
ties pažinimas. Tai reiškia, kad kai kuriems reiškiniams yra būdinga nepastovi sklaida
keičiantis jų reikšmėms. Kaip pavyzdį galima paminėti Prais and Houthakker darbą ti-
riant šeimų biudžetą. Tyrime buvo nustatyta, jog paklaidų sklaida apie vartojimo pri-
klausomybę nuo pajamų regresijos tiesę didėja, augant pajamoms (grafiškai situacija
pavaizduota 28 pav. dešinėje pusėje). Todėl galima tikėtis, jog panašaus tipo tyrimuose
galima susidurti su heteroskedastija. Kaip jau buvo minėta anksčiau, šia problema la-
62
biau pasižymi erdviniai (skerspjūvio) duomenys. Tiriant skerspjūvio duomenų sąryšius,
pvz., investicijas ir darbo užmokestį skirtinguose ūkio sektoriuose, dažnai naudojami
duomenys reprezentuojantys skirtingas populiacijas (skirtingus sektorius) su skirtingo-
mis dispersijomis.
Kitas neformalus, bet plačiai taikomas, yra grafinis metodas. Šio metodo metu
yra sudaroma tiriamojo reiškinio MKM regresija bei gaunami paklaidų bei priklausia-
mojo kintamojo įverčiai (atitinkamai iu ir ˆ
iY ). Toliau paklaidų įverčiai yra pakeliami
kvadratu 2ˆ( )iu . Nors 2ˆ( )iu nėra tas pats kas 2
iu , tačiau tai geriausias 2
iu atitikmuo imtyje.
Kitu žingsniu yra sudaromas grafikas, kuriame vaizduojama 2ˆiu priklausomybė nuo ˆ
iY .
Nagrinėjant 2ˆiu ir ˆ
iY priklausomybę, yra ieškoma sistemiškumo, būdingo trendo.
29 pav. pateikiamos galimos 2ˆiu ir ˆ
iY priklausomybės formos. Brėžinyje (a) jo-
kio sistemiškumo įžvelgti neina, todėl galima daryti išvadą, kad toks modelis pasižymi
homoskedastija. Tuo tarpu (b) – (e) brėžiniuose yra įvairios priklausomybės formos ro-
dančios, jog tiriamam reiškiniui būdinga heteroskedastija. Taip pat vietoje ˆiY galima
naudoti iX , kuris vienmatės regresijos atveju bus tikslus ˆ
iY atitikmuo. Daugiamatės
regresijos atveju, sudarant atskirus brėžinius su skirtingais X-ais galima sužinoti tą ne-
priklausomąjį kintamąjį, kuris sukelia heteroskedastiją.
Pav. 29: Galima paklaidų kvadratų ir priklausomo kintamojo įverčių priklausomybė. (Sudaryta pagal:
Gujarati D.N., Porter D.C. Basic Econometrics, 5th ed. McGraw-Hill, 2009)
63
Toliau bus nagrinėjami formalūs heteroskedastijos tikrinimo būdai. Vienas iš to-
kių yra Park testas. Park iškėlė idėją, jog paklaidų dispersija yra tokia kintamųjų iX
funkcija:
2 2 iv
i iX e (28)
Logaritmavus (28) lygtį, gauname:
2 2ln ln lni i iX v (29)
Kadangi 2
i nėra žinomi, todėl atliekant matavimą yra naudojami 2ˆiu kaip artimi
atitikmenys. Matavimui pritaikyta (29) lygties versija atrodo taip:
2ˆln lni i iu X v (30)
0 : 0H , teigia, kad paklaidos yra homoskedastiškos, o 1 : 0H , kad hete-
roskedastiškos. Jei koeficientas yra statistiškai reikšmingas tuomet atmetama 0H ,
teigianti jog paklaidos yra homoskedastiškos. Priešingu atveju, jei yra statistiškai
nereikšmingas, modelis heteroskedastiškumu nepasižymi. Taigi, Park testas yra nesudė-
tinga kelių žingsnių procedūra:
1. Sudaromas regresinis MKM modelis;
2. Paimami MKM gauti iu , pakeliami kvadratu ir logaritmuojami;
3. Logaritmuojami kintamieji iX ;
4. Sudaroma (30) lygtyje pateikta regresija priklausomu kintamuoju pasiren-
kant logarimuotus paklaidų kvadratus, o nepriklausomais pasirenkant loga-
ritmuotas iX reikšmes;
5. Išvestyje pateikiamas koeficiento t statistikos reikšmes lyginame su teo-
rinėmis ir atmetame arba neatmetame 0H .
Tiesa, Park testas sulaukė Goldfeld ir Quandt kritikos. Jie pastebi, jog paklaidos
iv Park testo lygtyje gali netenkinti MKM prielaidų ir pačios būti heteroskedastiškos.
Panašios prigimties kaip Park testas yra Glejser testas. Kaip ir Park teste, čia
taip pat sudaroma tiriamojo reiškinio regresija bei gaunami paklaidų įverčiai. Skirtumai
yra keli – paklaidos nėra keliamos kvadratu, o imamos absoliutinės jų reikšmės bei nau-
dojamos kitokios funkcinės priklausomybės:
64
0 1
0 1
0 1
0 1
0 1
2
0 1
ˆ| |
1ˆ| |
ˆ| |
1ˆ| |
ˆ| |
ˆ| |
i i i
i i
i
i i i
i i
i
i i i
i i i
u X v
u vX
u X v
u vX
u X v
u X v
(31)
Tokiu būdu galima patikrinti įvairias priklausomybės formas, nes paprastai jos iš
anksto nėra žinomos. MKM pagalba galima išmatuoti tik keturias pirmąsias iš (31) pa-
teiktų lygčių. Paskutinių dviejų lygčių parametrai nėra tiesiniai, todėl MKM jų išmata-
vimui nenaudojamas, o pačios lygtys naudojamos retai.
Visose lygtyse 0 1: 0H , teigia, kad paklaidos yra homoskedastiškos, o
1 1: 0H , kad heteroskedastiškos. Jei 1 koeficientas yra statistiškai reikšmingas
tuomet atmetama 0H , teigianti jog paklaidos yra homoskedastiškos.
Kritika šiam testui yra tokia pati kaip ir Park testui – paklaidos iv gali pasižymė-
ti heteroskedastiškumu. Nepaisant to, Glesjer nustatė, jog didelėse imtyse šis tetas gana
gerai randa heteroskedastiją.
Kitas, dažnai literatūroje pateikiamas, yra Spearman’o ranginės koreliacijos te-
stas. Šio testo idėja tokia, jog esant heteroskedastiškumui ir didėjant kintamojo iX
reikšmėms, paklaidų dispersija kartu arba didės arba mažės. Tokiu atveju 2
i ir iX bus
koreliuoti, o koreliacijų analizei galima skaičiuoti Spearman‘o ranginės koreliacijos
koeficientą.
Tarkime turime paprastą porinę regresiją 0 1i i iY X u . Spearman testo ei-
ga bus:
Iš MKM būdu apskaičiuotos regresijos gaunami paklaidų įverčiai iu ;
Imamos absoliutinės įverčių reikšmės ˆ| |iu ir išrikiuojamos didėjimo (arba mažė-
jimo) tvarka. Šalia išrikiuojamos iX reikšmės taip pat didėjimo (arba mažėjimo) tvarka.
Tuomet skaičiuojamas Spearman’o ranginės koreliacijos koeficientas, kur id yra skir-
tumas tarp nepriklausomojo kintamojo ir paklaidos variacinių eilučių rangų:
2
1
21 6
( 1)
n
iis
dr
n n
65
Koreliacijos koeficiento reikšmingumas patikrinamas surandant tokią t kriteri-
jaus statistikos reikšmę:
2
2
1
s
s
r nt
r
Jeigu apskaičiuota t bus didesnė už teorinę reikšmę, tai bus pagrindas atmesti
0H apie esamą homoskedastiją.
Tokiu būdu patikrinamas homoskedastijos buvimas pagal vieną iš kintamųjų. Jei
jų yra daugiau (daugiamatė regresija), tikrinama pagal kiekvieną iš jų atskirai.
Vienas dažniausiai naudojamų yra Goldfeld-Quandt testas. Testas yra paremtas
prielaida, jog heteroskedastija yra sukeliama vieno iš nepriklausomų kintamųjų. Jeigu
bus taip, tai paklaidų sklaida proporcingai keisis didėjant arba mažėjant nepriklausomo
kintamojo reikšmėms. Tarkime turime tokią regresiją: 0 1i i iY X u . Tam, kad
būtų galima atlikti šį testą reikalingi toki žingsniai:
1. Duomenys išrikiuojami pagal iX didėjimo tvarka.
Lentelė 8: Neišrikiuoti ir išrikiuoti duomenys
Pirminiai duomenys Išrikiuoti duomenys
Y X Y X
50 85 60 70
80 95 75 80
60 70 50 85
75 80 80 95
2. Pašalinami keli viduriniai stebėjimai c , o likę stebėjimai padalinami į dvi
lygias grupes po ( ) / 2n c stebėjimų kiekvienoje. Dviejų kintamųjų mode-
lyje jei imties dydis 30n , c galėtų būti nuo 4 iki 8. Jeigu 30n , c galėtų
būti nuo 10 iki 16.
3. Šioms atskiroms stebėjimų grupėms sudaromos MKM regresijos ir gauna-
mos paklaidų kvadratų sumos 1RSS (pirma imties dalis su mažesnėmis
iX
reikšmėmis) bei 2RSS (antra imties dalis su didesnėmis
iX reikšmėmis). Čia
abu RSS turi ( ) / 2 1n c k laisvės laipsnių.
4. Tuomet tikrinama standartinė F testo hipotezė apie dviejų dispersijų lygy-
bę. Jeigu dispersijos bus pripažintos lygiomis, galima bus konstatuoti ho-
moskedastiją. Kadangi 1RSS ir
2RSS turi tuos pačius laisvės laipsnius, lygi-
nant dispersijas galima apsiriboti dviem RSS sumoms. Testo statistika, kurią
66
autoriai pavadino , surandama didesnį RSS dalinant iš mažesnio. Jeigu
1 2RSS RSS , tai bus:
1
2
RSS
RSS
5. Apskaičiuota reikšmė yra lyginama su kritine F skirstinio reikšme pasi-
rinkus tam tikrą reikšmingumo lygmenį. Jei ( )/2 1,( )/2 1n c k n c kF , tuomet
nulinė hipotezė dėl homoskedastiškumo yra atmetama ir teigiama, jog egzis-
tuoja heteroskedastija.
Verta pastebėti, kad testo rezultatai priklausys ne tik, kaip įprasta, nuo pasirinkto
reikšmingumo lygmens, bet ir nuo c (pašalinamų stebinių) dydžio. Kuo c bus didesnis,
tuo skirtumas tarp dviejų grupių tikėtina bus ryškesnis.
Taip pat, jei modelyje yra keli nepriklausomi kintamieji, tai rikiavimas (pirmasis
testo žingsnis) gali būti atliekamas pagal bet kurį pasirinktą kintamąjį. Taip bus nusta-
toma ar konkretus kintamasis sukelia heteroskedastiją.
Kitas, taip pat populiarus, yra Breusch-Pagan-Godfrey testas. Lyginant šį testą
su Goldfeld-Quandt testu, išvengiama c (vidurinių reikšmių šalinimo) pasirinkimo di-
lemos bei tinkamo X , pagal kurį rikiuojami stebiniai, nustatymo. Testo idėja yra tokia:
tarkime turime k-kintamųjų regresiją:
0 1 1 2 2i i i k ki iY X X X u (32)
Paklaidų dispersija tebūnie Z funkcija:
2
0 1 1( )i i m mif a a Z a Z
Čia Z kintamaisiais gali būti keli ar net visi kintamieji X . Konkrečiu atveju, jei
turime šią lygtį, tai 2
i yra tiesiškai priklausoma nuo Z . Jei visi koeficientai, pradedant
1a yra lygūs nuliui (1 2 0ma a a ), tuomet 2
0i a ir modelis yra homoskedas-
tiškas. Šio testo procedūra yra tokia:
1. Įvertinama turima regresija (32) bei gaunami paklaidų įverčiai 1 2ˆ ˆ ˆ, , , nu u u .
2. Gaunama 2 , naudojant šią formulę:
2
2 1ˆ
n
iiu
n
3. Sukonstruojami nauji kintamieji ip , naudojant šią formulę:
2
2
ˆi
i
up
4. Sudaroma nauja regresija, kur Z vaidmenį atlieka X :
67
0 1 1i i k ki ip a a X a X v (33)
5. Gaunama (33) lygties ESS ir apskaičiuojama testo statistika :
1
2ESS
6. Darant prielaidą, jog gautos paklaidos iu yra normaliai pasiskirstę, apskai-
čiuota reikšmė lyginama su kritine 2 reikšme, esant k laisvės laipsnių:
2~ k . Jei su pasirinktu reikšmingumo lygmeniu 2~ k , tai 0H teigianti,
jog (1 2 0ka a a ) atmetama bei priimama
1H bylojanti apie esamą
heteroskedastiją.
White heteroskedastijos testas. Šis testas dar vadinamas Bendruoju heteroske-
dastijos testu, o ir jo atlikimas yra gana paprastas. Tarkime, kad nagrinėjame tokią reg-
resiją:
0 1 1 2 2i i i iY X X u (34)
1. Pirmajame etape įvertinamas (34) regresijos modelis ir randami paklaidų
įverčiai iu .
2. Antrajame etape sudaroma nauja regresija:
2 2 2
0 1 1 2 2 3 1 4 2 5 1 2ˆ
i i i i i i i iu a a X a X a X a X a X X v (35)
Kaip matyti, regresijos (35) dešinėje pusėje naudojamos originalios nepriklau-
somų kintamųjų reikšmės, jų kvadratai bei tarpusavio sandaugos. Taip pat galima
įtraukti ir aukštesnius X laipsnius. Surandamas šios pagalbinės regresijos 2R .
3. Turint 2R jis padauginamas iš imties dydžio n ir lyginamas su kritine 2
skirstinio reikšme (laisvės laipsnių skaičius lygus įtrauktų kintamųjų skai-
čiui, šiuo atveju 5):
2 2~ dfLM nR
Jei su pasirinktu reikšmingumo lygmeniu 2
dfLM , tai atmetama 0H ir teigia-
ma jog yra heteroskedastija.
Vis dėlto, testas neatsako į klausimą kokio tipo heteroskedastiškumas egzistuoja.
Taip pat, jei modelyje yra nemažai kintamųjų, norint įtraukti jų tarpusavio sandaugas,
juos pačius bei jų kvadratus ar aukštesnio lygio laipsnius, sunaudojama nemažai laisvės
laipsnių, todėl čia nereikėtų persistengti. Pastebima, jog White testui atmetant 0H , hete-
roskedastijos gali ir nebūti – tiesiog netinkamai parinkta modelio specifikacija. Dėl šios
priežasties išskiriamos 2 galimos testo atmainos:
68
į testą neįtraukiant nepriklausomų kintamųjų tarpusavio sandaugų, šis tikrins
grynai tik heteroskedastiškumą
įtraukiant tarpusavio sandaugas bus tikrinamas heteroskedastiškumas bei
modelio specifikacija.
Koenker-Bassett testas. KB testas savo prigimtini panašus į Park, Breusch-
Pagan-Godfrey ar White testus, nes remiasi paklaidų įverčių kvadratais 2ˆiu , tačiau ne-
priklausomų kintamųjų vietoje naudojami ne paprasti regresijos kintamieji X (kaip kad
buvo ankstesniuose testuose), o 2ˆiu išreiškiamas per priklausomo kintamojo įverčio
kvadratą 2ˆiY . Tarkime yra tokia regresija:
0 1 1 2 2i i i k ki iY X X X u (36)
Tada, atliekami šie žingsniai:
1. MKM apskaičiuojama regresija (36) bei randami paklaidų įverčiai iu .
2. Toliau sudaroma nauja regresija:
2 2
0 1ˆˆ
i i iu a a Y v (37)
Pagalbinėje regresijoje (37) priklausomas kintamasis yra paklaidų įverčiai pakel-
ti kvadratu, o nepriklausomu kintamuoju tampa tiriamojo reiškinio įverčiai.
3. Tikrinama 0 1: 0H a . Jei gautas parametro įvertis yra statistiškai nereikš-
mingas (su pasirinktu reikšmingumo lygmeniu), 0H neatmetama ir galima
teigti, kad heteroskedastijos nėra.
Apibendrinant galima pasakyti, jog nėra vieno paties geriausio testo. Vieni yra
gana jautrūs imties dydžiui (reikšmingumo lygmens svarba), galiai (tikimybė atmesti
melagingą hipotezę – išvengta antros rūšies klaidos) ar išskirčių įtakai. Kaip jau minėta,
White ir Goldfeld-Quandt teste sunaudojus nemažai laisvės laipsnių sumažinama testo
galia. Breusch-Pagan-Godfrey yra gana priklausomas nuo normalumo prielaidos kas
taip pat mažina testo galią.
John D. Lyon ir Chih-Ling Tsai tyrime „A Comparison of Tests for Heterosce-
dasticity“ lygino įvairius heteroskedastijos nustatymo metodus bei gavo tokias išvadas:
esant paklaidų nenormalumui Koenker testas pasirodė stipresnis nei White. Apskritai,
daugelis testų pranoko White testą modeliuose, kurie pasižymi heteroskedastija, todėl
pastarąjį naudoti bei interpretuoti atsargiai.
69
5.3 Heteroskedastijos naikinimas
Tam, kad gauti parametrų įverčiai taptų efektyvūs ir būtų galima pasitikėti t sta-
tistikos reikšmėmis reikia išspręsti heteroskedastijos problemą. Sprendimo būdai yra
keli ir gali būti skirstomi į 2 grupes: kai dispersijos 2
i yra žinomos ir kai nėra žinomos.
Lentelė 9: Duomenų pavyzdys
COMPENSATION PER EMPLOYEE ($) IN NONDURABLE MANUFACTURING INDUSTRIES ACCORDING TO EMPLOYMENT SIZE OF ESTABLISHMENT. 1958
Employment size (average number of employees)
Industry 1-4 5-9 10-19 20-49 50-99 100-249 250-499 500-999 1000-2499
Food and kindred products 2994 3295 3565 3907 4189 4486 4676 4968 5342
Tobacco products 1721 2057 3336 3320 2980 2848 3072 2969 3822
Textile mil products 3600 3657 3674 3437 3340 3334 3225 3163 3168
Apparel and related products 3494 3787 3533 3215 3030 2834 2750 2967 3453
Paper and ailed products 3498 3847 3913 4135 4445 4885 5132 5342 5326
Printing and publishing 3611 4206 4695 5083 5301 5269 5182 5395 5552
Chemicals and ailed products 3875 4660 4930 5005 5114 5248 5630 5870 5876
Petroleum and coal products 4616 5181 5317 5337 5421 5710 6316 6455 6347
Rubber and plastic products 3538 3984 4014 4287 4221 4539 4721 4905 5481
Leather and leather products 3016 3196 3149 3317 3414 3254 3177 3346 4067
Average compensation 3396 3787 4013 4104 4146 4241 4388 4538 4843
Standard deviation 742.2 851.4 727.8 805.06 929.9 1080.6 1241.2 1307.7 1110.5
Average productivity 9355 8584 7962 8275 8389 9418 9796 10281 11,750
Šaltinis: Gujarati D.N., Porter D.C. Basic Econometrics, 5th ed. McGraw-Hill, 2009
2 yra žinomas.
Žinant dispersijas, yra naudojamas svertinis mažiausių kvadratų metodas (sver-
tinis MKM). Galima panagrinėti Gujarati vadovėlyje pateikiamą pavyzdį. Šiuo atveju
yra tiriama darbo užmokesčio priklausomybė nuo įmonės dydžio skirtingose ūkio šako-
se. Apibendrinti duomenys pateikiami greta esančioje lentelėje. Iš duomenų matyti, jog
vidutinis darbo užmokestis auga, didėjant vidutiniam darbuotojų skaičiui, tačiau disper-
sija yra nepastovi ir taip pat didėja.
Tarkime yra tokia regresija:
1 2 2 3 3i i i k ki iY X X X u
70
Pavyzdyje pateikiamu atveju iY – vidutinis darbo užmokestis, o
iX – darbuotojų
skaičius. Paprastumo dėlei intervalus galima pažymėti atitinkamai: 1 – (1-4 darbuoto-
jai), 2 – (5-9), 3 – (10-19) ir t.t.
Tada pradinė regresija pakeičiama nauja, padalinant iš atitinkamų dispersijų:
11 2
ˆ1i i ki ik
i i i i i
Y X X u
Pavyzdžio atveju duomenų lentelė yra tokia.
Lentelė 10: Heteroskedastiškumo šalinimo iliustracija
Compensation, (Y) Employment size (X) σi Yi/σi Xi/σi
3396 1 743.7 4.5664 0.0013
3787 2 851.4 4.4480 0.0023
4013 3 727.8 5.5139 0.0041
4104 4 805.06 5.0978 0.0050
4146 5 929.9 4.4585 0.0054
4241 6 1080.6 3.9247 0.0055
4387 7 12432 3.5288 0.0056
4538 8 1307.7 3.4702 0.0061
4843 9 1112.5 4.3532 0.0081
Šaltinis: Gujarati D.N., Porter D.C. Basic Econometrics, 5th ed. McGraw-Hill, 2009
Gautoje regresijoje bus panaikinta heteroskedastijos problema bei įverčiai bus
efektyvūs.
Kai 2
i nėra žinomas.
Paprastai gyvenime visos populiacijos duomenys nėra pasiekiami ir dėl to atski-
rų dispersijų išmatuoti nėra galimybės. Dėl šios priežasties yra naudojami kiti metodai
heteroskedastiškumui panaikinti.
Galima naudoti White metodu apskaičiuotas standartine paklaidas. Kai kurie sta-
tistiniai suteikia tokią galimybę, kuomet dispersijos ir standartinė paklaidos pateikiamos
koregavus jų reikšmes, atsižvelgiant į heteroskedastiją.
Taip pat galima priimti įvairias prielaidas apie paklaidų dispersijos pobūdį. Pa-
vyzdžiui: paklaidų dispersija yra tiesiogiai proporcinga tiriamo priklausomo kintamojo
vidurkio kvadratui: 2 2 2( ) [ ( )]i iE u E Y . Tokiu atveju pirmiausiai MKM apskaičiuojama
regresija:
0 1 1 2 2i i i k ki iY X X X u
Įvertinus lygtį iš jos gaunami ˆiY , o tada sudaromas naujas modelis:
71
10 1
1
ˆ ˆ ˆ ˆ ˆi i ki i
k
i i i i i
Y X X u
Y Y Y Y Y
Jei prielaida apie dispersiją buvo teisinga, tuomet naujas modelis nepasižymės
heteroskedastiškumu. Praktikoje tokia transformacija padeda, jei imtis yra pakankamai
didelė.
Kita galima prielaida, paklaidų dispersija tiesiogiai proporcinga kintamojo kvad-
ratui: 2 2 2( )i iE u X . Tokia priklausomybė pavaizduota grafiškai pav. 30.
Pav. 30: Paklaidų dispersija proporcinga regresoriaus kvadratui (kairėje) ir regresoriui (dešinėje)
Šiuo atveju modelio reikšmės dalinamos iš kintamojo iX , kuris galimai sukelia
heteroskedastiją, reikšmių. Tuomet sudaroma bei MKM apskaičiuojama tokia regresija:
10 1
1 1 1 1 1
1i i ki ik
i i i i i
Y X X u
X X X X X
Šiame pavyzdyje pasirinktas nepriklausomas kintamasis 1X ir iš jo kintančių
reikšmių 1iX padalinti duomenys. Verta atkreipti dėmesį, jog išoriškai pats koeficientas
1 tampa laisvuoju nariu, nors iš tiesų jis ir toliau parodys kintamojo 1iX poveikį.
Dar viena galima panaši prielaida, paklaidų dispersija tiesiogiai proporcinga kin-
tamajam iX : 2 2( )i iE u X . Tokia priklausomybė pavaizduota grafiškai 4.16 pav. To-
kiu atveju atliekama panašūs žingsniai aprašyti anksčiau, tik dalinama ne iš iX , o iš
0.5
iX . Gauta regresija tuomet atrodo taip:
10 1
1 1 1 1 1
1i i ki ik
i i i i i
Y X X u
X X X X X
Reikia atkreipti dėmesį, jog norint pritaikyti šią transformaciją iX reikšmės turi
būti teigiamos. Taip pat čia tik išoriškai nėra laisvojo nario, todėl atliekant matavimus
reikia įvertinti modelį be laisvojo nario.
72
Dažnai heteroskedastiją padeda spręsti duomenų logaritmavimas. Šiuo metodu
paprastos X ir Y reikšmės pakeičiamos jų natūriniais logaritmais. Taigi, jei paprasta
regresija yra:
0 1 1 2 2i i i k ki iY X X X u
Tuomet transformuota atrodys taip:
0 1 1 2 2ln ln ln lni i i k ki iY X X X u
Logaritminės transformacijos dėka duomenys bei jų skirtumai yra „suspaudžia-
mi“. Pavyzdžiui, jei vieno individo pajamos yra 1000 Lt, o kito 10000Lt, tai nominalus
santykis yra 10 kartų, tačiau logaritmavus: ln1000 6,908 , o ln10000 9,213 santykis
tampa tik 1,33 karto. Taip pat tokios transformacijos pagalba parodo Y elastingumą
X , t.y. procentinį pokytį.
Taip pat galima peržiūrėti modelio specifikaciją – pasirinkti kitus kintamuosius
X arba jų netiesines transformacijas.
Apibendrinant heteroskedastijos naikinimą, reikia pabrėžti, jog daugelis prielai-
dų, skirtų problemos sprendimui, yra ad hoc (hipotezė, sugalvota norint paaiškinti nei-
giamus eksperimentų ar stebėjimų rezultatus, kad būtų galima išgelbėti teoriją nuo pa-
neigimo). Tai reiškia, tikra 2
i prigimtis nėra žinoma, o tik bandoma nuspėti. Todėl he-
teroskedastiją išspręs geriausiai tas būdas, kurio prielaidos bus arčiausiai tikrosios pa-
klaidų dispersijos kilmės. Taip pat verta paminėti tam tikrus nesklandumus susijusius
duomenų transformacijomis:
Nagrinėjant daugiamatę regresiją iš anksto nėra žinoma, kuris kintamasis iX
sukelia heteroskedastiškumą, todėl gali užtrukti teisingo kintamojo identifi-
kavimas;
Logaritminės transformacijos naudoti negalima, jei Y ir X turi neigiamų
arba lygių nuliui reikšmių;
Transformacija gali sukelti melagingą koreliaciją. Pirminiame modelyje Y ir
X gali nesieti tarpusavio koreliacija, tačiau transformavus modelį į jie gali
tapti koreliuotais;
Tikrinimo procedūrose naudojant t ar F testus, laikomasi prielaidos, jog
imtys yra didelės, todėl turint mažas imtis gautus transformacijų rezultatus
reiktų reikia vertinti itin atsargiai.
73
Vis dėlto, per daug stipriai į heteroskedastijos problemą reaguoti nereikėtų – juk
įverčiai išlieka tiesiniai, nepaslinkti bei asimptotiškai normaliai pasiskirstę (jei imtis
pakankamai didelė). Ypatingas dėmesys yra reikalingas esant dideliems skirtumams tarp
paklaidų dispersijų. Jonh Fox siūlo atkreipti dėmesį kai didžiausia dispersija yra 10 kar-
tų didesnė už mažiausiąją.
5.4 Heteroskedastijos tikrinimas MS Excel pagalba
Teorinėje dalyje buvo apžvelgta, kodėl sveikas modelis neturėtų pasižymėti he-
teroskedastijos problema, bei kaip šią problemą spręsti. Žinoma, net ir turint regresiją,
kurios paklaidos yra heteroskedastiškos dar neverta jos mesti į šiukšliadėžę, tačiau mo-
delis nebebus toks „skanus“. Šioje dalyje bus parodoma, kaip nustatyti heteroskedastijos
buvimą bei kaip jį panaikinti, siekiant pagaminti gerą modelį. Visa procedūra bus atlie-
kama lietuviška MS Excel versijos pagalba.
Parko testas. Šiuo atveju yra tiriama būsto nuomos kainos Vilniuje priklauso-
mybė nuo įvairių veiksnių. Norint patikrinti ar modelis nepasižymi heteroskedastišku-
mu, pirmiausia reikia pagaminti bandomąją regresiją. Tam bus naudojama regresija,
gauta po Backward procedūros. Turint tam tikrą pusgaminį, jau galima atlikti Park testą.
Pirmiausiai sudaromas regresinis modelis ir ištraukiamos jo paklaidos (žr. pav. 31 ir
pav. 32 ).
Pav. 31: Regresijos modelio sudarymas
74
Pav. 32: Regresijos modelio paklaidos suvestinėje
Tada sudaromas naujas duomenų masyvas: gautos paklaidos pakeliamos kvadra-
tu ir logaritmuojamos, taip pat logaritmuojami kiekybiniai nepriklausomi kintamieji.
Kokybiniai kintamieji nėra logaritmuojami.
Pav. 33: Naujo duomenų masyvo sudarymas
75
Sudaroma regresija, priklausomu kintamuoju pasirenkant logarimuotus paklaidų
kvadratus, o nepriklausomais pasirenkant logaritmuotas regresorių reikšmes ir kokybi-
nius kintamuosius.
Pav. 34: Parko regresijos sudarymas
Išvestyje pateikiamas koeficientų t statistikos reikšmes lyginame su teorinėmis
ir priimame arba atmetame hipotezę dėl heteroskedastiškumo.
Pav. 35: Įvertinta Parko regresija
76
Kaip galima pastebėti 5 punkte pateiktoje išvestyje, daugelis kintamųjų (pažy-
mėti geltonai) yra statistiškai reikšmingi, o tai reiškia, kad modelyje egzistuoja heteros-
kedastijos problema. Šią problemą panaikinti galima įvairiais būdais. Šiuo atveju loga-
ritmuojamas priklausomas kintamasis – kaina, bei nepriklausomas kintamasis – plotas.
Taip pat, modelis papildomas dar vienu kintamuoju – būsto amžiumi pakeltu kvadratu.
White‘o testas. Naujai sudarytai regresijai galima atlikti ir White’o heteroske-
dastijos testą.
Pav. 36: Pagalbinės White‘o regresijos sudarymas
Pav. 37: White‘o testo statistikos suradimas
77
Apskaičiuojama regresija bei randami paklaidų įverčiai iu (procedūra identiška
Parko testo 1 ir 2 žingsniams). Tada sudaroma nauja regresija (žr. pav. 36) Suradus de-
terminacijos koeficientą 2 0,0477R , jis padauginamas iš imties dydžio 308n ir ga-
vus White‘o statistikos reikšmę 14,7LM ji lyginama su kritine 2 skirstinio reikš-
me. Laisvės laipsnių skaičius lygus įtrauktų kintamųjų skaičiui, kuris šiuo atveju yra 16.
Pasirinkus 0,05 reikšmingumo lygmenį 2
16 26,3 . Atsižvelgiant į tai, kad testo statisti-
ka yra mažesnė už kritinę reikšmę, nulinė homoskedastiškumo hipotezė neatmetama.
78
6. AUTOKORELIACIJA
Šiame skyriuje bus aptarta autokoreliacijos samprata, jos nustatymo ir sprendi-
mo būdai.
6.1 Autokoreliacijos apibrėžimas
Sąlyga, kad skirtingų stebėjimų paklaidos iu nekoreliuotos, yra svarbi įvertinant
regresinį modelį mažiausių kvadratų metodu (MKM). Autokoreliacijos nustatymas reiš-
kia, kad viena iš Gausso-Markovo klasikinės regresijos prielaidų, teigiančių, kad pa-
klaidos neautokoreliuoja ir nestebimi sklaidos dėsningumai, yra pažeista. Formaliai,
tačiau neatsižvelgiant į šio reiškinio turinį, neautokoreliuotumo sąlyga gali būti užrašo-
ma taip:
( ) 0, kai i jE u u i j
Autokoreliacija apibrėžiama kaip koreliacija tarp tos pačios eilutės narių. Anali-
zuojant laiko eilutes autokoreliacija reikštų, kad tam tikro periodo duomenys koreliuoja
su anksčiau, praeityje fiksuotomis savo reikšmėmis. Paklaidų autokoreliacija laiko eilu-
tėse yra atvejis, kai t periodo paklaidos koreliuoja su t k periodo paklaidomis:
( ) 0, kai 0t t kE u u k
Autokoreliacijos reiškinys labai dažnai sutinkamas laiko eilutėse dėl jų inertiš-
kumo ir dėl kintamiesiems būdingo uždelsto poveikio. Skerspjūvio arba erdvės duome-
nų analizėje autokoreliacijos samprata neturi prasmės, išskyrus tuos atvejus, kai gali
būti tik vienas ar keli unikalūs duomenų išdėstymai, o gretutiniai elementai sąveikauja.
Įprastais atvejais skerspjūvio duomenų analizėje visiškai nesvarbus stebėjimų išdėsty-
mas (duomenų masyve stebėjimų eilutes sukeitus vietomis būtų vis vien gaunami tie
patys įverčiai), todėl ir prasmės ieškoti koreliacijų, atskirtų vienu ar keliais stebėjimais
tarp to paties kintamojo narių nėra jokios. Neautokoreliuotumo sąlyga, naudojant tin-
kamus laiko indeksus, turėtų būti užrašyta taip:
( ) 0, kai 0t t kE u u k
Šiose lygtyse k yra vėlinimo parametras, o t ku
yra paklaidos vėlavimas arba
ankstinys. Koreliacija tarp tu ir
t ku vadinama k-tosios eilės autokoreliacija, pvz. kore-
liacija tarp tu ir
1tu yra pirmos eilės autokoreliacija, kuri žymima
1 , o koreliacija tarp
tu ir 2tu yra antros eilės autokoreliacija, kuri bus žymima
2 ir t.t. Laiko eilutėje esan-
79
tį stebėjimų skaičių sutrumpinus T , visada galima bus surasti 1T skirtingų eilių auto-
koreliacijos funkcijų.
„Užsukime į virtuvę“
Kaip pamatysite, autokoreliaciją galima būtų įvardinti kaip atvejį, kai ruo-
šiant mišrainę yra išmetamos ne tik atliekos, bet ir dalis reikiamų ingredientų.
Pavyzdžiui, skutant morkas, nuskutamos ne tik lupenos, bet ir dalis gero pro-
dukto, kuris galėtų būti panaudotas gaminant.
Autokoreliacija laikoma nepageidaujamu reiškiniu, nes:
mažiausių kvadratų metodu (MKM) apskaičiuotas determinacijos koeficien-
tas 2R yra didesnis už tikrąjį;
mažiausių kvadratų metodu (MKM) apskaičiuotos standartinės paklaidos
( )iSE yra nustatytos neteisingai;
tikrinant hipotezes t , 2 ar F kriterijų naudojimas yra nepatikimas, nes visi
koeficientai, paklaidos ir sumos yra nustatyti neteisingai.
Dažniausiai pasitaikančios autokoreliacijos priežastys yra šios:
Dauguma ekonominių reiškinių pasižymi dideliu inertiškumu, t.y. jų būsena
bet kokiu atskirai paimtu t momentu yra glaudžiai susijusi su būsena egzis-
tavusia netolimoje praeityje;
Ekonominiai kintamieji vieni kitiems dažniausiai turi ne momentinį, o už-
delstą poveikį, tad pasikeitus ekonominėms sąlygoms, jie patys į pokyčius
sureaguos ne iš karto, o tik su vėlavimu. Šiuo atveju autokoreliacija signali-
zuotų apie neteisingai specifikuotą dinamiką;
Praleistas svarbus nepriklausomas kintamasis irgi gali sukelti autokoreliaci-
ją;
Vertinant regresijos lygtis su nestacionariais kintamaisiais, paklaidos dažnai
būna autokoreliuotos.
6.2 Autokoreliacijos nustatymo būdai
Autokoreliacijos nustatymo būdų yra ne vienas, o čia aptarsime grafinį, Durbi-
no-Watsono testą, ženklų sekų kriterijų ir Breuscho-Godfrey testą.
80
Grafinis būdas, kaip ir sako jo pavadinimas, yra pagrįstas paklaidų vizualizacija
ir grafikų nubraižymu. ,t t ku u
t t
,t t ku u
t
,t t ku u
Pav. 38: Paklaidų autokoreliacija
Kairėje ir vidurinėje panelėse galima pastebėti atitinkamai tiesinį ir ciklinį pa-
klaidų kitimą einant laikui, o tai yra dėsningumo paklaidose arba autokoreliacijos po-
žymiai. Dešinioji panelė pasižymi tuo, kad šioms paklaidos nėra būdinga jokia kitimo
tendencija, tad autokoreliacijos čia nėra.
Durbino-Watsono testas arba sutrumpintai DW testas yra dažniausiai naudoja-
mas autokoreliacijos nustatymo testas. Šiame teste nulinė hipotezė teigia, kad autokore-
liacijos nėra, o alternatyva sako, kad yra pirmos eilės liekamųjų paklaidų autokoreliaci-
ja. Nors šiuo testu tikrinamas pirmos eilės autokoreliacijos egzistavimas, DW pagalba
galima gauti autokoreliacijos fakto patvirtinimą esant ir aukštesnės eilės sąryšiams.
Testo atspirties taškas yra prielaida, kad paklaidos yra pirmos eilės autoregresi-
nis procesas, sutrumpintai AR(1):
1t t tu u e (38)
Lygtyje (38) yra pirmos eilės autokoreliacijos koeficientas, parodantis kokio
stiprumo ryšys egzistuoja tarp t ir 1t laikotarpių paklaidų. Pats koeficientas yra apri-
botas taip, kad | | 1 . Lygties (38) paklaidos te yra grynai atsitiktinis, nepriklausomai
pasiskirstęs procesas su nuliui lygiu vidurkiu ir pastovia dispersija 2
e , o sutrumpintai
2~ (0, )t ee NID . DW statistika sutrumpintai bus žymima d ir apskaičiuojama taip:
2
12
2
1
( )T
t tt
T
tt
u ud
u
(39)
Skaitiklyje esantį skirtumą pakeliant kvadratu, lygtį (39) galime perrašyti taip:
2 2
1 12 2 2
2
1
T T T
t t t tt t t
T
tt
u u u ud
u
(40)
81
Kadangi sumos 2
tu ir 2
1tu yra apytiksliai lygios (skiriasi tik vienu elemen-
tu), tai DW testo lygtį (40) galima užrašyti ir taip:
2(1 )d
Atsižvelgiant į tai, kad autokoreliacijos koeficientas įgaus skaitinę reikšmę iš
intervalo 1 1 , DW statistika d bus skaičius nuo 0 iki 4. Kai 1 , 0d , kai
1 , 4d , o kai 0 , 2d . Kuo testo statistika d bus arčiau 0 ar 4, tuo paklai-
dos stipriau koreliuos, kuo arčiau 2, tuo koreliacija bus silpnesnė. Atsižvelgiant į nusta-
tytas koeficiento ribas, atvejis kai 2d nurodo, kad autokoreliacijos nėra. Atvejis, kai
2d nurodo, kad egzistuoja teigiama paklaidų autokoreliacija, o atvejis kai 2d sie-
jamas su neigiama paklaidų autokoreliacija.
Tam, kad nustatyti ar apskaičiuota testo statistika reikšmingai skiriasi nuo skiria-
si nuo dviejų autoriai nustatė apatinę ir viršutinę kritines reikšmes (atitinkamai dL ir
dU ). Šios reikšmės priklauso nuo imties T ir regresijos lygties parametrų skaičiaus k .
DW kritinių reikšmių lentelės dažnai pateikiamos įvadinių ekonometrijos ar statistikos
vadovėlių prieduose, taip pat yra daug tinklapių internete, kur jos yra patalpintos, pvz. ši
nuoroda. Radus kritines reikšmes d statistikos intervalas nuo 0 iki 4 padalijamas į pen-
kias dalis ir nulinė hipotezė atmetama arba ne su tikimybę pagal tai į kokį intervalą ap-
skaičiuota d reikšmė patenka. Šie penki intervalai ir jų suradimo būdas yra pateikti pav.
39 esančioje schemoje, o sprendimo priėmimas lentelėje 11.
Pav. 39: DW statistikos intervalai
Jei apskaičiuota statistika patenka į neapibrėžtumo sritį, autokoreliaciją reikia
tikrinti kitu būdu.
Neapibrėžtumo
sritis
82
Lentelė 11: Sprendimo priėmimas DW teste
Nulinė hipotezė Situacija Sprendimas
Nėra teigiamos autokoreliacijos 0 < d < dL Atmesti nulinę hipotezę
Nėra teigiamos autokoreliacijos dL < d < dU Nėra sprendimo
Nėra neigiamos autokoreliacijos 4 - dL < d < 4 Atmesti nulinę hipotezę
Nėra neigiamos autokoreliacijos 4 - dU < d < 4 - dL Nėra sprendimo
Nėra autokoreliacijos dU < d < 4 - dU Negalima atmesti nulinės hipotezės
Tarkime, kad turint 32 stebėjimus buvo sudarytas toks regresinis modelis:
1 2 30,126 0,086 0,148 0,028t t t t tY X X X u
Šios lygties 2 0,86R , o 2,16d . Turint 32 stebėjimus ir 4 parametrus (su
laisvuoju nariu) iš kritinių reikšmių lentelės galima surasti, kad 1,24dL , 1,65dU ,
4 2,35dU , o 4 2,76dL . Kadangi 4dU d dU , t.y. 1,65 2,166 2,35 , tai
nulinė hipotezė neatmetama ir galima teigti, kad modeliui nebūdinga autokoreliacija.
Apibendrinant šį testą galima pasakyti, kad pirmiausiai regresijos modelis yra
įvertinamas, gaunami paklaidų įverčiai ir naudojant formulę (39) apskaičiuojama d
statistikos reikšmė. Pagal T ir k iš statistinių lentelių parenkamos dU ir dL reikšmės,
ir sukonstravus DW reikšmių intervalus priimamas sprendimas ar paklaidos yra autoko-
reliuotos, ar ne.
DW testo negalima taikyti, jeigu regresijos lygtyje tarp nepriklausomų kintamų-
jų yra įtrauktas priklausomo kintamojo vėlavimas. Jis taip pat gali duoti netikslius rezul-
tatus, jeigu paklaidos yra sugeneruotos ne pirmos, o aukštesnės eilės autoregresinio pro-
ceso.
Ženklų sekų kriterijus yra surandamas naudojant standartizuotas paklaidas. Šis
kriterijus yra pagrįstas teigiamų ir neigiamų standartizuotų paklaidų sekų suskaičiavimu.
Šio kriterijaus suradimui greta paklaidų stulpelio patogu įsivesti papildomą stul-
pelį ženklams. Šiame stulpelyje, jei standartinė paklaida bus teigiama reikėtų įterpti „+“
ženklą, o jei neigiama, tai atitinkamai „–“ ženklą. Tada reikia suskaičiuoti sekas, atsi-
žvelgiant į tai, kad viena seką sudaro vienodi ženklai, o kai ženklas pasikeičia, prasideda
kita seka. Teigiamų paklaidų, „+“ ženklų, skaičių sutrumpinus 1n , o neigiamų paklaidų,
„–“ ženklų, skaičių sutrumpinus 2n , sekų skaičiaus k vidurkis ir dispersija bus suran-
dami taip:
1 2
1 2
2 1 2 1 2 1 2
2
1 2 1 2
21
2 (2 )
( ) ( 1)k
n nk
n n
n n n n n n
n n n n
83
Pasikliautinis vidurkio intervalas, naudojant normalųjį skirstinį bus nustatomas
taip:
1,96 1,96k k kk k
Nulinė hipotezė teigia, kad sekų skaičius k yra atsitiktinis ir nepriklausomai pa-
siskirstęs dydis, o alternatyvi sako, kad sekų skaičius nėra nepriklausomai pasiskirstęs
dydis, t.y. nuliniu teiginiu sakoma, kad autokoreliacijos nėra, o alternatyviu, kad ji yra.
Jei apskaičiuota k reikšmė bus mažesnė už apatinį pasikliautinio intervalo rėžį
arba didesnė už viršutinį, nulinė hipotezė gali būti atmetama. Tada galima teigti, jog
autokoreliacija yra.
Lentelė 12: Standartizuotų paklaidų lentelė
Stebėjimas Standartizuotos paklaidos Ženklai n1 n2
1960 -0,036068 - 24 22
1961 -0,030780 -
1962 -0,026724 -
1963 -0,029160 -
1964 -0,026246 -
1965 -0,028348 -
1966 -0,017504 -
1967 -0,006419 -
1968 0,007094 +
1969 0,018409 +
1970 0,024713 +
1971 0,016289 +
1972 0,025305 +
1973 0,025829 +
1974 0,023744 +
1975 0,011131 +
1976 0,018359 +
1977 0,020416 +
1978 0,030781 +
1979 0,033023 +
1980 0,031604 +
1981 0,020801 +
1982 0,038719 +
1983 0,014416 +
1984 0,001774 +
1985 0,001620 +
1986 0,013471 +
1987 0,013725 +
1988 0,017232 +
1989 -0,004818 -
1990 -0,006232 -
1991 -0,004118 -
1992 -0,005078 -
1993 -0,010686 -
1994 -0,023553 -
1995 -0,027874 -
1996 -0,039805 -
1997 -0,041164 -
1998 -0,013576 -
1999 -0,006674 -
2000 0,010887 +
84
2001 0,007551 +
2002 0,000453 +
2003 -0,006673 -
2004 -0,015650 -
2005 -0,020198 -
Šaltinis: Gujarati D.N., Porter D.C. Basic Econometrics, 5th ed. McGraw-Hill, 2009
Kaip matome lentelėje 12 iš pradžių turime 8 neigiamas paklaidas – tai viena se-
ka, po to eina 21 teigiama paklaida – tai kita seka, 11 neigiamų – trečia seka, 3 teigia-
mas paklaidas – ketvirta seka ir 3 neigiamas – penkta. Iš viso 46 stebėjimuose turime 5
ženklų sekas. Taigi ženklų sekų skaičius 5k , „+“ ženklų skaičius 1 24n , „–“ ženklų
skaičius 2 22n , vidurkis 23,95652k , dispersija ir standartinis nuokrypis atitinka-
mai 2 11,20101k , ir 3,346791k . Gautas 95 proc. pasikliovimo intervalas ženklų
sekų skaičiui yra:
23,95652 1,96 3,346791 23,95652 1,96 3,346791
17,39681 30,51623
k
k
Akivaizdu, kad reikšmė 5k nepatenka į šį intervalą, todėl nulinė hipotezė,
kad sekų skaičius k yra atsitiktinis ir, nepriklausomai pasiskirstęs dydis yra atmetama,
o tai reiškia, kad paklaidoms būdinga autokoreliacija.
Kaip taisyklė, jei modeliui būdinga teigiama autokoreliacija, sekų skaičius bus
nedidelis, ir atvirkščiai, jei egzistuoja neigiama autokoreliacija – sekų skaičius bus dide-
lis.
Breusch-Godfrey testas išvengia Durbin-Watson testo trūkumų, regresijos lyg-
tyje tarp regresorių gali būti ir priklausomo kintamojo vėlavimas, o paklaidos gali būti
aukštesne autoregresiškos, ne tik pirma eile. Paprastumo dėlei pasinaudosime dviejų
kintamųjų regresija, nors galima įtraukti ir daugiau nepriklausomų kintamųjų:
0 1t t tY X u (41)
Liekamosios paklaidos bendru atveju gali būti formuojamos p eilės autoregre-
sinio proceso, AR(p):
1 1 2 2t t t p t p tu a u a u a u e (42)
Šioje lygtyje paklaidos te yra atsitiktinės, nepriklausomai pasiskirstę, turinčios
nuliui lygų vidurkį ir pastovią dispersiją, o sutrumpintai 2~ (0, )t ee NID . Kintamasis,
kuris tenkina šias sąlygas yra laikomas baltuoju triukšmu. Nulinė hipotezė šiame teste
teigia, kad autokoreliacijos nėra ir simboliškai gali būti užrašyta kaip
1 2 0pa a a . Alternatyvi hipotezė teigia, kad paklaidoms būdinga autokorelia-
cija, kaip aprašyta (42) lygtimi.
85
Atliekant šį testą pirmiausiai surandami lygties (41) paklaidų įverčiai tu , o tada
įvertinama pagalbinė regresija:
0 1 1 1 2 2
ˆ ˆ ˆt t t t p t p tY X bu b u b u (43)
Suradus šios lygties determinacijos koeficientą 2R , jis padauginamas iš imties
dydžio T ir autoregresinių koeficientų skaičiaus p ir taip gaunama Lagrandžo daugik-
lio statistika, kuriai būdingas 2 pasiskirstymas su p laisvės laipsniais:
2 2( ) ~ pLM T p R
Jeigu 2
pLM , tai nulinę hipotezę reikia atmesti, o pati regresija pasižymi p
eilės paklaidų autokoreliacija. Jeigu 2
pLM , tai nulinės hipotezės atmesti negalima,
t.y. jokios autokoreliacijos nėra.
6.3 Autokoreliacijos sprendimo būdai
Modelio matematinės išraiškos peržiūrėjimas retais atvejais padės išspręsti auto-
koreliacijos problemą, tačiau bet kuriuo atveju ji privalo būti tinkama. Bendru atveju,
autokoreliacija nurodo, kad kažkas iš tam tikro praeityje esančio periodo yra neįtraukta į
regresijos modelį, todėl priklausomo ar nepriklausomo kintamojo vėlavimų įtraukimas
dažniausiai padeda pašalinti autokoreliaciją. Šis sprendimas veikia net ir turint netinka-
mą funkcinę forma.
Jeigu paklaidos yra pirma eile autoregresiškos, tinkamas būdas išspręsti šią pro-
blemą yra Cochrane-Orcut procedūra. Tarkime, kad modelis yra toks:
0 1t t tY X u (44)
Pirma eile autoregresiškų paklaidų lygtis yra:
1t t tu u e (45)
Pirmiausiai abi lygties (44) puses padauginame iš ir perrašome vienu periodu
atgal į praeitį:
1 0 2 1 1t t tY X u (46)
Tada iš lygties (44) atimame lygtį (46) ir gauname tokį modelį, kur naujos pa-
klaidos yra ne tu , o
1t t te u u :
1 0 2 1 1(1 ) ( ) ( )t t t t t tY Y X X u u
Įveskime naujas santrumpas *
1t t tY Y Y , *
0 0(1 ) , *
1t t tX X X ir
užrašykime galutinę pertvarkytos regresijos išraišką:
* * *
0 1t t tY X e (47)
86
Jeigu koeficientas yra artimas vienetui, Cochrane-Orcutt regresija (47) susi-
prastina iki tokio modelio:
1t t tY X e
Nepaisant to, kad laisvojo nario nėra, atliekant matavimą dėl įvairių sumetimų
jis visgi įtraukiamas:
0 1t t tY X e
Pokyčių, o ne absoliučių dydžių regresija irgi gali padėti išspręsti autokoreliaci-
jos problemą.
87
7. MODELIO SPECIFIKACIJA
Kiekvienas empirinei analizei sudaromas modelis turėtų atitikti šiuos kriterijus:
Pagal sudarytą modelį gautos prognozės turi būti logiškos.
Modelis turi būti suderintas su ekonomikos teorija.
Nepriklausomi kintamieji turi nekoreliuoti su paklaidomis. Kai kuriose situ-
acijose yra siekiama, kad nepriklausomi kintamieji būtų griežtai egzogeni-
niai. Griežtai egzogeniški kintamieji yra nepriklausomi nuo dabartinių, atei-
ties ir praeities paklaidų reikšmių.
Modelio parametrai turi būti pastovūs, t.y. parametrų reikšmės turi būti stabi-
lios. Priešingu atveju, prognozavimas remiantis nestabiliais parametrais būtų
sudėtingas ir netgi klaidingas. Friedman‘as teigia, kad vienintelis būdas pa-
tikrinti modelio tinkamumą yra gautų prognozių įvertinimas atsižvelgiant į
sukauptą patirtį.
Modelis turėtų sugebėti paaiškinti konkuruojančių modelių rezultatus.
Paklaidos turi atitikti baltojo triukšmo reikalavimus. Jei regresinis modelis
yra adekvatus, tai sudaryto modelio paklaidos yra baltasis triukšmas, tačiau
priešingu atveju modelyje atsiranda specifikacijos paklaidų ir baltojo triukš-
mo reikalavimai yra nebetenkinami.
Viena iš klasikinių regresijos prielaidų sako, kad kiekvienas regresinis modelis,
naudojamas analizei turi būti tinkamai specifikuotas. Šioje dalyje aptarsime neteisingos
modelio specifikacijos atvejus. Nors apibrėžti „gerą modelį“ nėra sudėtinga, tačiau su-
daryti visus reikalavimus atitinkantį modelį nėra taip lengva. Veiksnių parinkimo klai-
dos, neteisinga matematinės priklausomybės forma ar duomenų netikslumai yra dažnos
neteisingos specifikacijos priežastys.
„Užsukime į virtuvę“
Remiantis analogija su salotų gaminimu, tinkamą specifikaciją būtų ga-
lima apibūdinti kaip salotas, kurios yra pagamintos iš kokybiškų bei šviežių pro-
duktų, kas atitinka tikslius ir patikimus duomenis. Į šias salotas turėtų būti
įtraukti visi reikalingi – recepte nurodyti ar tiesiog pageidaujamas skonio savy-
88
bes turintys produktai, kas rodytų, jog buvo išvengta veiksnių parinkimo klaidų.
Taip pat visi produktai turi būti tinkamai apdoroti – galbūt išvirti, o galbūt pa-
naudojami žali, kas realaus modelio atveju atitiktų teisingą matematinės pri-
klausomybės formą.
7.1 Neteisingai sudarytas modelis
Šiame skyriuje bus aptarti trys klaidų tipai. Pirmas iš jų susijęs su klaidingai pa-
rinkta matematine išraiška, antras su duomenų netikslumais, o trečias su veiksnių parin-
kimo klaidomis.
Klaidingai parinkta matematinė išraiška reikalauja mažiausio aptarimo, todėl
pradėsime nuo jos. Tarkime, kad teisinga regresija yra:
0 1i i iY X u
Tačiau sudarytas modelis yra:
0 1ln i i iY X u
Matome, kad geriausiai priklausomybė tarp priklausomo ir nepriklausomo kin-
tamojo perteikiama, kai priklausomas kintamasis yra išreiškiamas tiesine forma. Netei-
singai sudarytoje regresijoje šis ryšys perteikiamas log-lin funkcija, kuri iškreipia nepri-
klausomo kintamojo poveikį priklausomam kintamajam.
7.1.1 Duomenų netikslumai
Regresinėje analizėje naudojami duomenys gali būti netikslūs, t.y. tiek priklau-
somi, tiek nepriklausomi kintamieji gali būti išmatuoti ir pateikti su klaidomis.
Priklausomojo kintamojo matavimo klaidos. Tarkime, kad turime regresiją:
0 1 1 2 2 3 3 4 4i i i i i iY X X X X u (48)
Tačiau iY nėra stebimas tiesiogiai, jis yra su klaidomis taip kad *
i i iY Y , kur
i klaidų vektorius. Iš tiesų išmatuojama regresija atrodys taip:
*
0 1 1 2 2 3 3 4 4 ( )i i i i i i iY b b X b X b X b X u (49)
Suteikus naują santrumpą i i iv u , gauname:
*
0 1 1 2 2 3 3 4 4i i i i i iY b b X b X b X b X v (50)
Priklausomojo kintamojo matavimo klaidų poveikis regresijos lygčiai gali būti
trejopas.
89
Pirma. Paprastumo dėlei teigiame, kad klasikinės regresinio modelio prielaidos
yra tenkinamos ir ( ) 0iE u , ( ) 0iE , bei cov( , ) 0X u , t.y. paklaidų vidurkis yra
lygus 0 ir nepriklausomi kintamieji nekoreliuoja su modelio paklaidomis. Taip pat tei-
giame, kad cov( , ) 0X t.y., kad nepriklausomi kintamieji nekoreliuoja su priklauso-
mo kintamojo stebėjimo paklaidomis ir cov( , ) 0u , kuri perteikia, jog lygties paklai-
dos ir priklausomo kintamojo stebėjimo paklaidos taip pat nekoreliuoja. Tuomet para-
metrų įverčiai 0 1, , , kb b b yra nepaslinkti, suderinti, bet neefektyvūs. Taip pat
1 2, , , k ir 1 2, , , kb b b įverčių, apskaičiuotų atitinkamai pagal (48) ir (50) lygtis
dispersija ir standartinės paklaidos skiriasi, nes pagal (48) modelį bet kurio nuolydžio
koeficiento dispersija bys 2 2ˆvar( ) / ( )k u k ki kVIF X X , o pagal (50) modelį
2 2 2ˆvar( ) ( ) / ( )k u k ki kb VIF X X . Taigi, nors ir modelio su priklausomo kinta-
mojo matavimo paklaidomis parametrų įverčiai yra nepaslinkti, tačiau parametrų disper-
sija yra didesnė.
Antra. Tuo atveju, jei ( ) 0iE , t.y. priklausomo kintamojo stebėjimo paklaidų
vidurkis nėra lygus 0, bet cov( , ) 0X u , nepriklausomi kintamieji nekoreliuoja su pri-
klausomo kintamojo stebėjimo paklaidomis iu , tuomet
0b bus paslinktas, o 1 2, , , kb b b
nepaslinkti, suderinti, bet neefektyvūs.
Trečia. Jei ( ) 0iE , bet cov( , ) 0X u , t.y. nepriklausomi kintamieji koreliuo-
ja su priklausomo kintamojo stebėjimo paklaidomis, tada 0b ir koreliuojančių kintamųjų
koeficientai 1 2, , , kb b b yra paslinkti ir neefektyvūs.
Nepriklausomo kintamojo matavimo klaidos. Trakime, kad turime regresiją:
0 1 1 2 2 3 3 4 4i i i i i iY X X X X u (51)
Tačiau 3X yra su klaidomis *
3 3i i iX X . Iš tiesų išmatuojama regresija atrodo
taip:
0 1 1 2 2 3 3 4 4
0 1 1 2 2 3 3 4 4 3
( )i i i i i i i
i i i i i i i
Y b b X b X b X b X u
Y b b X b X b X b X b u
(52)
Įvedus naują santrumpą 3i i ib u lygtis (52) įgauna tokį pavidalą:
0 1 1 2 2 3 3 4 4i i i i i iY b b X b X b X b X (53)
Nors mes ir teigiame, kad nepriklausomo kintamojo stebėjimo paklaidų i vi-
durkis yra lygus 0, jos yra nepriklausomos ir nekoreliuoja su modelio paklaidomis iu ,
mes nebegalime teigti, kad bendros paklaidos i nekoreliuoja su nepriklausomu kinta-
muoju 3iX , nes:
90
3 3 3
3
2
3
2
3
cov( , ) [ [ ( )]]
[( ) ]
( )
i i i i i
i i i
i
X E X E X
E u b
E b
b
(54)
Taigi, nepriklausomas kintamasis 3iX ir paklaidos (53) lygtyje koreliuoja, o tai
pažeidžia vieną esminių klasikinės regresijos prielaidų, kad nepriklausomi kintamieji
turi nekoreliuoti su paklaidomis. Jei ši prielaida pažeidžiama, tuomet 3b yra ne tik pa-
slinktas, bet ir nesuderintas. Jis išlieka paslinktas, net ir tuomet, kai imties dydis neapi-
brėžtai auga. Koeficientas 0b taip pat tampa paslinktu.
7.1.2 Veiksnių parinkimo klaidos
Veiksnių parinkimo klaidos yra susiję su praleistais reikšmingais veiksniais arba
įtrauktais nereikšmingais veiksniais. Pirmiausiai panagrinėkime praleistų reikšmingų
veiksnių atvejį. Tarkime, kad teisingas modelis yra:
0 1 1 2 2i i i iY X X u (55)
Bet dėl tam tikrų priežasčių apskaičiuotas modelis yra:
0 1 1i i iY X (56)
Pasekmės dėl neįtraukto reikšmingo nepriklausomo kintamojo 2iX yra tokios:
1. Jei neįtrauktas kintamasis 2iX koreliuoja su įtrauktu nepriklausomu kinta-
muoju 1iX , koreliacijos koeficientas tarp šių kintamųjų
12 0r , tuomet pa-
rametrų įverčiai 0 ir
1 yra paslinkti ir nesuderinti, ir 0 0ˆ( )E , o
1 1ˆ( )E . Atitinkamai, jei regresiniame modelyje yra daugiau nepriklau-
somų kintamųjų, su kuriais koreliuoja 2iX , tuomet parametrų įverčiai prie
šių kintamųjų taip pat yra paslinkti ir nesuderinti.
2. Jei 2iX ir
1iX nekoreliuoja, tada 1 yra nepaslinktas, o
0 yra paslinktas.
3. Paklaidų dispersija 2 įvertinama neteisingai.
4. Įprastas pasikliautinasis intervalas hipotezių tikrinimo procedūroms, tikėtina,
duos klaidingas išvadas apie įvertintų parametrų statistinį reikšmingumą.
5. Gautos prognozės, remiantis neteisingai sudarytu modeliu ir prognozių pasi-
kliautinieji intervalai, bus nepatikimi.
Įverčio 1 paslinktumą ar nepaslinktumą puikiai iliustruoja ir paaiškina šis pa-
vyzdys.
91
1 1 2 21ˆ( )E b , kur
21b yra lygties su neįtrauktu nepriklausomu kintamuoju
2X ir įtrauktu regresoriumi 1X nuolydis. Kaip rodo ši lygtis,
1 yra paslinktas, nebent
2 arba 21b , ar
2 ir 21b kartu yra lygūs 0. Tačiau šiuo nagrinėjamu atveju
2 negali
būti lygus nuliui, nes mes tiriame reikšmingo kintamojo neįtraukimą į modelį, o jei 2
būtų lygus 0, tai reikštų, kad šis nepriklausomas kintamasis yra nereikšmingas ir jokia
modelio specifikacijos klaida nėra padaryta. Koeficientas 21b gali būti lygus 0 tuo atve-
ju, kai kintamieji 2X ir
1X nekoreliuoja.
Parametrų įverčių variacijų skirtumus paaiškina šis pavyzdys.
2 2
1 1ˆvar( ) / iX ir
2 2
1 1 1ˆvar( ) / ( )iVIF X X , kur VIF yra kolinea-
rumo matas ir yra lygus 2
121/ (1 )r . 12r yra koreliacijos koeficientas tarp kintamųjų
1X
ir 2X . Kadangi šios lygtys nėra vienodos, todėl ir
1ˆvar( ) skiriasi nuo 1
ˆvar( ) . Mes
žinome, kad 1ˆvar( ) yra paslinkta, o 1
ˆvar( ) nepaslinkta. Remiantis žiniomis, kad
120 1r , atrodytų, jog 1 1ˆˆvar( ) var( ) . Čia dilema, jog nors
1 yra paslinktas, šio
įverčio variacija yra mažesnė, nei 1 , kuris yra nepaslinktas. Pažymėtina, kad šiame
pavyzdyje atvejis, kai 12 0r yra nenagrinėjamas.
Tačiau remiantis vien koreliacijos koeficientu spręsti apie įverčių variaciją yra
klaidinga. Reikia atkreipti dėmesį, kad dispersija 2 , apskaičiuota pagal (55) ir (56)
lygtis bus nevienoda dėl skirtingos modelių paklaidų kvadratų sumos RSS ir skirtingo
laisvės laipsnių skaičiaus df , nes 2ˆ /RSS df . Atitinkamai RSS ir df priklauso nuo
įtrauktų į nagrinėjamą modelį nepriklausomų kintamųjų skaičiaus. Jei į modelį yra
įtraukiami papildomi regresoriai, paklaidų kvadratų suma mažėja, nes yra paaiškinama
vis didesnė vidutinė priklausomo kintamojo išsibarstymo apie vidurkį dalis – determi-
nacijos koeficientas 2R didėja, tačiau laisvės laipsnių skaičius taip pat mažėja, nes atsi-
randa daugiau vertinamų parametrų. Grynasis poveikis priklauso nuo, ar RSS sumažėja
daugiau negu sumažėja laisvės laipsnių skaičius įtraukus daugiau nepriklausomų kinta-
mųjų. Labai tikėtina, kad jei įtraukto nepriklausomo kintamojo poveikis priklausomam
kintamajam yra didelis, tai RSS sumažės daugiau negu df ir modelio tikslumas didės
dėl sumažėjusių įverčių standartinių paklaidų. Tačiau jei kintamieji turi nedidelį poveikį
priklausomam kintamajam ir jie stipriai koreliuoja (jų VIF yra didelis), tuomet nors ir
tokių kintamųjų įtraukimas į modelį sumažins modelio paklaidų kvadratų sumas, tačiau
92
padidins kintamųjų koeficientų standartines paklaidas ir taip padarys juos mažiau efek-
tyvius.
Taigi, akivaizdu, kad siekiant įvertinti 1 ir 1 variacijas, reikia atsižvelgti ne
tik į koreliacijos koeficientą tarp kintamųjų, bet ir į neįtraukto nepriklausomo kintamojo
poveikį priklausomam kintamajam, kuris lemia modelio dispersiją, o tuo pačiu ir įverčių
variacijas.
Atskiras pavyzdys apima prielaidą, kad koreliacijos koeficientas 12 0r , t.y. ne-
priklausomi kintamieji 1X ir
2X nekoreliuoja. Tuomet 1 ir 1 variacijos yra vienodos
ir koeficientas 21b yra lygus 0, todėl
1 yra nepaslinktas. Tačiau žala neįtraukus kinta-
mojo 2X išlieka, nes
1ˆvar( ) išlieka paslinkta.
Įtraukti nereikšmingi veiksniai. Tarkime, kad teisinga regresija yra:
0 1 1i i iY X u (57)
Tačiau sudarytas modelis yra:
0 1 1 2 2i i i iY X X (58)
Pasekmės įtraukus nereikšmingą nepriklausomą kintamąjį:
1. Jei įtrauktas nepriklausomas kintamasis 2iX nekoreliuoja su
1iX , tada para-
metrų įverčiai 0 ir
1 yra nepaslinkti ir suderinti t.y. 0 0ˆ( )E ir
1 1ˆ( )E . Taip pat
1 yra efektyvus, tačiau 0 nėra efektyvus, jo variacija
bus didesnė negu 0 .
2. Paklaidų dispersija 2 yra įvertinama teisingai.
3. Įprasti pasikliautinieji intervalai ir hipotezių tikrinimas išlieka teisingas.
4. Tačiau jei įtrauktas nepriklausomas kintamasis 2X koreliuoja su
1X , tada
0 ir 1 yra paslinkti, nesuderinti ir neefektyvūs. Tuomet
120 1r ir
2 2
1 1 1ˆvar( ) / ( )iX X , 2 2
1 1 1ˆvar( ) / ( )iVIF X X . Iš dviejų pas-
tarųjų išraiškų gauname 1 1ˆˆvar( ) / var( ) VIF .
Lygtys akivaizdžiai rodo, jog 1 1ˆˆvar( ) var( ) , nepaisant to, kad
1 2ˆ( )E .
Šiuo atveju nereikšmingo nepriklausomo kintamojo įtraukimas lėmė didesnę 1 variaci-
ją taip sumažindamas 1 tikslumą. Šios išvados galioja ir
0 .
Paskutinis atvejis apjungia abu pirmuosius ir aprašo situaciją, kai į modelį
įtraukti nereikšmingi ir praleisti reikšmingi veiksniai. Tarkime, kad teisinga regresija
yra:
0 1 1 2 2 3 3 4 4i i i i i iY X X X X u (59)
93
Tačiau apskaičiuota regresija yra:
0 1 1 2 2 3 3 5 5i i i i i iY X X X X (60)
Taip sudaryto modelio pasekmės gali būti dvejopos:
1. Jei įtrauktas nepriklausomas kintamasis 5X nekoreliuoja su
1X , 2X ir
3X ,
tuomet 1 ,
2 ir 3 yra nepaslinkti ir suderinti, o
0 paslinktas. 0 ,
1 , 2
ir 3 yra neefektyvūs.
2. Jei įtrauktas nepriklausomas kintamasis 5X koreliuoja su
1X , 2X ir
3X ,
tuomet 1 ,
2 ir 3 yra paslinkti ir nesuderinti. Atitinkamai jei
5X kore-
liuoja tik su kai kuriais nepriklausomais kintamaisiais, tai paslinkti ir nesude-
rinti yra tik tie parametrai, esantys prie koreliuojančių kintamųjų. 0 ,
1 ,
2 ir 3 yra neefektyvūs nepriklausomai nuo to, ar
5X koreliuoja su visais,
ar tik su tam tikrais kintamaisiais.
7.2 Diagnostika
Iš karto sudarius modelį niekada nėra aišku, ar jis yra tinkamas ir adekvatus. To-
dėl siekiant išsiaiškinti modelio adekvatumą yra tikrinamos koreguoto determinacijos
koeficiento 2
adjR reikšmės, įvertinų parametrų t statistikos, paklaidų autokoreliaciją pa-
rodančios Durbin-Watson statistikos, žiūrima, ar įvertintų koeficientų ženklai nepriešta-
rauja logikai bei nagrinėjami ir kiti svarbūs rodikliai. Tik peržvelgus šiuos rodiklius jau
galima daryti tam tikras išvadas. Pavyzdžiui, jei vidutinė paaiškinta priklausomo kinta-
mojo išsibarstymo apie vidurkį dalis yra labai nedidelė, t.y. 2
adjR yra labai mažas, yra
labai nedaug reikšmingų koeficientų arba jų ženklai prieštarauja adekvačioms prielai-
doms, Durbino-Watsono d statistika yra žema, galima manyti, kad sudarant modelį
galbūt buvo praleistas svarbus veiksnys ar panaudota netinkama kintamojo funkcinė
forma.
Šiame skyriuje bus aptarta grafinė modelio paklaidų analizė, Ramsey RESET te-
stas, papildomi determinuotumo rodikliai. Pabaigoje bus pateiktas modelio specifikaci-
jos tikrinimas MS Excel pagalba.
7.2.1 Grafinė modelio paklaidų analizė
Grafinė modelio paklaidų analizė yra geras būdas nustatyti paklaidų autokorelia-
ciją ar heteroskedastiškumą. Kaip buvo minėta anksčiau, paklaidos taip pat padeda įver-
94
tinti, ar nebuvo praleista svarbių veiksnių, ar nepanaudota netinkama kintamojo forma.
Jei buvo padaryta tokių klaidų, tuomet paklaidų grafikas perteikia aiškius paklaidų raš-
tus, t.y. tendencingą jų išsidėstymą.
Pav. 40: Kaštų priklausomybės nuo gamybos apimčių regresijos
Siekdami iliustruoti šią situaciją, remsimės D. N. Gujarati ir D. C. Porter patei-
kiamu pavyzdžiu – kaštų priklausomybės nuo produkcijos regresija, kur Y yra bendri
kaštai, o X yra produkcija.
Tarkime, kad teisinga regresija yra kubinės formos (kairė pav. 40 panelė):
2 3
0 1 2 3i i i i iY X X X u (61)
Tačiau vienu atveju sudaryta kvadratinės formos regresija (vidurinė pav. 40 pa-
nelė):
2
0 1 2i i i iY X X u (62)
O kitu atveju tiesinės formos regresija (dešinė pav. 40 panelė):
0 1i i iY X u (63)
Iš paklaidų grafikų matome, kad kuo labiau tolstama nuo teisingos regresijos,
tuo paklaidų absoliučios reikšmės darosi didesnės ir matomi dideli cikliški paklaidų
svyravimai.
7.2.2 Ramsey RESET testas
Ramsey RESET testas yra bendras modelio netikslumų testas. Šio testo esmė yra
ta, kad į pagalbinę regresiją yra papildomai įtraukiami priklausomo kintamojo įverčių ˆiY
aukštesni laipsniai. Jei papildomų regresorių įtraukimas į lygtį reikšmingai padidina 2R ,
tikėtina, kad regresijos modelis buvo sudarytas neteisingai, o papildomų netiesinių dė-
menų įtraukti nereikia.
Trakime, kad sudaryta regresija yra:
0 1 1 2 2 3 3i i i i iY X X X u (64)
95
Sudarytas modelis gali būti neteisingas dėl neįtraukto reikšmingo kintamojo 4X
ar galimų netiesinių priklausomybių tarp jau esamų kintamųjų 2X ir
3X . Paprasčiausias
būdas tai išsiaiškinti, gavus priklausomo kintamojo įverčius, įtraukti jų kvadratus ir ku-
bus kaip papildomus regresorius į modelį (64) ir įsitikinti ar jie yra reikšmingi, ar ne.
Nauja pagalbinė regresija tada bus:
2 3
0 1 1 2 2 3 3 1 2ˆ ˆ
i i i i i i iY X X X Y Y (65)
Tuomet skaičiuojami pradinės regresijos (modelis (64)) ir išplėstinės regresijos
(modelis (65)) determinacijos koeficientai 2
rR ir 2
urR . F testo reikšmė apskaičiuojama
pagal formulę:
2 2
2
( ) / ( )
(1 ) / ( )
ur r ur r
ur ur
R R k kF
R n k
Tikrinamos hipotezės 2 2
0 : ur rH R R ir 2 2
1 : ur rH R R . Jei apskaičiuota F reikšmė
yra didesnė už kritinę F statistikos reikšmę, tuomet nulinė hipotezė, kad pradinio ir
išplėstinio modelio determinacijos koeficientai nesiskiria, t.y. sudarant pradinį modelį
nebuvo padaryta modelio specifikacijos klaida, yra atmetama ir priimama alternatyvi
hipotezė, kad sudarytas modelis yra neteisingas.
Kaip jau buvo minėta anksčiau, 2R ir RSS yra glaudžiai susiję, nes didėjant de-
terminacijos koeficientui, modelio paklaidų kvadratų suma mažėja, todėl F testo statis-
tiką galima apskaičiuoti ir kitu būdu:
( ) / ( )
/ ( )
r ur ur r
ur ur
RSS RSS k kF
RSS n k
Šiuo atveju tikrinamos hipotezės 0 : r urH RSS RSS ir
1 : r urH RSS RSS . Jei ap-
skaičiuota F testo statistikos reikšmė yra didesnė už kritinę F statistikos reikšmę,
tuomet nulinė hipotezė, kad pradinio ir išplėstinio modelio paklaidų kvadratų sumos
nesiskiria, t.y. sudarant pradinį modelį nebuvo padaryta modelio specifikacijos klaida,
yra atmetama ir priimama alternatyvi hipotezė, kad sudarytas modelis yra neteisingas.
Pagrindinis RESET testo privalumas yra tas, kad jis yra paprastas, tačiau jis tik
padeda išsiaiškinti, ar modelis yra sudarytas teisingai, tačiau nepadeda surasti geresnės
alternatyvos.
96
7.2.3 Determinuotumo rodiklių lyginimas
Determinuotumo rodikliai suteikia informacijos tiek apie neįtrauktus į modelį
reikšmingus veiksnius, tiek apie netinkamai parinktą kintamųjų matematinės išraišką,
tiek apie modelio tinkamumą prognozavimui. Svarbu atkreipti dėmesį, kad remiantis
determinuotumo rodikliais lyginti skirtingus modelius ir daryti atitinkamas išvadas ga-
lima tik tada, kai lyginamų modelių priklausomi kintamieji yra tos pačios matematinės
formos.
Determinacijos koeficientas. Jau žinome, kad regresinio modelio tinkamumą
padeda įvertinti determinacijos koeficientas, kuris yra apibrėžiamas 2 /R ESS TSS
arba 2 1 /R RSS TSS , kur ESS yra modeliu paaiškinta paklaidų kvadratų suma, TSS
– visa paklaidų kvadratų suma, o RSS – modeliu nepaaiškinta paklaidų kvadratų suma.
Siekiant įvertinti modelio tinkamumą, žiūrima 2R reikšmė, kuri gali svyruoti nuo 0 iki
1. Kuo determinacijos koeficientas yra arčiau 1, tuo vidutinė priklausomo kintamojo
reikšmių išsibarstymo apie vidurkį dalis yra labiau paaiškinta, tuo modelis yra geresnis,
tuo mažesnė galimybė, kad yra praleistas reikšmingas veiksnys ar parinkta klaidinga
kintamojo matematinė išraiška. Tačiau reikia atkreipti dėmesį, kad lyginant modelius su
skirtingu nepriklausomų kintamųjų skaičiumi, gautas rezultatas nėra tikslus, nes įtrau-
kiant į modelį daugiau kintamųjų 2R reikšmė nukristi negali. Dėl šios priežasties prak-
tikoje dažniau naudojamas koreguotas 2R .
Koreguotas determinacijos koeficientas. Viena iš formulių yra
2 21 (1 )( 1) / ( 1)adjR R n n k , kur n yra stebėjimų skaičius, o k – nepriklausomų
kintamųjų skaičius. Iš šios formulės akivaizdžiai matoma, kad 2 2
adjR R . Taigi, kore-
guotas determinacijos koeficientas apskaičiuojamas įvertinus stebėjimų ir vertinamų
parametrų skaičių, todėl išvados, daromos remiantis 2
adjR yra tikslesnės.
Akaike informacijos kriterijus ( AIC )
2 /k n RSSAIC e
n
Lyginant du ar daugiau modelių tinkamiausias yra tas, kurio AIC kriterijaus
reikšmė yra mažiausia, nes tuomet modelio determinuotumas yra didžiausias ir modelio
specifikacijos klaidos tikimybė yra mažiausia.
Schwartzo informacijos kriterijus ( SIC )
97
/k n RSSSIC n
n
SIC informacijos kriterijus taip pat kaip ir AIC parodo, kad tinkamiausias mo-
delis yra tas, kurio SIC reikšmė yra mažiausia.
7.2.4 Modelio specifikacijos patikrinimas MS Excel pagalba
Modelio specifikacijos tikrinimas Ramsey RESET testu pradedamas nuo pri-
klausomojo kintamojo reikšmių Y apskaičiavimo, remiantis regresijos lygtimi. Mūsų
gauta regresijos lygtis yra:
.
.
5
1,495 0,574 0,006 0,046
0,006 5,26 10 0,059
0,123 0,055
Amzi
Kaina P
us Amziau
lo
skv
Cent
tas Aukstas Kambariai
Namas
Centras r sildymas
LogY LogX X X
X X D
D D
Pav. 41: Regresijos lygties įverčiai
Regresijos lygties koeficientai pateikiami pav. 41. Turint juos, pirmiausiai ap-
skaičiuojami priklausomo kintamojo įverčiai (žr. pav. 42), tada surandami jų kvadratai
ir kubai (žr. pav. 43). Turint šiuos dydžius jau galima įvertinti pagalbinę Ramsey regre-
siją (žr. atitinkamai pav. 44 ir 45).
98
Pav. 42: Priklausomo kintamojo įverčių skaičiavimas
Pav. 43: Priklausomo kintamojo įverčių kvadratų ir kubų skaičiavimas
Pav. 44: Pagalbinės regresijos įvertinimas
99
Pav. 45: Pagalbinės regresijos suvestinė
Pav. 46: F statistikos suradimas
100
Galiausiai apskaičiuojama F testo statistika. Ją surandant atsižvelgiame į tai,
jog pateiktame pavyzdyje naujai įtrauktų regresorių skaičius yra lygus 2, parametrų
skaičius išplėstiniame modelyje yra lygus 11, o stebėjimų skaičius yra 308. Apskaičiuo-
ta F statistika yra lygi 8,27 ir ji yra didesnė už kritinę reikšmę 3,026, todėl nulinę hipo-
tezę, teigiančią, kad modelis yra sudarytas teisingai, turime atmesti. Nors šis skirtumas
nėra didelis, tačiau atliktas Ramsey RESET testas rodo, kad sudarant modelį galėjo būti
praleistas tam tikras veiksnys ar parinkta netinkama kintamojo matematinė forma, kas
taip pat galėjo sąlygoti jau anksčiau mūsų nustatytą autokoreliaciją.
7.3 Kiti modelio specifikacijos testai
Šiame skyriuje bus aptarti Non-nested F testas ir Davidson-MacKinnon J testas.
Siekiant apibūdinti šiuos testus, reikia įvertinti tam tikrus regresinių modelių ryšius.
Tarkime, kad turime modelį A:
0 1 1 2 2 3 3 4 4i i i i i iY X X X X u
Ir greta jo modelį B:
0 1 1 2 2i i i iY X X u
Galima matyti, kad modelis B yra išvestinis iš modelio A, t.y. modelis B yra
specifinė modelio A atmaina. Jei mes įvertiname modelį A ir neatmetame hipotezės, kad
3 4 0 ir galiausiai jas patikrinę šių hipotezių neatmetame, tuomet įsitikiname, kad
modelis A tampa modeliu B.
Modeliai C, D ir E tebūnie tokie:
0 1 1 2 2
0 1 1 2 2
0 1 1 2 2ln ln
i i i i
i i i i
i i i i
Y X X e
Y Z Z v
Y Z Z
Šiuo atveju modeliai nėra išvestiniai, nes nei modelis C negali būti kildinamas iš
modelio D, nei D iš C. Čia X ir Z yra skirtingi kintamieji. Tokią situaciją gali iliust-
ruoti toks pavyzdys, kad monetaristai BVP pokyčius aiškina pinigų pasiūlos pokyčiais,
o Keinsistai – visuminių išlaidų elementų pokyčiais. Modeliai D ir E taip pat nėra vie-
nas kito atmainos.
7.3.1 Non-nested F testas
Siekiant išsiaiškinti, ar modelis C, ar modelis D yra geresnis, įvertinamas hibri-
dinis modelis:
101
0 1 1 2 2 3 1 4 2i i i i i iY X X Z Z u
Šis modelis F apima tiek modelį C, tiek modelį D. Jei modelis C yra teisingas,
tuomet 3 4 0 . Jei teisingas modelis yra D, tuomet
1 2 0 . Tai įvertinti galima
įprastu F testu, kuris šiuo atveju yra vadinamas non-nested F testu. Tačiau atliekant
įvertinimo procedūra susiduriama su problemomis. Pirma problema susijusi su tuo, kad
X ir Z kintamieji stipriai koreliuoja, todėl labai tikėtina, jog modelyje tarp kintamųjų
yra multikolinearumas. Dėl šios priežasties vienas ar keli koeficientai i tampa statis-
tiškai nereikšmingi. Dėl šios priežasties nustatyti, kuris modelis yra teisingas, tampa
nebeįmanoma. Taip pat yra ir antra problema. Tarkime, kad pasirenkame modelį C kaip
teisingą ir išsiaiškiname, kad visi šio modelio koeficientai yra reikšmingi. Tuomet į mo-
delį C papildomai įtraukiame kintamąjį 1Z ar
2Z , ar juos abu iš karto. Tuomet panaudo-
ję F testą įsitikiname, kad naujai įtrauktų kintamųjų paaiškinta ESS dalis yra statistiš-
kai nereikšminga. Taigi, pasiliekame prie modelio C.
Bet tarkime, kad visų pirma vietoje modelio C mes pasirinkome modelį D, rem-
damiesi tuo, jog visi šio modelio koeficientai yra reikšmingi. Tuomet į modelį analogiš-
kai įtraukiame kintamuosius 1X ar
2X , ar abu iš karto ir pasinaudoję F testu išsiaiški-
name, kad naujai įtrauktų kintamųjų paaiškinta ESS dalis yra statistiškai nereikšminga,
mes pasiliekame prie modelio D. Taigi, tokiu atveju atlikus šį testą nustatyti, kuris mo-
delis yra geresnis, negalime.
7.3.2 Davidson-MacKinnon J testas
Davidson-MacKinnon J testas yra patobulintas non-nested F testas. Šio testo
atlikimo procedūra yra tokia:
Trakime, kad pirmiausia yra įvertinamas modelis D ir gaunami Y įverčiai ˆD
iY .
Tuomet pirmame žingsnyje gauti Y įverčiai, kaip papildomas regresorius įtrau-
kiami į C modelį:
0 1 1 2 2 3ˆD
i i i i iY X X Y u
Remiantis t testu tikrinama hipotezė, ar 3 0 .
Jei hipotezė, kad 3 0 , yra neatmetama, gailima teigti, kad modelis C yra tei-
singas, nes įtrauktas ˆD
iY , kuris reprezentuoja neįtrauktų į C modelį kintamųjų poveikį,
yra nereikšmingas. Modelis D šiuo atveju nesuteikia jokios papildomos informacijos,
102
kuri galėtų pagerinti modelį C. Jei ši hipotezė neatmetama, tuomet modelis C nėra tei-
singas.
Tuomet procedūra kartojama su kitu modeliu. Gaunamos ˆC
iY reikšmės. Įvertinta
Y reikšmė kaip papildomas regresorius įtraukiamas į modelį D:
0 1 1 2 2 3ˆC
i i i i iY Z Z Y v
Dabar tikrinama hipotezė, kad 3 0 . Jei ši hipotezė yra neatmetama, tuomet
kaip teisingas pasirenkamas modelis D. Tačiau jei hipotezė atmetama, tuomet pasiren-
kamas modelis C.
Lentelė 13: Sprendimai J teste
Hipotezė β3=0 Hipotezė γ3=0
Neatmetama Atmetama
Neatmetama Pasirenkami abu modeliai C ir D Pasirenkamas modelis D, atmetamas C
Atmetama Pasirenkamas modelis C, atmetamas D Atmetami abu modeliai C ir D
Šaltinis: Gujarati D.N., Porter D.C. Basic Econometrics, 5th ed. McGraw-Hill, 2009
Iš lentelės matome, kad tuo atveju, kai J testas procedūra lemia, jog reikia pasi-
rinkti abu modelius, arba abu atmesti, aiškios išvados, kuris modelis tinkamesnis pada-
ryti negalime. Taip pat šį modelio trūkumas yra tas, kas mažoms imtims J testas nėra
labai tikslus, nes dažnai atmetamos teisingos hipotezės.
103
LITERATŪROS SĄRAŠAS
Boguslauskas V. Ekonometrika. Kaunas: Technologija, 2008.
Čekanavičius V., Murauskas G. Statistika ir jos taikymas I. Vilnius: TEV, 2000.
Čekanavičius V., Murauskas G. Statistika ir jos taikymas II. Vilnius: TEV, 2004.
Čekanavičius V., Murauskas G. Statistika ir jos taikymas III. Vilnius: TEV,
2009.
Martišius S. Ekonometrija ir prognozavimas. Vilnius: VU leidykla, 2000.
Martišius S. Regresinės ir koreliacinės analizės metodai. Vilnius: VU leidykla,
1992.
Maddala G.S., Lahiri K. Introduction to Econometrics, 4th
ed. John Wiley &
Sons, 2009.
Hill C., Grffiths W., Judge G. Undergraduate Econometrics, 2nd
ed. John Wiley
& Sons, 2000.
Gujarati D.N., Porter D.C. Basic Econometrics, 5th
ed. McGraw-Hill, 2009.
Wooldridge J.M. Introductory Econometrics. A Modern Approach, 6th
ed.
South-Western College Pub, 2015.
104
GAIRĖS TOLESNIEMS DARBAMS
Savarankiškas savo mokomosios priemonės rašymas ir spragų, kurios yra palik-
tos tekste koregavimas, padės studentams dar geriau įsisavinti medžiagą ir praplėsti sa-
vo suvokimą ekonometrijos srityje. Taip pat tai puiki proga išmokti dirbti su Word te-
ksto redaktoriumi ir MathType formulių redaktoriumi, leidžiančiu įterpti LaTeX kodą į
Word dokumentus.
Sekančioms mokomosios priemonės versijoms būtini šie pakeitimai:
Kiekvienas testas, įvertinimo būdas ar modelio tipas turi turėti savo empirinę
iliustraciją;
Greta skerspjūvio imties prasminga būtų sudaryti ir laiko eilučių imtį, būtiną
empiriniam autokoreliacijos temos iliustravimui;
Empirinės iliustracijos galėtų būti pateiktos nebūtinai tik Excel, bet ir R, ar
EViews pagalba;
Pats tekstas turi tapti nuoseklesniu, t.y. turi atsirasti paaiškinimai kodėl nau-
dojamas vienas ar kitas problemos sprendimo būdas, pvz., kodėl Cochrane-
Orcutt procedūroje viena lygtis yra atimama iš kitos, ko šiuo veiksmu sie-
kiama;
Visus skolinius iš Gujarati ir kitų vadovėlių laikui einant reikėtų pakeisti sa-
vais, o prastos kokybės paveiksliukus perpiešti;
Sunumeruotos turi būti tik pačios svarbiausios formulės arba tos į kurias
duodamos nuorodos tekste.
Recenzentas Algirdas Bartkus