Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
Többváltozós Regresszió-számítás
4.-5. előadás
Kvantitatív statisztikai módszerekDr. Szilágyi Roland
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
• X (X1, X2, … , Xp):
magyarázó változó(k), független változó(k)
• Y: eredményváltozó, függő változó
• Ok-okozati kapcsolat: X okozza Y változását
Korreláció Regresszió
Célja a kapcsolat
szorosságának mérése.
Célja a kapcsolatban
megfigyelhető
törvényszerűség
megfogalmazása, amelyet
valamilyen függvény ír le.
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
Többváltozós lineáris regressziós modell
• x1, x2, …, xp és y közötti kapcsolatot ábrázoló egyenes.
• Az y függ:
• x1, x2, …, xp – p db magyarázó változótól
• A véletlen ingadozásától (ε)
• β0, β1, …, βp regressziós együtthatóktól.
Y = β0 + β1x1 + β2x2 +…+ βpxp +ε
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
Többváltozós lineáris regresszióadatstruktúrája
ny
y
y
y2
1
pnnn
p
p
xxx
xxx
xxx
X
21
22212
12111
1
1
1
pb
b
b
b
b
2
1
0
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
Legkisebb négyzetek módszere• A legkisebb négyzetek módszere segítségével
megtalálható a legjobb torzítatlan becslése a (β0, β1, β2,… βp) regressziós paramétereknek. (BLUE)
min)...();;...;;( 2
22110210 ppp xbxbxbbybbbbf
ppxb...xbxbby 22110
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
6
A paraméterbecslés egyenletrendszere
min)...();;...;;( 2
22110210 ppp xbxbxbbybbbbf
2
22110
2
2
2211202
1122
2
1101
22110
...
...
...
...
2
1
pxbxxbxxbxbyx
xxbxbxxbxbyx
xxbxxbxbxbyx
xbxbxbnby
ppppp
pp
pp
pp
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
7
Az egyenletrendszer mátrix alakban felírva:
pppp
p
p
p
pb
b
b
b
xxxxxx
xxxxxx
xxxxxx
xxxn
yx
yx
yx
y
p
2
1
0
2
21
2
2
212
112
2
1
21
2
1
...
...
...
...
2
1
bXXyXTT
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
Az egyenletrendszer mátrix alakban felírva:
bXXyXTT
yXXXbTT
1
Az egyenletrendszer megoldása adja a regressziós paraméterek becsült értékeit, melyek segítségével felírható a tapasztalati
(becsült) regresszió függvény.
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
A paraméterek értelmezése
Y b0 -val lesz egyenlő abban az esetben, ha minden Xi = 0. Ez csak abban az esetben értelmezhető, a Yi értékkészletében szerepel a b0.
Az Xp egységnyi növekedésének hatására az eredményváltozó átlagosan bp egységgel fog megváltozni, ha a többi magyarázó változó értéke nem változik (Ceteris Paribus).
ppxb...xbxbby 22110
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
Reziduális változó
n
i
ii
n
i
n
i
ii
iiii
iii
iii
yyyyyy
eyyyy
eyy
yye
1
2
1 1
22ˆˆ
ˆ
ˆ
ˆ
Sy = + Se
A megfigyelt Y értékek eltérés négyzetösszege
A regresszió által magyarázott eltérésnégyzetösszeg
A reziduális eltérés (maradék) eltérésnégyzetösszege
yS ˆ
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
ANOVA
2
iy )y(y =SSST
2
iy )yy( = SSSR
MSE
MSRF
A variancia forrása Eltérésnégyzetösszeg (SS)Szabadságfo
k (DF)Átlagos négyzetösszeg
(MS)F-érték
Regresszió (R) p MSR=SSR/p
Hibatényező (E) n-p-1 MSE=SSE/(n-p-1)
Teljes (T) n-1 -
2
ie )y(y = SSSE
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
Modell tesztelés
0: 210 pH
.0:1 jH
1
pn
SSE
p
SSR
F
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
β paraméterek tesztelése
Ha tszámított<tkritikus→H0
Ha tszámított>tkritikus→H1
0:
0:
1
0
i
i
H
H
iie
i
i
ii
vs
b
s(b
b=t
)
1;2
1
pnkritikus tt
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
Többváltozós lineáris regressziós modell feltételrendszere
A hibatagra vonatkozó feltételek
1. Várható értéke 0 M(ε) = 0
2. Varianciája konstans Var(ε) = 2
3. A hibatag értékei nem autokorreláltak.
4. Normális eloszlású valószínűségi változó.
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
A magyarázó változókra vonatkozó feltételek
1. Egymástól lineárisan függetlenek legyenek. (egyik magyarázó változót se lehessen a többi magyarázó változó lineáris kombinációjaként előállítani)
2. Értékeik rögzítettek legyenek, neváltozzanak mintáról mintára.
3. Mérési hibát nem tartalmaznak.
4. Nem korrelálnak a hibatényezővel.
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
Feltétel Felt. sérülése Köv. Ellenőrzés Megjegyzés
Függő és független változókra vonatkozó feltétel
Linearitás Nem lineáris kapcsolat
Becsült értékek sérülése
Pontdiagram, r2
Független(egymástól)
Multikollinearitás Megbízhatatlan becslés, magas st. hiba a regr. koefficiensnél
F szignifikáns, t nem;Korrelációs mátrix;VIF-mutató
Kizárólag többváltozós regr. esetében
Hibatagokra vonatkozó feltétel
Normális eloszlás
Nem normális eloszlás
F-teszt, t-teszt érvénytelen
Reziduumok standardizált eloszlásának hisztogramjai
Legkisebb négyzetek módszere kiküszöböli
Nem korreláltak
Autokorreláció Nem hatásos, nagy KI
Reziduumok ábrázolása az idő / a megfigyelések sorrendjében; Durbin-Watson teszt
Idősornál merülhet fel a probléma.
Homoszke-daszticitás
Hetero-szkedaszticitás;korrelál az Xi-vel
Nem hatásos, nagy KI
Pontdiagram a standardizált reziduumok szórásáról
Logaritmizálásvagy a súlyozottan LNM segít
Forrás: Sajtos-Mitev [2006], 217.o.
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
Standard lineáris regressziós modell
Ahol az előbb említett feltételekteljesülnek.
Amennyiben a mintabeli adatok nemigazolják a feltételek teljesülését,bonyolultabb modellre és becslésieljárásokra van szükség.
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
A hibatagra vonatkozó feltételek ellenőrzése
1. Várható értéke 0 M(ε) = 0
2. Varianciája konstans Var(ε) = 2
3. A hibatag értékei nem autokorreláltak.
4. Normális eloszlású valószínűségi változó.
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
1. M(ε) = 0
• A hibatagok pozitív és negatív értékei kiegyenlítikegymást.
• Ha eltér a 0-tól, annak oka lehet, hogy kihagytunk amodellből egy szignifikáns magyarázó változót.
• Nehéz a gyakorlatban ellenőrizni.
• Ha feltételezzük, hogy a legkisebb négyzetekmódszere érvényesül, akkor teljesül ez a feltétel.
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
A hibatagra vonatkozó feltételek ellenőrzése
1. Várható értéke 0 M(ε) = 0
2. Varianciája konstans Var(ε) = 2
3. A hibatag értékei nem autokorreláltak.
4. Normális eloszlású valószínűségi változó.
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
2. Homoszkedaszticitás (Var(ε) = 2)
• A hibatag varianciája állandó.
Ha nem: heteroszkedaszticitás
• Tesztelése:
o Grafikus – a becsült reziduumokat a kiválasztott
magyarázó változó vagy az ŷ függvényében ábrázoljuk
o Statisztikai tesztek – Goldfeld-Quandt-féle teszt,
(Különösen akkor, ha a heteroszkedaszticitás valamelyikmagyarázó változóhoz kapcsolódik.)
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
xi xi
Homoszkedaszticitás grafikus tesztelése
Homoszkedasztikus hibatag Heteroszkedasztikus hibatag
e
xi
e e
ŷ ŷŷ
e – reziduum
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
• H0: j2 = 2
H1: j2 ≠ 2
• Lépései:
1. Rangsor: a keresztmetszeti adatokat y szerint rangsorba rendezzük.
2. Független részminták , (ahol r > 0, > p )
3. Regressziós függvények, reziduális szórásnégyzet (se2) számítása az 1. és
3. csoportra
4. F-próba:
Homoszkedaszticitás Goldfeld-Quandt-féle tesztelése
2
2
r-n
2
2
2
1
2
2
2
1
s
s
e
eF
2
r-n;;
2
r-nr
2
r-n
221
rn
(a varianciák eloszlást követnek és ezek egymástól függetlenek)
H0
F(1-α/2); ν1,ν2F(α/2)
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
A hibatagra vonatkozó feltételek ellenőrzése
1. Várható értéke 0 M(ε) = 0
2. Varianciája konstans Var(ε) = 2
3. A hibatag értékei nem autokorreláltak.
4. Normális eloszlású valószínűségi változó.
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
A hibatag értékei korrelálatlanok• Keresztmetszeti adatokból történő egyszerű véletlen
mintavétel esetében ez a feltétel automatikusan teljesül.
• Ha a modell idősoros adatokra épül, gyakran előfordul ahibatagok autokorreláltsága.
• Autokorreláció oka:
– Nem megfelelő függvénytípus.
– Nem véletlen jellegű mérési hiba.
– A modellben nem szerepel valamennyi lényegesmagyarázó változó (nem ismerjük fel a szerepét / túl rövid idősor /
nincs adat).
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
A kihagyott változókmiatt a reziduumoknem véletlenszerűek,hanem az egymástkövető értékek közöttjelentős korrelációvan.
Autokorreláció grafikus tesztelése
t
e e
t
e
t
Az autokorreláció afüggvénytípus helytelenmegválasztásának akövetkezménye.
+ KVANTITATÍV TESZTEK!
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
H0: ρ = 0 korrelálatlan
H1: ρ ≠ 0 autokorreláció
0 dl du 2 4-du 4-dl 4
Autokorreláció tesztelése Durbin-Watsonpróbával
- zavaró autokorreláció
+ zavaró autokorreláció
Határai:
Pozitív autokorreláció:
Negatív autokorreláció:
Bizonytalansági tartomány: nem tudunk dönteni
• Növelni kell a megfigyelések számát• Új változót kell bevonni a modellbe
40 d
20 d
42 d
Elfogadási tartomány
n
t
t
n
t
tt
e
ee
d
1
2
2
2
1)(
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
A Durbin-Watson próba döntési táblázata
H1 Elfogadjuk H0:p=0Elvetjük
Nincs döntés
p>0Pozitív autokorreláció
d>du d<dl dl<d<du
p<0Negatív autokorreláció
d<4-du d>4-dl 4-dl<d<4-du
Forrás: Kerékgyártó-Mundruczó [1999]
du illetve dl értékét a Durbin-Watson táblázatból határozzuk meg
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
A hibatagra vonatkozó feltételek ellenőrzése
1. Várható értéke 0 M(ε) = 0
2. Varianciája konstans Var(ε) = 2
3. A hibatag értékei nem autokorreláltak.
4. Normális eloszlású valószínűségi változó.
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
A hibatag eloszlása normális
Tesztelése:
• Grafikusan ábrákkal
• Kvantitatív módszerekkel – illeszkedésvizsgálat
- próba
• Ferdeségi, csúcsossági mérőszámokkal
2
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
A reziduumok eloszlásának grafikus tesztelése
A reziduumokat várható értékük függvényében ábrázoljuk.
Ha az ábra megközelítően lineáris, akkor a feltétel teljesült.
e
z
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
Illeszkedésvizsgálat
H0: Pr(εj) = Pj (normális eloszláshoz tartozó megfelelő valószínűségi érték)
H1: Jj: Pr(εj) ≠ Pj
r
i i
i
nP
nPf
1
22 )(
)1(),1(2
br
H0
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
A magyarázó változókra vonatkozó feltételek
1. Egymástól lineárisan függetlenek legyenek. (egyik magyarázó változót se lehessen a többi magyarázó változó lineáris kombinációjaként előállítani)
2. Értékeik rögzítettek legyenek, neváltozzanak mintáról mintára.
3. Mérési hibát nem tartalmaznak.4. Nem korrelálnak a hibatényezővel.
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
Multikollinearitás
• Mintabeli tulajdonság – mintán kívül nem alkalmazható.
• Ellenőrzése:
• Xj=f(X1, X2,…,Xj-1, Xj+1, …,Xp) regressziós modell képzése után:– Többszörös determinációs együtthatóval
– F-próbával (F>Fkrit)
– VIF-mutatóval
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
VIF-mutató
• Variancianövelő tényező
•
• VIF=1 ha Rj2=0 (amikor a j. magyarázó változó nem
korrelál a többi magyarázó változóval)
• VIF Rj2=1 (a j. magyarázó változó pontosan kifejezhető a
többi lineáris kombinációjaként)
• - gyenge multikollinearitás
- erős zavaró multikollinearitás
- nagyon erős, káros multikollinearitás
21
1
j
jR
VIF
VIF1
VIF
VIF
VIF
5
52
21
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
Káros multikollinearitás esetén…
• megkeressük azokat a magyarázó változókat, amelyek a zavart okozzák, és elhagyjuk őket a modellből;
• az egymással nagyon szoros kapcsolatban állómagyarázó változókat egy új változóbanösszevonjuk (főkomponensek), amely másabblesz, mint az eredeti, de hordozza azokinformációtartalmát.
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
Optimális regressziós modell felépítése
Hogyan válasszuk ki, mely magyarázó változók kerüljenek be a modellbe és
melyek nem?
• Korrelációs együtthatók
• Stepwise eljárások
– Backward eliminációs módszer
– Foreward módszer.
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
Backward elimináció lépései
1. A magyarázó változóval szerintünk logikailag összefüggő valamennyi változót beépítjük a modellbe és kiszámítjuk a paraméterek standard hibáját.
2. Kiszámítjuk a magyarázó változók paramétereire a parciális t-próba értékét.
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
β paraméterek tesztelése
Ha tszámított<tkritikus→H0
Ha tszámított>tkritikus→H1
0:
0:
1
0
i
i
H
H
iie
i
i
ii
vs
b
s(b
b=t
)
1;2
1
pnkritikus tt
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
Backward elimináció lépései3. Megvizsgáljuk azt, hogy az abszolút értéken
legalacsonyabb t értékkel bíró változó szignifikáns változó-e:
ha a próbafüggvény értéke magasabb az adott szignifikancia-szinthez tartozó függvényértéknél. a változót megtartjuk a modellben, így optimális regresszió-függvénynek az általunk választott valamennyi változót tartalmazó modell tekinthető, tehát már első iterációban optimális regresszió-függvényhez jutottunk.
Ebben az esetben teszteljük a modell megbízhatóságát.
0 : ioH 0 : ioH
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
Model Testing
0: 210 pH
.0:1 jH
1
pn
SSE
p
SSR
F
0
Pr
211 : H
F
);(
1
121 F
0
Pr
211 : H
);( 21
21
F
);(
1
12
21
F
F
0
Pr
211 : H
F);( 211 F
H0
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
Backward Eliminationha a próba értéke alacsonyabb az adott szignifikancia-szintheztartozó értéknél, akkor e változót kizárjuk - elimináljuk - a regressziós modellből: e változó - a többi változóhoz képest -nem gyakorol lényeges hatást a magyarázó változóra, nincs indokunk a modellben való szerepeltetésére.
4. A maradék magyarázó változók felhasználásával egy újabb modellt szerkesztünk, majd a 2. pontnál folytatjuk a vizsgálatot.
0 : ioH 0 : ioH
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
Foreward módszer
1. A modellbe elsőként azt a változót építjük be, amelynek a legszorosabb a kapcsolata az eredményváltozóval a legnagyobb a parciális determinációs együtthatója.
2. Megvizsgáljuk, hogy az első lépésben bevont változó szignifikáns kapcsolatban van-e az eredményváltozóval.
0 : ioH 0 : ioH
1
pn
SSE
p
SSR
F
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
Foreward módszer3. Az első lépésben bevonásra nem került magyarázó
változókra (1;2;…i-1; i+1; …;p) meghatározzuk a parciális korrelációs együtthatókat. Másodikként azt a változót vonjuk be a modellbe, amelynél az itt meghatározott parciális korrelációs együtthatók négyzete ( parciális determinációs együttható ) értéke a legmagasabb.
4. Az új változó bevonásával meghatározott új regressziós modell paramétereit. Ha a parciális regressziós paraméterek értéke szignifikánsan különbözik nullától, akkor a munkát tovább folytatjuk. Ellenkező esetben visszatérünk a 3. lépéshez.
5. A folyamat addig tart, amíg az összes alkalmasnak vált magyarázó változót nem teszteljük.
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
Mesterséges változók a regressziós elemzésben (dummy)
Abban az esetben, ha a minőségi ismérvnek
két változata lehetséges, illetve megoldható
annak alternatívvá alakítása, akkor
numerikussá tehető úgy, hogy az egyik
előfordulást 0 értékkel, a másik előfordulást 1
értékkel tesszük egyenlővé. Így a minőségi
ismérvek korlátozott számban beépíthetők a regressziós modellbe.
.
feltétel a teljesülha ,1
feltétel a teljesülnem ha ,0x
.
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
Dummy változó alkalmazása
Tegyük fel, hogy a háztartások fogyasztási kiadás függ a háztartás jövedelmétől (X1). Valamint feltehetően függ attól is, hogy hol él. (egy vidéki háztartás kiadásai másként alakulnak, mint egy városié)
X2=0 ha a háztartás vidéki
X2=1 ha a háztartás városi
X2 egy dummy változó.
Y = β0 + β1X1 + β2X2 +ε
0 : ioH 0 : ioH
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
A 2 paraméter becsült értéke megmutatja, hogy a városi háztartás kiadásai átlagosan mennyivel többek (vagy kevesebbek, ha 2 negatíve) egy vidéki háztartás kiadásaihoz képest, ha a háztartás jövedelme ugyanannyi.
0 : ioH 0 : ioH
Dummy változó alkalmazása
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
Dummy változó alkalmazása
Ha a modell olyan nem metrikus ismérvet tartalmaz, amelyik „k” ismérvváltozattal rendelkezik és nem szeretnénk alternatívvá tenni, akkor, „k-1” darab dummy változó segítségével építhető a modellbe, úgy, hogy az egyik változat lesz a bázis érték.
0 : ioH 0 : ioH
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
Dummy változó alkalmazása
0 : ioH 0 : ioH
Iskolai végzettség x1 x2
általános 0 0
közép 1 0
felső 0 1
22110 xbxbby
• Gazdaságtudományi Kar• Gazdaságelméleti és Módszertani Intézet
Köszönöm a [email protected]