Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
Lineáris Regresszió
Márkus László
Valószínuségelméleti és Statisztika Tanszék,Eötvös Loránd Tudományegyetem
2018. december 31.
A feladat
Regresszió
Márkus László, Eötvös Loránd Tudományegyetem Lineáris Regresszió 2018. december 31. 2 / 48
A feladat
Az adatok
Mérni vagy megfigyelni tudunk valamilyen X1, . . . ,Xk mennyiségeket, (nevük:független, vagy magyarázó változók, input, regresszor) illetve a velük feltételezhetoenösszefüggésben álló Y mennyiséget (neve: függo változó, válasz, output). Ezeket amennyiségeket valváltozónak tekintjük. A mért vagy megfigyelt értékek ezek realizá-ciói: az xi,j = Xi(ωj) valós számok. Adataink struktúrája a következo.
válasz változó︷︸︸︷Yy1y2...
yn
⇐=
magyarázó változók︷ ︸︸ ︷X1, X2, . . . Xkx1,1 x1,2 . . . x1,kx2,1 x2,2 . . . x2,k
......
......
xn,1 xn,2 . . . xn,k
Az Y válasz változékonyságát (miért nem mindig ugyanannyinak mérjük) szeretnénkmagyarázni az Xi magyarázó változók változékonyságával. Azért mérünk más és más Yértéket, mert az Xi-k értékei megváltoztak. Ez azonban nem feltétlen oksági kapcsolat.
Márkus László, Eötvös Loránd Tudományegyetem Lineáris Regresszió 2018. december 31. 3 / 48
A feladat
Az adatok
Nem mindig adott, vagy nem egyértelmu, melyik változó a válasz.Fel kell mérni van-e összefüggés egyes változók között.Tisztázni kell, mi függ mitol, mi a függo változó, melyek a magyarázó változók.Ez nem mindig matematikai feladat, a változó megfigyelhetosége, mérhetosége,ennek költsége is befolyásolhatja.
Át kell gondolni a célt, ami lehetcsak az összefüggés feltárása, igazolása,elorejelzés az Xi-k alapján az Y-ra,Az Y hiányzó értékeinek pótlása az Xi-k alapján stb.
Márkus László, Eötvös Loránd Tudományegyetem Lineáris Regresszió 2018. december 31. 4 / 48
A feladat
A regresszió általános modellje
A regresszió modelljében az Y válasz változékonyságát azért tudjuk magyarázniaz Xi magyarázó változók változékonyságával, mert a válasz valamilyen determi-nisztikus függvénykapcsolatban van az ot magyarázó változókkal. Ezt a kapcso-latot azonban csak egy additív zajon keresztül tudjuk megfigyelni.”Magyarázat”-on azt értjük, hogy Y véletlen fluktuációja a zajtól eltekintve”megismerheto ”, számítható az Xi-k fluktuációjából.Zajnak az Y-t eloállító mechanizmus azon részét nevezzük, amit nem tudunkmegfigyelni, amirol nem tudunk közvetlen tapasztalati úton infromációt szerezni.A zajban szerepel minden ”egyéb hatás”, például a méromuszer pontatlansága is.Összegezve, adataink az
Y = f (X1,X2, . . . ,Xk)+ ε
egyenlet szerint jönnek létre, ahol f (x1, . . . ,xk) egy k-változós valós függvény, azú.n. regressziós függvény, ε független értéku (gyakran normális eloszlású) zaj, ésD2ε = σ2
ε < ∞.
Márkus László, Eötvös Loránd Tudományegyetem Lineáris Regresszió 2018. december 31. 5 / 48
A feladat
A vizsgált kapcsolatok jellege
Az adatokat létrehozó mechanizmus modellje a legegyszerubb lineáris regresszióesetén:
Y = B0 +B1 ·X1 +B2 ·X2 + . . .+Bk ·Xk + ε
ahol B0 ∈ R az ú.n. ”intercept”, B1, . . . ,Bk ∈ R a regressziós együtthatók.Alapesetben a B0 és B1, . . . ,Bk ismeretlen valós számokat, valamint esetenkéntσ2
ε -et szeretnénk becsülni.Tehát az egyenletben szereplo ismeretlenek nem az Xi-k, ezeket ugyanis meg-mértük, hanem a Bi együtthatók.Az Xi-k mért értékével természetesen ezek tetszoleges adott függvényének azértéke is ismertté vált. Ez teszi lehetové, hogy a magyarázó változók füg-gvényében ne csak lineáris kapcsolatot vizsgáljunk a lineáris regresszió keretében.
Márkus László, Eötvös Loránd Tudományegyetem Lineáris Regresszió 2018. december 31. 6 / 48
A feladat
A vizsgált kapcsolatok jellege
A mondottak alapján magyarázó változók adott függvényeit is hozzávehetjüktovábbi magyarázó változóként, hiszen ennek értékei a megfigyeltekbol számol-hatóak. Pl. polinom jellegu kapcsolatot is becsülhetünk, vagy cos(Xi), eXi kons-tansszorosa is benne lehet a kapcsolatban. Az a lényeg, hogy az ismeretlenekbenazaz az együtthatókban lineáris legyen a függvény. Például az
Y = B0 +B1 ·X1 +B2 ·X21 + . . .+Bp ·Xp
1 +
+ Bp+1 · cos(X2)+ . . .+Bk+p−1 ·Xk +Bk+p · eXk + ε
kapcsolat becsülheto lineáris regresszióval, de az
Y = B0 + eB1·X1 + ε vagy az Y = log(B1 ·X1 +B2 ·X2)+ ε
típusú kapcsolatok nem.A zaj sem feltétlen struktúrálatlan. Vizsgálhatjuk általánosan, vagy adott össze-függési struktúrával rendelkezo zaj (pl. ε egy AR(1) idosor) esetén is. Ez utóbbiesetben a kovariancia mátrixot adottnak/ismertnek vagy legfeljebb néhány becsül-heto paramétertol függonek felételezzük.
Márkus László, Eötvös Loránd Tudományegyetem Lineáris Regresszió 2018. december 31. 7 / 48
Linear Models
A modell mátrixos alakja
Az interceptet B0-t nem akarjuk külön kezelni, ezért belole és a B1, . . . ,Bk együt-thatókból megalkotjuk a B = (B0,B1, . . . ,Bk) vektort, amelynek dimenziója ígyk+1.Azért, hogy egyenleteinket vektor-mátrix alakban is konzisztensen írhassuk fel, amagyarázó változókhoz X0-ként a csupa 1-bol álló (oszlop)vektort vesszük hozzá.Így a magyarázó változók az n× (k+1) dimenziós X mátrixot adják.Ezek után vektormuveletekkel is számolhatunk. A regresszió modelljének egyen-lete mátrix alakban:
Y = XB+ ε.
Márkus László, Eötvös Loránd Tudományegyetem Lineáris Regresszió 2018. december 31. 8 / 48
Linear Models
A regressziós predikció
Az átrendezett regressziós egyenlet
Y−B0 +B1 ·X1 +B2 ·X2 + . . .+Bk ·Xk = ε
azt mutatja, hogy a magyarázó változók megfelelo lineáris kombinációja csak azajban tér el a választól. Mivel a zajról nem tudunk információt szerezni, ezértez a lineáris kombináció bizonyos értelemben az elérheto információ alapján aleheto legjobban megközelíti a választ. A baj csak az, hogy az együtthatókat nemismerjük. Természetes tehát a regresszióval becsült együtthatókkal elkészített
yi = B0 + B1xi,1 + . . .+ Bkxi,k
lineáris kombinációt tekinteni a válasz predikciójának.A válasz és predikciójának εi = yi− yi különbségét reziduálisoknak hívjuk ésnégyzetösszegük
n
∑i=1
ε2i =
n
∑i=1
(yi− yi)2 =
n
∑i=1
(yi− B0− B1xi,1− . . .− Bkxi,k
)2= ||Y−XB||2
adja a predikciós hiba méroszámát.
Márkus László, Eötvös Loránd Tudományegyetem Lineáris Regresszió 2018. december 31. 9 / 48
Linear Models
Az együtthatók OLS becslése
A legegyszerubb esetben a megfigyeléseink (az egyes esetek) függetlenekegymástól (elég, hogy ε független értéku zaj). Ilyenkor közönséges legkisebbnégyzetes (ordinary least squares, OLS) becslésrol beszélünk, amikor is az
(Y−XB)T(Y−XB) = ||Y−XB||2
eltérés négyzetösszeget, az ú.n. reziduális négyzetösszeget, ami az elozoek szerinta predikciós hiba méroszáma, szeretnénk minimalizálni.Ebben az esetben az együtthatók becslése
BOLS = (XTX)−1(XTY)
-ként adható meg. Errol a deriváltakra adódó egyenleteket megoldva könnyenmeggyozodhetünk.Itt látjuk azt is, miért jó, hogy a regresszió lineáris, azaz az ismeretlen együtthatóklineáris függvénye. Így ugyanis a reziduális négyzetösszeg kvadratikus az együtt-hatókban, ezért deriváltja lineáris. Így az optimalizáláshoz csupán egy lineárisegyenletet kell megoldani.A nemlineáris regresszió problémája az, hogy bonyolult optimalizációra vezet.
Márkus László, Eötvös Loránd Tudományegyetem Lineáris Regresszió 2018. december 31. 10 / 48
Linear Models
Az OLS becslés tulajdonságai
Az OLS becslés torzítatlan, konzisztens, hatásos és aszimptotikusan normális, haa hiba ε véges szórású és korrelálatlan a magyarázó változókkal.Megmutatható, hogy az OLS becslés feltételes variancia-kovariancia mátrixaadott X mellett
ΣBOLS= (XTX)−1 ·σ2
ε .
Ez fontos megbízhatósági (konfidencia) tartomány konstrukciójához, viszontehhez szükséges σ2
ε becslése. Ez:
σ2ε =
1n− k−1
||Y−XB||2 = 1n− k−1
n
∑i=1
ε2i
ahol εi-k a reziduálisok: εi = yi− B0− B1xi,1− . . .− Bkxi,k.
Márkus László, Eötvös Loránd Tudományegyetem Lineáris Regresszió 2018. december 31. 11 / 48
Linear Models
Az együtthatók GLS becslése
Az általánosított legkisebb négyzetes módszert (generalised least squares, GLS)akkor alkalmazzuk, ha az ε hiba egyes értékei között korreláció van. Ha ε
variancia-kovariancia mátrixa Σε , akkor az együtthatók GLS becslése
B = (XTΣ−1ε X)−1(XT
Σ−1ε Y).
A GLS becslés ismert Σε mellett torzítatlan, konzisztens, hatásos és aszimptotiku-san normális. Azonban Σε általában ismeretlen. Becsült Σε mellett e tulajdonsá-gok aszimptotikusan megmaradnak.Azonban a zaj pontosan azért zaj, mert nem tudjuk megfigyelni, tehát variancia-kovariancia mátrixát sem ismerjük és nincs is mibol közvetlenül becsülni.Az ε zajt elsoként az (amúgy helytelen) OLS becslés alapján kapott reziduálisok-ból becsülhetjük, majd ebbol már Σε -t is tudjuk becsülni. Ezzel alkalmazhatjuk afenti GLS becslést, így újra kapunk együtthatókat és azzal reziduálisokat.A reziduálisokból újabb Σε -t becsülhetünk, melybol a fenti formulával újrabecsültegyütthatókkal újabb reziduálisokat kaphatunk, és így tovább, ezt iterálva.Az iterációt addig folytatjuk, amíg az együtthatók már csak eloírtan kicsit változ-nak.Így tehát a GLS egy iteratív eljárás.
Márkus László, Eötvös Loránd Tudományegyetem Lineáris Regresszió 2018. december 31. 12 / 48
Linear Models
A magyarázó változók kiválasztása
Kérdések:kihagyhatók-e a magyarázó változók közül egyesek anélkül, hogy a magyarázó"ero" jelentosen csökkenne, érdemes-e hozzávenni további változót a mag-yarázókhozAkkor jó a változó kiválasztás, ha a magyarázó változók erosen korrelálnak aválasszal, de egymás közt gyengénKönnyen manipulálható, jól mérheto változók beválasztása is lehet szempontHozzávegyünk-e nemlineáris tagokat?Vizsgálhatók magyarázó változók konkurrens csoportjaiMi a legjobb predikció, ha a magyarázókat mérjük, de a választ nem?Mennyire jó a regresszió, pl. a regressziós egyenlet jobb becslést ad-e mintha csakvéletlenszeruen választanánk becslést?
Márkus László, Eötvös Loránd Tudományegyetem Lineáris Regresszió 2018. december 31. 13 / 48
Linear Models
A regresszió határai
Nem oksági kapcsolatot mutat ki (Sok a tuzoltó⇒ nagy a kár)Érzékeny a beválasztott magyarázó változókra - még egy lényegtelen kidobása isváltoztatHa ez egyik változó mérési hibája korrelál a másik magyarázó változóval, akkorez eros torzítást hozhat létreUgyancsak érzékeny az ú.n. outlier-ekre, a kiugró vagy szélsoségesértékekre/megfigyelésekreAz outliereket vagy még az elemzés elott töröljük, vagy tudatosan bennhagyjukés a hatásukat elemezzük, hogy mennyire téríthetik el a regressziót.
Márkus László, Eötvös Loránd Tudományegyetem Lineáris Regresszió 2018. december 31. 14 / 48
Linear Models
Esetszám és változószám
A legegyszerubb ökölszabály n≥ 50+8k ahol k a magyarázó változók száma, n amegfigyelésszám. Ezt persze kello toleranciával rugalmassággal kell kezelni, sokesetben kényszerülünk ennél kevesebb adatból is regressziós becslésre. Fontosazonban ilyenkor a változékonyság elemzése, például újramintavételezési (boot-strap) technikával. Ha az összefüggések elég erosek, akkor még megbízható islehet az eredmény.A fenti ökölszabály ”közepes” függoségre vonatkozik, azaz ha a B együtthatótstandardizált változókra (magyarázó és függo) nézzük, akkor 0.2 körülinek kelllennie.
Márkus László, Eötvös Loránd Tudományegyetem Lineáris Regresszió 2018. december 31. 15 / 48
Linear Models
Méroszámok a regresszió értékelésére
Totális négyzetösszeg:
SSY =n
∑i=1
(Yi− Y)2
Regressziós négyzetösszeg:
SSreg =n
∑i=1
(Yi− Y
)2
ahol Yi a megfigyelések predikciója a regresszió alapján a becsült együtthatóksegítségével:
Yi = B0 + B1 ·X1 + B2 ·X2 + . . .+ Bk ·Xk
Yi értékei a regressziós egyenesen vagy hipersíkon vannak.Reziduális négyzetösszeg:
SSres =n
∑i=1
(Yi− Yi
)2
Márkus László, Eötvös Loránd Tudományegyetem Lineáris Regresszió 2018. december 31. 16 / 48
Linear Models
Szórás az átlag és a regressziós egyenes körül
Márkus László, Eötvös Loránd Tudományegyetem Lineáris Regresszió 2018. december 31. 17 / 48
Linear Models
A regresszió értékelése: Determinációs együttható
Determinációs együttható avagy R2 (Coefficient of determination or squaredmultiple correlation):
R2 =SSreg
SSY= 1− SSres
SSY
Jelentése: Az Y varianciájának hányadrészét magyarázza a regresszióból adódópredikciója. Másképp: az Y fuktuációjának hányadrésze származik a magyarázóváltozókból.A regresszió akkor jó, ha a várható érték vízszintes egyenesétol (hipersíkjától, hatöbb magyarázo változónk van) mért négyzetes eltérés foként a megfigyelt értékekregressziós egyenes (hipersík) mentén történo (szabályos) elhelyezkedéséboladódik, és nem a véletlen, szabálytalan fluktuációból. E szerint tehát SSreg nagy,miközben SSres ehhez képest relatíve kicsi. Ez azt jelenti, hogy R2 értéke 1-hezközeli.
Márkus László, Eötvös Loránd Tudományegyetem Lineáris Regresszió 2018. december 31. 18 / 48
Linear Models
A determinációs együttható eloszlása:egyszeru regresszió
A kérdés az, hogy mikor van elég közel 1-hez a determinációs együttható?A válasz nem egyszeru és nyilván függ a regressziós egyenletben szereplo zajeloszlásától. Sajnos még a határeloszlás sem univerzális. Ezért nem is szoktakszignifikancia szintet meghatározni R2-reAz egyszeru regresszió (1 magyarázó változó) és normális eloszlású, függetlenértéku zaj esetén Rabbani egy elegáns ötlettel az R2 = cos(θ) felírásalapján eloször θ eloszlását határozza meg. Az n dimenziós Gauss eloszláskör/gömbszimmetriáját kihasználva, az n-szeres integrált polárkoordinátákbankiszámítva, kapja eloször θ suruségfüggvényét, majd ebbol:
fR2(r) =Γ( n
2
)√
πr ·Γ( n−1
2
) (1− r)n−3
2
Márkus László, Eötvös Loránd Tudományegyetem Lineáris Regresszió 2018. december 31. 19 / 48
Linear Models
A determinációs együttható eloszlása:többváltozós regresszió
Több magyarázó változó esetén már nem adható zárt formula a suruségfüg-gvényre.Független értéku, normális eloszlású zajt 0 várható értékkel és σ szórássalfeltételezve a japán Ótani ért el eredményt 1994-ben.Ilyen feltételek mellett legyen
y =1
2σ2 BTXTXB =1
2σ2 YT Y
Ezzel a jelöléssel az R2 statisztika suruségfüggvénye:
fR2(z) = e−y(1− z)n−k−2
2
∞
∑i=1
yi
i!·{B( k+2i−1
2 , n−k2
)}−1 · z k+2i−32
ahol B a nem teljes béta függvény.
Márkus László, Eötvös Loránd Tudományegyetem Lineáris Regresszió 2018. december 31. 20 / 48
Linear Models
A determinációs együttható eloszlása:többváltozós regresszió t eloszlású zajjal
Még tovább bonyolódik a helyzet, ha a generáló zaj nem normális eloszlású, pedigez sok alkalmazásban van így.A normálisnál jóval vastagabb farkú eloszlások t eloszlásokkal gyakran jól közelí-thetok.Független értéku, szimmetrikus t eloszlású 0 várható értéku zaj esetén Ótani ésTanizaki 2004-es cikke alapján lehet tudni a suruségfüggvényt.A pontos formula meglehetosen bonyolult, a normális esetben szereplo suruség-függvény szorzódik egy inverz Gauss eloszlás suruségfüggvényével.Fontos ismerni az R2 statisztika korlátait is. Kis elemszámú mintára erosen torzít,míg a korrigált verzió (adjusted R2) szórását tekintve megbízhatatlanabb az ere-detinél.
Márkus László, Eötvös Loránd Tudományegyetem Lineáris Regresszió 2018. december 31. 21 / 48
Linear Models
A regressziós egyenes, hipersík körüli szórás
A teljes négyzetösszegbol SSY -ból könnyen készíthetünk szórásnégyzet becslést.Ezzel az adatoknak a várható érték szintu vízszintes egyenes körüli szórásnégy-zetét becsüljük.A reziduális négyzetösszegbol SSres is elkészíthetünk egy ”szórásnégyzet” bec-slést, ez pedig a regressziós egyenes körüli szórást méri, pontosabban becsüli meg.A regressziós egyenes körüli szórást úgy értjük, hogy adatainkat a várható értékhelyett a regressziós egyenes megfelelo értékével, azaz a regressziós predikcióvalcentráljuk.Ha több magyarázo változónk van, az egyenesek szerepét hipersíkok veszik át, deegyébként minden ugyan így érvényes, definiálható.
Márkus László, Eötvös Loránd Tudományegyetem Lineáris Regresszió 2018. december 31. 22 / 48
Linear Models
A regresszió értékelése: F-próba
A regresszió akkor jó, ha a várható érték vízszintes egyenese körüli szórásné-gyzet jóval nagyobb, mint a regressziós egyenes körüli szórás, mivel az elobbitartalmazza a megfigyelt értékek regressziós egyenes (hipersík) mentén történo(szabályos) elhelyezkedésébol adódó változékonyságot is.Amennyiben tehát a két becsült szórás lényegesen eltér, akkor az a feltételezettlineáris kapcsolat fennállására utal.A szórások eltérését F-próbával ellenorizhetjük.Próbastatisztikánk
SSYn−1SSresn−1
,
amely F eloszlású, n−1,n− k−1 szabadsági fokokkkal.Amennyiben az F-próba elutasít, a regresszió jó, a feltételezett lineáris kapcsolatfennáll.
Márkus László, Eötvös Loránd Tudományegyetem Lineáris Regresszió 2018. december 31. 23 / 48
Linear Models
Magyarázó változók szelekciója: tolerancia
Egy magyarázó változó, Xj, felesleges a regresszióban, ha nem tartalmaz a többimagyarázó változótól eltéro információt (de nem csak ekkor felesleges!).Ezt úgy ellenorizzük, hogy elvégzünk egy olyan regressziót, amelyben az adottmagyarázó változó Xj lesz a válasz, a függo változó, és a regresszorok, az otmagyarázni kívánó változók pedig az eredeti regresszió megmaradó magyarázóváltozói: X1, . . . ,Xj−1,Xj+1, . . . ,Xk.Nyilván, ha ez a regresszió ”jó”, akkor a változó a többiekkel magyarázható,benne nincs a többiektol különbözo lényeges információ, tehát elhagyható az ere-deti regresszió magyarázó változói közül.E regresszió ”jó” voltát, illeszkedését az R2 statisztikával ellenorizzük, és az1−R2 értéket az adott változóhoz tartozó toleranciának hívjuk. A ”nagy”, 0-tól szignifikánsan eltéro toleranciával rendelkezo változókat tarthatjuk meg mag-yarázó változóként.Egy változó kidobása után az összes toleranciát újra kell számolniAzt, hogy a tolerancia elég ”nagy”-e, szignifikánsan különbözik-e 0-tól, az R2
statisztika eloszlása alapján mondhatjuk meg. Annak meghatározása azonban,hogy mit tekintünk szignifikáns eltérésnek, az adott feladattól, alkalmazástólnagyban függhet.
Márkus László, Eötvös Loránd Tudományegyetem Lineáris Regresszió 2018. december 31. 24 / 48
Linear Models
A parciális korreláció
Legyen X,Y,Z három véges szórású valváltozó. Ekkor X,Y parciális kovarianciájaZ ismerete mellett:
cov(X,Y|Z) = E[(X−E(X|Z)) · (Y−E(Y|Z))
].
Tehát a kovariancia szokásos definíciójában a Z szerinti feltételes várható értékkelcentrálunk a közönséges várható érték helyett. A parciális korrelációt egyfajtafeltételes korrelációként intrepretáljuk.Az X feltételes szórásnégyzete, adott Z mellett, az önmagával vett parciáliskovariancia – ennek négyzetgyöke a feltételes szórás:
D2(X|Z) = cov(X,X|Z); D(X|Z) =√
D2(X|Z)
A parciális korrelációt ezek után úgy kapjuk, hogy a parciális kovarianciát osztjuk afeltételes szórásokkal:
cor(X,Y|Z) = cov(X,Y|Z)D(X|Z) ·D(Y|Z)
.
Márkus László, Eötvös Loránd Tudományegyetem Lineáris Regresszió 2018. december 31. 25 / 48
Linear Models
Magyarázó változók szelekciója parciális korreláció alapján
Attól, hogy az Xj magyarázó változó tartalmaz a többiekétol különbözo informá-ciót, még nem biztos, hogy ez a saját információ releváns az Y válasz változó vál-tozékonyságának magyarázatában. Magyarán, az egyedi információtartalomtól azXj változó még nyugodtan lehet felesleges a regresszióban, ha ez az egyedi infor-máció nem az Y-t magyarázza.Az információ relevanciáját pedig úgy ellenorizzük, hogy kiszámítjuk az Y és azXj parciális korrelációját.Ha az Y és Xj parciális korrelációja elég ”nagy”, legalább 0.3 körüli, akkor azXj-ben lévo saját információ kapcsolatban van a válasz változóval, így értékesenjárulhat hozzá a válasz változékonyságának magyarázatához.
Márkus László, Eötvös Loránd Tudományegyetem Lineáris Regresszió 2018. december 31. 26 / 48
Linear Models
Magyarázó változók szelekciója t-próba alapján
Ha az Xj magyarázó változó tartalmaz is a saját információt, és ez az informá-ció kapcsolatban is áll az Y válasz változó változékonyságával, még mindig elo-fordulhat, hogy lényegtelenül kicsi a szerepe a változékonyság leírásában. Ez aregressziós együttható lényegtelenül kicsi voltában érheto tetten.Tesztelnünk kell tehát azt is, hogy az együttható lényeges-e, azaz szignifikánsaneltér-e 0-tól.A legkisebb nényzetes módszerrel becsült OLS együttható becslés BOLS =(XTX)−1(XTY) torzítatlan, normális eloszlású zaj mellett maga is normális el-oszlású és adott X mellett variancia-kovariancia mátrixa ΣBOLS
= σ2ε · (XTX)−1.
Az i-ik együttható szórása a mátrix diagonálisa i-ik elemének négyzetgyöke, ígyaz együtthatók szignifikanciája t-próbával értékelheto.Ha a zaj nem normális eloszlású, de független értéku, akkor az OLS alkalmazható,aszimptotikus normalitás érvényes, és a t-próba jó közelítéssel érvényes.Ha a zaj nem is független értéku, és a GLS módszert használjuk, akkor a becsültvariancia-kovariancia mátrix miatt az aszimptotikus normalitás bár igaz, de sokkallassabban érvényesül, ezért csak jelentos mintaelemszám mellett lehet bízni a t-próbában.
Márkus László, Eötvös Loránd Tudományegyetem Lineáris Regresszió 2018. december 31. 27 / 48
Linear Models
Modellszelekció goodness-of-fit ”cross-validation”-nal
A ”cross-validation” általános modellmegfelelés értékelo eljárás, nem csupán aregresszióhoz kötött.Kidobjuk, elfelejtjük a megfigyelések (regresszióban esetekrol, sorokról van szó!)egy részét, a maradékra illesztjük a modellt és a kidobottakon predikcióval el-lenorizzük.Végezhetjük egyesével kidobálva az eseteket, majd az illesztéskor kidobott mag-yarázó értékeket felhasználva predikáljuk a választ a modellbol. Ez a ”leave-one-out cross validation”. Értékeléséhez számoljuk a predikciós hibát a kidobott es-eten. Ezt az egész eljárást (kidobás-predikció-hiba) az összes eseten egyesévelelvégezve és összeadva a négyzetes hibákat, a modell ”jóságát” jellemzo egyetlenszámot kapunk, ami modellek összevetésére alkalmas.Ha eloszlás jellegu elozetes ismeretünk vagy várakozásunk van a predikciós hi-bára (pl. térképszerkesztés esetén az ú.n. probability map), Vagy az összefüg-gési struktúrára, akkor nem egyesével dobjuk ki a megfigyeléseket, hanem pl. azadatok 30% -át kidobjuk, a megmaradó 70%ra illesztünk, predikáljuk kidobott30% -ot és a hibaeloszlást vizsgáljuk. Összefüggési struktúra esetén pl véletlenválasztással többször elvégezzük az eljárást és a predikciós hiba eloszlásának sta-bilitását ellenorizzük.
Márkus László, Eötvös Loránd Tudományegyetem Lineáris Regresszió 2018. december 31. 28 / 48
Linear Models
Modellstabilitás, trendszelekció, túlillesztés
A cross validation alapvetoen modellek közötti választásra, és modellstabilitásellenorzésere alkalmas. Így pl jó lehet magyarázó változók különbözo alternativcsoportjai közötti döntésre, a nemlineáris jelleg/trend vizsgálatára (pl polinomiálisvagy exponenciális trend jobb-e) stb.A cross validation ugyancsak alkalmas például modelltúlillesztés kiszurésére.Túlillesztés: az adott minta és mintaszám mellett a modell jól illeszkedonek tunik,azonban ha egy újabb megfigyelés válik elérhetové, az már nem illeszkedik amodellhez ill fordítva. (Például: 5 magyarázo változó 5 megfigyelés = 5 egyenlet5 ismeretlen, hiba nélkül megoldható. Nyilván nem arról van szó, hogy nincs zaj arendszerben, hanem a megfigyelés kevés. Ha egy hatodik megfigyelést is tudunkvégezni, biztos hogy nem az egyenletekbol kiszámolhatóval fog egybeesni.)
Márkus László, Eötvös Loránd Tudományegyetem Lineáris Regresszió 2018. december 31. 29 / 48
Linear Models
Outlierek, Cook távolság
A regresszió nagyon érzékeny szélsoséges, kiugró értékekre, ezek nagyon ”félre-húzhatják” a regressziós egyenest / hipersíkot.Az outlierek esetén vagy átskálázni vagy transzformálni kell a változót (haegy koordináta kiugró), ki kell hagyni az egész esetet (sort), vagy csak a meg-bízhatóság értékelését kell nagy gonddal elvégezni és bemutatni - outlierestül :).A cross validation segítségével detektálhatók az outlierek. Leave-one-out crossvalidation-t végezve az együttható vektort becsüljük mindig (ez Bi az i-ik esetkidobása esetén) és nézzük Bi és a teljes regresszióból származó B távolságátRk-ban. Ez a Cook távolság. Azt méri, hogy mennyire mozdítja el az adott megfi-gyelés kidobása a regresszios egyenest, tehát a megfigyelés befolyásosságát méri,és ha ez nagy, akkor outlier-nek tekinthetjük.
Márkus László, Eötvös Loránd Tudományegyetem Lineáris Regresszió 2018. december 31. 30 / 48
Linear Models
Reziduális elemzés
A reziduálisokat (Y − Y) normalitásra linearitásra és homoszkedaszticitásra(homo= homogén + skedastikos = (szét)szóródni képes (görög)) teszteljük. Ho-moszkedaszticitás = homogén szórás.Általában a regresszió az outliereket kivéve robusztus. Létezik külön robusztusregressziós eljárás is.Ha nem normálisak a reziduálisok, akkor a tesztek nem pontosak. Legalább sz-immetria legyen az eloszlásban. Nemlinearitás vagy heteroszkedaszticitás nemérvényteleníti csak gyengíti a regressziót, a kapcsolat egy részét feltártuk demaradt ismeretlen hatás is.A heteroszkedaszticitás származhat a magyarázó változók közötti kölcsönhatás-ból, egyes változók ferdeségébol.
Márkus László, Eötvös Loránd Tudományegyetem Lineáris Regresszió 2018. december 31. 31 / 48
Linear Models
Scatterplotok
Vizuális elemzés, igen hasznos.Predicted vs. residuals: linearitás tesztelésére. Ha valamilyen mintázat látszik aploton, akkor valamilyen nemlineáris hatás (kvadratikus trend etc.) is jelen van.Observed vs. residuals: pontosításhoz: ha van nemlinearitás, honnan származik.Sok plot is lehet - körülményes.ANOVA tábla ugyanerreResiduals vs deleted residuals instabilak-e a regressziós együtthatókNormal plot of residuals - normalitásvizsgálat
Márkus László, Eötvös Loránd Tudományegyetem Lineáris Regresszió 2018. december 31. 32 / 48
Linear Models
Speciális regressziók
Márkus László, Eötvös Loránd Tudományegyetem Lineáris Regresszió 2018. december 31. 33 / 48
Linear Models
Simítás
A budapesti napi középhomérséklet 5 (fekete), 20 (kék), 100 (piros) évre átlagolva.Láthatóan egyre simább görbét kapunk, az elvi éves menet egy sima görbe.
Márkus László, Eötvös Loránd Tudományegyetem Lineáris Regresszió 2018. december 31. 34 / 48
Linear Models
Nemparametrikus regresszió
Running line (futó egyenes):Minden pontnak egy környezetében regressziót alkalmazunk.Ebbol predikáljuk a megfigyelt értéket az adott pontban.Ezzel az eljárással végigmegyünk a pontokon.
Márkus László, Eötvös Loránd Tudományegyetem Lineáris Regresszió 2018. december 31. 35 / 48
Linear Models
Running line
A megfigyelés simítását kapjuk, ez általában a trend torzított becslése.N(0,1)-es i.i.d mintát, ha simítjuk, akár periodikus görbét is kaphatunk belole.
Márkus László, Eötvös Loránd Tudományegyetem Lineáris Regresszió 2018. december 31. 36 / 48
Linear Models
Két alapkérdés
A simítás során 2 alapkérdés van:
1 Hogyan "átlagoljunk" egy bizonyos környezetben? Amit a pontokra illesztünkaz:
Átlag vízszintesenLineáris egyenesKvadratikus görbeMagasabb rendu görbe
2 Hogyan válasszuk meg a környezetet
Legközelebbi szomszéd - a legközelebbi k pontSzimmetrikus legközelebbi szomszéd - az egyik és másik oldalon is k
2 , k2 pont.
Egyfajta mozgó ablak.
Márkus László, Eötvös Loránd Tudományegyetem Lineáris Regresszió 2018. december 31. 37 / 48
Linear Models
Running Quadratic Curve
Négyzetes regresszió, 5 pontos környezet:
Márkus László, Eötvös Loránd Tudományegyetem Lineáris Regresszió 2018. december 31. 38 / 48
Linear Models
Legyen:Y = µ(X)+ ε,
ahol µ sima függvény, és legyen mintánk Y-ra X-re.Running line: egy mozgó ablakot választunk, és az ablakon belül egy egyszerulineáris regressziót alkalmazunk Y-ra X-szel.Yi-t az Xi alapján abból az ablakból becsüljük, amelynek o van a közepén.Pl. k=11-re Y14-et az (X9,Y9),...(X19,Y19) ablakból,azaz ezen párokra végzünkregressziót, és ennek együtthatóival predikáljuk Y14-et X14-bol.Ez az eljárás jó irregulárisan megfigyelt idosorra is. Ekkor Xi az ido, ami"véletlenszeru", vagyis regresszorként is felfogható.
Márkus László, Eötvös Loránd Tudományegyetem Lineáris Regresszió 2018. december 31. 39 / 48
Linear Models
Mag regresszió (Kernel regression):Ekkor is környezeteket választunk, de ezen belül nem egyenlo súllyal vesszükfigyelembe a pontokat.Ha x0-ban vagyunk kíváncsiak a simított predikcióra, akkor a megfigyelési "helyeket"(a regresszor értékeit) súlyozzuk az x0-tól való távolságuk függvényében
w0,i =C0
λ·K(∣∣∣∣x0− xi
λ
∣∣∣∣)ahol K egy magfüggvényλ a sávszélesség(Egy lehetoség pl. xi-t a szórásával osztani.)Ezekkel a súlyokkal egy súlyozott regressziót csinálunk, vagyis a minimalizálandólegkisebb négyzetes kifejezést súlyozva állítjuk elo.
µ(x0) =∑K ·
( x0−xiλ
)· yi
∑K ·( x0−xi
λ
)
Márkus László, Eötvös Loránd Tudományegyetem Lineáris Regresszió 2018. december 31. 40 / 48
Linear Models
Magfüggvények:
Gauss mag:a Gauss eloszlás suruségfüggvénye
Minimális variancia mag:K(t) = 3
8 (3−5t2) |t| ≤ 1
Epanechnikov mag:K(t) = 3
4 (1− t2) |t| ≤ 1
Márkus László, Eötvös Loránd Tudományegyetem Lineáris Regresszió 2018. december 31. 41 / 48
Linear Models
Lokális regresszió: LOESS
A Running line és a Kernel regresszió kombinációja.Minden környezetben súlyozott legkisebb négyzetes illesztés.A lokális regresszió célja pl. trend kiszurése
W =
[x0− xi
∆x0
]∆x0 az adott környezet legnagyobb távolsága x0-tól.
W(t) =
{(1− t3)3
0
0≤ t ≤ 1
Robusztus regressziót is lehet használni, ha szimmetrikusnak tételezzük fel a zajtnormális helyett.
Márkus László, Eötvös Loránd Tudományegyetem Lineáris Regresszió 2018. december 31. 42 / 48
Linear Models
Logisztikus regresszió
A feladat:A válasz változó kétféle kimenetet ír le, amit 0-val és 1-gyel kódolunk, és ennek vál-tozékonyságát szeretnénk a magyarázó változókkal magyarázni.Például:
Egy banki ügyfél hitelképességének bírálatakor arra vagyunk kíváncsiak, képes-efizetni a törlesztést vagy csodbe megy valamikor. Ezt magyarázhatja fizetése, atörleszto nagysága, a rezsiköltségei, vásárlási szokásai, nyaralásai, stb.Egy személy halálos szívinfarktust kap vagy sem. Ezt magyarázhatja vérénekkoleszterintartalma, vércukorszintje, dohányzása, alkoholfogyasztása stb.
Több ügyfélrol, több személyrol van adatunk. Azonban nem a 0 vagy 1 kimenetetakarjuk magyarázni, vagy predikálni a magyarázó változókkal, hanem annak avalószínuségét, hogy 1 lesz a kimenet, ez azonban ügyfélrol ügyfélre, személyrolszemélyre, tehát esetrol esetre változik.Azonban a valószínuségre közvetlenül nincs adatunk, becsülni sem tudjuk, hiszen nyil-ván értelmetlen, hogy az adott személy milyen gyakran halt meg infarktusban.
Márkus László, Eötvös Loránd Tudományegyetem Lineáris Regresszió 2018. december 31. 43 / 48
Linear Models
Bináris válasz
A közönséges regresszió esetén a választ a magyarázók ellenében megjelenítve akapcsolat jellegérol képet kaphatunk. A bináris válasz esetén ez sajnos nincs így.
Márkus László, Eötvös Loránd Tudományegyetem Lineáris Regresszió 2018. december 31. 44 / 48
Linear Models
A feltételes valószínuség
A válasz értékei helyett vizsgálhatjuk az
E(Y|X = xi) = P(Y = 1|X = xi) = π(xi)
függvényt, azaz, hogy az Xi ismeretében mennyi a feltételes valószínusége a vizs-gált esemény bekövetkezésének az i-edik megfigyelés esetén. Azonban ez a függvénynem lineáris, tehát nem alkalmazhatunk lineáris regressziót a meghatározására. Sokkalinkább valamilyen S alakú görbe. A következo függvények:
π(x) =exp(β0 +β1x)
1+ exp(β0 +β1x)
jól parametrizált S alakú függvénycsaládot adnak. Azt feltételezzük, hogy ez írja le afenti feltételes valószínuség és a magyarázó változók kapcsolatát. Innen
log(
π(x)1−π(x)
)= β0 +β1x
vagyis a log odds hányados lesz lineáris függvénye a magyarázó változóknak, és ennekaz együtthatóit kell meghatároznunk. Ez a logisztikus regresszió modellje.Márkus László, Eötvös Loránd Tudományegyetem Lineáris Regresszió 2018. december 31. 45 / 48
Linear Models
Értelmezés
Vegyük észre, hogy a modellben nincs szükség zajra, mivel eleve a feltételesvárható értéket modellezzük, ami már az X-ek, a magyarázó változók függvényeés nem a válaszé.A β1 együttható értelmezése is más, mint a közönséges regresszióban. A magya-rázó változó egységnyi változása β1 változást okoz a log-oddsban, de e helyettinkább azt mondjuk, hogy egységnyi változás a magyarázó változóban az oddsoteβ1 szorzótényezovel növeli.
Márkus László, Eötvös Loránd Tudományegyetem Lineáris Regresszió 2018. december 31. 46 / 48
Linear Models
Becslés
Mivel π(xi) = πi -re nincs megfigyelésünk, a legkisebb négyzetes módszer nemalkalmazható.A maximum likelihood módszer muködik.Ehhez eloször az Y1, . . . ,Yn minta g(y1, . . . ,yn) suruségfüggvényét kell számolni.Mivel az esetek (a sorok) független megfigyelések eredményei, ezért szorzódnaka marginális suruségfüggvények:
g(y1, . . . ,yn) =n
∏i=1
fi(yi) =n
∏i=1
πyii · (1−πi)
1−yi
Számoljuk most a log-likelihoodot.
log(g(y1, . . . ,yn)) = log
(n
∏i=1
πyii · (1−πi)
1−yi
)=
=n
∑i=1
yi log(πi)+n
∑i=1
(1− yi) log(1−πi) =
Márkus László, Eötvös Loránd Tudományegyetem Lineáris Regresszió 2018. december 31. 47 / 48
Linear Models
=n
∑i=1
yi log(
πi
1−πi
)+
n
∑i=1
log(1−πi) =
Ide beírjuk a log oddsra vonatkozó linearis egyenletet:
=n
∑i=1
yi(β0 +β1xi)+n
∑i=1
log(1+ exp(β0 +β1xi))
Ezek szerint megkaptuk a log-likelihoodot, mint az ismeretlen paraméterek függvényétés most már ezt kell a paraméterekben maximalizálni.A deriváltak felírhatók és ezeket kell 0-ra megoldani. Ez azonban nem lineáris egyen-letrendszer, ezért csak iteratív megoldása van amennyiben az konvergál.Egy, az általánosított legkisebb négyzetes módszerrel rokon iterációt kapunk, amelyetaz R azzal együtt is kezel, a glm parancsban.
Márkus László, Eötvös Loránd Tudományegyetem Lineáris Regresszió 2018. december 31. 48 / 48