Lineáris Regresszió · 2018. 12. 31. · A feladat A regresszió általános modellje A regresszió modelljében az Y válasz változékonyságát azért tudjuk magyarázni az X

Lineáris Regresszió

Márkus László

Valószínuségelméleti és Statisztika Tanszék,Eötvös Loránd Tudományegyetem

2018. december 31.

A feladat

Regresszió

Márkus László, Eötvös Loránd Tudományegyetem Lineáris Regresszió 2018. december 31. 2 / 48

A feladat

Az adatok

Mérni vagy megfigyelni tudunk valamilyen X1, . . . ,Xk mennyiségeket, (nevük:független, vagy magyarázó változók, input, regresszor) illetve a velük feltételezhetoenösszefüggésben álló Y mennyiséget (neve: függo változó, válasz, output). Ezeket amennyiségeket valváltozónak tekintjük. A mért vagy megfigyelt értékek ezek realizá-ciói: az xi,j = Xi(ωj) valós számok. Adataink struktúrája a következo.

válasz változó︷︸︸︷Yy1y2...

yn

⇐=

magyarázó változók︷︸︸︷X1, X2, . . . Xkx1,1 x1,2 . . . x1,kx2,1 x2,2 . . . x2,k

......

......

xn,1 xn,2 . . . xn,k

Az Y válasz változékonyságát (miért nem mindig ugyanannyinak mérjük) szeretnénkmagyarázni az Xi magyarázó változók változékonyságával. Azért mérünk más és más Yértéket, mert az Xi-k értékei megváltoztak. Ez azonban nem feltétlen oksági kapcsolat.


A feladat

Az adatok

Nem mindig adott, vagy nem egyértelmu, melyik változó a válasz.Fel kell mérni van-e összefüggés egyes változók között.Tisztázni kell, mi függ mitol, mi a függo változó, melyek a magyarázó változók.Ez nem mindig matematikai feladat, a változó megfigyelhetosége, mérhetosége,ennek költsége is befolyásolhatja.

Át kell gondolni a célt, ami lehetcsak az összefüggés feltárása, igazolása,elorejelzés az Xi-k alapján az Y-ra,Az Y hiányzó értékeinek pótlása az Xi-k alapján stb.


A feladat

A regresszió általános modellje

A regresszió modelljében az Y válasz változékonyságát azért tudjuk magyarázniaz Xi magyarázó változók változékonyságával, mert a válasz valamilyen determi-nisztikus függvénykapcsolatban van az ot magyarázó változókkal. Ezt a kapcso-latot azonban csak egy additív zajon keresztül tudjuk megfigyelni.”Magyarázat”-on azt értjük, hogy Y véletlen fluktuációja a zajtól eltekintve”megismerheto ”, számítható az Xi-k fluktuációjából.Zajnak az Y-t eloállító mechanizmus azon részét nevezzük, amit nem tudunkmegfigyelni, amirol nem tudunk közvetlen tapasztalati úton infromációt szerezni.A zajban szerepel minden ”egyéb hatás”, például a méromuszer pontatlansága is.Összegezve, adataink az

Y = f (X1,X2, . . . ,Xk)+ ε

egyenlet szerint jönnek létre, ahol f (x1, . . . ,xk) egy k-változós valós függvény, azú.n. regressziós függvény, ε független értéku (gyakran normális eloszlású) zaj, ésD2ε = σ2

ε < ∞.


A feladat

A vizsgált kapcsolatok jellege

Az adatokat létrehozó mechanizmus modellje a legegyszerubb lineáris regresszióesetén:

Y = B0 +B1 ·X1 +B2 ·X2 + . . .+Bk ·Xk + ε

ahol B0 ∈ R az ú.n. ”intercept”, B1, . . . ,Bk ∈ R a regressziós együtthatók.Alapesetben a B0 és B1, . . . ,Bk ismeretlen valós számokat, valamint esetenkéntσ2

ε -et szeretnénk becsülni.Tehát az egyenletben szereplo ismeretlenek nem az Xi-k, ezeket ugyanis meg-mértük, hanem a Bi együtthatók.Az Xi-k mért értékével természetesen ezek tetszoleges adott függvényének azértéke is ismertté vált. Ez teszi lehetové, hogy a magyarázó változók füg-gvényében ne csak lineáris kapcsolatot vizsgáljunk a lineáris regresszió keretében.


A feladat

A vizsgált kapcsolatok jellege

A mondottak alapján magyarázó változók adott függvényeit is hozzávehetjüktovábbi magyarázó változóként, hiszen ennek értékei a megfigyeltekbol számol-hatóak. Pl. polinom jellegu kapcsolatot is becsülhetünk, vagy cos(Xi), eXi kons-tansszorosa is benne lehet a kapcsolatban. Az a lényeg, hogy az ismeretlenekbenazaz az együtthatókban lineáris legyen a függvény. Például az

Y = B0 +B1 ·X1 +B2 ·X21 + . . .+Bp ·Xp

1 +

+ Bp+1 · cos(X2)+ . . .+Bk+p−1 ·Xk +Bk+p · eXk + ε

kapcsolat becsülheto lineáris regresszióval, de az

Y = B0 + eB1·X1 + ε vagy az Y = log(B1 ·X1 +B2 ·X2)+ ε

típusú kapcsolatok nem.A zaj sem feltétlen struktúrálatlan. Vizsgálhatjuk általánosan, vagy adott össze-függési struktúrával rendelkezo zaj (pl. ε egy AR(1) idosor) esetén is. Ez utóbbiesetben a kovariancia mátrixot adottnak/ismertnek vagy legfeljebb néhány becsül-heto paramétertol függonek felételezzük.


Linear Models

A modell mátrixos alakja

Az interceptet B0-t nem akarjuk külön kezelni, ezért belole és a B1, . . . ,Bk együt-thatókból megalkotjuk a B = (B0,B1, . . . ,Bk) vektort, amelynek dimenziója ígyk+1.Azért, hogy egyenleteinket vektor-mátrix alakban is konzisztensen írhassuk fel, amagyarázó változókhoz X0-ként a csupa 1-bol álló (oszlop)vektort vesszük hozzá.Így a magyarázó változók az n× (k+1) dimenziós X mátrixot adják.Ezek után vektormuveletekkel is számolhatunk. A regresszió modelljének egyen-lete mátrix alakban:

Y = XB+ ε.


Linear Models

A regressziós predikció

Az átrendezett regressziós egyenlet

Y−B0 +B1 ·X1 +B2 ·X2 + . . .+Bk ·Xk = ε

azt mutatja, hogy a magyarázó változók megfelelo lineáris kombinációja csak azajban tér el a választól. Mivel a zajról nem tudunk információt szerezni, ezértez a lineáris kombináció bizonyos értelemben az elérheto információ alapján aleheto legjobban megközelíti a választ. A baj csak az, hogy az együtthatókat nemismerjük. Természetes tehát a regresszióval becsült együtthatókkal elkészített

yi = B0 + B1xi,1 + . . .+ Bkxi,k

lineáris kombinációt tekinteni a válasz predikciójának.A válasz és predikciójának εi = yi− yi különbségét reziduálisoknak hívjuk ésnégyzetösszegük

n

∑i=1

ε2i =

n

∑i=1

(yi− yi)2 =

n

∑i=1

(yi− B0− B1xi,1− . . .− Bkxi,k

)2= ||Y−XB||2

adja a predikciós hiba méroszámát.


Linear Models

Az együtthatók OLS becslése

A legegyszerubb esetben a megfigyeléseink (az egyes esetek) függetlenekegymástól (elég, hogy ε független értéku zaj). Ilyenkor közönséges legkisebbnégyzetes (ordinary least squares, OLS) becslésrol beszélünk, amikor is az

(Y−XB)T(Y−XB) = ||Y−XB||2

eltérés négyzetösszeget, az ú.n. reziduális négyzetösszeget, ami az elozoek szerinta predikciós hiba méroszáma, szeretnénk minimalizálni.Ebben az esetben az együtthatók becslése

BOLS = (XTX)−1(XTY)

-ként adható meg. Errol a deriváltakra adódó egyenleteket megoldva könnyenmeggyozodhetünk.Itt látjuk azt is, miért jó, hogy a regresszió lineáris, azaz az ismeretlen együtthatóklineáris függvénye. Így ugyanis a reziduális négyzetösszeg kvadratikus az együtt-hatókban, ezért deriváltja lineáris. Így az optimalizáláshoz csupán egy lineárisegyenletet kell megoldani.A nemlineáris regresszió problémája az, hogy bonyolult optimalizációra vezet.


Linear Models

Az OLS becslés tulajdonságai

Az OLS becslés torzítatlan, konzisztens, hatásos és aszimptotikusan normális, haa hiba ε véges szórású és korrelálatlan a magyarázó változókkal.Megmutatható, hogy az OLS becslés feltételes variancia-kovariancia mátrixaadott X mellett

ΣBOLS= (XTX)−1 ·σ2

ε .

Ez fontos megbízhatósági (konfidencia) tartomány konstrukciójához, viszontehhez szükséges σ2

ε becslése. Ez:

σ2ε =

1n− k−1

||Y−XB||2 = 1n− k−1

n

∑i=1

ε2i

ahol εi-k a reziduálisok: εi = yi− B0− B1xi,1− . . .− Bkxi,k.


Linear Models

Az együtthatók GLS becslése

Az általánosított legkisebb négyzetes módszert (generalised least squares, GLS)akkor alkalmazzuk, ha az ε hiba egyes értékei között korreláció van. Ha ε

variancia-kovariancia mátrixa Σε , akkor az együtthatók GLS becslése

B = (XTΣ−1ε X)−1(XT

Σ−1ε Y).

A GLS becslés ismert Σε mellett torzítatlan, konzisztens, hatásos és aszimptotiku-san normális. Azonban Σε általában ismeretlen. Becsült Σε mellett e tulajdonsá-gok aszimptotikusan megmaradnak.Azonban a zaj pontosan azért zaj, mert nem tudjuk megfigyelni, tehát variancia-kovariancia mátrixát sem ismerjük és nincs is mibol közvetlenül becsülni.Az ε zajt elsoként az (amúgy helytelen) OLS becslés alapján kapott reziduálisok-ból becsülhetjük, majd ebbol már Σε -t is tudjuk becsülni. Ezzel alkalmazhatjuk afenti GLS becslést, így újra kapunk együtthatókat és azzal reziduálisokat.A reziduálisokból újabb Σε -t becsülhetünk, melybol a fenti formulával újrabecsültegyütthatókkal újabb reziduálisokat kaphatunk, és így tovább, ezt iterálva.Az iterációt addig folytatjuk, amíg az együtthatók már csak eloírtan kicsit változ-nak.Így tehát a GLS egy iteratív eljárás.


Linear Models

A magyarázó változók kiválasztása

Kérdések:kihagyhatók-e a magyarázó változók közül egyesek anélkül, hogy a magyarázó"ero" jelentosen csökkenne, érdemes-e hozzávenni további változót a mag-yarázókhozAkkor jó a változó kiválasztás, ha a magyarázó változók erosen korrelálnak aválasszal, de egymás közt gyengénKönnyen manipulálható, jól mérheto változók beválasztása is lehet szempontHozzávegyünk-e nemlineáris tagokat?Vizsgálhatók magyarázó változók konkurrens csoportjaiMi a legjobb predikció, ha a magyarázókat mérjük, de a választ nem?Mennyire jó a regresszió, pl. a regressziós egyenlet jobb becslést ad-e mintha csakvéletlenszeruen választanánk becslést?


Linear Models

A regresszió határai

Nem oksági kapcsolatot mutat ki (Sok a tuzoltó⇒ nagy a kár)Érzékeny a beválasztott magyarázó változókra - még egy lényegtelen kidobása isváltoztatHa ez egyik változó mérési hibája korrelál a másik magyarázó változóval, akkorez eros torzítást hozhat létreUgyancsak érzékeny az ú.n. outlier-ekre, a kiugró vagy szélsoségesértékekre/megfigyelésekreAz outliereket vagy még az elemzés elott töröljük, vagy tudatosan bennhagyjukés a hatásukat elemezzük, hogy mennyire téríthetik el a regressziót.


Linear Models

Esetszám és változószám

A legegyszerubb ökölszabály n≥ 50+8k ahol k a magyarázó változók száma, n amegfigyelésszám. Ezt persze kello toleranciával rugalmassággal kell kezelni, sokesetben kényszerülünk ennél kevesebb adatból is regressziós becslésre. Fontosazonban ilyenkor a változékonyság elemzése, például újramintavételezési (boot-strap) technikával. Ha az összefüggések elég erosek, akkor még megbízható islehet az eredmény.A fenti ökölszabály ”közepes” függoségre vonatkozik, azaz ha a B együtthatótstandardizált változókra (magyarázó és függo) nézzük, akkor 0.2 körülinek kelllennie.


Linear Models

Méroszámok a regresszió értékelésére

Totális négyzetösszeg:

SSY =n

∑i=1

(Yi− Y)2

Regressziós négyzetösszeg:

SSreg =n

∑i=1

(Yi− Y

)2

ahol Yi a megfigyelések predikciója a regresszió alapján a becsült együtthatóksegítségével:

Yi = B0 + B1 ·X1 + B2 ·X2 + . . .+ Bk ·Xk

Yi értékei a regressziós egyenesen vagy hipersíkon vannak.Reziduális négyzetösszeg:

SSres =n

∑i=1

(Yi− Yi

)2


Linear Models

Szórás az átlag és a regressziós egyenes körül


Linear Models

A regresszió értékelése: Determinációs együttható

Determinációs együttható avagy R2 (Coefficient of determination or squaredmultiple correlation):

R2 =SSreg

SSY= 1− SSres

SSY

Jelentése: Az Y varianciájának hányadrészét magyarázza a regresszióból adódópredikciója. Másképp: az Y fuktuációjának hányadrésze származik a magyarázóváltozókból.A regresszió akkor jó, ha a várható érték vízszintes egyenesétol (hipersíkjától, hatöbb magyarázo változónk van) mért négyzetes eltérés foként a megfigyelt értékekregressziós egyenes (hipersík) mentén történo (szabályos) elhelyezkedéséboladódik, és nem a véletlen, szabálytalan fluktuációból. E szerint tehát SSreg nagy,miközben SSres ehhez képest relatíve kicsi. Ez azt jelenti, hogy R2 értéke 1-hezközeli.


Linear Models

A determinációs együttható eloszlása:egyszeru regresszió

A kérdés az, hogy mikor van elég közel 1-hez a determinációs együttható?A válasz nem egyszeru és nyilván függ a regressziós egyenletben szereplo zajeloszlásától. Sajnos még a határeloszlás sem univerzális. Ezért nem is szoktakszignifikancia szintet meghatározni R2-reAz egyszeru regresszió (1 magyarázó változó) és normális eloszlású, függetlenértéku zaj esetén Rabbani egy elegáns ötlettel az R2 = cos(θ) felírásalapján eloször θ eloszlását határozza meg. Az n dimenziós Gauss eloszláskör/gömbszimmetriáját kihasználva, az n-szeres integrált polárkoordinátákbankiszámítva, kapja eloször θ suruségfüggvényét, majd ebbol:

fR2(r) =Γ( n

2

)√

πr ·Γ( n−1

2

) (1− r)n−3

2


Linear Models

A determinációs együttható eloszlása:többváltozós regresszió

Több magyarázó változó esetén már nem adható zárt formula a suruségfüg-gvényre.Független értéku, normális eloszlású zajt 0 várható értékkel és σ szórássalfeltételezve a japán Ótani ért el eredményt 1994-ben.Ilyen feltételek mellett legyen

y =1

2σ2 BTXTXB =1

2σ2 YT Y

Ezzel a jelöléssel az R2 statisztika suruségfüggvénye:

fR2(z) = e−y(1− z)n−k−2

2

∞

∑i=1

yi

i!·{B( k+2i−1

2 , n−k2

)}−1 · z k+2i−32

ahol B a nem teljes béta függvény.


Linear Models

A determinációs együttható eloszlása:többváltozós regresszió t eloszlású zajjal

Még tovább bonyolódik a helyzet, ha a generáló zaj nem normális eloszlású, pedigez sok alkalmazásban van így.A normálisnál jóval vastagabb farkú eloszlások t eloszlásokkal gyakran jól közelí-thetok.Független értéku, szimmetrikus t eloszlású 0 várható értéku zaj esetén Ótani ésTanizaki 2004-es cikke alapján lehet tudni a suruségfüggvényt.A pontos formula meglehetosen bonyolult, a normális esetben szereplo suruség-függvény szorzódik egy inverz Gauss eloszlás suruségfüggvényével.Fontos ismerni az R2 statisztika korlátait is. Kis elemszámú mintára erosen torzít,míg a korrigált verzió (adjusted R2) szórását tekintve megbízhatatlanabb az ere-detinél.


Linear Models

A regressziós egyenes, hipersík körüli szórás

A teljes négyzetösszegbol SSY -ból könnyen készíthetünk szórásnégyzet becslést.Ezzel az adatoknak a várható érték szintu vízszintes egyenes körüli szórásnégy-zetét becsüljük.A reziduális négyzetösszegbol SSres is elkészíthetünk egy ”szórásnégyzet” bec-slést, ez pedig a regressziós egyenes körüli szórást méri, pontosabban becsüli meg.A regressziós egyenes körüli szórást úgy értjük, hogy adatainkat a várható értékhelyett a regressziós egyenes megfelelo értékével, azaz a regressziós predikcióvalcentráljuk.Ha több magyarázo változónk van, az egyenesek szerepét hipersíkok veszik át, deegyébként minden ugyan így érvényes, definiálható.


Linear Models

A regresszió értékelése: F-próba

A regresszió akkor jó, ha a várható érték vízszintes egyenese körüli szórásné-gyzet jóval nagyobb, mint a regressziós egyenes körüli szórás, mivel az elobbitartalmazza a megfigyelt értékek regressziós egyenes (hipersík) mentén történo(szabályos) elhelyezkedésébol adódó változékonyságot is.Amennyiben tehát a két becsült szórás lényegesen eltér, akkor az a feltételezettlineáris kapcsolat fennállására utal.A szórások eltérését F-próbával ellenorizhetjük.Próbastatisztikánk

SSYn−1SSresn−1

,

amely F eloszlású, n−1,n− k−1 szabadsági fokokkkal.Amennyiben az F-próba elutasít, a regresszió jó, a feltételezett lineáris kapcsolatfennáll.


Linear Models

Magyarázó változók szelekciója: tolerancia

Egy magyarázó változó, Xj, felesleges a regresszióban, ha nem tartalmaz a többimagyarázó változótól eltéro információt (de nem csak ekkor felesleges!).Ezt úgy ellenorizzük, hogy elvégzünk egy olyan regressziót, amelyben az adottmagyarázó változó Xj lesz a válasz, a függo változó, és a regresszorok, az otmagyarázni kívánó változók pedig az eredeti regresszió megmaradó magyarázóváltozói: X1, . . . ,Xj−1,Xj+1, . . . ,Xk.Nyilván, ha ez a regresszió ”jó”, akkor a változó a többiekkel magyarázható,benne nincs a többiektol különbözo lényeges információ, tehát elhagyható az ere-deti regresszió magyarázó változói közül.E regresszió ”jó” voltát, illeszkedését az R2 statisztikával ellenorizzük, és az1−R2 értéket az adott változóhoz tartozó toleranciának hívjuk. A ”nagy”, 0-tól szignifikánsan eltéro toleranciával rendelkezo változókat tarthatjuk meg mag-yarázó változóként.Egy változó kidobása után az összes toleranciát újra kell számolniAzt, hogy a tolerancia elég ”nagy”-e, szignifikánsan különbözik-e 0-tól, az R2

statisztika eloszlása alapján mondhatjuk meg. Annak meghatározása azonban,hogy mit tekintünk szignifikáns eltérésnek, az adott feladattól, alkalmazástólnagyban függhet.


Linear Models

A parciális korreláció

Legyen X,Y,Z három véges szórású valváltozó. Ekkor X,Y parciális kovarianciájaZ ismerete mellett:

cov(X,Y|Z) = E[(X−E(X|Z)) · (Y−E(Y|Z))

].

Tehát a kovariancia szokásos definíciójában a Z szerinti feltételes várható értékkelcentrálunk a közönséges várható érték helyett. A parciális korrelációt egyfajtafeltételes korrelációként intrepretáljuk.Az X feltételes szórásnégyzete, adott Z mellett, az önmagával vett parciáliskovariancia – ennek négyzetgyöke a feltételes szórás:

D2(X|Z) = cov(X,X|Z); D(X|Z) =√

D2(X|Z)

A parciális korrelációt ezek után úgy kapjuk, hogy a parciális kovarianciát osztjuk afeltételes szórásokkal:

cor(X,Y|Z) = cov(X,Y|Z)D(X|Z) ·D(Y|Z)

.


Linear Models

Magyarázó változók szelekciója parciális korreláció alapján

Attól, hogy az Xj magyarázó változó tartalmaz a többiekétol különbözo informá-ciót, még nem biztos, hogy ez a saját információ releváns az Y válasz változó vál-tozékonyságának magyarázatában. Magyarán, az egyedi információtartalomtól azXj változó még nyugodtan lehet felesleges a regresszióban, ha ez az egyedi infor-máció nem az Y-t magyarázza.Az információ relevanciáját pedig úgy ellenorizzük, hogy kiszámítjuk az Y és azXj parciális korrelációját.Ha az Y és Xj parciális korrelációja elég ”nagy”, legalább 0.3 körüli, akkor azXj-ben lévo saját információ kapcsolatban van a válasz változóval, így értékesenjárulhat hozzá a válasz változékonyságának magyarázatához.


Linear Models

Magyarázó változók szelekciója t-próba alapján

Ha az Xj magyarázó változó tartalmaz is a saját információt, és ez az informá-ció kapcsolatban is áll az Y válasz változó változékonyságával, még mindig elo-fordulhat, hogy lényegtelenül kicsi a szerepe a változékonyság leírásában. Ez aregressziós együttható lényegtelenül kicsi voltában érheto tetten.Tesztelnünk kell tehát azt is, hogy az együttható lényeges-e, azaz szignifikánsaneltér-e 0-tól.A legkisebb nényzetes módszerrel becsült OLS együttható becslés BOLS =(XTX)−1(XTY) torzítatlan, normális eloszlású zaj mellett maga is normális el-oszlású és adott X mellett variancia-kovariancia mátrixa ΣBOLS

= σ2ε · (XTX)−1.

Az i-ik együttható szórása a mátrix diagonálisa i-ik elemének négyzetgyöke, ígyaz együtthatók szignifikanciája t-próbával értékelheto.Ha a zaj nem normális eloszlású, de független értéku, akkor az OLS alkalmazható,aszimptotikus normalitás érvényes, és a t-próba jó közelítéssel érvényes.Ha a zaj nem is független értéku, és a GLS módszert használjuk, akkor a becsültvariancia-kovariancia mátrix miatt az aszimptotikus normalitás bár igaz, de sokkallassabban érvényesül, ezért csak jelentos mintaelemszám mellett lehet bízni a t-próbában.


Linear Models

Modellszelekció goodness-of-fit ”cross-validation”-nal

A ”cross-validation” általános modellmegfelelés értékelo eljárás, nem csupán aregresszióhoz kötött.Kidobjuk, elfelejtjük a megfigyelések (regresszióban esetekrol, sorokról van szó!)egy részét, a maradékra illesztjük a modellt és a kidobottakon predikcióval el-lenorizzük.Végezhetjük egyesével kidobálva az eseteket, majd az illesztéskor kidobott mag-yarázó értékeket felhasználva predikáljuk a választ a modellbol. Ez a ”leave-one-out cross validation”. Értékeléséhez számoljuk a predikciós hibát a kidobott es-eten. Ezt az egész eljárást (kidobás-predikció-hiba) az összes eseten egyesévelelvégezve és összeadva a négyzetes hibákat, a modell ”jóságát” jellemzo egyetlenszámot kapunk, ami modellek összevetésére alkalmas.Ha eloszlás jellegu elozetes ismeretünk vagy várakozásunk van a predikciós hi-bára (pl. térképszerkesztés esetén az ú.n. probability map), Vagy az összefüg-gési struktúrára, akkor nem egyesével dobjuk ki a megfigyeléseket, hanem pl. azadatok 30% -át kidobjuk, a megmaradó 70%ra illesztünk, predikáljuk kidobott30% -ot és a hibaeloszlást vizsgáljuk. Összefüggési struktúra esetén pl véletlenválasztással többször elvégezzük az eljárást és a predikciós hiba eloszlásának sta-bilitását ellenorizzük.


Linear Models

Modellstabilitás, trendszelekció, túlillesztés

A cross validation alapvetoen modellek közötti választásra, és modellstabilitásellenorzésere alkalmas. Így pl jó lehet magyarázó változók különbözo alternativcsoportjai közötti döntésre, a nemlineáris jelleg/trend vizsgálatára (pl polinomiálisvagy exponenciális trend jobb-e) stb.A cross validation ugyancsak alkalmas például modelltúlillesztés kiszurésére.Túlillesztés: az adott minta és mintaszám mellett a modell jól illeszkedonek tunik,azonban ha egy újabb megfigyelés válik elérhetové, az már nem illeszkedik amodellhez ill fordítva. (Például: 5 magyarázo változó 5 megfigyelés = 5 egyenlet5 ismeretlen, hiba nélkül megoldható. Nyilván nem arról van szó, hogy nincs zaj arendszerben, hanem a megfigyelés kevés. Ha egy hatodik megfigyelést is tudunkvégezni, biztos hogy nem az egyenletekbol kiszámolhatóval fog egybeesni.)


Linear Models

Outlierek, Cook távolság

A regresszió nagyon érzékeny szélsoséges, kiugró értékekre, ezek nagyon ”félre-húzhatják” a regressziós egyenest / hipersíkot.Az outlierek esetén vagy átskálázni vagy transzformálni kell a változót (haegy koordináta kiugró), ki kell hagyni az egész esetet (sort), vagy csak a meg-bízhatóság értékelését kell nagy gonddal elvégezni és bemutatni - outlierestül :).A cross validation segítségével detektálhatók az outlierek. Leave-one-out crossvalidation-t végezve az együttható vektort becsüljük mindig (ez Bi az i-ik esetkidobása esetén) és nézzük Bi és a teljes regresszióból származó B távolságátRk-ban. Ez a Cook távolság. Azt méri, hogy mennyire mozdítja el az adott megfi-gyelés kidobása a regresszios egyenest, tehát a megfigyelés befolyásosságát méri,és ha ez nagy, akkor outlier-nek tekinthetjük.


Linear Models

Reziduális elemzés

A reziduálisokat (Y − Y) normalitásra linearitásra és homoszkedaszticitásra(homo= homogén + skedastikos = (szét)szóródni képes (görög)) teszteljük. Ho-moszkedaszticitás = homogén szórás.Általában a regresszió az outliereket kivéve robusztus. Létezik külön robusztusregressziós eljárás is.Ha nem normálisak a reziduálisok, akkor a tesztek nem pontosak. Legalább sz-immetria legyen az eloszlásban. Nemlinearitás vagy heteroszkedaszticitás nemérvényteleníti csak gyengíti a regressziót, a kapcsolat egy részét feltártuk demaradt ismeretlen hatás is.A heteroszkedaszticitás származhat a magyarázó változók közötti kölcsönhatás-ból, egyes változók ferdeségébol.


Linear Models

Scatterplotok

Vizuális elemzés, igen hasznos.Predicted vs. residuals: linearitás tesztelésére. Ha valamilyen mintázat látszik aploton, akkor valamilyen nemlineáris hatás (kvadratikus trend etc.) is jelen van.Observed vs. residuals: pontosításhoz: ha van nemlinearitás, honnan származik.Sok plot is lehet - körülményes.ANOVA tábla ugyanerreResiduals vs deleted residuals instabilak-e a regressziós együtthatókNormal plot of residuals - normalitásvizsgálat


Linear Models

Speciális regressziók


Linear Models

Simítás

A budapesti napi középhomérséklet 5 (fekete), 20 (kék), 100 (piros) évre átlagolva.Láthatóan egyre simább görbét kapunk, az elvi éves menet egy sima görbe.


Linear Models

Nemparametrikus regresszió

Running line (futó egyenes):Minden pontnak egy környezetében regressziót alkalmazunk.Ebbol predikáljuk a megfigyelt értéket az adott pontban.Ezzel az eljárással végigmegyünk a pontokon.


Linear Models

Running line

A megfigyelés simítását kapjuk, ez általában a trend torzított becslése.N(0,1)-es i.i.d mintát, ha simítjuk, akár periodikus görbét is kaphatunk belole.


Linear Models

Két alapkérdés

A simítás során 2 alapkérdés van:

1 Hogyan "átlagoljunk" egy bizonyos környezetben? Amit a pontokra illesztünkaz:

Átlag vízszintesenLineáris egyenesKvadratikus görbeMagasabb rendu görbe

2 Hogyan válasszuk meg a környezetet

Legközelebbi szomszéd - a legközelebbi k pontSzimmetrikus legközelebbi szomszéd - az egyik és másik oldalon is k

2 , k2 pont.

Egyfajta mozgó ablak.


Linear Models

Running Quadratic Curve

Négyzetes regresszió, 5 pontos környezet:


Linear Models

Legyen:Y = µ(X)+ ε,

ahol µ sima függvény, és legyen mintánk Y-ra X-re.Running line: egy mozgó ablakot választunk, és az ablakon belül egy egyszerulineáris regressziót alkalmazunk Y-ra X-szel.Yi-t az Xi alapján abból az ablakból becsüljük, amelynek o van a közepén.Pl. k=11-re Y14-et az (X9,Y9),...(X19,Y19) ablakból,azaz ezen párokra végzünkregressziót, és ennek együtthatóival predikáljuk Y14-et X14-bol.Ez az eljárás jó irregulárisan megfigyelt idosorra is. Ekkor Xi az ido, ami"véletlenszeru", vagyis regresszorként is felfogható.


Linear Models

Mag regresszió (Kernel regression):Ekkor is környezeteket választunk, de ezen belül nem egyenlo súllyal vesszükfigyelembe a pontokat.Ha x0-ban vagyunk kíváncsiak a simított predikcióra, akkor a megfigyelési "helyeket"(a regresszor értékeit) súlyozzuk az x0-tól való távolságuk függvényében

w0,i =C0

λ·K(∣∣∣∣x0− xi

λ

∣∣∣∣)ahol K egy magfüggvényλ a sávszélesség(Egy lehetoség pl. xi-t a szórásával osztani.)Ezekkel a súlyokkal egy súlyozott regressziót csinálunk, vagyis a minimalizálandólegkisebb négyzetes kifejezést súlyozva állítjuk elo.

µ(x0) =∑K ·

( x0−xiλ

)· yi

∑K ·( x0−xi

λ

)


Linear Models

Magfüggvények:

Gauss mag:a Gauss eloszlás suruségfüggvénye

Minimális variancia mag:K(t) = 3

8 (3−5t2) |t| ≤ 1

Epanechnikov mag:K(t) = 3

4 (1− t2) |t| ≤ 1


Linear Models

Lokális regresszió: LOESS

A Running line és a Kernel regresszió kombinációja.Minden környezetben súlyozott legkisebb négyzetes illesztés.A lokális regresszió célja pl. trend kiszurése

W =

[x0− xi

∆x0

]∆x0 az adott környezet legnagyobb távolsága x0-tól.

W(t) =

{(1− t3)3

0

0≤ t ≤ 1

Robusztus regressziót is lehet használni, ha szimmetrikusnak tételezzük fel a zajtnormális helyett.


Linear Models

Logisztikus regresszió

A feladat:A válasz változó kétféle kimenetet ír le, amit 0-val és 1-gyel kódolunk, és ennek vál-tozékonyságát szeretnénk a magyarázó változókkal magyarázni.Például:

Egy banki ügyfél hitelképességének bírálatakor arra vagyunk kíváncsiak, képes-efizetni a törlesztést vagy csodbe megy valamikor. Ezt magyarázhatja fizetése, atörleszto nagysága, a rezsiköltségei, vásárlási szokásai, nyaralásai, stb.Egy személy halálos szívinfarktust kap vagy sem. Ezt magyarázhatja vérénekkoleszterintartalma, vércukorszintje, dohányzása, alkoholfogyasztása stb.

Több ügyfélrol, több személyrol van adatunk. Azonban nem a 0 vagy 1 kimenetetakarjuk magyarázni, vagy predikálni a magyarázó változókkal, hanem annak avalószínuségét, hogy 1 lesz a kimenet, ez azonban ügyfélrol ügyfélre, személyrolszemélyre, tehát esetrol esetre változik.Azonban a valószínuségre közvetlenül nincs adatunk, becsülni sem tudjuk, hiszen nyil-ván értelmetlen, hogy az adott személy milyen gyakran halt meg infarktusban.


Linear Models

Bináris válasz

A közönséges regresszió esetén a választ a magyarázók ellenében megjelenítve akapcsolat jellegérol képet kaphatunk. A bináris válasz esetén ez sajnos nincs így.


Linear Models

A feltételes valószínuség

A válasz értékei helyett vizsgálhatjuk az

E(Y|X = xi) = P(Y = 1|X = xi) = π(xi)

függvényt, azaz, hogy az Xi ismeretében mennyi a feltételes valószínusége a vizs-gált esemény bekövetkezésének az i-edik megfigyelés esetén. Azonban ez a függvénynem lineáris, tehát nem alkalmazhatunk lineáris regressziót a meghatározására. Sokkalinkább valamilyen S alakú görbe. A következo függvények:

π(x) =exp(β0 +β1x)

1+ exp(β0 +β1x)

jól parametrizált S alakú függvénycsaládot adnak. Azt feltételezzük, hogy ez írja le afenti feltételes valószínuség és a magyarázó változók kapcsolatát. Innen

log(

π(x)1−π(x)

)= β0 +β1x

vagyis a log odds hányados lesz lineáris függvénye a magyarázó változóknak, és ennekaz együtthatóit kell meghatároznunk. Ez a logisztikus regresszió modellje.Márkus László, Eötvös Loránd Tudományegyetem Lineáris Regresszió 2018. december 31. 45 / 48

Linear Models

Értelmezés

Vegyük észre, hogy a modellben nincs szükség zajra, mivel eleve a feltételesvárható értéket modellezzük, ami már az X-ek, a magyarázó változók függvényeés nem a válaszé.A β1 együttható értelmezése is más, mint a közönséges regresszióban. A magya-rázó változó egységnyi változása β1 változást okoz a log-oddsban, de e helyettinkább azt mondjuk, hogy egységnyi változás a magyarázó változóban az oddsoteβ1 szorzótényezovel növeli.


Linear Models

Becslés

Mivel π(xi) = πi -re nincs megfigyelésünk, a legkisebb négyzetes módszer nemalkalmazható.A maximum likelihood módszer muködik.Ehhez eloször az Y1, . . . ,Yn minta g(y1, . . . ,yn) suruségfüggvényét kell számolni.Mivel az esetek (a sorok) független megfigyelések eredményei, ezért szorzódnaka marginális suruségfüggvények:

g(y1, . . . ,yn) =n

∏i=1

fi(yi) =n

∏i=1

πyii · (1−πi)

1−yi

Számoljuk most a log-likelihoodot.

log(g(y1, . . . ,yn)) = log

(n

∏i=1

πyii · (1−πi)

1−yi

)=

=n

∑i=1

yi log(πi)+n

∑i=1

(1− yi) log(1−πi) =


Linear Models

=n

∑i=1

yi log(

πi

1−πi

)+

n

∑i=1

log(1−πi) =

Ide beírjuk a log oddsra vonatkozó linearis egyenletet:

=n

∑i=1

yi(β0 +β1xi)+n

∑i=1

log(1+ exp(β0 +β1xi))

Ezek szerint megkaptuk a log-likelihoodot, mint az ismeretlen paraméterek függvényétés most már ezt kell a paraméterekben maximalizálni.A deriváltak felírhatók és ezeket kell 0-ra megoldani. Ez azonban nem lineáris egyen-letrendszer, ezért csak iteratív megoldása van amennyiben az konvergál.Egy, az általánosított legkisebb négyzetes módszerrel rokon iterációt kapunk, amelyetaz R azzal együtt is kezel, a glm parancsban.


Documents

Lineáris Regresszió · 2018. 12. 31. · A feladat A regresszió általános modellje A regresszió modelljében az Y válasz változékonyságát azért tudjuk magyarázni az X