10
Logisztikus regresszió Binomiális vagy kétváltozós (bináris) logisztikus regresszió - függő változó: dichotóm - független változók: folytonos vagy kategoriális Lineáris regresszió: egy magas mérési szintű függő változót magyaráztunk magas mérési szintű magyarázó (független) változók segítségével. Mire alkalmas: csak a változók közötti lineáris kapcsolatok erősségének és irányának vizsgálatára. Nominális / ordinális független változókat tudtunk beépíteni a modellbe. Most: nem a magyarázó változó kétértékű, hanem a függő változó. Lineáris regressziós modellbe nominális változót építünk be – dummy változók. - intervallumszintű változónak tekinthető - ha ez igaz, akkor egy lineáris regressziós modell függő változója lehet DE ez anomáliákhoz vezet. Pl.: vizsgáljuk a nem és a vallásosság kapcsolatát (kereszttábla) - 0,503 a valószínűsége annak, hogy a férfiak között van hívő - 0,661 a valószínűsége annak, hogy a nők között van hívő Ebben a modellben a függő változó (hívő) bináris, regressziós egyenes konstans értéke azt jelzi, hogy mekkora valószínűséggel találunk a férfiak között hívőt. A nem hatását kifejező regressziós együttható pedig azt a valószínűségváltozást jelzi, amely akkor következne be, ha a férfiaktól a nők felé mozdulnánk el. Konstans B érték: 0,503 NEME B érték: 0,158 A konstans értéke – a független változó 0 értékéhez a függőváltozónak mekkora átlagértéke tartozik. A függő változó (0,1) bináris, az átlag annak a valószínűsége, hogy a független változó 0 értékéhez tartozó mekkora valószínűséggel veszik fel a függő változó 1-es értékét = a férfiak között a hívők valószínűsége = 0,503.

Logisztikus regresszió

Embed Size (px)

DESCRIPTION

stat

Citation preview

Logisztikus regresszi

Logisztikus regresszi

Binomilis vagy ktvltozs (binris) logisztikus regresszi

fgg vltoz: dichotm

fggetlen vltozk: folytonos vagy kategorilis

Lineris regresszi: egy magas mrsi szint fgg vltozt magyarztunk magas mrsi szint magyarz (fggetlen) vltozk segtsgvel.

Mire alkalmas: csak a vltozk kztti lineris kapcsolatok erssgnek s irnynak vizsglatra.

Nominlis / ordinlis fggetlen vltozkat tudtunk bepteni a modellbe.

Most: nem a magyarz vltoz ktrtk, hanem a fgg vltoz.

Lineris regresszis modellbe nominlis vltozt ptnk be dummy vltozk.

intervallumszint vltoznak tekinthet

ha ez igaz, akkor egy lineris regresszis modell fgg vltozja lehet

DE ez anomlikhoz vezet.

Pl.: vizsgljuk a nem s a vallsossg kapcsolatt (kereszttbla)

0,503 a valsznsge annak, hogy a frfiak kztt van hv

0,661 a valsznsge annak, hogy a nk kztt van hv

Ebben a modellben a fgg vltoz (hv) binris, regresszis egyenes konstans rtke azt jelzi, hogy mekkora valsznsggel tallunk a frfiak kztt hvt. A nem hatst kifejez regresszis egytthat pedig azt a valsznsgvltozst jelzi, amely akkor kvetkezne be, ha a frfiaktl a nk fel mozdulnnk el.

Konstans B rtk: 0,503

NEME B rtk: 0,158

A konstans rtke a fggetlen vltoz 0 rtkhez a fggvltoznak mekkora tlagrtke tartozik. A fgg vltoz (0,1) binris, az tlag annak a valsznsge, hogy a fggetlen vltoz 0 rtkhez tartoz mekkora valsznsggel veszik fel a fgg vltoz 1-es rtkt = a frfiak kztt a hvk valsznsge = 0,503.

A NEME vltozhoz tartoz B rtk a fggetlen vltoz 0 rtkbl az 1-be elmozdulva mennyivel vltozik a fgg vltoz tlagrtke, azaz annak a valsznsge, hogy valaki hv.

Vallsossg magyarzata letkorral

Konstans B rtk: -0,127

KOR B rtk: 1,223E-02

A fggetlen vltoz rtelmezsi tartomnyn bell egynl nagyobb becslt fggvltoz-rtkekkel is tallkozhatunk interpretlhatatlan!

A ktrtk fgg vltozkat a lineris regresszi nem megfelel mdon kezeli. logisztikus regresszi!

Fogalmak

Nemcsak ktrtk fggetlen vltozk esetn alkalmas.

- a fgg vltoz viselkedst gy magyarzza, hogy ne kvnja a fggetlen vltozk rtelmes struktrba szervezdst szlesebb krben alkalmazhat mint a diszkriminancia-analzis.

- nem kvnja meg a homoszkedaszticits teljeslst, s nem kell foglalkoznunk a modell vltozinak eloszlsval sem.

A valsznsg s az esly

Valsznsg: annak eslye, hogy valami bekvetkezik. Ha egy mintban 370 hv s 366 nem hv frfi van, akkor

- annak valsznsge, hogy a frfiak kztt egy hvre bukkanunk = 370/736 = 0,503.

- annak valsznsge, hogy egy ateistval tallkozunk = 1- 0,503 = 0,497

Esly: egy olyan mrszm, amelyet kt komplementer valsznsg hnyadosaknt definilunk. A hv frfi eslye: 0,503 / 0,497 = 1,012

Annak eslye, hogy egy hvt tallunk: 1,950.

Az eslyhnyados

Kt esly hnyadosa, azaz kt vltoz kztti kapcsolat egy sszefoglal mrszma.

Mindig egy viszonyt fejez ki, valaminek egy ms valamihez viszonytott eslye.

A nk eslyhnyadosa a frfiakhoz kpest azt jelenti, hogy a nk eslye ll a szmllban, mg a frfiak eslye a nevezben, az eslyhnyados pedig annak az esemnynek az eredmnye, ha a friak nv vltoznnak, mennyire nne meg a vallsossg eslye. A nk valllossgra vonatkoz eslye a frfiakhoz kpest

- a nk eslyhnyadosa a frfiakhoz kpest: 1,950 / 1,012 = 1,93

- a frfiak eslyhnyadosa a nkhz kpest: 1,012 / 1,950 = 0,52

Ha a frfiak nkk vltoznnak, akkor a hvk arnya kzel ktszeresre nne.

Logisztikus regresszi feladata: egy olyan regresszis B rtket kell megtallnia, amelyek mellett a likelihood fggvny rtke a lehet legnagyobb lesz. Ha ez els lpsben nem sikerl, akkor a program addig vltoztatgatja a B rtkeket, amg rdemi nvekedst kpes elrni a likelihood fggvnyen a paramtereket egy itercis folyamat sorn tallja meg.

Egyszer modell

Vizsgljuk meg a nem s a vallsossg kapcsolatt

Analyze / Regression / Binary Logistic

Dependent: hv-e

Covariates: neme

LOGISTICREGRESSIONVARIABLEShivo2 magyarzni kvnt vltoz/METHOD=ENTERneme mdszer megadsa valamennyi fggetlen vltozt egyszerre pti be a modellbe/CRITERIA=PIN(.05) modellbe val belps, POUT(.10) modellbl val kikerls, ITERATE(20) maximlis itercik szma, CUT(.5)

Dependent Variable Encoding

Original Value

Internal Value

nem

0

igen

1

A fgg vltoz eredetileg 1 s 2 rtkt 0-ra s 1-re tkdolta.

Kiindul llapot

Iteration Historya,b,c

Iteration

-2 Log likelihood

Coefficients

Constant

Step 0

1

2320,663

,372

2

2320,655

,376

3

2320,655

,376

a. Constant is included in the model.

b. Initial -2 Log Likelihood: 2320,655

c. Estimation terminated at iteration number 3 because parameter estimates changed by less than ,001.

Kiindul llapot egyetlen fggetlen vltoz sem lpett be a modellbe.

Ehhez a kezdeti llapothoz a program hozzrendeli a log-likelihood fggvny rtkt, annak mnusz ktszerest. a transzformlt fggvny kzeltleg kh-ngyzet eloszls lesz, alkalmas arra, hogy a fggetlen vltozk belpsvel trtnt vltozsokrl eldnthessk, szignifiknsak-e.

Az eredeti likelihood fggvny csak nem pozitv rtket vehet fel, gy mnusz ktszerese csupa nem negatv rtkbl ll. Minl nagyobb a -2LL rtke, annl rosszabb hatkonysg a fgg vltoz elrejelzse.

A logisztikus regresszi indulsakor mg nincsenek magyarz vltozink, a -2LL rtkvel azt a hibt tnteti fel, ami csak a konstans magba foglal modellre vonatkozik.

Nullhipotzis: valamennyi B regresszis egytthatnk 0-val egyenl.

Iteration Historya,b,c,d

Iteration

-2 Log likelihood

Coefficients

Constant

neme

Step 1

1

2277,407

-,620

,631

2

2277,285

-,644

,655

3

2277,285

-,644

,655

a. Method: Enter

b. Constant is included in the model.

c. Initial -2 Log Likelihood: 2320,655

d. Estimation terminated at iteration number 3 because parameter estimates changed by less than ,001.

Variables in the Equation

B

S.E.

Wald

df

Sig.

Exp(B)

Step 1a

neme

,655

,100

42,968

1

,000

1,925

Constant

-,644

,162

15,778

1

,000

,525

a. Variable(s) entered on step 1: neme.

ENTER mdszerrel dolgozunk. Mivel egyetlen fggetlen vltoznk van, els lpsben ez lpett be a modellbe.

Itercis folyamat modell paramtereinek megtallsa 3 itercira volt szksg, mert a log-likelihodd fggvny rtke mr kevesebb, mint 0,01 szzalkkal cskkent.

Model Summary

Step

-2 Log likelihood

Cox & Snell R Square

Nagelkerke R Square

1

2277,285a

,025

,034

a. Estimation terminated at iteration number 3 because parameter estimates changed by less than ,001.

-2LL arra modellre vonatkozik, amelyben az adott lpsben bevont fggetlen vltoz szerepel. Ez az a rsz, amely a fggetlen vltoz bevonsa utn is megmagyarzatlan marad. Deviation Chi-square DM.

0-dik lpsben: -2LL = Do 2320,6549, majd a nem bevonsnak hatsra

DM = 2277,285-re cskkent. A cskkens mrtkt a modell-kh-ngyzet jelzi.

Omnibus Tests of Model Coefficients

Chi-square

df

Sig.

Step 1

Step

43,370

1

,000

Block

43,370

1

,000

Model

43,370

1

,000

Kh-ngyzet prba modell szignifikns-e?

Nullhipotzis: egyetlen fggetlen vltoz sincs kapcsolatban a fgg vltoz log-eslyvel, azaz a nullhipotzis, hogy a populciban a konstanst kivve minden regresszis egytthat nulla.

A kh-ngyzethez tartoz szignifikancit a szabadsgfokok figyelmebevtelvel hatrozza meg program. A szabadsgfok nem ms, mnt a modellben lv paramterek szma mnusz egy.

A kh-ngyzet prba szignifikancija 0,000, teht a modellnk szignifikns.

A modell magyarzereje a logisztikus modell illeszkedsnek megtlse

Lienris regresszis modellben R2 korriglt alakja a fggetlen vltozk a fgg vltoz varinacijnak hny szzalkt kpesek megmagyarzni.

Logisztikus regresszis modellben viszont a binris fgg vltoz varinacija fgg magnak a vltoznak az eloszlstl, teht az R2 mutatja attl is fgg, hogy egynletes vagy ferde eloszlst mutat-e a fgg vltoz.

Kt mutatt ad:

Cox-Snell-fle

A nulladik s az aktulis modell likelihoodjait hasonltja ssze, hgy a mutat rtke garantltan nulla s egy kz essen.

Problma: maximlis rtke nem ri el az egyet, pontos rtelmezse lehetetlen.

A nagyobb R2-k jobb illeszkedst, a kisebbek rosszabbat feltteleznek.

Nagelkerke-fle

A lehet legjobb illeszkeds esetben felveszi az 1 rtket.

Clszerbb kiszmtani egy j mutatt, mert rtelmezse egyszer.

GM/Do = RL2

RL2 = 2320,655-2277,285 / 2320,655 = 0,019

Azt fejezi ki, hogy a fggetlen vltozk bevonsa a modellbe milyen mrtkben cskkenti a Do-t.

A statisztika rtke 0 s 1 kztt mozog, ahol a 0 = a modellbe bevont fggetlen vltozk egyltaln nem jrulnak hozz a fgg vltoz rtknek becslshez.

Van egy korriglt formja ha nagyon sok fggetlen vltozt ptnk be a modellbe, s ezzel jl feltornzzuk az R2 rtkt, legyen egy korrekcis tnyez.

RLA2 = Gm -2k / Do, k= a modellben szerepl fggetlen vltozk szma. = 0,018.

OLS R2 mentsk el a becslt rtkeket a fgg vltoz adott kategrijnak becslt bekvetkezsi valsznsgei a fggetlen vltoz(k) adott rtke(i) mellett.

/SAVE, Predicted Values Probablities

Kapunk egy j vltozt - vallsossgra vonatkoz valsznsgeket tartalmazza, amelyeket a logisztikus regresszi becslt a nem ismeretben.

Alkotunk egy olyan lineris regresszis modellt, amelyben a logisztikus regresszibl szrmaz becslt rtkek vltozja a fgg vltoz s az eredeti mrt ktrtk vltoz a fggetlen (szimmetrikus a kt R2, teht felcserlhetek a vltozk).

Az gy kapott R2 statisztikt hasznlhatjuk a logisztikus regressziban a modell magyarzerejnek mrsre.

Model Summary

Model

R

R Square

Adjusted R Square

Std. Error of the Estimate

1

,159a

,025

,025

,07716048

a. Predictors: (Constant), hiv-e

Tallatmtrix a logisztikus regressziban fgg vltoz kategorilis, a modell illeszkedst mr szempontbl is vizsglhatjuk

Tallatmtrix: a modell ltal elvgzett besorols s a tnyleges hovatartozs sszevetse.

Mirt fontos? a becslt valsznsgek pontosan megegyezhetnek az adott kategriba tartozs csoportonknti arnyval, mgis az egyes konkrt esetek besorolsa sok tvedsi lehetsget rejt magban.

Modell ltal becslt valsznsgek eloszlsa

FREQUENCIESVARIABLES=PRE_3

Predicted probability

Frequency

Percent

Valid Percent

Cumulative Percent

Valid

0.502717391304368

736

42,9

42,9

42,9

0.660550458444124

981

57,1

57,1

100,0

Total

1717

100,0

100,0

A logisztikus regresszi a frfiak esetben 0,503-ra, a nk esetben 0,661-re becsli a vallsossg valsznsgt.

A program ezeket az rtkeket valsznsgknt kezeli: ha valaki 0 rtkkel br a hv vltozn, akkor az 0 valsznsggel vallsos, ha pedig 1-es rtke van, akkor 1 valsznsggel lesz vallsos.

A modell minden frfihez egy adott s minden nhz egy msik adott valsznsget rendel.

Ezen valsznsgek s a tnyleges vallsossgot jelz rtkek kztti klnbsgek adjk a modell rezidulisait.

Nzzk meg mennyire tr el az egyes megkrdezetthez hozzrendelt becslt valsznsg alapjn a besorols a valsgos helyzettl.

Classification Tablea

Observed

Predicted

hiv-e

Percentage Correct

nem

igen

Step 1

hiv-e

nem

0

699

,0

igen

0

1018

100,0

Overall Percentage

59,3

a. The cut value is ,500

A tallatmtrix azt mutatja, hogy a program a becslt valsznsgek alapjn senkit sem sorolt az ateistk kz. Mivel a frfiak esetben is nagyobb volt a vallsossg valsznsge 0.5-nl, nemre val tekintet nlkl mindenki a vallsosak kategrijban kerlt.

CUT (.5) ez az rtk az a hatrvonal, amelynl nagyobb becslt valsznsgnl az adott eset az Y=1 dobozba soroldik, mg az ezzel egyenl, illetve ennl kisebb becslt valsznsggel jellemzett esetek az Y=0 kategriba kerlnek.

A program a mdusszal becsl, amikor kategriba sorol, ez a ktrtk vltozk esetn a lehet legjobb becsls.

(Mivel egy binris fggetlen vltoznk van, nem hordoz plusz informcit ez a tblzat).

A fggetlen vltoz hatsa

A modell magyarzereje gyenge. egyetlen fgg vltoznk nem hat valami ersen a fgg vltozra.

Wald statisztika

Variables in the Equation

B

S.E.

Wald

df

Sig.

Exp(B)

Step 1a

neme

,655

,100

42,968

1

,000

1,925

Constant

-,644

,162

15,778

1

,000

,525

a. Variable(s) entered on step 1: neme.

WALD statisztika nullhipotzis: az adott vltozhoz tartoz B egytthat rtke egyenl 0-val. Egy Wald-ngyzet rtk szerepel itt, ami kzeltleg kh-ngyzet eloszlst kvet. A szignifikancia a nem szignifiknsan hat a vallsossgra.

(Lenne egy R rtk is, ha tbb fggetlen vltoz van a vltozhoz tartoz Wald-rtk a szabasgfokkal korriglva alkalmas a fggetlen vltozk relatv fontossgnak megtlsre R= +- Wald 2df / Do).

EXP(B) eslyhnyados a nem vltozn egy egysgnyi elmozduls 1,92-szeresre nveli a vallsossg eslyt, teht annak eslye, hogy a nk kztt egy hvre bukkanunk 1,92-szer nagyobb, mint a frfiak kztt.