Upload
johanna-takacs
View
3
Download
0
Embed Size (px)
DESCRIPTION
stat
Citation preview
Logisztikus regresszi
Logisztikus regresszi
Binomilis vagy ktvltozs (binris) logisztikus regresszi
fgg vltoz: dichotm
fggetlen vltozk: folytonos vagy kategorilis
Lineris regresszi: egy magas mrsi szint fgg vltozt magyarztunk magas mrsi szint magyarz (fggetlen) vltozk segtsgvel.
Mire alkalmas: csak a vltozk kztti lineris kapcsolatok erssgnek s irnynak vizsglatra.
Nominlis / ordinlis fggetlen vltozkat tudtunk bepteni a modellbe.
Most: nem a magyarz vltoz ktrtk, hanem a fgg vltoz.
Lineris regresszis modellbe nominlis vltozt ptnk be dummy vltozk.
intervallumszint vltoznak tekinthet
ha ez igaz, akkor egy lineris regresszis modell fgg vltozja lehet
DE ez anomlikhoz vezet.
Pl.: vizsgljuk a nem s a vallsossg kapcsolatt (kereszttbla)
0,503 a valsznsge annak, hogy a frfiak kztt van hv
0,661 a valsznsge annak, hogy a nk kztt van hv
Ebben a modellben a fgg vltoz (hv) binris, regresszis egyenes konstans rtke azt jelzi, hogy mekkora valsznsggel tallunk a frfiak kztt hvt. A nem hatst kifejez regresszis egytthat pedig azt a valsznsgvltozst jelzi, amely akkor kvetkezne be, ha a frfiaktl a nk fel mozdulnnk el.
Konstans B rtk: 0,503
NEME B rtk: 0,158
A konstans rtke a fggetlen vltoz 0 rtkhez a fggvltoznak mekkora tlagrtke tartozik. A fgg vltoz (0,1) binris, az tlag annak a valsznsge, hogy a fggetlen vltoz 0 rtkhez tartoz mekkora valsznsggel veszik fel a fgg vltoz 1-es rtkt = a frfiak kztt a hvk valsznsge = 0,503.
A NEME vltozhoz tartoz B rtk a fggetlen vltoz 0 rtkbl az 1-be elmozdulva mennyivel vltozik a fgg vltoz tlagrtke, azaz annak a valsznsge, hogy valaki hv.
Vallsossg magyarzata letkorral
Konstans B rtk: -0,127
KOR B rtk: 1,223E-02
A fggetlen vltoz rtelmezsi tartomnyn bell egynl nagyobb becslt fggvltoz-rtkekkel is tallkozhatunk interpretlhatatlan!
A ktrtk fgg vltozkat a lineris regresszi nem megfelel mdon kezeli. logisztikus regresszi!
Fogalmak
Nemcsak ktrtk fggetlen vltozk esetn alkalmas.
- a fgg vltoz viselkedst gy magyarzza, hogy ne kvnja a fggetlen vltozk rtelmes struktrba szervezdst szlesebb krben alkalmazhat mint a diszkriminancia-analzis.
- nem kvnja meg a homoszkedaszticits teljeslst, s nem kell foglalkoznunk a modell vltozinak eloszlsval sem.
A valsznsg s az esly
Valsznsg: annak eslye, hogy valami bekvetkezik. Ha egy mintban 370 hv s 366 nem hv frfi van, akkor
- annak valsznsge, hogy a frfiak kztt egy hvre bukkanunk = 370/736 = 0,503.
- annak valsznsge, hogy egy ateistval tallkozunk = 1- 0,503 = 0,497
Esly: egy olyan mrszm, amelyet kt komplementer valsznsg hnyadosaknt definilunk. A hv frfi eslye: 0,503 / 0,497 = 1,012
Annak eslye, hogy egy hvt tallunk: 1,950.
Az eslyhnyados
Kt esly hnyadosa, azaz kt vltoz kztti kapcsolat egy sszefoglal mrszma.
Mindig egy viszonyt fejez ki, valaminek egy ms valamihez viszonytott eslye.
A nk eslyhnyadosa a frfiakhoz kpest azt jelenti, hogy a nk eslye ll a szmllban, mg a frfiak eslye a nevezben, az eslyhnyados pedig annak az esemnynek az eredmnye, ha a friak nv vltoznnak, mennyire nne meg a vallsossg eslye. A nk valllossgra vonatkoz eslye a frfiakhoz kpest
- a nk eslyhnyadosa a frfiakhoz kpest: 1,950 / 1,012 = 1,93
- a frfiak eslyhnyadosa a nkhz kpest: 1,012 / 1,950 = 0,52
Ha a frfiak nkk vltoznnak, akkor a hvk arnya kzel ktszeresre nne.
Logisztikus regresszi feladata: egy olyan regresszis B rtket kell megtallnia, amelyek mellett a likelihood fggvny rtke a lehet legnagyobb lesz. Ha ez els lpsben nem sikerl, akkor a program addig vltoztatgatja a B rtkeket, amg rdemi nvekedst kpes elrni a likelihood fggvnyen a paramtereket egy itercis folyamat sorn tallja meg.
Egyszer modell
Vizsgljuk meg a nem s a vallsossg kapcsolatt
Analyze / Regression / Binary Logistic
Dependent: hv-e
Covariates: neme
LOGISTICREGRESSIONVARIABLEShivo2 magyarzni kvnt vltoz/METHOD=ENTERneme mdszer megadsa valamennyi fggetlen vltozt egyszerre pti be a modellbe/CRITERIA=PIN(.05) modellbe val belps, POUT(.10) modellbl val kikerls, ITERATE(20) maximlis itercik szma, CUT(.5)
Dependent Variable Encoding
Original Value
Internal Value
nem
0
igen
1
A fgg vltoz eredetileg 1 s 2 rtkt 0-ra s 1-re tkdolta.
Kiindul llapot
Iteration Historya,b,c
Iteration
-2 Log likelihood
Coefficients
Constant
Step 0
1
2320,663
,372
2
2320,655
,376
3
2320,655
,376
a. Constant is included in the model.
b. Initial -2 Log Likelihood: 2320,655
c. Estimation terminated at iteration number 3 because parameter estimates changed by less than ,001.
Kiindul llapot egyetlen fggetlen vltoz sem lpett be a modellbe.
Ehhez a kezdeti llapothoz a program hozzrendeli a log-likelihood fggvny rtkt, annak mnusz ktszerest. a transzformlt fggvny kzeltleg kh-ngyzet eloszls lesz, alkalmas arra, hogy a fggetlen vltozk belpsvel trtnt vltozsokrl eldnthessk, szignifiknsak-e.
Az eredeti likelihood fggvny csak nem pozitv rtket vehet fel, gy mnusz ktszerese csupa nem negatv rtkbl ll. Minl nagyobb a -2LL rtke, annl rosszabb hatkonysg a fgg vltoz elrejelzse.
A logisztikus regresszi indulsakor mg nincsenek magyarz vltozink, a -2LL rtkvel azt a hibt tnteti fel, ami csak a konstans magba foglal modellre vonatkozik.
Nullhipotzis: valamennyi B regresszis egytthatnk 0-val egyenl.
Iteration Historya,b,c,d
Iteration
-2 Log likelihood
Coefficients
Constant
neme
Step 1
1
2277,407
-,620
,631
2
2277,285
-,644
,655
3
2277,285
-,644
,655
a. Method: Enter
b. Constant is included in the model.
c. Initial -2 Log Likelihood: 2320,655
d. Estimation terminated at iteration number 3 because parameter estimates changed by less than ,001.
Variables in the Equation
B
S.E.
Wald
df
Sig.
Exp(B)
Step 1a
neme
,655
,100
42,968
1
,000
1,925
Constant
-,644
,162
15,778
1
,000
,525
a. Variable(s) entered on step 1: neme.
ENTER mdszerrel dolgozunk. Mivel egyetlen fggetlen vltoznk van, els lpsben ez lpett be a modellbe.
Itercis folyamat modell paramtereinek megtallsa 3 itercira volt szksg, mert a log-likelihodd fggvny rtke mr kevesebb, mint 0,01 szzalkkal cskkent.
Model Summary
Step
-2 Log likelihood
Cox & Snell R Square
Nagelkerke R Square
1
2277,285a
,025
,034
a. Estimation terminated at iteration number 3 because parameter estimates changed by less than ,001.
-2LL arra modellre vonatkozik, amelyben az adott lpsben bevont fggetlen vltoz szerepel. Ez az a rsz, amely a fggetlen vltoz bevonsa utn is megmagyarzatlan marad. Deviation Chi-square DM.
0-dik lpsben: -2LL = Do 2320,6549, majd a nem bevonsnak hatsra
DM = 2277,285-re cskkent. A cskkens mrtkt a modell-kh-ngyzet jelzi.
Omnibus Tests of Model Coefficients
Chi-square
df
Sig.
Step 1
Step
43,370
1
,000
Block
43,370
1
,000
Model
43,370
1
,000
Kh-ngyzet prba modell szignifikns-e?
Nullhipotzis: egyetlen fggetlen vltoz sincs kapcsolatban a fgg vltoz log-eslyvel, azaz a nullhipotzis, hogy a populciban a konstanst kivve minden regresszis egytthat nulla.
A kh-ngyzethez tartoz szignifikancit a szabadsgfokok figyelmebevtelvel hatrozza meg program. A szabadsgfok nem ms, mnt a modellben lv paramterek szma mnusz egy.
A kh-ngyzet prba szignifikancija 0,000, teht a modellnk szignifikns.
A modell magyarzereje a logisztikus modell illeszkedsnek megtlse
Lienris regresszis modellben R2 korriglt alakja a fggetlen vltozk a fgg vltoz varinacijnak hny szzalkt kpesek megmagyarzni.
Logisztikus regresszis modellben viszont a binris fgg vltoz varinacija fgg magnak a vltoznak az eloszlstl, teht az R2 mutatja attl is fgg, hogy egynletes vagy ferde eloszlst mutat-e a fgg vltoz.
Kt mutatt ad:
Cox-Snell-fle
A nulladik s az aktulis modell likelihoodjait hasonltja ssze, hgy a mutat rtke garantltan nulla s egy kz essen.
Problma: maximlis rtke nem ri el az egyet, pontos rtelmezse lehetetlen.
A nagyobb R2-k jobb illeszkedst, a kisebbek rosszabbat feltteleznek.
Nagelkerke-fle
A lehet legjobb illeszkeds esetben felveszi az 1 rtket.
Clszerbb kiszmtani egy j mutatt, mert rtelmezse egyszer.
GM/Do = RL2
RL2 = 2320,655-2277,285 / 2320,655 = 0,019
Azt fejezi ki, hogy a fggetlen vltozk bevonsa a modellbe milyen mrtkben cskkenti a Do-t.
A statisztika rtke 0 s 1 kztt mozog, ahol a 0 = a modellbe bevont fggetlen vltozk egyltaln nem jrulnak hozz a fgg vltoz rtknek becslshez.
Van egy korriglt formja ha nagyon sok fggetlen vltozt ptnk be a modellbe, s ezzel jl feltornzzuk az R2 rtkt, legyen egy korrekcis tnyez.
RLA2 = Gm -2k / Do, k= a modellben szerepl fggetlen vltozk szma. = 0,018.
OLS R2 mentsk el a becslt rtkeket a fgg vltoz adott kategrijnak becslt bekvetkezsi valsznsgei a fggetlen vltoz(k) adott rtke(i) mellett.
/SAVE, Predicted Values Probablities
Kapunk egy j vltozt - vallsossgra vonatkoz valsznsgeket tartalmazza, amelyeket a logisztikus regresszi becslt a nem ismeretben.
Alkotunk egy olyan lineris regresszis modellt, amelyben a logisztikus regresszibl szrmaz becslt rtkek vltozja a fgg vltoz s az eredeti mrt ktrtk vltoz a fggetlen (szimmetrikus a kt R2, teht felcserlhetek a vltozk).
Az gy kapott R2 statisztikt hasznlhatjuk a logisztikus regressziban a modell magyarzerejnek mrsre.
Model Summary
Model
R
R Square
Adjusted R Square
Std. Error of the Estimate
1
,159a
,025
,025
,07716048
a. Predictors: (Constant), hiv-e
Tallatmtrix a logisztikus regressziban fgg vltoz kategorilis, a modell illeszkedst mr szempontbl is vizsglhatjuk
Tallatmtrix: a modell ltal elvgzett besorols s a tnyleges hovatartozs sszevetse.
Mirt fontos? a becslt valsznsgek pontosan megegyezhetnek az adott kategriba tartozs csoportonknti arnyval, mgis az egyes konkrt esetek besorolsa sok tvedsi lehetsget rejt magban.
Modell ltal becslt valsznsgek eloszlsa
FREQUENCIESVARIABLES=PRE_3
Predicted probability
Frequency
Percent
Valid Percent
Cumulative Percent
Valid
0.502717391304368
736
42,9
42,9
42,9
0.660550458444124
981
57,1
57,1
100,0
Total
1717
100,0
100,0
A logisztikus regresszi a frfiak esetben 0,503-ra, a nk esetben 0,661-re becsli a vallsossg valsznsgt.
A program ezeket az rtkeket valsznsgknt kezeli: ha valaki 0 rtkkel br a hv vltozn, akkor az 0 valsznsggel vallsos, ha pedig 1-es rtke van, akkor 1 valsznsggel lesz vallsos.
A modell minden frfihez egy adott s minden nhz egy msik adott valsznsget rendel.
Ezen valsznsgek s a tnyleges vallsossgot jelz rtkek kztti klnbsgek adjk a modell rezidulisait.
Nzzk meg mennyire tr el az egyes megkrdezetthez hozzrendelt becslt valsznsg alapjn a besorols a valsgos helyzettl.
Classification Tablea
Observed
Predicted
hiv-e
Percentage Correct
nem
igen
Step 1
hiv-e
nem
0
699
,0
igen
0
1018
100,0
Overall Percentage
59,3
a. The cut value is ,500
A tallatmtrix azt mutatja, hogy a program a becslt valsznsgek alapjn senkit sem sorolt az ateistk kz. Mivel a frfiak esetben is nagyobb volt a vallsossg valsznsge 0.5-nl, nemre val tekintet nlkl mindenki a vallsosak kategrijban kerlt.
CUT (.5) ez az rtk az a hatrvonal, amelynl nagyobb becslt valsznsgnl az adott eset az Y=1 dobozba soroldik, mg az ezzel egyenl, illetve ennl kisebb becslt valsznsggel jellemzett esetek az Y=0 kategriba kerlnek.
A program a mdusszal becsl, amikor kategriba sorol, ez a ktrtk vltozk esetn a lehet legjobb becsls.
(Mivel egy binris fggetlen vltoznk van, nem hordoz plusz informcit ez a tblzat).
A fggetlen vltoz hatsa
A modell magyarzereje gyenge. egyetlen fgg vltoznk nem hat valami ersen a fgg vltozra.
Wald statisztika
Variables in the Equation
B
S.E.
Wald
df
Sig.
Exp(B)
Step 1a
neme
,655
,100
42,968
1
,000
1,925
Constant
-,644
,162
15,778
1
,000
,525
a. Variable(s) entered on step 1: neme.
WALD statisztika nullhipotzis: az adott vltozhoz tartoz B egytthat rtke egyenl 0-val. Egy Wald-ngyzet rtk szerepel itt, ami kzeltleg kh-ngyzet eloszlst kvet. A szignifikancia a nem szignifiknsan hat a vallsossgra.
(Lenne egy R rtk is, ha tbb fggetlen vltoz van a vltozhoz tartoz Wald-rtk a szabasgfokkal korriglva alkalmas a fggetlen vltozk relatv fontossgnak megtlsre R= +- Wald 2df / Do).
EXP(B) eslyhnyados a nem vltozn egy egysgnyi elmozduls 1,92-szeresre nveli a vallsossg eslyt, teht annak eslye, hogy a nk kztt egy hvre bukkanunk 1,92-szer nagyobb, mint a frfiak kztt.