42
UNIVERZITET U KRAGUJEVCU EKONOMSKI FAKULTET KRAGUJEVAC SEMINARSKI RAD TEMA: LOGISTIČKA REGRESIJA Predmet: Kvantitativni metodi u ekonomiji i menadžmentu Mentor: Prof. dr M. Lovrić Članovi tima: Edisa Dreković Mirela Momčilović

logisticka regresija.doc

Embed Size (px)

Citation preview

Page 1: logisticka regresija.doc

UNIVERZITET U KRAGUJEVCUEKONOMSKI FAKULTET KRAGUJEVAC

SEMINARSKI RAD

TEMA: LOGISTIČKA REGRESIJA

Predmet: Kvantitativni metodi u ekonomiji i menadžmentu Mentor: Prof. dr M. LovrićČlanovi tima: Edisa Dreković

Mirela Momčilović

Page 2: logisticka regresija.doc

Kvantitativne metode u ekonomiji i menadžmentu – Logistička kriva

Kragujevac, Jun 2009.

SADRŽAJ:

Uvod.............................................................................................................................................3

1 Tumačenje modela logističke regresije.................................................................................41.1 Tumačenje linearne aproksimacije...........................................................................41.2 Primer sa krabama.....................................................................................................51.3 Tumačenje racija verovatnoće dešavanja................................................................7

2 Značaj logističke regresije.................................................................................................82.1 Intervali pouzdanosti za efekte.................................................................................92.2 Test značaja................................................................................................................92.3 Distribucija proračuna verovatnoće.......................................................................10

3 Provera modela.................................................................................................................113.1 Kvalitet podesnosti za modele sa neprekidnim prediktorima..............................113.2 Uporedni testovi kvaliteta podesnosti i modela racija verodostojnosti...............13

4 Višestruka logistička regresija........................................................................................144.1 Primer sa krabama pri korišćenju prediktora boje i širine.................................144.2 Poređenje modela.....................................................................................................164.3 Kvantitativna obrada rednog prediktora..............................................................164.4 Odabir modela sa nekoliko prediktora..................................................................17

Zaključak..................................................................................................................................19

PRILOG: PRIMER.................................................................................................................20

Literatura:.................................................................................................................................30

2

Page 3: logisticka regresija.doc

Kvantitativne metode u ekonomiji i menadžmentu – Logistička kriva

Uvod

Logistička regresija ili logistički model ili logit model se koristi za predviđanje verovatnoće događaja putem prilagođavanja podataka logističkoj krivi. Logistička regresija je tip regresione analize u kojoj je zavisna (kriterijumska) promenljiva dihotomna, odnosno binarna i kodira se sa 0 ili 1 i postoji najmanje jedna nezavisna (prediktorska) promenljiva.Ovaj rad ima za cilj da bliže objasni šta je to logistička regresija, kako i kada se koristi, te kako izgleda regresioni model ukoliko imamo jednu ili više prediktorskih varijabli, šta je to odnos šansi i kada se smatra da je regresioni model dobro prilagođen podacima. Pored toga na kraju rada ćemo dati primer korištenja logističke regresije urađen pomoću softvera SPP.

3

Page 4: logisticka regresija.doc

Kvantitativne metode u ekonomiji i menadžmentu – Logistička kriva

1 Tumačenje modela logističke regresije

Statističko modeliranje binarnih promenljivih odgovora podrazumeva merenje izbora koje za svaki subjekat može biti uspešno ili neuspešno. Binarni podaci su verovatno najčešći oblik kategorijskih podataka. Najrasprostranjeniji model binarnih podataka je logistička regresija. Za binarni izbor Y i kvantitativnu objašnjavajuću promenljivu X, neka π(x) predstavlja verovatnoću uspeha kada X ima vrednost x. Ova verovatnoća je parametar za binomnu distribuciju. Model logističke regresije ima linearni oblik za logit ove verovatnoće.

(Jednačina 1)

Ova formula prikazuje da π(x) raste ili opada sa S-funkcijom od x.Druga formula za logističku regresiju odnosi se direktno na verovatnoću uspeha. Ova formula koristi eksponencijalnu funkciju exp(x) = ex u obliku

(Jednačina 2)

1.1 Tumačenje linearne aproksimacije

Parametar β određuje stopu rasta ili opadanja S-krive. Oznaka β β ukazuje na to da li je kriva opadajuća ili rastuća, kao i na stopu rasta promene kako | β | raste. Kada model ima vrednost β = 0, desna strana Jednačine 2 pojednostavljuje se u konstantu. Zatim, π(x) je identičan sa svim x, te kriva prelazi u horizontalnu pravu liniju. Binarni izbor Y postaje potom konstanta X. Grafik 1 pokazuje S-stranu modela logističke regresije za π(x). Budući da ova funkcija ima zakrivljeni, a ne pravolinijski izgled, zaključuje se da stopa promene u π(x) po jedinici promene u x varira. Prava linija koja predstavlja tangentu na krivi za datu vrednost x prikazuje stopu promene u toj tački. Za parametar β logističke regresije, ta prava ima nagib jednak

. Na primer, linija tangente na krivu za vrednost x kod koje je π(x) = 0,5 ima nagib β(0,5)(0,5) = 0,25β; s druge strane, kada je π(x) = 0,9 ili 0,1, nagib iznosi 0,09β. Nagib se približava vrednosti 0 kako se verovatnoća približava vrednosti 1,0 ili 0. Najoštriji nagib krive događa se za vrednost x kada je π(x) = 0,5; ova vrednost x iznosi x = -α / β. (Vrednost π(x) = 0,5 se ovde može proveriti zamenom -α / β za x u Jednačini 2, to jest, zamenom vrednosti π(x) = 0,5 u Jednačini 1 i rešavanjem po x) Ova vrednost x se ponekad naziva srednjim nivoom efektivnosti i označava se sa EL50. Njime se prikazuje nivo kod kojih svaki rezultat ima 50% šanse.

4

Page 5: logisticka regresija.doc

Kvantitativne metode u ekonomiji i menadžmentu – Logistička kriva

Graf 1: Linearna aproksimacija logističke regresione krive

1.2 Primer sa krabama

Izračunavanja maksimalne verodostojnosti (ML) za modele uklapanja logističke regresije su prilično složena, ali se lako izvode korišćenjem statističkog softvera. U svrhu ilustracije ovog modela mogu se koristiti podaci u vezi sa krabama. Binarni izbor će se koristiti da bi se videlo dali ženke krabe imaju prisutnog mužjaka (tj. satelita); u tom smislu, važi Y = 1 ako ženka krabe ima bar jednog satelita, a Y = 0 ako nema satelita. Grafik 2 prikazuje podatke koji se sastoje od skupa tačaka na nivou Y = 1 i drugi niz tačaka na nivou Y = 0. Numerisani simboli ukazuju na broj opservacija u svakoj tački. Izgleda da Y = 1 teži da se dogodi relativno češće što su veće x vrednosti. Pošto Y uzima samo vrednosti 0 i 1, teško je odrediti da li model logističke regresije ima smisla prilikom razvijanja Y za vrednost x. Bolje informacije rezultiraju iz grupisanja vrednosti širine u svaku katerogoriju i računanja uzorka za udeo kraba koji imaju satelite za svaku kategoriju. Ovim se otkriva da li prave proporcije slede približno trend koji zahteva ovaj model. Tabela 1 prikazuje podatke grupisanja kojima se može ispitati adekvatnost Pojzonovih modela regresije. U svakoj od osam kategorija širine računali smo uzorak za udeo kraba koji imaju satelite, kao i srednju širinu za krabe u ovoj kategoriji. Grafik 2 takođe sadrži osam tačaka koje predstavljaju uzorak proporcije ženki kraba koje imaju satelite koji se računa preko srednjih širina za ovih osam kategorija.

5

Page 6: logisticka regresija.doc

Kvantitativne metode u ekonomiji i menadžmentu – Logistička kriva

Graf 2: Da li su sateliti prisutni (Y=1 da, Y=0 ne) prema širini ženske krabe

Tabela 1: Odnos između širine ženskih kraba i prisustva satelita, i predviđene vrednosti za model logističke regresije

Broj onih Predviđeni broj Broj koji imaju Uzorak Predviđena kraba koje imajuŠirina slučajeva satellite udela verovatnoća satelite_______

<23.25 14 5 0,36 0,26 3,6423,25-24,25 14 4 0,29 0,38 5,3124,25-25,25 28 17 0,61 0,49 13,7825,25-26,25 39 21 0,54 0,62 24,2326,25-27,25 22 15 0,58 0,72 15,9427,25-28,25 24 20 0,83 0,81 19,3828,25-29,25 18 15 0,83 0,87 15,65 >29,25 14 14 1,00 0,93 13,08

S druge strane, nekim softverskim programa podaci se mogu dati u filtriranom obliku čime bi se prikazao opšti trend bez potrebe da se pretpostavi određeni funkcionalni oblik za dati odnos. Ovi metodi se zasnivaju na generalizovanim modelima adicije i njima se prikazuje čak opštija

6

Page 7: logisticka regresija.doc

Kvantitativne metode u ekonomiji i menadžmentu – Logistička kriva

strukturna forma nego generalizovanim linearnim modelom (GLM). Na primer, njima se pronalaze verovatno kompleksnije funkcije objašnjavajućih promenljivih koje služe kao ’najbolji’ prediktori određenog tipa. Grafik 2 takođe prikazuje krivu koja se zasniva na filtriranom prikazivanju podataka uz pomoć ovog modela. Osam izračunatih uzoraka proporcije i ova kriva ugrubo prikazuju rastući trend tako da se potom pristupa modelima uklapanja koji upućuju na ovakve trendove. Najjednostavniji model za interpretaciju je model linearne verovatnoće, π(x) = α + βx. Za ove podatke, neke predviđene vrednosti ovog generalizovanog linearnog modela su izvan legitimnog opsega za binomni parametar tako da uklapanje maksimalne verodostojnosti propada. Obično najmanji kvadrati uklapanja iznose π’(x) = -1,766 + 0,092x. Predviđena verovatnoća satelita povećava se za 0,092 za svaki 1cm povećanja po širini. Ovaj model daje jednostavno tumačenje i realistična predviđanja većeg dela opsega širine, ali je neadekvatan za ekstremne vrednosti. Na primer, pri maksimalnoj širini u ovom uzorku od 33,5 njegova predviđena verovatnoća iznosi -1,766 + 0,092(33,5) = 1,3. Parametar maksimalne verodostojnosti procenjen za model logističke regresije iznosi α’ = -12,351 i za β’ = 0,497. Predviđena verovatnoća satelita je uzorak analogan sa Jednačinom 2:

Pošto važi β’ > 0 predviđena verovatnoća za π’ je veća pri višim vrednostima širine. Pri minimalnoj širini u ovom uzorku od 21cm, predviđena verovatnoća je π’ = exp(-12,351 + 0,497(21)) / [1 + exp(-12,351 + 0,497(21))] = 0,129; pri maksimalnoj širini od 33,5cm, predviđena verovatnoća iznosi exp(-12,351 + 0,497(33,5)) / [1 + exp(-12,351 + 0,497(33,5))] = 0,987. Nivo srednje efektivnosti je širina kod koje predviđena verovatnoća iznosi 0,5 gde je x = EL50 = -α’ / β’ = 12,351 / 0,497 = 24,8. Grafik 1 izračunava predviđene verovatnoće kao funkcije širine. Na uzorku srednje širine od 26,3cm predviđena verovatnoća satelita iznosi 0,674. Dodatna stopa promene u uklopljenoj verovatnoći pri ovoj tački iznosi β’π’(1 – π’) = 0,497(0,674)(0,326) = 0,11. Za ženke krabe koje su blizu srednje širine, procenjena verovatnoća satelita raste pri stopi od 0,11 po cm porasta pri širini. Predviđena stopa promene je najveća pri vrednosti x od (24,8) gde je π’ = 0,5; otuda, predviđena verovatnoća raste pri stopi od (0,497)(0,5)(0,5) = 0,12 po cm porasta pri širini. Za razliku od modela linearne verovatnoće, model logističke regresije dozvoljava da stopa promene varira kako varira i vrednost x. Da bi se uklapanje detaljnije opisalo, Tabela 1 prikazuje predviđeni broj kraba koje imaju satelite (to jest, uklopljene vrednosti). Da bi se izračunao taj broj, dodaje se predviđena verovatnoća za sve krabe u kategoriji; na primer, predviđene verovatnoće za 14 kraba sa širinama ispod 23,25cm iznosi 3,64. Prosečna predviđena verovatnoća za ženke krabe date u kategoriji širine jednaka je uklopljenoj vrednosti podeljenoj brojem ženki krabe u toj kategoriji. Za prvu kategoriju širine, 3,64 / 14 = 0,26 je prosečna predviđena verovatnoća. Tabela 1 daje uklopljene vrednosti i prosečne predviđene verovatnoće za grupisani model. Bliže poređenje ovih podataka sa uzorkom kraba koje imaju satelite i uzorkom proporcije govori da se ovaj model valjano može koristiti.

1.3 Tumačenje racija verovatnoće dešavanja

Naredno tumačenje modela logističke regresije koristi verovatnoću dešavanja i racija verovatnoće dešavanja. Kao model verovatnoće izbora (to jest, izgledi za uspehom) koristiti se sledeća jednačina:

7

Page 8: logisticka regresija.doc

Kvantitativne metode u ekonomiji i menadžmentu – Logistička kriva

(Jednačina 3)

Eksponencijalni odnos pruža tumačenje za β: Izgledi se povećavaju multiplikativno za eβ za svako povećanje od jedne jedinice po x. Drugim rečima, verovatnoća na nivou x+1 jednaka je verovatnoći pri x pomnoženo sa eβ. Kada je β = 0, eβ = 1 tada se verovatnoća ne menja kako se menja vrednost x.Za ženke krabe procenjena verovatnoća satelita množi se sa exp(β’) = exp(0,497) = 1,64 za svaki centimetar povećanja pri širini, odnosno, povećanje iznosi 64%. Radi ilustracije, vrednost srednje širine od x = 26,3 ima predviđenu vrednost satelita jednaku 0,674 i verovatnoću od 0,674 / 0,326 = 2,07. Pri x = 27,3 = 26,3 + 1,0 može se proveriti da je predviđena vrednost 0,773 i verovatnoća 0,773 / 0,227 = 3,40. Međutim, ovde se radi o povećanju od 64%, to jest, 3,40 = 2,07(1,64). Logaritam verovatnoće, što predstavlja logit transformaciju π(x), ima linearni odnos. Ovde se radi o logit izrazu modela, što govori da se logit povećava uz β jedinicu za svaku jedinicu promene pri x. Većina ne shvata logit skalu kao nešto prirodno, tako da ona ima ograničenu upotrebu.

1.4 Logistička regresija sa studijama kontrole slučaja

Sledeća karakteristika modela logističke regresije odnosi se na situacije kod kojih je objašnjavajuća promenljiva X slučajna, a ne promenljiva izbora Y. Ovo se, uglavnom, događa kod retrospektivnog nacrta uzorka, kao što su studije kontrole slučaja. Za uzorke subjekata kod kojih važi Y = 1 (‘slučajevi‘) i Y = 0(‘kontrole‘), posmatra se vrednost X. Dokaz postoji pri asocijaciji između X i Y ako se distribucija vrednosti X razlikuje između slučaja i kontrole.Mnoge biomedicinske studije, posebno epidemiološke studije, koriste nacrte kontrole slučaja. Ovde se parametri logističke regresije odnose na verovatnoću i racio verovatnoće dešavanja. Stoga se takvi modeli mogu uklopiti u retrospektivne podatke, a mogu se proceniti i efekti studijama kontrole slučaja. Ovo nije tačno kod modela binarnih izbora pošto racio verovatnoće dešavanja nije njihova prirodna mera za opisivanje efekta. Ovim se daje važnost logit veze u odnosu na veze kao što su probit, i to je glavni razlog zašto je model logit pretekao ostale. Bez obzira na mehanizam uzimanja uzorka, model logističke regresije može i ne mora da na dobar način opisuje dati odnos. U jednom posebnom slučaju, ovaj model je više nego neophodan. Pretpostavimo da je distribucija vrednosti X za sve subjekte za koje važi Y = 1 normalna N(μ1, σ), i pretpostavimo da je distribucija vrednosti X za sve subjekte za koje važi Y = 0 normalna N(μ0, σ); drugim rečima, dolazi do drugačijih srednjih vrednosti, ali i do istih standardnih odstupanja. Potom se može videti da π(x) zadovoljava krivu logističke regresije, s tim da β ima isti znak μ1 - μ0. Kada se populacija sastoji od mešavine dva tipa subjekata – jedan skup kod kojeg važi Y = 1 sa distribucijom na X u obliku zvona, i drugi skup kod kojeg važi Y = 0 sa distribucijom isto u obliku zvona sa sličnim rasprostiranjem, tada je funkcija logističke regresije približna krivi za π(x). Ako su distribucije u obliku zvona, ali sa prilično različitim rasprostiranjima tada model takođe sadrži uslov kvadriranja (kako x tako i x2) i dobro se uklapa. U tom slučaju, odnos nije monoton, to jest, π(x) se povećava pa smanjuje, ili obrnuto.

2 Značaj logističke regresije

U prethodnom delu bilo je reči o tome kako uklapanje modela logističke regresije pomaže pri opisivanju prediktora za promenljivu binarnog izbora. U narednom delu sledi prikaz statističkog značaja parametara modela, što pomaže pri određivanju značaja i veličine efekata.

8

Page 9: logisticka regresija.doc

Kvantitativne metode u ekonomiji i menadžmentu – Logistička kriva

Određeni softveri mogu da se koriste pri prikazivanju procene parametara i standardnih grešaka kao i drugih podataka u vezisa uklopanjem modela.

2.1 Intervali pouzdanosti za efekte

Veliki interval pouzdanosti za parametar β u modelu logističke regresije, logit[π(x)] = α + βx, je:

.

Ilustracije radi mogu se koristiti primeri analize logističke regresije kraba. Procenjeni efekat širine pri uklopljenoj jednačini za verovatnoću satelita iznosi β’ = 0,497, sa ASE = 0,102. Interval pouzdanosti od 95% za β je 0,497 ± 1,96(0,102), ili (0,298, 0,697). Interval pouzdanosti za efekat verovatnoće pri centimetru porasta po širini iznosi (e .298, e.697) = (1,35, 2,01). Pretpostavljamo da svaki centimetar povećanja pri širini ima najmanje 35-procentno povećanje, i uglavnom se udvostručava šansa da ženka krabe ima satelit.Uslov βπ(1-π) daje približnu promenu verovatnoće po jedinici promene za x. Na primer, kod π = 0,05 procenjena stopa promene je 0,25β = 0,124. 95-procentni interval pouzdanosti za 0,25β’ iznosi 0,25 pomnoženo sa krajnjim tačkama intervala za β, ili [0,25(0,298), 0,25(0,697)] = (0,074, 0,174). Ukoliko važi model logističke regresije, vrednosti x blizu širine kod koje je π = 0,5, stopa povećanja verovatnoće satelita po centimetru povećanja po širini je između 0,07 i 0,17.

2.2 Test značaja

Kod modela logističke regresije, nulta hipoteza H0 : β = 0 znači da je verovatnoća uspeha nezavisna od X. Kod većih uzoraka, statistika testa

ima standardnu, normalnu distribuciju kada je β = 0. Uz to, z se može pridodati standardnoj tabeli da bismo dobili jednostranu ili dvostranu P-vrednost. Isto tako, za dvostranu alternativu β ≠ 0, (β’ / ASE)2 važi Valdova statistika kod koje važi ksi-kvadratna distribucija velikog uzorka sa df = 1.Iako Valdov test dobro funkcioniše kod velikih uzoraka, test racija verodostojnosti je efektniji i pouzdaniji za veličine uzorka koje koristimo u praksi. Statistika testa poredi maksimalni L0

log-funkcije verodostojnosti kada je β = 0 (to jest, kada π(x) mora da bude identična sa svim vrednostima x) do maksimalnog L1 log-funkcije verodostojnosti za nerestriktivnu β. Statistika testa, -2(L0 – L1), takođe ima ksi-kvadratnu distribuciju velikog uzirka sa df = 1.Većina softvera za logističku regresiju daje podatke za maksimalnu log-verodostojnost L0 i L1, a statistika racija verodostojnosti dobija se iz ovih maksima.Za podatke sa krabama, statistički podaci z = β’ / ASE = 0,497 / 0,102 = 4,9 prikazuju čvrst dokaz pozitivnog efekta širine na prisustvo satelita (P < 0,0001). Ekvivalentna statistika Valdovog ksi-kvadrata, z2 = 23,9, ima df = 1. Maksimalna log-verodostojnost iznosi L0 = -112,88 po H0 : β = 0 i L1 = -97,23 za puni model. Statistika racija verodostojnosti iznosi -2(L0

– L1) = 31,3, sa df = 1.

2.3 Distribucija proračuna verovatnoće

9

Page 10: logisticka regresija.doc

Kvantitativne metode u ekonomiji i menadžmentu – Logistička kriva

Procenjena verovatnoća da je Y = 1 pri fiksnom skupu x od X iznosi

(Jednačina 3)

Većina softvera za logističku regresiju može da prikaže procene kao i intervale pouzdanosti za prave verovatnoće. Ovde se mogu prikazati podaci za verovatnoću pojavljivanja satelita za ženke krabe širine x = 26,5, što je blizu srednje širine. Uklapanje logističke regresije procenjuje se na π’(26,5) = exp(-12,351 + 0,497(26,5)) / [1+exp(-12,351 + 0,497(26,5))] = 0,695. Prema softveru, 95-procentni interval pouzdanosti za tačnu verovatnoću iznosi (0,61, 0,77).Intervali pouzdanosti za verovatnoću se mogu izvesti korišćenjem matrice kovarijanse modela procene parametra. Uslov α’ + β’x u eksponentima jednačine predviđanja (Jednačina 3) je procenjeni lineani prediktor u logit transformaciji πx. Preocenjeni logit ima veliki uzorak ASE dat procenjenim korenom na kvadrat od

95-procentni interval pouzdanosti za pravi logit je (α’ + β’x) ± 1,96ASE. Zamenom krajnjih tačaka intervala za α + βx u eksponentima Jednačine 3 dobija se odgovarajući interval verovatnoće. Na primer, kod x = 26,5, predviđeni logit je -12,351 + 0,497(26,5) = 0,825. Softverski programi daju sledeće podatke Var’(α’) = 6,910, Var’(β’) = 0,01035, Cov’(α’, β’) = -0,2668, iz kojih se vidi da procenjena varijansa predviđenog logita iznosi (6,910) + (26,5)2(0,01035) + 2(26,5)(-0,2668) = 0,038.95-procentni interval pouzdanosti za pravi logit iznosi ili (0,44, 1,21). Sledeći jednačinu 3, možemo izvesti interval

za verovatnoću satelita pri širini od 26,5cm. Može se dogoditi da se zanemari model uklapanja, te da se jednostavno koriste uzorci proporcija da bi se procenile takve verovatnoće. Šest kraba u tom uzorku imaju širinu 26,5, a

četiri od njih šest imaju satelite. Procena uzorka proporcije na x = 26,5 iznosi što

je slično proceni zasnovanoj na modelu. Prebacivanjem testova za male uzorke korišćenjem binomne distribucije, 95-procentni interval pouzdanosti se zasniva na ovih šest opservacija i sam iznosi (0,22, 0,96). Kada model logističke regresije funkcioniše, estimator verovatnoće zasnovan na modelu daleko je bolji pokazatelj od uzorka proporcije. Ovaj model ima samo dva parametra za procenu, gde pristup koji nije zasnovan na modelu ima odvojeni parametar za svaku distinktivnu vrednost X. Na primer, za x = 26,5, softverski program daje ASE = 0,04 za procenu zasnovanu na modelu 0,695, gde je procenjena standardna greška

za uzorak proporcije od 0,67 zasnovan na samo 6 opservacija. 95-procentni intervali pouzdanosti su (0,61, 0,77) naspram (0,22, 0,96). Umesto korišćenja samo 6 opservacija, ovaj model koristi podatke o tome da svih 173 opservacija pružaju procenu ta dva parametra modela. Dobijeni rezultat je mnogo precizniji.

10

Page 11: logisticka regresija.doc

Kvantitativne metode u ekonomiji i menadžmentu – Logistička kriva

Stvarnost je malo komplikovanija. U praksi, neće svaki model tačno predstavljati stvarni odnos između π(x) i x. Na primer, kako se povećava veličina uzorka, estimator zasnovan na modelu ne mora da se približava u potpunosti tačnoj vrednosti verovatnoće. Međutim, to nužno ne mora da znači da je uzorak proporcije zaista bolji estimator u praksi. Ako se model približava stvarnoj verovatnoći na odgovarajući način, njegov estimator i dalje teži da bude bliži pravoj vrednosti od proporcije uzorka. Ovaj model filtrira podatke uzorka. Rezultirajući estimatori teže da budu bolji osim ako svaka proporcija uzorka nije zasnovana na ekstremno velikom uzorku. 3I konačno, ako model logičke regresije približno odgovara pravoj zavisnosti π(x) na x, tada su tačka i proračun intervala za π(x) zasnovani na njemu prilično korisni.

3 Provera modela

Modeli uklopljene logističke regresije pružaju predviđenu verovatnoću da je Y = 1. Pri svakom skupu objašnjavajućih promenljivih može se pomnožiti predviđena verovatnoća sa brojem subjekata da bi se dobio uklopljeni rezultat. Slično tome, može se dobiti uklopljeni rezultat za Y = 0 za svaki postupak. Test nulte hipoteze poredi uklopljene i posmatrane rezultate uz pomoć testa Pearson X2 ili testa racija verodostojnosti G2.Za određeni broj proračuna kada većina uklopljenih rezultata iznosi najmanje 5, X2 i G2 imaju približne ksi-kvadratne raspodele. Stepeni slobode, poznati kao ostaci df za dati model, jednaki su broju logit uzoraka (to jest, broju proračuna objašnjavajučih promenljivih), te minus broj parametara modela. Kao i obično, velike X2 i G2 vrednosti pružaju dokaza o nedostatku uklapanja, a P-vrednost je desnostrana verovatnoća iznad posmatrane vrednosti. Kada je uklapanje slabo, ostaci i ostale dijagnostičke mere opisuju uticaj pojedinih opservacija na uklapanje modela i ističu razloge za neadekvatnost.

3.1 Kvalitet podesnosti za modele sa neprekidnim prediktorima

Kvalitet podesnosti za ovaj model se može izraziti uz pomoć x = širina da bismo predvideli verovatnoću πx po kojem ženka krabe ima satelit:

(Jednačina 4)Širina uzima u obzir 66 distinktivne vrednosti za 173 krabe, uz nešto opservacija pri većini širina. Podaci se mogu posmatrati kao tabela slučajnosti 66 X 2, u kojoj dve ćelije u svakom redu daju proračun broja kraba sa satelitima i broja kraba bez satelita, na toj širini. Rezultati ćelija u toj tabeli su mali s obzirom da se radi o uklopljenim rezultatima.Teorija velikog uzorka za X2 i G2 primenjuje se za stalni broj ćelija kada su uklopljeni rezultati veliki. Ova teorija se na dva načina urušava kod tabele 66 X 2. Prvo, većina uklopljenih rezultata su mali. Drugo, kada se podaci skupe, mogu se dogoditi i dodatne vrednosti širine, tako da će tabela slučajnosti sadržati više ćelija od stalnog broja. Zbog toga, X2 i G2 za modele logističke regresije uklopljene sa neprekidnim ili skoro neprekidnim prediktorima nemaju približne ksi-kvadratne raspodele. Ovi indeksi uklapanja se daleko bolje primenjuju kada su objašnjavajuće promenljive kategoričke, a relativno mali broj uklopljenih rezultata je nizak.Da bismo proverili adekvatnost logističke regresije za ove podatke, možemo uporediti posmatrane i uklopljene vrednosti u grupisanoj formi Tabele 1. Ovi podaci su prikazani u dolenavedenoj Tabeli 2 (radi se o tabeli 8 X 2). U svakoj kategoriji širine, uklopljena vrednost za izbor DA je suma predviđene verovatnoće π’(x) za sve krabe koje imaju širinu u toj kategoriji; uklopljena vrednost za izbor NE je suma 1 – π’(x) za date krabe.

11

Page 12: logisticka regresija.doc

Kvantitativne metode u ekonomiji i menadžmentu – Logistička kriva

Tabela 2: Grupisanje posmatranih i uklopljenih vrednosti za uklapanje modela logističke regresije na primeru podataka o krabama

Broj Broj Uklopljeno UklopljenoŠirina DA NE DA NE <23,25 5 9 3,64 10,36 23,25-24,25 4 10 5,31 8,6924,25-25,25 17 11 13,78 14,2225,25-26,25 21 18 24,23 14,7726,25-27,25 15 7 15,94 6,0627,25-28,25 20 4 19,38 4,6228,25-29,25 15 3 15,65 2,35 >29,25 14 0 13,08 0,92

Uklopljene vrednosti prikazane u ovom obliku su puno veće od onih u prvobitnoj tabeli 66 X 2, a ksi-kvadratna statistika za testiranje modela je daleko validnija. Zamenom 16 grupisanih posmatranih rezultata i uklopljenih vrednosti u standardnu ksi-kvadratnu statistiku izgleda ovako:

i

Tabela 2 ima osam logit uzoraka, jedan za svaki proračun; model logističke regresije ima dva parametra (Jednačina 4), tako da je df = 8 – 2 = 6. Ni X2 ni G2 ne pokazuju dokaz nedostatka uklopljenosti (P > 0,4). Jednostavniji, ali i približniji metod za dobijanje statističkih podataka kvaliteta podesnosti , direktno uklapa model logističke regresije u posmatrane rezultate u okviru tabele 8 X 2. Da bi se širina posmatrala na kvantitativan način, rezultati se dodeljuju kategorijama, kao što su srednja širina {22,69; 23,84; 24,77; 25,84; 26,79; 27,74; 28,67; 30,41}za krabe u svakoj kategoriji. Jednačina logit predviđanja je logit[π’(x)] = -11,51 + 0,465x, koja prikazuje skup predviđenih verovatnoća i uklopljene vrednosti. Za ovo uklapanje važi X2 = 5 i G2 = 6, zasnovano na df = 6. Rezultati su slični statističkim podacima kod kojih se koriste uklopljene vrednosti zasnovane na predviđenoj verovatnoći kod pojedinih vrednosti širine. Kada su objašnjive promenljive neprekidne teško je analizirati nedostatak uklapanja bez određenog tipa grupisanja. Kako se broj objašnjavajučih promenljivih povećava, istovremeno grupisanje promenljivih za svaku promenljivu može proizvesti tabelu slučajnosti sa velikim brojem ćelija, od kojih mnoge imaju male rezultate. Alternativni način grupisanja stvara posmatrane i uklopljene vrednosti zasnovane na deljenju predviđenih verovatnoća. Za model uklapanja, 14 kraba u prvoj kategoriji širine su one sa najmanjim predviđenim verovatnoćama satelita; 14 kraba u drugoj kategoriji širine imaju veće predviđene verovatnoće od kraba u prvoj kategoriji, ali manje predviđene verovatnoće od kraba u narednoj kategoriji i tako dalje.

12

Page 13: logisticka regresija.doc

Kvantitativne metode u ekonomiji i menadžmentu – Logistička kriva

Bez obzira na to koliko prediktora ima u modelu, posmatrane i uklopljene vrednosti mogu se podeliti prema predviđenim verovatnoćama. Čest pristup je formiranje grupa pri deljenju tako da one imaju približno jednaku veličinu. Da bi se formiralo 10 grupa – na primer, jedan par posmatranih i uklopljenih rezultata odnosi se na n/10 opservacija koje imaju najviše predviđene verovatnoće, naredni par se odnosi na n/10 opservacija koje imaju drugu decilu predviđenih verovatnoća i tako dalje. U praksi obično nije moguće formirati grupe tačno jednake veličine jer skupovi opservacija imaju iste predviđene verovatnoće, i sve opservacije koje imaju istu predviđenu verovatnoću stavljaju se u istu grupu. Za svaku grupu, uklopljena vrednost rezultata je suma predviđene verovatnoće za ishod svih opservacija u datoj grupi. Ovaj postupak je osnova testa prema Hosmeru i Lemšou (Hosmer, Lemeshow). Njihova statistika slična Pirsonu zapravo nema ksi-kvadratnu raspodelu, ali su simulacije pokazale da je njihova raspodela približna ksi-kvadratnoj sa df = g – 2, gde g označava broj grupa. Njihov test se može primeniti sa g = 10 grupe približno jednake veličine za model logističke regresije uklopljene u negrupisane podatke. Statistika Hosmer-Lemšoa iznosi 3,5 zasnovana na df = 8 što ukazuje na dobru uklopljenost. Nedostatak uklopljenosti se može pronaći putem testa racija verodostojnosti da bi se poredio radni model sa složenijim modelima. Na primer, u obzir se mogu uzeti složeniji modeli koji sadrže nelinearne efekte (kao što su uslovi kvadriranja) za kvantitativne prediktore ili uslove interakcije. Ako ne nađemo složeniji model koji pruža bolju uklopljenost tada se može reći da je ovaj model uklapanja prihvatljiv. Ovaj model je korisniji od naučne perspektive. Statistika velikog kvaliteta podesnosti jednostavno ukazuje na određeni nedostatak uklopljenosti, ali ne pruža nikakav uvid u prirodu toga.

3.2 Uporedni testovi kvaliteta podesnosti i modela racija verodostojnosti

Statistika racija verodostojnosti -2(L0 – L1) se koristi za testiranje da li određeni parametri u nekom modelu iznose 0. Ovim testom se porede maksimalna log- verodostojnost (L1) za model do maksimalne log-verodostojnosti (L0) za jednostavniji model kojim se brišu ovi parametri. Sa M1 možemo označiti uklopljeni model, a sa M0 jednostavniji model za koji ovi parametri iznose 0. Statistika kvaliteta podesnosti G2 za testiranje uklopljenosti modela logističke regresije M je specijalni slučaj statistike racija verodostojnosti po kojem je M0 = M, a M1 je najsloženiji mogući model. Ovaj složeni model ima odvojeni parametar za svaki logit, i pruža savršenu uklopljenost za logit uzorke. Ovaj model se naziva zasićeni model. Pri testiranju toga da li je M uklopljen, testiramo da li su svi parametri u zasićenom modelu, ali ne i u M, jednaki nuli. Ovu statistiku testiranja uklopljenosti M možemo označiti sa G2(M). U terminologiji GLM ovo se naziva odstupanje modela. Neka Ls označava maksimalnu log-verodostojnost zasićenog modela. Tako, na primer, odstupanja za modele M0 i M1 iznose G2(M0) = -2(L0 – LS) i G2(M1) = -2(L1 – LS).Sa G2(M0 | M1) možemo označiti statistiku racija verodostojnosti za testiranje M0 pod uslovom da M1 funkcioniše. Stoga statistički proračun za poređenje ova dva modela iznosi

kao razlika statistike kvaliteta podesnosti kod G2 za ova dva modela. Drugim rečima, statistika racija verodostojnosti za poređenje ova dva modela je jednostavno razlika u odstupanjima ova dva modela. Ova statistika je velika kada se M0 lošije uklapa u poređenju sa M1. Radi se o ksi-kvadratnoj statistici velikog uzorka, sa df jednakim razlici između ostatka df vrednosti za ova dva modela.

13

Page 14: logisticka regresija.doc

Kvantitativne metode u ekonomiji i menadžmentu – Logistička kriva

Poređenje ova dva modela se može ilustrovati uklapanjem grupisanih podataka kod kraba. Model logističke regresije sa širinom možemo označiti M1 kao jedinim prediktorom, a jednostavniji model koji ima samo jedan odsečen parametar sa M0. Ovaj jednostavniji model predlaže nezavisnost širine i ima jedan satelit, a statistika kvaliteta podesnosti G2 je jednostavno rečeno G2 statistika za testiranje nezavisnosti u dvostranoj tabeli slučajnosti. Za posmatrane rezultate u tabeli 8 X 2, jednaka je G2(M0) = 34, zasnovano na df = 7. Pošto uklapanje modela sa širinom kao prediktorom ima G2(M1) = 6, sa df = 6, komparativna statistika za ova dva modela je G2(M0 | M1) = G2(M0) – G2(M1) = 34 – 6 = 28, zasnovana na df = 7 – 6 = 1. U stvari, ovo je jednako statistici racija verodostojnosti -2(L0 – L1) za testiranje da je β = 0 u modelu logističke regresije uklopljene u grupisane podatke Tabele 2.

4 Višestruka logistička regresija

Model logističke regresije i drugi generalizovani linearni modeli (GLM) poput običnih modela regresije za normalne podatke se generalizuju da bi se došlo do objašnjavajućih promenljivih. Prediktori mogu biti kvantitativni, kvalitativni, ili kvantitativno-kvalitativni. Označimo sa X1, X2, ..., Xk skup k prediktora za binarni izbor Y. Model (dat u Jednačini 1) za logit verovatnoće π za Y = 1 generalizuje se u:

(Jednačina 5)

Parametar βi odnosi se na efekte Xi na log izglede za Y = 1, čime se kontrolišu ostale Xs. Na primer, exp(βi) je multiplikativni efekat na izglede povećanja za jednu jedinicu u Xi, pri stalnom nivou druge Xs.

4.1 Primer sa krabama pri korišćenju prediktora boje i širine

Podaci o krabama se mogu dalje analizirati uključivanjem širine i boje ženki kraba kao prediktore. Boja ima pet kategorija: svetla, srednje svetla, srednja, srednje tamna, tamna. Boja je surogat za starost – starije krabe postaju tamnije. Uzorak ne sadrži krabe svetle boje, tako da ovi modeli koriste samo ostale četiri kategorije. Boju prvo tretiramo na kvalitativan način korišćenjem tri veštačke promenljive (dummy variables) da bismo predstavili četiri kategorije. Ovaj model se može predstaviti na sledeći način:

(Jednačina 6)

gde x označava širinu, a

c1 = 1 za srednje svetlu boju; u ostalim slučajevima je 0,c2 = 1 za srednju boju; u ostalim slučajevima je 0,c3 = 1 za srednje tamnu boju; u ostalim slučajevima je 0.

Boja krabe je tamna (kategorija 4) kada je c1 = c2 = c3 = 0. Procene maksimalne verodostojnosti (ML) za date parametre su:

Prekid: α’ = -12,715; ASE = 2,762c1: β’1 = 1,330; ASE = 0,852c2: β’2 = 1,402; ASE = 0,548

14

Page 15: logisticka regresija.doc

Kvantitativne metode u ekonomiji i menadžmentu – Logistička kriva

c3: β’3 = 1,106; ASE = 0,592širina: β’4 = 0,468; ASE = 0,106.

Na primer, za tamne krabe, c1 = c2 = c3 = 0, jednačina predviđanja je logit(π’) = -12,715 + 0,468x; za razliku od toga, za srednje svetle krabe, c1 = 1, je logit(π’) = (-12,715 + 1,330) + 0,468x = -11,385 + 0,468x. Model pretpostavlja nedostatak interakcije između boje i širine pri vršenju efekta na odgovor. Širina ima isti efekat (koeficijent 0,468) za sve boje tako da su oblici krive koji se odnose na širinu do π = P(Y=1) identični. Za svaku boju, povećanje od 1cm po širini ima multiplikativni efekat od exp(0,468) = 1,60 na izglede da je Y = 1. Grafik 3 prikazuje uklopljeni model. Svaka kriva je jednostavno sva kriva pomerena na desno ili na levo. Paralelnost krivi u horizontalnoj dimenziji ukazuje na to da se dve krive nikada ne ukrštaju. Kod svih vrednosti širine, boja 4 (tamna) ima manju predviđenu verovatnoću satelita od drugih boja.

Graf 3: Logistički regresioni model koji koristi širinu i boju kao prediktore

Predviđena verovatnoća satelita se može izračunati korišćenjem jednačina predviđanja za verovatnoću. Ilustracije radi, kod kraba srednje svetle boje i prosečne širine (26,3cm), predviđena verovatnoća je:

15

Page 16: logisticka regresija.doc

Kvantitativne metode u ekonomiji i menadžmentu – Logistička kriva

Poređenja radi, tamna kraba prosečne širine ima predviđenu verovatnoću:

Stepenovana razlika između dva parametra boja je odnos šansi (odds ratio) kojim se porede ove boje. Na primer, razlika u proceni parametara boje između srednje svetle krabe i tamno svetle krabe iznosi 1,330; pri bilo kojoj širini, procenjene šanse da srednje svetla kraba ima satelit su u odnosu exp(1,330) = 3,8 prema šansama da ih tamna kraba ima. Korišćenjem ovih verovatnoća izračunatih prema širini 26,3 šanse iznose 0,715/0,285 = 2,51 za srednje svetle krabe, i 0,399/0,601 = 0,66 za tamne krabe, kod kojih je 2,51/0,66 = 3,8. Procene boje ukazuju na ovom uzorku da tamne krabe imaju manje šanse od kraba ostalih boja da imaju satelite.

4.2 Poređenje modela

Metod racija verodostojnosti može se koristiti da bismo testirali hipoteze u vezi sa parametrima u modelima višestruke logističke regresije. Na primer, da bismo testirali da li boja značajno doprinosi modelu (Jednačina 6), proveravamo da li je H0 : β1 = β2 = β3 = 0. Hipoteza govori da, pri kontroli širine, verovatnoća satelita je nezavisna od boje. Poredi se maksimalna log-verodostojnost L1 za puni model (Jednačina 6) sa maksimalnom log-verodostojnosti L0 za jednostavniji model kod kojih ovi parametri iznose 0 uz pomoć test statistike -2(L0 – L1) = 7. Ksi-kvadrat od df = 3 je razlika između broja parametara u ova dva modela. P-vrednost 0,07 pruža neznatni dokaz efekta boje. Opšte uzev, maksimalna log-verodostojnost može se porediti za bilo koji par modela koji su samo specijalna vrsta onog drugog. Jedno takvo poređenje proverava da li dati model zahteva uslove interakcije. Test analizira da li model boljeg uklapanja rezultira iz dodavanja interakcije boje i širine na dati model (Jednačina 6). Ovaj složeniji model dozvoljava zaseban efekat širine za svaku boju. Taj model ima tri dodatna uslova – ukršteni proizvod širine sa veštačkim varijablama boje. Uklapanje ovog modela je ekvivalentno uklapanju modela logističke regresije sa širinom kao prediktorom odvojeno za krabe svake boje. Svaka boja, potom, ima krivu drugačijeg oblika koja povezuje širinu sa verovatnoćom satelita tako da poređenje dve boje varira prema nivou širine. Statistika racija verodostojnosti koja poredi modele sa uslovima interakcije ili bez njih iznosi 4,4 i zasnovana je na df = 3. Dokaz interakcije nije jak (P = 0,22). Redukovan model (Jednačina 6) ima prednosti u vidu jednostavnijih interpretacija. U stvari, ovaj model se adekvatno uklapa prema formalnim testovima kvaliteta podesnosti. Na primer, Hosmer-Lemšov test sa deset grupa predviđenih verovatnoća ima test statistiku jednaku 3,7 zasnovanu na df = 8.

4.3 Kvantitativna obrada rednog prediktora

Boje se prirodno nižu, od najsvetlije do najtamnije. Jednostavniji model bi mogao da se napravi tako što bi se ovaj redni prediktor obradio na kvantitativni način. Boja može da ima linearni efekat za niz monotonih rezultata dodeljenih ovim kategorijama. Ilustracije radi, rezultate c = {1, 2, 3, 4}možemo dodeliti kategorijama boje, te da uklopimo model

(Jednačina 7)

Jednačina predviđanja glasi:

16

Page 17: logisticka regresija.doc

Kvantitativne metode u ekonomiji i menadžmentu – Logistička kriva

Procene boje i širine imaju ASE vrednosti od 0,224 i 0,104 čime se prikazuje čvrst dokaz efekta svake. Pri datoj širini, za svako povećanje jačine boje kod svake kategorije, procenjena šanse satelita množi se sa exp(-0,509) = 0,60. Na primer, procenjene šanse satelita kod srednje svetle krabe su 60% od onih kod srednje svetlih kraba.Test racija verodostojnosti poredi fit (uklapanje) ovog modela sa kompleksnijim modelima (Jednačina 6) koji imaju poseban parametar za svaku boju. Test statistika iznosi -2(L0 – L1) = 1,7 zasnovana na df = 2. Ova statistika testira da li funkcioniše jednostavniji model (Jednačina 7) pod uslovom da je drugi model (Jednačina 6) adekvatan. Ovde se testira da li parametri boje u Jednačini 6 slede linearni trend kada se računanja vrše prema rezultatima boja. Izgleda da se ovo pojednostavljenje dozvoljava (P = 0,44). Procene parametara boja u ovom modelu (Jednačina 6) po kojem se boje tretiraju kao kvalitativne iznose (1,33; 1,40; 1,11; 0), pri čemu vrednost nula za tamnu boju ukazuje na nedostatak veštačke promenljive za tu kategoriju. Iako ove vrednosti ne odstupaju značajno od linearnog trenda, prve tri su prilično slične u poređenju sa poslednjom. Ovo ukazuje na druge potencijalne rezultate boja za dati model (Jednačina 7): {1; 1; 1; 0}; to jest, rezultat je 0 za krabe tamne boje, i 1 za druge. Statistički racio verodostojnosti koji poredi model dat u Jednačini 7 sa binarnim rezultatima modela datog u Jednačini 6 iznosi 0,5, zasnovan na df = 2 čime se pokazuje da je jednostavniji model takođe adekvatan (P = 0,78). Ovaj model ima procenu širine od 0,478 (ASE = 0,104) i procenu boje od 1,300 (ASE = 0,525). Pri datoj širini, procenjene šanse da svetla kraba ima satelit su exp(1,300) = 3,7 prema procenjenim šansama za tamnu krabu. Model kvalitativne boje, redni model sa rezultatima boje {1, 2, 3, 4} i model binarnih rezultata boje {1; 1; 1; 0} upućuju na to da je najmanje verovatno da krabe tamne boje imaju satelite. Ovim bi se zahtevale mnogo veće veličine uzorka da bi se odredilo koji od dva rezultata boje je podesniji. Prednost se sastoji u tome što se redni prediktori obrađuju na kvantitativan način kada se takvi modeli dobro uklapaju. Prednost je i u tome što je model jednostavniji i lakši za tumačenje, a testovi efekta rednih prediktora jači kada se radi sa jednim, a ne sa više parametara.

4.4 Odabir modela sa nekoliko prediktora

Podaci o krabama sadrže četiri prediktora: boja (četiri kategorije), stanje bodlji (tri kategorije), težina, i širina štita. Postoji nekoliko procedura odabira modela, ali nijedan nije najbolji. Predostrožnost koja se uzima u obzir kod uobičajenih regresionih modeliranja normalnih podataka funkcionišu za bilo koji generalizovani linearni model. Na primer, model sa nekoliko prediktora ima potencijala za multikolinearnost: snažne korelacije među prediktorima govore o tome da izgleda da neka promenljiva nije važna kada su sve ostale uključene u model. Izgleda da promenljiva ima malo efekta jednostavno zbog toga što se znatno preklapa sa ostalim prediktorima u modelu.Ilustracije radi, može se početi sa uklapanjem modela koji ima glavne efekte za četiri prediktora, gde se boja i stanje bodlji tretira kao kvalitativni (faktor). Test racija verodostojnosti po kojem je verovatnoća satelita skupa nezavisna od četiri prediktora istovremeno se testira da svi ovi parametri iznose nula. Statistika racija verodostojnosti zasniva se na poređenju modela punog efekta sa nultim modelom koji ima samo uslov prekida koji iznosi -2(L0 – L1) = 40,6 sa df = 7. Statistika ima P-vrednost < 0,0001 što je prilično čvrst dokaz da bar jedan prediktor ima efekat. Tabela 3 prikazuje procenu parametara i njihove ASE vrednosti. Čak i kada je celokupni test vrlo značajan, rezultati tabele nisu podsticajni. Procene za kvantitativne prediktore, težinu i širinu, su samo neznatno veći od njihovih ASE vrednosti. Procene za kvalitativne prediktore porede svaki nivo do konačne kategorije kao osnove; to jest, uvode se veštačke promenljive za prve tri boje i za prva dva stanja bodlji. Kod boje, najveća

17

Page 18: logisticka regresija.doc

Kvantitativne metode u ekonomiji i menadžmentu – Logistička kriva

razlika između procenjenih vrednosti za dva nivoa je između prvog i četvrtog, što je manje od dve standardne greške; kod stanja bodlji, najveća razlika između procenjenih vrednosti za dva nivoa je između drugog i trećeg, što je manje od standardne greške.

Tabela 3: Procene parametara za model glavnih efekata kod podataka za krabe

Parametar Procena ASE

Prekid -9,273 3,838Boja (1) 1,609 0,936Boja (2) 1,506 0,567Boja (3) 1,120 0,593Bodlja (1) -0,400 0,503Bodlja (2) -0,496 0,629Težina 0,826 0,704Širina 0,263 0,195

Veoma mala P-vrednost kod celokupnog testa, premda se nedostatak značaja prikazuje u Tabeli 3, predstavlja opomenu da može doći do multikolinearnosti. Ranije je ukazano da postoji čvrst dokaz da širina ima uticaj na prisustvo satelita, i da, uz kontrolu težine, boje i bodlji, malo je dokaza o tome kakav je uticaj delimične širine. Grafička analiza otkriva, međutim, da postoji snažna linearna komponenta za odnos između širine i težine. Uzorak korelacije među njima iznosi 0,887. Svakako nema smisla da se analiziraju efekti širine dok se kontroliše težina pošto se težina prirodno povećava kako se povećava širina.Iz praktičnih razloga, širina i težina služe jednako dobro kao prediktori, ali je izlišno koristiti ih oba. Da bi se nadalje vršile analize, koristi se širina samo uz boju i bodlje kao prediktore. U tom smislu, ove prediktore možemo označiti sa W (širina), C (boja) i S (bodlje). Iz razloga pojednostavljenja, različite modele simbolizujemo najvišim uslovima u modelu, tako da C i S u ovom modelu posmatramo kao faktore. Tako, C + S + W označava model sa najvećim efektima, što se može videti u Tabeli 3, dok C + S * W označava model kod kojeg postoji interakcija između S iW.

18

Page 19: logisticka regresija.doc

Kvantitativne metode u ekonomiji i menadžmentu – Logistička kriva

Zaključak

Logistička regresija je tip regresione analize kod koje se povezuje jedna zavisna (kriterijumska) promenljiva koja može imati dva ishoda, te poprima vrednosti 0 ili 1, i jedna ili više nezavisnih promenljivih (prediktorskih). Ona predviđa verovatnoću događaja, a podaci su kod nje prilagođeni logističkoj krivi koja ima oblik slova S.Cilj logističke regresije je da na osnovu kriterijumskih varijabli računamo verovatnoću da svaki od slučajeva u našoj datoteci ‘uđe’ u jednu od dve katagorije (vrednosti) zavisne varijable.Kao krajnji rezultat, mi ćemo utvrditi koje prediktorske varijable jesu ‘značajne’ da predvidimo vrednosti ‘kriterijumske’ varijable, i da prema tome, na osnovu distribucija vrednosti ovih kriterijumskih varijabli, predviđamo vrednosti zavisne varijable.Cilj dobrog modela jeste isti kao kada je reč o linearnoj regresiji, a to je da se sa što manjim brojem prediktorskih varijabli objasni što veća varijansa kriterijumske varijable.Logistička regresija se ekstenzivno koristi u medicini i društvenim naukama, kao i u marketingu (predviđanje spremnosti kupca da kupi proizvod ili da uzme pretplatu).

19

Page 20: logisticka regresija.doc

Kvantitativne metode u ekonomiji i menadžmentu – Logistička kriva

PRILOG: PRIMER

Kao primer upotrebe logističke regresije može poslužiti primer zavisnosti nastanka

Koronarno srčanih bolesti(KSB) od godina starosti, gojaznosti, pušenja I to na primeru

binarne logističke regresije.

Binarna logistička regresija je tip regresione analize u kojoj je zavisna promenljiva

dihotomna i najmanje jedna nezavisna je kontinuirana. Zavisne dihotomne promenljive su

česte u biologiji i medicini.

Cilj:

Pokazati da li su starost, pušenje i gojaznost faktori rizika za KSB

Ako su faktori rizika kolika je “jačina” njihovog delovanja

KSB god pus BMI KSB god pus BMI KSB god pus BMI0 22 1 0 0 45 0 0 1 60 1 00 23 0 0 0 46 0 0 0 60 0 10 24 0 0 0 47 0 0 1 61 1 00 24 0 0 0 48 0 1 1 62 1 10 27 0 0 1 48 0 1 0 62 0 00 28 1 0 1 49 1 1 0 62 0 00 30 1 1 0 49 0 0 1 63 1 00 30 0 0 1 50 1 0 1 64 1 10 32 0 0 0 51 1 1 1 65 0 10 33 0 1 1 51 0 0 0 66 0 01 35 1 1 0 52 1 0 1 67 0 10 36 0 0 0 53 0 0 1 71 1 00 36 0 0 1 54 1 0 0 72 0 00 37 0 1 0 54 0 1 1 74 0 10 38 0 0 1 55 1 0 1 73 1 00 40 1 0 0 55 0 0 1 75 1 11 41 1 1 1 57 1 1 0 77 0 01 42 0 0 0 58 0 1 1 77 1 00 43 1 1 1 58 0 1 1 78 0 10 44 0 0 1 59 1 1 1 81 0 0

Dihotomna promenljiva (dummy variable) kodira se:

0 – nepušač, nije gojazan ...

1 – pušač, gojazan...

Sa 1 se kodira ono što nas interesuje

20

Page 21: logisticka regresija.doc

Kvantitativne metode u ekonomiji i menadžmentu – Logistička kriva

Kako analizirati ove podatke?

1. Podeliti ispitanike u dve grupe prema statusu KSB i uporediti srednje vrednosti

godina starosti

Ispitanici bez KSB: xsr = 44,2 g (Sd=14,65)

Ispitanici sa KSB: xsr = 60,4 g (Sd=12,16)

t = 4,55 p < 0,001

Ne vidi se uticaj pušenja i gojaznosti

2. Podeliti ispitanike u dve starosne grupe i uporediti frekvence pojavljivanja KSB

> 50 g < 50 g

f f% f f% ukupno

KSB + 20 62,5 6 21,4 26

KSB - 12 37,5 22 78,6 34

ukupno 32 100 28 100,0 60

Analiza:t – test za proporciju: f KSB+ kod starijih : f KSB+ kod mlađih (t = 3,56, p < 0,01) ili χ2 - test

3. Podeliti ispitanike u više starosnih grupa i uporediti frekvence pojavljivanja KSB

god f KSB %20-29 6 0 030-39 9 1 1140-49 12 4 3350-59 13 7 5460-69 11 7 6470-79 8 6 7580-89 1 1 100

60 26

21

Page 22: logisticka regresija.doc

Kvantitativne metode u ekonomiji i menadžmentu – Logistička kriva

Podeliti ispitanike u dve grupe u odnosu na BMI i uporediti frekvence pojavljivanja KSB

gojazni negojazni

f f% f f% ukupno

KSB + 13 59,1 13 34,2 26

KSB - 9 40,9 25 65,8 34

ukupno 22 100 38 100 60

Analiza:t – test za proporciju: f KSB+ kod mlađih : f KSB- kod starijih (t = 1,915 p > 0,05)ili χ2 – test

Odds ratio (Relativni odds, Ukršteni odnos) Odds Ratio (OR) je odnos šansi prethodne izloženosti kod slučajeva (prisutan

neželjeni događaj) i kontrola (odsutan neželjeni događaj):

prisutan (+) odsutan (-)da (+) a b a + bne (-) c d c + d

ukupno a + c b + d a+b+c+d

neželjeni događaj ukupno

izloženost

Odds za prisutan neželjeni događaj: a/c Odds za odsutan neželjeni događaj: b/d Odds ratio: (a/c) / (b/d) = ad/bc

KSB : Godine

KSB + KSB - ukupno

> 50 g 20 12 32

< 50 g 6 22 28

ukupno 26 34 60

Odds za prisustvo KSB kod starijih:20/6 = 3,333

Odds za odsustvo KSB kod starijih:12/22 = 0,545

22

Page 23: logisticka regresija.doc

Kvantitativne metode u ekonomiji i menadžmentu – Logistička kriva

Odds ratio (OR) 3,333/0,545 = 6,11

Osobe starije od 50 g imaju 6,11 puta veću šansu da obole od KSB

KSB : Pušenje

KSB + KSB - ukupno

pušači 16 7 23

nepušači 10 27 37

ukupno 26 34 60

Odds za prisustvo KSB kod pušača:16/10 = 1,6

Odds za odsustvo KSB kod pušača:7/27 = 0,259

Odds ratio (OR) 1,6 / 0,259 = 6,18

Pušači imaju 6,18 puta veću šansu da obole od KSB

KSB : Gojaznost

KSB + KSB - ukupno

gojazni 13 9 22

negojazni 13 25 38

ukupno 26 34 60

Odds za prisustvo KSB kod gojaznih:13/13 = 1

Odds za odsustvo KSB kod gojaznih:9/25 = 0,36

Odds ratio (OR) 1 / 0,36 = 2,78

Gojazne osobe imaju 2,78 puta veću šansu da obole od KSB

Logistička regresija

Omogućava da se izračuna jednačina koja izražava relaciju između binarnog ishoda i jednog ili više faktora uticaja (prediktora):

o verovatnoća za pojavu KSB i godine starosti

23

Page 24: logisticka regresija.doc

Kvantitativne metode u ekonomiji i menadžmentu – Logistička kriva

o verovatnoća za pojavu KSB i pušenjeo verovatnoća za pojavu KSB i gojaznosto verovatnoća za pojavu KSB i godine starosti + pušenjeo verovatnoća za pojavu KSB i godine starosti + gojaznosto verovatnoća za pojavu KSB i godine starosti + pušenje + gojaznosto

Za jedan prediktor funkcija glasi:

gde su:b0 i b1 – regresioni koeficijentip – verovatnoća za pojavu KSBx1 – godine ili pušenje ili gojaznost

Za tri prediktora funkcija glasi:

gde su:b0 , b1 , b2 i b3 – regresioni koeficijentip – verovatnoća za pojavu KSBx1 – godinex2 – status pušenjax3 – gojaznost

Odds za neki događaj je

Odnosno

gde je p verovatnoća da se događaj desi

Što je odds nekog događaja veći, to je veća verovatnoća da se događaj desi

Logistička regresija u SPSS-u

Podaci se unose u više kolona: zavisna (binarna) i nezavisne promenljiveAnalyze, Regression, Binary LogisticDependent : KSBCovariates: godineMethod: Enter Options: označiti CI for exp(B)

24

Page 25: logisticka regresija.doc

Kvantitativne metode u ekonomiji i menadžmentu – Logistička kriva

ContinueOK

KSB: GODINE

OR = e0,085 = 1,089

Interpretacija koeficijenata b0 i b1b0neophodan za jednačinu, nema značaja za interpretaciju ,predstavlja vrednost log odds kada je prediktor jednak 0

U regresionom modelu KSB : Godine b0 je log odds za pojavu KSB za osobu koja je stara 0 godina

b1 > 0 – pozitivna asocijacija između prediktora i log odds za pojavu događaja koji nas interesujeb1 = 0 – nema asocijacije između prediktora i log odds za pojavu događaja koji nas interesujeb1 < 0 – negativna asocijacija između prediktora i log odds za pojavu događaja koji nas interesuje

U regresionom modelu KSB : Godine b1 > 0, odnosno postoji pozitivna asocijacija između godina starosti i log odds za pojavu KSB b1 je frakcija za koju se promeni rizik za pojavu KSB kada se godine starosti (x) promene za jednu jedinicu

Primerosoba 1, starost (x) = k godinaosoba 2, starost (x) = (k + 1) godina

Jednačine za log odds glaselog (odds za KSB kod osobe 2) = b0 + b1 (k + 1)log (odds za KSB kod osobe 1) = b0 + b1 (k)

Dalje:log (odds za KSB kod osobe 2) = b0 + b1 (k) + b1log (odds za KSB kod osobe 1) = b0 + b1 (k)

Razlika između log odds osobe 1 i osobe 2:log (odds za KSB kod osobe 2) = b0 + b1 (k) + b1

Variables in the Equation

,085 ,024 12,268 1 ,000 1,089 1,038 1,142-4,744 1,339 12,558 1 ,000 ,009

GODINEConstant

Step1

a

B S.E. Wald df Sig. Exp(B) Lower Upper95,0% C.I.for EXP(B)

Variable(s ) entered on s tep 1: GODINE.a.

bb00 bb11 ORORpp

25

Page 26: logisticka regresija.doc

Kvantitativne metode u ekonomiji i menadžmentu – Logistička kriva

log (odds za KSB kod osobe 1) = b0 + b1 (k)

log odds za pojavu KSB kod osobe 2 starosti (k + 1) godina razlikuje se od log odds za pojavu KSB kod osobe 1 starosti (k) godina za vrednost koeficijenta b1

b1 = 0odds i verovatnoća za pojavu željenog događaja su jednaki za sve vrednosti x (eb1 = OR = 1)

b1 > 0odds i verovatnoća za pojavu željenog događaja se povećavaju sa povećanjem vrednosti x (eb1 = OR > 1)

b1 < 0

odds i verovatnoća za pojavu željenog događaja se smanjuju sa smanjenjem vrednosti x (eb1 = OR < 1)

KSB : Pušenje

KSB : Gojaznost

Variables in the Equation

1,986 ,591 11,274 1 ,001 7,286 2,286 23,223-1,099 ,385 8,147 1 ,004 ,333

PUSENJEConstant

Step1

a

B S.E. Wald df Sig. Exp(B) Lower Upper95,0% C.I.for EXP(B)

Variable(s) entered on step 1: PUSENJE.a.

ORORpp

26

Page 27: logisticka regresija.doc

Kvantitativne metode u ekonomiji i menadžmentu – Logistička kriva

KSB : (Godine + Pušenje)

> 50 g < 50 g

pušači f

nepušači f

pušači f

nepušači f

ukupno

KSB + 13 7 4 2 26

KSB - 2 10 5 17 34

ukupno 32 28 60

> 50 g < 50 g

pušači f%

nepušači f%

pušači f%

nepušači f%

KSB + 40,6 21,9 14,3 7,1

KSB - 6,3 31,3 17,9 60,7

ukupno 100 100

pušači> 50 g nepušači

pušači< 50 g nepušači

KSB +

KSB -0

10

20

30

40

50

60

70

%

KSB + KSB -

Na grafiku se vidi pozitivna korelacija između godina i pušenja i njihovog uticaja na KSB.

KSB : (Godine + Gojaznost)

Variables in the Equation

1,176 ,553 4,520 1 ,034 3,241 1,096 9,581-,734 ,351 4,368 1 ,037 ,480

BMIConstant

Step1

a

B S.E. Wald df Sig. Exp(B) Lower Upper95,0% C.I.for EXP(B)

Variable(s ) entered on s tep 1: BMI.a.

ORORpp

Variables in the Equation

,101 ,029 12,337 1 ,000 1,106 1,046 1,1712,566 ,784 10,724 1 ,001 13,016 2,802 60,461

-6,703 1,763 14,451 1 ,000 ,001

GODINEPUSENJEConstant

Step1

a

B S.E. Wald df Sig. Exp(B) Lower Upper95,0% C.I.for EXP(B)

Variable(s) entered on step 1: GODINE, PUSENJE.a.

ORORpp

27

Page 28: logisticka regresija.doc

Kvantitativne metode u ekonomiji i menadžmentu – Logistička kriva

> 50 g < 50 g

gojazni f

negojazni f

gojazni f

negojazni f

ukupno

KSB + 10 10 4 2 26

KSB - 4 8 5 17 34

ukupno 32 28 60

> 50 g < 50 g

gojazni f%

negojazni f%

gojazni f%

negojazni f%

KSB + 31,3 31,3 14,3 7,1

KSB - 12,5 25,0 17,9 60,7

ukupno 100 100

Grafik pokazuje ne postoji pozitivna korelacija između godina i pušenja i verovatnoće nastanka KSB.

gojaznipušači negojazni

gojazninepušači negojazni

KSB +

KSB -0

10

20

30

40

50

60

%

KSB + KSB -

KSB : (Godine + Pušenje + Gojaznost)

Variables in the Equation

,086 ,025 11,659 1 ,001 1,090 1,037 1,1451,186 ,644 3,393 1 ,065 3,274 ,927 11,564

-5,297 1,461 13,144 1 ,000 ,005

GODINEBMIConstant

Step1

a

B S.E. Wald df Sig. Exp(B) Lower Upper95,0% C.I.for EXP(B)

Variable(s) entered on step 1: GODINE, BMI.a.

ORORpp

28

Page 29: logisticka regresija.doc

Kvantitativne metode u ekonomiji i menadžmentu – Logistička kriva

Faktori rizika za KSB

prediktor OR p godine 1,089 p<0,001 pušenje 7,286 p=0,001 gojaznost 3,241 p=0,034 godine + pušenje

1,106 13,016

p<0,001 p<0,001

godine + gojaznost

1,090 3,274

p=0,001 p=0,065

pušenje + gojaznost

7,290 3,244

p=0,001 p=0,058

godine + pušenje + gojaznost

1,112 13,666 3,565

p=0,001 p=0,001 p=0,090

Variables in the Equation

,106 ,031 11,467 1 ,001 1,112 1,046 1,1822,615 ,819 10,197 1 ,001 13,666 2,745 68,0291,271 ,749 2,883 1 ,090 3,565 ,822 15,464

-7,587 2,055 13,631 1 ,000 ,001

GODINEPUSENJEBMIConstant

Step1

a

B S.E. Wald df Sig. Exp(B) Lower Upper95,0% C.I.for EXP(B)

Variable(s) entered on step 1: GODINE, PUSENJE, BMI.a.

ORORpp

29

Page 30: logisticka regresija.doc

Kvantitativne metode u ekonomiji i menadžmentu – Logistička kriva

Literatura:

1. Agresti A.: Un Introduction to Categorical Data Analysis, (1996) John Wiley & Sons, New York

2. Hair J.F., Anderson R.E., Tatham R.L., Black W.C.: Multivariate data analysis, (1995) Prentice Hall, New York

3. Kotz S, Balakrishnan N., Johnson N.: Continuous Multivariate Distributions (2000) John Wiley & Sons, New York

4. http://faculty.chass.ncsu.edu/garson/PA765/logistic.htm5. http://luna.cas.usf.edu/~mbrannic/files/regression/Logistic.html6. http://supa.pharmacy.bg.ac.rs/assets/102

30