41
Statistik II Lektion 3 Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Statistik II Lektion 3

  • Upload
    marly

  • View
    48

  • Download
    0

Embed Size (px)

DESCRIPTION

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable. Logistisk regression: 2 binære var. Setup: To binære variable X og Y . Statistisk model: Konsekvens:. Logit-forskelle og Odds-ratio. Logit-forskel Odds-ratio. Likelihood-funktionen. - PowerPoint PPT Presentation

Citation preview

Page 1: Statistik II Lektion 3

Statistik IILektion 3

Logistisk Regression

Kategoriske og Kontinuerte Forklarende Variable

Page 2: Statistik II Lektion 3

Setup: To binære variable X og Y.

Statistisk model:

Konsekvens:

Logistisk regression: 2 binære var.

x

x

e

exXYP

1)|1(

xxXYP

xXYPxXYLogit

)|1(1

)|1(ln)|1(

Page 3: Statistik II Lektion 3

Logit-forskelle og Odds-ratio

Logit-forskel

Odds-ratio

)0|1()1|1( XYLogitXYLogit

ee

e

XYOdds

XYOddsYOR

)0|1(

)1|1()1(

Page 4: Statistik II Lektion 3

Likelihood-funktionen

Definer Likelihood funktionen L( , ; data).

L(, ; data) siger, hvor ”troelig” (likely) data under vores model for givne og .

Page 5: Statistik II Lektion 3

Estimation Lad og betegne estimaterne af de sande, men

ukendte parametre og .

Parametrene og estimeres ved maximum-likelihood metoden:

Vi vælger og så L ( , ; data) er størst mulig (ordnes af SPSS).

Vi kalder og maximum-likelihood (ML) estimater.

Page 6: Statistik II Lektion 3

Estimaternes fordeling.

Antag er den sande værdi og er et ML estimat.

For hver data-indsamling får vi lidt forskellige estimater af pga. af tilfældig variation i data.

Hvis vi har indsamlet data nok, så gælder der

Dvs. i gennemsnit estimerer korrekt (central). Standard fejlen SE() afhænger af mængden af data.

2)(,~ˆ SEN

Page 7: Statistik II Lektion 3

Konfidensinterval for

Da gælder følgende:

95.096.1ˆ96.1ˆ

95.096.1ˆ96.1

SESEP

SESEP 95.096.1ˆ96.1ˆ

95.096.1ˆ96.1

SESEP

SESEP

2,ˆ~ˆ SEN

Page 8: Statistik II Lektion 3

Konfidensinterval for Vi har altså at det sande er indeholdt i intervallet

med 95% sandsynlighed.

Sandsynligheden gælder vel at mærke et endnu ikke udført eksperiment.

Når data er indsamlet og konfidensintervallet er udregnet, så inderholder konfidensintervallet enten ellers så gør det ikke.

Derfor hedder det et 95% konfidens-interval og ikke et 95% sandsynligheds-interval.

)]ˆ(96.1ˆ;)ˆ(96.1ˆ[ SESE

Page 9: Statistik II Lektion 3

Konfidens-interval for logit-forskel Et 95% konfidens-interval for logit-forskel β:

Husk: Logit-forskel = ln(Odds-ratio), dvs. Odds-ratio = exp(logit-forskel).

Et 95% konfidens-interval for odds-ratio:

)]ˆ(96.1ˆ;)ˆ(96.1ˆ[ SESE

];[ )ˆ(96.1ˆ)ˆ(96.1ˆ SESE ee

Page 10: Statistik II Lektion 3

Signifikanstest

Hypoteser H0: β = 0 (uafhængighed)

H1: β = 0 (afhængighed)

Teststørrelse: (Wald teststør.)

Under H0 gælder:

Store værdier af Z2 er ufordelagtige for H0.

22 )(ˆ SEZ

1~ 22 Z

Page 11: Statistik II Lektion 3

Hypotesetest og Konfidensintervaller Betragt følgende hypoteser H0: = K H1: ≠ K

Lad [a,b] være et 95% konfidens-interval for .

Hvis K er udenfor intervallet [a,b], så kan vi afvise H0 på signifikansniveau = 0.05.

Hvis K ligger i intervallet [a,b], kan vi ikke afvise H0 på signifikansniveau = 0.05.

Page 12: Statistik II Lektion 3

SPSS Output

SE p-værdi

e 95% konf-int. for exp

Model: xxXYLogit )|1(

Model: )|1( xXYLogit

Page 13: Statistik II Lektion 3

Kategorisk forklarende variabel Eksempel: Sammenhængen ml. læsehastighed og selvvurdering?

Er du en god læser

Nej Ja Total

Sætnings-læsning

Hurtig 806.3%

119993.7%

1279100.0%

Langsom 8028.1%

20571.9%

285100.0%

Usikker 1135.5%

2064.5%

31100.0%

Total 17111.2%

142488.8%

1595100.0%

Odds for ”Ja” givet hastighed

1199/80 = 14.99

205/80 = 2.56

20/11 = 1.81

Logit for ”Ja” givet hastighed

ln(14.99) = 2.707

ln(2.56) = 0.94

ln(1.81) = 0.59

Page 14: Statistik II Lektion 3

Uafhængighed

I den ideelle verden: Hvis der er uafhængighed skal de tre mulige Odds i tabellen være ens:

Odds(God = Ja|Hastighed = Hurtig) Odds(God = Ja|Hastighed = Langsom) Odds(God = Ja|Hastighed = Usikker)

Vi sammenligner par af Odds vha et Odds-ratio.

Her er der k∙(k-1) = 3∙2=6 mulige Odds-ratios!

Page 15: Statistik II Lektion 3

Sammenligning af mange Odds Vi vælger en reference-kategori, fx. Læsehastighed =

Hurtig. Vi sammenligner nu Odds for hver kategori med Odds

for reference-kategorien, vha. et Odds-ratio. På den måde har vi kun (k-1) Odds-ratios.

Uafhængighed i den ideelle verden: Alle Odds er ens og dermed er alle (k-1) Odds-ratios 1.

Tilsvarende er alle logit-forskelle = 0.

Page 16: Statistik II Lektion 3

Logistisk Regressionsmodel

Model: Logit(Ja|Hastighed) = + Hastighed

Logit(Ja|Hurtig) = + Hurtig

Logit(Ja|Langsom) = + Langsom

Logit(Ja|Usikker) = + Usikker

Overparametriseret! (hvorfor?)

For reference-kategorien sæt Hurtig = 0.

Page 17: Statistik II Lektion 3

Logit-forskelle

Logit(Ja|Langsom) - Logit(Ja|Hurtig) =

+ Langsom) - = Langsom

Logit(Ja|Usikker) - Logit(Ja|Hurtig) =

+ Usikker) - = Usikker

Dvs. Langsom og Usikker er de to logit-forskelle af interesse.

Page 18: Statistik II Lektion 3

Hypotesetest Uinteressant hypotse (hvorfor?)

H0: Langsom = 0

H1: Langsom ≠ 0

Interessant hypotese (hvorfor?) H0: Langsom = Usikker = 0

H1: Langsom ≠ 0 og/eller Usikker ≠ 0

Teststørrelse: Wald ~ 2(df ) df = antal parametre ivolveret i H0.

Page 19: Statistik II Lektion 3

SPSS

”Fortæl” SPSS hvilke forklarende variable der er kategoriske og hvilken kategori er reference-kategorien.

Page 20: Statistik II Lektion 3

SPSS Output

Lansom

Usikker

H0: Lansom = Usikker = 0

H0: Usikker = 0

NB! Bemærk hvordan SPSS koder den afhængige variabel. SPSS opskriver modellen som Logit(Y=1|…). I dette tilfælde vil det sige Logit(Ja|…).

To parametre i H0: Lansom og Usikker.

Page 21: Statistik II Lektion 3

Alternativ: Dummy-variable

For hver kategori introducer en binær variabel: xHurtig xLangsom og xUsikker.

xHurtig = 0 altid

xLangsom = 1 hvis Hastighed = Langsom

xLangsom = 0 hvis Hastighed ≠ Langsom

xUsikker = 1 hvis Hastighed = Usikker

xUsikker = 0 hvis Hastighed ≠ Usikker

Page 22: Statistik II Lektion 3

Dummy-variable: Nu Som Tabel

Hastighed xLangsom xUsikker

Hurtig 0 0

Langsom 1 0

Usikker 0 1

Page 23: Statistik II Lektion 3

Dummy-variable

Model:

Eksempel:

UsikkerUsikkerLangsomLangsomHurtigHurtig xxxHastighedJaLogit )|(

Langsom

UsikkerLangsomHurtigLangsomJaLogit

010)|(

Page 24: Statistik II Lektion 3

Logistisk Regression: Generel Form Med en omkodning til binære dummy-variable kan den

logistiske regression skrives på den generelle form:

i

ii xXYLogit )|1(

iii

iii

x

x

x

x

e

eXYP

iii

iii

exp1

exp

1)|1(

Page 25: Statistik II Lektion 3

Skala forklarende variabel Eksempel:

Afhængig variabel: Er du en god læser (Ja/Nej) Forklarende variable: Antal rigtige i test (0…20)

Plot: Andel Ja’er for hver score.

Page 26: Statistik II Lektion 3

Logistisk Regressionsmodel Model: Logit(Ja|Score=x) = + x

Sandsynlighed:

Plot: Logit(Ja|Score=x)

x

x

e

exScoreJaP

1)|(

Page 27: Statistik II Lektion 3

Logistiske funktion

x

x

e

e

1

x

x

e

e5.05.1

5.05.1

1

Page 28: Statistik II Lektion 3

Fortolkning Logit-forskel:

Så hver gang score stiger med en stiger logit med .

Odds-ratio:

Så hver gang score stiger med en ændres Odds’et med en faktor e.

xxxx

xScoreJaLogitxScoreJaLogit

1

)|()1|(

ee

e

xScoreJaOdds

xScoreJaOddsx

x

1

)|(

)1|(

Page 29: Statistik II Lektion 3

Hypotesetest

H0: = 0

H1: ≠ 0

Teststørrelse:

Hvis vi afviser H0 siger vi at er signifikant.

SEWald

ˆ

Ingen logit-lineær sammenhæng mellem selvvurdering og test-score.

Der er en logit-lineær sammenhæng mellem selvvurdering og test-score.

Page 30: Statistik II Lektion 3

SPSS Output

Estimerede model:

Fortolkning: Odds’et for at svare ”Ja” ændres med en faktor exp() = 1,208, hver gang scoren stiger med 1.

xxScoreJaLogit 189.0402.0)|(

Page 31: Statistik II Lektion 3

Modelkontrol: Ikke logit-lineær Udvid model med ikke-lineært led, fx:

Logit(Ja|Score=x) = + x + x2

Hvis ikke er signifikant, så er en logit-lineær model passende.

Page 32: Statistik II Lektion 3

Modelkontrol: Hosmer-Lemeshows -test Ide: Sammenlign observerede antal Ja’er og

forventede antal Ja’er i den tilpassede model.

Ox = observerede antal personer med score x, der svarer ”Ja”.

Nx = antal personer med score x.

Ex = forventede antal personer med score x, der svarer ”Ja”.

x

x

xxx e

eNxScoreJaPNE

1)|(

Page 33: Statistik II Lektion 3

Modelkontrol: Hosmer-Lemeshows -test Teststørrelse:

Hvis vores værdier af a og b er korrekte gælder

Hvor df = ”antal led i summen” –

”antal parametre i modellen”

Hvis 2 er for stor tror vi ikke på modellen. Hvis den tilsvarende p-værdi er < 0.05 er modelkontrollen

kikset.

x x

xx

E

OE 22

df22 ~

Page 34: Statistik II Lektion 3

SPSS Output

Data inddelt i 10 grupper. Modellen har to parametre. Dvs. df = 10 - 2 = 8.

Da p-værdien > 0.05 kan vi ikke afvise at modellen er passende.

Page 35: Statistik II Lektion 3

Multipel Logistisk Regression Ide: Mere end en forklarende variabel.

Model:

Reference-kategorier: Dreng og Hurtig Dvs: Dreng = 0 og Hurtig = 0

Logit(Ja|Dreng,Hurtig) = +Dreng+Hurtig = +0+0 =

Logit(Ja|Pige,Langsom) = +Pige+Langsom

HastighedKønHastighedKønJaLogit ),|(

Page 36: Statistik II Lektion 3

Logit-forskelle Logit(Ja|Køn,Langsom) - Logit(Ja|Dreng,Hurtig) =

(+Køn+Langsom) - (+Køn+Hurtig) = Langsom.

Dvs. Langsom beskriver logit-forskellen mellem hurtig og langsom læser uanset kønnet.

Logit(Ja|Pige,Hastighed) - Logit(Ja|Dreng,Hastighed) = (+Pige+Hastighed) - (+Dreng+Hastighed) = Pige.

Dvs. Pige beskriver logit-forskellen mellem piger og drenge uanset læsehastigheden.

Page 37: Statistik II Lektion 3

Interaktion / Vekselvirkning Hvad nu hvis logit-forskellen mellem piger og drenge

faktisk afhænger af hastigheden – at der er en interaktion?

Indfør interaktionsled Køn,Hastighed.

Model:

Logit(Ja|Køn,Hastighed) =

+ Køn + Hastighed + Køn,Hastighed

Page 38: Statistik II Lektion 3

Parametere der refererer til en eller flere reference- kategorier sættes lig nul: Dreng,Hurtig = 0

Dreng, Langsom = 0

Dreng, Usikker = 0

Interaktion / Vekselvirkning

Pige, Hurtig = 0

Pige, Langsom ≠ 0 Pige, Usikker ≠ 0

Page 39: Statistik II Lektion 3

Logit Tabel Tabel over Logit(Ja|Køn, Hastighed)

Bemærk: Hver celle har et individuelt logit. Vi kalder denne model den mættede model.

Køn

Dreng Pige

Læsehastighed Hurtig Pige

Langsom Langsom PigeLangsom

Pige,Langsom

Usikker Usikker PigeUsikker

Pige,Usikker

Page 40: Statistik II Lektion 3

Logit-forskelle logit(ja|pige,hurtig) – logit(ja|dreng,hurtig) = Pige logit(ja|pige,usikker) – logit(ja|dreng,usikker) = Pige +

Pige,Usikker. Dvs. Pige,Usikker er forskellen i logit-forskellen mellem hurtige

og usikre læsere.

logit(Ja|Dreng,Usikker) – logit(Ja|Dreng,Hurtig) = Usikker logit(Ja|Pige,Usikker) – logit(Ja|Pige,Hurtig) = Usikker +

Pige,Usikker. Dvs. Pige,Usikker er forskellen i logit-forskellen mellem hurtige

og usikre læsere.

Page 41: Statistik II Lektion 3

Hypotse

H0: Pige,Langsom = Pige,Usikker = 0 Dvs. der er ingen interaktion mellem Køn og

Hastighed.

H1: Pige,Langsom ≠0 og/eller Pige,Usikker ≠0 Dvs. der er interaktion mellem Køn og Hastighed.