35
Statistik II 3. Lektion Variansanalyse Modelkontrol

Statistik II 3. Lektion

Embed Size (px)

DESCRIPTION

Statistik II 3. Lektion. Variansanalyse Modelkontrol. Multipel Lineær Regression. Y afhængig skala variabel X 1 ,…,X k k forklarende variable, skala eller binære Multipel Lineær Regressionsmodel : x j,i er j ’te forklarende variabel for i ’te observation. - PowerPoint PPT Presentation

Citation preview

Page 1: Statistik  II 3.  Lektion

Statistik II3. Lektion

Variansanalyse

Modelkontrol

Page 2: Statistik  II 3.  Lektion

Multipel Lineær Regression Y afhængig skala variabel X1,…,Xk k forklarende variable, skala eller binære

Multipel Lineær Regressionsmodel:

xj,i er j’te forklarende variabel for i’te observation. Fejlleddet ei ”opsamler” den uforklarede del af modellen.

Antagelser: e1,…,en er uafhængige og identisk fordelt ei ~ N(0,s2)

Konsekvens:

iikkii xxY ,,11

ikkii xxXYE ,,11]|[

Page 3: Statistik  II 3.  Lektion

Lidt mere om F-testet Formål: Sammenligne en komplet model med en reduceret

model. Komplet model:

Reduceret model:

Bemærk: Reduktionen består i at fjerne (de sidste) q forklarende variable fra den komplette model.

Spørgsmål: Er det ok at fjerne de q variable?

kk xxY 11

qkqk xxY 11

Page 4: Statistik  II 3.  Lektion

Hypotesen

Hypotese: Den reducerede model er tilstrækkelig: H0 : bk-q+1 = … = bk = 0

H1 : Mindst et bj 0 , j = k-q+1,…,k.

Determinationskoefficienten (R2) for de to modeller:

komplette model.

reducerede model.

F-teststørrelse:

SST

SSRR k

k 2

SST

SSRR r

r 2

1/1

/2

22

knR

qRRF

k

rk

Bemærk: 22rk RR

Page 5: Statistik  II 3.  Lektion

Afgørelsens time…

Intuition: Hvis H0 er sand så… bk-q+1 = … = bk = 0

De forklarende variable xk-q+1 , …, xk har lille betydning

Konklusion: Hvis H0 er sand forventer vi altså en lille F-værdi Er F-værdien ”stor” afviser vi H0.

0

1/1

/2

22

knR

qRRF

k

rk

22rk RR

Page 6: Statistik  II 3.  Lektion

Variansanalyse (ANOVA )

Setup: Kun kategoriske forklarende variable

Eksempel: Y: Månedlige forbrug (Amount spent - amtspend) X1: Shoppestil (Shopping style - style)

Hver anden uge: Biweekly (B) Hver uge: Weekly (W) Ofte: Often (O)

Spørgsmål: Påvirker ’style’ forbruget?

Analysis of Variance

Page 7: Statistik  II 3.  Lektion

Grafisk overblik

Page 8: Statistik  II 3.  Lektion

Omkodning vha. Dummies For at kunne anvende en MLR model må den kategoriske

style variabel omkodes til dummy variable: To binære dummy variable: XB og XW

Bemærk: k kategorier omkodes til k-1 dummy variable Model:

Style XB XW

Biweekly 1 0

Weekly 0 1

Often 0 0

WWBB xxY

Page 9: Statistik  II 3.  Lektion

Hypotesen Model:

E[Y | Style = B] = a + bB

E[Y | Style = W] = a + bW

E[Y | Style = O] = a

Hypotese: Middelværdien er den samme for alle styles: H0: bB = bW = 0 H1: bB 0 og/eller bW 0

Afgøres vha. et F-test, hvor q = 2.

WWBB xxY

Page 10: Statistik  II 3.  Lektion

SPSS

Page 11: Statistik  II 3.  Lektion

To-sidet Variansanalyse

Ide: Tage højde for køn X2: Køn (Mand/Kvinde) (Gender - gender) Omkodes til dummy variabel: XM = 1 hvis X2 = Mand

Model:

Tester to nul-hypoteser: H0: bB = bW = 0 (Ingen effekt af style)

H0: bM = 0 (Ingen effekt af gender)

MMWWBB xxxY

Page 12: Statistik  II 3.  Lektion

SPSS

Page 13: Statistik  II 3.  Lektion

Interaktion?

Er der en vekselvirkning mellem gender og style?

Page 14: Statistik  II 3.  Lektion

Model med Interaktion Model:

Hypotese: Ingen interaktion H0: bBM = bWM = 0

Hypotese: Ingen hovedeffekt af style H0: bB = bW = 0

Hypotese: Ingen hovedeffekt af gender H0: bM = 0

Det hierarkiske princip: Det giver ikke mening at teste hovedeffekter, når de indgår

i en interaktion.

MWWMMBBMMMWWBB xxxxxxxY

Page 15: Statistik  II 3.  Lektion

SPSS

Bemærk: Hoved-effekter før interaktioner!

Page 16: Statistik  II 3.  Lektion

SPSS

Ifølge det hierarkiske princip er det kun test af interaktionen, der giver mening.

Konklusion?

Page 17: Statistik  II 3.  Lektion

Estimerede model

Estimerede model er: = 405,727 + 2,048 XM

-61,751 XB -44,006 XW +

67,042 XBM + 77,196 XWM

y

Page 18: Statistik  II 3.  Lektion

F-testen igen igen F-testen også skrives som

SSq er ”Sum of Squares” for de q variable vi vil fjerne. MSq og MSE er ”Mean Sqaures…”

MSE

MS

knSSE

qSSF qq

1/

/

SSq q MSq = SSq/q

F=MSq/MSE

SSE n-k-1 MSE=SSE/(n-k-1)

Page 19: Statistik  II 3.  Lektion

Modelform Modellen for forbrug forklaret ved shoppe-stil og køn kan

altså skrives som

Her er xB, xW og xM dummy variable.

At skrive formlen op kan hurtigt blive uoverskueligt. Modellens modelform kan skrives som

Forbrug = Stil + Køn + Stil*Køn

I forbindelse med analyse eller fortolkning af model-parametre er det stadig nyttigt at skrive den matematiske formel op.

MWWMMBBMMMWWBB xxxxxxxY

Page 20: Statistik  II 3.  Lektion

Modelkontrol - Motivation

Vores konklusioner om variables vigtighed baseres på p-værdi. p-værdien er en ”halesandsynlighed” i en fordeling, fx F-

fordelingen. F-fordelingen baserer sig på antagelser om at fejlleddet

e er normalfordelt og har konstant varians (homoskedastisk).

Med andre ord: For at kunne stole på vores konklusioner, skal vi checke at antagelserne om normalfordelte og homoskedasktiske fejlled passer!

Page 21: Statistik  II 3.  Lektion

Residual I den sande model har vi

Det kan vi skrive om til

Residualet, ei, er derfor et estimat af fejlleddet:

Da ei’erne er normalfordelte bør ei’erne også være det (hvis modellen da ellers er korrekt).

]|[11

XYE

xxY kk

]|[ XYEY

iii yye ˆ

Page 22: Statistik  II 3.  Lektion

Modelkontrol For at kunne stole på test og estimater skal vi sikre os, at

modellens antagelser er overholdt!

Antagelse: Middelværdi-strukturen i modellen er

Kan være svært at checke direkte, hvis vi har mange forklarende variable.

Hvis middelværdi-strukturen i modellen er korrekt, så bør middelværdien af ei’erne være ca. nul uanset værdien af . ’erne eller x’erne.

Grafisk check: plot af af ei mod . iy

iy

kk xxXYE 11)|(

Page 23: Statistik  II 3.  Lektion

Modelkontrol Antagelse: Fejlleddene e1,…, en uafhænige?

Der må ikke vær nogen systematisk sammenhæng mellem ei’erne og ’erne eller x’erne.

Grafisk check: Et plot at ei mod eller x.

Antagelse: Fejlleddene e1,…, en ~ N(0,s2)? Hvis sandt regner vi med at ei’erne er cirka

normalfordelte. Et plot at ei mod kan afsløre om variansen er konstant

(homoskedatiske fejlled). Et histogram eller QQ-plot kan afsløre om ei’erne er

normalfordelte

iy

iy

iy

Page 24: Statistik  II 3.  Lektion

Residualplot

y ellerx ˆ0

Residualer

Homoskedastisk: Residualerne ser ud til at variere ufahængigt af hinanden og x (eller ).

0

Residualer

Det buede mønster indikerer en underlæggende ikke-lineær sammenhæng.

0

Residualer

Residualerne udviser lineær trend med tiden (eller en anden variabel vi ikke har brugt). Dette indikerer at tid skulle inkluderes i modellen.

Tid

0

Residualer

Heteroskedastisk: Variansen for residualerne ændrer sig når x ændrer sig.

y ellerx ˆ

y ellerx ˆ

٪

٪

٪

y

Page 25: Statistik  II 3.  Lektion

Eksempel: Salg og Reklame Data: n = 30 par af observationer (xi,yi)

yi = Ugentlige salg xi = Ugentlige reklame-budget

Model:

Hvor ei ~N(0,s2)

ii xy

Page 26: Statistik  II 3.  Lektion

Residualer i SPSS

I ’Linear Regression’ vinduet vælges ’Save…’

I ’Save’ vinduet vælges ’Unstandardized’ både under ’Reresiduals’ (ei’erne) og ’Predicted Values’ ( ’erne) .

iy

Page 27: Statistik  II 3.  Lektion

Efter endt regression skaber SPSS to nye søjler i ’Data Editor’, der indeholder residualer (’RES_1’) prædiktioner (’PRE_1’) .

Derefter kan man fx lave scatter plots.

Page 28: Statistik  II 3.  Lektion

Scatter plot af

residualer (ei’erne) mod ’højde’ (xi’erne) (øverst)

residualer (ei’erne) mod prædiktionerne ( ’erne) (nederst).

Ser jo ganske usystematisk ud!

iy

Page 29: Statistik  II 3.  Lektion

Histogrammet burde ligne en normalfordeling.Det gør det også sådan cirka – så ingen problemer her

Histogram af residualer

Page 30: Statistik  II 3.  Lektion

Normalfordelingsplot (Q-Q plot) Konstruer et ”kunstige” data u1,u2,…,un som følger en

normalfordeling.

I et Q-Q plot plotter man ui. mod ei.

Bemærk at både ui’erne og ei’erne er sorterede.

Hvis residualerne er normalfordelte, vil vi have ei ≈ ui.

Dvs (ei,ui) ligge usystematisk omkring en linje med hældning 1 og skæring 0.

Page 31: Statistik  II 3.  Lektion

Normalfordelingsplot (Q-Q plot) Det kunstige data (ui’erne) opnås ved at inddele

normalfordelingen i n+1 lige store stykker.

Areal = 1/(n+1)

u5

Page 32: Statistik  II 3.  Lektion

Vælg ’Analyze → Descriptive Statistics → Q-Q plots’

Ser helt fint ud – snor sig ikke alt for systematisk omkring linjen.

Punkterne ligger rimlig usystematisk omkring linjen: Altså ca. normalfordelt

Page 33: Statistik  II 3.  Lektion

Modelsøgning Formål: Find den simplest mulig model, der beskriver data

tilfredsstillende. Kandidater: Vi vil kun bruge modeller der overholder det

hierarkiske princip: Hvis en model indeholder en interaktion, så skal hovedeffekterne også være med.

Fx. Hvis modellen indeholder interaktionen A*B, så skal den også indeholde A og B. Hvis modellen indeholder A*B*C, så skal A*B, A*C, B*C, A, B og C være med. Osv…

Naiv søgning: Gennemgå alle modeller og vælg den der er bedst efter et eller andet kriterie, fx R2.

Backwards søgning: Start med en kompliceret model og fjern derefter en efter en led, der ikke er signifikante.

Page 34: Statistik  II 3.  Lektion

Justeret R2

Modelsøgning mht. R2 er ikke ideelt.

Definition:

Trade-off mellem forklaringsgrad, R2, og antallet af parametre, k.

Fordel: Vokser kun, hvis ekstra forklarende variabels forklaringsgrad er stor i forhold til antal ekstra parametre.

Ulempe: Ikke samme simple fortolkning som R2.

1

112

nSST

knSSER

Page 35: Statistik  II 3.  Lektion

Backwards søgning Backwards-søgning:

Startmodel: Vælg til at starte med en model, der indeholder alle variable og vekselvirkninger, der menes at være (fagligt) interessante som forklaring den afhængige variabel. Undgå at specificere en model der er vanskelig at fortolke.

Test hvilke led i modellen, der kan fjernes. Mindst signifikante led fjernes, dvs F-test med højest p-værdi, dog så Det hierarkiske princip er overholdt p-værdien > a (typisk a = 0.10)

Reduceret model: Når et led er fjernet udføres en ny analyse på den nye og mindre model.

Slutmodel: Når ikke flere led kan fjernes har vi vores slutmodel. Forbehold: Før hver ”test-runde” skal man afklare om modellens

antagelser er opfyldt – ellers kan man ikke stole på p-værdierne.