Statikstik II 4. Lektion

Statikstik II4. Lektion

Generelle Lineære Modeller

Generel Lineær Model Y afhængig skala variabel X1,…,Xk forklarende variable, skala eller binære

Model: Middelværdien af Y givet X

Mere præcist: i’te observation ud af n er givet ved

xj,i er j’te forklarende variabel for i’te observation. e1,…,en er uafhængige og identisk fordelt ei ~ N(0,s2)

k

i iikk xxxXYE111)|(

iikkii xxY e ,,11

IID

Simpel lineær regression

X

Y

Xi

Yi { β1

10

εi

E[Y|X] = + β1X

iii xy e 1),0( 2se Ni iid

GLM med én skala forklarende variabel (k=1)

Modellen er

Modellen siger: E(Y|X) = + 1X V(Y|X) = σ2

Y|X ~ N( + β1X, σ2)

Endnu en tegning…

X

Y

i.i.d. normalfordelte fejlled

Yi|xi~N( + β1xi,σ2)

x1 x3x2 x4 x5

xY 1

Estimation Model:

yi = + 1 xi + ei εi er i.i.d. N(0,σ2) , β1 og σ2 er modellens parametre – ukendte!

Estimation af og 1 svarer til at vælge den linje, der passer bedst til de observerede punkter.

Estimerede regressions linje

a er estimat for og b1 er estimat for β1. ”Y hat” er estimat for E(Y|X) Spørgsmål: Hvordan estimerer vi og 1?

xbay 1ˆ

er den lodrette afstanden fra den estimerede linie til datapunktet (xi,yi).

)ˆ( iii yye

Residual led

iYiYieˆ

Y

X

iY

iY

Xi

iXYiY givet for værdi eforvendted den ˆ

),( ii YX

XbaY 1ˆ

Den estimerede regressionslinje

datapunkt eobservered Det

Mindste kvadraters metode

Vi vil finde a og b1 så summen af de kvadrerede fejl bliver mindst mulig.

Dvs, vi vil minimere

SSE er Sum of Squared Errors. Skrevet ud:

Bemærk: Funktion af to variable (a og b1).

n

i ieSSE1

2

n

i iin

i iin

i i xbayyye1

211

21

2 )()ˆ(

SSE er en funktion af a og b1.

Vi vil finde a og b1 så SSE er mindst mulig.

Minimering

aSSE

b1

Test af hældning (β1) Test for om hældningen, β1 er forskellig fra nul:

Teststørrelse:

Numerisk store værdier af t er ufordelagtige for H0. SE(b1) er standardfejlen for estimatet b1.

Hvis H0 er sand følger t en såkaldt t-fordeling med n-k-1 frihedsgrader, hvor n er antal observationer.

0:0: 1110 vs HH

)( 1

1

bSEbt

Test af hældning (β1) Vælg et signifikansniveau, typisk α=0.05. Udregn teststørrelsen

Bestem p-værdien (SPSS). Beslutning: Hvis p-værdien < α afvises H0.

0 . 8

0 . 7

0 . 6

0 . 5

0 . 4

0 . 3

0 . 2

0 . 1

0 . 0

tOrange område = p-værdi

t0

t-fordeling med n-2 frihedsgrader

Fortolkning/Eksempler på H0Er der en lineær sammenhæng mellem X og Y?

H0: 1 = 0 ingen lineær sammenhængH1: 1 0 lineær sammenhæng

Følgende er eksempler, hvor H0 accepteres.

Y

X

Y

X

Y

X

Konstant Y Usystematisk variation Ikke-lineær sammenhæng

SPSS Analyze → General Linear Models → Univariate…

Kategoriske forklarende variableSkala forklarende variable

Eksempel

Y : Forbrug af gas (gas) X : Udetemperatur (temp)

Scatterplot →

SPSS:

Estimerede model:

Både skæring () og hældning (1) er signifikante!xy 290.0486,5ˆ

Forklaret og uforklaret afvigelse Lad være gennemsnittet af alle yi’er yi’s afvigelse fra kan opdeles i to.

.Y

X

Y

Y

Y

X

Forklaret afvigelse

Totale afvigelse

Uforklaret afvigelse

X

y

y

),( yxbxay ˆ

Total og forklaret variation - illustration

Den totale variationses når vi “kigger langs” x-aksen

Den uforklarede variation ses når vi “kigger langs” regressionslinjen

Y

X X

Y

Den totale variation

Lad være gennemsnittet af alle yi’er

Den totale variation for data er

”Variationen i data omkring datas middelværdi” SST = Sum of Squares Total

n

i i yySST1

2)(

y

Opslitning af den totale variation Den totale variation kan opslittes:

er den uforklarede variation.

er den forklarede variation.

SSR = Sum of Squares Regression

2

1

2

1

2

1ˆˆ

n

i in

i iin

i i yyyyyy

2

1ˆ

n

i ii yySSE

2

1ˆ

n

i i yySSR

Total og forklaret variation

Opsplitning af variationen

SSRSSESST

yyyyyy n

i in

i iin

i i

2

1

2

1

2

1ˆˆ

Forklaret Uforklaret Total

Determinations koeffcienten R2 Determinations Koeffcienten: Andelen af den totale

variation, der er forklaret.

Pr definition: 0 ≤ R2 ≤ 1.

Jo tættere R2 er på 1, jo mere af variationen i data er forklaret af modellen.

R2 >0.8 er godt! … R2 meget tæt på 1 er dog mistænkeligt.

SSTSSE

SSTSSESST

SSTSSRR

12

variation Totalvariation Forklaret

Eksempler på R2

Y

X

R2 = 0 SSE

SST

Y

X

R2 = 0.90SSE

SSTSSR

Y

X

R2 = 0.50 SSESST

SSR

H0: 1 = 2 = … = k = 0

H1: Mindst et i ≠ 0

Teststørrelse:

Store værdier af F er ufordelagtige for H0.

Er modellen besværet værd?Der er ingen (lineær) sammenhæng mellem Y og de forklarende variable

Der er (lineær) sammenhæng mellem Y og mindst én af de forklarende variable

2,1~1

nFMSEMSR

knSSEkSSRF

Mean Squared Error

Mean Squared Regression

Eksempel: R2 og F-test

SSR

SSE

SST

467,0014,75019,352

SSTSSRR

282,47741,0019,35

F

MSR

p-værdi

MSE

F=MSR/MSE

F-fordelingen

543210

0 .7

0 .6

0 .5

0 .4

0 .3

0 .2

0 .1

0 .0

F

f(F

)

Areal = p-værdi

F-fordeling

F

Eksempel - fortsat Y : Forbrug af gas, skala (gas) XTemp : Udetemperatur, skala (temp) XIsolering: {Før, Efter}, kategorisk (insulate)

Omkod XIsolering til binær variabel XFør

XFør = 1 hvis XIsolering = Før XFør = 0 hvis XIsolering = Efter

Model: e FørFørTempTemp xxY 0

Når XIsolering = Før

Når XIsolering = Efter

To linjer med forskellig skæringspunkter! Før angiver forskellen i skæringspunkt.

e

e

TempTemp

FørTempTemp

x

xY 0

Fortolkning af model

e

e

TempTempFør

FørTempTemp

x

xY 1

To regressionslinjer med forskellige skæringer, men samme hældning

X1

Y

Linje for XFør=1

Linje for XFør=0

+ Før

Eksempel og SPSS SPSS: Som før, dog er ’Insulate’ tilføjet ’Fixed factor’

Som ventet er F-testet stadig signifikant. Som ventet er R2 vokset – med nye variable kan

modellen aldrig forklare mindre end før. Bemærk at R2 er meget større!

Estimater

Estimeret model:

Prædikteret gas-forbrug for et hus før det isolering når temperatur er 7o (xTemp = 7 og XFør=1):

Eksempel og SPSS

FørTemp xxy 565,1337,0986,4ˆ

192,41565,17337,0986,4

Vekselvirkning / Interaktion

Vi kan introducere en vekselvirkning mellem kvalitative og kvantitative variable.

Y, XTemp og XFør er som før. Introducer: XTemp,Før = XTemp∙XFør

Modele FørTempFørTempFørFørTempTemp xxxY ,,

),0(~ 2se N

Fortolkning Når XIsolering = Før:

Når XIsolering = Efter:

Temp,Før beskriver forskellen i hældningen mellem de to regressionslinjer.

TempTemp

TempFørTempFørTempTemp

x

xxxYE

00| ,

TempFørTempTempFør

TempFørTempFørTempTemp

x

xxxYE

,

, 11|

SPSS Hoved-effekt: ”Ensom” variabel Interaktionsled: Produkt af to eller flere variable I SPSS: Under ’Model’ angiv hoved-effekter og

interaktionsled. Indsæt altid hoved-effekter først!

Scatterplot → Estimater

Estimeret model:

FørTempFørTemp xxxy ,115,0130,2278.0724,4ˆ

Variansanalyse (ANOVA)

En Generel Lineær Model, der kun har kategoriske forklarende variable, kaldes en variansanalyse.

På engelsk: Analysis of Variance (ANOVA)

Eksempel: Y: Månedlige forbrug Shoppingstil: Hver 2. uge, Ugentligt, Oftere Køn: Mand, Kvinde

Dummy-variable

To kategoriske variable: Omkodning til dummy variable.

Referencekategorier: ”Kvinde” og ”Ofte” (SPSS vælger altid sidste kategori som reference)

Køn XMand

Mand 1Kvinde 0

Stil XH2U XUge

Hver 2. uge 1 0Ugentlig 0 1

Ofte 0 0

Model Den generelle lineære model er:

E(Y|x) = + KvindeXKvinde + H2UXH2U + UgeXUge

Fortolkning: Sammenligning and mand og kvinde med samme ”Stil”: E(Y|Køn=Mand, Stil) - E(Y|Køn=Kvinde, Stil) =

( + Mand∙1 + H2U XH2U + Uge XUge ) –( + Mand∙0 + H2U XH2U + Uge XUge) = Kvinde

Dvs. Mand angiver forskellen i gennemsnits-forbruget for mænd i forhold til kvinder (uagtet deres shopping-stil).

Mere fortolkning

H2U angiver forskellen i gennemsnits-forbrug for folk der handler hver 2. uge i forhold til folk der handler ofte.

Uge angiver forskellen i gennemsnits-forbrug for folk der handler ugentligt i forhold til folk der handler ofte.

Hypotesetest Hypoteser

H0: H2U = Uge = 0 Dvs. ingen effekt af shoppe-stil. H1: H2U ≠ 0 og/eller Uge ≠ 0

Teststørrelse:

SSstil er forskellen i den forklarede variation (SSR) med og uden ”Stil” i modellen.

Intuition: Jo mere af den totale variation ”Stil” forklarer, jo større er SSStil og dermed F.

Store værdier af F er dermed ufordelagtige for H0.

)1,(~1

knqFMSEMS

knSSEqSSF StilStil

SSStil : Sum of Squares for ’Stil’

q : Antal parametre forbundet med ’Stil’ (2)

SPSS Analyze → General Linear Model → Univarite ’amtspend’ som ’dependent’ ’style’ og ’gender’ som ’fixed factor’

Bemærk at ’style’ ikke er signifikant! Bemærk: R2 = 0.118, dvs. kun 11,8% af den totale variation er

forklaret af modellen!

SST

SSE

SSR

SSStil

Estimerede model

Den estimerede model: E(Y|x) = 374,133 61,183 XMand 27,703 XH2U 4,271 XUge

Prædiktion: Gennemsnitsforbruget for en mand, der shopper ugentligt er: E(Y|Køn = Mand, Shopping = Ugentligt ) =

374,133 + 61,183 ∙1 27,703 ∙0 4,271∙1 = 431,045

Vekselvirkning

Introducer vekselvirkning: Køn*Stil Nye dummy variable: XKøn,Stil = Xkøn* XStil. Bemærk: Dummy-variable XKøn,Stil = 0 hvis reference-

kategori er indblandet.

Mand Kvinde (ref.kat.)

Hver 2. uge XMand,H2U ٪Ugentlig XMand,Uge ٪Ofte (ref.kat.) ٪ ٪

Model

Den generelle lineære model er:

E(Y|x) = + Mand XMand + H2U XH2U + Uge XUge +Mand,H2U XMand,H2U + Mand,Uge XMand,Uge

Bemærk: Alle X’er er dummy variable.

SPSS

Bemærk: Hoved-effekter før interaktioner!

SPSS

R2 er nu 0,138. Bemærk: Interaktionen ’Køn*Stil’ er signifikant, mens

hovedeffekten ’Stil’ ikke er! ”Normalt”: Fjerne led med højest p-værdi, dvs. mindst

signifikante led. Hierarkiske princip: Vi fjerner ikke en hoved-effekt, hvis

den indgår i en interaktion.

Estimerede model

Estimerede model er: = 405,727 + 2,048 XMand

61,751 XH2U 44,006 XUge +67,042 XMand,H2U + 77,196 XMand,Uge

y

Documents

Statikstik II 4. Lektion