Upload
ulmer
View
35
Download
0
Embed Size (px)
DESCRIPTION
Statikstik II 4. Lektion. Generelle Lineære Modeller. Generel Lineær Model. Yafhængig skala variabel X 1 ,…,X k forklarende variable, skala eller binære Model: Middelværdien af Y givet X Mere præcist: i ’te observation ud af n er givet ved - PowerPoint PPT Presentation
Citation preview
Statikstik II4. Lektion
Generelle Lineære Modeller
Generel Lineær Model Y afhængig skala variabel X1,…,Xk forklarende variable, skala eller binære
Model: Middelværdien af Y givet X
Mere præcist: i’te observation ud af n er givet ved
xj,i er j’te forklarende variabel for i’te observation. e1,…,en er uafhængige og identisk fordelt ei ~ N(0,s2)
k
i iikk xxxXYE111)|(
iikkii xxY e ,,11
IID
Simpel lineær regression
X
Y
Xi
Yi { β1
10
εi
E[Y|X] = + β1X
iii xy e 1),0( 2se Ni iid
GLM med én skala forklarende variabel (k=1)
Modellen er
Modellen siger: E(Y|X) = + 1X V(Y|X) = σ2
Y|X ~ N( + β1X, σ2)
Endnu en tegning…
X
Y
i.i.d. normalfordelte fejlled
Yi|xi~N( + β1xi,σ2)
x1 x3x2 x4 x5
xY 1
Estimation Model:
yi = + 1 xi + ei εi er i.i.d. N(0,σ2) , β1 og σ2 er modellens parametre – ukendte!
Estimation af og 1 svarer til at vælge den linje, der passer bedst til de observerede punkter.
Estimerede regressions linje
a er estimat for og b1 er estimat for β1. ”Y hat” er estimat for E(Y|X) Spørgsmål: Hvordan estimerer vi og 1?
xbay 1ˆ
er den lodrette afstanden fra den estimerede linie til datapunktet (xi,yi).
)ˆ( iii yye
Residual led
iYiYieˆ
Y
X
iY
iY
Xi
iXYiY givet for værdi eforvendted den ˆ
),( ii YX
XbaY 1ˆ
Den estimerede regressionslinje
datapunkt eobservered Det
Mindste kvadraters metode
Vi vil finde a og b1 så summen af de kvadrerede fejl bliver mindst mulig.
Dvs, vi vil minimere
SSE er Sum of Squared Errors. Skrevet ud:
Bemærk: Funktion af to variable (a og b1).
n
i ieSSE1
2
n
i iin
i iin
i i xbayyye1
211
21
2 )()ˆ(
SSE er en funktion af a og b1.
Vi vil finde a og b1 så SSE er mindst mulig.
Minimering
aSSE
b1
Test af hældning (β1) Test for om hældningen, β1 er forskellig fra nul:
Teststørrelse:
Numerisk store værdier af t er ufordelagtige for H0. SE(b1) er standardfejlen for estimatet b1.
Hvis H0 er sand følger t en såkaldt t-fordeling med n-k-1 frihedsgrader, hvor n er antal observationer.
0:0: 1110 vs HH
)( 1
1
bSEbt
Test af hældning (β1) Vælg et signifikansniveau, typisk α=0.05. Udregn teststørrelsen
Bestem p-værdien (SPSS). Beslutning: Hvis p-værdien < α afvises H0.
0 . 8
0 . 7
0 . 6
0 . 5
0 . 4
0 . 3
0 . 2
0 . 1
0 . 0
tOrange område = p-værdi
t0
t-fordeling med n-2 frihedsgrader
Fortolkning/Eksempler på H0Er der en lineær sammenhæng mellem X og Y?
H0: 1 = 0 ingen lineær sammenhængH1: 1 0 lineær sammenhæng
Følgende er eksempler, hvor H0 accepteres.
Y
X
Y
X
Y
X
Konstant Y Usystematisk variation Ikke-lineær sammenhæng
SPSS Analyze → General Linear Models → Univariate…
Kategoriske forklarende variableSkala forklarende variable
Eksempel
Y : Forbrug af gas (gas) X : Udetemperatur (temp)
Scatterplot →
SPSS:
Estimerede model:
Både skæring () og hældning (1) er signifikante!xy 290.0486,5ˆ
Forklaret og uforklaret afvigelse Lad være gennemsnittet af alle yi’er yi’s afvigelse fra kan opdeles i to.
.Y
X
Y
Y
Y
X
Forklaret afvigelse
Totale afvigelse
Uforklaret afvigelse
X
y
y
),( yxbxay ˆ
Total og forklaret variation - illustration
Den totale variationses når vi “kigger langs” x-aksen
Den uforklarede variation ses når vi “kigger langs” regressionslinjen
Y
X X
Y
Den totale variation
Lad være gennemsnittet af alle yi’er
Den totale variation for data er
”Variationen i data omkring datas middelværdi” SST = Sum of Squares Total
n
i i yySST1
2)(
y
Opslitning af den totale variation Den totale variation kan opslittes:
er den uforklarede variation.
er den forklarede variation.
SSR = Sum of Squares Regression
2
1
2
1
2
1ˆˆ
n
i in
i iin
i i yyyyyy
2
1ˆ
n
i ii yySSE
2
1ˆ
n
i i yySSR
Total og forklaret variation
Opsplitning af variationen
SSRSSESST
yyyyyy n
i in
i iin
i i
2
1
2
1
2
1ˆˆ
Forklaret Uforklaret Total
Determinations koeffcienten R2 Determinations Koeffcienten: Andelen af den totale
variation, der er forklaret.
Pr definition: 0 ≤ R2 ≤ 1.
Jo tættere R2 er på 1, jo mere af variationen i data er forklaret af modellen.
R2 >0.8 er godt! … R2 meget tæt på 1 er dog mistænkeligt.
SSTSSE
SSTSSESST
SSTSSRR
12
variation Totalvariation Forklaret
Eksempler på R2
Y
X
R2 = 0 SSE
SST
Y
X
R2 = 0.90SSE
SSTSSR
Y
X
R2 = 0.50 SSESST
SSR
H0: 1 = 2 = … = k = 0
H1: Mindst et i ≠ 0
Teststørrelse:
Store værdier af F er ufordelagtige for H0.
Er modellen besværet værd?Der er ingen (lineær) sammenhæng mellem Y og de forklarende variable
Der er (lineær) sammenhæng mellem Y og mindst én af de forklarende variable
2,1~1
nFMSEMSR
knSSEkSSRF
Mean Squared Error
Mean Squared Regression
Eksempel: R2 og F-test
SSR
SSE
SST
467,0014,75019,352
SSTSSRR
282,47741,0019,35
F
MSR
p-værdi
MSE
F=MSR/MSE
F-fordelingen
543210
0 .7
0 .6
0 .5
0 .4
0 .3
0 .2
0 .1
0 .0
F
f(F
)
Areal = p-værdi
F-fordeling
F
Eksempel - fortsat Y : Forbrug af gas, skala (gas) XTemp : Udetemperatur, skala (temp) XIsolering: {Før, Efter}, kategorisk (insulate)
Omkod XIsolering til binær variabel XFør
XFør = 1 hvis XIsolering = Før XFør = 0 hvis XIsolering = Efter
Model: e FørFørTempTemp xxY 0
Når XIsolering = Før
Når XIsolering = Efter
To linjer med forskellig skæringspunkter! Før angiver forskellen i skæringspunkt.
e
e
TempTemp
FørTempTemp
x
xY 0
Fortolkning af model
e
e
TempTempFør
FørTempTemp
x
xY 1
To regressionslinjer med forskellige skæringer, men samme hældning
X1
Y
Linje for XFør=1
Linje for XFør=0
+ Før
Eksempel og SPSS SPSS: Som før, dog er ’Insulate’ tilføjet ’Fixed factor’
Som ventet er F-testet stadig signifikant. Som ventet er R2 vokset – med nye variable kan
modellen aldrig forklare mindre end før. Bemærk at R2 er meget større!
Estimater
Estimeret model:
Prædikteret gas-forbrug for et hus før det isolering når temperatur er 7o (xTemp = 7 og XFør=1):
Eksempel og SPSS
FørTemp xxy 565,1337,0986,4ˆ
192,41565,17337,0986,4
Vekselvirkning / Interaktion
Vi kan introducere en vekselvirkning mellem kvalitative og kvantitative variable.
Y, XTemp og XFør er som før. Introducer: XTemp,Før = XTemp∙XFør
Modele FørTempFørTempFørFørTempTemp xxxY ,,
),0(~ 2se N
Fortolkning Når XIsolering = Før:
Når XIsolering = Efter:
Temp,Før beskriver forskellen i hældningen mellem de to regressionslinjer.
TempTemp
TempFørTempFørTempTemp
x
xxxYE
00| ,
TempFørTempTempFør
TempFørTempFørTempTemp
x
xxxYE
,
, 11|
SPSS Hoved-effekt: ”Ensom” variabel Interaktionsled: Produkt af to eller flere variable I SPSS: Under ’Model’ angiv hoved-effekter og
interaktionsled. Indsæt altid hoved-effekter først!
Scatterplot → Estimater
Estimeret model:
FørTempFørTemp xxxy ,115,0130,2278.0724,4ˆ
Variansanalyse (ANOVA)
En Generel Lineær Model, der kun har kategoriske forklarende variable, kaldes en variansanalyse.
På engelsk: Analysis of Variance (ANOVA)
Eksempel: Y: Månedlige forbrug Shoppingstil: Hver 2. uge, Ugentligt, Oftere Køn: Mand, Kvinde
Dummy-variable
To kategoriske variable: Omkodning til dummy variable.
Referencekategorier: ”Kvinde” og ”Ofte” (SPSS vælger altid sidste kategori som reference)
Køn XMand
Mand 1Kvinde 0
Stil XH2U XUge
Hver 2. uge 1 0Ugentlig 0 1
Ofte 0 0
Model Den generelle lineære model er:
E(Y|x) = + KvindeXKvinde + H2UXH2U + UgeXUge
Fortolkning: Sammenligning and mand og kvinde med samme ”Stil”: E(Y|Køn=Mand, Stil) - E(Y|Køn=Kvinde, Stil) =
( + Mand∙1 + H2U XH2U + Uge XUge ) –( + Mand∙0 + H2U XH2U + Uge XUge) = Kvinde
Dvs. Mand angiver forskellen i gennemsnits-forbruget for mænd i forhold til kvinder (uagtet deres shopping-stil).
Mere fortolkning
H2U angiver forskellen i gennemsnits-forbrug for folk der handler hver 2. uge i forhold til folk der handler ofte.
Uge angiver forskellen i gennemsnits-forbrug for folk der handler ugentligt i forhold til folk der handler ofte.
Hypotesetest Hypoteser
H0: H2U = Uge = 0 Dvs. ingen effekt af shoppe-stil. H1: H2U ≠ 0 og/eller Uge ≠ 0
Teststørrelse:
SSstil er forskellen i den forklarede variation (SSR) med og uden ”Stil” i modellen.
Intuition: Jo mere af den totale variation ”Stil” forklarer, jo større er SSStil og dermed F.
Store værdier af F er dermed ufordelagtige for H0.
)1,(~1
knqFMSEMS
knSSEqSSF StilStil
SSStil : Sum of Squares for ’Stil’
q : Antal parametre forbundet med ’Stil’ (2)
SPSS Analyze → General Linear Model → Univarite ’amtspend’ som ’dependent’ ’style’ og ’gender’ som ’fixed factor’
Bemærk at ’style’ ikke er signifikant! Bemærk: R2 = 0.118, dvs. kun 11,8% af den totale variation er
forklaret af modellen!
SST
SSE
SSR
SSStil
Estimerede model
Den estimerede model: E(Y|x) = 374,133 61,183 XMand 27,703 XH2U 4,271 XUge
Prædiktion: Gennemsnitsforbruget for en mand, der shopper ugentligt er: E(Y|Køn = Mand, Shopping = Ugentligt ) =
374,133 + 61,183 ∙1 27,703 ∙0 4,271∙1 = 431,045
Vekselvirkning
Introducer vekselvirkning: Køn*Stil Nye dummy variable: XKøn,Stil = Xkøn* XStil. Bemærk: Dummy-variable XKøn,Stil = 0 hvis reference-
kategori er indblandet.
Mand Kvinde (ref.kat.)
Hver 2. uge XMand,H2U ٪Ugentlig XMand,Uge ٪Ofte (ref.kat.) ٪ ٪
Model
Den generelle lineære model er:
E(Y|x) = + Mand XMand + H2U XH2U + Uge XUge +Mand,H2U XMand,H2U + Mand,Uge XMand,Uge
Bemærk: Alle X’er er dummy variable.
SPSS
Bemærk: Hoved-effekter før interaktioner!
SPSS
R2 er nu 0,138. Bemærk: Interaktionen ’Køn*Stil’ er signifikant, mens
hovedeffekten ’Stil’ ikke er! ”Normalt”: Fjerne led med højest p-værdi, dvs. mindst
signifikante led. Hierarkiske princip: Vi fjerner ikke en hoved-effekt, hvis
den indgår i en interaktion.
Estimerede model
Estimerede model er: = 405,727 + 2,048 XMand
61,751 XH2U 44,006 XUge +67,042 XMand,H2U + 77,196 XMand,Uge
y