2. Enkel regressionsanalys

Ekon

omet

ri, 3

sv

2005© Rune Höglund Enkel regression K 2:1

2. Enkel regressionsanalys

Regressionsanalysens grunder

Ekon

omet

ri, 3

sv


Vad är regressionsanalys?• Regressionsanalys behandlar studiet av en

variabels beroende, den beroende variabeln, av en eller flera andra variabler, de förklarande variablerna, i syfte att skatta och/eller förutsäga populationsmedelvärdet eller medelvärdet för den beroende variabeln givet vissa värden på de förklarande variablerna (eller att mäta den marginella effekten på den beroende variabeln av förändringar i de förklarande variablerna).

Ekon

omet

ri, 3

sv


Vad är regressionsanalys?

• Exempel:• Skatta privata konsumtionens beroende av reell

disponibel inkomst.• Skatta hur efterfrågan påverkas av

prisförändringar (elasticitet).• Skatta sambandet mellan reklam och försäljning.

Ekon

omet

ri, 3

sv


Begrepp, termer och datatyper• Deterministiska – statistiska samband• Statistiska – kausala samband• Terminologi:

• Beroende variabel, Yi (eller Yt)• Förklarande variabel, Xi (eller Xt)

• Datatyper:• Tidsseriedata• Tvärsnittsdata• Poolat data

Ekon

omet

ri, 3

sv


Populationens regressionskurva och funktion

• Populationens regressionskurva beskriver sambandet mellan de förklarande variablerna och det förväntade värdet för den beroende variabeln, E(Y | X = Xi)

• Om sambandet är linjärt kan vi skriva populationens regressionsfunktion, E(Y | X = Xi) = 0 + 1 Xi

• Detta är ekvationen för en rät linje

Ekon

omet

ri, 3

sv


Populationens regressionskurva och funktion

50

100

150

200

60 80 100 120 140 160 180 200 220 240 260 280Inkomst, dollar/vecka

Kon

sum

tion,

dol

lar/ve

cka

80 140 220X

Inkomst, dollar/vecka

65

101

149

Betingat medelvärde

Fördelning för Ygivet X = 220

E ( Y | X )

YKonsumtion, dollar/vecka

Ekon

omet

ri, 3

sv


Linjär i variablerna/parametrarna

• Linjär i variablerna:• X men ej: X2, X½, X·Z

• Linjär i parametrarna:• 1 men ej:

• Med linjär regression avses en modell som är linjär i parametrarna.

1012

1 ,,

Ekon

omet

ri, 3

sv


Den linjära regressionsmodellen

• Stokastisk specifikation av populationens regressionsfunktion• Det faktiska värdet på Y avviker i regel från det

förväntade. Detta kan uttryckas med hjälp av en stokastisk felterm:ei = Yi – E(Y | Xi) eller Yi = E(Y | Xi) + ei

• Den linjära regressionsmodellen kan då skrivas som:Yi = 0 + 1 Xi + ei där E(ei | Xi) = 0

Ekon

omet

ri, 3

sv


Stokastisk felterm

• Varför behövs den stokastiska feltermen, ei?• Vag teori• Otillgängliga data• Centrala kontra perifera variabler• Inre slumpmässighet i det mänskliga beteendet• Dåliga proxyvariabler• Sparsamhetsprincipen• Fel funktionell form

Ekon

omet

ri, 3

sv


Stickprovets regressionsfunktion

• Stickprovets regressionsfunktion:• Den skattade modellen (utifrån ett stickprov) kan

skrivas som,

eller

där är en residualterm (residual), dvs en skattning av ei.

ii XY 10ˆˆˆ

iii eXY ˆˆˆ10

ie

Ekon

omet

ri, 3

sv


Skattningsproblemet

• Vi önskar skatta en regressionslinje som på ”bästa” sätt beskriver vårt datamaterial. Tänkbara kriterier för ”bästa” sätt:

• Minsta kvadratmetoden innebär att vi minimerarsom är en funktion av estimatorerna och .

)ˆ(ˆ iii YYe iii YYe ˆˆ 22 )ˆ(ˆ iii YYe

22 )ˆ(ˆ iii YYe 0 1

Ekon

omet

ri, 3

sv


Regressionslinjens egenskaper

• Regressionslinjens egenskaper:• Linjen går genom punkten .• Medelvärdet av alla skattade Y-värden =

medelvärdet för alla observerade Y.• Medelvärdet för (och summan av) alla residualer

är noll.• Residualerna är okorrelerade med de skattade Y-

värdena.• Residualerna är okorrelerade med Xi.

),( YX

Ekon

omet

ri, 3

sv


Antaganden bakom minsta-kvadratmetoden

• Antaganden bakom minsta-kvadratmetoden:• ia) Linjär regressionsmodell• ib) Regressionsmodellen är korrekt specificerad,

dvs ingen specifikationsbias eller fel i modellen

Förä

ndrin

g i l

önen

ivå,

%

Y i = 1 + 2 (1/X i )

Y i = 1 + 2 X i

Arbetslöshet, %

Ekon

omet

ri, 3

sv



• iia) X-värdena är fixa vid upprepade stickprov

• iib) variation i X-värdena

•iiia) Medelvärdet är noll för ei, E(ei) = 0, iMedelvärde

Y

+ui

–u i

PRF: Yi =1+2Xi

XX1 X3X2 X4

Ekon

omet

ri, 3

sv


• iiib) Homoskedasticitet, lika varians för alla ei

V(ei) = 2,

Täthet

Sparande, Y

Inkomst, X

X1 2+ i

Täthet

Sparande, Y

Inkomst, X

X1 2+ i

Ekon

omet

ri, 3

sv



• iiic) Ingen (auto)korrelation mellan ei:na

+uj

+ui

–uj

–ui

+uj

+ui

–uj

–ui

+uj

+ui

–uj

–ui

.:,,0)( jijieeE ji

Ekon

omet

ri, 3

sv



• iiid) Ofta antar vi att feltermen är normal- fördelad, ei ~ N(0,2)• Anm. ii) & iiia) E(Xiei) = Xi E(ei) = 0, dvs

ingen kovarians mellan ei och Xi

Den konstanta variansen 2 i iiib) är en okänd parameter tre okända parametrar i modellen Antagandena i iii) kan uttryckas i Y i stället för e Ant. ia)-iiic) definerar den klassiska regressionsmodellen. iiid) viktig för inferensen

Ekon

omet

ri, 3

sv


Standardfel och BLUE

• Gauss-Markovs sats:Då ia) – iiic) gäller är minsta kvadrat (OLS) skattningarna de bästa (effektivaste) linjära väntervärdesriktiga skattningarna (BLUE) för 0 resp. 1

• OLS-skattningarna är linjära eftersom de är linjära funktioner av en stokastisk variabel (Y)

Ekon

omet

ri, 3

sv


Medelfel och BLUE

• Standardavvikelse och kovarians för minsta-kvadratskattningarna

21)(

)ˆ(sdXX i

;

)()ˆ ( sd

2

2

0

XXn

Xσβ

i

i

221 )(

)ˆˆ(

XXXCov

io

Ekon

omet

ri, 3

sv


Standardfel och BLUE

• enligt iiid) har vi Yi ~ N(0 + 1Xi , 2) och enligt iiic) är Yi och Yj oberoende

•

2ˆˆ

2

n

es i

),(~ˆ 200

i

i

xnX

N )1,(~ˆ 211 ix

N och

OBS! Detta gäller asymptotiskt även om Yi inte normalfördelad

Standardavvikelsen skattas med

Ekon

omet

ri, 3

sv


Standardfel och BLUE• s brukar även kallas regressionens medelfel• Substituerar vi s för i uttrycken ovan för vi

skattade standardavvikelser för skattningarna

10ˆoch ˆ

vilka kallas medelfelen för skattningarna.På samma sätt får en skattning för kovariansen mellan 10

ˆoch ˆ

Korrelationskoefficienten skattas med

2

22ˆ2

222ˆ2

2

ˆ,ˆˆˆ

ˆˆˆ,ˆ

1020

10

10

10,,där ;

ii

i

i xss

xnXs

sxsXc

ss

cr

Ekon

omet

ri, 3

sv


Konfidensintervall

• Konfidensintervall för regressions-koefficienterna och feltermens varians• då skattningarna är normalfördelade

standardiserar vi och får

)1,0(~)ˆ(

ˆN

sd i

ii

• standardavvikelsen (sd) för skattningen innehåller vilken är okänd och ersätts med skattningen s så att vi får medelfelet för parameterskattningen (s.e)

Ekon

omet

ri, 3

sv


Konfidensintervall• då gäller att

)2(~)ˆ(.

ˆ

ntes i

ii

• Ett 100 · (1–) procents konfidensintervall för i

ges av,)ˆ()2(ˆ

2/1 ii βs.entIi

• För variansen gäller

Ekon

omet

ri, 3

sv


Konfidensintervall

• vilket alltså ger konfidensintervallet för 2 med konfidensgraden 1 -

)2(~

ˆ)2( 22

2

nn

1))2(ˆ)2()2(( 2

2/12

22

2/ nnnP

1})2(

ˆ)2()2(

ˆ)2({ 22/

22

22/1

2

nn

nnP

Ekon

omet

ri, 3

sv


Test

• Då vi testar på signifikansnivån har vi att H0 förkastas om för ett tvåsidigt test

och för ett ensidigt om

01

01

00

00

::::

tEnkelsidiggtDubbelsidi

iiii

iiii

HHHH

)2(~)ˆ(.

ˆ 0

ntes

ti

iii

testvariabeln är

)2(2/1 ntti

)2(1 ntti

Ekon

omet

ri, 3

sv


• OBS! Ofta testas H0: i = , H1: i

)2(~)ˆ(.

ˆ nt

est

i

ii

• t-kvoten i datorutskrifter

Ekon

omet

ri, 3

sv


R2, variansanalys och korrelation• Anpassningsgraden

• residualerna anger hur bra regressionslinjen anpassas till observationerna|

• liten spridning ’små’ residualer ’bra’ anpassning, eller en stor del av variationen i Y förklaras med regressions-linjen

• stor spridning ’stora’ residualer ’dålig’ anpassning, eller endast en liten del av variationen i Y förklaras med regressionslinjen och en stor del blir oförklarad

• residualernas värde (storlek) beror på mätenhet• residualvariansen är

2)ˆ( 2

2

n

YYs ii

Ekon

omet

ri, 3

sv


R2, variansanalys och korrelation• residualkvadratsumman (Yi – Yi)2 utnyttjas för att mäta

variationen i residualerna• variationen i Y mäts med kvadratsumman (Yi – Y )2

)ˆ()ˆ( YYYYYY iiii

)ˆ()ˆ(2)ˆ()ˆ(

)ˆ()ˆ( )(22

2 2

YYYYYYYY

YYYYYY

iiiiii

iiii

• korsproduktsumman är 0, så vi får222 )ˆ()ˆ()( YYYYYY iiii

eller

Ekon

omet

ri, 3

sv


R2, variansanalys och korrelation• totala = residual (fel) + förklarade (regr.)

kvadratsumman kvadratsumman kvadratsummanTSS = ESS + RSS

• Vi dividerar med TSS • 1 = ESS/TSS + RSS/TSS

• Determinationskoefficienten, R2, definieras som

TSSESS

TSSRSSR 12

R2 = den del av variationen i Y som förklaras av Y:s regression på X.

Ekon

omet

ri, 3

sv


R2, variansanalys och korrelation 0 R2 1. R2då Yi = Y, dvs 1 = 0 R2då Yi = Yi, dvs observetionerna ligger på den räta linjen

2

22

12

22

12 ˆˆ

y

x

i

i

ss

yx

R

Då vi, som här, har endast en oberoende variabel X har vi då att

2ˆ

22YYXY rrR

Ekon

omet

ri, 3

sv


R2, variansanalys och korrelation• Uppdelningen av kvadratsumman (och variansen) ovan

kan sammanfattas i en variansanalystabell

Variationsorsak SS df MS=SS/df F

Regression RSS 1 RMS=RSS RMS Residual ESS n-2 EMS=ESS/(n-2) EMS Total TSS n-1

0 ),2,1(~

,

1

221

2

22

dånFEMSRMSF

xRMSE

EMSEsEMS

i

Ekon

omet

ri, 3

sv


R2, variansanalys och korrelation• Testar H0: = 0; H1: 1 0

H0 förkastas om F > F1-(1,n-2)

. ,

ˆˆ OBS! 2

221

2

ˆ

12

1

RSSdå RMS EMSRMS

EMSRSS

sxx

stF i

F- och t-testen för 1 är ekvivalenta

Ekon

omet

ri, 3

sv


Konfidensintervall E(Y|Xi), Yi

• Yi N(0 + 1 Xi, 2) .• Prediktion av medelvärdet E(Y | X = Xi)• E(Y | X = Xi) skattas med

• Prediktion av ett individuellt Y-värde• Y för ett givet X predikteras på samma sätt som ovan

2

22 )(1)ˆvar(

j

ii x

XXn

Y

ii XY 10ˆˆˆ

2

22 )(11)ˆvar(

j

ii x

XXn

Y

• Konfidensintervallen beräknas därefter på vanligt sätt.

Ekon

omet

ri, 3

sv


Konfidensintervall

0

50

100

150

60 80 100 120 140 160 180 200 220 240 260 280

Y

X

92

5868

83

Konfidensintervall för Y -medelvärdet

Konfidensintervall för individuellt Y

X

Ekon

omet

ri, 3

sv


Rapportering av resultat

• Utvärdering av regressionsanalysens resultat• Är tecken på de skattade koefficienterna rimliga?• Är koefficienterna statistiskt signifikant 0?• Är andelen förklarad variation tillfredsställande?• Är feltermen normalfördelad?

)000000289,0()002571,0()2405,14()8128,3()0357,0()4138,6(

5091,04545,24ˆ

ptse

XY ii

Ekon

omet

ri, 3

sv


Normalfördelningstest• Jarque-Beras (JB) normalfördelningstest

• Teststatistika:

där S är snedheten och K är toppigheten för residualerna (toppigheten är 3 för en normal-fördelad variabel)

• JB är asymptotiskt 2-fördelad med 2 frihetsgr.• Förkasta nollhypotesen om JB > kritiskt värde.

24

)3(6

JB22 KSn

Ekon

omet

ri, 3

sv


Funktionell form

Modell Linjär Log-linjärEkvationLutning

Elasticitet

• Log-lin, Lin-log, Reciprok

XY 10

1

XY lnln 10

1

YX

1

XY

1

Ekon

omet

ri, 3

sv


Tolkning av SPSS-utskriftModel Summaryb

,659a ,434 ,378 ,1138Model1

R R SquareAdjustedR Square

Std. Errorof the

Estimate

Predictors: (Constant), EFFEKTa.

Dependent Variable: FORBRUKNb. ANOVAb

,0994 1 ,0994 7,681 ,020a

,1294 10 ,0129,2288 11

RegressionResidualTotal

Model1

Sum ofSquares df

MeanSquare F Sig.

Predictors: (Constant), EFFEKTa.

Dependent Variable: FORBRUKNb.

Ekon

omet

ri, 3

sv


Tolkning av SPSS-utskriftCoefficientsa

,4021 ,1587 2,533 ,030,0051 ,0018 ,659 2,771 ,020

(Constant)EFFEKT

Model1

B Std. Error

UnstandardizedCoefficients

Beta

Standardized

Coefficients

t Sig.

Dependent Variable: FORBRUKNa.

Casewise Diagnosticsa

-2,441 ,68 ,9577 -,2777Case Number8

Std.Residual

FORBRUKN

PredictedValue Residual

Dependent Variable: FORBRUKNa.

Ekon

omet

ri, 3

sv


Tolkning av SPSS-utskrift

EFFEKT

12011010090807060

FOR

BR

UK

N

1,2

1,1

1,0

,9

,8

,7

,6

Volvo 480 ES

Toy Corolla

SAAB 9000

Peug 405 GLI

Opel Kad GSIMits Lancer

MB 190 E 2,6

Mazda 323

Ford Si 2,9i

Citr BX19 Ko

BMW 318i

Alfa 33 1,5i

Ekon

omet

ri, 3

sv


Maximum-likelihoodskattningar• Maximum likelihoodskattningen för en parameter

definieras som det värde , vilket med största sannolikhet skulle generera de observerade stickprovsobservationerna Y1, Y2, ..., Yn.

• Är stickprovet slumpmässigt kan observationerna betraktas som observationer på oberoende och identiskt fördelade s.v. Yi , med snlsfördelningen p(Yi). Maximum-likelihoodskattningen maximerar

~

funktionenlikelihood )( )(...)()( 21

in YpYpYpYp

Ekon

omet

ri, 3

sv


Maximum-likelihoodskattningar• För vår regr.modell har vi

Yi ~N(0 + 1Xi, 2 )

Täthetsfunktionen för Yi är 2

10221

22

1 ii XY

i e)p(Y

Likelihoodfunktionen

21022

1

2

12

101

2

1

),,;,...,

ii XY

inn

e

)p(Y)p(Y...)p(YYL(Y

Ekon

omet

ri, 3

sv


Maximum-likelihoodskattningarVi maximerar L( ), m.a.p. 0, 1, 2.

Blir enklare om vi logaritmerar L( )

2102

2

2102

2

21

2/12

21ln

22ln

2

21ln2ln

21

2lnln2

102

ii

ii

XY

XYnn

XY

eLlii

Ekon

omet

ri, 3

sv


Maximum-likelihoodskattningarVi deriverar log-likelihoodfunktionen partiellt m.a.p. parametrarna och sätter derivatorna = 0

.~

~ ;~ ;~~ 22

2110 ne

xyx

XYi

ii

v.v.r.ej ~ ;ˆ~ ;ˆ~ ;ˆ~ 2221100

Documents

2. Enkel regressionsanalys