31
REGRESSIONSANALYS F1 Linda Wnstrm Statistiska institutionen, Stockholms universitet 1/31

REGRESSIONSANALYSgauss.stat.su.se/gu/ra/F1-2.pdf ·  · 2009-10-29Kap 4: Introduktion till regressionsanalys. Introduktion I Man vill bestämma den bästa matematiska modellen för

Embed Size (px)

Citation preview

REGRESSIONSANALYSF1

Linda Wänström

Statistiska institutionen, Stockholms universitet

1/31

Kap 4: Introduktion till regressionsanalys.

IntroduktionRegressionsanalys är en statistisk teknik för att undersöka sambandmellan en beroende variabel Y och en eller �era oberoendevariabler X1,X2, . . . ,Xk .

Regressionsanalys kan användas vid följande situationer:

I Man vill undersöka sambandet mellan en beroende variabel Yoch �era oberoende variabler X1,X2, . . . ,Xk

I Man vill uttrycka en beroende variabel Y som en funktion avoberoende variabler X1,X2, . . . ,Xk .

I Man vill undersöka sambandet mellan X1,X2, . . . ,Xk och Yoch samtidigt kontrollera för andra variabler C1,C2, . . . ,Cpsom man tror skulle kunna ha ett samband med Y

2/31

Kap 4: Introduktion till regressionsanalys.

Introduktion

I Man vill bestämma den bästa matematiska modellen för attbeskriva sambandet mellan en beroende variabel och en eller�era oberoende variabler.

I Man vill jämföra regressionssamband mellan olika grupper.I Man vill undersöka interaktionse¤ekter för två eller �eraoberoende variabler på den beroende variabeln.

3/31

Kap 4: Introduktion till regressionsanalys.

Introduktion

I Korrelation innebär inte kausalitet.

I Statistiska modeller är inte deterministiska modeller

4/31

Kap 4: Introduktion till regressionsanalys.

IntroduktionHistoria

I Galton (1886)I Samband mellan föräldrars och barns längderI Barn till korta föräldrar tenderade att vara lite längre, igenomsnitt, än sina föräldrar, medan barn till långa föräldrartenderade att vara lite kortare, i genomsnitt, än sina föräldrar

I �regress toward the mean�

5/31

Kap 4: Introduktion till regressionsanalys.

IntroduktionExempel

I Vi vill veta om kundkretsens storlek (befolkning i 100 000pers) samt mängden lokalt inriktad annonsering (i 10 000 kr)påverkar företagens försäljning (i milj kr).

I Hur mycket skulle vi gissa att försäljningen skulle vara för ettföretag som hade en kundkretsstorlek på 300 000 samt enannonsering på 20 000 kr?

6/31

Kap 4: Introduktion till regressionsanalys.

IntroduktionExempel forts.

• Vi samlar in data från 8 distrikt

data one;input fors bef annons;cards;5.4  5   53.8  4.2 310.6 10  95.2  4.4 3.54.5  3.6 52.7  1.3 22.5  2.7 1.84.5  3   4.7;proc gplot;plot fors*bef fors*annons;proc reg;model fors=bef annons;run;

7/31

Kap 4: Introduktion till regressionsanalys.

IntroduktionExempel forts.

fors

2

3

4

5

6

7

8

9

10

11

bef

1 2 3 4 5 6 7 8 9 10

8/31

Kap 4: Introduktion till regressionsanalys.

IntroduktionExempel forts.

fors

2

3

4

5

6

7

8

9

10

11

annons

1 2 3 4 5 6 7 8 9

9/31

Kap 4: Introduktion till regressionsanalys.

IntroduktionExempel forts.

\F orsaljning = 0.86+ 0.95 � Befolkning\F orsaljning = 0.45+ 1.05 � Annonsering\F orsaljning = 0.43+ 0.55 � Befolkning + 0.50 � Annonsering

10/31

Kap 4: Introduktion till regressionsanalys.

IntroduktionExempel forts.

Slutsats

I Vi kan se att företag i distrikt med större kundkretsar harhögre försäljning än företag i distrikt med mindre kundkretsar

I Vi kan se att företag som annonserar mera har högreförsäljning än företag som annonserar mindre

I Det kan vara så att storlek på kundkrets samt annonseringpåverkar försäljning

11/31

Kap 4: Introduktion till regressionsanalys.

IntroduktionExempel forts.

Hur ser vår bästa uppskattning ut?

I Hur mycket skulle vi gissa att försäljningen skulle vara för ettföretag som hade en kundkretsstorlek på 300 000 samt enannonsering på 20 000 kr?

I Om vi inte tar hänsyn till de förklarande variablerna skulle vårbästa gissning bli medelvärdet för försäljningen i de 8distrikten: 4.9 milj. kr.

I Tar vi hänsyn till de förklarande variablerna blir vår bästagissning:

\F orsaljning = 0.43+ 0.55 � 3+ 0.50 � 2 = 3.08

12/31

Kap 5: Enkel linjär regressionsanalys.

Enkel linjär regressionsanalysEn beroende variabel Y och en oberoende variabel X

n observationer (individer, företag, tidpunkter. . . ) med värden påX och Y .

y x1 L xk

y1 x11 L xk1

M M Myn x1n L xkn

13/31

Kap 5: Enkel linjär regressionsanalys.

Enkel linjär regressionsanalys.

Två grundläggande frågor:

1. Vilken matematisk modell är mest lämplig?

2. Hur skattar vi parametrarna i denna modell?

14/31

Kap 5: Enkel linjär regressionsanalys.

1. Vilken matematisk modell är mest lämplig?

I Forward MethodI Backward MethodI Teori

15/31

Kap 5: Enkel linjär regressionsanalys.

Räta linjens ekvation

y = β0 + β1x

16/31

Kap 5: Enkel linjär regressionsanalys.

Statistisk modell

Y = β0 + β1X + E

17/31

Kap 5: Enkel linjär regressionsanalys.

Statistiska antaganden för en linjär modell

I ExistenceI OberoendeI LinjäritetI HomoskedasticitetI Normalfördelning

18/31

Kap 5: Enkel linjär regressionsanalys.

Statistiska antaganden för en linjär modellExistence

För varje �x värde på X är Y en stokastisk variabel med en visssannolikhetsfördelning med ändligt medelvärde och varians.

19/31

Kap 5: Enkel linjär regressionsanalys.

Statistiska antaganden för en linjär modellOberoende

Y -observationerna är statistiskt oberoende

20/31

Kap 5: Enkel linjär regressionsanalys.

Statistiska antaganden för en linjär modellLinjäritet

µY jX = β0 + β1X

21/31

Kap 5: Enkel linjär regressionsanalys.

Statistiska antaganden för en linjär modellHomoskedasticitet

Variansen för Y är densamma för varje X , dvs

σ2Y jX = σ2

för alla X .

22/31

Kap 5: Enkel linjär regressionsanalys.

Statistiska antaganden för en linjär modellNormalfördelning

Y är normalfördelat för varje �x värde på X .

23/31

Kap 5: Enkel linjär regressionsanalys.

2. Hur skattas parametrarna?Att bestämma en rät linje

I Minsta kvadratmetodenI Minsta variansmetoden

270260250240230220210200190180

8

6

4

2

0

­2

Inkomst

Spar

ande

24/31

Kap 5: Enkel linjär regressionsanalys.

Minsta kvadratmetodenBästa linjen är den som minimerar summan av de kvadreradeavvikelserna från linjen i Y -led.

Låt bYi vara det skattade värdet på Y vid Xi baserat på denskattade regressionslinjen:

bYi = bβ0 + bβ1Xidär bβ0 är den skattade linjens skärning och bβ1 är den skattadelinjens lutning.

Summan av de kvadrerade avvikelserna från linjen kan skrivas∑ni=1(Yi � bY )2 = ∑n

i=1(Yi � bβ0 � bβ1Xi )2Minsta kvadratskattningarna är de bβ0 och bβ1 som minimerarnämnda kvadratsumma.

25/31

Kap 5: Enkel linjär regressionsanalys.

Minsta kvadratskattningar

Bästa linjen bestäms av formlerna:

bβ1 = ∑ni=1(Xi � X )(Yi � Y )

∑ni=1(Xi � X )2

bβ0 = Y � bβ1Xdär Y är stickprovsmedelvärdet för Y -observationerna och X ärstickprovsmedelvärdet för X -observationerna.

26/31

Kap 5: Enkel linjär regressionsanalys.

Minsta kvadratskattningarExempel.

Inkomst Sparande

181 ­2,2

190 1,0

200 0,0

210 6,0

220 3,1

225 3,5

226 4,4

228 5,1

228 5,4

233 4,7

237 3,9

240 6,1

260 8,0

27/31

Kap 5: Enkel linjär regressionsanalys.

Minsta kvadratskattningarExempel forts

.

270260250240230220210200190180

8

6

4

2

0

­2

Inkomst

Spar

ande

28/31

Kap 5: Enkel linjär regressionsanalys.

Minsta kvadratskattningarExempel forts.

Modell: MODEL1Beroendevariabel: sparande

Antal lästa observationer            13Antal använda observationer      13

Variansanalys

Summa av         Medel­Källa                    DF      kvadrater        kvadrat    F­värde    Sh. > F

Modell                    1       70.52804       70.52804      36.05     <.0001Fel                        11       21.51965        1.95633Korrigerad total    12       92.04769

Rot MSE               1.39869        R­kvadrat           0.7662Beroende medel     3.76923       Just. R­kvadr.     0.7450Koeff.var.             37.10808

Parameterskattningar

Parameter­ Standard­Variabel     DF      skattning            fel t­värde    Pr > |t|

Skärning      1 ­21.20274            4.17709 ­5.08      0.0004inkomst       1        0.11280              0.01879       6.00      <.0001

29/31

Kap 5: Enkel linjär regressionsanalys.

Minsta kvadratskattningarExempel forts.

bβ0 = �21.203I Linjens skärning av Y -axelnI Det förväntade värdet på sparande för en person med eninkomst på 0 kronor:

I Om en person har en inkomst på 0 kronor förväntar vi oss attsparandet är �21203 kronor (dvs negativt sparande)

I Obs! Är detta rimligt? Om värdet 0 ej �nns i vårt undersöktamaterial är tolkningen ej rimlig. Riskabelt att extrapolerautanför det undersökta området

30/31

Kap 5: Enkel linjär regressionsanalys.

Minsta kvadratskattningarExempel forts.

bβ1 = 0.113I Lutningen/riktningenI Om inkomsten ökar med 1000 kronor ökar i genomsnittsparandet med 113 kronor

I En person som har 1000 kr mer i inkomst än en annan personsparar i genomsnitt 113 kr mer.

I Obs! Sambandet behöver ej vara kausalt!

31/31