Upload
ngonguyet
View
215
Download
1
Embed Size (px)
Citation preview
Kap 4: Introduktion till regressionsanalys.
IntroduktionRegressionsanalys är en statistisk teknik för att undersöka sambandmellan en beroende variabel Y och en eller �era oberoendevariabler X1,X2, . . . ,Xk .
Regressionsanalys kan användas vid följande situationer:
I Man vill undersöka sambandet mellan en beroende variabel Yoch �era oberoende variabler X1,X2, . . . ,Xk
I Man vill uttrycka en beroende variabel Y som en funktion avoberoende variabler X1,X2, . . . ,Xk .
I Man vill undersöka sambandet mellan X1,X2, . . . ,Xk och Yoch samtidigt kontrollera för andra variabler C1,C2, . . . ,Cpsom man tror skulle kunna ha ett samband med Y
2/31
Kap 4: Introduktion till regressionsanalys.
Introduktion
I Man vill bestämma den bästa matematiska modellen för attbeskriva sambandet mellan en beroende variabel och en eller�era oberoende variabler.
I Man vill jämföra regressionssamband mellan olika grupper.I Man vill undersöka interaktionse¤ekter för två eller �eraoberoende variabler på den beroende variabeln.
3/31
Kap 4: Introduktion till regressionsanalys.
Introduktion
I Korrelation innebär inte kausalitet.
I Statistiska modeller är inte deterministiska modeller
4/31
Kap 4: Introduktion till regressionsanalys.
IntroduktionHistoria
I Galton (1886)I Samband mellan föräldrars och barns längderI Barn till korta föräldrar tenderade att vara lite längre, igenomsnitt, än sina föräldrar, medan barn till långa föräldrartenderade att vara lite kortare, i genomsnitt, än sina föräldrar
I �regress toward the mean�
5/31
Kap 4: Introduktion till regressionsanalys.
IntroduktionExempel
I Vi vill veta om kundkretsens storlek (befolkning i 100 000pers) samt mängden lokalt inriktad annonsering (i 10 000 kr)påverkar företagens försäljning (i milj kr).
I Hur mycket skulle vi gissa att försäljningen skulle vara för ettföretag som hade en kundkretsstorlek på 300 000 samt enannonsering på 20 000 kr?
6/31
Kap 4: Introduktion till regressionsanalys.
IntroduktionExempel forts.
• Vi samlar in data från 8 distrikt
data one;input fors bef annons;cards;5.4 5 53.8 4.2 310.6 10 95.2 4.4 3.54.5 3.6 52.7 1.3 22.5 2.7 1.84.5 3 4.7;proc gplot;plot fors*bef fors*annons;proc reg;model fors=bef annons;run;
7/31
Kap 4: Introduktion till regressionsanalys.
IntroduktionExempel forts.
fors
2
3
4
5
6
7
8
9
10
11
bef
1 2 3 4 5 6 7 8 9 10
8/31
Kap 4: Introduktion till regressionsanalys.
IntroduktionExempel forts.
fors
2
3
4
5
6
7
8
9
10
11
annons
1 2 3 4 5 6 7 8 9
9/31
Kap 4: Introduktion till regressionsanalys.
IntroduktionExempel forts.
\F orsaljning = 0.86+ 0.95 � Befolkning\F orsaljning = 0.45+ 1.05 � Annonsering\F orsaljning = 0.43+ 0.55 � Befolkning + 0.50 � Annonsering
10/31
Kap 4: Introduktion till regressionsanalys.
IntroduktionExempel forts.
Slutsats
I Vi kan se att företag i distrikt med större kundkretsar harhögre försäljning än företag i distrikt med mindre kundkretsar
I Vi kan se att företag som annonserar mera har högreförsäljning än företag som annonserar mindre
I Det kan vara så att storlek på kundkrets samt annonseringpåverkar försäljning
11/31
Kap 4: Introduktion till regressionsanalys.
IntroduktionExempel forts.
Hur ser vår bästa uppskattning ut?
I Hur mycket skulle vi gissa att försäljningen skulle vara för ettföretag som hade en kundkretsstorlek på 300 000 samt enannonsering på 20 000 kr?
I Om vi inte tar hänsyn till de förklarande variablerna skulle vårbästa gissning bli medelvärdet för försäljningen i de 8distrikten: 4.9 milj. kr.
I Tar vi hänsyn till de förklarande variablerna blir vår bästagissning:
\F orsaljning = 0.43+ 0.55 � 3+ 0.50 � 2 = 3.08
12/31
Kap 5: Enkel linjär regressionsanalys.
Enkel linjär regressionsanalysEn beroende variabel Y och en oberoende variabel X
n observationer (individer, företag, tidpunkter. . . ) med värden påX och Y .
y x1 L xk
y1 x11 L xk1
M M Myn x1n L xkn
13/31
Kap 5: Enkel linjär regressionsanalys.
Enkel linjär regressionsanalys.
Två grundläggande frågor:
1. Vilken matematisk modell är mest lämplig?
2. Hur skattar vi parametrarna i denna modell?
14/31
Kap 5: Enkel linjär regressionsanalys.
1. Vilken matematisk modell är mest lämplig?
I Forward MethodI Backward MethodI Teori
15/31
Kap 5: Enkel linjär regressionsanalys.
Statistiska antaganden för en linjär modell
I ExistenceI OberoendeI LinjäritetI HomoskedasticitetI Normalfördelning
18/31
Kap 5: Enkel linjär regressionsanalys.
Statistiska antaganden för en linjär modellExistence
För varje �x värde på X är Y en stokastisk variabel med en visssannolikhetsfördelning med ändligt medelvärde och varians.
19/31
Kap 5: Enkel linjär regressionsanalys.
Statistiska antaganden för en linjär modellOberoende
Y -observationerna är statistiskt oberoende
20/31
Kap 5: Enkel linjär regressionsanalys.
Statistiska antaganden för en linjär modellLinjäritet
µY jX = β0 + β1X
21/31
Kap 5: Enkel linjär regressionsanalys.
Statistiska antaganden för en linjär modellHomoskedasticitet
Variansen för Y är densamma för varje X , dvs
σ2Y jX = σ2
för alla X .
22/31
Kap 5: Enkel linjär regressionsanalys.
Statistiska antaganden för en linjär modellNormalfördelning
Y är normalfördelat för varje �x värde på X .
23/31
Kap 5: Enkel linjär regressionsanalys.
2. Hur skattas parametrarna?Att bestämma en rät linje
I Minsta kvadratmetodenI Minsta variansmetoden
270260250240230220210200190180
8
6
4
2
0
2
Inkomst
Spar
ande
24/31
Kap 5: Enkel linjär regressionsanalys.
Minsta kvadratmetodenBästa linjen är den som minimerar summan av de kvadreradeavvikelserna från linjen i Y -led.
Låt bYi vara det skattade värdet på Y vid Xi baserat på denskattade regressionslinjen:
bYi = bβ0 + bβ1Xidär bβ0 är den skattade linjens skärning och bβ1 är den skattadelinjens lutning.
Summan av de kvadrerade avvikelserna från linjen kan skrivas∑ni=1(Yi � bY )2 = ∑n
i=1(Yi � bβ0 � bβ1Xi )2Minsta kvadratskattningarna är de bβ0 och bβ1 som minimerarnämnda kvadratsumma.
25/31
Kap 5: Enkel linjär regressionsanalys.
Minsta kvadratskattningar
Bästa linjen bestäms av formlerna:
bβ1 = ∑ni=1(Xi � X )(Yi � Y )
∑ni=1(Xi � X )2
bβ0 = Y � bβ1Xdär Y är stickprovsmedelvärdet för Y -observationerna och X ärstickprovsmedelvärdet för X -observationerna.
26/31
Kap 5: Enkel linjär regressionsanalys.
Minsta kvadratskattningarExempel.
Inkomst Sparande
181 2,2
190 1,0
200 0,0
210 6,0
220 3,1
225 3,5
226 4,4
228 5,1
228 5,4
233 4,7
237 3,9
240 6,1
260 8,0
27/31
Kap 5: Enkel linjär regressionsanalys.
Minsta kvadratskattningarExempel forts
.
270260250240230220210200190180
8
6
4
2
0
2
Inkomst
Spar
ande
28/31
Kap 5: Enkel linjär regressionsanalys.
Minsta kvadratskattningarExempel forts.
Modell: MODEL1Beroendevariabel: sparande
Antal lästa observationer 13Antal använda observationer 13
Variansanalys
Summa av MedelKälla DF kvadrater kvadrat Fvärde Sh. > F
Modell 1 70.52804 70.52804 36.05 <.0001Fel 11 21.51965 1.95633Korrigerad total 12 92.04769
Rot MSE 1.39869 Rkvadrat 0.7662Beroende medel 3.76923 Just. Rkvadr. 0.7450Koeff.var. 37.10808
Parameterskattningar
Parameter StandardVariabel DF skattning fel tvärde Pr > |t|
Skärning 1 21.20274 4.17709 5.08 0.0004inkomst 1 0.11280 0.01879 6.00 <.0001
29/31
Kap 5: Enkel linjär regressionsanalys.
Minsta kvadratskattningarExempel forts.
bβ0 = �21.203I Linjens skärning av Y -axelnI Det förväntade värdet på sparande för en person med eninkomst på 0 kronor:
I Om en person har en inkomst på 0 kronor förväntar vi oss attsparandet är �21203 kronor (dvs negativt sparande)
I Obs! Är detta rimligt? Om värdet 0 ej �nns i vårt undersöktamaterial är tolkningen ej rimlig. Riskabelt att extrapolerautanför det undersökta området
30/31
Kap 5: Enkel linjär regressionsanalys.
Minsta kvadratskattningarExempel forts.
bβ1 = 0.113I Lutningen/riktningenI Om inkomsten ökar med 1000 kronor ökar i genomsnittsparandet med 113 kronor
I En person som har 1000 kr mer i inkomst än en annan personsparar i genomsnitt 113 kr mer.
I Obs! Sambandet behöver ej vara kausalt!
31/31