Linda Wänström och Elisabet Nikolic(Karl Wahlin)
732G71 Statistik B
8 hp
2
Mål och innehållhttp://www.ida.liu.se/~732G71/ind
Mål:
Tillägna sig metodik för att analysera samt tolka statistiska modeller för samband mellan variabler och statistiska modeller för tidsseriedata .
Innehåll:
Enkel och multipel linjär regressionsanalys
Index
Efterfrågeanalysmodeller
Modeller för tidsseriedata
Analys av data med hjälp av statistisk programvara
3
Kurslitteratur, examination och kontaktuppgifterLitteratur
Bowerman, O’Connell, Koehler & Brooks (2005) 4th ed. Forecasting, time series, and regression
Examination
Salstentamen värd 5.5 hp den 2013-12-10
Projekt del 1: Index och efterfrågeanalys
Projekt del 2: Tidsserieanalys
Projektdelarna är tillsammans värda 2.5 hp och inlämning ska ske senast 2013-12-05
Närmare instruktion för projektarbetena läggs upp på kurshemsidan under veckan.
732G71
Statistik B
Enkel linjär regressionKapitel 3
5
Exempel
En marknadsstrateg studerar årlig marknadsföringskostnad (i hundratusentals kronor) och försäljning (i miljoner kronor) av en viss vara i åtta slumpmässigt utvalda länder, bland det stora antal länder varan säljs i.
Land Marknadsföring Försäljning
1 8 161
2 12 246
3 25 357
4 3 212
5 16 381
6 8 380
7 21 703
8 26 591
6
Spridningsdiagram
0 5 10 15 20 25 300
100
200
300
400
500
600
700
800
Marknadsföring (100 kkr)
Fö
rsäl
jnin
g (
Mkr
)
7
Att studera i ett spridningsdiagram
Är sambandet linjärt?Undersök om punktsvärmen faller längs en tänkt rät linje.
Lutar punktsvärmen?Om punktsvärmen lutar uppåt råder det ett positivt samband mellan variablerna: när den förklarande variabeln ökar så ökar också responsvariabeln. Om punktsvärmen lutar nedåt råder det omvända sambandet: när den förklarande variabeln ökar så minskar responsvariabeln.
Hur starkt är sambandet?Titta på hur tätt observationerna ligger längs en tänkt rät linje. Om observationerna är mycket utspridda är sambandet svagt, medan sambandet kan betraktas som starkt om observationerna ligger nära tillsammans.
Finns det några observationer som avviker kraftigt från övriga? Sådana observationer kallas outliers och kan (men behöver inte) bero på felmätning eller felinmatning.
8
Korrelationskoefficienten
Matematiskt mått för graden av linjärt samband mellan två kvantitativa variabler.
Korrelationskoefficienten antar värden mellan –1 och +1.
Ju närmare –1 desto starkare negativt linjärt samband
Ju närmare +1 desto starkare positivt linjärt samband
Om korrelationskoefficienten är nära 0 finns inget linjärt samband
n
ii
n
ii
n
iii
yyxx
yyxxr
1
2
1
2
1
Marknadsföring 8 12 25 3 16 8 21 26
Försäljning 161 246 357 212 381 380 703 591
9
Tabell för tolkning av korrelationskoefficienten
Vi tolkar absolutvärdet av korrelationskoefficienten (betecknas |r|) (med absolutvärdet menas att vi betraktar den observerade korrelationskoefficienten utan att ta hänsyn till dess tecken):
|r| Samband
> 0.85 Mycket starkt
0.65 – 0.85 Starkt
0.35 – 0.65 Måttligt
0.20 – 0.35 Svagt
< 0.20 Mycket svagt
10
Enkel linjär regression
Genom att rita in en rät linje i svärmen av observationer i spridningsdiagrammet, kan vi kvantifiera sambandet mellan de två variablerna och därmed få reda på hur mycket y-variabeln förändras när x-variabeln ökar en enhet.
Det är viktigt att här tänka i termer av population och stickprov: vi har definierat en population, exempelvis alla anställda med en viss funktion vid ett stort företag och ur denna population har vi dragit ett OSU.
Om vi drar ett nytt stickprov skulle vi få andra personer och därmed andra mätvärden.
Denna slumpfaktor betyder att det finns två typer av modeller för att beskriva en regressionslinje: en teoretisk populationsmodell och en praktiskt använd stickprovsmodell.
11
Enkel linjär regressionPopulationsmodellenDen teoretiska regressionslinje vi skulle erhålla om vi hade tillgång till exakta mätningar för båda variablerna för samtliga enheter i populationen. Modellen uttrycks enligt
där
yi är observerade värden på responsvariabeln
xi är observerade värden på förklaringsvariabeln
β0 är regressionslinjens intercept (dess skärning med y-axeln när x = 0)
β1 är regressionslinjens lutning
εi är modellens feltermer. Vi återkommer till förklaring och analys av begreppet feltermer.
iii xy 10
12
Enkel linjär regressionStickprovsmodellenDen modell vi använder när vi baserar modellen på ett stickprov:
där
yi är observerade värden på responsvariabeln
xi är observerade värden på förklaringsvariabeln
b0 är regressionslinjens intercept (dess skärning med y-axeln när x = 0)
b1 är regressionslinjens lutning
b0 och b1 kallas för stickprovsmodellens regressionsparametrar och är punktskattningar av populationsmodellens regressionsparametrar β0 och β1
ii xbby 10
13
Skattning av stickprovsmodellens regressionsparametrarVärdena på b0 och b1 beräknas enligt
Den metodik som används för att anpassa regressionslinjen till datamaterialet kallas minsta kvadratmetoden. Namnet kommer sig av att metodiken bygger på att minimera summan av det kvadrerade vertikala avståndet från varje punkt upp (eller ned) till regressionslinjen. Det finns andra skattningsmetoder, men minsta kvadratmetoden är den enklaste, mest intuitiva och också den vanligaste.
n
ii
n
iii
xx
yyxxb
1
2
11
xbyb 10
14
Spridningsdiagram med inritad regressionslinje
0 5 10 15 20 25 300
200
400
600
800
Marknadsföring (100 kkr)
Fö
rsäl
jnin
g (
Mkr
)
b1 tolkas som hur mycket y-variabeln förändras när x-variabeln ökar
med en enhet. b0 tolkas som vilken nivå y-variabeln ligger på när x = 0.
b0 är bara tolkningsbar om x = 0 ingår i intervallet av insamlade
x-värden (det så kallade observationsområdet).
15
PrognosticeringEn punktskattning av det förväntade värdet på y när x har värdet x*, vilket uttrycks fås enligt
Generellt ska man akta sig för att göra prognoser för x-värden som ligger utanför observationsområdet (detta brukar kallas extrapolering), eftersom vi inte kan veta om trenden fortsätter att råda utanför det observerade intervallet eller om ett annat samband råder där. Istället lämpar sig regressionsmodellen bäst för att göra prognoser inom intervallet av observerade x‑värden (interpolering). Prognosticering kräver försiktighet och eftertanke!
*ˆ xy
*x
*ˆ 10* xbbyx
Exempel:Vilken försäljning av den studerade varan kan ett land där man årligen spenderar 1 miljon på marknadsföring i genomsnitt förvänta sig?
16
Förklaringsgrad Mått på hur stor andel av variationen i y‑variabeln som förklaras
av den x‑variabel vi har med i modellen.
Beräknas som korrelationskoefficienten i kvadrat: r2
Antar värden mellan 0 och 1, men uttrycks oftast i procent (0-100%).
r2 Förklaringsgrad
> 70% Mycket hög
50% - 70% Hög
30% - 50% Måttlig
< 30% Låg
17
FeltermerOm vi känner hela populationen för våra två variabler och anpassar populationsmodellen
så är feltermerna εi de vertikala avvikelserna från varje observation till regressionslinjen.
Men vi känner inte hela populationen och därför är också β0 och β1 okända.
De skattas med punktskattningarna b0 och b1 och eftersom dessa är slumpvariabler kommer de att anta olika värden varje gång vi drar ett nytt stickprov ur populationen.
Detta innebär att feltermerna inte går att observera! Trots det innehåller feltermerna viktig information – hur ska vi få fram den?
iii xy 10
18
ResidualerResidualerna, ei, kan betraktas som skattningar av feltermerna εi, och beräknas
Genom att studera residualerna kan vi undersöka hur välanpassad modellen är till data och detta kallas att göra en residualanalys. Eftersom residualerna är avvikelserna från respektive observation till regressionslinjen, vill vi att de ska vara så små som möjligt.
Den enkla linjära regressionsmodellen baseras på antagandet att populationsmodellens feltermer (εi) har väntevärde 0, konstant varians, är oberoende samt är normalfördelade. Eftersom εi ej är observerbara studerar vi iställer dessa egenskaper hos residualerna.
iii yye ˆ
Marknadsföring 8 12 25 3 16 8 21 26
Försäljning 161 246 357 212 381 380 703 591
19
Residualanalys Den enkla linjära regressionsmodellen garanterar genom sin
konstruktion att residualerna får medelvärde 0, därför uppfylls alltid detta krav.
Att variansen är konstant undersöks normalt genom att göra ett spridningsdiagram med residualerna på y-axeln och modellens förklarande variabel på x-axeln. Diagrammet undersöks sedan med avseende på att residualerna är jämnt och slumpmässigt spridda kring noll
Att residualerna är normalfördelade undersöks normalt genom att göra ett histogram över residualerna. Histogrammet undersöks sedan med avseende på om residualerna är normalfördelade.
Att residualerna är oberoende går däremot i normalfallet inte att undersöka, men man kan och bör fundera över hur stickprovet har dragits: har en urvalsdesign använts som kan antas ge oberoende mellan observationerna och därmed mellan residualerna?
Var också observant på förekomsten av outliers bland residualerna.
20
Spridningsdiagram av residualerna för exempeldata
0 5 10 15 20 25 30
-300
-200
-100
0
100
200
300
Marknadsföring (100 kkr)
Res
idu
aler
21
Histogram av residualerna för exempeldata
22
Hypotesprövning av lutningsparameternRegressionsparametrarna b0 och b1 är slumpvariabler. Av detta följer att när vi tolkar sambandet mellan responsvariabeln och förklaringsvariabeln med hjälp av lutningsparametern b1 baseras denna tolkning på en slumpvariabel. För att hantera osäkerheten som detta medför genomför man ofta en hypotesprövning av om populationsmodellens lutningsparameter β1 är noll.
Y
X
Figuren åskådliggör sambandet mellan
variablerna X och Y för en population.
Antag att vi ur populationen slumpmässigt
dragit de enheter som markeras med röda
punkter. Baserat på det stickprovet skulle
vi dra slutsatsen att det föreligger ett
positivt samband mellan X och Y. Men
betraktar vi hela populationen är det
uppenbart att det inte föreligger något
samband – lutningen på en regressionslinje
anpassad till hela populationen skulle bli
mycket nära noll!
23
Hypotesprövning av lutningsparameternSteg 1: Välj signifikansnivå och formulera hypoteser
Steg 2: Bestäm testvariabeln
där
0: 10 H
0: 1 aH
0: 1 aH
0: 1 aH
n
ii xx
s
bt
1
2
1
n
iii yy
ns
1
2ˆ2
1 Regressionsmodellens standardavvikelse,
ofta kallad residualspridningen
24
Hypotesprövning av lutningsparametern
Steg 3: Ska vi tro på H0 eller Ha?
Om Ha: β1 < 0 ligger det kritiska området till vänster om det kritiska värdet tn-2; α
Om Ha: β1 > 0 ligger det kritiska området till höger om det kritiska värdet tn-2; 1-α
Om Ha: β1 ≠ 0 har vi kritiska områden både till vänster och höger om de kritiska värdena som är tn-2; α/2 respektive tn-2; 1-α/2
Steg 4: Dra slutsats
25
Konfidensintervall för lutningsparametern
n
ii
n
xx
stb
1
22/1;21
26
Intervall för prognosticering
En punktskattning av y när x = x* beräknas enligt
Det finns två typer av intervall för prognosticering:
Konfidensintervall, om vi vill dra slutsatser om den sanna genomsnittsnivån µx* för enheter med x = x*
Prognosintervall, om vi vill dra slutsatser om en enskild enhets nivå yx* när x = x*
*ˆ 10* xbbyx
n
ii
nx
xx
xx
nsty
1
2
2
2/1;2*
*1ˆ
n
ii
nx
xx
xx
nsty
1
2
2
2/1;2*
*11ˆ
27
Enkel linjär regression i datorn
Regression Analysis: Försäljning versus Marknadsföring The regression equation isFörsäljning = 146 + 15.7 Marknadsföring Predictor Coef SE Coef T PConstant 145.6 105.1 1.39 0.215Marknadsföring 15.681 6.227 2.52 0.045 S = 140.461 R-Sq = 51.4% R-Sq(adj) = 43.3%
Utskrift från Minitab 16
28
Multipel linjär regressionPopulationsmodellen
där
yi är observerade värden på responsvariabeln
x1,i är observerade värden på den första förklaringsvariabeln
xp,i är observerade värden på den p:te förklaringsvariabeln
β0 är regressionsmodellens intercept
β1 är regressionsparameter för den första förklaringsvariabeln
βp är regressionsparameter för den p:te förklaringsvariabeln
εi är modellens feltermer, som liksom för den enkla linjära regressionsmodellen ska ha väntevärde 0, konstant varians, vara oberoende och normalfördelade.
iippiii xxxy ,,22,110 ...
29
Multipel linjär regressionStickprovsmodellenDen modell vi använder när vi baserar modellen på ett stickprov:
där
b0 är regressionsparameter för den första förklaringsvariabeln
bp är regressionsparameter för den p:te förklaringsvariabeln
Det lämpar sig inte att anpassa en multipel linjär regressionsmodell med handräkning. För det är formlerna alldeles för långa och omständliga, och vi är hänvisade till att använda datorn för att bestämma regressionsparametrarnas värden.
ippiii xbxbxbby ,,22,110 ...