Upload
gunnar
View
46
Download
2
Embed Size (px)
DESCRIPTION
732G71 STATISTIK B Vad förväntas man egentligen kunna efter genomgången kurs? Exempel : - PowerPoint PPT Presentation
Citation preview
732G71 STATISTIK B
Vad förväntas man egentligen kunna efter genomgången kurs?
Exempel:
Du sitter i ett projektmöte på din arbetsplats. Din chef (om det inte är du) är något upprörd över att en ny amerikansk studie påstås visa att försäljningsresultat kan förbättras om lager är spridda geografiskt än om de är samlade till ett fåtal ställen.
Inom företaget har man på senare år arbetat enligt det motsatta förhållandet.
Chefen säger till dig: Du är ju en relativt nyutbildad ekonom. Har du inte läst statistik?
Ditt svar blir förstås: Javisst! (även om du inombords blir en aning panikslagen)
Chefen: Då så! Du kan väl ta och kolla upp den där studien. Jag är ganska säker på att det är trams det mesta, men för säkerhets skull…
Saxat ur “den amerikanska studien”:
…The slopes are clearly significant, which tells us that it seems reasonable to assume that the covariates have a clear impact on the sales, especially when we have removed the units that were supposed to induce undesired intra-relationships between the predictors. The interpretation of the final model is that the mean result increases with approximately 2% per storage unit with a 99% error margin of 0.7%. There is some intra-annual variation, that might affect the predictions, especially in summer months…
Ovanstående innehåller komponenter som alla har tagits upp på ett eller annat sätt i kursen.
Vad borde du kunna göra i detta fall?
1. Naturligtvis läsa, förstå och kunna återge innehållet i den amerikanska studien.
2. Validera resultaten mot data ni har i ert eget företag, dvs. försöka upprepa vad amerikanerna har gjort men med egna data.
3. Kritiskt ifrågasätta sådant som är tveksamt i studien
• Skall man verkligen ta bort observationer när de ger upphov till multikolinjäritetsproblem?
• Skall man blanda rena regressionsmodeller med tidsseriemodeller innehållande säsongsmodellering?
• Finns det problem med modellantagandena?
4. Återföra till “chefen” och endera bekräfta eller motbevisa hans uppfattning om att det mesta är “trams”
Den enkla linjära regressionen
Ni skall kunna “för hand” räkna fram parameterskattningar, konfidensintervall, prognosintervall, korrelationskoefficienter, förklaringsgrader etc.
− Varför skall vi kunna göra detta för hand när det i praktiken alltid görs med datorprogram?
− Handräkningen visar att man förstår vad de olika komponenterna i en modell “står för”. Vad som är y, vad som är x, vad det är man
skattar och vad det t.ex. är för skillnad på konfidens- och prognosintervall.
Vidare är den enkla linjära regression grund för att även kunna räkna på enkla exponentiella modeller och elasticitetsmodeller. “Omsättning av formler” är nyttig att göra för att inte bli låst till att allt måste heta y och x.
Exempel på uppgift ni förväntas kunna lösa (Övningstentan, uppgift 1)
I en omfattande studie har man undersökt ett urval om 10 koncerner med avseende pä deras
affärsstrategier. I studien ställer man bl.a. frågor om graden av miljöinriktad affärsstrategi
och frågorna ställs dels till en ansvarig person i koncernledningen, dels till en ansvarig person i den viktigaste affärsenheten i koncernen. En av de frågor som ställs är den övergripande (här i något förenklad form):
Vilken grad av miljöinriktning bedömer du att ni har i er strategi?
Låg O O O O O O O O O Hög
Svarsskalan brukar kallas Likert-skala och är sådan att svarsstegen kan antas ligga lika långt
från varandra (en s.k. intervallskala). Detta möjliggör användande av korrelations-koefficienter och regressionsmodeller vid analysarbetet.
De erhållna svaren kodas med talen 1, 2, ..., 9 där 1 används för ett svar längst till vänster i
skalan och 9 för ett svar längst till höger. Med hjälp av de inkomna svaren vill man försöka
hitta ett regressionssamband där ett svar på koncernnivå förklaras av svaret på affärsenhetsnivå.
Följande kodade svar har erhållits:
Koncern (i) Svar på koncernnivå (y) Svar på affärsenhetsnivå (x)
1 5 4
2 2 3
3 4 4
4 7 6
5 1 1
6 1 3
7 2 4
8 6 6
9 3 1
10 8 9
Följande har beräknats:
x2 =221
y2 =209
xy =207
Antag modellen yi = 0 + 1 xi + i ; i = 1, 2, … , 10
a) Vilka antaganden måste göras för 1, 2,…, 10 för att modellen skall kunna analyseras på vanligt sätt? Försök komma på minst en orsak till att något av antaganden inte skulle vara uppfyllt. (1p)
b) Beräkna punktskattningar av parametrarna 0 och 1. (1.5p)
c) Avgör med ett lämpligt test på 5% nivå om det föreligger någon regression mellan y och x. (1.5p)
d) Beräkna den anpassade modellens förklaringsgrad och tolka denna. (1p)
e) Beräkna ett 95% konfidensintervall för det genomsnittliga svaret på koncernnivå för alla koncerner i populationen där svaren på affärsnivå samtliga är 7. (1.5p)
f) Gör en prognos av svaret på koncernnivå för en koncern där svaret på affärsenhetsnivå är 7. Beräkna också ett 99% prognosintervall. (1.5p)
a) De skall ha väntevärde 0, konstant varians, vara oberoende och normalfördelade.
Det som främst inte är självklart är antagandet om normalfördelning, Teoretiskt kan vi inte ha normalfördelade avvikelser eftersom svarsvärdena bara kan vara något av talen 1, 2, …, 9.
Övriga antagande kan förstås också diskuteras men där är det svårare att hitta orsaker, t.ex. skulle det kunna finnas samband mellan olika koncerner som stör oberoendeantagandet.
b) Beräkna punktskattningar…
Använd t.ex. formlerna
I utskriften ges de komplicerade summorna medan x och y får lov att beräknas denna gång:
x = 4 + 3 + 4 + 6 + 1 + 3 + 4 + 6 + 1 + 9 = 41
y = 5 + 2 + 4 + 7 + 1 + 1 + 2 + 6 + 3 + 8 = 39
xbybnxx
nyxxyb
10221 ;
2495.010
318904.0
10
39;8904.0
1041221
103941207021
bb
c) Avgör med ett lämpligt test på 5% nivå om det föreligger någon regression mellan y och x.
Det finns två ekvivalenta sätt att göra detta.
Gemensamt är dock formuleringen av hypoteserna som bör se ut så här:
H0 : 1 = 0 H1 : 1 0
Varför det då? Jo det enda som reglerar regressionen är 1. Om denna är 0 finns ingen regression. Vad 0 är spelar ingen som helst roll!
Testmetod 1: t- test
Testvariabeln beräknas som
Vi behöver beräkna s !
10
22
11
1
x
xs
b
s
bt
b
367.1957.148
12078904.0392495.0209
8
1
2
1
2 102
xybybynn
SSEMSEs
Testvariabelns värde blir nu
Värdet skall nu jämföras med en t-fördelning med n – 2 = 8 frihetsgrader.
Tabellvärdet för 5% nivå (95% konfidensnivå) blir 2.31
Eftersom 2.31 < 4.74 förkastas H0 Signifikant regression föreligger!
Testmetod 2: F-test
Testvariabeln beräknas som
Med våra data blir
Vi jämför med F[0.05](1,8) = 5.32
Eftersom 22.4 > 5.32 kan H0 förkastas
74.4
1041
221367.1
8904.02
t
8/
1/
SSE
SSESST
MSE
MSRF
4.228957.14
1957.149.56
9.56103920910 222
F
yySST
d) Beräkna den anpassade modellen förklaringsgrad och tolka denna
Förklaringsgraden beräknas till
På tentorna ser man ofta att tolkningen glöms bort ( poängavdrag)
Tolkningen är att 73.7% av variationen i y förklaras av x.
e) Beräkna ett 95% konfidensintervall för det genomsnittliga svaret på koncernnivå för alla koncerner i populationen där svaren på affärsnivå samtliga är 7.
Här söker vi alltså ett konfidensintervall för
Formel:
%7.73737.09.56
957.14112
SST
SSE
SST
SSRr
7107| y
n
xx
xx
nstxbb n
22
202
20101
1.8,9.46.15.6
1041
221
10417
10
1367.131.278904.02495.0
digareenligt ti 31.2
digareenligt ti 367.1
7
2
2
8025.0
22
0
tt
s
x
n
f) Gör en prognos av svaret på koncernnivå för en koncern där svaret på affärsenhetsnivå är 7. Beräkna också ett 99% prognosintervall.
Denna uppgift är mycket lika e). Lägg bara till en etta under rottecknet i formeln:
6.11,4.11.55.61041
221
10417
10
11367.136.378904.02495.0
2
2
Notera att den övre gränsen faktiskt ligger utanför det möjliga dataområdet!Glöm inte att specifikt ange att prognosen är 6.5
Den multipla regressionen
Här är det svårare att räkna för hand!
Från datorutskrifter kan ni räkna med att få ut
• parameterskattningar (b0, b1, …, bk )
• medelfel för parameterskattningar ( )
• kvadratsummor (SSR, SSE, SST samt SSR(xk | x1,…,xk – 1 ) dvs. sekventiella kvadratsummor)
• konfidens- och prognosintervall i en given punkt
Vad måste ni själva kunna inse eller beräkna utifrån datorutskriften?
• antal frihetsgrader (framgår ju av formelsamlingen när man vet n )
• medelkvadratsummor, s
• testvariabler
• förklaringsgrader
• omräkning av intervall från 95% till 99% och vice versa
kbbb sss ,,,10
Speciella utskrifter:
• VIF-värden
• Resultat från breg
• Resultat från stepwise
Dessa måste förstås kunna tolkas. Utskrifterna på denna punkt ges dock i sin helhet utan “censurering”.
Exempel på uppgift ni förväntas kunna lösa (Övningstentan, uppgift 2)Vid en bank i Chicago har man för 93 anställda samlat in uppgifter omlön y
antal utbildningsår vid anställning x1
tidigare erfarenhet av bankarbete i månader x2
anställningstid i månader x3
kön x4 = 1 för män och = 0 för kvinnor.
Följande visar ett litet utdrag ur datamaterialet:lön (y) utbildningstid (x1) erfarenhet (x2) anst.tid (x3) kön (x4)3900 12 0.0 1 04020 10 44.0 7 04290 12 5.0 30 04380 8 6.2 7 04380 8 7.5 6 04380 12 0.0 7 04380 12 0.0 10 0......6840 15 41.5 7 16900 12 175.0 10 16900 15 132.0 24 18100 16 54.5 33 1
Man lägger till variabeln x2 · x4 och gör en anpassning av modelleny = 0 + 2 · x2 + 4 · x4 + 5 · x2 · x4 +
Ett utdrag ur en analys med Minitab är följande:
MTB > regress c1 3 c3 c5 c6;SUBC> vif;SUBC> predict 100 0 0.
Regression Analysis: y versus x2, x4, x2*x4
The regression equation isy = 4919 + 2.20 x2 + 1045 x4 - 2.26 x2*x4
Predictor Coef SE Coef T P VIFConstant 4919.2 115.4 * *x2 2.1973 0.8815 * * 1.7x4 1044.5 187.2 * * 2.2x2*x4 -2.264 1.351 * * 2.9
S = 582.2 R-Sq = * R-Sq(adj) = *
Analysis of Variance
Source DF SS MS F PRegression 3 16152852 * * *Residual Error 89 30170439 *Total 92 46323290
Source DF Seq SS
x2 1 1289861
x4 1 13911841
x2*x4 1 951150
...
Predicted Values for New Observations
New Obs Fit SE Fit 95.0% CI 95.0% PI
1 5138.9 74.5 ( 4990.8, 5287.0) ( 3972.6, 6305.2)
Values of Predictors for New Observations
New Obs x2 x4 x2*x4
1 100 0.000000 0.000000
Notera att i denna utskrift har medvetet censurerats bort:
• T-kvoter och P-värden för dessa
• Medelkvadratsummor, F-kvot och P-värde
• R-sq och R-sq(adj)
a) Beräkna
(i) den anpassade modellens justerade förklaringsgrad.
(ii) ett 95% konfidensintervall för 2
(1p)
%7.32327.0
9246323290
89301704391
1
11
2
nSST
knSSER
Analysis of Variance
Source DF SS MS F P
Regression 3 16152852 * * *
Residual Error 89 30170439 *
Total 92 46323290
(i)
(ii)Predictor Coef SE Coef
Constant 4919.2 115.4
x2 2.1973 0.8815
x4 1044.5 187.2
x2*x4 -2.264 1.351
Residual Error 89
73.120.28815.096.11973.2
.normalfördfrån
1.96 Använd tabelli ej finns
derfrihetsgra 89för värden -
8815.01973.2 89025.0
122 2
t
t
stb bkn
Svarsalternativen i facit är följande:
1 (i) 34.9% (ii) 2.20 ± 4.90
2 (i) 32.7% (ii) 1044.5 ± 366.9
3 (i) 65.1% (ii) 1044.5 ± 366.9
4 (i) 34.9% (ii) 1044.5 ± 366.9
5 (i) 34.9% (ii) 2.20 ± 1.73
6 (i) 32.7% (ii) 2.20 ± 1.73
Alternativ 6 är alltså det korrekta. Hur har då de andra alternativen uppstått?
34.9% är förklaringsgraden, men det är alltså den justerade som efterfrågas.
65.1% är 100% – R2 vilket alltså är en felräkning på det som inte efterfrågas
2.20 4.90 uppstår om man får för sig att felmarginalen är kvadraten på s dividerad med roten ur n (93) . Långsökt fel!
1044.5 366.9 är ett K.I. för 4 . Detta kan av slarv uppstå om man fått för sig att koefficienternas index (i detta fall 2) utgår från i vilken ordning variabeln tas in i analysen.
b) Beräkna ett 99% prognosintervall för lönen hos en kvinnlig anställd med 100 månaders
tidigare erfarenhet. (0.5p)
Predicted Values for New Observations
New Obs Fit SE Fit 95.0% CI 95.0% PI
1 5138.9 74.5 ( 4990.8, 5287.0) ( 3972.6, 6305.2)
Values of Predictors for New Observations
New Obs x2 x4 x2*x4
1 100 0.000000 0.000000
Den prognos och de intervall som redovisas i utskriften är just för en kvinna (x4 = 0) med 100 månaders erfarenhet (x2 = 100)
Formel för ett 99% prognosintervall: valueDistance1ˆ 1
005.0 sty kn
22
2.582
5.74Fit S.E. valueDistance
Fit S.E. valueDistance
2.582
9.5138ˆ
s
s
s
y
S = 582.2
I tentan ingående t-tabell omfattar inte frihetsgradstalet 89
Helt OK att använda normalfördelningsvärden istället. (står också i tentan)
99% P.I. ger normalfördelningsvärdet 2.576
6651,36270.15129.5138
2.582
5.7412.582576.29.5138
2
Svarsalternativen i facit är följande:
1 (3973,6305)2 (4991,5287)3 (3769,6571)4 (3627,6651)5 (3755,6523)6 (4944,5334)
Alternativ 4 är alltså det som stämmer.
Övriga alternativ:
Alternativ 1 är det 95%-iga prognosintervallet som finns i utskriften
Alternativ 2 är det 95%-iga konfidensintervallet som finns i utskriften
Övriga alternativ är mer långsökta
Man vill testa hypotesen H0 : 4 = 5 = 0 på 5% nivå.
d) Beräkna testfunktionens värde och avgör om nollhypotesen skall förkastas eller ej. (1p)
Här skall vi alltså göra ett partiellt F-test.
Analysis of Variance
Source DF SS
Regression 3 16152852
Residual Error 89 30170439
Total 92 46323290
Source DF Seq SS
x2 1 1289861
x4 1 13911841
x2*x4 1 951150
9.21
8930170439
1-395115013911841
1
,|| 424224
knSSE
gkxxxxSSRxxSSRF
Jämför med F[0.05](2,89). Tabellen har dock inga frihetsgrader mellan
80 och 100, men värdena sjunker med ökad frihetsgrad.
F[0.05](2,89). < F[0.05]
(2,80) = 3.11 < 21.92 H0 förkastas
Svarsalternativen i facit är följande:
1 Testfunktionens värde=0.53, H0 förkastas ej
2 Testfunktionens värde=3.81, H0 förkastas ej
3 Testfunktionens värde=15.88, H0 förkastas ej
4 Testfunktionens värde=15.88, H0 förkastas
5 Testfunktionens värde=21.92, H0 förkastas
6 Testfunktionens värde=23.82, H0 förkastas
Alternativ 5 är alltså det korrekta.
Alternativ 1 uppstår om man försöker räkna ut testvariabeln för det “vanliga” F-testet men tar SSR/SSE istället för MSR/MSE.
Alternativ 2 uppstår om man tar SSR(x2) istället för SSR(x4|x2)+SSR(x2x4|x2,x4) i täljaren till testvariabeln
Alternativ 3 och 4 ger teststorheten för det vanliga F-testet med olika slutsatser.
Alternativ 6 är mer långsökt
e) Vilket av följande uttalanden om multikolinjäritetsproblem är inte korrekt?
(i) Tecknen på de skattade lutningsparametrarna kan bli orealistiska om problem finns
med multikolinjäritet.
(ii) Man bör definitivt ta bort två av förklaringsvariablerna i modellen för att undvika svåra problem med multikolinjäritet.
(iii) Variabeln x2·x4 förklaras till (1− 1/2.9 )·100% 65.5% av de andra två förklaringsvariablerna.
(iv) VIF–värdena ger information om huruvida en förklaringsvariabel har multipel korrelation med de övriga förklaringsvariablerna.
(v) Inget av VIF-värdena är över 10, vilket tyder på måttliga problem med multikolinjäritet.
(0.5p)Predictor Coef SE Coef VIF
Constant 4919.2 115.4
x2 2.1973 0.8815 1.7
x4 1044.5 187.2 2.2
x2*x4 -2.264 1.351 2.9
Alternativ (ii) är inte korrekt. Det finns inga svåra problem med multikolinjäritet här då VIF-värdena är långt under 10.
Alternativ (iii) är helt korrekt även om det kan låta komplicerat. VIF värdet 2.9 är = 1/(1-R2
3) där R23 är förklaringsgraden i en modell där x2x4 förklaras av x2 och x4
Nedan följer ytterligare en analys med samtliga x-variabler inblandade:
MTB > breg c1 c2-c6
Best Subsets Regression: y versus x1, x2, x3, x4, x2*x4
Response is y
x
2
*
x x x x x
Vars R-Sq R-Sq(adj) C-p S 1 2 3 4 4
1 30.3 29.6 36.2 595.57 X
1 17.0 16.1 60.2 650.11 X
2 42.0 40.7 17.3 546.52 X X
2 36.3 34.9 27.4 572.44 X X
3 48.5 46.8 7.5 517.75 X X X
3 43.7 41.8 16.1 541.32 X X X
4 51.1 48.9 4.9 507.42 X X X X
4 48.8 46.4 9.0 519.30 X X X X
5 51.6 48.8 6.0 507.79 X X X X X
f) Vilket av följande påståenden stämmer bäst beträffande val av modell?
(i) Modellen med fem förklaringsvariabler är bäst eftersom den har högst förklaringsgrad.
(ii) Modellen med x1, x2, x3 och x4 bör väljas eftersom dess C–värde är i paritet med
vad det bör vara.
(iii) Modellen med fem förklaringsvariabler bäst eftersom R2, R2 och s2 samtidigt får
gynnsamma värden.
(iv) Modellen med x1 bör väljas p g a att den har högst värde på C.
(v) Modellen med x1, x3 och x4 är bäst eftersom dess C–värde är närmast 2 · k + 1.
(1p)
Alternativ (ii) stämmer bäst. C =4.9 som är det lägsta värdet och samtidigt lägre än antal variabler (4) + 1
Alternativ (i) stämmer inte eftersom förklaringsgraden alltid ökar med antalet variabler.
Alternativ (iii) stämmer inte bra. Värdena skall inte vara ”gynnsamma” utan kriterierna skall användas (högst justerad förklaringsgrad eller lägsta godkända värde på C)
Alternativ (iv) är tvärt emot vad kriterierna säger
Alternativ (v) är nonsens. Sådana kriterier finns inte.
Indexen
Beräkning av index brukar ofta upplevas som “jobbigt”!
Det finns inga genvägar utan det gäller att behärska formlerna och inse vad man gör.
Exempel på uppgift ni förväntas kunna lösa (Övningstentan, uppgift 3)
Ett företag säljer golv och färg. Man vill beräkna ett prisindex som speglar företagets prisutveckling på kort sikt och väljer därför ut representantvaror för de två varugrupperna.
Följande data har sammanställts:
År Varugrupp
Golv Färg
Totalt Pris, representantvara Totalt Pris, representantvara
försäljningsvärde försäljningsvärde
2003 350 92 280 140
2004 380 95 300 140
2005 340 97 300 145
Beräkna ett sammansatt kedjeprisindex av Laspeyre-typ för företagets priser. Ange indexv ärdena för 2003, 2004 och 2005. (1p)
6.1040275.10181.1100
8.1010181.1100
100
n)den tenta i saknadesonen (instrukti 2003basår Med
0275.1300380
300
140
145
300380
380
95
97
0181.1280350
280
140
140
280350
350
92
95
2005
2004
2003
2005,2004
2004,2003
I
I
I
L
L
Svarsalternativen i facit är följande:
(a) 100.0, 105.0, 106.1
(b) 100.0, 101.5, 104.4
(c) 100.0, 101.8, 104.6
(d) 100.0, 101.8, 102.8
(e) 100.0, 105.0, 101.1
(f) 100.0, 101.5, 102.9
Alternativ (c) är det korrekta.
Övriga alternativ uppstår om man blandar ihop vad som är försäljningsvärden och priser, om man använder länkarna som index etc.
Avrundningsfel kan inte ge ett av de andra svarsalternativen. Sådant kollas alltid noggrant när alternativen skapas!
Elasticitetsmodellerna och de exponentiella modellerna
“Knäcknöten” är logaritmerandet.
I elasticitetsmodellerna står förklaringsvariabeln/variablerna i basen/baserna och parametern/parametrarna i exponenten/exponenterna
(som tidigare används 10-logaritmen lg här för att inte komplicera saker och ting):
Modell i originalskala Logaritmerad modell
G
Ip
I
p
GW
IPAQ
IAQ
PAQ
xy
EE
E
E
10
lglglglg
lglglglglg
lglglglg
lglglglg
lglglglg 10
GW
IEPEAQ
IEAQ
PEAQ
xy
G
IP
I
p
Räknande “för hand” kan bara göras i modeller med en förklaringsvariabel
Då kan allt användas från enkel linjär regression
Exempel
Modellen analyseras genom att tillämpa enkel linjär regression på det logaritmerade sambandet
I formlerna ersätts därför y med log y och x med log x.
I den logaritmerade modellen ingår 1 på samma sätt som i en enkel regression, dvs. framför det som utgör x-variabel
10 xy
lglglglg 10 xy
22
2211
lglg
lglglglg
lglg
lglglglgˆ
xnx
yxnyx
nxx
nyxyxb
0 ingår dock inte på samma sätt som i enkel linjär regression utan i logaritmerad form.
xbyb
xbylglgˆlg
00
10
10 1010ˆ
lglgˆlg
Exempel på uppgift ni förväntas kunna lösa (Övningstentan, uppgift 4)
Man har anpassat en modell där efterfrågan, Q av en viss vara förklaras av en prisvariabel, P. Såväl Q som P har justerats för inflationseffekter. Modellen är följande:
där EP är priselasticiteten och är en slumpvariabel. Nedanstående Minitab-analys hargenomförts:
The regression equation islg(Q) = 4.54 - 1.58 lg(P)
Predictor Coef SE Coef T PConstant 4.5370 0.8814 5.15 0.000lg(P) -1.5764 0.4355 -3.62 0.002
S = 0.0166237 R-Sq = 42.1% R-Sq(adj) = 38.9%
Analysis of Variance
Source DF SS MS F PRegression 1 0.0036214 0.0036214 13.10 0.002Residual Error 18 0.0049743 0.0002763Total 19 0.0085957Testa på 5% nivå H0 : EP −1 mot H1 : EP > −1. Ange teststorhetens värde samt om H0
förkastas eller ej.
PEPAQ
Den logaritmerade modellen som analyserats är
Det innebär att det skattade värdet (b1) i utskriften, dvs. –1.5764 är skattningen av EP (alltså inte något logaritmerat värde).Däremot går det inte att använda den beräknade T-kvoten i utskriften, för den gäller ju ett test av hypotesen H0 : EP = 0 och det är inte den hypotesen vi testar.
Den testvariabel vi behöver för att testa H0 : EP −1 mot H1 : EP > −1 beräknas som
lglglglg PEAQ P
2lglg
2
)1(ˆ
PP
nSSE
Et
i
p Jfr. Formelsamlingen, sid. VI. B är i detta fall = –1.(Där skrivs ”log” istället för ”lg” men det har ingen betydelse.)
32.1
4355.0
15764.1
t
Här behöver vi dock inte manuellt beräkna nämnaren. Den fås ur utskriften under kolumnen ”SE Coef”. Notera att denna inte påverkas av vilket B som sätts in i formeln!
Predictor Coef SE CoefConstant 4.5370 0.8814 lg(P) -1.5764 0.4355
Frihetsgraderna är 18 och testet är enkelsidigt. Tabellvärdet blir därför 1.73 (kolumnen 0.90 i tabellen)–1.32 > –1.73 H0 förkastas ej!
Svarsalternativen i facit är följande:
1. Testvariabelns värde= –3.62, H0 förkastas ej2. Testvariabelns värde=5.15, H0 förkastas ej3. Testvariabelns värde= – 1.32, H0 förkastas ej 4. Testvariabelns värde=6.28, H0 förkastas 5. Testvariabelns värde= – 3.62, H0 förkastas 6. Testvariabelns värde=13.10, H0 förkastas
Alternativ 3 är alltså det korrekta.
Värdet –3.62 är T-kvoten i utskriften, som alltså inte är korrekt att använda.Övriga värden är mer långsökta.Värdet 5.15 är T-kvoten i utskriften för konstanten, som inte har med detta att göra.
Övriga alternativ är mer långsökta.
I de exponentiella modellerna står parametern/parametrarna i basen/baserna och förklaringsvariabeln/variablerna i exponenten/exponenterna.
Modell i originalskala Logaritmerad modell
loglg
lglglg
lglglglg
lg1lglglg1
lglglglg
110210
00
1010
21
kk
xk
xx
tttt
t
t
x
x
xyy
tyy
trCvrCv
xyy
k
Räknande “för hand” kan bara göras i modeller med en förklaringsvariabel
Då kan allt användas från enkel linjär regression
Exempel
Modellen analyseras genom att tillämpa enkel linjär regression på det logaritmerade sambandet:
I formlerna ersätts därför y med log y men x logaritmeras inte.
I det logaritmerade sambandet ingår parametrarna 0 och 1 i logaritmerad form.
xy 10
lglglglg 10 xy
10 lgˆlg1122
2211
1010ˆlglg
lglglgˆlg
bbxnx
yxnyx
nxx
nyxyxb
xbyb
xby
10 lglgˆlg
00
10
1010ˆ
lglgˆlg
Exempel på uppgift om exponentiella modeller ni förväntas kunna lösa (ej ingående i övningstentan)
4. Ett okänt belopp placerades för länge sedan i en intressant fond och har behållits i denna.
För att skatta avkastningen på fonden mellan åren 1990 och 2004 införsen parameter, r och man antar att modellen
vt = v0 · (1 + r) t−1989t
Gäller, där vt är värdet år t, v0 är det förväntade värdet år 1989 och t är en slumpstörning sådan att lg är N(0, ).
För befintliga data över värdena de aktuella åren har följande analyser gjorts i Minitab.
Regression Analysis: v versus (t-1989)
The regression equation is
v = 167 + 21.5 (t-1989)
Predictor Coef SE Coef T P
Constant 167.15 18.43 9.07 0.000
(t-1989) 21.497 2.027 10.61 0.000
S = 33.91 R-Sq = 89.6% R-Sq(adj) = 88.8%
Regression Analysis: v versus lg(t-1989)
The regression equation is
v = 133 + 255 lg(t-1989)
Predictor Coef SE Coef T P
Constant 133.00 37.68 3.53 0.004
lg(t-1989) 255.18 43.21 5.90 0.000
S = 54.91 R-Sq = 72.8% R-Sq(adj) = 70.8%
Regression Analysis: lg(v) versus (t-1989)
The regression equation is
lg(v) = 2.29 + 0.0276 (t-1989)
Predictor Coef SE Coef T P
Constant 2.29163 0.01823 125.72 0.000
(t-1989) 0.027639 0.002005 13.79 0.000
S = 0.03355 R-Sq = 93.6% R-Sq(adj) = 93.1%
Regression Analysis: lg(v) versus lg(t-1989)
The regression equation is
lg(v) = 2.23 + 0.344 lg(t-1989)
Predictor Coef SE Coef T P
Constant 2.23463 0.03666 60.95 0.000
lg(t-1989) 0.34430 0.04205 8.19 0.000
S = 0.05343 R-Sq = 83.8% R-Sq(adj) = 82.5%
Skatta på lämpligt sätt parametern r och testa på 5% nivå H0: r > 0. Svara med det skattade värdet samt om testet är signifikant eller ej. (1p)
Modellen
är en exponentiell modell. Den beroende variabeln är i detta fall vt och förklaringsvariabeln är t eller t – 1989. Att man här har valt att dra bort 1989 är för att få en naturlig koppling till “nollan” i v0 . År 1989 blir här alltså år 0, den tidpunkt som motsvarar grundkapitalet.
För att kunna analysera med regressionsanalys måste vi logaritmera modellen:
I en regressionsanalys skall alltså lg v utgöra y-variabeln och t – 1989 x-variabeln.
Det blir därför den tredje av de fyra Minitab-analyserna som skall användas.
Från den kan vi avläsa
skattad lutningsparameter (dvs. tillfällig b1 ): 0.027639
tt
t rvv 19890 1
tt trvv lg19891lglglg 0
0657.0110ˆ
027639.0)ˆ1lg(027639.0
r
rGenomsnittlig avkastning skattas alltså till c:a 6.6%
För att kunna testa H0: r > 0 krävs att vi omformar hypotesen så att den istället gäller för lg(1+r).
r > 0 blir detsamma som att 1 + r > 1 vilket blir detsamma som att
lg(1+r) > 0.
Vi kan alltså direkt från analysen använda den beräknade t-kvoten (eftersom den just handlar om lg(1+r).
T är 13.79. Vi ser på P-värdet att den är signifikant, men observera att detta P-värde gäller för en dubbelsidig mothypotes, dvs. för hypotesparet
H0: lg(1+r) = 0
Ha: lg(1+r) 0
Vad blir skillnaden med en enkelsidig mothypotes?
1) Kolla först så att själva värdet på T-kvoten är positivt. Det är det i detta fall, men om det skulle ha varit negativt har vi inget bevis för att lg(1+r) är större än noll.
2) Om det dubbelsidiga testet är signifikant så är även det enkelsidiga det (förutsatt att testvariabeln är positiv, vilket den alltså är)
Den här uppgiften är förstås aningen svårare, men räkna med att det kan finnas en och annan “kluring” med.
Felaktiga svarsalternativ på denna uppgift skulle utgöras av svar där man använd resultat från de andra Minitab-anayserna, kombinerade med olika slutsatser om signifikansen.
Tidsserieanalysen
Mycket av detta examineras genom inlämningsuppgiften. Det handlar om att lära sig använda modeller för tidsserieregression och klassisk komponentuppdelning samt exponentiella utjämningsmetoder för prognoser. Själva räknandet görs dock uteslutande med datorns hjälp.
Visst hum om stationaritet och ARMA-modeller ingår också, men ingen kunskap om hur man räknar förutsätts.
För att få den totala examinationen individuell finns en uppgift med på tentan. Den brukar vara värd max. 1.5 poäng.
Denna kan handla om att
• kunna tolka en utskrift från tidsserieregression eller klassisk komponentuppdelning
• kunna tolka en utskrift från enkel eller dubbel exponentiell utjämning eller Winters’ metod
• kunna för hand beräkna en prognos med hjälp av skattade komponenter från en komponentuppdelning
• kunna besvara diverse teorifrågor runt tidsserieanalys
Exempel på uppgift ni förväntas kunna lösa (Övningstentan, uppgift 5)
Nedanstående diagram visar kvartalsvisa försäljningsvärden 1985–1994 hos ett företag, somsäljer vintersportartiklar.
Man har gjort en analys med Minitab och bl a fått följande resultat:
Time Series Decomposition
Data salesLength 40.0000NMissing 0 Trend Line Equation
Yt = 199.017 + 2.55586*t
Seasonal Indices Period Index
1 15.1719 2 -12.7031 3 -14.7031 4 12.2344
Accuracy of Model
MAPE: 2.1958 MAD: 5.2962 MSD: 46.0583
a) Vilken av följande tolkningar rörande de skattade säsongkomponenterna är korrekt?
(i) Försäljningen i första kvartalet är i genomsnitt c:a 15 enheter högre än trendnivån.(ii) Försäljningen i första kvartalet är i genomsnitt c:a 15% högre än trendnivån.(iii) Försäljningen under april-september ligger i genomsnitt drygt 13% under årsgenomsnittet.(iv) Försäljningen i fjärde kvartalet ligger i genomsnitt c:a 3% under försäljningen idet första kvartalet.(v) Försäljningen i fjärde kvartalet ligger i genomsnitt c:a 12 enheter över genomsnittetunder perioden 1985–1994.(vi) Försäljningen i fjärde kvartalet ligger i genomsnitt c:a 12 procent över genomsnittetunder perioden 1985–1994. (0.5p)
Seasonal Indices Period Index
1 15.1719 2 -12.7031 3 -14.7031 4 12.2344
Den modell som anpassats är additiv. Detta syns på att säsongskomponenterna varierar runt 0.Säsongskomponenterna skall därför tolkas som avvikelser i enheter och inte i %.Vidare tolkas alltid säsongskomponenter som avvikelse från trendnivån i en komponentupp-delningsmodell.
Alternativ (i) är korrekt, övriga är felaktiga.
b) Beräkna prognoser av försäljningsvärdena för kvartal 1 och 2 år 1995. (1p)
Använd skattad trendfunktion och säsongskomponent för respektive kvartal.Tidpunkterna som de två kvartalen motsvarar är 41 och 42. Detta kan inses direkt från utskriften (man behöver inte räkna alla kvartal från 1985 till 1994)
Time Series Decomposition
Data salesLength 40.0000NMissing 0 Trend Line Equation
Yt = 199.017 + 2.55586*t
Seasonal Indices Period Index
1 15.1719 2 -12.7031 3 -14.7031 4 12.2344
Prognoserna blir
Kvartal 1, 1995:
Kvartal 2, 1995:
0.3191719.154155586.2017.199ˆ41 y
7.2937031.124255586.2017.199ˆ41 y
Svarsalternativen i facit är följande:
1. 319.0, 293.72. 303.8, 306.43. 349.9, 267.44. 316.7, 291.45. 242.3, 214.46. 261.6, 198.3
Alternativ 1 är det korrekta.
Alternativ 2 fås om man glömmer säsongskomponenternaAlternativ 3 fås om man tror att säsongskomponenterna är i % och alltså multiplicerar trendskattningen med 1.151719 resp. med (1 – 0.127031)
Övriga alternativ är mer långsökta.
c) Vilket av följande påståenden är sant?
(i) Diagrammet med rubrik “Seasonally Adjusted Data” i figur 3 innehåller enbartinformation om trend- och slumpkomponent(ii) I diagrammet med rubrik “Seasonally Adj. and Detrended Data” i figur 3 kan manse om det kan finnas någon cyklisk variation i data.(iii) I diagrammet med rubrik “Detrended Data” i figur 3 finns enbart information omsäsongkomponent.(iv) Diagrammet (och dess bakomliggande värden) med rubrik “Seasonally AdjustedData” i figur 3 är det som används för att beräkna prognoser av framtida värden.(v) Diagrammet med rubrik “Seasonally Adj. and Detrended Data” i figur 3 visarpå en svagt nedåtgående trend i originaldata, som är dold av säsongsvariationen idiagrammet över originaldata.(vi) Inget av diagrammen i figur 3 ger någon information om slumpkomponenten.
(0.5p)
Alternativ (ii) är sant.Alternativ (i) stämmer inte då man aldrig kan bortse från cyklisk variation.Alternativ (iii) stämmer inte då information om såväl cyklisk som oregelbunden komponent finns där.Alternativ(iv) är nonsens.Alternativ (v) är inte korrekt eftersom såväl säsong som trend är bortrensadAlternativ (vi) stämmer inte. Information om denna finns i alla diagram.