732G71 STATISTIK B Vad förväntas man egentligen kunna efter genomgången kurs? Exempel :

732G71 STATISTIK B

Vad förväntas man egentligen kunna efter genomgången kurs?

Exempel:

Du sitter i ett projektmöte på din arbetsplats. Din chef (om det inte är du) är något upprörd över att en ny amerikansk studie påstås visa att försäljningsresultat kan förbättras om lager är spridda geografiskt än om de är samlade till ett fåtal ställen.

Inom företaget har man på senare år arbetat enligt det motsatta förhållandet.

Chefen säger till dig: Du är ju en relativt nyutbildad ekonom. Har du inte läst statistik?

Ditt svar blir förstås: Javisst! (även om du inombords blir en aning panikslagen)

Chefen: Då så! Du kan väl ta och kolla upp den där studien. Jag är ganska säker på att det är trams det mesta, men för säkerhets skull…

Saxat ur “den amerikanska studien”:

…The slopes are clearly significant, which tells us that it seems reasonable to assume that the covariates have a clear impact on the sales, especially when we have removed the units that were supposed to induce undesired intra-relationships between the predictors. The interpretation of the final model is that the mean result increases with approximately 2% per storage unit with a 99% error margin of 0.7%. There is some intra-annual variation, that might affect the predictions, especially in summer months…

Ovanstående innehåller komponenter som alla har tagits upp på ett eller annat sätt i kursen.

Vad borde du kunna göra i detta fall?

1. Naturligtvis läsa, förstå och kunna återge innehållet i den amerikanska studien.

2. Validera resultaten mot data ni har i ert eget företag, dvs. försöka upprepa vad amerikanerna har gjort men med egna data.

3. Kritiskt ifrågasätta sådant som är tveksamt i studien

• Skall man verkligen ta bort observationer när de ger upphov till multikolinjäritetsproblem?

• Skall man blanda rena regressionsmodeller med tidsseriemodeller innehållande säsongsmodellering?

• Finns det problem med modellantagandena?

4. Återföra till “chefen” och endera bekräfta eller motbevisa hans uppfattning om att det mesta är “trams”

Den enkla linjära regressionen

Ni skall kunna “för hand” räkna fram parameterskattningar, konfidensintervall, prognosintervall, korrelationskoefficienter, förklaringsgrader etc.

− Varför skall vi kunna göra detta för hand när det i praktiken alltid görs med datorprogram?

− Handräkningen visar att man förstår vad de olika komponenterna i en modell “står för”. Vad som är y, vad som är x, vad det är man

skattar och vad det t.ex. är för skillnad på konfidens- och prognosintervall.

Vidare är den enkla linjära regression grund för att även kunna räkna på enkla exponentiella modeller och elasticitetsmodeller. “Omsättning av formler” är nyttig att göra för att inte bli låst till att allt måste heta y och x.

Exempel på uppgift ni förväntas kunna lösa (Övningstentan, uppgift 1)

I en omfattande studie har man undersökt ett urval om 10 koncerner med avseende pä deras

affärsstrategier. I studien ställer man bl.a. frågor om graden av miljöinriktad affärsstrategi

och frågorna ställs dels till en ansvarig person i koncernledningen, dels till en ansvarig person i den viktigaste affärsenheten i koncernen. En av de frågor som ställs är den övergripande (här i något förenklad form):

Vilken grad av miljöinriktning bedömer du att ni har i er strategi?

Låg O O O O O O O O O Hög

Svarsskalan brukar kallas Likert-skala och är sådan att svarsstegen kan antas ligga lika långt

från varandra (en s.k. intervallskala). Detta möjliggör användande av korrelations-koefficienter och regressionsmodeller vid analysarbetet.

De erhållna svaren kodas med talen 1, 2, ..., 9 där 1 används för ett svar längst till vänster i

skalan och 9 för ett svar längst till höger. Med hjälp av de inkomna svaren vill man försöka

hitta ett regressionssamband där ett svar på koncernnivå förklaras av svaret på affärsenhetsnivå.

Följande kodade svar har erhållits:

Koncern (i) Svar på koncernnivå (y) Svar på affärsenhetsnivå (x)

1 5 4

2 2 3

3 4 4

4 7 6

5 1 1

6 1 3

7 2 4

8 6 6

9 3 1

10 8 9

Följande har beräknats:

x2 =221

y2 =209

xy =207

Antag modellen yi = 0 + 1 xi + i ; i = 1, 2, … , 10

a) Vilka antaganden måste göras för 1, 2,…, 10 för att modellen skall kunna analyseras på vanligt sätt? Försök komma på minst en orsak till att något av antaganden inte skulle vara uppfyllt. (1p)

b) Beräkna punktskattningar av parametrarna 0 och 1. (1.5p)

c) Avgör med ett lämpligt test på 5% nivå om det föreligger någon regression mellan y och x. (1.5p)

d) Beräkna den anpassade modellens förklaringsgrad och tolka denna. (1p)

e) Beräkna ett 95% konfidensintervall för det genomsnittliga svaret på koncernnivå för alla koncerner i populationen där svaren på affärsnivå samtliga är 7. (1.5p)

f) Gör en prognos av svaret på koncernnivå för en koncern där svaret på affärsenhetsnivå är 7. Beräkna också ett 99% prognosintervall. (1.5p)

a) De skall ha väntevärde 0, konstant varians, vara oberoende och normalfördelade.

Det som främst inte är självklart är antagandet om normalfördelning, Teoretiskt kan vi inte ha normalfördelade avvikelser eftersom svarsvärdena bara kan vara något av talen 1, 2, …, 9.

Övriga antagande kan förstås också diskuteras men där är det svårare att hitta orsaker, t.ex. skulle det kunna finnas samband mellan olika koncerner som stör oberoendeantagandet.

b) Beräkna punktskattningar…

Använd t.ex. formlerna

I utskriften ges de komplicerade summorna medan x och y får lov att beräknas denna gång:

x = 4 + 3 + 4 + 6 + 1 + 3 + 4 + 6 + 1 + 9 = 41

y = 5 + 2 + 4 + 7 + 1 + 1 + 2 + 6 + 3 + 8 = 39

xbybnxx

nyxxyb

10221 ;

2495.010

318904.0

10

39;8904.0

1041221

103941207021

bb

c) Avgör med ett lämpligt test på 5% nivå om det föreligger någon regression mellan y och x.

Det finns två ekvivalenta sätt att göra detta.

Gemensamt är dock formuleringen av hypoteserna som bör se ut så här:

H0 : 1 = 0 H1 : 1 0

Varför det då? Jo det enda som reglerar regressionen är 1. Om denna är 0 finns ingen regression. Vad 0 är spelar ingen som helst roll!

Testmetod 1: t- test

Testvariabeln beräknas som

Vi behöver beräkna s !

10

22

11

1

x

xs

b

s

bt

b

367.1957.148

12078904.0392495.0209

8

1

2

1

2 102

xybybynn

SSEMSEs

Testvariabelns värde blir nu

Värdet skall nu jämföras med en t-fördelning med n – 2 = 8 frihetsgrader.

Tabellvärdet för 5% nivå (95% konfidensnivå) blir 2.31

Eftersom 2.31 < 4.74 förkastas H0 Signifikant regression föreligger!

Testmetod 2: F-test

Testvariabeln beräknas som

Med våra data blir

Vi jämför med F[0.05](1,8) = 5.32

Eftersom 22.4 > 5.32 kan H0 förkastas

74.4

1041

221367.1

8904.02

t

8/

1/

SSE

SSESST

MSE

MSRF

4.228957.14

1957.149.56

9.56103920910 222

F

yySST

d) Beräkna den anpassade modellen förklaringsgrad och tolka denna

Förklaringsgraden beräknas till

På tentorna ser man ofta att tolkningen glöms bort ( poängavdrag)

Tolkningen är att 73.7% av variationen i y förklaras av x.

e) Beräkna ett 95% konfidensintervall för det genomsnittliga svaret på koncernnivå för alla koncerner i populationen där svaren på affärsnivå samtliga är 7.

Här söker vi alltså ett konfidensintervall för

Formel:

%7.73737.09.56

957.14112

SST

SSE

SST

SSRr

7107| y

n

xx

xx

nstxbb n

22

202

20101

1.8,9.46.15.6

1041

221

10417

10

1367.131.278904.02495.0

digareenligt ti 31.2

digareenligt ti 367.1

7

2

2

8025.0

22

0

tt

s

x

n

f) Gör en prognos av svaret på koncernnivå för en koncern där svaret på affärsenhetsnivå är 7. Beräkna också ett 99% prognosintervall.

Denna uppgift är mycket lika e). Lägg bara till en etta under rottecknet i formeln:

6.11,4.11.55.61041

221

10417

10

11367.136.378904.02495.0

2

2

Notera att den övre gränsen faktiskt ligger utanför det möjliga dataområdet!Glöm inte att specifikt ange att prognosen är 6.5

Den multipla regressionen

Här är det svårare att räkna för hand!

Från datorutskrifter kan ni räkna med att få ut

• parameterskattningar (b0, b1, …, bk )

• medelfel för parameterskattningar ( )

• kvadratsummor (SSR, SSE, SST samt SSR(xk | x1,…,xk – 1 ) dvs. sekventiella kvadratsummor)

• konfidens- och prognosintervall i en given punkt

Vad måste ni själva kunna inse eller beräkna utifrån datorutskriften?

• antal frihetsgrader (framgår ju av formelsamlingen när man vet n )

• medelkvadratsummor, s

• testvariabler

• förklaringsgrader

• omräkning av intervall från 95% till 99% och vice versa

kbbb sss ,,,10

Speciella utskrifter:

• VIF-värden

• Resultat från breg

• Resultat från stepwise

Dessa måste förstås kunna tolkas. Utskrifterna på denna punkt ges dock i sin helhet utan “censurering”.

Exempel på uppgift ni förväntas kunna lösa (Övningstentan, uppgift 2)Vid en bank i Chicago har man för 93 anställda samlat in uppgifter omlön y

antal utbildningsår vid anställning x1

tidigare erfarenhet av bankarbete i månader x2

anställningstid i månader x3

kön x4 = 1 för män och = 0 för kvinnor.

Följande visar ett litet utdrag ur datamaterialet:lön (y) utbildningstid (x1) erfarenhet (x2) anst.tid (x3) kön (x4)3900 12 0.0 1 04020 10 44.0 7 04290 12 5.0 30 04380 8 6.2 7 04380 8 7.5 6 04380 12 0.0 7 04380 12 0.0 10 0......6840 15 41.5 7 16900 12 175.0 10 16900 15 132.0 24 18100 16 54.5 33 1

Man lägger till variabeln x2 · x4 och gör en anpassning av modelleny = 0 + 2 · x2 + 4 · x4 + 5 · x2 · x4 +

Ett utdrag ur en analys med Minitab är följande:

MTB > regress c1 3 c3 c5 c6;SUBC> vif;SUBC> predict 100 0 0.

Regression Analysis: y versus x2, x4, x2*x4

The regression equation isy = 4919 + 2.20 x2 + 1045 x4 - 2.26 x2*x4

Predictor Coef SE Coef T P VIFConstant 4919.2 115.4 * *x2 2.1973 0.8815 * * 1.7x4 1044.5 187.2 * * 2.2x2*x4 -2.264 1.351 * * 2.9

S = 582.2 R-Sq = * R-Sq(adj) = *

Analysis of Variance

Source DF SS MS F PRegression 3 16152852 * * *Residual Error 89 30170439 *Total 92 46323290

Source DF Seq SS

x2 1 1289861

x4 1 13911841

x2*x4 1 951150

...

Predicted Values for New Observations

New Obs Fit SE Fit 95.0% CI 95.0% PI

1 5138.9 74.5 ( 4990.8, 5287.0) ( 3972.6, 6305.2)

Values of Predictors for New Observations

New Obs x2 x4 x2*x4

1 100 0.000000 0.000000

Notera att i denna utskrift har medvetet censurerats bort:

• T-kvoter och P-värden för dessa

• Medelkvadratsummor, F-kvot och P-värde

• R-sq och R-sq(adj)

a) Beräkna

(i) den anpassade modellens justerade förklaringsgrad.

(ii) ett 95% konfidensintervall för 2

(1p)

%7.32327.0

9246323290

89301704391

1

11

2

nSST

knSSER


Source DF SS MS F P

Regression 3 16152852 * * *

Residual Error 89 30170439 *

Total 92 46323290

(i)

(ii)Predictor Coef SE Coef

Constant 4919.2 115.4

x2 2.1973 0.8815

x4 1044.5 187.2

x2*x4 -2.264 1.351

Residual Error 89

73.120.28815.096.11973.2

.normalfördfrån

1.96 Använd tabelli ej finns

derfrihetsgra 89för värden -

8815.01973.2 89025.0

122 2

t

t

stb bkn

Svarsalternativen i facit är följande:

1 (i) 34.9% (ii) 2.20 ± 4.90

2 (i) 32.7% (ii) 1044.5 ± 366.9

3 (i) 65.1% (ii) 1044.5 ± 366.9

4 (i) 34.9% (ii) 1044.5 ± 366.9

5 (i) 34.9% (ii) 2.20 ± 1.73

6 (i) 32.7% (ii) 2.20 ± 1.73

Alternativ 6 är alltså det korrekta. Hur har då de andra alternativen uppstått?

34.9% är förklaringsgraden, men det är alltså den justerade som efterfrågas.

65.1% är 100% – R2 vilket alltså är en felräkning på det som inte efterfrågas

2.20 4.90 uppstår om man får för sig att felmarginalen är kvadraten på s dividerad med roten ur n (93) . Långsökt fel!

1044.5 366.9 är ett K.I. för 4 . Detta kan av slarv uppstå om man fått för sig att koefficienternas index (i detta fall 2) utgår från i vilken ordning variabeln tas in i analysen.

b) Beräkna ett 99% prognosintervall för lönen hos en kvinnlig anställd med 100 månaders

tidigare erfarenhet. (0.5p)

Predicted Values for New Observations

New Obs Fit SE Fit 95.0% CI 95.0% PI

1 5138.9 74.5 ( 4990.8, 5287.0) ( 3972.6, 6305.2)

Values of Predictors for New Observations

New Obs x2 x4 x2*x4

1 100 0.000000 0.000000

Den prognos och de intervall som redovisas i utskriften är just för en kvinna (x4 = 0) med 100 månaders erfarenhet (x2 = 100)

Formel för ett 99% prognosintervall: valueDistance1ˆ 1

005.0 sty kn

22

2.582

5.74Fit S.E. valueDistance

Fit S.E. valueDistance

2.582

9.5138ˆ

s

s

s

y

S = 582.2

I tentan ingående t-tabell omfattar inte frihetsgradstalet 89

Helt OK att använda normalfördelningsvärden istället. (står också i tentan)

99% P.I. ger normalfördelningsvärdet 2.576

6651,36270.15129.5138

2.582

5.7412.582576.29.5138

2


1 (3973,6305)2 (4991,5287)3 (3769,6571)4 (3627,6651)5 (3755,6523)6 (4944,5334)

Alternativ 4 är alltså det som stämmer.

Övriga alternativ:

Alternativ 1 är det 95%-iga prognosintervallet som finns i utskriften

Alternativ 2 är det 95%-iga konfidensintervallet som finns i utskriften

Övriga alternativ är mer långsökta

Man vill testa hypotesen H0 : 4 = 5 = 0 på 5% nivå.

d) Beräkna testfunktionens värde och avgör om nollhypotesen skall förkastas eller ej. (1p)

Här skall vi alltså göra ett partiellt F-test.


Source DF SS

Regression 3 16152852

Residual Error 89 30170439

Total 92 46323290

Source DF Seq SS

x2 1 1289861

x4 1 13911841

x2*x4 1 951150

9.21

8930170439

1-395115013911841

1

,|| 424224

knSSE

gkxxxxSSRxxSSRF

Jämför med F[0.05](2,89). Tabellen har dock inga frihetsgrader mellan

80 och 100, men värdena sjunker med ökad frihetsgrad.

F[0.05](2,89). < F[0.05]

(2,80) = 3.11 < 21.92 H0 förkastas


1 Testfunktionens värde=0.53, H0 förkastas ej



4 Testfunktionens värde=15.88, H0 förkastas



Alternativ 5 är alltså det korrekta.

Alternativ 1 uppstår om man försöker räkna ut testvariabeln för det “vanliga” F-testet men tar SSR/SSE istället för MSR/MSE.

Alternativ 2 uppstår om man tar SSR(x2) istället för SSR(x4|x2)+SSR(x2x4|x2,x4) i täljaren till testvariabeln

Alternativ 3 och 4 ger teststorheten för det vanliga F-testet med olika slutsatser.

Alternativ 6 är mer långsökt

e) Vilket av följande uttalanden om multikolinjäritetsproblem är inte korrekt?

(i) Tecknen på de skattade lutningsparametrarna kan bli orealistiska om problem finns

med multikolinjäritet.

(ii) Man bör definitivt ta bort två av förklaringsvariablerna i modellen för att undvika svåra problem med multikolinjäritet.

(iii) Variabeln x2·x4 förklaras till (1− 1/2.9 )·100% 65.5% av de andra två förklaringsvariablerna.

(iv) VIF–värdena ger information om huruvida en förklaringsvariabel har multipel korrelation med de övriga förklaringsvariablerna.

(v) Inget av VIF-värdena är över 10, vilket tyder på måttliga problem med multikolinjäritet.

(0.5p)Predictor Coef SE Coef VIF

Constant 4919.2 115.4

x2 2.1973 0.8815 1.7

x4 1044.5 187.2 2.2

x2*x4 -2.264 1.351 2.9

Alternativ (ii) är inte korrekt. Det finns inga svåra problem med multikolinjäritet här då VIF-värdena är långt under 10.

Alternativ (iii) är helt korrekt även om det kan låta komplicerat. VIF värdet 2.9 är = 1/(1-R2

3) där R23 är förklaringsgraden i en modell där x2x4 förklaras av x2 och x4

Nedan följer ytterligare en analys med samtliga x-variabler inblandade:

MTB > breg c1 c2-c6

Best Subsets Regression: y versus x1, x2, x3, x4, x2*x4

Response is y

x

2

*

x x x x x

Vars R-Sq R-Sq(adj) C-p S 1 2 3 4 4

1 30.3 29.6 36.2 595.57 X

1 17.0 16.1 60.2 650.11 X

2 42.0 40.7 17.3 546.52 X X

2 36.3 34.9 27.4 572.44 X X

3 48.5 46.8 7.5 517.75 X X X

3 43.7 41.8 16.1 541.32 X X X

4 51.1 48.9 4.9 507.42 X X X X

4 48.8 46.4 9.0 519.30 X X X X

5 51.6 48.8 6.0 507.79 X X X X X

f) Vilket av följande påståenden stämmer bäst beträffande val av modell?

(i) Modellen med fem förklaringsvariabler är bäst eftersom den har högst förklaringsgrad.

(ii) Modellen med x1, x2, x3 och x4 bör väljas eftersom dess C–värde är i paritet med

vad det bör vara.

(iii) Modellen med fem förklaringsvariabler bäst eftersom R2, R2 och s2 samtidigt får

gynnsamma värden.

(iv) Modellen med x1 bör väljas p g a att den har högst värde på C.

(v) Modellen med x1, x3 och x4 är bäst eftersom dess C–värde är närmast 2 · k + 1.

(1p)

Alternativ (ii) stämmer bäst. C =4.9 som är det lägsta värdet och samtidigt lägre än antal variabler (4) + 1

Alternativ (i) stämmer inte eftersom förklaringsgraden alltid ökar med antalet variabler.

Alternativ (iii) stämmer inte bra. Värdena skall inte vara ”gynnsamma” utan kriterierna skall användas (högst justerad förklaringsgrad eller lägsta godkända värde på C)

Alternativ (iv) är tvärt emot vad kriterierna säger

Alternativ (v) är nonsens. Sådana kriterier finns inte.

Indexen

Beräkning av index brukar ofta upplevas som “jobbigt”!

Det finns inga genvägar utan det gäller att behärska formlerna och inse vad man gör.


Ett företag säljer golv och färg. Man vill beräkna ett prisindex som speglar företagets prisutveckling på kort sikt och väljer därför ut representantvaror för de två varugrupperna.

Följande data har sammanställts:

År Varugrupp

Golv Färg

Totalt Pris, representantvara Totalt Pris, representantvara

försäljningsvärde försäljningsvärde

2003 350 92 280 140

2004 380 95 300 140

2005 340 97 300 145

Beräkna ett sammansatt kedjeprisindex av Laspeyre-typ för företagets priser. Ange indexv ärdena för 2003, 2004 och 2005. (1p)

6.1040275.10181.1100

8.1010181.1100

100

n)den tenta i saknadesonen (instrukti 2003basår Med

0275.1300380

300

140

145

300380

380

95

97

0181.1280350

280

140

140

280350

350

92

95

2005

2004

2003

2005,2004

2004,2003

I

I

I

L

L


(a) 100.0, 105.0, 106.1

(b) 100.0, 101.5, 104.4

(c) 100.0, 101.8, 104.6

(d) 100.0, 101.8, 102.8

(e) 100.0, 105.0, 101.1

(f) 100.0, 101.5, 102.9

Alternativ (c) är det korrekta.

Övriga alternativ uppstår om man blandar ihop vad som är försäljningsvärden och priser, om man använder länkarna som index etc.

Avrundningsfel kan inte ge ett av de andra svarsalternativen. Sådant kollas alltid noggrant när alternativen skapas!

Elasticitetsmodellerna och de exponentiella modellerna

“Knäcknöten” är logaritmerandet.

I elasticitetsmodellerna står förklaringsvariabeln/variablerna i basen/baserna och parametern/parametrarna i exponenten/exponenterna

(som tidigare används 10-logaritmen lg här för att inte komplicera saker och ting):

Modell i originalskala Logaritmerad modell

G

Ip

I

p

GW

IPAQ

IAQ

PAQ

xy

EE

E

E

10

lglglglg

lglglglglg

lglglglg

lglglglg

lglglglg 10

GW

IEPEAQ

IEAQ

PEAQ

xy

G

IP

I

p

Räknande “för hand” kan bara göras i modeller med en förklaringsvariabel

Då kan allt användas från enkel linjär regression

Exempel

Modellen analyseras genom att tillämpa enkel linjär regression på det logaritmerade sambandet

I formlerna ersätts därför y med log y och x med log x.

I den logaritmerade modellen ingår 1 på samma sätt som i en enkel regression, dvs. framför det som utgör x-variabel

10 xy

lglglglg 10 xy

22

2211

lglg

lglglglg

lglg

lglglglgˆ

xnx

yxnyx

nxx

nyxyxb

0 ingår dock inte på samma sätt som i enkel linjär regression utan i logaritmerad form.

xbyb

xbylglgˆlg

00

10

10 1010ˆ

lglgˆlg


Man har anpassat en modell där efterfrågan, Q av en viss vara förklaras av en prisvariabel, P. Såväl Q som P har justerats för inflationseffekter. Modellen är följande:

där EP är priselasticiteten och är en slumpvariabel. Nedanstående Minitab-analys hargenomförts:

The regression equation islg(Q) = 4.54 - 1.58 lg(P)

Predictor Coef SE Coef T PConstant 4.5370 0.8814 5.15 0.000lg(P) -1.5764 0.4355 -3.62 0.002

S = 0.0166237 R-Sq = 42.1% R-Sq(adj) = 38.9%


Source DF SS MS F PRegression 1 0.0036214 0.0036214 13.10 0.002Residual Error 18 0.0049743 0.0002763Total 19 0.0085957Testa på 5% nivå H0 : EP −1 mot H1 : EP > −1. Ange teststorhetens värde samt om H0

förkastas eller ej.

PEPAQ

Den logaritmerade modellen som analyserats är

Det innebär att det skattade värdet (b1) i utskriften, dvs. –1.5764 är skattningen av EP (alltså inte något logaritmerat värde).Däremot går det inte att använda den beräknade T-kvoten i utskriften, för den gäller ju ett test av hypotesen H0 : EP = 0 och det är inte den hypotesen vi testar.

Den testvariabel vi behöver för att testa H0 : EP −1 mot H1 : EP > −1 beräknas som

lglglglg PEAQ P

2lglg

2

)1(ˆ

PP

nSSE

Et

i

p Jfr. Formelsamlingen, sid. VI. B är i detta fall = –1.(Där skrivs ”log” istället för ”lg” men det har ingen betydelse.)

32.1

4355.0

15764.1

t

Här behöver vi dock inte manuellt beräkna nämnaren. Den fås ur utskriften under kolumnen ”SE Coef”. Notera att denna inte påverkas av vilket B som sätts in i formeln!

Predictor Coef SE CoefConstant 4.5370 0.8814 lg(P) -1.5764 0.4355

Frihetsgraderna är 18 och testet är enkelsidigt. Tabellvärdet blir därför 1.73 (kolumnen 0.90 i tabellen)–1.32 > –1.73 H0 förkastas ej!


1. Testvariabelns värde= –3.62, H0 förkastas ej2. Testvariabelns värde=5.15, H0 förkastas ej3. Testvariabelns värde= – 1.32, H0 förkastas ej 4. Testvariabelns värde=6.28, H0 förkastas 5. Testvariabelns värde= – 3.62, H0 förkastas 6. Testvariabelns värde=13.10, H0 förkastas

Alternativ 3 är alltså det korrekta.

Värdet –3.62 är T-kvoten i utskriften, som alltså inte är korrekt att använda.Övriga värden är mer långsökta.Värdet 5.15 är T-kvoten i utskriften för konstanten, som inte har med detta att göra.

Övriga alternativ är mer långsökta.

I de exponentiella modellerna står parametern/parametrarna i basen/baserna och förklaringsvariabeln/variablerna i exponenten/exponenterna.

Modell i originalskala Logaritmerad modell

loglg

lglglg

lglglglg

lg1lglglg1

lglglglg

110210

00

1010

21

kk

xk

xx

tttt

t

t

x

x

xyy

tyy

trCvrCv

xyy

k

Räknande “för hand” kan bara göras i modeller med en förklaringsvariabel

Då kan allt användas från enkel linjär regression

Exempel

Modellen analyseras genom att tillämpa enkel linjär regression på det logaritmerade sambandet:

I formlerna ersätts därför y med log y men x logaritmeras inte.

I det logaritmerade sambandet ingår parametrarna 0 och 1 i logaritmerad form.

xy 10

lglglglg 10 xy

10 lgˆlg1122

2211

1010ˆlglg

lglglgˆlg

bbxnx

yxnyx

nxx

nyxyxb

xbyb

xby

10 lglgˆlg

00

10

1010ˆ

lglgˆlg

Exempel på uppgift om exponentiella modeller ni förväntas kunna lösa (ej ingående i övningstentan)

4. Ett okänt belopp placerades för länge sedan i en intressant fond och har behållits i denna.

För att skatta avkastningen på fonden mellan åren 1990 och 2004 införsen parameter, r och man antar att modellen

vt = v0 · (1 + r) t−1989t

Gäller, där vt är värdet år t, v0 är det förväntade värdet år 1989 och t är en slumpstörning sådan att lg är N(0, ).

För befintliga data över värdena de aktuella åren har följande analyser gjorts i Minitab.

Regression Analysis: v versus (t-1989)

The regression equation is

v = 167 + 21.5 (t-1989)

Predictor Coef SE Coef T P

Constant 167.15 18.43 9.07 0.000

(t-1989) 21.497 2.027 10.61 0.000

S = 33.91 R-Sq = 89.6% R-Sq(adj) = 88.8%

Regression Analysis: v versus lg(t-1989)


v = 133 + 255 lg(t-1989)


Constant 133.00 37.68 3.53 0.004

lg(t-1989) 255.18 43.21 5.90 0.000

S = 54.91 R-Sq = 72.8% R-Sq(adj) = 70.8%

Regression Analysis: lg(v) versus (t-1989)


lg(v) = 2.29 + 0.0276 (t-1989)


Constant 2.29163 0.01823 125.72 0.000

(t-1989) 0.027639 0.002005 13.79 0.000

S = 0.03355 R-Sq = 93.6% R-Sq(adj) = 93.1%

Regression Analysis: lg(v) versus lg(t-1989)


lg(v) = 2.23 + 0.344 lg(t-1989)


Constant 2.23463 0.03666 60.95 0.000

lg(t-1989) 0.34430 0.04205 8.19 0.000

S = 0.05343 R-Sq = 83.8% R-Sq(adj) = 82.5%

Skatta på lämpligt sätt parametern r och testa på 5% nivå H0: r > 0. Svara med det skattade värdet samt om testet är signifikant eller ej. (1p)

Modellen

är en exponentiell modell. Den beroende variabeln är i detta fall vt och förklaringsvariabeln är t eller t – 1989. Att man här har valt att dra bort 1989 är för att få en naturlig koppling till “nollan” i v0 . År 1989 blir här alltså år 0, den tidpunkt som motsvarar grundkapitalet.

För att kunna analysera med regressionsanalys måste vi logaritmera modellen:

I en regressionsanalys skall alltså lg v utgöra y-variabeln och t – 1989 x-variabeln.

Det blir därför den tredje av de fyra Minitab-analyserna som skall användas.

Från den kan vi avläsa

skattad lutningsparameter (dvs. tillfällig b1 ): 0.027639

tt

t rvv 19890 1

tt trvv lg19891lglglg 0

0657.0110ˆ

027639.0)ˆ1lg(027639.0

r

rGenomsnittlig avkastning skattas alltså till c:a 6.6%

För att kunna testa H0: r > 0 krävs att vi omformar hypotesen så att den istället gäller för lg(1+r).

r > 0 blir detsamma som att 1 + r > 1 vilket blir detsamma som att

lg(1+r) > 0.

Vi kan alltså direkt från analysen använda den beräknade t-kvoten (eftersom den just handlar om lg(1+r).

T är 13.79. Vi ser på P-värdet att den är signifikant, men observera att detta P-värde gäller för en dubbelsidig mothypotes, dvs. för hypotesparet

H0: lg(1+r) = 0

Ha: lg(1+r) 0

Vad blir skillnaden med en enkelsidig mothypotes?

1) Kolla först så att själva värdet på T-kvoten är positivt. Det är det i detta fall, men om det skulle ha varit negativt har vi inget bevis för att lg(1+r) är större än noll.

2) Om det dubbelsidiga testet är signifikant så är även det enkelsidiga det (förutsatt att testvariabeln är positiv, vilket den alltså är)

Den här uppgiften är förstås aningen svårare, men räkna med att det kan finnas en och annan “kluring” med.

Felaktiga svarsalternativ på denna uppgift skulle utgöras av svar där man använd resultat från de andra Minitab-anayserna, kombinerade med olika slutsatser om signifikansen.

Tidsserieanalysen

Mycket av detta examineras genom inlämningsuppgiften. Det handlar om att lära sig använda modeller för tidsserieregression och klassisk komponentuppdelning samt exponentiella utjämningsmetoder för prognoser. Själva räknandet görs dock uteslutande med datorns hjälp.

Visst hum om stationaritet och ARMA-modeller ingår också, men ingen kunskap om hur man räknar förutsätts.

För att få den totala examinationen individuell finns en uppgift med på tentan. Den brukar vara värd max. 1.5 poäng.

Denna kan handla om att

• kunna tolka en utskrift från tidsserieregression eller klassisk komponentuppdelning

• kunna tolka en utskrift från enkel eller dubbel exponentiell utjämning eller Winters’ metod

• kunna för hand beräkna en prognos med hjälp av skattade komponenter från en komponentuppdelning

• kunna besvara diverse teorifrågor runt tidsserieanalys


Nedanstående diagram visar kvartalsvisa försäljningsvärden 1985–1994 hos ett företag, somsäljer vintersportartiklar.

Man har gjort en analys med Minitab och bl a fått följande resultat:

Time Series Decomposition

Data salesLength 40.0000NMissing 0 Trend Line Equation

Yt = 199.017 + 2.55586*t

Seasonal Indices Period Index

1 15.1719 2 -12.7031 3 -14.7031 4 12.2344

Accuracy of Model

MAPE: 2.1958 MAD: 5.2962 MSD: 46.0583

a) Vilken av följande tolkningar rörande de skattade säsongkomponenterna är korrekt?

(i) Försäljningen i första kvartalet är i genomsnitt c:a 15 enheter högre än trendnivån.(ii) Försäljningen i första kvartalet är i genomsnitt c:a 15% högre än trendnivån.(iii) Försäljningen under april-september ligger i genomsnitt drygt 13% under årsgenomsnittet.(iv) Försäljningen i fjärde kvartalet ligger i genomsnitt c:a 3% under försäljningen idet första kvartalet.(v) Försäljningen i fjärde kvartalet ligger i genomsnitt c:a 12 enheter över genomsnittetunder perioden 1985–1994.(vi) Försäljningen i fjärde kvartalet ligger i genomsnitt c:a 12 procent över genomsnittetunder perioden 1985–1994. (0.5p)


1 15.1719 2 -12.7031 3 -14.7031 4 12.2344

Den modell som anpassats är additiv. Detta syns på att säsongskomponenterna varierar runt 0.Säsongskomponenterna skall därför tolkas som avvikelser i enheter och inte i %.Vidare tolkas alltid säsongskomponenter som avvikelse från trendnivån i en komponentupp-delningsmodell.

Alternativ (i) är korrekt, övriga är felaktiga.

b) Beräkna prognoser av försäljningsvärdena för kvartal 1 och 2 år 1995. (1p)

Använd skattad trendfunktion och säsongskomponent för respektive kvartal.Tidpunkterna som de två kvartalen motsvarar är 41 och 42. Detta kan inses direkt från utskriften (man behöver inte räkna alla kvartal från 1985 till 1994)

Time Series Decomposition

Data salesLength 40.0000NMissing 0 Trend Line Equation

Yt = 199.017 + 2.55586*t


1 15.1719 2 -12.7031 3 -14.7031 4 12.2344

Prognoserna blir

Kvartal 1, 1995:

Kvartal 2, 1995:

0.3191719.154155586.2017.199ˆ41 y

7.2937031.124255586.2017.199ˆ41 y


1. 319.0, 293.72. 303.8, 306.43. 349.9, 267.44. 316.7, 291.45. 242.3, 214.46. 261.6, 198.3

Alternativ 1 är det korrekta.

Alternativ 2 fås om man glömmer säsongskomponenternaAlternativ 3 fås om man tror att säsongskomponenterna är i % och alltså multiplicerar trendskattningen med 1.151719 resp. med (1 – 0.127031)

Övriga alternativ är mer långsökta.

c) Vilket av följande påståenden är sant?

(i) Diagrammet med rubrik “Seasonally Adjusted Data” i figur 3 innehåller enbartinformation om trend- och slumpkomponent(ii) I diagrammet med rubrik “Seasonally Adj. and Detrended Data” i figur 3 kan manse om det kan finnas någon cyklisk variation i data.(iii) I diagrammet med rubrik “Detrended Data” i figur 3 finns enbart information omsäsongkomponent.(iv) Diagrammet (och dess bakomliggande värden) med rubrik “Seasonally AdjustedData” i figur 3 är det som används för att beräkna prognoser av framtida värden.(v) Diagrammet med rubrik “Seasonally Adj. and Detrended Data” i figur 3 visarpå en svagt nedåtgående trend i originaldata, som är dold av säsongsvariationen idiagrammet över originaldata.(vi) Inget av diagrammen i figur 3 ger någon information om slumpkomponenten.

(0.5p)

Alternativ (ii) är sant.Alternativ (i) stämmer inte då man aldrig kan bortse från cyklisk variation.Alternativ (iii) stämmer inte då information om såväl cyklisk som oregelbunden komponent finns där.Alternativ(iv) är nonsens.Alternativ (v) är inte korrekt eftersom såväl säsong som trend är bortrensadAlternativ (vi) stämmer inte. Information om denna finns i alla diagram.

Documents

732G71 STATISTIK B Vad förväntas man egentligen kunna efter genomgången kurs? Exempel :