59
Multikolinjäritet: Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper. Trots att COST verkade ha ett tydligt positivt samband med var och en av variablerna PAPER, MACHINE, OVERHEAD och LABOR blev endast de två första signifikanta. ????? Kan det vara så att förklaringsvariablerna ”överlappar” varandra när det gäller att förklara kostnaden?

Multikolinjäritet: Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper

  • Upload
    neron

  • View
    34

  • Download
    0

Embed Size (px)

DESCRIPTION

Multikolinjäritet: Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper. Trots att COST verkade ha ett tydligt positivt samband med var och en av variablerna PAPER, MACHINE, OVERHEAD och LABOR blev endast de två första signifikanta. ????? - PowerPoint PPT Presentation

Citation preview

Page 1: Multikolinjäritet: Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper

Multikolinjäritet:

Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper.

Trots att COST verkade ha ett tydligt positivt samband med var och en av variablerna PAPER, MACHINE, OVERHEAD och LABOR blev endast de två första signifikanta.

?????

Kan det vara så att förklaringsvariablerna ”överlappar” varandra när det gäller att förklara kostnaden?

Page 2: Multikolinjäritet: Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper

Vi plottar förklaringsvariablerna mot varandra:

GraphMatrix Plot…

Page 3: Multikolinjäritet: Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper

Tydligt samband mellan alla par av förklaringsvariabler.

PAPER

400300200 8006004001000

750

500

400

300

200

MACHINE

OVERHEAD

200

150

100

1000750500

800

600

400

200150100

LABOR

Matrix Plot of PAPER; MACHINE; OVERHEAD; LABOR

Page 4: Multikolinjäritet: Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper

Vi kan också beräkna parvisa korrelationskoefficienter mellan förklaringsvariabler:MTB > corr c2-c5

Correlations: PAPER; MACHINE; OVERHEAD; LABOR

PAPER MACHINE OVERHEAD

MACHINE 0.989

0.000

OVERHEAD 0.978 0.994

0.000 0.000

LABOR 0.933 0.945 0.938

0.000 0.000 0.000

Cell Contents: Pearson correlation

P-Value

och vi ser att samtliga korrelationer ligger mycket nära 1.

Page 5: Multikolinjäritet: Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper

Om korrelationen är hög (över 0.9) mellan två förklaringsvariabler blir modellen svår att analysera:

• konstiga värden på parameterskattningar ( t ex negativa lutningsparametrar där sambandet skall vara positivt)

• låga t-kvoter, dvs. svårt att påvisa signifikans för enskilda förklaringsvariabler.

• konstiga modeller (”självklara” förklaringsvariabler blir inte av betydelse i modellen)

Orsaken är att det är svårt i en anpassad modell att separera vad i varje förklaringsvariabel som främst förklarar variationen i y.

Page 6: Multikolinjäritet: Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper

Problemet har kommit att kallas multikolinjäritet

Dock kan det räcka med namnet kolinjäritet, eller ännu hellre samlinjäritet.

Vad det handlar om är att en förklaringsvariabel är nära linjärt beroende av en eller flera (därav multi) av de andra förklaringsvariablerna

Hur upptäcker man och hur åtgärdar man detta?

Metod 1:

• Beräkna korrelationskoefficienterna mellan samtliga par av variabler, dvs. även med y.

• Om två eller flera av förklaringsvariablerna har höga korrelationer med varandra, uteslut alla av dessa utom den som har högst korrelation med y.

Page 7: Multikolinjäritet: Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper

I exemplet beräknar viMTB > corr c1-c5

Correlations: COST, PAPER, MACHINE, OVERHEAD, LABOR

COST PAPER MACHINE OVERHEAD

PAPER 0.996

0.000

MACHINE 0.997 0.989

0.000 0.000

OVERHEAD 0.989 0.978 0.994

0.000 0.000 0.000

LABOR 0.938 0.933 0.945 0.938

0.000 0.000 0.000 0.000

Cell Contents: Pearson correlation

P-Value

Alla korrelationer är högre än 0.9. MACHINE har högst korrelation med COST och bör då vara den variabel som väljs.

(Dock är PAPER en mycket nära kandidat här.)

Page 8: Multikolinjäritet: Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper

Metod 2:

Om det föreligger starka samband mellan en förklaringsvariabel och en eller flera av de övriga förklaringsvariablerna kan man tänka sig en modell där den första förklaras av de andra.

T ex om x1 har starka samband med variablerna x2, x3, x4 blir en modell:

x1 = 0 1 x2 2 x3 3 x4

Om denna modell anpassas erhålls en förklaringsgrad R12 , som anger hur

stor del av den totala variationen i x1 som förklaras av de övriga x-variablerna.

Är R12 stor borde man kunna utesluta x1 ur modellen för y

Page 9: Multikolinjäritet: Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper

Den s k Variance Inflation Factor , VIF, för variabeln x1 definieras som

Och vi ser att för ett stort värde hos R12 blir också VIF1 stor.

VIF kan som lägst bli 1 vilket inträffar då R12=0.

Om R12=1 blir VIF oändligt stor, men detta inträffar i princip inte.

Vi anpassar modellen

x1 = 0 1 x2 2 x3 3 x4

med Minitab:

21

1 11R

VIF

Page 10: Multikolinjäritet: Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper

MTB > regress c2 3 c3-c5

Regression Analysis: PAPER versus MACHINE, OVERHEAD, LABOR

The regression equation is

PAPER = 112 + 2.92 MACHINE - 1.66 OVERHEAD - 0.0186 LABOR

Predictor Coef SE Coef T P

Constant 112.03 29.60 3.79 0.001

MACHINE 2.9162 0.5333 5.47 0.000

OVERHEAD -1.6589 0.8440 -1.97 0.062

LABOR -0.01863 0.06990 -0.27 0.792

S = 19.24 R-Sq = 98.2% R-Sq(adj) = 98.0%

Analysis of Variance

Source DF SS MS F P

Regression 3 463679 154560 417.47 0.000

Residual Error 23 8515 370

Total 26 472194

56.55982.01

11

VIF

Page 11: Multikolinjäritet: Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper

VIF finns förstås definierad för varje ingående x-variabel som

där Rj2 = förklaringsgraden i en anpassad modell där xj förklaras av

övriga x-variabler.

Om det största av dessa VIF-värden är större än 10 eller om medelvärdet av samtliga VIF-värden är betydligt större än 1 anser man att det föreligger problem med (multi)kolinjäritet.

VIF-värden kan fås automatiskt i Minitab-utskriften:

211

jj R

VIF

Page 12: Multikolinjäritet: Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper

MTB > regress c1 4 c2-c5;

SUBC> vif.

Regression Analysis: COST versus PAPER, MACHINE, OVERHEAD, LABOR

The regression equation is

COST = 51.7 + 0.948 PAPER + 2.47 MACHINE + 0.048 OVERHEAD - 0.0506 LABOR

Predictor Coef SE Coef T P VIF

Constant 51.72 21.70 2.38 0.026

PAPER 0.9479 0.1200 7.90 0.000 55.5

MACHINE 2.4710 0.4656 5.31 0.000 228.9

OVERHEAD 0.0483 0.5250 0.09 0.927 104.1

LABOR -0.05058 0.04030 -1.26 0.223 9.3

S = 11.08 R-Sq = 99.9% R-Sq(adj) = 99.9%

Vi ser att det råder stora problem med (multi)kolinjäritet här!

Page 13: Multikolinjäritet: Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper

I Datorövning 2 fick vi litet konstiga resultat när vi försökte undersöka totalvärdets beroende av tomtyta med uppdelning på fastigheter med och utan garage:

Regression Analysis: Total$ versus Acreage, Garage, Acr*Gar

The regression equation is

Total$ = 135344 + 1572 Acreage - 8766 Garage + 40871 Acr*Gar

79 cases used 2 cases contain missing values

Predictor Coef SE Coef T P VIF

Constant 135344 35705 3.79 0.000

Acreage 1572 18208 0.09 0.931 11.1

Garage -8766 37622 -0.23 0.816 2.8

Acr*Gar 40871 19091 2.14 0.036 12.8

Den enda term som blir signifikant är samspelstermen, vilket känns konstigt, men vi ser höga VIF-värden för Acreage och Acr*Gar.

Förmodligen är det så att Garage finns i betydligt högre utsträckning på större tomter och då blir Acreage och Acr*Gar väl mycket korrelerade.

Page 14: Multikolinjäritet: Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper

Är (multi)kolinjäritet alltid ett bekymmer?

• När den anpassade modellen skall användas för att förklara variation och samband skall kolinjäritet undvikas. Tolkningarna blir annars lätt missvisande.

• När den anpassade modellen skall användas för prognoser i nya punkter är bekymret mindre eftersom anpassningen görs så att ingående x-variabler kopplar till värdet hos y så bra som möjligt.

Page 15: Multikolinjäritet: Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper

Val mellan olika modeller – Modellbygge:

Vi illustrerar med följande datamaterial:

Ett företag undersöker 25 säljdistrikt med avseende på försäljning. Man vill försöka förklara försäljningen (SALES) i volymenheter, dvs y med följande variabler:

• x1 (TIME) = den tid (i månader) som säljaren (i distriktet) har varit anställd.

• x2 (POTENT) = total industriförsäljningens volym i distriktet

• x3 (ADV) = annonskostnader (i dollar)

• x4 (SHARE) = företagets genomsnittliga marknadsandel i distriktet (de senaste 4 åren)

• x5 (SHARECHG) = förändringen i marknadsandel i distriktet jämfört med perioden innan de senaste fyra åren.

• x6 (ACCTS) = antal kontrakt som säljaren arbetat med

• x7 (WORKLOAD) = faktor för arbetsbelastningen hos säljaren

• x8 (RATING) = bedömningsmått på säljaren satt av av försäljningsansvarig

Page 16: Multikolinjäritet: Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper

SALES TIME POTENT ADV SHARE SHARE- ACCTS WORK- RATING

CHG LOAD

3669.88 43.10 74065.1 4582.9 2.51 0.34 74.86 15.05 4.9

3473.95 108.13 58117.3 5539.8 5.51 0.15 107.32 19.97 5.1

2295.10 13.82 21118.5 2950.4 10.91 -0.72 96.75 17.34 2.9

4675.56 186.18 68521.3 2243.1 8.27 0.17 195.12 13.40 3.4

6125.96 161.79 57805.1 7747.1 9.15 0.50 180.44 17.64 4.6

2134.94 8.94 37806.9 402.4 5.51 0.15 104.88 16.22 4.5

5031.66 365.04 50935.3 3140.6 8.54 0.55 256.10 18.80 4.6

3367.45 220.32 35602.1 2086.2 7.07 -0.49 126.83 19.86 2.3

… … … … … … … … …

2799.97 21.14 22809.5 3552.0 9.14 -0.74 88.62 24.96 3.9

Page 17: Multikolinjäritet: Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper

Hur väljer man vilken av ett antal anpassade modeller som är ”bäst”?

1) Studera varje modell för sig: Är alla förklaringsvariabler av betydelse? Är residualerna bra?

2) Förklaringsgrader:

Eftersom R2 ökar för varje ny variabel som läggs till blir inte detta mått rättvist när man jämför olika modeller.

Justerad förklaringsgrad:

Måttet tar hänsyn till antal variabler, som ingår i modellen.

Notera att R2 kan skrivas som 1– (SSE/SST ), så analogi finns med detta mått.

SST

SSE

kn

n

nSST

knSSER

1

11

)1/(

)1/(1

2

Page 18: Multikolinjäritet: Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper

Exempel:

I materialet anpassar vi modellerna:

y=0 1 x1 2 x2 3 x3 4 x4 5 x5 + 6 x6 (1)

y=0 1 x1 2 x2 3 x3 4 x4 + 5 x5 + 6 x6 7 x7 8 x8 + (2)

Page 19: Multikolinjäritet: Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper

MTB > regress c1 6 c2-c7

Regression Analysis: SALES versus TIME, POTENT, ...

The regression equation is

SALES = - 1165 + 2.27 TIME + 0.0383 POTENT + 0.141 ADV + 222 SHARE

+ 285 SHARECHG + 4.38 ACCTS

Predictor Coef SE Coef T P

Constant -1165.5 420.4 -2.77 0.013

TIME 2.269 1.699 1.34 0.198

POTENT 0.038278 0.007547 5.07 0.000

ADV 0.14067 0.03839 3.66 0.002

SHARE 221.60 50.58 4.38 0.000

SHARECHG 285.1 160.6 1.78 0.093

ACCTS 4.378 3.999 1.09 0.288

S = 428.0 R-Sq = 92.0% R-Sq(adj) = 89.4% 894.0

920.02

2

R

R

y=0 1 x1 2 x2 3 x3 4 x4 5 x5 + 6 x6

Page 20: Multikolinjäritet: Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper

MTB > regress c1 8 c2-c9

Regression Analysis: SALES versus TIME, POTENT, ...

The regression equation is

SALES = - 1508 + 2.01 TIME + 0.0372 POTENT + 0.151 ADV + 199 SHARE

+ 291 SHARECHG + 5.55 ACCTS + 19.8 WORKLOAD + 8 RATING

Predictor Coef SE Coef T P

Constant -1507.8 778.6 -1.94 0.071

TIME 2.010 1.931 1.04 0.313

POTENT 0.037205 0.008202 4.54 0.000

ADV 0.15099 0.04711 3.21 0.006

SHARE 199.02 67.03 2.97 0.009

SHARECHG 290.9 186.8 1.56 0.139

ACCTS 5.551 4.776 1.16 0.262

WORKLOAD 19.79 33.68 0.59 0.565

RATING 8.2 128.5 0.06 0.950

S = 449.0 R-Sq = 92.2% R-Sq(adj) = 88.3%

883.0

922.02

2

R

R

y=0 1 x1 2 x2 3 x3 4 x4 + 5 x5 + 6 x6 7 x7 8 x8 +

Page 21: Multikolinjäritet: Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper

Enligt den justerade förklaringsgraden är alltså den första modellen bättre.

3) Variansskattning

Den modell som har lägst värde på MSE lyckas ju med att ha så litet slumpvariation som möjligt kvar.

Dock gäller: MSE minskar om och endast om justerad förklaringsgrad ökar.

Jämförelse av MSE (alt. s ) blir ekvivalent med jämförelse av 2R

Modell

y=0 1 x1 2 x2 3 x3 4 x4 5 x5 + 6 x6 0.920 0.894

y=0 1 x1 2 x2 3 x3 4 x4 + 5 x5 + 6 x6 7 x7 8 x8 +

0.922 0.883

2R 2R

Page 22: Multikolinjäritet: Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper

4) Måttet Cp

Cp (eller bara kort C) är en något kryptiskt formulerad storhet som relaterar slumpvariansen i en anpassad modell till slumpvariansen hos den maximala modellen samt till antalet ingående parametrar.

där sp2 är variansskattningen (dvs. MSE) hos den maximala

modellen (den med samtliga tillgängliga x-variabler)

Cp skall helst bli så liten som möjligt, och samtidigt k+1

I annat fall har den anpassade modellen en för stor bias, dvs. ligger snett i förhållande till verkligheten.

))1(2(2

kns

SSEC

pp

Page 23: Multikolinjäritet: Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper

För att beräkna Cp krävs tydligen att såväl den aktuella som den maximala modellen anpassas.

Typisk uppgift för en datorkörning.

Minitab: Kommandot breg kan användas för att ta fram de två bästa modellerna i varje modellstorlek, baserat på de största R2-värdena.

Alltså, man jämför alla modeller med en x-variabel och tar ut de två bästa, alla modeller med två x-variabler och tar ut de två bästa etc.

I de maximala modellstorleken finns förstås bara en modell och i denna kan visas att Cp alltid är p+1

Kommandot ger förutom R2-värdena även justerade förklaringsgrader, s och dessutom just Cp

Page 24: Multikolinjäritet: Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper

MTB > breg c1 c2-c9

Best Subsets Regression: SALES versus TIME, POTENT, ...

Response is SALES S W H O P A R R O S R A K A T T H E C L T I E A A C C O I M N D R H T A N Vars R-Sq R-Sq(adj) C-p S E T V E G S D G

1 56.8 55.0 67.6 881.09 X 1 38.8 36.1 104.6 1049.3 X 2 77.5 75.5 27.2 650.39 X X 2 74.6 72.3 33.1 691.11 X X 3 84.9 82.7 14.0 545.52 X X X 3 82.8 80.3 18.4 582.64 X X X 4 90.0 88.1 5.4 453.84 X X X X 4 89.6 87.5 6.4 463.95 X X X X 5 91.5 89.3 4.4 430.23 X X X X X 5 91.2 88.9 5.0 436.75 X X X X X 6 92.0 89.4 5.4 428.00 X X X X X X 6 91.6 88.9 6.1 438.20 X X X X X X 7 92.2 89.0 7.0 435.67 X X X X X X X 7 92.0 88.8 7.3 440.30 X X X X X X X 8 92.2 88.3 9.0 449.03 X X X X X X X X

Cp k+1

Page 25: Multikolinjäritet: Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper

I utskriften ser vi att i de 7 sista modellerna är Cp k+1 (Lägg till en etta i kolumnen ”Vars” ). Enligt ”reglerna” skall vi välja modell så att Cp blir så liten som möjligt.

S W

H O P A R R O S R A K A T T H E C L T I E A A C C O I M N D R H T A N

Vars R-Sq R-Sq(adj) C-p S E T V E G S D G k+14 90.0 88.1 5.4 453.84 X X X X 5

4 89.6 87.5 6.4 463.95 X X X X 5 5 91.5 89.3 4.4 430.23 X X X X X 6 5 91.2 88.9 5.0 436.75 X X X X X 6 6 92.0 89.4 5.4 428.00 X X X X X X 7 6 91.6 88.9 6.1 438.20 X X X X X X 7 7 92.2 89.0 7.0 435.67 X X X X X X X 8 7 92.0 88.8 7.3 440.30 X X X X X X X 8 8 92.2 88.3 9.0 449.03 X X X X X X X X 9

Modellen med TIME, POTENT, ADV, SHARE och SHARECHG skall väljas eftersom denna har lägst värde på Cp med villkoret Cp k+1 bibehållet.

Observera dock: Denna modell har inte det högsta värdet på vare sig förklaringsgrad eller justerad förklaringsgrad (alt. det lägsta värdet på s ).

Page 26: Multikolinjäritet: Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper

5) Mer algoritmiska modellvalsprocedurer:

Framåtvalsprincipen (Forward selection):

1. Välj först den x-variabel som har högst absolut korrelation med y. (Blir också den variabel som i en enkel linjär regressionsmodell ger högst R2 eller lägst SSE.

2. Testa med t- eller F-test om denna variabel blir signifikant

3. Om den blir det, fixera denna variabel i modellen, kalla den x(1). Om inte, stanna utan modell .

4. Anpassa alla modeller med x(1) och ytterligare en x-variabel, välj tillfälligt den modell som har högst R2 (eller lägst SSE)

5. Testa med t-test eller partiellt F-test om den andra x-variabeln blir signifikant.

6. Om den blir det, fixera även denna, kalla den x(2). Om inte, stanna vid modellen med x(1) .

7. Fortsätt på motsvarande sätt tills inga nya signifikanta variabler kan läggas till.

Page 27: Multikolinjäritet: Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper

I ”vårt” datamaterial:MTB > corr c1-c9

Correlations: SALES, TIME, POTENT, ADV, SHARE, SHARECHG, ACCTS, WORKLOAD, RATING

SALES TIME POTENT ADV SHARE SHARECHG ACCTS WORKLOADTIME 0.623 0.001

POTENT 0.598 0.454 0.002 0.023

ADV 0.596 0.249 0.174 0.002 0.230 0.405

SHARE 0.484 0.106 -0.211 0.264 0.014 0.613 0.312 0.201

SHARECHG 0.489 0.251 0.268 0.377 0.085 0.013 0.225 0.195 0.064 0.685

ACCTS 0.754 0.758 0.479 0.200 0.403 0.327 0.000 0.000 0.016 0.338 0.046 0.110

WORKLOAD -0.117 -0.179 -0.259 -0.272 0.349 -0.288 -0.199 0.577 0.391 0.212 0.188 0.087 0.163 0.341

RATING 0.402 0.101 0.359 0.411 -0.024 0.549 0.229 -0.277 0.046 0.631 0.078 0.041 0.911 0.004 0.272 0.180

Page 28: Multikolinjäritet: Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper

MTB > regress c1 1 c7

Regression Analysis: SALES versus ACCTS

The regression equation isSALES = 709 + 21.7 ACCTS

Predictor Coef SE Coef T PConstant 709.3 515.2 1.38 0.182ACCTS 21.722 3.946 5.50 0.000

S = 881.1 R-Sq = 56.8% R-Sq(adj) = 55.0%

ACCTS fixeras alltså i modellen

Nästa steg?

Använd breg med vilken man också kan tvinga in en variabeloch begränsa modellstorleken enligt:

signifikant

Page 29: Multikolinjäritet: Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper

MTB > breg c1 c2-c9;SUBC> include c7;SUBC> best 1;SUBC> nvars 1 1.

Best Subsets Regression: SALES versus TIME, POTENT, ...

Response is SALESThe following variables are included in all models: ACCTS

S W H O P A R R O S R K A T T H E L T I E A A C O I M N D R H A N Vars R-Sq R-Sq(adj) C-p S E T V E G D G

1 77.5 75.5 27.2 650.39 X

Den bästa modellen med ACCTS och ytterligare en variabel är alltså den med ACCTS och ADV.

Tvingar in ACCTS

Visar bara en modell per storleksklass

Visar bara modeller med en variabel fler än de inkluderade (dvs här med max 2 variabler)

Page 30: Multikolinjäritet: Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper

MTB > regr c1 2 c7 c4

Regression Analysis: SALES versus ACCTS, ADV

The regression equation isSALES = 50 + 19.0 ACCTS + 0.227 ADV

Predictor Coef SE Coef T PConstant 50.3 407.6 0.12 0.903ACCTS 19.048 2.973 6.41 0.000ADV 0.22653 0.05039 4.50 0.000

S = 650.4 R-Sq = 77.5% R-Sq(adj) = 75.5%

ADV blir signifikant och fixeras.

Page 31: Multikolinjäritet: Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper

MTB > breg c1 c2-c9;SUBC> include c4 c7;SUBC> best 1;SUBC> nvars 1 1.

Best Subsets Regression: SALES versus TIME, POTENT, ...

Response is SALESThe following variables are included in all models: ADV ACCTS

S W H O P A R R O S R K A T T H E L T I E A C O I M N R H A N Vars R-Sq R-Sq(adj) C-p S E T E G D G

1 82.8 80.3 18.4 582.64 X

Den bästa modellen med ACCTS, ADV och ytterligare en variabel är alltså den med ACCTS, ADV och POTENT.

Page 32: Multikolinjäritet: Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper

MTB > regress c1 3 c7 c4 c3

Regression Analysis: SALES versus ACCTS, ADV, POTENT

The regression equation isSALES = - 327 + 15.6 ACCTS + 0.216 ADV + 0.0219 POTENT

Predictor Coef SE Coef T PConstant -327.2 394.4 -0.83 0.416ACCTS 15.554 2.999 5.19 0.000ADV 0.21607 0.04533 4.77 0.000POTENT 0.021922 0.008656 2.53 0.019

S = 582.6 R-Sq = 82.8% R-Sq(adj) = 80.3%

POTENT blir signifikant och fixeras.

Page 33: Multikolinjäritet: Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper

MTB > breg c1 c2-c9;SUBC> include c3 c4 c7;SUBC> best 1;SUBC> nvars 1 1.

Best Subsets Regression: SALES versus TIME, POTENT, ...

Response is SALESThe following variables are included in all models: POTENT ADV ACCTS

S W H O A R R S R K A T H E L T I A C O I M R H A N Vars R-Sq R-Sq(adj) C-p S E E G D G

1 90.0 88.1 5.4 453.84 X

Den bästa modellen med ACCTS, ADV, POTENT och ytterligare en variabel är alltså den med ACCTS, ADV, POTENT och SHARE.

Page 34: Multikolinjäritet: Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper

MTB > regress c1 4 c7 c4 c3 c5

Regression Analysis: SALES versus ACCTS, ADV, POTENT, SHARE

The regression equation isSALES = - 1442 + 9.21 ACCTS + 0.175 ADV + 0.0382 POTENT + 190 SHARE

Predictor Coef SE Coef T PConstant -1441.9 423.6 -3.40 0.003ACCTS 9.214 2.865 3.22 0.004ADV 0.17499 0.03691 4.74 0.000POTENT 0.038217 0.007977 4.79 0.000SHARE 190.14 49.74 3.82 0.001

S = 453.8 R-Sq = 90.0% R-Sq(adj) = 88.1%

SHARE blir signifikant och fixeras.

Page 35: Multikolinjäritet: Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper

MTB > breg c1 c2-c9;SUBC> include c3 c4 c5 c7;SUBC> best 1;SUBC> nvars 1 1.

Best Subsets Regression: SALES versus TIME, POTENT, ...

Response is SALESThe following variables are included in all models: POTENT ADV SHARE ACCTS

S W H O A R R R K A T E L T I C O I M H A N Vars R-Sq R-Sq(adj) C-p S E G D G

1 91.2 88.9 5.0 436.75 X

Den bästa modellen med ACCTS, ADV, POTENT, SHARE och ytterligare en variabel är alltså den med ACCTS, ADV, POTENT SHARE och SHARECHG.

Page 36: Multikolinjäritet: Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper

MTB > regress c1 5 c7 c4 c3 c5 c6

Regression Analysis: SALES versus ACCTS, ADV, POTENT, SHARE, SHARECHG

The regression equation isSALES = - 1286 + 8.23 ACCTS + 0.154 ADV + 0.0376 POTENT + 197 SHARE + 262 SHARECHG

Predictor Coef SE Coef T PConstant -1285.9 419.0 -3.07 0.006ACCTS 8.234 2.824 2.92 0.009ADV 0.15444 0.03774 4.09 0.001POTENT 0.037631 0.007685 4.90 0.000SHARE 196.95 48.06 4.10 0.001SHARECHG 262.5 162.9 1.61 0.124

S = 436.7 R-Sq = 91.2% R-Sq(adj) = 88.9%

SHARECHG blir inte signifikant och tas därför inte med.

Slutlig modell blir den med ACCTS, ADV, POTENT och SHARE

Bra?

Page 37: Multikolinjäritet: Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper

Bakåtelimineringsprincipen (Backward elimination ):

1. Anpassa modellen med samtliga tillgängliga förklaringsvariabler.

2. Om alla förklaringsvariabler är signifikanta blir detta den slutliga modellen.

3. Om en eller flera variabler ej är signifikanta (ses i deras t-kvoter) tas den variabel bort som har lägst absolut t-kvot.

4. Anpassa en ny modell med de variabler som är kvar. Om alla förklaringsvariabler i denna är signifikanta Slutlig modell

5. Om en eller flera variabler ej är signifikanta, ta bort den med lägst absolut t-kvot.

6. Upprepa förfarandet till dess att samtliga ingående förklaringsvariabler är signifikanta.

Page 38: Multikolinjäritet: Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper

MTB > regress c1 8 c2-c9

Regression Analysis: SALES versus TIME, POTENT, ...

The regression equation isSALES = - 1508 + 2.01 TIME + 0.0372 POTENT + 0.151 ADV + 199 SHARE + 291 SHARECHG + 5.55 ACCTS + 19.8 WORKLOAD + 8 RATING

Predictor Coef SE Coef T PConstant -1507.8 778.6 -1.94 0.071TIME 2.010 1.931 1.04 0.313POTENT 0.037205 0.008202 4.54 0.000ADV 0.15099 0.04711 3.21 0.006SHARE 199.02 67.03 2.97 0.009SHARECHG 290.9 186.8 1.56 0.139ACCTS 5.551 4.776 1.16 0.262WORKLOAD 19.79 33.68 0.59 0.565RATING 8.2 128.5 0.06 0.950

S = 449.0 R-Sq = 92.2% R-Sq(adj) = 88.3%

TIME, SHARECHG, ACCTS, WORKLOAD och RATING är icke-signifikanta. Av dessa har RATING lägst absolut t-kvot

Page 39: Multikolinjäritet: Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper

MTB > regress c1 7 c2-c8

Regression Analysis: SALES versus TIME, POTENT, ...

The regression equation isSALES = - 1486 + 1.97 TIME + 0.0373 POTENT + 0.152 ADV + 198 SHARE + 296 SHARECHG + 5.61 ACCTS + 19.9 WORKLOAD

Predictor Coef SE Coef T PConstant -1485.9 677.7 -2.19 0.043TIME 1.974 1.796 1.10 0.287POTENT 0.037290 0.007851 4.75 0.000ADV 0.15196 0.04325 3.51 0.003SHARE 198.31 64.12 3.09 0.007SHARECHG 295.9 164.4 1.80 0.090ACCTS 5.610 4.545 1.23 0.234WORKLOAD 19.90 32.64 0.61 0.550

S = 435.7 R-Sq = 92.2% R-Sq(adj) = 89.0%

TIME, SHARECHG, ACCTS och WORKLOAD är icke-signifikanta. WORKLOAD har lägst absolut t-kvot.

Page 40: Multikolinjäritet: Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper

MTB > regress c1 6 c2-c7

Regression Analysis: SALES versus TIME, POTENT, ...

The regression equation isSALES = - 1165 + 2.27 TIME + 0.0383 POTENT + 0.141 ADV + 222 SHARE + 285 SHARECHG + 4.38 ACCTS

Predictor Coef SE Coef T PConstant -1165.5 420.4 -2.77 0.013TIME 2.269 1.699 1.34 0.198POTENT 0.038278 0.007547 5.07 0.000ADV 0.14067 0.03839 3.66 0.002SHARE 221.60 50.58 4.38 0.000SHARECHG 285.1 160.6 1.78 0.093ACCTS 4.378 3.999 1.09 0.288

S = 428.0 R-Sq = 92.0% R-Sq(adj) = 89.4%

TIME, SHARECHG och ACCTS är icke-signifikanta. ACCTS har lägst absolut t-kvot.

Page 41: Multikolinjäritet: Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper

MTB > regress c1 5 c2-c6

Regression Analysis: SALES versus TIME, POTENT, ADV, SHARE, SHARECHG

The regression equation isSALES = - 1114 + 3.61 TIME + 0.0421 POTENT + 0.129 ADV + 257 SHARE + 325 SHARECHG

Predictor Coef SE Coef T PConstant -1113.8 419.9 -2.65 0.016TIME 3.612 1.182 3.06 0.006POTENT 0.042088 0.006731 6.25 0.000ADV 0.12886 0.03704 3.48 0.003SHARE 256.96 39.14 6.57 0.000SHARECHG 324.5 157.3 2.06 0.053

S = 430.2 R-Sq = 91.5% R-Sq(adj) = 89.3%

Endast SHARECHG är icke-signifikant. På gränsen, men för illustrationen tar vi ändå bort den.

Page 42: Multikolinjäritet: Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper

MTB > regress c1 4 c2-c5

Regression Analysis: SALES versus TIME, POTENT, ADV, SHARE

The regression equation is

SALES = - 1312 + 3.82 TIME + 0.0444 POTENT + 0.152 ADV + 259 SHARE

Predictor Coef SE Coef T P

Constant -1312.3 440.7 -2.98 0.007

TIME 3.816 1.270 3.01 0.007

POTENT 0.044396 0.007158 6.20 0.000

ADV 0.15248 0.03798 4.01 0.001

SHARE 259.47 42.18 6.15 0.000

S = 463.9 R-Sq = 89.6% R-Sq(adj) = 87.5%

Alla förklaringsvariabler är signifikanta Slutlig modell enligt bakåtelimineringsprincipen.

Bra?

Page 43: Multikolinjäritet: Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper

Stegvis regression:

Genom att kombinera framåtval och bakåteliminering får vi det som ofta bara kallas ”stegvis regression”:

• Välj först den variabel som har högst korrelation med y

• Behåll variabeln om den är signifikant

• Lägg till en ny variabel om den blir signifikant, ta bort den gamla om den inte blir signifikant.

• Fortsätt att lägga till och ta bort variabler till dess att inga nya signifikanta kan hittas och inga gamla kan tas bort.

Page 44: Multikolinjäritet: Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper

Minitab har kommandot stepwise:MTB > stepwise c1 c2-c9

Stepwise Regression: SALES versus TIME, POTENT, ...

F-to-Enter: 4 F-to-Remove: 4

Response is SALES on 8 predictors, with N = 25

Step 1 2 3 4Constant 709.32 50.29 -327.24 -1441.94

ACCTS 21.7 19.0 15.6 9.2T-Value 5.50 6.41 5.19 3.22P-Value 0.000 0.000 0.000 0.004

ADV 0.227 0.216 0.175T-Value 4.50 4.77 4.74P-Value 0.000 0.000 0.000

POTENT 0.0219 0.0382T-Value 2.53 4.79P-Value 0.019 0.000

SHARE 190T-Value 3.82P-Value 0.001

S 881 650 583 454R-Sq 56.85 77.51 82.77 90.04R-Sq(adj) 54.97 75.47 80.31 88.05C-p 67.6 27.2 18.4 5.4 More? (Yes, No, Subcommand, or Help)SUBC> No

Slutlig modell är alltså den med ACCTS, ADV, POTENT och SHARE, dvs samma som framåtvalsprincipen gav.

Sätter kritiska gränser för signifikanstest

Page 45: Multikolinjäritet: Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper

Kommandot stepwise har underkommandona forward och backward som just ger framåtval resp. bakåteliminering.

Det är dock klokt att försöka förstå dessa principer genom att ”välja litet för hand”

Ingen av de tre algoritmerna är optimal i något avseende och olika modeller kan fås.

Det är inte heller så att någon med nödvändighet ger den bästa modellen.

Algoritmerna skall kombineras med förnuft och residualanalys.

Page 46: Multikolinjäritet: Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper

Index

• Uttrycker värdet av en storhet relativt värdet av en annan storhet.

• Serier av värden i tid (eller rum) uttrycks i en viss enhet

• Index anger alla värden i serien relativt ett av dem blir enhetsoberoende

Page 47: Multikolinjäritet: Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper

Exempel

Priset på Hasses superstrumpa 1996-2000 i kronor

1996 35.00

1997 36.00

1998 37.50

1999 39.00

2000 40.00

Priserna anges i kronor. Om Sverige under tiden haft en fast växelkurs i Euro, t ex 1 euro=8.70 kronor hade prisserien i euro blivit

1996 4.02

1997 4.14

1998 4.31

1999 4.48

2000 4.60

Page 48: Multikolinjäritet: Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper

Gör nu istället så att varje pris delas med priset för 1996

År Kronpris Europris

1996 35/35=1 4.02/4.02=1

1997 36/35=1.03 4.14/4.02=1.03

1998 37.50/35=1.07 4.31/4.02=1.07

1999 39/35=1.11 4.48/4.02=1.11

2000 40/35=1.14 4.60/4.02=1.14

•Notera att vi får samma värdeserie oavsett vilken valuta vi använder.

•Observera dock att fast växelkurs är ett nödvändigt villkor för detta

•De erhållna värdena kallas relativtal.

Page 49: Multikolinjäritet: Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper

Omräkning till index

Multiplicera de erhållna relativtalen med 100.

Indexserie

1996 100

1997 103

1998 107 “Lättare för en del

1999 111 att förstå”

2000 114

•Indexvärdet för 1996 är exakt 100 av naturliga orsaker. 1996 kallas därför basår.

•Varje indexvärde innehåller den procentuella förändringen av priset jämfört med basåret. T ex index för 1998=107 Priset har ökat med 7% mellan 1996 och 1998.

•För att uttrycka den procentuella förändringen från år t1 till år t2 beräknas [(Index år t2-Index år t1)/Index år t1]100

•t ex från 1998 till 2000: [(114-107)/107]100=6.5 6.5% ökning

Page 50: Multikolinjäritet: Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper

Byte av basår

Basåret kan bytas genom att dividera varje värde i indexserien med värdet för det nya basåret, samt multiplicera med 100

Index år t, basår t1 =

(Index år t, basår t0 /Index år t1, basår t0)100 =

It (t1 ) = [It (t0 ) / It1 (t0 ) ] 100

Ex. Byte till basår 1998

År Basår 1996 Basår 1998

1996 100 (100/107) 100=93.5

1997 103 (103/107) 100=96.3

1998 107 100

1999 111 (111/107) 100=103

200 114 (114/107) 100=107

Notera att indextal < 100 förekommer

Page 51: Multikolinjäritet: Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper

Allmän formel:

En enkel prisindexserie skapas genom

100)( 100 ) basår Pris / år Pris(00 / pp tt I ttt

Page 52: Multikolinjäritet: Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper

Kvantiteter och försäljningsvärden

Låt qt=försäljningskvantiteten och vt=försäljningsvärdet av en vara år t

vt =pt qt

Ex. Priser, kvantiteter och försäljningsvärden för Hasses superstrumpa:

År Pris Kvantitet Försäljn.värde

1996 35.00 150 5250

1997 36.00 145 5220

1998 37.50 165 6187.50

1999 39.00 160 6240

2000 40.00 155 6200

Page 53: Multikolinjäritet: Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper

Deflatering

Försäljningsvärdena är uttryckta i s k löpande priser

Ibland vill man uttrycka dem i priser för ett visst år (i s k fasta priser)

Detta åstadkoms genom s k deflatering

• En värdeserie i löpande priser divideras värde för värde med en prisindexserie.

• Värden i fast pris erhålls genom att multiplicera samtliga deflaterade värden med prisindex för det år, vars priser skall användas

Page 54: Multikolinjäritet: Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper

Hasses superstrumpa, forts

År Värden i Index Värden i 1997 års löpande priser priser

1996 5250 100 (5250/100) 103=5407.50

1997 5220 103 5220

1998 6187.50 107 (6187.50/107) 103=5956

1999 6240 111 (6240/111) 103=5790

2000 6200 114 (6200/114) 103=5602

Page 55: Multikolinjäritet: Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper

Implicitprisindex

Man kan också räkna “baklänges”

Givet en värdeserie i löpande pris och motsvarande serie uttryckt i priser för år t

Ett s k implicitprisindex erhålls genom att dividera löpande pris-serien värde för värde med fastpris-serien och sedan multiplicera med 100. Basåret blir t

Hasses superstrumpa, forts

År Värden i Värden i Implicitprisindex löpande 1998 års (Basår=1998) priser priser

1996 5250 5617.50 (5250/5617.50) 100 = 93.5

1997 5220 5423 (5220/5423) 100 = 96.3

1998 6187.50 6187.50 100

1999 6240 6015 (6240/6015) 100=104

2000 6200 5819 (6200/5819) 100=107

Avvikelser från tidigare framräknad indexserie beror på avrundningsfel

Page 56: Multikolinjäritet: Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper

• Deflaterad värdeserie och fast pris-serie uttrycker kvantitet

• Förutom prisindex kan kvantitetsindex och/eller värdeindex konstrueras

• Överhuvudtaget kan alla serier av värden omräknas till index, dvs indexbegreppet är inte knutet till ekonomi

Page 57: Multikolinjäritet: Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper

Sammansatta prisindex

Om ett företag (eller en bransch) säljer mer än en vara skall som regel prisindex baseras på flera (ev. samtliga) varor.

Generell konstruktion:

där

It,i =prisindex år t för vara i

wt,i =vikt år t för vara i

och summationen görs över alla ingående varor

i ititt wII ,,

Page 58: Multikolinjäritet: Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper

Olika viktsystem

• Laspeyre’s viktsystem:

– wt,i =(pi,0·qi,0)/j (pj,0·qj,0)

– dvs vikten för vara i utgörs av varans andel av totalförsäljningen (av ingående varor) för basåret.

• Paasche’s viktsystem:

– wt,i =(pi,0·qi,t)/j (pj,0·qj,t)

– dvs vikten för vara i utgörs av varans andel av totalförsäljningen för år t i basårspriser .

Laspeyre’s system är vanligast.Vikterna baseras på försäljningsfördelningen under basåret. Dock problematiskt då försäljningen varierar starkt mellan varugrupper från år till år

Paasche’s system används i det senare fallet och är mindre stabilt.

Page 59: Multikolinjäritet: Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper

Exempel forts. Hasses kläder

Priser och försäljningskvantiteter på Hasses superstrumpa och Hasses boxershorts

Strumpor Boxershorts

Pris Kvantitet Pris Kvantitet

1998 37.50 1400 85.00 630

1999 39.00 1310 90.00 488

2000 40.00 1492 93.00 513

Sammansatt prisindex med Laspeyre’s viksystem (Basår 1998):

År Index

1998 100

1999

2000

95.104100100

100100

10605053550

00.8500.90

10605052500

50.3700.39

63000.85140050.3763000.85

00.8500.90

63000.85140050.37140050.37

50.3700.39

05.108100100 10605053550

00.8500.93

10605052500

50.3700.40