37
1 Kap 12 Korrelasjon / Regresjon Kap 12 Korrelasjon / Regresjon

Kap 12 Korrelasjon / Regresjon

  • Upload
    kostya

  • View
    113

  • Download
    0

Embed Size (px)

DESCRIPTION

Kap 12 Korrelasjon / Regresjon. Begrep. Korrelasjon :Et mål for lineær samvariasjon. Regresjon :Tilpasning av en rett linje til et sett punkter. Estimere den avhengige variable ut fra den uavhengige variable. Regresjonsanalyse :Inferens. - PowerPoint PPT Presentation

Citation preview

Page 1: Kap 12   Korrelasjon / Regresjon

11

Kap 12 Korrelasjon / RegresjonKap 12 Korrelasjon / RegresjonKap 12 Korrelasjon / RegresjonKap 12 Korrelasjon / Regresjon

Page 2: Kap 12   Korrelasjon / Regresjon

22

BegrepBegrep

Korrelasjon : Et mål for lineær samvariasjon.

Regresjon : Tilpasning av en rett linje til et sett punkter.

Estimere den avhengige variableut fra den uavhengige variable.

Regresjonsanalyse : Inferens.

Page 3: Kap 12   Korrelasjon / Regresjon

33

Minste kvadraters metode (MKM)Tilpasning av en rett linjeMinste kvadraters metode (MKM)Tilpasning av en rett linje

xi

0

Y

X

dibaxy (xi, yi)

22 )(),( ybaxdbaFF

Best mulig tilpassede rette linje

Ønsker å minimalisere

ybnxa

xyxbxa

ybax

ybaxx

ybaxybaxb

ybaxbb

F

ybaxxybaxa

ybaxaa

F

0 )(

0)(

)(2)()(

)(2)()(

2

22

22

Page 4: Kap 12   Korrelasjon / Regresjon

44

Minste kvadraters metode (MKM)Minste kvadraters metode (MKM)

xi

0

Y

X

dibaxy (xi, yi)

22 )(),( ybaxdbaFF

Best mulig tilpassede rette linje

Ønsker å minimalisere denne

ybnxa

xyxbxa

2

22

2

22

xxn

xyxxyb

xxn

yxxyna

Page 5: Kap 12   Korrelasjon / Regresjon

55

Minste kvadraters metode (MKM)Minste kvadraters metode (MKM)

xi

0

Y

X

dibaxy (xi, yi)

22 )(),( ybaxdbaFF

Best mulig tilpassede rette linje

Ønsker å minimalisere denne

22

2

22

xxn

xyxxyb

xxn

yxxyna

2

2

2

2

2

xx

xyxxy

xx

yxxy

SnS

SSSSb

SnS

SSnSa

zS z

Page 6: Kap 12   Korrelasjon / Regresjon

66

Minste kvadraters metode (MKM)Minste kvadraters metode (MKM)

xi

0

Y

X

baxy (5,4) Best mulig tilpassede rette linje

831.1251515

692515113

154.0251515

1325695

22

22

2

2

2

xx

xyxxy

xx

yxxy

SnS

SSSSb

SnS

SSnSa

(2,1)

(3,3)

(7,2)

(8,3)

1516449259487532

69241420923827453312

1332431

2587532

222222

x

xy

y

x

S

S

S

S

831.1154.0 xbaxy

EksEks

Page 7: Kap 12   Korrelasjon / Regresjon

77

Et mål for lineær samvariasjon:KorrelasjonEt mål for lineær samvariasjon:Korrelasjon

1978 1986

100

150

200Kurs

År 1400 4400

20

25

30Dødsfall pr 100000 innb.

Sigaretter pr person

Aksjekurs for Bergen Bank og DNC 1978-86

Røyking og kreft

Page 8: Kap 12   Korrelasjon / Regresjon

88

Korrelasjon / KryssproduktsumKorrelasjon / Kryssproduktsum

-60 60

-30

60

DNC - DNCsnitt

BB - BBsnitt

Aksediagram

1978 1986

100

150

200Kurs

År

Aksjekurs for Bergen Bank og DNC 1978-86

122xBergen Bank BBsnitt:

DNC DNCsnitt: 134y

Kryssproduktsum:

))(( yyxx

),( yx

Page 9: Kap 12   Korrelasjon / Regresjon

99

KryssproduktsumKryssproduktsum

BB - DNC : nekvadratkro 42529))(( yyxx

Kreft:

Presse :

dsfallsigarettdø 65330))(( yyxx

neprosentkro 43411))(( yyxx

Styrke : - Fortegn (positiv eller negativ samvariasjon)Svakhet : - Intetsigende tallstørrelse (jo flere data, jo større sum)

- Intetsigende benevning

Samvariasjon i aksjekurser

Samvariasjon irøyking og kreft

Samvariasjon ipressestøtte og opplag

Page 10: Kap 12   Korrelasjon / Regresjon

1010

Kryssproduktsum / KovariansKryssproduktsum / Kovarians

ktsumkryssprodu1

2

))((1

2)(

1

1)(

1

1

)])((2)()(1

1

)]()[(1

1)]()[(

1

1)(

1

1

22

22

22

2222

nss

yyxxn

yyn

xxn

yyxxyyxxn

yyxxn

yxyxn

zzn

s

yxz

yx

z

Kovarians = gjennomsnittlig kryssproduktsum

)])([()(),(

),(2)()()(

21 YXEVEYXCov

YXCovYVarXVarYXVar

Page 11: Kap 12   Korrelasjon / Regresjon

1111

KovariansKovarians DefDef

X, Y Stokastiske variable )])([()(),(

),(2)()()(

21 YXEVEYXCov

YXCovYVarXVarYXVar

I (X-1) > 0 (X-2) > 0 V > 0 Positiv samvariasjon

(X-1) < 0 (X-2) < 0 V > 0

II (X-1) > 0 (X-2) < 0 V < 0 Negativ samvariasjon

(X-1) < 0 (X-2) > 0 V < 0

21

),(),(

YXCov

YX 1),(1 YX

Korrelasjonskoeffisient

nær 1 : Høy positiv korrelasjon nær -1 : Høy negativ korrelasjon nær 0 : Svært liten korrelasjon

Page 12: Kap 12   Korrelasjon / Regresjon

1212

Estimering av korrelasjonskoeffisientEstimering av korrelasjonskoeffisient

n

ii

n

ii

n

iii

YX

XY

YYXX

YYXX

SS

SR

1

2

1

2

1

)()(

))((

Som estimator for korrelasjonskoeffisienten basert på n par av observasjoner av X og Ybrukes den empiriske korrelasjonskoeffisienten R gitt ved:

n

iiiXY YYXX

nS

1

))((1

n

iiX XX

nS

1

2)(1

n

iiY YY

nS

1

2)(1

Page 13: Kap 12   Korrelasjon / Regresjon

1313

Estimering av korrelasjonskoeffisientEstimering av korrelasjonskoeffisient EksEks

Xi (cm) 164 167 170 171 166 169168 171 168 168

Yi (kg) 51 56 51 62 54 56 56 59 5754

Høyde (X) og Vekt (Y) for n = 10 kvinnelige toppidrettsutøvere:

160 165 170

50

60

70Y

X

09.2)(1

1

2

n

iiX XX

nS 20.3)(

1

1

2

n

iiY YY

nS

18.4))((1

1

n

iiiXY YYXX

nS

625.0YX

XY

SS

SR

Klar positiv korrelasjonmellom høyde og vektfor kvinnelige toppidrettsutøvere.

Page 14: Kap 12   Korrelasjon / Regresjon

1414

KorrelasjonskoeffisientAlternative uttrykkKorrelasjonskoeffisientAlternative uttrykk

n

iii

n

iiiXY YXYX

nYYXX

nS

11

1))((

1

n

ii

n

iiX XX

nXX

nS

1

22

1

22 1)(

1

n

ii

n

iiY YY

nYY

nS

1

22

1

22 1)(

1

Page 15: Kap 12   Korrelasjon / Regresjon

1515

RegresjonsanalyseRegresjonsanalyse

Ofte er vi interessert i å finne en sammenheng mellom en resultatvariabel Y og en forklaringsvariabel X.

Eks: Y = Avlingsmengde X = Gjødselsmengde

Y = Solgt kvantum av et produkt X = Reklameinnsats

UXY 10 Enkel regresjonsmodell

Konstantledd

Regresjonskoeffisient

Feilledd (med forventning 0)

Page 16: Kap 12   Korrelasjon / Regresjon

1616

Enkel regresjonsmodellEnkel regresjonsmodell

Y Uavhengig NormalfordeltX Ikke-stokastisk ( = x)

n par av observasjoner av x og Y:(x1,Y1) - (x2,Y2) -…- (xn,Yn)

variableestokastisk eltenormalford og uavhengige ,...,, 21 nYYYModell-antakelser:

n1,2,..., i 10 iii UxY

n1,2,...,i )( 10 ii xYE

n1,2,..., i )( 2 iYVar

U1, U2, …, Un er uavhengige og normalfordeltemed forventning 0 og varians 2.

Page 17: Kap 12   Korrelasjon / Regresjon

1717

Enkel regresjonsmodellEnkel regresjonsmodell

x1 x2 x3

0

Y

X

0 + 1 xY1

Y2

Y3

xYE 10)(

Y

Regresjonsmodell:

Spredningsdiagram:

Skal estimere 0 og 1

Page 18: Kap 12   Korrelasjon / Regresjon

1818

Enkel regresjonsmodell Minste kvadraters metode (MKM)Enkel regresjonsmodell Minste kvadraters metode (MKM)

xi

0

Y

X

Yi - (0 + 1 xi)

n

iii xYQQ

1

21010 )]([),(

0 010

QQ

n

ii

n

iii

xxM

xY

YxxM

1

2

10

11

)(

ˆˆ

)(1ˆ

Page 19: Kap 12   Korrelasjon / Regresjon

1919

22

2

22

22

2

2110

22222

22

222222

222221

2

2

2

2

2

2

22

2

2

2

1

11)(1

111ˆ1ˆˆ

1

1

1

11

2

1

2

1

2)2(

)(

)(

)()(

xx

xyxxy

xx

xyxxy

xx

yxxyxxyxyx

xx

yxxy

xx

xxy

x

xx

yxxyy

xx

yxxy

SnS

SSSS

SnS

SnSSnS

n

SnS

SSSnSSSSnS

nS

nSnS

SSnS

SnS

SnSS

n

SnSnS

SSnSS

nx

ny

nxy

SnS

SSnS

xxn

yxxyn

xn

x

yxn

xy

xn

nx

yxn

xy

xnx

yxn

xy

xnxnxx

yxn

xy

xxxx

yxn

xy

xxxx

yxxy

xxxx

yxxy

xx

yxxyxx

M

Enkel regresjonsmodell Minste kvadraters metode (MKM)Enkel regresjonsmodell Minste kvadraters metode (MKM)

Page 20: Kap 12   Korrelasjon / Regresjon

2020

elte.normalford ˆ og ˆ bådeer Derfor

ene.-Y av funksjoner lineæreer ˆ og ˆ

)(

ˆˆ

)(1ˆ

og for (MKE)r estimatore kvadraters minsteer ˆ og ˆ

10

10

1

2

10

11

1010

n

ii

n

iii

xxM

xY

YxxM

Enkel regresjonsmodell Minste kvadraters metode (MKM)Enkel regresjonsmodell Minste kvadraters metode (MKM)

Page 21: Kap 12   Korrelasjon / Regresjon

2121

)ˆ( )ˆ(

)ˆ( )ˆ(

2

111

1

2

2000

MVarE

nM

xVarE

n

ii

xY 10ˆˆˆ Den estimerte

regresjonslinjen:

Forventning / Varians :

Enkel regresjonsmodellEnkel regresjonsmodell

Page 22: Kap 12   Korrelasjon / Regresjon

2222

2

2)(

111

)(1

)ˆ(1

)ˆ()1()()ˆ()ˆ(

1)(

1)()(

1)(

1)ˆ(

1)(

1 )(

1

)ˆ(1

)ˆ()E( )xˆ()ˆ(

)(

11

))((1

)()(1

)(1

)ˆ(

1

2

22222

2222

222

22

2

22

222

222

2

22

212

12

10

22

222

22

21

01101101

1110

122

221

12

100212

100

101

nM

x

nM

xnxnxnx

nM

xnxxxx

nM

xnxx

nM

xnM

M

x

nMx

nMxn

n

MxYVar

nVarxY

nVarxVarYVarxYVarVar

MM

Mxx

MYVarxx

MYxx

MVarVar

xxnnn

xxn

xYEn

ExYn

ExEYYEE

xnx

xnxxnxxxnxn

xxxxxxx

M

xxxM

YExxM

YxxM

EE

n

ii

Enkel regresjonsmodellEnkel regresjonsmodellUtledning avuttrykk forestimator og varians

Utledning avuttrykk forestimator og varians

Page 23: Kap 12   Korrelasjon / Regresjon

2323

En ny type gjødsel skal prøves ut ved dyrking av mais.Forsøket skal foregå på forsøksfelt som er delt opp i 15 jordstykker,hvert på 4 mål.Vi antar at avlingsmengden Y (tonn) på et jordstykke kan oppfattes somen normalfordelt stokastisk variabel.Forventet avlingsmengde er avhengig av hvor mye gjødselsom blir brukt, og vi antar

E(Y) = 0 + 1x

når det blir gjødslet med x hundre kg gjødsel.Standardavviket = 0.40 er kjent, og avlingsmengder på forskjelligejordstykker er uavhengige variable.

Xi 1 1 1 2 2 2 3 3 3 4 4 45 5 5

Yi 2.77 2.61 2.18 2.86 2.35 3.37 2.79 2.65 3.23 3.84 4.17 3.55 4.75 4.14 3.80

Eks:Gjødsel og avlingEks:Gjødsel og avling

Enkel regresjonsmodell Minste kvadraters metode (MKM)Enkel regresjonsmodell Minste kvadraters metode (MKM)

Page 24: Kap 12   Korrelasjon / Regresjon

2424

Xi 1 1 1 2 2 2 3 3 3 4 4 45 5 5

Yi 2.77 2.61 2.18 2.86 2.35 3.37 2.79 2.65 3.23 3.84 4.17 3.55 4.75 4.14 3.80

95.1ˆˆ

441.0)(1ˆ

30)(

27.3 0.3

0

11

1

2

xY

YxxM

xxM

Yx

n

iii

n

ii

xxY 441.095.1ˆˆˆ10

Eks:Gjødsel og avlingEstimering

Eks:Gjødsel og avlingEstimering

Beregning av estimatene:

Estimert regresjonslinje:

Enkel regresjonsmodell Minste kvadraters metode (MKM)Enkel regresjonsmodell Minste kvadraters metode (MKM)

Page 25: Kap 12   Korrelasjon / Regresjon

2525

Xi 1 1 1 2 2 2 3 3 3 4 4 45 5 5

Yi 2.77 2.61 2.18 2.86 2.35 3.37 2.79 2.65 3.23 3.84 4.17 3.55 4.75 4.14 3.80

xxY 441.095.1ˆˆˆ10

]584.0,298.0[073.096.1441.096.1ˆ)ˆ(ˆ11025.01

MSDu

Et 95% konfidensintervall for 1 er gitt ved:

Estimert regresjonslinje:

Eks:Gjødsel og avlingKonfidensintervall

Eks:Gjødsel og avlingKonfidensintervall

Enkel regresjonsmodell Minste kvadraters metode (MKM)Enkel regresjonsmodell Minste kvadraters metode (MKM)

Page 26: Kap 12   Korrelasjon / Regresjon

2626

HypotesetestHypotesetest

Erfaring fra en mye brukt gjødseltype går ut på at økning i gjødselmengden på 100 kg på det aktuelle arealet i gjennomsnitt gir 0.25 tonn i økt avlingsmengde. Vi vil teste om den nye gjødseltypen er bedre, dvs om den fører til større økning i avlingsmengden.Vi stiller altså spørsmålet om 1 > 0.25.

Nullhypotesen:

Alternativ hypotese:

25.0: 10 H

25.0: 11 H

Påstår H1 dersom:(5% signifikansnivå)

k1̂

Kritisk verdi :105.010

ˆ441.0370.030

40.0645.125.0

Mu

Muk

Resultatene tyder på at den nye gjødseltypen gir større avling.

Mk

GkP

25.01)25.0|ˆ(05.0 11

Page 27: Kap 12   Korrelasjon / Regresjon

2727

SignifikanssannsynlighetSignifikanssannsynlighet

Vi kan alternativt regne ut signifikanssannsynligheten:

Siden p = 0.0044 < 0.05 påstår vi H1.Den lave signifikanssannsynligheten tyder på at den nye gjødseltypen er klart best.

0044.0)62.2(13040.0

25.0441.01

)25.0|441.0ˆ()| Påstå( 1101

GG

PHHPp

Page 28: Kap 12   Korrelasjon / Regresjon

2828

Estimator / Varians:

Konfidensintervall for YKonfidensintervall for Y

xYE 10)(

xY 10ˆˆˆ

M

xx

nYVar

YYE2

2 )(1)ˆ(

)ˆ(

215.005.330

)0.35.2(

15

196.105.3

)(1ˆ)ˆ(ˆ

2

2

2/2/

M

xx

nuYYSDuY95% konfidensintervall

for forventet avlingsmengde når det brukes 250 kg gjødsel, dvs x=2.5 :

05.35.2441.0947.1ˆˆˆ10 xY

Estimert avling ved gjødselmengde x:

Forventet avling ved gjødselmengde x:

Estimert avling ved gjødselmengde 2.5kg :

Page 29: Kap 12   Korrelasjon / Regresjon

2929

Estimator / Varians:

Konfidensintervall for YKonfidensintervall for Y

M

xx

nMxx

nVarxxYVarxxYVarYVar

xxYxxYxY

Yxx

xEExEExEYE

22

22

2

12

1

11110

1010

101010

)(1)()ˆ()()())(ˆ()ˆ(

)(ˆˆ)ˆ(ˆˆˆ

)ˆ()ˆ()ˆ()ˆ()ˆˆ()ˆ(

Utledning avuttrykk forestimator og varians

Utledning avuttrykk forestimator og varians

Page 30: Kap 12   Korrelasjon / Regresjon

3030

PrediksjonPrediksjon av Y for gitt x - Prediksjonsintervall for YPrediksjonPrediksjon av Y for gitt x - Prediksjonsintervall for Y

En bonde som skal dyrke mais, er nok mer interessert i kunnskap om selve avlingen han vil få, enn i kunnskap om forventet avling.

Vi ønsker å estimere avlingen Y for en gitt x-verdi, samt finne et intervall som inneholder Y med en gitt (høy) grad av sikkerhet.

Det å anslå størrelsen på uobserverte stokastiske variablerer en form for estimering som vi kaller prediksjon,i motsetning til ’vanlig’ estimering som går ut på å anslå størrelsenav ukjente parametre.

Vi sier at vi skal predikere Y for en gitt verdi av x,og vi ønsker dessuten å finne et såkalt prediksjonsintervall for Y.

Prediksjonsintervall : Konfidensintervall for en uobservert stokastisk variabelVanlig konfidensintervall : Konfidensintervall for en ukjent parameter

Prediksjonsintervall : Gjelder en enkelt Y-verdiKonfidensintervall : Gjelder populsjonsgjennomsnittet

Page 31: Kap 12   Korrelasjon / Regresjon

3131

PrediksjonPrediksjon av Y for gitt x - Prediksjonsintervall for YPrediksjonPrediksjon av Y for gitt x - Prediksjonsintervall for Y

Når vi skal resonnere oss frem til en metode for prediksjon av en ny observasjon Y, tar vi utgangspunkt i differensen (Y - Yhatt).Denne differensen er normalfordelt siden Y og Yhatt

begge er normalfordelte.Videre er Y uavhengig av Yhatt fordi Y er en ny observasjon og Yhatt bygger på gamle observasjoner.

Page 32: Kap 12   Korrelasjon / Regresjon

3232

PrediksjonPrediksjon av Y for gitt x - Prediksjonsintervall for YPrediksjonPrediksjon av Y for gitt x - Prediksjonsintervall for Y

0)()()ˆ()()ˆ( 1010 xxYEYEYYE

813.005.330

)0.35.2(

15

1140.096.105.3

)(11ˆˆ

2

2

2/2/

M

xx

nuYuY

22

2

222

)(11

))(1

()ˆ()()ˆ(

M

xx

n

M

xx

nYVarYVarYYVar

1)ˆˆ(),0(~ˆ2/2/

2 uYYuYPNYY

Forventningtil differensen :

Siden forventningen til differensen er 0, er det naturlig å bruke følgende estimator eller prediktor for Y

:

xY 10ˆˆˆ

Varians:

Prediksjonsintervall for Y.Inneholder Y med sannsynlighet 1- :

Page 33: Kap 12   Korrelasjon / Regresjon

3333

Standardestimator for variansen 2 i regresjonsmodellen:

Ukjent Ukjent

n

iii xY

nS

1

210

2 ))ˆˆ((2

1

derfrihetsgra 2-n medfordelt - tˆ

11 MS

T

Page 34: Kap 12   Korrelasjon / Regresjon

3434

Standardestimator for variansen 2 i regresjonsmodellen:

Ukjent Ukjent

215

1

210

1

210

2 403.0))ˆˆ((215

1))ˆˆ((

2

1

iii

n

iii xYxY

nS

derfrihetsgra 13 medfordelt - tˆ

11 MS

T

95% konfidensintervall for 1

:

]600.0,282.0[159.0441.030

403.0160.2441.0ˆ

1302501 M

St ,.

Test med nivå 5% ved å påstå H1 dersom :

25.0: 25.0: 1110 HH

771.125.0ˆ

13,05.01

0

tMS

T

Regner ut T0 : 60.230403.0

25.0441.00

T

Påstår H1 fordi : 771.160.2 13,05.00 tT

Page 35: Kap 12   Korrelasjon / Regresjon

3535

Standardestimator for variansen 2

i regresjonsmodellen:

Oppsummering IOppsummering I

n

iii xY

nS

1

210

2 ))ˆˆ((2

1 derfrihetsgra 2-n medfordelt - tˆ

11 MS

T

Korrelasjon :

22

21

),(),(

YXCov

YX 1),(1 YX

n

ii

n

ii

n

iii

YX

XY

YYXX

YYXX

SS

SR

1

2

1

2

1

)()(

))((

UXY 10 Enkel regresjonsmodell :

n

ii

n

iii

xxM

xY

YxxM

1

2

10

11

)(

ˆˆ

)(1ˆ

)ˆ( )ˆ(

)ˆ( )ˆ(

2

111

1

2

2000

MVarE

nM

xVarE

n

ii

MuSDu

2/112/1ˆ)ˆ(ˆ Konfidensintervall for

1 :M

uM

uk 10

Page 36: Kap 12   Korrelasjon / Regresjon

3636

Estimator / Varians :Konfidensintervall

xYE 10)(

xY 10ˆˆˆ

M

xx

nYVar

YYE2

2 )(1)ˆ(

)ˆ(

M

xx

nuYYSDuY

2

2/2/

)(1ˆ)ˆ(ˆ

Estimert Y :

Forventning til Y :

M

xx

nuYuY

2

2/2/

)(11ˆˆ

xY 10

ˆˆˆ Prediksjon :Prediksjonsintervall

Oppsummering IIOppsummering II

Page 37: Kap 12   Korrelasjon / Regresjon

3737

ENDENDENDEND