29
Statistik Lektion 3 Simpel Lineær Regression

Statistik Lektion 3

  • Upload
    kasen

  • View
    49

  • Download
    0

Embed Size (px)

DESCRIPTION

Statistik Lektion 3. Simpel Lineær Regression. Kriminalitet og uddannelse i Florida: Er der en sammenhæng?. Plot af ”kriminalitet” ( y ) mod ”uddannelsesniveau” ( x ): Er der en sammenhæng?. Scatterplot. Scatterplot. Y. Et scatterplot er et plot af to variable: - PowerPoint PPT Presentation

Citation preview

Page 1: Statistik Lektion  3

StatistikLektion 3

Simpel Lineær Regression

Page 2: Statistik Lektion  3

Kriminalitet og uddannelse i Florida: Er der en sammenhæng? Plot af ”kriminalitet” (y) mod ”uddannelsesniveau” (x):

Er der en sammenhæng?

Scatterplot

Page 3: Statistik Lektion  3

Scatterplot

Et scatterplot er et plot af to variable: x : forklarende variabel

(percent high school)

y : respons variabel (crime rate)

For den i’te observation har vi xi (crime rate for i’te

distrikt)

yi (% high school for i’te distrikt)

Data: (x1,y1), (x2,y2),…, (xn,yn)

x

Y

xi

yi

(xi,yi)

Page 4: Statistik Lektion  3

Forventet respons: En ret linje Den rette linje a + bx beskriver

den forventede (dvs. middel) respons:

E[y] = a + bx Eksempel:

E[y] = 210 + 2,5x Fortolkning:

Antag x = 40 (% high school), så er den forventede crime rate 210 + 2,5·40 = 310

Hvis x øges med 1, så øges den forventede værdi af y med 2,5.

x

y

b

E[y] = a + bx

a

Hvis x = 0 , så er den forventede værdi af y = 210.

UK: Expected

1

Page 5: Statistik Lektion  3

Fejlleddet

De enkelte datapunkter (xi,yi) ligger ikke præcist på regressionslinjen.

Afvigelsen mellem punkt og linjen betegnes fejlleddet ei.

Regressionsmodel:

yi = a + bxi+ ei

Bemærk: n fejlled e1, e2, ..., en.

x

y

xi

yi

(xi,yi)

ei

Flere detaljer og antagelser på næste slide…

a + bx

Page 6: Statistik Lektion  3

Simpel lineær regressionsmodel ),0( iid 2

10 Nxy iiii

• Y - den afhængige variabel.• X - den uafhængige variabel – faste• β - det græske bogstav ”beta”• β0 - skæringspunkt med y-aksen• β1 - hældningskoefficient• iid - UK: independent, identically distributed

= uafhængig, identisk fordelte• ε - det græske bogstav ”epsilon”• εi - det eneste stokastiske element i modellen

Page 7: Statistik Lektion  3

Lineær regressionsmodel: Figur Model:

yi = a + bxi+ ei

Om fejlledene ei antager vi: Normalfordelt Middelværdi nul Konstant standard-

afvigelse s Dvs. punkterne ligger

usystematisk spredt omkring en ret linje, hvor variationen er konstant.

X

Y

i.i.d. normalfordelte fejlled

Fordelingen af yi omkring regressionslinjen.

x1 x3x2 x4 x5

iii xY 10

Kontinuert forklarende variabel x

Page 8: Statistik Lektion  3

Visuelt check af antagelser Lav et scatter plot

x

x

x

y

x

y

y

y

%

%

Page 9: Statistik Lektion  3

En tilnærmet linje

En estimeret regressionslinje er givet ved:

Her er a et estimat af a b et estimat af b ”y hat” er estimat af E(y)

Afstanden fra punktet til den estimerede regressionslinje kaldes residualet ei = yi - .

x

y

xi

yi

(xi,yi) E[y] = a + bx

= a + bxyiy

ei

= a + bxy

iy

Page 10: Statistik Lektion  3

Mindste kvadraters metode

Summen af de kvadrede residualer betegnes:

UK: Sum of Squared Errors.

SSE kan skrives som

x

y

xi

yi

(xi,yi) E[y] = a + bx

= a + bxyiy

ei

n

ii

n

iii eyySSE

1

2

1

n

iii bxaySSE

1

2

Vi vælger a og b, så SSE er mindst mulig. Dette kaldes mindste kvadraters metode.

Page 11: Statistik Lektion  3

Analyze → General Linear Model → Univariate

Simpel lineær regression i SPSS

x

y

Page 12: Statistik Lektion  3

Den estimerede regressionslinje er altså:

Fortolkning Hver gang procent high school stiger et point stiger den

forventede crime rate med 1,501 mord pr 100.000. Hvis der er nul procent high school, så er den forventede

crime rate -51,806… Hvis procent high school er 71,2, så er den prædikterede

crime rate: -51,806 + 1,501·71,2 = 55,07.

SPSS: Resultata

b

= -51,806 + 1,501 xy

Page 13: Statistik Lektion  3

Graphs → Chart builder → Scatter/Dot → Simple Scatter

Efterfølgende dobbelt-klik på plottet og vælg:

Elements → Fit line at total

Regressionslinje i SPSS

Page 14: Statistik Lektion  3

Hypotesetest af b Nul-hypoteser:

H0: b = 0 Alternativ-hypoteser:

Ha: b 0 Ha: b > 0 Ha: b < 0

Teststørrelse

hvor se er standardfejlen:se

bt

2

i i xx

sse

2

n

SSEs,hvor

Hvis H0 er sand, så følger t en t-fordeling med df=n-2 frihedsgrader

Page 15: Statistik Lektion  3

Fortolkning af H0: β = 0Er der en lineær sammenhæng mellem X og Y?

H0: β1 = 0 ingen lineær sammenhæng

Ha: β1 ≠ 0 lineær sammenhæng

Følgende er eksempler, hvor H0 accepteres.

Y

X

Y

X

Y

X

Konstant Y Usystematisk variation Ikke-lineær sammenhæng

Page 16: Statistik Lektion  3

H0: b = 0 vs Ha: b 0

Ifølge SPSS er P-værdien < 0.0005 Dvs. vi afviser H0. Dvs. er er en lineær sammenhæng ml. crime og high school.

Hypotesetest i SPSS

156.4361.0

501.1

se

bt

-3 -2 -1 0 1 2 3

P-værdi

4.156-4.156

t-fordeling med df = n-2

0

Page 17: Statistik Lektion  3

Total og uforklaret variation - illustration

Den totale variation ses når vi ”kigger langs” x-aksen.

Den uforklarede variation ses når vi ”kigger langs” regressionslinjen.

TSS SSE

Page 18: Statistik Lektion  3

Determinationskoefficienten r 2

TSS Den totale variation TSS – SSE Den forklarede variation (totale – uforklarede)

Determinationskoefficienten

Fortolkning r2 er andelen af den totale variation i yi’erne der er forklaret

af xi’erne. Fx: Hvis r2 = 0.62, så er 62% af variation i y forklaret af x.

TSS

SSETSSr

2

Page 19: Statistik Lektion  3

Som en del af output’et for lineær regression får man bl.a. følgende kasse:

Determinationskoefficienten er her R2 = 0.218, dvs. 21,8% af variationen i crime rate er forklaret af % high school.

Determinationskoefficienten i SPSS

Determinationskoefficienten r2

Page 20: Statistik Lektion  3

Determinationskoefficienten i SPSS Graphs → Chart builder → Scatter/Dot → Simple Scatter

r2

Page 21: Statistik Lektion  3

Multipel Lineær Regression (MLR) Antag vi har

y : afhængig variabel x1 : første forklarende var. x2 : anden forklarende var.

MLR model:

yi = a + b1x1,i+b2x2,i+e Her:

x1,i er værdien af x1 for i’te ”person”. Forventede værdi:

E[y] = a + b1x1+b2x2

Dvs. regressionsplanet angiver gennemsnittet for responsen

x1

x2

y

x1,i

x2,i

ei

yi

a + b1x1+b2x2

Page 22: Statistik Lektion  3

Fortolkning af bi

Antag vi har k forklarende variable:

yi = a + b1x1,i+b2x2,i+ ··· +bkxk,i +e

Fortolkningen af bj: Hvis x1 øges med 1, så øges den forventede værdi af y

med b1, hvis x2, x3, …, xk forbliver uændrede.

Page 23: Statistik Lektion  3

Teori: Kriminalitet afhænger også af graden af ubanisering. Multipel lineær regression af Crime rate (y) mod både

Uddannelser (x1) og Urbanisering (x2). Prædiktionsligning:

Eksempel: Kriminalitet i Florida (fortsat)

21 673.054.08.56ˆ xxy

Bemærk: Effekten af uddannelser er nu negativ og ikke længere signifikant (P-værdi >> 5%).

Page 24: Statistik Lektion  3

Eksempel: Kriminalitet i Florida (fortsat) Prædiktionsligning:

Effekten af x1 (uddannelse) er den samme for alle værdier af x2 (ubanisering).

For hver ekstra procent-point uddannede falder crime rate med 0.54.

21 673.054.08.56ˆ xxy

)4054.07.83ˆ 21 xxy (

)5054.04.90ˆ 21 xxy (

Bemærk at effekten af x1 (Uddannelse) ændrede sig markant, da vi tilføjede x2 (ubarnisering). Det tyder på at der er en stærk sammenhæng mellem x1 og x2.

Page 25: Statistik Lektion  3

Simpsons paraksok - igen Sammenhæng mellem crime

rate og uddannelse Sort linje:

SLR for alle data Blå linje:

SLR kun for områder med høj grad af urbanisering.

Grøn linje: SLR kun for områder med

lav urbanisering.

Bemærk hvor forskellig sammenhængen er i de to grupper.

Page 26: Statistik Lektion  3

Eksempel: Kriminalitet i Florida (fortsat) Prædiktionsligning:

Effekten af x1 (uddannelse) er den samme for alle værdier af x2 (ubanisering).

For hver ekstra procent-point uddannede falder crime rate med 0.54.

21 673.054.08.56ˆ xxy

)4054.07.83ˆ 21 xxy (

)5054.04.90ˆ 21 xxy (

Bemærk: Effekten af x1 (Uddannelse) ændrede sig markant, da vi tilføjede x2 (ubarnisering). Det tyder på at der er en stærk sammenhæng mellem x1 og x2.

Page 27: Statistik Lektion  3

MLR model:

y = a + b1x1+b2x2+ ··· +bkxk +e Er der mindst en af xj’erne der har en lineær sammenhæng

med y? Nul-hypotese:

H0: b1 = b2 = … = bk = 0 Alternativ-hypotese:

Ha: Mindst et bj 0 Teststørrelse:

Hypotesetest for MLR: F-test

0)1(1 2

2

knR

kRF

y har ingen lineær sammenhæng med et eneste xj.

y har en lineær sammenhæng med med mindst et af xj’erne.

Jo større F jo mindre tror vi på H0.

Page 28: Statistik Lektion  3

F-testet

Hvis H0 er sand, så følger F en F-fordeling.

Som c2-fordelingen kan F-fordelingen kun tage positive værdier.

P-værdien finder vi vha. SPSS (næste slide).

Hvis P-værdien < 0.05 afviser vi H0, dvs. y har en lineær sammenhæng med mindst en af de forklarende variable.

P-værdi

Observeret F

Page 29: Statistik Lektion  3

I eksemplet:

Konklusion?

F-test i SPSSP-værdi

P-værdi

9.495

F-værdiNyl-hypotesen vedrører to b’er.