Download pdf - Föreläsning 9 - IDANDAB01/Fo9vt2016.pdf · Tolka regressionskoefficienterna. (GB s. 453-454, BB s. 425-426) 7 NDAB01 . Multipel linjär regression Är regressionen signifikant?

1

Föreläsning 9 NDAB01

Statistik; teori och tillämpning i biologi

Multipel linjär regression (kap. 20) Introduktion

I föregående föreläsning diskuterades enkel linjär

regression, där en oberoende variabel X förklarar

variationen hos en beroende variabel Y.

Denna metodik går att expandera genom att man lägger till

fler oberoende variabler X som tillsammans förklarar

variationen i Y. Detta kallas för multipel linjär regression.

En multipel linjär regression kan bestå av många oberoende

variabler, men analysen blir komplex och svårtolkad om för

många variabler tas med. Dessutom kan vissa andra

problem uppstå, som kommer diskuteras senare under

föreläsningen.

2

NDAB01

Multipel linjär regression Modell (GB s. 452-453, BB s. 424-425)

Den ”sanna” modellen (populationsmodellen) skrivs:

𝑌𝑗 = 𝛼 + 𝛽1𝑋1𝑗 + 𝛽2𝑋2𝑗 + ⋯+ 𝛽𝑚𝑋𝑚𝑗 + 𝜖𝑗

där m är antalet oberoende variabler X.

Den skattade modellen skrivs:

𝑌 𝑗 = 𝑎 + 𝑏1𝑋1𝑗 + 𝑏2𝑋2𝑗 + ⋯+ 𝑏𝑚𝑋𝑚𝑗

Dessa skattningar är beräkningstunga, så för multipel linjär

regression är vi hänvisade till datorer för att beräkna de

olika regressionskoefficienterna.

Tolkningen av en regressionskoefficient blir:

förväntad förändring i Y när variabeln X ökar en enhet,

under förutsättning att de övriga oberoende variablerna X

hålls konstanta.

3

NDAB01

Multipel linjär regression Analysstart

Det är svårt att rent visuellt beskriva multipel linjär

regression, eftersom det kan bestå av så många

dimensioner.

En god rutin är att först visuellt undersöka vilka samband

den beroende variabeln Y har med var och en av de

oberoende variablerna X. Alltså, att först göra m stycken

spridningsdiagram.

4

NDAB01

Multipel linjär regression Exempel

Vi bygger vidare på exemplet med tomatodlaren. Odlaren

har även mätt koncentrationen av fosfor och kalium i jorden

där de 12 olika plantorna står.

5

NDAB01

Planta Antal tomater Kväve (%) Fosfor (%) Kalium (%)

1 18 4 2 4

2 14 1 6 2

3 10 3 1 2

4 12 2 2 1

5 21 5 3 3

6 19 2 6 1

7 10 2 1 1

8 18 5 2 5

9 22 6 1 4

10 5 1 1 2

11 21 5 2 3

12 19 2 7 5


6

NDAB01

654321

22,5

20,0

17,5

15,0

12,5

10,0

7,5

5,0

Kväve (%)

An

tal to

ma

ter

Scatterplot of Antal tomater vs Kväve (%)

54321

22,5

20,0

17,5

15,0

12,5

10,0

7,5

5,0

Kalium (%)

An

tal to

ma

ter

Scatterplot of Antal tomater vs Kalium (%)

7654321

22,5

20,0

17,5

15,0

12,5

10,0

7,5

5,0

Fosfor (%)

An

tal to

ma

ter

Scatterplot of Antal tomater vs Fosfor (%)


Den skattade regressionen blir:

𝑌 = 0,99 + 3,41 𝑋1+ 1,90 𝑋2- 0,525 𝑋3

Där:

𝑌 = antalet förväntade tomater

𝑋1 = Kvävekoncentration (%)

𝑋2 = Fosforkoncentration (%)

𝑋3 = Kaliumkoncentration (%)

Tolka regressionskoefficienterna. (GB s. 453-454, BB s.

425-426)

7

NDAB01

Multipel linjär regression Är regressionen signifikant?

I multipel linjär regression testar inte F-testet och t-testet

samma sak, som de gör i fallet enkel linjär regression.

F-testet undersöker om regressionen är signifikant, medan

det görs ett t-test för varje koefficient för att undersöka om

just den koefficienten är signifikant.

Vi fokuserar först på F-testet. (GB s.455-456, BB s.427-428)

𝐻0: 𝛽1 = 𝛽2 = ⋯ = 𝛽𝑚 = 0

𝐻𝑎:𝑚𝑖𝑛𝑠𝑡 𝑒𝑛 𝛽 ≠ 0

𝐹 = 𝑟𝑒𝑔𝑟𝑒𝑠𝑠𝑖𝑜𝑛 𝑀𝑆

𝑟𝑒𝑠𝑖𝑑𝑢𝑎𝑙 𝑀𝑆

Testvariabeln jämförs med 𝐹𝛼 1 ,𝑚,𝑛−𝑚−1. Om testvariabeln

är större än det kritiska värdet förkastas nollhypotesen.

8

NDAB01

Multipel linjär regression Är regressionen signifikant? (GB s.455, BB s.427)

Variationskälla SS DF MS

Regression 𝑌 𝑗 − 𝑌 2 m SS/DF

Residual 𝑌𝑗 − 𝑌 2 n – m – 1 SS/DF

Total 𝑌𝑗 − 𝑌 2 n – 1 SS/DF

9

NDAB01

Multipel linjär regression Hur bra är regressionen? (GB s. 456, BB s. 428)

Även i multipel linjär regression är det intressant att veta hur

bra den är med hjälp av förklaringsgraden (𝑅2).

𝑅2 =𝑟𝑒𝑔𝑟𝑒𝑠𝑠𝑖𝑜𝑛 𝑆𝑆

𝑡𝑜𝑡𝑎𝑙 𝑆𝑆

Dock ökar alltid förklaringsgraden när en ny oberoende

variabel läggs till i regressionen. Därför används en justerad

förklaringsgrad (𝑅𝑎2) när man ska jämföra två modeller med

olika antal oberoende variabler.

𝑅𝑎2 = 1 −

𝑟𝑒𝑠𝑖𝑑𝑢𝑎𝑙 𝑀𝑆

𝑡𝑜𝑡𝑎𝑙 𝑀𝑆= 1 −

𝑟𝑒𝑠𝑖𝑑𝑢𝑎𝑙 𝑆𝑆 𝑛 − 𝑚 − 1

𝑡𝑜𝑡𝑎𝑙 𝑆𝑆 𝑛 − 1

10

NDAB01

Multipel linjär regression Test och intervall för koefficienter (GB 458-59,BB 430-31)

Om F-testet visar att regressionen är signifikant så är det

intressant att undersöka vilken/vilka av regressions-

koefficienterna som är signifikanta. Detta görs med hjälp av

t-test:

𝐻0: 𝛽𝑖 = 𝛽0

𝐻𝑎: 𝛽𝑖 ≠ 𝛽0

𝑡 =𝑏𝑖 − 𝛽0

𝑠𝑏𝑖

där 𝑠𝑏𝑖 hämtas från datorutskrift. Konfidensintervall kan

också skapas:

𝑏𝑖 ± 𝑡𝛼 2 ,𝑛−𝑚−1 ∗ 𝑠𝑏𝑖

11

NDAB01


Nyttja utskriften från SPSS nedan och undersök om

regressionen är signifikant, beräkna förklaringsgrad,

justerad förklaringsgrad och undersök vilka koefficienter

som är signifikanta.

12

NDAB01

Multipel linjär regression Prediktera Y

För att prediktera förväntade värden på Y används först den

skattade regressionsekvationen för att beräkna ett förväntat

värde på Y och därefter kan man skapa konfidensintervall

eller prediktionsintervall.

Konfidensintervall:

𝑌 ± 𝑡𝛼 2 ,𝑛−𝑚−1 ∗ 𝑠𝑦

Prediktionsintervall:

𝑌 ± 𝑡𝛼 2 ,𝑛−𝑚−1∗ 𝑠𝑌 𝑝

Där standardavvikelsen hämtas från datorutskrift enligt

kommande exempel.

13

NDAB01

Multipel linjär regression Prediktera Y, exempel

Tomatodlaren vill prediktera antalet tomater för plantor som

står i jord med 4,7 % kvävekoncentration och 3,5 % fosfor-

koncentration. Eftersom kaliumkoncentration ej var

signifikant enligt tidigare exempel har denna tagits bort ur

analysen. Skapa både konfidens- och prediktionsintervall.

14

NDAB01

Multipel linjär regression Indikatorvariabler (GB s. 471, BB s. 443)

I regression kan det vara lämpligt att införa så kallade

indikatorvariabler (dummyvariabler). Detta är variabler som

antar antingen värdet 0 eller 1 och motsvarar en kategori

hos variabeln, t.ex. kön där hanar kodas som 0 och honor 1.

För exemplet med tomatodlaren kanske tomaterna odlas i

två olika växthus. Då kan en fjärde oberoende variabel (𝑋4)

införas:

𝑋4 = 1 𝑜𝑚 𝑝𝑙𝑎𝑛𝑡𝑎𝑛 𝑜𝑑𝑙𝑎𝑠 𝑖 𝑣ä𝑥𝑡ℎ𝑢𝑠 1

0 𝑜𝑚 𝑝𝑙𝑎𝑛𝑡𝑎𝑛 𝑖𝑛𝑡𝑒 𝑜𝑑𝑙𝑎𝑠 𝑖 𝑣ä𝑥𝑡ℎ𝑢𝑠 1

Så i detta fallet blir 𝛽4 skillnaden i genomsnittsantalet

tomater på en planta mellan de två växthusen.

15

NDAB01

Multipel linjär regression Exempel indikatorvariabel

16

NDAB01

Planta Antal tomater Kväve (%) Fosfor (%) Kalium (%) Växthus

1 18 4 2 4 1

2 14 1 6 2 1

3 10 3 1 2 0

4 12 2 2 1 0

5 21 5 3 3 1

6 19 2 6 1 0

7 10 2 1 1 0

8 18 5 2 5 1

9 22 6 1 4 1

10 5 1 1 2 1

11 21 5 2 3 0

12 19 2 7 5 1

Antal tomater = 1,03 + 3,37 Kväve (%) + 1,90 Fosfor (%) -

0,385 Kalium (%) - 0,45 Växthus

Multipel linjär regression Interaktionsvariabler (GB s. 472, BB s. 444)

En annan typ av variabel som kan införas är interaktions-

variabler. Denna införs om två eller flera oberoende

variabler interagerar (samspelar) med varandra. T.ex. om

effekten på Y från X1 kan vara olika för olika nivåer på X2.

En interaktionsvariabel har då följande utseende: X1*X2.

17

NDAB01

Multipel linjär regression Problem som kan uppstå

Ett problem som kan uppstå när man använder sig av

multipel linjär regression är så kallad multikollinearitet. Detta

uppstår när två eller flera oberoende variabler är beroende

av varandra, dvs. de är korrelerade. Den vanligaste

konsekvensen av detta är att de skattade koefficienterna blir

ologiska.

Det kan upptäckas genom att observera t-testen och F-

testet. Visar dessa test olika resultat (m.a.p. p-värden) är det

stor risk för att det finns multikollinearitet i regressionen.

Multikollinearitet ska inte förväxlas med interaktion.

18

NDAB01

ANOVA eller regression? När använda de två metoderna?

ANOVA står för variansanalys och används oftast när man

planerar ett experiment från början, t.ex. hur många

observationer man ska ha i varje cell osv. Nivåerna på

faktorerna är kategoriska och ’inte mätbara’.

• Envägs-ANOVA

• En faktor med ett visst antal nivåer.

• Tvåvägs-ANOVA

• Två faktorer som kan ha ett olika antal nivåer, och där varje

nivå i den ena faktorn kan korsas med varje nivå i den andra

faktorn.

• Hierarkisk ANOVA (nästlad ANOVA)

• Två eller flera faktorer, där den ena faktorn kan ses som

undergrupper till den andra faktorn.

19

NDAB01

ANOVA eller regression? När använda de två metoderna?

Regression används (oftast) när man redan har ett insamlat

datamaterial och vill undersöka om några oberoende

variabler kan förklara en beroende variabel. Variablerna är

till största delen kontinuerliga och ’mätbara’.

• Enkel linjär regression

• En oberoende variabel X förklarar en beroende variabel Y.

• Multipel linjär regression

• m stycken oberoende variabler X förklarar en beroende

variabel Y.

20

NDAB01

Repetition

• Statistik är grunden för all kvantitativ vetenskaplig

metodik.

• I statistik utgår man från ett stickprov för att dra

slutsatser om en hel population.

• Om något är signifikant innebär det att utifrån det/de

stickprov vi baserar vårat test på finns det, med en viss

risk för fel, säkerställda skillnader i/mellan populationen/

populationerna.

• Om p-värdet är lägre än signifikansnivån förkastas

nollhypotesen, och testet är signifikant.

21

NDAB01

Tack för idag!

Nästa tillfälle:

Lektion 5, onsdag 11 maj 10-12, sal P42

22