1
Föreläsning 9 NDAB01
Statistik; teori och tillämpning i biologi
Multipel linjär regression (kap. 20) Introduktion
I föregående föreläsning diskuterades enkel linjär
regression, där en oberoende variabel X förklarar
variationen hos en beroende variabel Y.
Denna metodik går att expandera genom att man lägger till
fler oberoende variabler X som tillsammans förklarar
variationen i Y. Detta kallas för multipel linjär regression.
En multipel linjär regression kan bestå av många oberoende
variabler, men analysen blir komplex och svårtolkad om för
många variabler tas med. Dessutom kan vissa andra
problem uppstå, som kommer diskuteras senare under
föreläsningen.
2
NDAB01
Multipel linjär regression Modell (GB s. 452-453, BB s. 424-425)
Den ”sanna” modellen (populationsmodellen) skrivs:
𝑌𝑗 = 𝛼 + 𝛽1𝑋1𝑗 + 𝛽2𝑋2𝑗 + ⋯+ 𝛽𝑚𝑋𝑚𝑗 + 𝜖𝑗
där m är antalet oberoende variabler X.
Den skattade modellen skrivs:
𝑌 𝑗 = 𝑎 + 𝑏1𝑋1𝑗 + 𝑏2𝑋2𝑗 + ⋯+ 𝑏𝑚𝑋𝑚𝑗
Dessa skattningar är beräkningstunga, så för multipel linjär
regression är vi hänvisade till datorer för att beräkna de
olika regressionskoefficienterna.
Tolkningen av en regressionskoefficient blir:
förväntad förändring i Y när variabeln X ökar en enhet,
under förutsättning att de övriga oberoende variablerna X
hålls konstanta.
3
NDAB01
Multipel linjär regression Analysstart
Det är svårt att rent visuellt beskriva multipel linjär
regression, eftersom det kan bestå av så många
dimensioner.
En god rutin är att först visuellt undersöka vilka samband
den beroende variabeln Y har med var och en av de
oberoende variablerna X. Alltså, att först göra m stycken
spridningsdiagram.
4
NDAB01
Multipel linjär regression Exempel
Vi bygger vidare på exemplet med tomatodlaren. Odlaren
har även mätt koncentrationen av fosfor och kalium i jorden
där de 12 olika plantorna står.
5
NDAB01
Planta Antal tomater Kväve (%) Fosfor (%) Kalium (%)
1 18 4 2 4
2 14 1 6 2
3 10 3 1 2
4 12 2 2 1
5 21 5 3 3
6 19 2 6 1
7 10 2 1 1
8 18 5 2 5
9 22 6 1 4
10 5 1 1 2
11 21 5 2 3
12 19 2 7 5
Multipel linjär regression Exempel
6
NDAB01
654321
22,5
20,0
17,5
15,0
12,5
10,0
7,5
5,0
Kväve (%)
An
tal to
ma
ter
Scatterplot of Antal tomater vs Kväve (%)
54321
22,5
20,0
17,5
15,0
12,5
10,0
7,5
5,0
Kalium (%)
An
tal to
ma
ter
Scatterplot of Antal tomater vs Kalium (%)
7654321
22,5
20,0
17,5
15,0
12,5
10,0
7,5
5,0
Fosfor (%)
An
tal to
ma
ter
Scatterplot of Antal tomater vs Fosfor (%)
Multipel linjär regression Exempel
Den skattade regressionen blir:
𝑌 = 0,99 + 3,41 𝑋1+ 1,90 𝑋2- 0,525 𝑋3
Där:
𝑌 = antalet förväntade tomater
𝑋1 = Kvävekoncentration (%)
𝑋2 = Fosforkoncentration (%)
𝑋3 = Kaliumkoncentration (%)
Tolka regressionskoefficienterna. (GB s. 453-454, BB s.
425-426)
7
NDAB01
Multipel linjär regression Är regressionen signifikant?
I multipel linjär regression testar inte F-testet och t-testet
samma sak, som de gör i fallet enkel linjär regression.
F-testet undersöker om regressionen är signifikant, medan
det görs ett t-test för varje koefficient för att undersöka om
just den koefficienten är signifikant.
Vi fokuserar först på F-testet. (GB s.455-456, BB s.427-428)
𝐻0: 𝛽1 = 𝛽2 = ⋯ = 𝛽𝑚 = 0
𝐻𝑎:𝑚𝑖𝑛𝑠𝑡 𝑒𝑛 𝛽 ≠ 0
𝐹 = 𝑟𝑒𝑔𝑟𝑒𝑠𝑠𝑖𝑜𝑛 𝑀𝑆
𝑟𝑒𝑠𝑖𝑑𝑢𝑎𝑙 𝑀𝑆
Testvariabeln jämförs med 𝐹𝛼 1 ,𝑚,𝑛−𝑚−1. Om testvariabeln
är större än det kritiska värdet förkastas nollhypotesen.
8
NDAB01
Multipel linjär regression Är regressionen signifikant? (GB s.455, BB s.427)
Variationskälla SS DF MS
Regression 𝑌 𝑗 − 𝑌 2 m SS/DF
Residual 𝑌𝑗 − 𝑌 2 n – m – 1 SS/DF
Total 𝑌𝑗 − 𝑌 2 n – 1 SS/DF
9
NDAB01
Multipel linjär regression Hur bra är regressionen? (GB s. 456, BB s. 428)
Även i multipel linjär regression är det intressant att veta hur
bra den är med hjälp av förklaringsgraden (𝑅2).
𝑅2 =𝑟𝑒𝑔𝑟𝑒𝑠𝑠𝑖𝑜𝑛 𝑆𝑆
𝑡𝑜𝑡𝑎𝑙 𝑆𝑆
Dock ökar alltid förklaringsgraden när en ny oberoende
variabel läggs till i regressionen. Därför används en justerad
förklaringsgrad (𝑅𝑎2) när man ska jämföra två modeller med
olika antal oberoende variabler.
𝑅𝑎2 = 1 −
𝑟𝑒𝑠𝑖𝑑𝑢𝑎𝑙 𝑀𝑆
𝑡𝑜𝑡𝑎𝑙 𝑀𝑆= 1 −
𝑟𝑒𝑠𝑖𝑑𝑢𝑎𝑙 𝑆𝑆 𝑛 − 𝑚 − 1
𝑡𝑜𝑡𝑎𝑙 𝑆𝑆 𝑛 − 1
10
NDAB01
Multipel linjär regression Test och intervall för koefficienter (GB 458-59,BB 430-31)
Om F-testet visar att regressionen är signifikant så är det
intressant att undersöka vilken/vilka av regressions-
koefficienterna som är signifikanta. Detta görs med hjälp av
t-test:
𝐻0: 𝛽𝑖 = 𝛽0
𝐻𝑎: 𝛽𝑖 ≠ 𝛽0
𝑡 =𝑏𝑖 − 𝛽0
𝑠𝑏𝑖
där 𝑠𝑏𝑖 hämtas från datorutskrift. Konfidensintervall kan
också skapas:
𝑏𝑖 ± 𝑡𝛼 2 ,𝑛−𝑚−1 ∗ 𝑠𝑏𝑖
11
NDAB01
Multipel linjär regression Exempel
Nyttja utskriften från SPSS nedan och undersök om
regressionen är signifikant, beräkna förklaringsgrad,
justerad förklaringsgrad och undersök vilka koefficienter
som är signifikanta.
12
NDAB01
Multipel linjär regression Prediktera Y
För att prediktera förväntade värden på Y används först den
skattade regressionsekvationen för att beräkna ett förväntat
värde på Y och därefter kan man skapa konfidensintervall
eller prediktionsintervall.
Konfidensintervall:
𝑌 ± 𝑡𝛼 2 ,𝑛−𝑚−1 ∗ 𝑠𝑦
Prediktionsintervall:
𝑌 ± 𝑡𝛼 2 ,𝑛−𝑚−1∗ 𝑠𝑌 𝑝
Där standardavvikelsen hämtas från datorutskrift enligt
kommande exempel.
13
NDAB01
Multipel linjär regression Prediktera Y, exempel
Tomatodlaren vill prediktera antalet tomater för plantor som
står i jord med 4,7 % kvävekoncentration och 3,5 % fosfor-
koncentration. Eftersom kaliumkoncentration ej var
signifikant enligt tidigare exempel har denna tagits bort ur
analysen. Skapa både konfidens- och prediktionsintervall.
14
NDAB01
Multipel linjär regression Indikatorvariabler (GB s. 471, BB s. 443)
I regression kan det vara lämpligt att införa så kallade
indikatorvariabler (dummyvariabler). Detta är variabler som
antar antingen värdet 0 eller 1 och motsvarar en kategori
hos variabeln, t.ex. kön där hanar kodas som 0 och honor 1.
För exemplet med tomatodlaren kanske tomaterna odlas i
två olika växthus. Då kan en fjärde oberoende variabel (𝑋4)
införas:
𝑋4 = 1 𝑜𝑚 𝑝𝑙𝑎𝑛𝑡𝑎𝑛 𝑜𝑑𝑙𝑎𝑠 𝑖 𝑣ä𝑥𝑡ℎ𝑢𝑠 1
0 𝑜𝑚 𝑝𝑙𝑎𝑛𝑡𝑎𝑛 𝑖𝑛𝑡𝑒 𝑜𝑑𝑙𝑎𝑠 𝑖 𝑣ä𝑥𝑡ℎ𝑢𝑠 1
Så i detta fallet blir 𝛽4 skillnaden i genomsnittsantalet
tomater på en planta mellan de två växthusen.
15
NDAB01
Multipel linjär regression Exempel indikatorvariabel
16
NDAB01
Planta Antal tomater Kväve (%) Fosfor (%) Kalium (%) Växthus
1 18 4 2 4 1
2 14 1 6 2 1
3 10 3 1 2 0
4 12 2 2 1 0
5 21 5 3 3 1
6 19 2 6 1 0
7 10 2 1 1 0
8 18 5 2 5 1
9 22 6 1 4 1
10 5 1 1 2 1
11 21 5 2 3 0
12 19 2 7 5 1
Antal tomater = 1,03 + 3,37 Kväve (%) + 1,90 Fosfor (%) -
0,385 Kalium (%) - 0,45 Växthus
Multipel linjär regression Interaktionsvariabler (GB s. 472, BB s. 444)
En annan typ av variabel som kan införas är interaktions-
variabler. Denna införs om två eller flera oberoende
variabler interagerar (samspelar) med varandra. T.ex. om
effekten på Y från X1 kan vara olika för olika nivåer på X2.
En interaktionsvariabel har då följande utseende: X1*X2.
17
NDAB01
Multipel linjär regression Problem som kan uppstå
Ett problem som kan uppstå när man använder sig av
multipel linjär regression är så kallad multikollinearitet. Detta
uppstår när två eller flera oberoende variabler är beroende
av varandra, dvs. de är korrelerade. Den vanligaste
konsekvensen av detta är att de skattade koefficienterna blir
ologiska.
Det kan upptäckas genom att observera t-testen och F-
testet. Visar dessa test olika resultat (m.a.p. p-värden) är det
stor risk för att det finns multikollinearitet i regressionen.
Multikollinearitet ska inte förväxlas med interaktion.
18
NDAB01
ANOVA eller regression? När använda de två metoderna?
ANOVA står för variansanalys och används oftast när man
planerar ett experiment från början, t.ex. hur många
observationer man ska ha i varje cell osv. Nivåerna på
faktorerna är kategoriska och ’inte mätbara’.
• Envägs-ANOVA
• En faktor med ett visst antal nivåer.
• Tvåvägs-ANOVA
• Två faktorer som kan ha ett olika antal nivåer, och där varje
nivå i den ena faktorn kan korsas med varje nivå i den andra
faktorn.
• Hierarkisk ANOVA (nästlad ANOVA)
• Två eller flera faktorer, där den ena faktorn kan ses som
undergrupper till den andra faktorn.
19
NDAB01
ANOVA eller regression? När använda de två metoderna?
Regression används (oftast) när man redan har ett insamlat
datamaterial och vill undersöka om några oberoende
variabler kan förklara en beroende variabel. Variablerna är
till största delen kontinuerliga och ’mätbara’.
• Enkel linjär regression
• En oberoende variabel X förklarar en beroende variabel Y.
• Multipel linjär regression
• m stycken oberoende variabler X förklarar en beroende
variabel Y.
20
NDAB01
Repetition
• Statistik är grunden för all kvantitativ vetenskaplig
metodik.
• I statistik utgår man från ett stickprov för att dra
slutsatser om en hel population.
• Om något är signifikant innebär det att utifrån det/de
stickprov vi baserar vårat test på finns det, med en viss
risk för fel, säkerställda skillnader i/mellan populationen/
populationerna.
• Om p-värdet är lägre än signifikansnivån förkastas
nollhypotesen, och testet är signifikant.
21
NDAB01
Tack för idag!
Nästa tillfälle:
Lektion 5, onsdag 11 maj 10-12, sal P42
22