42
Analytisk statistik Mattias Nilsson Benfatto, PhD [email protected]

Analytisk statistik - pingpong.ki.se · Analytisk statistik Med analytisk statistik avses metoder och tekniker för statistisk inferens, dvs. metoder för att dra slutsatser om en

  • Upload
    others

  • View
    12

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Analytisk statistik - pingpong.ki.se · Analytisk statistik Med analytisk statistik avses metoder och tekniker för statistisk inferens, dvs. metoder för att dra slutsatser om en

Analytisk

statistik

Mattias Nilsson Benfatto, [email protected]

Page 2: Analytisk statistik - pingpong.ki.se · Analytisk statistik Med analytisk statistik avses metoder och tekniker för statistisk inferens, dvs. metoder för att dra slutsatser om en
Page 3: Analytisk statistik - pingpong.ki.se · Analytisk statistik Med analytisk statistik avses metoder och tekniker för statistisk inferens, dvs. metoder för att dra slutsatser om en

Beskrivande statistik – kort repetition

▪ Centralmått

▪ Spridningsmått

▪ Normalfördelning

▪ Konfidensintervall

▪ Korrelation

Page 4: Analytisk statistik - pingpong.ki.se · Analytisk statistik Med analytisk statistik avses metoder och tekniker för statistisk inferens, dvs. metoder för att dra slutsatser om en

Analytisk statistik

Med analytisk statistik avses metoder och tekniker för

statistisk inferens, dvs. metoder för att dra slutsatser om

en population genom att analysera egenskaper hos

slumpmässiga stickprov ur populationen

Page 5: Analytisk statistik - pingpong.ki.se · Analytisk statistik Med analytisk statistik avses metoder och tekniker för statistisk inferens, dvs. metoder för att dra slutsatser om en

Statistisk inferens

Page 6: Analytisk statistik - pingpong.ki.se · Analytisk statistik Med analytisk statistik avses metoder och tekniker för statistisk inferens, dvs. metoder för att dra slutsatser om en

Statistisk inferens

Analys av stickprovet ger oss information om

populationen, förutsatt att stickprovet är:

▪ tillräckligt stort

▪ slumpmässigt utvalt från populationen

▪ normalfördelat

Page 7: Analytisk statistik - pingpong.ki.se · Analytisk statistik Med analytisk statistik avses metoder och tekniker för statistisk inferens, dvs. metoder för att dra slutsatser om en

Metoder för statistisk inferens

1. Punktestimering och skattning av konfidensintervall

Att utifrån stickprov dra slutsatser om populationens egenskaper

2. Hypotesprövning

Att utifrån stickprov jämföra grupper och dra slutsatser om

signifikanta skillnader mellan grupperna

3. Regressionsanalys

Att utifrån stickprov dra slutsatser om sambandet mellan två

(eller fler) variabler och förutsäga värdet på en variabel utifrån

kunskapen om en annan

Page 8: Analytisk statistik - pingpong.ki.se · Analytisk statistik Med analytisk statistik avses metoder och tekniker för statistisk inferens, dvs. metoder för att dra slutsatser om en

1. Punktestimering och skattning av

konfidensintervall

Exempel: Man vill veta hur mycket svenska 10-åringar tittar på TV per dag

▪ Ur populationen ”alla 10-åringar” görs ett urval och ur detta dras ett stickprov. Dessa intervjuas om hur länge de tittar på TV.

▪ Medelvärdet för detta stickprov var 2,6 timmar.

▪ 95% konfidensintervall ger gränserna 2,4 till 2,8 tim.

▪ Med 95% sannolikhet ser en svensk 10-åring mellan 2,4-2,8timmar på TV per dag.

2,6 2,4 2,8

punktestimatnedre gräns övre gräns

Page 9: Analytisk statistik - pingpong.ki.se · Analytisk statistik Med analytisk statistik avses metoder och tekniker för statistisk inferens, dvs. metoder för att dra slutsatser om en

2. Hypotesprövning

Istället för att enbart estimera hur det ser ut i

populationen försöker vi att statistiskt pröva hypoteser

om populationen som stickprovet kommer ifrån.

Nollhypotes (H0)

▪ Ett antagande om ingen skillnad eller samband föreligger. Att

slumpen är orsaken till det erhållna värdet.

Alternativhypotes (H1) (forskningshypotesen)

▪ Ett antagande om att det finns en skillnad eller ett samband. Att det

finns en annan orsak än slumpen till det erhållna värdet.

Page 10: Analytisk statistik - pingpong.ki.se · Analytisk statistik Med analytisk statistik avses metoder och tekniker för statistisk inferens, dvs. metoder för att dra slutsatser om en

Hypotesprövning

▪ Den grundläggande frågan är alltid om vårt stickprovsresultat gäller generellt (i populationen) eller är ett resultat av slumpmässiga variationer.

▪ Vi behöver en metod för att hantera osäkerheten i en urvalsundersökning.

▪ Hypotesprövningen testar om slumpverkan kan ses som orsaken till forskningsresultatet.

▪ Vi testar hypotesens giltighet genom en sannolikhetsberäkning.

Page 11: Analytisk statistik - pingpong.ki.se · Analytisk statistik Med analytisk statistik avses metoder och tekniker för statistisk inferens, dvs. metoder för att dra slutsatser om en

Att ställa upp en hypotes

Exempel: Med hjälp av en stickprovsundersökning vill vi utforska om det finns en jämn fördelning av kvinnliga och manliga studenter på Karolinska Institutet.

H0 : Andel kvinnor = Andel män

Pröva om andelen kvinnor är skilt från andelen män

▪ H1 : Andel kvinnor ≠ Andel män (dubbelsidig mothypotes)

Pröva om andelen kvinnor är större än andelen män

▪ H1 : Andel kvinnor > Andel män (enkelsidig mothypotes)

Pröva om andelen kvinnor är mindre än andelen män

▪ H1 : Andel kvinnor < Andel män (enkelsidig mothypotes)

Page 12: Analytisk statistik - pingpong.ki.se · Analytisk statistik Med analytisk statistik avses metoder och tekniker för statistisk inferens, dvs. metoder för att dra slutsatser om en

Hypotesprövningens p-värde

▪ Sannolikheten för att man får det resultat man faktiskt observerat (eller mer extremt) i stickprovet under förutsättning att nollhypotesen (H0) är sann. Notera att p är en sannolikhet och måste därför ligga mellan 0 och 1.

▪ Exempel: Om nollhypotesen är att andelen kvinnliga studenter vid KI är 50%, och vi i vårt stickprov har hittat 54% kvinnliga studenter så anger p-värdet sannolikheten för att vi skulle hitta ett stickprov med minst 54% kvinnor under förutsättning att det i studiepopulationen (dvs. hela KI) bara finns 50% kvinnor.

Page 13: Analytisk statistik - pingpong.ki.se · Analytisk statistik Med analytisk statistik avses metoder och tekniker för statistisk inferens, dvs. metoder för att dra slutsatser om en

Hypotesprövningens p-värde

Ett lågt p-värde talar för:

▪ att det är osannolikt att vi skulle få de observerade mätvärdena om nollhypotesen (ingen skillnad) vore sann.

▪ att nollhypotesen är orimlig och kan förkastas.

Page 14: Analytisk statistik - pingpong.ki.se · Analytisk statistik Med analytisk statistik avses metoder och tekniker för statistisk inferens, dvs. metoder för att dra slutsatser om en

Hypotesprövningens signifikansnivå

Hur lågt måste p-värdet vara för att vi skall förkasta nollhypotesen?

▪ Denna gräns bestäms genom signifikansnivån α (alfa)

▪ Det finns ingen given gräns för α utan denna bestäms utifrån vilken risk man är beredd att ta att dra fel slutsats.

Page 15: Analytisk statistik - pingpong.ki.se · Analytisk statistik Med analytisk statistik avses metoder och tekniker för statistisk inferens, dvs. metoder för att dra slutsatser om en

Osannolikhet

▪ Vi kan välja att definiera en ”osannolik händelse”som en händelse som bara inträffar 1 av 20 gånger

(5 av 100) om H0 är sann (oftare om den är falsk).

variationer inom konfidensintervall beror sannolikt på

slumpen

variationer utanför konfidensintervall beror osannolikt på

slumpenjättenormalt (jättesannolikt)

normalt (sannolikt)

mindre normalt (mindre sannolikt)

osannolikt

Page 16: Analytisk statistik - pingpong.ki.se · Analytisk statistik Med analytisk statistik avses metoder och tekniker för statistisk inferens, dvs. metoder för att dra slutsatser om en

Slumpmässiga fel

I verkligheten…

Analysen

påvisar…

…finns det en

skillnad

..finns det ingen

skillnad

… en

skillnad

Sant positiv Falskt positiv

…ingen

skillnad

Falskt negativ Sant negativ

Typ I fel

Typ II fel

Page 17: Analytisk statistik - pingpong.ki.se · Analytisk statistik Med analytisk statistik avses metoder och tekniker för statistisk inferens, dvs. metoder för att dra slutsatser om en

Typ I och typ II fel

▪ Vi riskerar ALLTID att begå ett misstag i vårt antagande

typ I-fel: förkastar nollhypotesen trots att den är sann (vi finner

en falsk skillnad)

typ II-fel: accepterar nollhypotesen trots att den är falsk (vi

lyckas inte påvisa en sann skillnad)

▪ Hur stor risk är vi beredda att ta?

högt -värde risk för typ I-fel

lågt -värde risk för typ II-fel

Page 18: Analytisk statistik - pingpong.ki.se · Analytisk statistik Med analytisk statistik avses metoder och tekniker för statistisk inferens, dvs. metoder för att dra slutsatser om en

Hypotesprövningens signifikansnivå

▪ Normalt att acceptera 5% risk att slumpen orsakar

resultatet (α = 0.05)

▪ Vi anger accepterad risknivå (signifikansnivå) för att

begå fel i tolkningen av resultatet

exempel: =5% ger ett 95% konfidensintervall

exempel: =1% ger ett 99% konfidensintervall

Page 19: Analytisk statistik - pingpong.ki.se · Analytisk statistik Med analytisk statistik avses metoder och tekniker för statistisk inferens, dvs. metoder för att dra slutsatser om en

Tolkning av p-värde

▪ Om p-värdet ligger under signifikansnivån kan vi förkasta nollhypotesen och anse den alternativa hypotesen vara mest trolig.

▪ Om p-värdet ligger över signifikansnivån kan nollhypotesen inte förkastas och resultatet motsäger inte nollhypotesen. Vi kan då inte uttala oss om hur trolig den alternativa hypotesen är som förklaring.

▪ Exempel: Om p-värdet för H0 : Andel kvinnor = Andel män är 0.09 och α = 0.05 så kan vi ej förkasta H0. Om p-värdet däremot är 0.02 kan H0 fökastas.

Page 20: Analytisk statistik - pingpong.ki.se · Analytisk statistik Med analytisk statistik avses metoder och tekniker för statistisk inferens, dvs. metoder för att dra slutsatser om en

Ensidigt och tvåsidigt test

▪ Ett ensidigt test kan användas om man med säkerhet vet att en

eventuell förändring bara kan gå i en viss riktning

▪ Om man inte vet i vilken riktning en förändring kan gå, måste ett

tvåsidigt test väljas. Om man tvivlar tvåsidigt test

Page 21: Analytisk statistik - pingpong.ki.se · Analytisk statistik Med analytisk statistik avses metoder och tekniker för statistisk inferens, dvs. metoder för att dra slutsatser om en

Hypotesprövningens steg

1. Formulera hypoteser (H0 och H1)

2. Bestäm signifikansnivå

3. Bestäm testfunktion och beräkna p-värde

4. Bestäm om H0 kan förkastas eller inte

Page 22: Analytisk statistik - pingpong.ki.se · Analytisk statistik Med analytisk statistik avses metoder och tekniker för statistisk inferens, dvs. metoder för att dra slutsatser om en

Gruppövning

1. Formulera en enkel frågeställning och en forskningshypotes som går att undersöka empiriskt.

2. Ställ upp H0 och H1

3. Anta = 0.05

4. Hitta på ett valfritt p-värde

Förklara med enkla ord vilka slutsatser ni skulle kunna dra av er undersökning givet 1-4.

Page 23: Analytisk statistik - pingpong.ki.se · Analytisk statistik Med analytisk statistik avses metoder och tekniker för statistisk inferens, dvs. metoder för att dra slutsatser om en

Exempel på studie med parvis jämförelse

▪ Vi undersöker om forin är den samma på långt och

kort avstånd

▪ Hypoteserna som ska testas

H0: Forin påverkas inte av fixationsavståndet.

H1: Forin har inte samma vinkel på långt och nära avstånd.

Page 24: Analytisk statistik - pingpong.ki.se · Analytisk statistik Med analytisk statistik avses metoder och tekniker för statistisk inferens, dvs. metoder för att dra slutsatser om en

Frekvensdiagram på uppmätta forivärden

Histogram

PCT på avstånd och nära före behandling

PCT 1 LH PCT 1 NH

0 1 2 3 4 5 6 7 8 9 10 11 120

1

2

3

4

5

No o

f obs

PCT 1 LH: N = 17; Mean = 4,1176; StdDv = 3,4257; Max = 12; Min = 0

PCT 1 NH: N = 17; Mean = 11,8824; StdDv = 4,7682; Max = 18; Min = 4

HistogramPCT på avstånd och nära före behandling

PCT 1 LH PCT 1 NH

0 1 2 3 4 5 6 7 8 9 10 11 120

1

2

3

4

5

No o

f obs

Page 25: Analytisk statistik - pingpong.ki.se · Analytisk statistik Med analytisk statistik avses metoder och tekniker för statistisk inferens, dvs. metoder för att dra slutsatser om en

Frekvensdiagram med normalkurvor på

forivärdenHistogram

PCT på avstånd och nära före behandling

PCT 1 LH PCT 1 NH

0 1 2 3 4 5 6 7 8 9 10 11 120

1

2

3

4

5

No o

f obs

PCT 1 LH: N = 17; Mean = 4,1176; StdDv = 3,4257; Max = 12; Min = 0

PCT 1 NH: N = 17; Mean = 11,8824; StdDv = 4,7682; Max = 18; Min = 4

Page 26: Analytisk statistik - pingpong.ki.se · Analytisk statistik Med analytisk statistik avses metoder och tekniker för statistisk inferens, dvs. metoder för att dra slutsatser om en

Har forin samma vinkel på långt och kort

avstånd?Kan skillnaden i forimätningarna uppstått av slumpen?

Histogram

PCT på avstånd och nära före behandling

PCT 1 LH PCT 1 NH

0 1 2 3 4 5 6 7 8 9 10 11 120

1

2

3

4

5

No o

f obs

Page 27: Analytisk statistik - pingpong.ki.se · Analytisk statistik Med analytisk statistik avses metoder och tekniker för statistisk inferens, dvs. metoder för att dra slutsatser om en

Har forin samma vinkel på långt och kort

avstånd?Kan skillnaden i forimätningarna uppstått av slumpen?

Medel -95% KI +95% KI

Histogram

PCT på avstånd och nära före behandling

PCT 1 LH PCT 1 NH

0 1 2 3 4 5 6 7 8 9 10 11 120

1

2

3

4

5

No

of o

bs

PCT 1 LH 4,11 2,36 5,87 3,42 -2,59 10,83PCT 1 NH 11,88 9,43 14,33 4,77 2,54 21,23

Vi behöver göra en statistisk analys!

Medel

-95% KI

medelv.

+95% KI

medelv. SD

-95% KI

fördeln.+95% KI

fördeln.

Page 28: Analytisk statistik - pingpong.ki.se · Analytisk statistik Med analytisk statistik avses metoder och tekniker för statistisk inferens, dvs. metoder för att dra slutsatser om en

Statistiska tester

Utgår från:

▪ typen (kvalitén) av data

▪ om data är normalfördelat eller inte

▪ hur många grupper som ska jämföras

Page 29: Analytisk statistik - pingpong.ki.se · Analytisk statistik Med analytisk statistik avses metoder och tekniker för statistisk inferens, dvs. metoder för att dra slutsatser om en

T-test

▪ Förhållande mellan en eller två

grupper på en kontinuerlig

variabel

Page 30: Analytisk statistik - pingpong.ki.se · Analytisk statistik Med analytisk statistik avses metoder och tekniker för statistisk inferens, dvs. metoder för att dra slutsatser om en

T-test

▪ Resultatvariabeln alltid på y-axeln

▪ Kräver kvantitativ normalfördelad data

län

gd

(m

)

män kvinnor

Page 31: Analytisk statistik - pingpong.ki.se · Analytisk statistik Med analytisk statistik avses metoder och tekniker för statistisk inferens, dvs. metoder för att dra slutsatser om en

”Lilla” t-testet (one-sample t-test)

Används vanligen om man vill undersöka om medelvärdet i en grupp skiljer sig från ett hypotetiskt värde

Exempel:

▪ Vi undersöker patienter som drabbats av en viss åkomma och testar om medelåldern för insjuknande skiljer sig från ett hypotetiskt värde, 60 år.

▪ Vi erhåller p = 0.0005 ( = 0.05)

▪ Slutsats: medelåldern för insjuknande skiljer sig från 60 år.

▪ InStat-demo

Page 32: Analytisk statistik - pingpong.ki.se · Analytisk statistik Med analytisk statistik avses metoder och tekniker för statistisk inferens, dvs. metoder för att dra slutsatser om en

Oberoende t-test (independent samples t-test)

Används vanligen om man vill undersöka skillnader i medelvärde mellan två oberoende grupper vid samma tidpunkt

Exempel:

▪ Vi undersöker om män och kvinnor som drabbats av åkomman är olika gamla i snitt

▪ Vi erhåller p = 0.43 ( = 0.05)

▪ Slutsats: vi kan inte med säkerhet säga att det finns en åldersskillnad.

▪ InStat-demo

Page 33: Analytisk statistik - pingpong.ki.se · Analytisk statistik Med analytisk statistik avses metoder och tekniker för statistisk inferens, dvs. metoder för att dra slutsatser om en

Beroende t-test (dependent samples t-test)

Används vanligen om man vill undersöka skillnader inom samma grupp (två mätningar) över tid. Mätningarna vid de två tidpunkterna är beroende av varandra eftersom det är samma personer i båda distributionerna.

Exempel:

▪ Vi undersöker om patienter som drabbats av åkomman svarar positivt på behandling, dvs. om det finns en skillnad (positiv) före och efter behandling

▪ Vi erhåller p = 0.001 ( = 0.05)

▪ Slutsats: patienter svarar positivt på behandling

▪ InStat-demo

Page 34: Analytisk statistik - pingpong.ki.se · Analytisk statistik Med analytisk statistik avses metoder och tekniker för statistisk inferens, dvs. metoder för att dra slutsatser om en

Gruppövning

Utifrån er tidigare frågeställning, finns det något t-test som verkar tillämpbart för att testa er hypotes? Om inte, försök förklara varför.

Page 35: Analytisk statistik - pingpong.ki.se · Analytisk statistik Med analytisk statistik avses metoder och tekniker för statistisk inferens, dvs. metoder för att dra slutsatser om en

ANOVA – analysis of variance

▪ Förhållandet mellan tre eller fler kategorier (förklaringsvariabel)

på en kontinuerlig variabel (resultatvariabel)

Page 36: Analytisk statistik - pingpong.ki.se · Analytisk statistik Med analytisk statistik avses metoder och tekniker för statistisk inferens, dvs. metoder för att dra slutsatser om en

ANOVA – analysis of variance

▪ Resultatvariabeln alltid på y-axeln

▪ Kräver kvantitativ normalfördelad data

▪ Analysera dataset: LUSvärde

inko

mst (k

r)

läkare ingenjör pilot

Page 37: Analytisk statistik - pingpong.ki.se · Analytisk statistik Med analytisk statistik avses metoder och tekniker för statistisk inferens, dvs. metoder för att dra slutsatser om en

Chi-2 / Fisher Exakt test

Korstabellanalys av data på nominalskale-nivå

▪ Nollhypotes: det föreligger ingen skillnad i proportioner mellan

grupperna

alt.1 Analyserar observerade frekvenser (O) vilka jämförs med

förväntade frekvenser (E)

alt.2 Jämför två grupper mot varandra som inte är matchade (ej

beroende av varandra)

Page 38: Analytisk statistik - pingpong.ki.se · Analytisk statistik Med analytisk statistik avses metoder och tekniker för statistisk inferens, dvs. metoder för att dra slutsatser om en

Chi-2 / Fisher Exakt test

▪ Analysera dataset: Hjärtrytm

Page 39: Analytisk statistik - pingpong.ki.se · Analytisk statistik Med analytisk statistik avses metoder och tekniker för statistisk inferens, dvs. metoder för att dra slutsatser om en

3. Regressionsanalys

Page 40: Analytisk statistik - pingpong.ki.se · Analytisk statistik Med analytisk statistik avses metoder och tekniker för statistisk inferens, dvs. metoder för att dra slutsatser om en

3. Regressionsanalys

▪ Målet är att skapa en matematisk funktion som bäst passar observerade data

▪ Funktionen beskriver det dynamiska sambandet mellan två (eller fler) variabler

▪ Funktionen kan användas för att förutsäga (predicera) värdet på en variabel utifrån kunskapen om en annan

Page 41: Analytisk statistik - pingpong.ki.se · Analytisk statistik Med analytisk statistik avses metoder och tekniker för statistisk inferens, dvs. metoder för att dra slutsatser om en

Enkel linjär regression

Page 42: Analytisk statistik - pingpong.ki.se · Analytisk statistik Med analytisk statistik avses metoder och tekniker för statistisk inferens, dvs. metoder för att dra slutsatser om en

Vilka statistiska metoder korrelerar

med varandraParametriska metoder Icke parametriska metoder

Skillnader mellan oberoende grupper

T-test för oberoende data Mann-Whitney test (2 oberoende stickprov)

ANOVA/MANOVA Kruskal-Wallis test ( 3 oberoende)

Skillnader mellan beroende grupper

T-test för beroende data Wilcoxon's matched pairs test

ANOVA Friedman's test

Samband mellan variabler

Korrelations koefficient Spearman

Kategorisk data (ingen motsvarighet i parametriska)

Chi-square test

the Phi coefficient

the Fisher exact test