Analytisk statistik - pingpong.ki.se · Analytisk statistik Med analytisk statistik avses metoder och tekniker för statistisk inferens, dvs. metoder för att dra slutsatser om en

Analytisk

statistik

Mattias Nilsson Benfatto, [email protected]

Beskrivande statistik – kort repetition

▪ Centralmått

▪ Spridningsmått

▪ Normalfördelning

▪ Konfidensintervall

▪ Korrelation

Analytisk statistik

Med analytisk statistik avses metoder och tekniker för

statistisk inferens, dvs. metoder för att dra slutsatser om

en population genom att analysera egenskaper hos

slumpmässiga stickprov ur populationen

Statistisk inferens

Statistisk inferens

Analys av stickprovet ger oss information om

populationen, förutsatt att stickprovet är:

▪ tillräckligt stort

▪ slumpmässigt utvalt från populationen

▪ normalfördelat

Metoder för statistisk inferens

1. Punktestimering och skattning av konfidensintervall

Att utifrån stickprov dra slutsatser om populationens egenskaper

2. Hypotesprövning

Att utifrån stickprov jämföra grupper och dra slutsatser om

signifikanta skillnader mellan grupperna

3. Regressionsanalys

Att utifrån stickprov dra slutsatser om sambandet mellan två

(eller fler) variabler och förutsäga värdet på en variabel utifrån

kunskapen om en annan

1. Punktestimering och skattning av

konfidensintervall

Exempel: Man vill veta hur mycket svenska 10-åringar tittar på TV per dag

▪ Ur populationen ”alla 10-åringar” görs ett urval och ur detta dras ett stickprov. Dessa intervjuas om hur länge de tittar på TV.

▪ Medelvärdet för detta stickprov var 2,6 timmar.

▪ 95% konfidensintervall ger gränserna 2,4 till 2,8 tim.

▪ Med 95% sannolikhet ser en svensk 10-åring mellan 2,4-2,8timmar på TV per dag.

2,6 2,4 2,8

punktestimatnedre gräns övre gräns

2. Hypotesprövning

Istället för att enbart estimera hur det ser ut i

populationen försöker vi att statistiskt pröva hypoteser

om populationen som stickprovet kommer ifrån.

Nollhypotes (H0)

▪ Ett antagande om ingen skillnad eller samband föreligger. Att

slumpen är orsaken till det erhållna värdet.

Alternativhypotes (H1) (forskningshypotesen)

▪ Ett antagande om att det finns en skillnad eller ett samband. Att det

finns en annan orsak än slumpen till det erhållna värdet.

Hypotesprövning

▪ Den grundläggande frågan är alltid om vårt stickprovsresultat gäller generellt (i populationen) eller är ett resultat av slumpmässiga variationer.

▪ Vi behöver en metod för att hantera osäkerheten i en urvalsundersökning.

▪ Hypotesprövningen testar om slumpverkan kan ses som orsaken till forskningsresultatet.

▪ Vi testar hypotesens giltighet genom en sannolikhetsberäkning.

Att ställa upp en hypotes

Exempel: Med hjälp av en stickprovsundersökning vill vi utforska om det finns en jämn fördelning av kvinnliga och manliga studenter på Karolinska Institutet.

H0 : Andel kvinnor = Andel män

Pröva om andelen kvinnor är skilt från andelen män

▪ H1 : Andel kvinnor ≠ Andel män (dubbelsidig mothypotes)

Pröva om andelen kvinnor är större än andelen män

▪ H1 : Andel kvinnor > Andel män (enkelsidig mothypotes)

Pröva om andelen kvinnor är mindre än andelen män

▪ H1 : Andel kvinnor < Andel män (enkelsidig mothypotes)

Hypotesprövningens p-värde

▪ Sannolikheten för att man får det resultat man faktiskt observerat (eller mer extremt) i stickprovet under förutsättning att nollhypotesen (H0) är sann. Notera att p är en sannolikhet och måste därför ligga mellan 0 och 1.

▪ Exempel: Om nollhypotesen är att andelen kvinnliga studenter vid KI är 50%, och vi i vårt stickprov har hittat 54% kvinnliga studenter så anger p-värdet sannolikheten för att vi skulle hitta ett stickprov med minst 54% kvinnor under förutsättning att det i studiepopulationen (dvs. hela KI) bara finns 50% kvinnor.

Hypotesprövningens p-värde

Ett lågt p-värde talar för:

▪ att det är osannolikt att vi skulle få de observerade mätvärdena om nollhypotesen (ingen skillnad) vore sann.

▪ att nollhypotesen är orimlig och kan förkastas.

Hypotesprövningens signifikansnivå

Hur lågt måste p-värdet vara för att vi skall förkasta nollhypotesen?

▪ Denna gräns bestäms genom signifikansnivån α (alfa)

▪ Det finns ingen given gräns för α utan denna bestäms utifrån vilken risk man är beredd att ta att dra fel slutsats.

Osannolikhet

▪ Vi kan välja att definiera en ”osannolik händelse”som en händelse som bara inträffar 1 av 20 gånger

(5 av 100) om H0 är sann (oftare om den är falsk).

variationer inom konfidensintervall beror sannolikt på

slumpen

variationer utanför konfidensintervall beror osannolikt på

slumpenjättenormalt (jättesannolikt)

normalt (sannolikt)

mindre normalt (mindre sannolikt)

osannolikt

Slumpmässiga fel

I verkligheten…

Analysen

påvisar…

…finns det en

skillnad

..finns det ingen

skillnad

… en

skillnad

Sant positiv Falskt positiv

…ingen

skillnad

Falskt negativ Sant negativ

Typ I fel

Typ II fel

Typ I och typ II fel

▪ Vi riskerar ALLTID att begå ett misstag i vårt antagande

typ I-fel: förkastar nollhypotesen trots att den är sann (vi finner

en falsk skillnad)

typ II-fel: accepterar nollhypotesen trots att den är falsk (vi

lyckas inte påvisa en sann skillnad)

▪ Hur stor risk är vi beredda att ta?

högt -värde risk för typ I-fel

lågt -värde risk för typ II-fel

Hypotesprövningens signifikansnivå

▪ Normalt att acceptera 5% risk att slumpen orsakar

resultatet (α = 0.05)

▪ Vi anger accepterad risknivå (signifikansnivå) för att

begå fel i tolkningen av resultatet

exempel: =5% ger ett 95% konfidensintervall

exempel: =1% ger ett 99% konfidensintervall

Tolkning av p-värde

▪ Om p-värdet ligger under signifikansnivån kan vi förkasta nollhypotesen och anse den alternativa hypotesen vara mest trolig.

▪ Om p-värdet ligger över signifikansnivån kan nollhypotesen inte förkastas och resultatet motsäger inte nollhypotesen. Vi kan då inte uttala oss om hur trolig den alternativa hypotesen är som förklaring.

▪ Exempel: Om p-värdet för H0 : Andel kvinnor = Andel män är 0.09 och α = 0.05 så kan vi ej förkasta H0. Om p-värdet däremot är 0.02 kan H0 fökastas.

Ensidigt och tvåsidigt test

▪ Ett ensidigt test kan användas om man med säkerhet vet att en

eventuell förändring bara kan gå i en viss riktning

▪ Om man inte vet i vilken riktning en förändring kan gå, måste ett

tvåsidigt test väljas. Om man tvivlar tvåsidigt test

Hypotesprövningens steg

1. Formulera hypoteser (H0 och H1)

2. Bestäm signifikansnivå

3. Bestäm testfunktion och beräkna p-värde

4. Bestäm om H0 kan förkastas eller inte

Gruppövning

1. Formulera en enkel frågeställning och en forskningshypotes som går att undersöka empiriskt.

2. Ställ upp H0 och H1

3. Anta = 0.05

4. Hitta på ett valfritt p-värde

Förklara med enkla ord vilka slutsatser ni skulle kunna dra av er undersökning givet 1-4.

Exempel på studie med parvis jämförelse

▪ Vi undersöker om forin är den samma på långt och

kort avstånd

▪ Hypoteserna som ska testas

H0: Forin påverkas inte av fixationsavståndet.

H1: Forin har inte samma vinkel på långt och nära avstånd.

Frekvensdiagram på uppmätta forivärden

Histogram

PCT på avstånd och nära före behandling

PCT 1 LH PCT 1 NH

0 1 2 3 4 5 6 7 8 9 10 11 120

1

2

3

4

5

No o

f obs

PCT 1 LH: N = 17; Mean = 4,1176; StdDv = 3,4257; Max = 12; Min = 0

PCT 1 NH: N = 17; Mean = 11,8824; StdDv = 4,7682; Max = 18; Min = 4

HistogramPCT på avstånd och nära före behandling

PCT 1 LH PCT 1 NH

0 1 2 3 4 5 6 7 8 9 10 11 120

1

2

3

4

5

No o

f obs

Frekvensdiagram med normalkurvor på

forivärdenHistogram


PCT 1 LH PCT 1 NH

0 1 2 3 4 5 6 7 8 9 10 11 120

1

2

3

4

5

No o

f obs

PCT 1 LH: N = 17; Mean = 4,1176; StdDv = 3,4257; Max = 12; Min = 0

PCT 1 NH: N = 17; Mean = 11,8824; StdDv = 4,7682; Max = 18; Min = 4

Har forin samma vinkel på långt och kort

avstånd?Kan skillnaden i forimätningarna uppstått av slumpen?

Histogram


PCT 1 LH PCT 1 NH

0 1 2 3 4 5 6 7 8 9 10 11 120

1

2

3

4

5

No o

f obs

Har forin samma vinkel på långt och kort

avstånd?Kan skillnaden i forimätningarna uppstått av slumpen?

Medel -95% KI +95% KI

Histogram


PCT 1 LH PCT 1 NH

0 1 2 3 4 5 6 7 8 9 10 11 120

1

2

3

4

5

No

of o

bs

PCT 1 LH 4,11 2,36 5,87 3,42 -2,59 10,83PCT 1 NH 11,88 9,43 14,33 4,77 2,54 21,23

Vi behöver göra en statistisk analys!

Medel

-95% KI

medelv.

+95% KI

medelv. SD

-95% KI

fördeln.+95% KI

fördeln.

Statistiska tester

Utgår från:

▪ typen (kvalitén) av data

▪ om data är normalfördelat eller inte

▪ hur många grupper som ska jämföras

T-test

▪ Förhållande mellan en eller två

grupper på en kontinuerlig

variabel

T-test

▪ Resultatvariabeln alltid på y-axeln

▪ Kräver kvantitativ normalfördelad data

län

gd

(m

)

män kvinnor

”Lilla” t-testet (one-sample t-test)

Används vanligen om man vill undersöka om medelvärdet i en grupp skiljer sig från ett hypotetiskt värde

Exempel:

▪ Vi undersöker patienter som drabbats av en viss åkomma och testar om medelåldern för insjuknande skiljer sig från ett hypotetiskt värde, 60 år.

▪ Vi erhåller p = 0.0005 ( = 0.05)

▪ Slutsats: medelåldern för insjuknande skiljer sig från 60 år.

▪ InStat-demo

Oberoende t-test (independent samples t-test)

Används vanligen om man vill undersöka skillnader i medelvärde mellan två oberoende grupper vid samma tidpunkt

Exempel:

▪ Vi undersöker om män och kvinnor som drabbats av åkomman är olika gamla i snitt

▪ Vi erhåller p = 0.43 ( = 0.05)

▪ Slutsats: vi kan inte med säkerhet säga att det finns en åldersskillnad.

▪ InStat-demo

Beroende t-test (dependent samples t-test)

Används vanligen om man vill undersöka skillnader inom samma grupp (två mätningar) över tid. Mätningarna vid de två tidpunkterna är beroende av varandra eftersom det är samma personer i båda distributionerna.

Exempel:

▪ Vi undersöker om patienter som drabbats av åkomman svarar positivt på behandling, dvs. om det finns en skillnad (positiv) före och efter behandling

▪ Vi erhåller p = 0.001 ( = 0.05)

▪ Slutsats: patienter svarar positivt på behandling

▪ InStat-demo

Gruppövning

Utifrån er tidigare frågeställning, finns det något t-test som verkar tillämpbart för att testa er hypotes? Om inte, försök förklara varför.

ANOVA – analysis of variance

▪ Förhållandet mellan tre eller fler kategorier (förklaringsvariabel)

på en kontinuerlig variabel (resultatvariabel)

ANOVA – analysis of variance

▪ Resultatvariabeln alltid på y-axeln

▪ Kräver kvantitativ normalfördelad data

▪ Analysera dataset: LUSvärde

inko

mst (k

r)

läkare ingenjör pilot

Chi-2 / Fisher Exakt test

Korstabellanalys av data på nominalskale-nivå

▪ Nollhypotes: det föreligger ingen skillnad i proportioner mellan

grupperna

alt.1 Analyserar observerade frekvenser (O) vilka jämförs med

förväntade frekvenser (E)

alt.2 Jämför två grupper mot varandra som inte är matchade (ej

beroende av varandra)

Chi-2 / Fisher Exakt test

▪ Analysera dataset: Hjärtrytm



▪ Målet är att skapa en matematisk funktion som bäst passar observerade data

▪ Funktionen beskriver det dynamiska sambandet mellan två (eller fler) variabler

▪ Funktionen kan användas för att förutsäga (predicera) värdet på en variabel utifrån kunskapen om en annan

Enkel linjär regression

▪

Vilka statistiska metoder korrelerar

med varandraParametriska metoder Icke parametriska metoder

Skillnader mellan oberoende grupper

T-test för oberoende data Mann-Whitney test (2 oberoende stickprov)

ANOVA/MANOVA Kruskal-Wallis test ( 3 oberoende)

Skillnader mellan beroende grupper

T-test för beroende data Wilcoxon's matched pairs test

ANOVA Friedman's test

Samband mellan variabler

Korrelations koefficient Spearman

Kategorisk data (ingen motsvarighet i parametriska)

Chi-square test

the Phi coefficient

the Fisher exact test

Documents

Analytisk statistik - pingpong.ki.se · Analytisk statistik Med analytisk statistik avses metoder och tekniker för statistisk inferens, dvs. metoder för att dra slutsatser om en