Grundläggande Biostatistik

Preview:

DESCRIPTION

Grundläggande Biostatistik. Joacim Rocklöv, Lektor Epidemiologi och global hälsa Umeå Universitet. Modellbaserad analys Regression Logistisk regression Överlevnadsanalys. Konfidensintervall P-värden (enkla tester). Formell analys. Hitta misstag Hantera extremvärden Bortfall. - PowerPoint PPT Presentation

Citation preview

Grundläggande Biostatistik

Joacim Rocklöv, LektorEpidemiologi och global hälsaUmeå Universitet

Formellanalys

Informell data analys

Design och mätningHur samlas data in?

Mätskalorreliabilitetvaliditet

Lär känna data, tabeller, mått, grafer

Hitta misstag Hantera extremvärden Bortfall

KonfidensintervallP-värden (enkla tester)

Modellbaserad analysRegressionLogistisk regressionÖverlevnadsanalys

Syften..

•Skatta prevalens och risker för insjuknande av sjukdom

•Jämföra utfall av behandling tex läkemedel/rehabiliteringsmetoder

•Kartlägga riskfaktorer, dvs faktorer som ökar risken för sjukdom

•Följa förlopp – tillväxtkurvor, etc…

Strategi vid kliniska prövningar

- Sample size beräkningar

-Datainsamling

-Beskrivande statistik

-Statistisk analys

-Inferens

- Presentation/publikation

Mätning

Variabel

Kvantitativ Kategorisk

Diskret Kontinuerlig Ordnad Ej ordnad

• Utfallsvariabler – primära/sekundära

• Behandlingsvariabler/riskfaktorer – variabler som påverkar utfallet

• Bakgrundsvariabler – demografiska variabler

• Förväxlingsvariabler – confounders/inflytelserika men ej intressanta variabler för frågeställningen

Grupper av variabler

Datanivåer(typer av variabler)

Kvalitativa variabler = kategorivariabler

Kvantitativa variabler = numeriska variabler

Nominala variabler

Utfallen är kategorier som inte kan rangordnas

Ordinala variabler

Utfallen är ordnade kategorier

Intervall- variabler

Kan beräkna differenser men inte kvoter

Kvot- variabler

Kan beräkna differenser och kvoter

Blodtyp KönYrkeRökning (ja/nej)

VAS-skalanBetyg Självskattad hälsa, smärta Rökning (nej, lite, mycket)

Temperatur Mätt i C° F°

K°LängdVikt, ålderRökning (antal cigaretter per dag)

 

Variabel Kategorier Typ av variabel

Datanivå

ID

Kön Man/Kvinna Kat Nominal Binär

Blodgrupp O, A, B, AB Kat Nominal

VIKT Mätt i kg Kvant Kontinuerlig

Rökare Nej, Ja Kat Nominal Binär

Smärta Obetydlig, Måttlig,Svår, Outhärdlig

Kat Ordinal

Vårddagar Antal vårdagar Kvant Diskret

Orsak verkan samband?

x y

x y

x påverkar y

x är associerad med y

Studiedesign

Experiment

Klinisk prövning

Observationsstudie

Tvärsnitts-undersökning

Longitudinellundersökning

Kohortstudie Fall-kontrollstudie

Randomiserad kontrollerad studie

Patienter

Behandling

Kontroll/Placebo

Randomisering

Utfall

Utfall

Fler armar kan förekomma

Kohort studie

Population

Exponerade

Ej exponerade

Utfall

Utfall

Fall kontroll studie

Fall

Kontroller

Exponerade

Ej exponerade

Tvärsnitts-studie

Population Urval

Mätningar

Analys och inferens

Sant medelvärde

Population Urval

Urvalsmetod

Inferens

Skattning avsant medelvärde

Inferens 2: Hypotesprövning

Skiljer sig män och kvinnor åt vad avser kroppstemperatur?

P-värde = 0.024 Slutsats: ?

Report

temp_c

sex Mean N Std. DeviationMan 36,7248 65 ,38820

Kvinna 36,8855 65 ,41305

Total 36,8051 130 ,40732

Statistisk inferens

de metoder som används för att utifrån ett stickprov dra slutsatser om en hel

population.

Hypotesprövning

Vid prövning av behandlingsmetod på två grupper:H0: ingen skillnad mellan grupperHA: skillnad mellan grupper När väljer vi nollhypotesen och när förkastar vi den till fördel för den alternativa hypotesen?

Konfidensintervall

•Skattningar är osäkra på grund av att vi studerar en del av populationen.•Skattningar kan ges med FELMARGINAL.•Det kallas KONFIDENSINTERVALL.•Konfidensintervallet anges med grad av osäkerhet som kallas konfidensnivå (95%, 99%, etc)

Konfidensintervall

intervall som inkluderar det sanna medelvärdet nästan säkert (95%).

Kroppstemperatur

Konfidensintervallet blir 36.73 – 36.88

Detta intervall inkluderar populationens medelvärde nästan säkert (med 95% konfidens)

P-värde

p-värde = sannolikheten för det erhållna utfallet eller extremare under förutsättning att nollhypotesen är sann.

• Om denna sannolikhet är liten tror vi att nollhypotesen är falsk. Vi förkastar nollhypotesen.

• Om denna sannolikhet är stor kan vi inte förkasta nollhypotesen.

Praxis för bedömning av p-värden

p > 0.05 ingen skillnad (ej signifikant)

0.05>p>0.01 skillnad (signifikant *)

0.01>p>0.001 skillnad (signifikant **)

0.001>p skillnad (signifikant ***)

Typ I och II fel

Null Hypothesis is true (H0)

Alternative Hypothesis is true (HA)

Reject Null Hypothesis-Negative

Right decision Type 2 error (β)

Reject Null Hypothesis-Positive

Type 1 error (α) Right decision

H0: grupp1=grupp2

HA: grupp1≠grupp2

Type 1 error is referred to as false positiveType 2 error is referred to as false negative

Begreppet power – studiens styrka• Sannolikheten att kunna påvisa en skillnad mellangrupper (tex behandlingsgrupper) om den finns där

• Utgör en komponent vid bestämning av studiens storlek

• Andra komponenter är:• Den minsta skillnad vi vill kunna påvisa• Risk för ett falskt positivt fynd (alfa-fel)• Storleken av spridningen i utfallet• Val av metod

Presentation av data

Bild

Mått

Tabell

Val styrs av variabeltyp

Lägesmått

Medelvärde

Median ”Mittersta värdet”

n

xx

n

ii

1 36.8 gr C

36.8 gr C

Variationsmått

Standardavvikelse

Kvartilavstånd (IQR)

Variationsvidd (Range)

1

)(1

2

n

xxs

n

ii s = 4.13 år

q1 = 36.56, q3 = 37.06 IQR= 0.5 grC

max =38.22, min = 35.72 VV = 2.5

Grafisk beskrivning: Histogram

-3 -2 -1 -0 1 2 3 4

X

0.0

0.1

0.2

0.3

0.4

Y

Referens

Weight of child at birth (g)

4900.0

4700.0

4500.0

4300.0

4100.0

3900.0

3700.0

3500.0

3300.0

3100.0

2900.0

2700.0

40

30

20

10

0

Std. Dev = 458.39

Mean = 3793.7

N = 284.00

År styrka i höger och vänster hand associerade?

Grafisk bild av samband (scatter plot)

Grafisk beskrivning: Boxplot

Tabellpresentation

Jämförelse mellan grupper