View
3
Download
0
Category
Preview:
Citation preview
ANVENDT BIOSTATISTIK for forskere og forskerspirer
2019
DANISH INSTITUTE FOR DATA SCIENCE
Ph.d. Gunnar Hellmund Laier, info@addastat.com
2
FORORD
Dette er en note med supplerende materiale til kurset Anvendt
Biostatistik til forskere og forskerspirer indenfor sundhed.
Anvendt statistik består i sin kerne af en række fælles begreber og
metoder. Alligevel er det en udfordring at finde både emnevalg,
fremstillingsmetode og redskaber, der kan dække behovene i så
bred en gruppe af forskere. Kurset lægger op til, at forskerne danner
sig et overblik over centrale begreber, får kendskab til beregninger i
en konkret statistikpakke og orienterer sig tilstrækkeligt i standarder,
forsøgsdesign og grænselandet mellem statistik og epidemiologi.
Forskeren skal efter deltagelse i kurset Anvendt Statistik i være i
stand til at foretage forberedende statistiske analyser i forhold til
eget projekt, og forstå krav til metodevalg og på mere avanceret
niveau udføre dækkende statistiske beregninger og tolkning i forhold
til egne forskningsresultater bistået af en erfaren statistiker.
Det sekundære formål med kurset er at give forskeren bedre
mulighed for på lige fod med andre at deltage i kurser om mere
specialiserede emner alt efter forskerens behov.
3
DANISH INSTITUTE FOR DATA SCIENCE
Biostatistisk vejledning tilbydes forskere og forskergrupper,der ikke
får dækket behov for vejledning og analyse i deres lokale
forskningsenhed. Siden start har vi arbejdet med en 5-timers ramme
for hvert forskningsprojekt, timer derudover faktureres. Dog går vi
ofte ind og understøtter et projekt helt frem til processen omkring
peer-review og publikation.
Alle forskningsprojekter kan modtage hjælp til design,
styrkeberegning, statistisk programmering, analyse, fortolkning og
publikation i enten artikelform, konferencebidrag eller posters.
Adressen er info@addastat.com
Kontakthjemmesiden er dids.dk. På hjemmesiden finder I også hjælp
til at søge midler til forskning, anmelde forsøg til datatilsynet samt
oplysninger om statistisk software til data bearbejdning og analyse.
Gunnar Hellmund Laier
biostatistisk konsulent
Sorø, september 2018
4
PRAKTISK INFORMATION OM R
Opgaver i dette supplement til undervisningen i Anvendt Biostatistik
benytter R, fordi alle med sikkerhed kan installere denne statistiske
programpakke på deres egen PC.
Der er flere versioner af R: En standard version til 32 og 64 bit
Windows, Linux og Apple platformene, samt Microsoft R Open, der
tilbyder optimering i forhold til beregninger over flere kerner.
Den mest anvendte brugergrænseflade til R er RStudio, hvor I kan
finde nogle få men centrale hjælpemenuer og et redskab til literate
programming. I literate programming skrives forklaringer eller
artikeltekst omkring koden. Tekst formateres og resultater fra koden
indsættes automatisk, så man ikke skal skrive alt om hver gang man
ændrer data eller foretager skift i sin analysestrategi.
Deducer er en anden R frontend, men der er mange flere R
hjælpeværktøjer, ligesom R benyttes på serverløsninger til enten at
foretage dataforberedende beregninger eller estimation til
præsentation i Business Intelligence (BI) løsninger.
Jupyter er således en moderne online front end til R.
Den eksplosive udvikling i anvendelsen af R skyldes det akademiske
miljø indenfor statistisk forskning samt en meget alsidig platform og
kodebase. R giver mulighed for at kalde beregningskerner skrevet i
C, Fortran og andre programmeringssprog; ligesom man kan kalde R
funktioner i mange forskellige programmeringsmiljøer på mange
forskelligartede platforme.
5
ANDEN STATISTISK SOFTWARE
Der findes hundrede, hvis ikke tusindvis af hjemmesider med
beregningsalgoritmer, der ofte ikke giver helt det samme svar eller
konklusion på samme spørgsmål. Personer med forskellig baggrund
har udarbejdet disse sider med eksempler og dannet dokumentation,
der lever op til kravene indenfor disse personers eget
arbejdsområde, selvom metoderne skal anvendes med forsigtighed
af andre. Tilsvarende findes der forskellige pakker til R, som lader til
at svare på samme spørgsmål, selvom resultaterne er forskelligartet.
Man kan ikke uden grundig gennemlæsning af dokumentation og
forståelse af statistik vælge det rigtige redskab til sin analyse.
Indenfor de traditionelle kommercielle programpakker er det lettere
at foretage mere sikre valg på grund af en række begrænsninger og
brugerhensyn:
• SPSS: Region Sjælland tilbyder licenser til SPSS, der udvikles
og markedsføres af IBM. En forholdsvis dyr programpakke med
fordyrende udvidelsespakker.
• SAS: Forskere med tilknytning til et af de danske universiteter
har ofte adgang til SAS og JMP licenser samt andet software.
En alternativ version SAS University Edition kan installeres
gratis på din hjemmecomputer, når du er studerende, selvom
forskellige sikkerhedshensyn ikke gør det muligt at bruge
denne SAS version på en Region Sjælland PC. SAS er langt den
dyreste løsning i blandt de mest populære statistiske
programpakker.
• STATA: Programpakken Stata benyttes i rigtig mange
grundlæggende og videregående biostatistikkurser på de
danske universiteter, blandt andet fordi Statas syntax ligger
tæt op ad metodik baseret på epidemiologiske termer. Stata er
relativt set den billigste kommercielle statistiske
softwarepakke.
6
STATISTIK OG TILGRÆNSENDE OMRÅDER
I dette kursus introduceres en række grundlæggende statistiske
termer med henblik på anvendelse indenfor sundhedsforskning.
Biostatistiske metoder har sin oprindelse i matematik og forskning
indenfor både naturvidenskab og sundhedsvidenskab.
Variabilitet har mennesket altid interesseret sig for, både som et
begreb med relation til overtro og spil og som en del af vurderinger
med stor betydning indenfor handel, administration og videnskab.
Første gang en række astronomiske observationer sammenfattes
med mindste kvadraters metode er det på baggrund at Carl Friedrich
Gauss arbejde (1777-1855, Göttingen D) Gauss stod ogå bag mange
helt grundlæggende begreber og teorier indenfor moderne
matematik, og ønskede at kvantificere, hvorvidt han kunne forklare
variationen i observationerne. Mindste kvadraters metode benyttes
til almindelig regression, hvor dens forholdsvis milde antagelser er
ækvivalent med likelihoodbaseret estimation og inferens for
normalfordelte data.
Figur 1: Göttingen, Carl Friedrich Gauss (1840, Christian Albrecht Jensen)
7
Matematik blev i det tyvende århundrede anvendt mere systematisk
og formelt indenfor mange emneområder. Moderne statistik er et af
de store emneområder, som oplevede en rivende udvikling i flere
parallelle forløb. De mest centrale anvendelser og moderne forskning
i forsøgsdesign og statistisk metode fulgte Ronald Fishers (1890-
1962) arbejde indenfor jordbrugsforskning i England. Indenfor
kvalitetsudviklingsarbejde systematiserede Walter Shewhart (1891-
1967) statistisk kvalitetskontrol i USA. En anden central skikkelse,
der bør nævnes, er John Tukey (1915-2000) Tukey arbejdede blandt
andet for AT&T Bell Laboratories og berørte emneområder indenfor
særligt industri og fysik.
Figur 2: Ronald Fisher (1913) Walter Shewhart (?) samt John Tukey (?)
I hverdagen møder en akademiker anvendt statistik i mange
forskelligartede sammenhænge. Mest fremtrædende er
spørgeskemaundersøgelser. Spørgeskemaundersøgelser anvendes til
kvalitetsundersøgelser indenfor sundhedsforskning og i
observationelle studier, der kan inddrage forskellige typer af mixed
methods, hvor man kombinerer kvantitative data og kvalitative
redskaber. Normalfordelingen og forskellige former for ttests,
regression og multivariat statistik, som vi ellers ser anvendt i
forbindelse med kliniske forsøg, er helt centrale redskaber i
fortolkning af spørgeskemaundersøgelser. Den omfangsrige brug af
spørgeskemaundersøgelser er understøttet af den måde vi generelt
8
arbejder data både i papirform og virtuelt.
I dag kan vi lettere stille krav og danne fleksible designs for
dataindsamling og kvalitetssikring, som udtrykker de ønsker vi har til
præcision og vores evne til at drage konklusioner. Der foreligger
data om alle aspekter af menneskers liv og omverden, og der er
ingen grænser for, hvordan vi ønsker at kombinere og systematisere
den viden, der kan opnås på baggrund af data.
Regression og multivariat statistik, der i høj grad bygger på
forståelse af det matematiske emneområde linear algebra, er
traditionelt anvendt indenfor forsøg, hvor man benytter
variansanalyse til at beskrive observationsrækker, ændringer over tid
og forskel mellem grupper i blandt andet kliniske randomiserede
forsøg.
Kvalitetsarbejde har udviklet sig noget anerledes og givet anledning
til anvendelse af mange robuste metoder, som førhen har været
diskuteret indenfor økonometri og industriel statistik. Robuste
metoder anvendes, når man ikke har helt kontrol over
dataindsamling eller ønsker at træffe rationelle beslutninger på et
forholdsvis usikkert grundlag. I dag suppleres både traditionelle og
robuste metoder af simulation med computerbaseret sampling og de
nyeste landvindinger indenfor datalogi. Dette har forøget
anvendelsesmulighederne og givet flere lyst til at lære og anvende
statistik indenfor det, der populært kaldes data mining, deep
learning og data science.
9
VIDENSKABELIG VIDEN
Videnskabelig viden, hvad er det? På en skala fra spekulation til
sandhed, hvor ligger de erkendelser vi gør i forbindelse med forsøg
og analyse af data? Indenfor sundhedsforskning og
samfundsforskning kan vi opstille et hierarki for de mest anvendte
metoder. Indenfor sundhedsforskning benyttes begrebet evidens, og
mere generelt ønsker vi, at opnå stor sikkerhed for de konklusioner,
der drages på baggrund af videnskabelig forskning og statistisk
metode. Diskussionen er ikke kun et spørgsmål om udvikling af
statistisk metode, men indgår i sammenhæng med epidemiologiske
overvejelser og anskuelser om begrebet kausalitet.
Figur 3: Evidenspyramiden
Det vil overraske mange, at meta-analysen er øverst i
evidenspyramiden illustreret ovenfor. Meta-analyser gennemføres
forholdsvis sjældent på trods af deres relevans for litteraturstudier,
forundersøgelser og pilotstudier. Mange vil i planlægningen af deres
undersøgelse kunne drage fordel af at sammenfatte viden fra andres
10
forsøg, samtidig med, at de får et realistisk billede af konteksten for
deres egne resultater. Litteraturstudier danner ofte grundlag for
studiedesign og stikprøveberegninger, samt den statistiske
analyseplan. Når det er muligt kan litteraturstudiet også danne
grundlag for en metaanalyse, der kan anvendes i enten
diskussionsafsnit eller helt separat publikation. Metaanalysen indgår
naturligt i en strategi for dataindsamling og publikation. Ligesom
litteraturstudiet understreget metaanalysen, hvad der er interessant
for allerede etablerede forskere indenfor et område. Metaanalysen
står i sammenhæng med det systematiske review, og bør supplere
dette, når det er muligt.
Evidenspyramiden skal ikke mistolkes. Er det mere naturligt, at en
undersøgelse gennemføres som et observationelt studie, fremfor et
randomiseret kontrolleret forsøg, bør man vælge det observationelle
studie. Er det svært at samle alle nødvendige data selv, kan man
under danske forhold ofte supplere med centrale kilder, herunder
viden fra specialernes databaser og de nationale registre, både de
offentligt tilgængelige statistikker og de lukkede registre. De centrale
registre kan ofte for en mindre udgift supplere forskeren eller
forskergruppen med tilstrækkelig information til, at der kan
foretages beregning af enten direkte eller indirekte standardiserede
incidenser og oddsratioer, eller der kan gennemføres matchede
studier. Det er en mulighed, der står åben for forskere i både den
offentlige sektor og det private erhvervsliv, herunder de mange
konsulenthuse.
EFFEKTSTØRRELSE
Evidensbaseret forskning bør forholde sig til estimater og
størrelsesforhold kvantificeret ud fra den iboende variabilitet data
udtrykker. En parameter estimeret indenfor en statistisk model
suppleres med en standard afvigelse, der ud fra antallet af
observationer, giver anledning til at danne et konfidensinterval for
estimatet og et prædiktionsinterval for observationer.
11
EKSEMPEL
Lad os betragte et estimat for en forskel ℎ, som vi antager er en
realisation af en stokastisk variabel Θ. Vi antager, at Θ er
approksimativt normalfordelt og har standard afvigelsen 𝜎. Standard
error er lig spredningen delt med kvadratroden af antallet af
observationer 𝑛, og er et estimat for spredningen på estimatet for
forskellen. Derfor kan vi danne et approksimativt 𝛼 konfidensinterval
[ℎ − 1.96 ∙𝜎
√𝑛; ℎ − 1.96 ∙
𝜎
√𝑛]
idet 1 − 𝛼/2 percentilen i en standard normalfordeling er 1.96, når
𝛼 = 0.05, det vil sige, når signifikansniveauet er 5%.
Indenfor rammen af frekventistisk statistik er tolkningen af
konfidensintervallet, at gentager vi forsøget under samme forhold og
med samme antal observationer, vil den sande værdi ligge i
konfidensintervallet i 95% af forsøgene. Ønsker vi at vurdere, om
modellen med rimelighed kan siges at afspejle variabiliteten i data,
kan vi danne et prædiktionsinterval for observationerne. Her
forventer vi at dække 95% af observationerne, selvom der er plads
til nogle afvigelser
[ℎ − 1.96 ∙ 𝜎; ℎ − 1.96 ∙ 𝜎]
Prædiktionsintervallet er på ingen måde en tilstrækkelig kontrol af
en model, men vil i flere tilfælde kunne anskueliggøre om der er
store afvigelser fra modellens forventninger.
Men hvilken skala skal ℎ vurderes på? Her må vi måle afstand i
forhold til spredning på estimatet som i tilfældet med
konfidensintervallet og prædiktionsintervallet. Hvis vores estimat
repræsenterer den virkelighed, vi har målt, er forskelle små eller
store relativt i forhold til størrelsen af spredningen 𝜎, som på den
måde definerer skalaen for effektstørrelsen.
12
Ser vi på kontraster, det vil sige differenser på tværs af grupper eller
interventioner, herunder forskellige niveauer af eksponering, giver
det mening at tale om effekt ud fra den konkret estimerede forskel
vurderet i forhold til variabiliteten, Cohens’ d er et eksempel:
𝑑 =�̅�1 − �̅�2
𝑠𝑝𝑜𝑜𝑙𝑒𝑑, 𝑠𝑝𝑜𝑜𝑙𝑒𝑑 = √
(𝑛1 − 1)𝑠12 − (𝑛2 − 1)𝑠2
2
𝑛1 + 𝑛2 − 2
Effektstørrelsen udtrykt som Cohens’ d er standardiseret og skal
dermed vurderes i standard normalfordelingen, hvor vi omtaler
percentilerne som z-scores.
Notationen Z er ofte anvendt i sammenhæng med standardnormalfordelingen 𝑁(0,1). Hvis en teststørrelse kaldes 𝑍, 𝑍∗ eller variationer herover, er det et hint til, at
betragtningerne for størrelsen involverer normalfordelingen.
Et ikke-biased alternativ til Cohens’ d er Hedges’ g, som i mange
sammenhænge omtales som d.
𝑔∗ = (1 −3
4(𝑛1 + 𝑛2) − 9)
�̅�1 − �̅�2
𝑠𝑝𝑜𝑜𝑙𝑒𝑑
Standard error er for effektmålet
𝑠𝑒𝑑 = √𝑛1 + 𝑛2
𝑛1𝑛2+
𝑑2
2(𝑛1 + 𝑛2)
13
Bias betyder afvigelse fra sand værdi.
Der findes mange forskellige typer bias, bias på estimater fra matematiske og statistiske modeller, der skyldes misspecifikation eller forkert datagrundlag, eller bias, som opstår på baggrund af andre dispositioner og valg:
1) Informationsbias herunder observatørbias, interviewerbias, recall (genkaldelses) og responsbias, socialt betinget (social desirability) bias, performancebias (på baggrund af viden om allokering), detektionsbias (forskelle i indsamling mellem grupper) instrumentielbias (måleinstrumentet måler forskelligt mellem grupper)
2) Selektionsbias der indbefatter sampling bias, allokeringsbias, loss to follow-up i kohorte studier tilsvarende attritionsbias i randomiserede kliniske studier. Selektionsbias overvejes forskelligt afhængigt af, om designet er case-kontrol, kohorte eller randomiseret forsøg.
Der er mange alternativer, og estimater for effektstørrelser skal
vælges ud fra den måde statistik og parametre tolkes og anvendes.
Udover Cohens’ d og Hedges’ g er der eta-squared 𝜂2 og omega-
squared 𝜔2, der ligesom R-squared er mål for andelen af forklaret
variation. OR, RR1 er andre effektstørrelser, ligesom enhver
korrelation er effektmål.
Pearsonkorrelationer mellem to kontinuerte mål 𝑥 og 𝑦 på samme
objekter, hvilket ofte vil sige items i et patient spørgeskema eller
andre mål af personlig karakter, er defineret som
𝜌 = ∑(𝑥𝑖 − �̅�)(𝑦𝑖 − �̅�)
𝑛 − 1
1 Risiko ratioer (RR) er forholdet mellem risici eller prævalens og bør aldrig anvendes i studier, hvor populationsafgrænsningen og rekruttering påvirker forekomsten af cases (prævalente cases) såsom case kontrol studier. Analyseres sjældne begivenheder er OR og RR approksimativt ens, og der benyttes metoder til at estimere OR i vurderingen af RR.
14
Spearmans’ 𝜌 udregnes med samme formel, men i stedet for
værdier indsættes rangene udregnet indenfor hvert mål.
Heterokoriske, polykoriske og polyserielle korrelationer danner
mulighed for at betragte association som effektmål i mange
sammenhænge på både kontinuert, ordinale og nomial skala.
Pearson, Spearman og Kendall korrelationer er de mest velkendte.
Korrelationer er af særlig betydning i forbindelse med multivariate
statistik, hvor korrelations- og kovariansmatricer2 sammen med
antallet af observationer er eneste input i estimationstrinnet. Det er
derfor ikke irrelevant at være fortrolig med, hvilken
korrelationskoefficient man ønsker at udregne inden man udtaler sig
om associationer i en multivariat analyse, baseret på for eksempel
en strukturel ligningsmodel. Svaret for lægmand er ofte at anvende
den korrelation, som instrumentet og målemetoden blev udarbejdet
med, selvom det støder til opfattelsen af sammenhæng mellem de
realiserede data, afgrænsningen af modellen samt
fortolkningsrammen for analysen. Oftest er Pearsonkorrelationen
derfor det rigtige mål, ligesom man ikke bekymrer sig alt for meget
om normalfordelingsantagelser.
METAANALYSEN
Vi så at metaanalysen er øverst i evidenspyramiden, selvom den i
forhold til både design og statistisk metode ikke er den mest
udfordrende øvelse. Metaanalysen kræver brug af forskellige
justeringsmetoder herunder Mantel-Haenszel og anvendelse af
blandt andet lineære mixed models. Det er mest almindeligt at
basere metaanalysen på parameterestimater, så vi vil ikke diskutere
andre tilfælde, men se mere på de overordnede krav og give et
eksempel på en beregning. Populationer bag undersøgelser, der
indgår i en metaanalyse, skal være sammenlignelige og estimater
2 Korrelationsmatricen er kovariansmatricen, hvor hver indgang divideres med kvadratroden af bidraget på diagonalen fra rækken og tilsvarende for bidraget fra diagnolaen fra søjlen. Husk at indgangene i en kovariansmatrix på diagonalen er varianserne, og kovarianserne udenfor diagonalen.
15
skal kunne sammenholdes. Diskussionen af effektmål og tilhørende
størrelser er derfor særlig relevant for valg af datagrundlag for
metaanalysen og metodevalget.
En undersøgelse benytter måske middelværdi, spredning eller
standard error3 eller en specifik forskel og effektmål for denne
forskel, medens en anden undersøgelse benytter median og
interkvartil interval i beskrivelsen af en populationsgruppe.4
Medianen er 50% percentilen, observationen i midten, når observationerne sorteres efter deres størrelsesorden. Percentiler kan udregnes på mange forskellige måder afhængigt af hvorvidt en værdi kan optræde mere end en gang. Kvartilerne er 25% og 75% percentilerne, interkvartil range er intervallet mellem nedre og øvre kvartil. Der arbejdes også med kvintiler, deciler og mange andre tilsvarende begreber.
EKSEMPEL
Vi benytter R til at generere en observationsrække og illustrerer
derefter begreberne, middelværdi, spredning, median og percentiler
samt range.
x <- runif(100) #100 observationer fra den uniforme på [0,1] round(x*100)/100 #Afrundede værdier [1] 0.17 0.97 0.80 0.30 0.04 0.27 0.92 0.15 0.49 0.81 0.19 0.76 0.95 0.66 0.35 0.83 0.34 0.86 0.03 0.75 0.51 0.73 0.84 0.71 0.54 0.29 0.48 [28] 0.65 0.23 0.57 0.45 0.96 0.69 0.77 0.22 0.43 0.85 0.61 0.68 0.65 0.13 0.01 0.83 0.06 0.32 0.50 0.73 0.47 0.76 0.29 0.81 0.30 0.55 0.75 [55] 0.96 0.79 0.07 0.26 0.68 0.57 0.90 0.67 0.08 0.33 0.71 0.44 0.08 0.15 0.56 0.14 0.43 0.86 0.51 0.79 0.11 0.59 0.69 0.98 0.12 0.46 0.90 [82] 0.58 0.44 0.28 0.84 0.24 0.35 0.50 0.24 0.00 0.82 0.05 0.03 0.76 0.53 0.12 0.89 0.79 0.49 0.51
3 Standard error er spredning delt med kvadratroden af antallet af observationer. 4 Forskelle i måden at gennemføre analyser og afrapportere resultater fra disse, kræver ofte meget specifik viden for at korrekte omregninger kan udføres, alligevel må man ofte skønne og foretage approximationer. Medianen er et estimat for middelværdien i en symmetrisk fordeling, medens 1.4826 gange MAD (median adjusted deviations) er et estimat for spredningen. MAD er medianen af de normerede værdier af de enkelte observationers afvigelser fra det empiriske gennemsnit. Se referencer i Optimally estimating the sample mean from the sample size, median, mid-range, and/or mid-quartile range. Luo et al, Statistical Methods in Medical Research 2018, Vol. 27(6) 1785–1805
16
rank<-order(x) #Udregning af range rank[1] #Hvilken observation i observationsrækken x er mindst? [1] 90 #Det var observationen i indgang 90 i observationsvektoren #Vi tilskriver nu hver observation dens rang og gemmer data df<-as.data.frame(x) df$rank<-rank[rank] #De første 10 observationer > df[1:10,] x rank 1 0.16854715 72 2 0.96606110 48 3 0.80132175 11 4 0.29934955 81 5 0.03984063 5 6 0.27011704 97 7 0.92285244 9 8 0.15042233 82 9 0.48546177 62 10 0.80649335 77 #Median > median(df$x) [1] 0.5234041 quantile(df$x) 0% 25% 50% 75% 100% 0.004219293 0.279787930 0.523404088 0.759172108 0.980990830 summary(df$x) #Min, max, kvartiler, median og gennemsnit Min. 1st Qu. Median Mean 3rd Qu. Max. 0.004219 0.279788 0.523404 0.512926 0.759172 0.980991 > sd(df$x) #Standard afvigelse [1] 0.2849197
Ikke alle undersøgelser medtager tilstrækkelig information til, at det
giver mening at foretage sammenligninger og en ordentlig meta-
analyse vil ofte kræve en håndfuld studier eller mere med ikke al for
stor variation i stikprøvestørrelserne og populationsgrundlag.
For observationsrækken 𝑥1, … , 𝑥𝑛 er gennemsnittet �̅� et estimat for middelværdien 𝜇
�̅� =1
𝑛∑ 𝑥𝑖
Standard afvigelsen 𝑠𝑑, som er kvadratet på de residuelle afvigelser delt med
kvadratroden af 𝑑𝑓 = 𝑛 − 1, er et estimat for spredningen 𝜎
𝑠𝑑 =1
√𝑛 − 1∑(𝑥𝑖 − �̅�)2
UDREGNING AF EFFEKTSTØRRELSE FOR FORSKEL UDFRA T TESTSTØRRELSE
En omskrivning af effektstørrelsen benyttes til at regne baglæns
17
𝑑 = 𝑡√𝑛1 + 𝑛2
𝑛1𝑛2
Udtrykket giver også et udtryk for 𝑑, når p-værdien er kendt, idet vi
benytter formlen efter at have udregnet t-teststørrelsen med
udgangspunkt i p-værdien. Dette kan vi gøre, fordi t fordelingen er
symmetrisk og strengt aftagende omkring nul, idet vi selvfølgelig
skal huske, om vi har foretaget et dobbeltsidet eller ensidet test.
METAANALYSE EKSEMPEL
Metaanalysen kan bygges op omkring effektmodeller og lineære
mixed models. I blandt de første er Mantel-Haenszel metoden, der er
en generel metode til at kombinere estimater. Denne er anvendt i
mange sammenhænge, og i statistisk analyse i særlig grad i
sammenhæng med stratificerede analyser, når der skal korrigeres
for konfoundere. Metoden beskrives mest enkelt for 2x2 tabeller, og
vi kan vælge at se Mantel-Haenszel som en metode til at
gennemføre en metaanalyse af Odds ratioer på tværs af en række
studier, der sammenholder en eksponeringsfaktor med antallet af
cases:
Case Noncase
Eksponeret a b
Ikkeeksponeret c d
Tabel 1: Oddsratioen (OR) defineres som ad/bc, hvor odds for de eksponerede er a/b.
Mantel-Haenszel proceduren for OR kan beskrives som en vægtning
af OR estimater fra forskellige undersøgelser, hvor n betegner antal:
𝑂𝑅𝑀𝐻 =1
∑𝑏𝑖𝑐𝑖
𝑛𝑖
∑𝑎𝑖𝑑𝑖
𝑛𝑖=
1
∑ 𝑤𝑖∑ 𝑂𝑅𝑖𝑤𝑖 , 𝑤𝑖 =
𝑏𝑖𝑐𝑖
𝑛𝑖.
Metaanalyser er principielt enkle, men værktøjerne er avancerede og
for omfattende til, at vi kan beskrive dem i denne note. Det er dog
18
værd at se på sammenhængen med lineære mixed models for
kontinuerte mål. Vi forudsætter normal fordelte data, og har for
hvert studie information om middelværdi estimat, spredning og antal
observationer. I eksemplerne nedenfor har vi tre studier med 111,
200 og 80 observationer5, hvilket er i underkanten for en
metaanalyse, man ønsker at publicere. Analysen kan alligevel være
interessant som guideline før en stikprøveberegning eller
simulationsbaseret styrkeberegning.
R EKSEMPEL6
install.packages("nlme")
library(nlme)
dat<-as.data.frame(cbind(yi<-c(14.48,12.73,12.89),vi<-
c(1.99,0.11,2.91)/sqrt(c(111,200,80)),study<-1:3))
names(dat)<-c("yi","vi","study")
res.lme <- lme(yi ~ 1, random = ~ 1 | study, weights = varFixed(~ vi),
control=lmeControl(sigma = 1),data=dat)
summary(res.lme)
STATA EKSEMPEL
SAS EKSEMPEL7
DESIGN
Når en relevant hypotese er genereret, og du har lagt dig fast på de
emner, din undersøgelse skal beskæftige sig med, skal der vælges et
korrekt design. Designet for undersøgelsen skal derudover vælges
med hensyn til de begrænsninger, der er sat af projektets ressourcer
og de metoder, der med rimelighed kan anvendes på baggrund af de
data undersøgelsen frembringer.
5 Estimater for middelværdi er 14,48 12,73 og 12,89 og for spredning 1,99 0,11 og 2,91 6 I R anbefales pakken metafor, der også kan producere relevante plots. 7 Vi benytter i dette eksempel lineære mixed models, der indenfor samfundsvidenskaberne ofte har anvendelse i forbindelse med multi level modelling.
19
RANDOMISERET KONTROLLERET FORSØG
Et randomiseret kontrolleret forsøg kan designes meget enkelt, hvis
ikke der er mangel på patienter gennem allokering til to eller flere
arme og der foretages en eller flere sammenligninger mellem
grupperne over tid set i forhold til eksponering.
I begrebet randomisering ligger der flere lag med relation til
begrebet afblænding. Er randomiseringen blændet for deltagerne,
for personerne der udfører forsøget i samarbejde med deltagerne
og/eller personerne, som administrerer og analyserer studiet.
Randomiseringsleddet er helt centralt for gennemførelsen, at det på
forhånd skal planlægges nøje, og der er i dag mange muligheder for
hjælp af online redskaber og softwareredskaber8. Det er i øvrigt
vigtigt at understrege at patienter sjældent randomiseres individuelt,
men tilordnes til forskellige eksponeringsgrupper gennem
blokrandomisering, hvor blokke er givet ud fra forsøgets størrelse og
andre praktiske omstændigheder.9
I designet af et randomiseret kontrolleret forsøg skal der tages højde
for, at undersøgelsen skal være repræsentativ samtidig med, at
patienter, der let kan skævvride resultaterne ekskluderes. Det skal
på forhånd også overvejes om frafald har større betydning i en arm
med en bestemt type eksponering set i forhold til øvrige, samtidig
med at der tages stilling til, hvordan frafald håndteres i analyserne.
Frafald er ofte skævt og ikke fuldstændig tilfældigt, hvilket gør valg
af imputationsmetoder mere delikate end de fleste bryder sig om.
8 https://www.sdu.dk/da/om_sdu/institutter_centre/klinisk_institut/forskning/forskningsenheder/open/opens_faciliteter/open+randomise https://www.randomizer.org/ https://www.sealedenvelope.com/ 9 Et eksempel kunne være forventet antal patienter på en operationsstue på en hverdag, ugedage med adgang til undersøgelsesrum etc.
20
Heldigvis viser der sig ofte at være mindre afvigelser eller slet ingen,
når forskelle mellem ITT og PP diskuteres.
ITT - Intention To Treat
Beskriver at enhver patient, der er randomiseret til en behandling skal indgå i analysen. Er der frafald eller non-compliance indgår patienten med manglende værdier, hvilket vi i analysen kan vælge at tage højde for gennem imputation: Last value carry forward, replacement with mean, regression, herunder kædebaseret imputation (mice) og forskellige simulationsbaserede multiple imputationsmetoder. ITT princippet danner det ’fuldstændige analyse sæt’. Ofte anvendes ITTm, her står m for modified/modificeret, fordi patienter ikke medtages når der ikke er data til rådighed efter randomisering. Patienter medtages ikke, hvis ikke de modtager behandling.
PP - Per Protocol
Er princippet, der beskriver, at patienter, som medtages i analysen bør overholde alle krav til inklusion, randomisering, behandling og mål. Manglende opfølgning, der potentielt set skyldes behandlingseffekter er ikke eksklusionsgrund.
Opdelingen af forsøgpopulationen før analyse er vigtigt i diskussionen af virkningsfuldhed (efficacy).
Sammenholdes to grupper i et forsøg er det altså en forudsætning at
grupperne er sammenlignelige og repræsentable indenfor den
population, der ønskes beskrevet. Det giver mange lyst til at benytte
matching10 og avancerede designs, såsom crossover designet, hvor
en deltager kan indgå som sin egen kontrol i det omfang, at det er
muligt at udsætte den samme deltager for flere forskellige
eksponeringer adskilt over tid, på sådan en måde at udgangspunktet
for patienten er det samme fra gang til gang.
Crossover designet i sin mest banale form er af typen AB BA med to perioder, hvor den ene deltagergruppe i første periode eksponeres for behandling A, medens den anden eksponeres for behandling B og omvendt i næste periode. Hver enkelt patient modtager begge behandlinger i to forskellige perioder. Det skal i forbindelse med
10 Matching stiller krav til valg af analysemetode, hvor der benyttes stratificering eller betinget regression. (Time to) Event data kræver indenfor hvert stratum et antal events / non-event for hvert niveau af de indgående faktorer. Derfor benyttes i dag ofte propensity score matching samt optimal og greedy matching.
21
design og analyse sikres, at der ikke er en periodeeffekt, ligesom der ikke må være en effekt af rækkefølgen af eksponeringen. Patienten skal altså ikke kunne opleve en permanent forværring eller forbedring som følge af den ene eller anden behandling. Tiden mellem perioderne, også kaldet washout skal afgrænses meningsfuldt. Der findes hundredevis af forskellige crossover designs, og redskaber til at vælge det rigtige. Se R pakken Crossover, der blandt andet giver en GUI med en række valg og en søgealgoritme. Der findes også flere bøger om emnet: Design and Analysis of Cross-Over Trials (Chapman & Hall/CRC 2014) 3rd Edition by Jones & Kenward.
22
STATISTISK METODE
I analysen af data fra et randomiseret kontrolleret forsøg benyttes
alt lige fra t-tests til Cox proportional hazards. Dette giver meget
forskelligartede udfordringer.
Først og fremmest opdeles i primære og sekundære endepunkter.
Ønskes flere sammenligninger foretaget skal det besluttes om der
skal tages højde for alpha-inflation. Dette kan gøres ved direkte at
ændre signifikansniveauet eller foretage korrektion for flere
sammenligninger. Bonferronikorrektion11 er ofte nævnt, men
anvendelsen kan diskuteres. Foretages der interim eller posthoc
analyser, eller reduktioner i en sammenfattende model? Bør
resultater i fremstillingen inddeles i signifikant på 5%, 1% og 0.1%
niveau? Bør der i overvejelserne af primære endemål foretages test
af sammensatte hypoteser i en serie af reduktioner før en række
hypoteser vurderes (simultant) hvilket reducerer behovet for
korrektion?
Er studiet prospektivt bør der benyttes overlevelsesanalyse til time-
to-event data, ligesom både t-test, ANOVA, RMANOVA og lineære
mixed models kan anvendes på kontinuerte data. Der findes
sammenfattende tests, og ingen valg er helt entydige med mindre
der er meget klarhed før undersøgelsen omkring sammenhængen
mellem målinger, herunder korrelationer over tid og størrelsen af de
indgående værdier indenfor og imellem grupperne, ligesom der skal
være rimelig klarhed over forekomsten af frafald og manglende
værdier.
Tilsvarende er chi-i-anden tests og Fishers eksakt samt logistiske
regressionsmodeller et oplagt valg til retroperspektive studier. Det er
11 Der er mange alternativer, herunder Sidak korrektion og simulationsbaserede korrektioner.
23
dog ikke ualmindeligt, at der suppleres med en KM kurve for hver
gruppe og et log-rank test.
I den traditionelle tankegang, der går tilbage til Ronald Fisher og
forsøg med allokering til kvadrater med designs indenfor jordbrug, er
det klart, at der hele tiden arbejdes indenfor rammerne af en
statistisk varianskomponent model, hvor der kan stilles flere
spørgsmål om effekt af forskellige variable. Modellen reduceres
gennem en serie af tests, og estimater tolkes i den endelige model.
Så enkel er en analyse sjældent i dag, selvom variansanalyse også
kan være en udfordring, da traditionelle metodevalg ofte ikke tillader
interaktion, kræver balanceret design og sikkerhed om
fordelingsantagelser12 I dag kan der metodemæssigt tages højde for
mange uregelmæssigheder. Det får dog ofte resultaterne til at
fremstå uklare og om muligt tvetydige, hvis der skal kompenseres
for meget metodemæssigt på designmæssige udfordringer.
Sidstnævnte er årsagen til, at vi også indenfor områder af anvendt
statistik nu ser en større integration med datadrevne metoder, hvor
man kompenserer med flere data, når det kan lade sig gøre.
Adgangen til flere data er blevet bedre, også i sammenhæng med
forskning. Der lægges mere vægt på at kompensere med data og
nye sammenfattende eksplorative redskaber, for hurtigere at komme
i mål i udviklingsprocesser, der derefter leder til forsøg, der er styret
af meget faste rammer, i tilfældet med medinske forsøg, fastlægges
rammerne af myndigheder som FDA i USA og EMEA i EU.
Der er i dag flere paradigmer for statistisk analyse. Det
frekventistiske metodevalg, hvor der også skal tages højde for valg
af parametriske modeller versus ikke-parametrisk statistik herunder
brug af rangbaserede estimatorer og simulation. På den anden side
12 https://en.wikipedia.org/wiki/Analysis_of_variance
24
det bayesianske metodeværktøj, hvor der er andre fortolkninger af
estimater og angivelsen af usikkerheder på estimater.
WILCOXONS TEST
To observationsrækker med 𝑛 og 𝑚 observationer opskrives i én
talfølge med observationerne i ordnet rækkefølge. Første
observation har rangen 1, anden rangen 2 ordnet ud fra
observationernes størrelse. Har flere observationer samme størrelse
𝑥1, … , 𝑥𝑘 = 1,4,6,8,8,9,12
er der flere måder at tage højde for dette på forskellig vis, ens valg
afhænger primært af anvendelse og fortolkningsramme. Det er for
eksempel muligt at benytte gennemsnit (fractional ranking). For
følgen ovenfor hvor 8 optræder to gange, giver dette rangene
1,2,3,4.5,4.5,6,7
Første rang (standard competition ranking) eller sidste rang
(modified competition ranking) kan tilskrives en serie af identiske
observationer eller de kan tilskrives fælles rang, endelig kan vi
ignorere ens værdier13
1,2,3,4,4,6,7
1,2,3,5,5,6,7
1,2,3,4,4,5,6
1,2,3,4,5,6,7
Idet 𝑅1 samt 𝑅2 betegner summerne af rangene for de to
observationsrækker dannes en teststørrelse, ud fra antagelsen om,
13 Ens værdier kaldes på engelsk ties
25
at observationsrækkerne er realisationer fra den samme fordeling.
Wilcoxons rangbaserede test for to observationsrækker er
ækvivalent med Mann-Whitneys U test
𝑈1 = 𝑅1 −𝑛1(𝑛1 + 1)
2
Teststørrelsen er ovenfor udregnet for første observationsrække.
𝑈1 + 𝑈2 = 𝑛1𝑛2.
Almindeligvis benyttes den mindst værdi. Middelværdien er under
antagelse om ens fordeling lig 𝐸[𝑈] =𝑛𝑚
2 og spredningen er
𝜎 = √𝑛𝑚
12(𝑛 + 𝑚 + 1)
Teststørrelsen vurderes efter standardisering i en 𝑁(0,1) fordeling.
𝑧 =𝑈 − 𝐸[𝑈]
𝜎
Har vi en observationsrække, og ønsker vi at teste om denne er
symmetrisk, kan vi benytte testet ved at skelne mellem værdier
omkring middelværdien. Har vi to observationer for hvert individ i en
måleserie, kan vi betragte differenserne. Dette er approksimativt
ækvivalent med Wilcoxons fortegnstest, når antallet af differenser
forskelligt fra 0 er større end 1014. Wilcoxon Mann Whitneys U test er
det ikke parametriske svar på t-testet, medens Wilcoxons
fortegnstest modsvarer det parrede t-test.
14 Se øvelse …
26
I den frekventistiske tankegang ser vi på en række observationer,
grupperede eller ugrupperede. Når vi opstiller en model, antager vi,
at observationerne er realisationer af stokastiske variable, størrelser,
der antager værdier efter en fastlagt fordeling. Er observationerne
ikke uafhængige, skal vi gennem en multivariat fordeling beskrive,
hvordan observationerne korrellerer. Når modellen er opstillet søger
vi at redegøre for, at modellen er velvalgt ved at studerer
afvigelserne fra modellen
𝑟𝑖 = 𝑥𝑖 − 𝑒𝑖
Residualerne er forskellen mellem de observerede værdier og de ud
fra modellen forventede værdier. Et kriterium for, at en model er
velvalgt, er at der ikke er systematiske afvigelser fra modellen. Dette
tyder på misspecifikation eller fordelingsantagelser, der ikke
stemmer overens med det observerede. Det observerede
repræsenterer virkeligheden, som er trolig, hvorfor vi forlanger, at
den statistiske model er trolig. Kan vi redegøre for, at den statistiske
model er trolig, antager vi, at den repræsenterer virkeligheden, og vi
kan deducerer ud fra denne. Det er en præmis, som har ført til
videreudvikling af statistisk metode, blandt andet etableringen af
bayesiansk statistik, men de grundlæggende redskaber er stadig
forankret i matematik og i særlig grad sandsynlighedsteori.
27
R EKSEMPEL
STATA EKSEMPEL
SIMULATION
R EKSEMPEL
STATA EKSEMPEL
Figur 4: Split-plot design i Christchurch NZ15
Endelig er et videnskabeligt eksperiment ikke en ønskekage, hvor
man håber på et signifikant resultat, selvom det står i måne og sol,
at sådan forholder virkeligheden sig ikke. Hvis det er mere oplagt, at
en hypotese omhandler ækvivalens eller man på anden måde bør
15 Se skoven i dag: https://www.google.co.nz/maps/@-43.6193359,172.3448626,773m/data=!3m1!1e3
28
diskutere klinisk signifikans, der ikke skal forveksles med statistisk
signifikans, skal man forholde sig til dette i både design og
metodevalg og angive dette i protokollen for studiet. Dette stiller
krav til viden om anvendte skalaer og deres kliniske anvendelse,
hvilket igen understreger, at litteratursøgning og litteraturstudier
forud for protokolskrivning er meget centralt i dannelsen af
hypoteser for et studie.
EKSEMPLER PÅ SAMMENLIGNINGER
Data i dette eksempel vil blive anvendt til at illustrere både det ikke-
parrede t-test, det parrede t-test, den mest enkle form for
variansanalyse og endelig den mere omfattende kovariansanalyse. Vi
vil undervejs diskutere transformation og tests af akkumulerede mål.
29
T TESTET
R EKSEMPEL
STATA EKSEMPEL
ANOVA
R EKSEMPEL
STATA EKSEMPEL
ANCOVA
R EKSEMPEL
STATA EKSEMPEL
DISKUSSION
OBSERVATIONELLE STUDIER
Det observationelle studie vil indenfor sundhedsforskning oftest
baserer sig på en kohorte, en gruppe af patienter afgrænset af en
række fællestræk angivet ud fra sygdomsbillede eller
behandlingstilbud. Det er heller ikke ualmindeligt at kliniske
databaser anvendes i observationelle studier afgrænset af geografi,
hvilket kan være patienter i en given periode på en række
afdelinger. For lægefagligt personale er det særligt interessant at
observere konsekvenserne af forskellige behandlinger og deres
effekt på komplikationer og overlevelse.
I sygeplejen kan den observationelle studie være afrundingen på
indsamling af kliniske erfaringer og kvalitetsarbejde gennem flere år
med ønske om at danne konklusioner på et tilstrækkeligt
evidensbaseret grundlag.
Selvom der ofte anvendes spørgeskemaer, hvor der stilles en lang
række spørgsmål, er det ofte en opsummerende score, der
anvendes til at belyse den primære hypotese for studiet. Ligesom en
lang række markører belyses i sammenhæng med udfald som
sygdomsforværring eller død. Ligesom de kliniske randomiserede
forsøg er mulighederne for at anvende både prospektive og
30
retroperspektive metoder til stede. Oftere vil opgørelser med tests i
tabeller og sammenligninger i t-tests eller ikke-parametriske tests
såsom Wilcoxon’s rangbaserede test være centralt for beskrivelsen
af de indgående værdier, og analysen vil fokuserer på angivelsen af
ganske få centrale sammenhænge.
Sammenligninger med populationsniveau (regionalt, nationalt,
internationalt) kan være interessante i såkaldte standardiserede
analyser. Disse strækker sig fra udregning af direkte og indirekte
standardiserede incidenser og ratioer til avancerede
regressionsmodeller, der gør det muligt at komme med udsagn om
en bestemt patientgruppe fra et speciale eller om forskelle på tværs
af regionale eller nationale grænser.
STANDARDER
Der findes i dag standarder for de fleste aspekter ved videnskabelige
undersøgelser og forsøg. Ikke blot de etiske retningslinier, der gør
det nødvendigt at få godkendt både forsøgsprotokol og
dataopbevaringsmetode, men også standarder for international
publikation af protokol for forsøg, standarder for design af forsøg,
beregninger af stikprøvestørrelse og styrke, valg af analysemetoder,
afrapportering af ikke kun svære komplikationer til relevante
myndigheder, men formatet der anvendes til at beskrive
korrelationer i tabeller, herunder hvor mange decimaler, du skal
angive, og hvorvidt et komma skal være et punktum hævet til
midten af linien. Standarderne afhænger selvfølgelig af hvilket
tidsskrift du ønsker at publicere resultaterne i, og det er også en
overvejelse, som du bør gøre, når protokollen skrives.
På næste side forefindes et diagram hentet fra en hjemmeside, der
giver et overblik over guidelines indenfor sundhedsvidenskabelig
forskning og kvalitetsfremme. Der er mere end 400 guidelines, nogle
af de væsentligste er CONSORT til randomiserede
31
interventionsstudier og STARD til sammenligning af diagnostiske
test. Ofte har de internationale faglige organisationer standarder og
templates, ligesom tidsskrifterne, som førnævnt, sætter en række
krav, der kan påvirke metodevalg.
Figur 5: Eksempel på CONSORT flowchart, der beskriver forsøgspopulationen.
Ovenfor et eksempel på et CONSORT diagram, der beskriver en
forsøgspopulation. Lige gyldigt hvilket design og metode man
anvender bør man sikre sig, at kunne beskrive populationen med et
passende flowchart. Dette bringer ofte ro omkring både design og
metodevalg. Data kan være indsamlet på en måde, så populationen
ikke lader sig beskrive entydigt i forhold til de analyser man ønsker
at gennemføre. Nedenfor ses et eksempel på en population, hvor tre
forskellige delstudier trækker på samme population. Der er tale om
et nested case-control studie, et retroperspektivt studie og et follow-
up studie baseret på patientmaterialet fra et medicinsk speciale i et
geografisk afgrænset område.
32
Figur 6: Flowchart, der beskriver studiepopulationer og design.
33
34
EPIDEMIOLOGI16
Epidemiologi beskæftiger sig med frekvenser, fordelinger og
forståelsen af etilogiske faktorer i udviklingen af sygdomme.
Figur 7: Den epidemiologiske trekant
Selvom, vi kommer langt med mange studier ved at opstille præcise
hypoteser for centrale mål og teste disse med de rigtige statistiske
metoder på baggrund af videnskabelige forsøg, kommer vi ikke
udenom, at vi forud skal gøre en del overvejelser om kausale
forhold. Det er strengt taget ikke muligt at teste, hvorvidt en faktor
er en konfounder; foregående undersøgelser kan have påvist dette.
Ligesom vi kan identificere en potentiel konfounder, når en faktor er
associeret med både eksponering og udfald, hvilket er definitionen
på konfounding. I analysemetoden tager vi højde for konfounding
gennem justering eller stratificering. Dette har vi allerede set
tidligere i forbindelse med eksemplet på meta-analysen, men
justering for konfounding er for nogen blot en korrektion med brug
16 Epidemiology is the study of the distribution and determinants of disease frequency in man, MacMahon B, Pugh TF (1970) Epidemiology: principles and methods. Little, Brown and Company, Boston, Massachusetts
35
af en kovariabel i en regressionsmodel, medens det for andre er en
betinget regressionsanalyse. Muligvis skyldes disse noget
modstridende principper for henholdsvis epidemiologisk diskussion
og valg af statistiske estimationsmetoder tidligere tiders
begrænsninger, men de består.
Figur 8: Konfoundere, mediatorer, eksponering og udfald.
Diskussionen ender dog ikke med hvorvidt en faktor er konfounder,
og hvordan vi tager højde for denne i vores estimation og inferens.
Vurderingen af de enkelte faktorer i en analyse af forhold mellem
disse samt eksponering og udfald kræver ofte et sæt af marginale
analyser af direkte effekter suppleret med et sæt af simultane
modeller, der beskriver faktorernes indbyrdes relationer.
Epidemiologen vægter ofte den diskuterende analyse, hvor
forskellige relationer anskueliggøres og kvantificeres.
36
Figur 9: Kausalitetsdiagrammer
På helt basalt niveau kan forståelsen, som epidemiologen søger
illustreres med kausalitetsdiagrammer. Flere faktorer kan på
forskellig vis medfører samme lidelse.
Figur 10: Eksempel på konfounding samt forskellige studietyper.
37
STIKPRØVE OG STYRKEBEREGNING
I mange tilfælde vil en standardberegning være udgangspunktet for
valg af stikprøvestørrelse. Det klassiske eksempel er ønsket om at
påvise en forskel på 5 under antagelse om normalfordelte data fra to
observationsrækker med middelværdi 5 og 10 samt spredning 10,
styrke 80% og signifikansniveau 5%. Dette kræver circa 60
observationer i hver gruppe. Bemærk dog, at vi her betragter en
forskel på 50% og en spredning, der er henholdsvis det dobbelte og
lig middelværdien. Sædvanligvis vil detekterbare forskelle i kliniske
forsøg være meget mindre, og vores største udfordring vil være at
finde et korrekt estimat for spredningen. Forholdet mellem
middelværdi og spredning kaldes i øvrigt variationskoefficienten:
𝐶𝑜𝑉 =𝜇
𝜎
Inden vi kan komme videre med beskrivelsen af stikprøve og
styrkeberegning, skal vi vide noget om testteori og fordelinger. Stort
set alle formler, der vedrører stikprøveberegning kan føres tilbage til
en normalfordelingsantagelse, der skyldes en række asymptotiske
forhold, der gør sig gældende under forholdsvis milde betingelser. I
statistik benyttes store tals lov og den centrale grænseværdisætning
samt delta-transformationssætningen til at vurdere mange størrelser
ud fra en antagelse om, at normalfordelingen approksimerer den
bagvedliggende fordeling meget præcist jo større stikprøve, jo flere
observationer, vi lader indgå i vores studie.
TYPE I OG TYPE II FEJL
I statistik antager vi, at hændelser, der tilskrives en lille
sandsynlighed ikke forekommer. Grænsen kaldes signifikansniveauet
og er ofte sat til 5%, 10% eller 1%. Logikken tilskriver, at er
sandsynligheden for at observere en hændelse, som strider mod en
given hypotese under dette niveau, må vi forkaste hypotesen. Antag
helt konkret, at vi betragter en observationsrække 𝑥1, … , 𝑥𝑛 fra en
38
normalfordeling med middelværdi 0 og spredning 1. Vi opstiller
hypotesen, at middelværdien er 0:
H0: Middelværdien af den underliggende fordeling for 𝑥1, … , 𝑥𝑛 er 0.
Antag at gennemsnittet 𝑥.̅ = 𝑥1, … , 𝑥𝑛 er lig 0.02 og at summen af
kvadrerede residuelle afvigelser SSD er 0.4 samt at antallet af
observationer er 20. Vores bedste estimat for middelværdien er 0.02
𝜇 ← 𝑥.̅
og vores estimat for spredningen er
𝜎 ← √𝑆𝑆𝐷
𝑛−1= 0.0918.
Teststørrelsen er forholdet mellem afvigelsen fra nulhypotesen
vurderet i forhold til standard error, som er standard afvigelsen delt
med kvadratroden af antal observationer
𝑡 ←𝑥.̅ − 𝜇0
𝑠. 𝑒.=
√20 ∙ 0.02
0.0918= 0.9747
T-teststørrelsen er ligesom observationsrækken en realisation af en
stokastisk variabel. Vi antager at observationsrækken er en
realisation af en normalfordelt stokastisk variabel og derefter kan
man udlede, at T-teststørrelsen er t fordelt med n-1 frihedsgrader
(antal observationer minus antal parametre i middelværdien).17
Sandsynligheden under nulhypotesen for at opleve en større
afvigelse fra nulhypotesen end den observerede er
𝑝 ← {
1 − 𝐹1,𝑛−1(𝑡2), 𝑡𝑜 𝑠𝑖𝑑𝑒𝑡 𝑡𝑒𝑠𝑡
𝑡𝑛−1(𝑡), ø𝑣𝑟𝑒 𝑡𝑒𝑠𝑡
1 − 𝑡𝑛−1(𝑡) 𝑛𝑒𝑑𝑟𝑒 𝑡𝑒𝑠𝑡
På grund af symmetri er de to nederste værdier ens og deres værdi
er 17.10%, hvilket giver en p-værdi på 34.20% for det tosidede test.
17 Kvadratet på T-teststørrelsen er F fordelt med 1,n-1 frihedsgrader
39
Denne værdi er 29.20 %-point over 5% grænsen, så vi kan ikke
afvise, at hypotesen er sand og antager, at observationsrækken har
middelværdi 0.
T-testet går igen i regressionsmodeller, hvor indikatorer vurderes
med en teststørrelse, der er t-fordelt og afhængig af antallet af
variable, der beskriver middelværdien. F-testet indgår både som
kvadratet på t-fordelte teststørrelser og i de såkaldte likelihood ratio
tests, der kan benyttes til at reducere en model ved at sammenholde
-2 log likelihood værdien for den ene model i forhold til -2 log
likelihood værdien for den anden model forudsat at sidstnævnte
model er en undermodel, dvs. at middelværdien beskrives med et
udvalg af faktorerne, som indgår i beskrivelsen af middelværdien i
den oprindelige model.
Tilsvarende er der T-test for to observationsrækker og disse er
ækvivalente med tests i en regressionsmodel, der inkluderer en
indikator for gruppetilhørsforhold. Har vi to observationsrækker med
to observationer fra samme person, kan vi udføre et parret T-test.
Dette test udføres på differenserne mellem værdierne, hvilket giver
en reduktion i spredningen, og dermed vil vi opleve en større styrke.
T-teststørrelsen bliver større, da s.e. bliver mindre, og vi vil med
større sandsynlighed kunne detektere en given forskel ved at
forkaste den tilsvarende nulhypotese.
Forkaster vi en sand hypotese begår vi en type I fejl, dette
forekommer i et konkret isoleret test med en sandsynlighed på 5%.
Gennemføres flere tests samtidigt øges chancen for at observere
mindst en signifikant p-værdi, hvorfor sandsynligheden for type I fejl
er større end 5%. Accepteres en falsk hypotese har vi en type II fejl.
Er risikoen for en type II fejl 20% er styrken 𝛽 lig 80%, er risikoen
for type II fejl 10% er styrken 90%. I stikprøveberegninger siger vi,
at styrken er sandsynligheden for at kunne detektere en forskel. Ud
over, at vi skal vide, hvad den reelle forskel er, eller hvilken
40
størrelsesorden, den er, skal vi altså specificere signifikansniveau og
styrke i beregninger, som forudsætter viden om observationernes
fordeling. Er observationerne normalfordelte, skal vi have ide om
middelværdier og spredning, da disse karakteriserer fordelingen
fuldstændig. Andre fordelinger kræver kun en enkelt variabel for at
være givet entydigt (eksponentialfordelingen) medens andre igen
kræver tre eller flere parametre for at kunne beskrives.
NORMALFORDELINGEN
Figur 11: Tæthedsfunktionen for normalfordelingen for fire sæt af parametre.
Normalfordelingen er symmetrisk, medianen er lig middelværdien og
der findes en 1-1 afbildning mellem spredning og MAD. 1.96 angiver
97.5% percentilen i en N(0,1) fordeling, -1.96 angiver 2.75%
percentilen. 2 angiver 97.7% percentilen og benyttes ofte som
approksimation til 97.5% percentilen i en række forskellige formler.
Jo mindre spredningen er, desto tættere ligger observationerne på
hinanden, jo større spredningen er, desto mere spredt ligger
observationerne.
41
Figur 12: Tæthedsfunktion, massetæthed, s.d. og percentiler samt z-score.
Hvis vi skal estimere middelværdien i en normalfordeling med en
styrke på 1 − 𝛽 under en antagelse om en mindste detekterbar
forskel på 𝜇 − 𝜇0 og spredning 𝜎 samt signifikansniveau 𝛼, skal vi
betragte teststørrelsen fra tidligere:
𝑡 ←𝑥.̅ − 𝜇0
𝑠. 𝑒.= √𝑛
𝜇 − 𝜇0
𝜎= 𝛿
med en ukendt stikprøvestørrelse på n. Vi kan nu opstille ligningen
1 − 𝛽 = 𝑡𝑛−1 (𝛿 − 𝑧1−
𝛼2
)
EKSEMPEL
Vi antager en mindste detekterbar forskel på 5, spredning 10, styrke
90% og signifikansniveau 5%. Vi ser, at vi skal bruge mindst 45
observationer.
R
p<-0.9
n<-2
while(TRUE){
if(p<pt(sqrt(n)*5/10-qt(0.975,n-1),n-1)){
print(n)
break
}
else n<-n+1
}
[1] 45
42
STATA
sampsi 5 0, sd(10) power(.9) onesamp
SAS
proc power;
onesamplemeans
mean=5
std=10
alpha = 0.05
power=0.9
ntotal = .;
run;
T FORDELINGEN
Den centrale T fordeling har kun en enkelt parameter, middelværdi 0
og flere ekstreme værdier end normalfordelingen. Vi kalder det en
tunghalet fordeling, selvom den omkring 20 frihedsgrader ligger
meget tæt på normalfordelingen. T fordelingen bruges derfor ofte i
vurderingen af teststørrelser i sammenhæng med at disse
approksimerer normalfordelingen bedre og bedre i takt med at flere
observationer indgår.
Figur 13: Tæthedsfunktioner for T-fordelingen ved forskellige frihedsgrader.
43
STIKPRØVEBEREGNING FOR DISKRETE DATA
Binomialfordelingen er en diskret fordeling, der beskriver antal cases
i en population af endelig størrelse, n, hvor en case forekommer
med en vis sandsynlighed p.
𝑃(𝑋 = 𝑥) = (𝑛𝑥
) 𝑝𝑥(1 − 𝑝)𝑛−𝑥
Binomialfordelingen er en fordeling, der umiddelbart ligger meget
langt fra normalfordelingen, men på grund af nogle
fordelingsegenskaber, kan en normalfordelingsantagelse om
differenser benyttes til at konstruere tests for forskel mellem
proportioner og forholdet mellem proportioner.
Figur 14: Sandsynlighedsfunktioner for binomialfordelinger med forskellige sandsynlighedsparametre og antalparametre.
Sandsynlighedsparameteren og spredningen estimeres med
størrelserne �̂� ←𝑥
𝑛, 𝑠𝑑 ← √𝑛
𝑥
𝑛(1 −
𝑥
𝑛). X er approksimativt
normalfordelt, når antalsparameteren n/9 er større end
max {(1 − 𝑝)
𝑝,
𝑝
1 − 𝑝}
44
Vi kan derfor under passende antagelser sammenholde to
binomialfordelinger. Forskellen mellem proportioner 𝑝1 og 𝑝2
vurderes i et test for hypotesen 𝑝1 − 𝑝2 = 0. Vi benytter et poolet
estimat for spredningen til at konstruere en approksimativt
normalfordelt teststørrelse
𝑍∗ =�̂�1 − �̂�2
√𝑝∗(1 − 𝑝∗) (1
𝑛1+
1𝑛2
)
, 𝑝∗ =𝑥1 + 𝑥2
𝑛1 + 𝑛2
𝑍∗ ∼ 𝑁(0,1)
Normalfordelingsapproksimationen giver ligeledes anledning til en
beregningsformel for stikprøvestørrelse.
EKSEMPEL
Vi antager en detekterbar forskel på 0.10, en proportion på 0.25,
styrke 90% og signifikansniveau 5%. Vi kan skrive estimatet for
standard afvigelsen som
√𝑛𝑝(1 − 𝑝)
Hvilket benyttes i udregningen.
R
p<-0.9
n<-2
while(TRUE){
if( p<pnorm(sqrt(n)*0.10/(sqrt(0.35*0.65))-qnorm(0.975) ) ){
print(n)
break
}
else n<-n+1
}
[1] 240
STATA
sampsi 0.35 0.25, onesample
SAS
proc power;
onesamplefreq
45
method=normal
test=z
varest=sample
p=0.35
nullp=0.25
alpha = 0.05
power=0.9
ntotal = .;
run;
EKSAKT TEST
Testet for ens proportioner er oftest mest relevant i tabeller af
begrænset størrelse. Langt oftest forekommer 2x2 tabeller. Rækker
kan eksempelvis være eksponeringsgrupper, og søjler non-cases og
cases. Fishers eksakt test forudsætter ikke en
normalfordelingsantagelse og kan bruges på tabeller, hvor de
observerede frekvenser er små. Ens proportioner svarer til en
antagelse om ens fordeling, hvilket også kaldes homogenitet. Under
antagelsen om homogenitet er der ikke forskel eller association efter
faktorniveauer. Dette er en situation, som svarer til en
hypergeometrisk fordeling. P værdien i Fishers eksakt test er
summen af sandsynligheder for alle tabeller med samme marginale
delsummer som den observerede tabel.
𝑃(𝑋 = 𝑘) =(
𝑚𝑘
) (𝑁 − 𝑚𝑛 − 𝑘
)
(𝑁𝑛
), 𝑘 = 0, … , 𝑚
EKSEMPEL
Udregning af sandsynlighed for en tabel under
homogenitetsantagelse:
𝑃(𝑋 = 3) =(
83
) (102
)
(185
),
3 5
2 8
46
IKKE PARAMETRISK TEST
To observationsrækker opskrives med observationerne i ordnet
rækkefølge. Første observation har rangen 1, anden rangen 2, osv
I designet
Det nuancerede valg
Bootstrapping
Bootstrapping er en generel måde at beskrive et estimat eller en
teststørrelse, når der er usikkerhed om fordelingen. Hvis vi finder
data, der fraviger almindelige standarder, eller kræver særlig omhu i
forhold til fordelingsantagelser, er bootstrap en metode til at
imødekomme disse behov.
Projektorienteret statistisk design, analyse og tolkning
Recommended