Statistisk metode & dokumentasjon av legemidlers effekt Eva Skovlund 3. juni 2009

Statistisk metode & dokumentasjon av legemidlers effekt

Eva Skovlund3. juni 2009

Ill. er rappet fra Furberg & Furberg. Allt är inte guld som glimmar! Glaxo, 1992.

p-verdier

Klinisk forskning fokuserer sterkt på signifikans-tester for å dokumentere effekt av behandling

• en lav p-verdi (<5%) sees som "bevis" på en interessant effekt

• en høyere p-verdi (>5%) leses som "ingen effekt"

mens det p-verdien gir svar på er

• Hva er sannsynligheten for å observere det resultatet jeg ser, eller en enda større effekt, VED EN TILFELDIGHET?

eva

Analyse av krysstabell (1)

eva

Respons

Ikke respons

I alt

Kontrollgr

44

156

200

Nytt legemiddel

68

132

200

I alt

112

288

400

Andel respondere 34 % vs 22 %

Kji-kvadrat-test: p=0.008

Nytt lm gir signifikant høyere andel respondere

Viktige begreper

Type I feil: “Finne” forskjell mellom to behandlinger som i virkeligheten er like gode

- kontrolleres med p-verdi

Signifikansnivå vanlig å anta at en observert forskjell ikke skyldes tilfeldighet hvis p < 5%

Type II feil Ikke oppdage at to behandlinger faktisk har forskjellig effekt

- antall pasienter

Teststyrke krever vanligvis 80-90% sanns. for å oppdage en klinisk relevant forskjell i effekt (power)

eva

Planlegging av en studie

1) Spesifisere en hypotese. Nullhypotese: det vi ønsker å motbevise 2) Velge signifikansnivå (vanligvis 5%) 3) Hvor stor forskjell mellom grupper er det viktig å avdekke? 4) Velge teststyrke overfor den valgte forskjellen (80-90%) 5) Bestemme antall pasienter som må inkluderes ut fra punktene over 6) Gjennomføre studien 7) Statistisk analyse; beregne p-verdien

hvis p5% forkastes nullhypotesen hvis p5% forkastes ikke nullhypotesen

- det betyr ikke at det er "bevist" at nullhypotesen er sann

eva

Analyse av krysstabell (2)

eva

Andel respondere 34 % vs 22 %

Kji-kvadrat-test: p=0.18

Ikke statistisk signifikant forskjell

Respons

Ikke respons

I alt

Kontrollgr

11

39

50

Nytt legemiddel

17

33

50

I alt

28

72

100

eva

Eksempel – overlevelsesanalyse

Modell: Relativ hazard 1.32

Andel i live ved 5 år: A: 40% B: 50%Median overlevelse: A: 45 mnd B: 60 mnd

Tid i måneder

60483624120

An

de

l i live

1,0

,9

,8

,7

,6

,5

,4

,3

,2

,1

0,0

Behandling A

Behandling B

eva

Simulert overlevelse

A: 49 pasienter B: 51 pasienter

Finner ingen signifikant forskjell i overlevelse mellom de to behandlingene. Betyr det at de har like god (eller dårlig) effekt?

LEVETID

60483624120

An

de

l i live

1,0

,9

,8

,7

,6

,5

,4

,3

,2

,1

0,0

B

A

p=0.469

p-verdier

“To use p-values simply to declare something as significant and therefore real, or non-significant and therefore without effect, is to abdicate from any constructive thought about one’s results”

(Altman 1991)

En p-verdi kan bli så liten vi vil, hvis antall pasienter er stort nok. Dvs. at vi kan “oppdage” forskjeller som overhodet ikke har klinisk relevans.

Omvendt - med få pasienter inkludert i et forsøk er det nesten umulig å oppdage selv meget gode effekter av behandling. Det er derfor nødvendig å vurdere teststyrke når man planlegger et forsøk.

Det anbefales å angi estimater av effekt, helst med tilhørende 95% konfidensintervall, ikke p-verdier alene.

eva

Konfidensintervall for differanse

Andel respondere

Nytt lm 0.34

Konvensjonell beh 0.22

Differanse 0.34-0.22=0.12

Et 95% konfidensintervall for sann differanse

I alt 400 pasienter [0.03, 0.21]

I alt 100 pasienter [-0.06, 0.29]

eva

95% konfidensintervall

eva

200 ,15.0 2121 nnpp

95% konfidensintervall

eva

50 ,15.0 2121 nnpp

Absolutt vs relativ forskjell

eva

Absolutt differanse: 12 %

Relativ økning:55 %

(34-22)/22=0.55

Kan budskapet fremstå forskjellig?

Hvilke pasienter skal være med i analysen?

eva

Per-protocol:

Bare pasienter som oppfyller inklusjons- og eksklusjons-kriterier, som får den behandlingen de er randomisert til, og som er compliant inkluderes i analysen

”vitenskapelig tilnærming” - BIAS?

Intention-to-treat:

Alle randomiserte pasienter er med i analysen, enten de fikk behandlingen eller ikke

”pragmatisk tilnærming” – konservativt estimat av effektforskjell?

Multiplisitet

• Interimanalyser

• Parvise sammenligninger

• Subgruppeanalyser

• Flere endepunkter

Jo flere tester som utføres, desto større sannsynlighet for å finne minst ett falsk positivt resultat

Bonferroni-korreksjon – multiplisere p-verdien med det antall tester som er utført

eva

Subgruppeanalyser – ISIS-2

eva

Randomised trial of intravenous streptokinase, oral aspirin, both, or neither among 17187 cases of suspected acute myocardial infarction

Overall results - vascular deaths in first 5 weeksStrep Aspirin S+A Placebo9.2% 9.4% 8.0% 13.2%

Subgruppeanalyser med pasientene delt opp etter stjernetegn indikerer at aspirin gir 9% økt risiko for død for pasienter født i Tvillingene eller Vekten. For alle andre stjernetegn er effekten sterkt positiv (28% reduksjon i risiko, p<0.00001)

Betyr dette at man må unngå aspirin hvis man er Vekt eller Tvilling??

A priori vs a posteriori hypoteser

eva

Samler man data fordi man har en idé eller genereres idéen fra data?

Skille mellom hypoteser som er prespesifisert og hypoteser som ikke er det

Kortspill anklage om juks ved uvanlig gode kortanklagen står sterkere hvis den er fremsatt på forhånd

Må det sjeldne tillegges en årsak?

Lotto sanns for toppgevinst 1 på 5 millioner (p=0.0000002)

Overraskende funn må testes ut i nye studier

Data torturing

eva

“If you torture your data long enough, they will tell you whatever you want to hear”

Mills (1993) NEJM 329, 1196-9.

Documents

Statistisk metode & dokumentasjon av legemidlers effekt Eva Skovlund 3. juni 2009