Upload
kalil
View
38
Download
0
Embed Size (px)
DESCRIPTION
Help! Statistiek!. Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk,. Doel: Informeren over statistiek in klinisch onderzoek, Tijd: Derde woensdag in de maand, 12-13 uur 16 decemberInterim analyses 20 januariMeta-analyse van diagnostische studies 17 februari - PowerPoint PPT Presentation
Citation preview
Help! Statistiek!
Doel: Informeren over statistiek in klinisch onderzoek,
Tijd: Derde woensdag in de maand, 12-13 uur
16 december Interim analyses20 januari Meta-analyse van diagnostische studies17 februari
Sprekers: Sacha la Bastide, Hans Burgerhof, Vaclav Fidler
www.EpidemiologyGroningen.nl
Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk,
Interim analyses
• Waarom een interim analyse?• Opfrissen begrippen significantieniveau,
power, fouten van de eerste en tweede soort
• Correctie voor multiple testing bij interim analyses
• Stopregels van Pocock, O’Brien en Fleming, en Snapinn
• Adaptive designs
Interim analyse: wat en waarom?
• Wat is een interim analyse? Een tussentijdse analyse, vaak bij gerandomiseerde studies, om
te kijken of er reden is de studie te stoppen of aan te passen.
• Waarom wordt een interim analyse uitgevoerd?- Indien reeds bekend is dat de ene methode beter werkt dan de andere, is het onethisch om nog langer patiënten met de inferieure merhode te behandelen.- als parameters verkeerd geschat zijn kan de studieopzet gewijzigd worden.- verschil in bijwerkingen?
• Wat is het probleem?Bij vaker toetsen verandert het overall significantieniveau.
Fouten van eerste en tweede soortbij het uitvoeren van een statistische toets
Beslissing
H0 waar H0 niet waar
Werkelijkheid H0 waar OK Fout van de eerste soort, kans hierop: α
H0 niet waar Fout van de tweede soort, kans hierop: β
OK
Hebben middel A en B gemiddeld dezelfde bloeddrukverlaging tot gevolg (BDL)?H0: gemiddelde BDL bij middel A = gemiddelde BDL bij middel B
Als α kleiner wordt, wordt β groter.Daarmee wordt de power kleiner.
Kans: 1 – β(power)
Het klassieke probleem van de multiple testing
• Bij een statistische toets hanteren we significantieniveau α (in de regel 0,05). Dat wil zeggen dat we een kans ter grootte van α accepteren om ten onrechte de nulhypothese te verwerpen.
• Wat betekent het uitvoeren van meerdere toetsen voor de totale kans om minstens één nulhypothese ten onrechte te verwerpen (als alle nulhypothesen waar zijn)?
Kanskapitalisatie!
Onafhankelijke toetsen
Als we n onafhankelijke toetsen uitvoeren, elk met een α = 0,05, geldt voor de kans om minstens éénmaal ten onrechte een H0 te verwerpen:
noverall )95,0(1
Aantal toetsen n overall alpha
3 0,14310 0,401100 0,994
Overall alfa bij interim analyses
• Tussentijdse toetsen en de eindtoets zijn niet onafhankelijk van elkaar (we gebruiken deels dezelfde informatie).
• Kernvraag:
Hoe controleren we onze overall alfa, in de regel 0,05, terwijl we het onderscheidingsvermogen (0,8 of 0,9) op peil willen houden?
Herhaalde toetsen op cumulerende data
• Armitage, McPherson en Rowe (1969)• Tabellen met overall alfa na herhaald
toetsen voor observaties uit de Binomiale, de Normale en Exponentiële verdelingen
• Ter illustratie rekenen we een voorbeeld na (n patiënten worden behandeld met zowel A als B en moeten een voorkeur aangeven. H0: A = B = 0,5. We toetsen na iedere patiënt).
Overall alfa wordt groter, maar minder
extreem dan bijonafhankelijke tests
X~B(n, 0,5)
H0: = 0,5; α = 0,01 tweezijdig (per test):
totale kans op verwerpen onder H0= 0,00781 (1)
1 2 3 4 5 6 7 8 9 10 n
aantal successen
voor A
109876543210
X ~ B(8, 0,5)P(X=0) = P(X=8)
≈ 0,0039Verwerp H0
X ~ B(10, 0,5)P(X1) = P(X9)
≈ 0,0107Niet verwerpen
X~B(n, 0,5)
α = 0,03 tweezijdig (per test):
totale kans op verwerpen onder H0 = 0,02930 (2)
1 2 3 4 5 6 7 8 9 10 n
aantal successen
voor A
109876543210
X ~ B(7, 0,5)P(X = 0) = P(X= 7)
≈ 0,0078
X ~ B(10, 0,5)P(X1) = P(X9)
≈ 0,0107Verwerp H0
P(X = 1) bij n =10 =P(X = 1) bij n = 7 en
daarna nog drie maal eenmislukking:
0,0547*(0,5)³ ≈ 0,0068
Overall ongeveer 2*0,0078 + 2*0,0068 = 0,0292
Voorbeeld met een continue responsievariabele (1)
• We willen twee groepen vergelijken met betrekking tot een continue, Normaal verdeelde, variabele. De nulhypothese luidt µA = µB, tegen het tweezijdige alternatief. We denken dat de standaarddeviatie in beide groepen 10 is, α = 0,05, β = 0,1 en we willen een verschil tussen de gemiddelden aantonen van 5.
• De steekproefgroottebepaling leidt tot n = 86 per groep.
BA XX
0
86 n
Verwerp H0 (gemiddelde A is groter)
Accepteer H0
Verwerp H0 (gemiddelde B is groter)
Voorbeeld met een continue responsievariabele (2)
• Interim analyse bij 2 maal 43 deelnemers, beide toetsen op α = 0,05. Totale alfa ≈ 0,085
• Power bij 2 * 43 is 0,63
BA XX
0
86 n
Verwerp H0 (gemiddelde A is groter)
Accepteer H0
Verwerp H0 (gemiddelde B is groter)
43
Pas de procedure aan, zodanig dat overallalfa = 0,05 en de power behouden blijft
α per toets omlaag,dus n moet omhoog
Verwachte ngaat omlaag!
Normaal verdeelde data
Advies van Armitage, McPherson en Rowe: voor een overall alfa = 0,05
Aantal testen alfa per toets
1 0,0505 0,01510 0,01015 0,00820 0,007
Hoeveel toetsen moeten we uitvoeren?
Pocock: Groep sequentieel designoverall α = 0,05, β = 0,1, variantie ², µ1 - µ2 =
Aantal testen (k) Benodigd aantal Totaal maximaal Gemiddeld onder alfa perper test (n) (kn) HA test
___________________________________________________________________1 42,04 42,04 42,04 0,0502 23,12 46,24 32,60 0,0293 16,11 48,33 30,29 0,0224 12,43 49,72 29,33 0,0185 10,14 50,70 28,80 0,01610 5,35 53,50 28,03 0,010620 2,79 55,80 27,98 0,0075
aantallen vermenigvuldigen met (/)²
Grootste winst te behalen met één interim analyse.Nauwelijks meerwaarde bij vaker dan vijf maal toetsen.
Continu sequentieel toetsen
• Gedachte: na iedere beoordeelde patiënt opnieuw toetsen
• Theoretische en praktische problemen– Organisatorisch lastig (trial moet ieder
moment stop gezet kunnen worden)– Responsie soms een hele tijd na interventie– Groep sequentieel toetsen bijna even effectief
(in termen van gemiddeld aantal patiënten)
Continu sequentieel toetsen alleen uitvoeren als in een vroeg stadium een groot effect niet uitgesloten is
O’Brien en Fleming / Petovariabele alfa voor de toetsen
Minimalisatie van het verwachte aantal benodigde patiënten onder een gegeven alternatief voor het vijf toetsen design
Power test 1 test 2 test 3 test 4 test 5_______________________________________0,5 0,0002 0,004 0,010 0,018 0,0420,75 0,003 0,011 0,016 0,019 0,0310,9 0,010 0,017 0,017 0,017 0,0210,95 0,015 0,016 0,016 0,016 0,017
Peto: alle interim analyses op 0,001 eindtoets op 0,05
Voorbeelden van alfa spending functies (DeMets en Lan in Statistics in Medicine, 1994)
Éénzijdige stopregel van Snapinn
• Help! Statistiek! dd 18 juni 2008: statistische aspecten van de Probioticastudie.
• We stoppen bij de interim analyse niet alleen op het moment dat de resultaten significant zijn (kleine P-waarde), maar ook als de een significant verschil op het eind van de studie niet langer te verwachten is (grote P-waarde).
• Voordeel: eindtoets kan op “normale” alfa getoetst worden; berekenen van betrouwbaarheidsintervallen op standaard wijze.
Bij de overige stopregels moet een aanpassing plaatsvinden voor de berekening van de betrouwbaarheids-Intervallen. Mogelijke software: EaSt (Cytel Software),
PEST (John Whitehead) en S Plus Seq Trial.
Schematisch overzicht van de stopregel van Snapinn
n
verschil
Interim analyse
Stop, accepteer H0
Ga door
Stop, verwerp H0
Onafhankelijke gedeblindeerde commissie!
Adaptive designs
• Als tijdens een interim analyse blijkt dat zaken anders liggen dan verwacht (aan te tonen verschil kleiner dan gedacht / gehoopt, spreiding groter dan in het verleden) kan het wenselijk zijn het design aan te passen– Grotere n– Aangepast randomisatieschema
• Om het significantieniveau te handhaven wordt de test statistic aangepast
Tsiatis en Metha (2003)
Voorbeeld van aanpassing t-toets voor onafhankelijke groepen
*max
1
1
1 1*maxmax
1max
1 1max
1n
ni
icitn
i
icit
nn
XX
n
nn
n
XX
n
nT
verschilnwaargenome
verschilverwachtemet
aantal maximum dherbereken
lyseinterimana bij aantal
aantal geplandelijk oorspronke
max2*
max
*max
1
max
fnfn
n
n
n
Elk voordeel heb z’n nadeel
De aldus bepaalde test statistic
is geen “sufficient statistic”, en
daarmee is de toets niet optimaal.
Tsiatis en Metha: On the inefficiency of the adaptive design for monitoring clinical trials (2003)
For any adaptive design, one can always construct a standard group-sequentialtest based on the sequential likelihood ratio test that, for any parameter value in the space of alternatives, will reject the null hypothesis earlier with higher probability, and, for any parameter not in the space of alternatives, will acceptthe null hypothesis earlier with higher probability.
Jennison en Turnbull (2006)
• Nuancering: het is mogelijk om met adaptive designs een kleine winst te behalen (“However, similar improvements are often achieved by nonadaptive designs with one extra analysis, avoiding the administrative complications of a preplanned adaptive design.”)
Goede voorbereiding van een studieblijft bijzonder belangrijk!
Gebruikte literatuur• Armitage, McPherson en Rowe (1969): Repeated Significance tests
on Accumulating Data, Journal of the Royal Statistical Society, Series A, 132, 235 – 244
• Pocock (1982): Interim Analyses for Randomized Clinical Trials: The Group Sequential Approach, Biometrics 38, 1153 – 162
• Pocock (1983) Clinical trials, A Practical Approach, John Wiley & sons
• Schouten, HJA (1994) Klinische Statistiek• Tsiatis en Mehta (2003): On the inefficiency of the adaptive design
for monitoring clinical trials, Biometrika 90, 367 – 378• Tweel, I, van der (2004): Applications and efficiency of sequential
tests in matched case-control studies • Jennison en Turnbull (2006): Adaptive and nonadaptive group
sequential tests, Biometrika 93, 1 – 21• Letter from the editor (BMJ Clinical Evidence). Interim analysis: its
uses and limitations, Augustus 2007
Volgende keer
20 januari 2010
12 – 13 uur
Rode Zaal
Meta-analyse van diagnostische studies