34
Help! Statistiek! Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde woensdag in de maand, 12-13 uur 21 november : Hoe gaan we om met ontbrekende waarnemingen? 19 december : Hoe bepaal ik of een verband lineair is?" 16 januari : Overeenstemming Sprekers: Vaclav Fidler, Hans Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk.

Help! Statistiek! Doel:Informeren over statistiek in klinisch onderzoek. Tijd:Derde woensdag in de maand, 12-13 uur 21 november : Hoe gaan we om met ontbrekende

Embed Size (px)

Citation preview

Page 1: Help! Statistiek! Doel:Informeren over statistiek in klinisch onderzoek. Tijd:Derde woensdag in de maand, 12-13 uur 21 november : Hoe gaan we om met ontbrekende

Help! Statistiek!

Doel: Informeren over statistiek in klinisch onderzoek.

Tijd: Derde woensdag in de maand, 12-13 uur

21 november : Hoe gaan we om met ontbrekende waarnemingen?19 december : Hoe bepaal ik of een verband lineair is?"16 januari : Overeenstemming

Sprekers: Vaclav Fidler, Hans Burgerhof, Wendy PostDG Epidemiologie

Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk.

Page 2: Help! Statistiek! Doel:Informeren over statistiek in klinisch onderzoek. Tijd:Derde woensdag in de maand, 12-13 uur 21 november : Hoe gaan we om met ontbrekende

Hoe gaan we om met ontbrekende waarden?

• Wat zijn ontbrekende waarden?• waarom vormen zij een probleem?• mogelijke oorzaken van missing • missing data processen• Identificatie van missing data proces• methoden van analyse

– bespreking van methode– voor- en nadelen – statistische software

• algemene richtlijnen voor omgaan met missing data

Page 3: Help! Statistiek! Doel:Informeren over statistiek in klinisch onderzoek. Tijd:Derde woensdag in de maand, 12-13 uur 21 november : Hoe gaan we om met ontbrekende

Wat zijn ontbrekende waarden?

Missende waarden (missing data)

– in geval van niet van toepassing– in geval van een 0– overlijden– gecensureerde waarnemingen– latente variabelen

Page 4: Help! Statistiek! Doel:Informeren over statistiek in klinisch onderzoek. Tijd:Derde woensdag in de maand, 12-13 uur 21 november : Hoe gaan we om met ontbrekende

Wat zijn ontbrekende waarden?

Soorten

• unit non-response

• Item non-response

• wave non-response (longitudinale data)– dropout na een zeker moment

(monotone drop-out)

Page 5: Help! Statistiek! Doel:Informeren over statistiek in klinisch onderzoek. Tijd:Derde woensdag in de maand, 12-13 uur 21 november : Hoe gaan we om met ontbrekende

Waarom leveren missing data problemen op?

1. Reductie aantallen– grotere onbetrouwbaarheid – lagere power

2. Bias/vertekening– Proportie missende waarden– Verschil tussen completers en non-

completers

hangt af van het missing data proces: waarom ontbreken de waarnemingen ?

Page 6: Help! Statistiek! Doel:Informeren over statistiek in klinisch onderzoek. Tijd:Derde woensdag in de maand, 12-13 uur 21 november : Hoe gaan we om met ontbrekende

Redenen van missing data

• methodologische factoren– definitie

– schalen

– hoeveelheid

– timing

• logistieke/administratieve factoren– instructies aan en motivatie van hulpverleners– monitoring– datamanagement– benadering patient

• patient gerelateerde factoren

Page 7: Help! Statistiek! Doel:Informeren over statistiek in klinisch onderzoek. Tijd:Derde woensdag in de maand, 12-13 uur 21 november : Hoe gaan we om met ontbrekende

Redenen van missing data en missing data process

De redenen van missing bepalen het missing

data proces!!!!

Identificatie van redenen is essentieel

Niet elke statistische methode levert unbiased

resultaten op onder alle missing data processen.

Page 8: Help! Statistiek! Doel:Informeren over statistiek in klinisch onderzoek. Tijd:Derde woensdag in de maand, 12-13 uur 21 november : Hoe gaan we om met ontbrekende

Typologie van missing data processen

MCAR: Missing Completely At RandomMAR: Missing At RandomMNAR: Missing Not At Random

(NMAR: Not Missing At Random)

Y: de verzameling van variabelen met missingsX: de verzameling variabelen zonder missingsZ: verzameling variabelen die een relatie hebben met missing R: het optreden van missing

Page 9: Help! Statistiek! Doel:Informeren over statistiek in klinisch onderzoek. Tijd:Derde woensdag in de maand, 12-13 uur 21 november : Hoe gaan we om met ontbrekende

Missing Completely At Random

Y: de verzameling van variabelen met missings

X: de verzameling variabelen zonder missings

Z: verzameling variabelen, die relatie hebben met

missing

R: optreden van missing (missing data proces)

X Z

Y R

In statistische termen:MCAR

P(R|Y,X) = P(R)

Page 10: Help! Statistiek! Doel:Informeren over statistiek in klinisch onderzoek. Tijd:Derde woensdag in de maand, 12-13 uur 21 november : Hoe gaan we om met ontbrekende

Missing At Random

Y: de verzameling van variabelen met missings

X: de verzameling variabelen zonder missings

Z: verzameling variabelen, die relatie hebben met

missing

R: het optreden van missing (missing data proces)

X Z

Y R

In statistische termen:MAR

P(R|Y,X) = P(R|X)

Page 11: Help! Statistiek! Doel:Informeren over statistiek in klinisch onderzoek. Tijd:Derde woensdag in de maand, 12-13 uur 21 november : Hoe gaan we om met ontbrekende

Missing Not At Random

Y: de verzameling van variabelen met missings

X: de verzameling variabelen zonder missings

Z: verzameling variabelen, die relatie hebben met

missing

R: het optreden van missing (missing data proces)

X Z

Y R

In statistische termen:MNAR

P(R|Y,X) = P(R|Y,X)

Page 12: Help! Statistiek! Doel:Informeren over statistiek in klinisch onderzoek. Tijd:Derde woensdag in de maand, 12-13 uur 21 november : Hoe gaan we om met ontbrekende

Missing data processen longitudinale data

Y1 , Y2, ,…, Yt, …, Yp : p herhaalde metingen

MCAR: missing hangt niet af van scores in het verleden, heden en toekomst

MAR: Missing hangt af van verleden, niet van heden en toekomst

MNAR: Missing hangt af van heden en/of

toekomst

Page 13: Help! Statistiek! Doel:Informeren over statistiek in klinisch onderzoek. Tijd:Derde woensdag in de maand, 12-13 uur 21 november : Hoe gaan we om met ontbrekende

Voorbeeld verloop bloeddruk

over de tijd

In februari: metingen van 32 patienten

In maart: deel van patienten komt niet op

dagen in verband met slecht weer

Vraag: wat is het missing data proces?

Page 14: Help! Statistiek! Doel:Informeren over statistiek in klinisch onderzoek. Tijd:Derde woensdag in de maand, 12-13 uur 21 november : Hoe gaan we om met ontbrekende

Voorbeeld verloop bloeddruk

over de tijd

In februari: metingen van 32 patienten

In maart: patienten die de eerste keer geen hoge

bloeddruk hebben komen niet opdagen

Vraag: wat is het missing data proces?

Page 15: Help! Statistiek! Doel:Informeren over statistiek in klinisch onderzoek. Tijd:Derde woensdag in de maand, 12-13 uur 21 november : Hoe gaan we om met ontbrekende

Voorbeeld verloop bloeddrukover de tijd

In februari: metingen van 32 patienten

In maart: alleen van patienten die in maart een hoge

bloeddruk hebben zijn de waarden genoteerd.

Vraag: wat is het missing data proces?

Page 16: Help! Statistiek! Doel:Informeren over statistiek in klinisch onderzoek. Tijd:Derde woensdag in de maand, 12-13 uur 21 november : Hoe gaan we om met ontbrekende

Identificatie van missing data proces

Twee methoden:

• Het achterhalen/bijhouden van redenen missing

• Het modelleren van het ‘missing data proces’

Page 17: Help! Statistiek! Doel:Informeren over statistiek in klinisch onderzoek. Tijd:Derde woensdag in de maand, 12-13 uur 21 november : Hoe gaan we om met ontbrekende

Methoden van analyse

• Complete case analyse• Summary measures• Available case analyse• Single imputatie• Multiple imputatie• Likelihood based methoden• Selectie en pattern-mixture modellen

Page 18: Help! Statistiek! Doel:Informeren over statistiek in klinisch onderzoek. Tijd:Derde woensdag in de maand, 12-13 uur 21 november : Hoe gaan we om met ontbrekende

Complete case analyse

Alle respondenten met missing worden uit de analysegelaten

Voordelen• Simpele manier• alle standaard statistische technieken zijn

toepasbaar

Nadelen• de aantallen zijn kleiner, dus lagere power en

hogere onbetrouwbaarheid• alleen bij MCAR unbiased resultaten

Page 19: Help! Statistiek! Doel:Informeren over statistiek in klinisch onderzoek. Tijd:Derde woensdag in de maand, 12-13 uur 21 november : Hoe gaan we om met ontbrekende

Summary measures

Longitudinale setting

Reduceren van data door 1 belangrijk aspect te

nemen, bijv: maximum, minimum, mediaan of

Gemiddelde

Voordeel• Simpel

Nadeel• geeft alleen onder MCAR unbiased resultaten

Page 20: Help! Statistiek! Doel:Informeren over statistiek in klinisch onderzoek. Tijd:Derde woensdag in de maand, 12-13 uur 21 november : Hoe gaan we om met ontbrekende

Available case analyse

Longitudinale setting

Analyse per tijdstip voor alle beschikbare personen

Voordelen• Simpele manier• alle standaard statistische technieken zijn

toepasbaar

Nadelen• geen rekening met longitudinaal karakter; per

meetmoment andere personen• unbiased resultaten alleen bij MCAR

Page 21: Help! Statistiek! Doel:Informeren over statistiek in klinisch onderzoek. Tijd:Derde woensdag in de maand, 12-13 uur 21 november : Hoe gaan we om met ontbrekende

Single imputatie

Het invullen van de missende waarden met een

‘goede’ schatting

Doel: een dataset zonder ontbrekende waarden

Verschillende methodes• Last Value carried forward• mean en regression imputation• hot deck en cold deck imputation

Page 22: Help! Statistiek! Doel:Informeren over statistiek in klinisch onderzoek. Tijd:Derde woensdag in de maand, 12-13 uur 21 november : Hoe gaan we om met ontbrekende

Single imputatie

Voordelen:• simpel• Analyse data met standaard technieken/software

Nadelen• onderzoeker vergeet imputatie: standaardfouten te

klein• imputatie kan bias veroorzaken onder alle missing

data processen

Page 23: Help! Statistiek! Doel:Informeren over statistiek in klinisch onderzoek. Tijd:Derde woensdag in de maand, 12-13 uur 21 november : Hoe gaan we om met ontbrekende

Multiple imputatie

• Niet 1 keer de missende waarde schatten, maar meerdere keren.

• Variabiliteit van de schattingen maakt correctie van de standaardfouten mogelijk

Page 24: Help! Statistiek! Doel:Informeren over statistiek in klinisch onderzoek. Tijd:Derde woensdag in de maand, 12-13 uur 21 november : Hoe gaan we om met ontbrekende

Multiple imputatie

1. Specificatie van het imputatiemodel

(Y(mis)| X, R) – vorm van het model– selectie van predictoren

• die relevant zijn in onderzoek• relatie hebben met het optreden van missing

2. Trekken van m sets imputaties– Verdeling van missende waarden– Verdeling van de parameters van het imputatiemodel – Resultaat: m complete datasets

Page 25: Help! Statistiek! Doel:Informeren over statistiek in klinisch onderzoek. Tijd:Derde woensdag in de maand, 12-13 uur 21 november : Hoe gaan we om met ontbrekende

Multiple imputatie (2)

3. Doe de analyse op de m complete data:

resultaat: m schattingen

4. Poolen van de m analyses

Page 26: Help! Statistiek! Doel:Informeren over statistiek in klinisch onderzoek. Tijd:Derde woensdag in de maand, 12-13 uur 21 november : Hoe gaan we om met ontbrekende

Multiple imputatie

Voordelen

• standaardfouten worden goed geschat• Het missing data proces kan in het imputatiemodel

worden meegenomen: dus,

Als de imputaties afhangen van een NMAR principe dan schattingen unbiased onder NMAR

• Veel programmatuur beschikbaar, maar…..

Page 27: Help! Statistiek! Doel:Informeren over statistiek in klinisch onderzoek. Tijd:Derde woensdag in de maand, 12-13 uur 21 november : Hoe gaan we om met ontbrekende

Multiple imputatie

Software: www.multiple-imputation.com

• R• MICE (S-plus)• ICE (STATA implementation of MICE)

• IVEWARE (SAS)

• SOLAS

• SAS proc MI en • SAS proc MIANALYZE

• NORM, CAT , MIX, PAN (Schafer)• AMELIA

Page 28: Help! Statistiek! Doel:Informeren over statistiek in klinisch onderzoek. Tijd:Derde woensdag in de maand, 12-13 uur 21 november : Hoe gaan we om met ontbrekende

Multiple imputatie

Nadelen:

• Alles hangt af van juist imputatiemodel (meest moeilijke stap van deze procedure)

• Gebruikers van software:

moeten zich realiseren dat ze zelf moeten nadenken over imputatiemodel: het is geen vast recept!!!

• MI: lost het probleem van de identificatie van missing data proces niet op!!

Page 29: Help! Statistiek! Doel:Informeren over statistiek in klinisch onderzoek. Tijd:Derde woensdag in de maand, 12-13 uur 21 november : Hoe gaan we om met ontbrekende

Likelihood based methoden

Modelbenadering gebaseerd op theoretische verdelingvan de data: Schatten van effecten gebeurt op de meestwaarschijnlijke waarden gegeven de data.

(regressiemodel benaderingen: random effects modellen)

• Alle geobserveerde data doen mee in de likelihood

Voordelen:• unbiased resultaten bij MCAR en MAR• Veel programmatuur beschikbaar

Page 30: Help! Statistiek! Doel:Informeren over statistiek in klinisch onderzoek. Tijd:Derde woensdag in de maand, 12-13 uur 21 november : Hoe gaan we om met ontbrekende

Likelihood based methoden

programmatuur

– R

– SAS proc-mixed

– Vanaf SPSS12 mixed models

– STATA

– Mlwin

– S-plus

– Egret

Page 31: Help! Statistiek! Doel:Informeren over statistiek in klinisch onderzoek. Tijd:Derde woensdag in de maand, 12-13 uur 21 november : Hoe gaan we om met ontbrekende

Likelihood based methoden

Nadelen (zelfde als bij MI, maar dan expliciet)

1. Geavanceerdere methoden vereist meer statistische kennis

2. Verdeling van de data moet bekend zijn

3. Wat te doen bij MNAR?

Page 32: Help! Statistiek! Doel:Informeren over statistiek in klinisch onderzoek. Tijd:Derde woensdag in de maand, 12-13 uur 21 november : Hoe gaan we om met ontbrekende

MNAR: likelihood based

Modelleren van gezamenlijke verdeling

1. Selectie modellen (Diggle & Kenward, 1994)

f(Y,X,R) = f(Y,X) P(R| Y,X)

2. pattern-mixture modellen (Little, 1993; Hedeker & Gibbons,1997)

f(Y,X,R) = f(Y,X|R) P(R)

Page 33: Help! Statistiek! Doel:Informeren over statistiek in klinisch onderzoek. Tijd:Derde woensdag in de maand, 12-13 uur 21 november : Hoe gaan we om met ontbrekende

algemene richtlijnen

• Voorkomen is beter dan genezen• Identificatie van missing data proces:

– verzamel gegevens redenen missings– Modelleren van het proces

• Bij niet MCAR gebruik altijd (ook) likelihood based benaderingen of multiple imputaties

• Bij MNAR: modelleer missing data process (likelihood based of MI)

• sensitiviteitsanalyses

Page 34: Help! Statistiek! Doel:Informeren over statistiek in klinisch onderzoek. Tijd:Derde woensdag in de maand, 12-13 uur 21 november : Hoe gaan we om met ontbrekende

literatuur• Statistics in Medicin Volume 17, Issue 5-7 , 1998

(Bernhard&Gelber)

– Curran et. al ‘Incomplete quality of life data in randomized trials: Missing forms’

– Curran et. al ‘Identifying the types of missings in QOL data from clinical trials’

– Bernhard et.al ‘Missing QOL data in cancer clinical trials: serious problems and challenges’

• Diggle&Kenward (1994) ‘Informative dropout in longitudinal data analysis’ applied statistics 43, no 1.

• Schafer&Graham (2002) ‘Missing data: our view of the state of the art’ Psychological Methods Vol 7, no 2