Upload
evert-westpfahl
View
104
Download
1
Embed Size (px)
Citation preview
Methodische Richtlinien
• Transparenz (Dokumentiert)
• Vergleichbarkeit (Standardisiert)
• Nachvollziehbarkeit (Begründet)
• Wiederholbarkeit (Replizierbar)
• Bewertbar (Evaluierbar)
Vortrag zum Umgang mit Missing Data in
wissenschaftlichen Studien
Jörg Michael Müller
Universität Bremen
RFNB
Ziele des Vortrags
• Überblick: Probleme durch MD
• Vorschlag: Leitfaden für MD
• ‚Werkzeuge‘: SAS-Makros
MD führen in folgenden Bereichen zu Problemen:
Auswertung: Software
Statistik (nonparametrische Tests)
Interne Validität: MD als ‚Drittvariable‘
Externe Validität: Stichprobenbeschreibung
Darstellung innerhalb von Veröffentlichungen
Hinzu kommende spezifische statistische Probleme:
Welche Voraussetzung sind vor einer Ersetzung zu beachten?
Welche Ersetzungsmethoden gibt es?
Welche Besonderheiten der Daten sind wichtig (Anteil an MD; Design vs Effektvariable; Auswertungsstrategien, etc.)?
Welchen Effekt haben die MD auf die Ergebnisse?
Beispiel anhand der Mittelwertsersetzung:
• Variable x mit 20 % MD
• Ersetzung durch Designzellenmittelwert
• Effekt auf Parameter: Stabilisierung der Mittelwertsunterschiede bei gleichzeitiger Verringerung der Varianz und Erhöhung des N‘s
• Effekt auf Ergebnisse: Mittelwertsunterschiede werden schneller signifikant.
Je mehr MD, desto besser für die Ergebnisse?
Das Abfolge-Problem:
• MD-Behandlung ist keine 1. Schritt-Prozedur
• Wiederholung von Teilschritten (Analyse & Ersetzung)
• Die Reihenfolge bestimmt das Ergebnis
• Die Reihenfolge sollte standardisiert sein
Konsequenzen
• MD-Probleme werden ‚individuell‘ ‚gelöst‘
• Das Vorgehen ist meist weder einheitlich noch dokumentiert
• Keine Analyse der MD
• Pragmatische Lösung nach den Möglichkeiten der Software
Zusammenfassung der MD-Problematik
• Es fehlt ein Leitfaden, wie mit MD umgegangen werden soll.
• Es fehlen technische Hilfsmittel zur Umsetzung des Leitfadens
Leitfadenüberblick
Teil1: Vorbereitung der Daten
Teil2: Analyse der M(C)AR-Bedingung
Teil3: Herstellung der M(C)AR-Bedingung
Teil4: Ersetzung
Teil5: Überprüfung
1. Datenscreening - Datencheck
2. Datenreduktion
• Auswertung der Fragebögen
• Index-Bildung
Leitfaden Teil I: Vorbereitung
3. Datencodierung: ‚echte‘vs ‚intentional‘4. Erstellen einer Indikatormatrix
Datenscreening
Verteilung einer Variablen und der MDAlle Verteilungen auf einen Blick ...
? ?
? ?
? ?
? ?
? ?
? ?
?
? ? ? ? ? ?
Ergebnis der Vorbereitung
• OBS PERSON TREAT SEX ITEM1 ITEM2 ITEM3 KRIT MIS6 MIS5 MIS1 MIS2 MIS3 MIS4
• 1 VP2 . 1 . . . . 1 0 1 1 1 1• 2 VP1 1 1 4 4 5 34 0 0 0 0 0 0• 3 VP3 1 1 3 3 3 23 0 0 0 0 0 0• 4 VP4 1 2 5 . . 34 0 0 0 1 1 0• 5 VP5 1 2 5 1 . 35 0 0 0 0 1 0• 6 VP6 1 2 1 2 3 43 0 0 0 0 0 0• 7 VP10 2 2 S 4 6 20 0 0 0 0 0 0• 8 VP11 2 2 S 3 5 33 0 0 0 0 0 0• 9 VP12 2 2 S 2 6 20 0 0 0 0 0 0• 10 VP7 2 1 S 1 . 42 0 0 0 0 1 0• 11 VP8 2 1 S 2 . 23 0 0 0 0 1 0• 12 VP9 2 1 S 5 . 33 0 0 0 0 1 0
Rohdaten Indikatormatrix
MAR?MCAR?
Leitfaden Teil II: Analyse
6. Analysieren der MD-Gesamtmenge
7. Check der MAR-Bedingung
= Klärung der Herkunft von Missing Data
8. Probanden (Niedrige Compliance)
9. Variablen (unverständliche Items)
10. Identifizierung, Lokalisierung
Ergebnis des SAS-Makros %missingi
Wie ‚massiv‘ ist das MD-Problem?Wie verteilen sich die MD je Person?Um welche Personen handelt es sich?
Zusammen auf einem Blatt
Das Gleiche für die Variablen
Leitfaden Teil III: Herstellung der M(C)AR-Bedingung
11. Löschung nicht informativer Spalten und Zeilen
12. Check der MAR-Bedingung
13. Zusätzliche Prüfung der MCAR-Bedingung
• Häufung von MD in Designzellen
OBS PERSON TREAT SEX ITEM1 ITEM2 ITEM3 KRIT 1 VP2 . 1 . . . . 2 VP1 1 1 4 4 5 34 3 VP3 1 1 3 3 3 23 4 VP4 1 2 5 . . 34 5 VP5 1 2 5 1 . 35 6 VP6 1 2 1 2 3 43 7 VP10 2 2 S 4 6 20 8 VP11 2 2 S 3 5 33 9 VP12 2 2 S 2 6 20 10 VP7 2 1 S 1 . 42 11 VP8 2 1 S 2 . 23 12 VP9 2 1 S 5 . 33
Grundsätze zur Ersetzungsmethode
• MD in Designvariablen werden nicht ersetzt
• Keine Ersetzung nach Modellannahmen
• Prädiktion in AV‘s durch verbleibende AV‘s
• Beibehaltung von Dateneigenschaften (z.B. Minimum, Maximum)
Leitfaden Teil IV: Ablauf der Imputation
I1 I2 I3 K P1 P2 P3 PK. . . . 5.81 -1.09 4.35 39.284 4 5 34 3.61 3.98 5.08 28.923 3 3 23 1.66 2.97 2.14 28.925 . . 34 4.44 2.56 5.58 28.925 1 . 35 4.44 2.39 4.84 30.091 2 3 43 -0.84 2.76 2.14 51.02S 4 6 20 4.01 3.98 6.25 20.46S 3 5 33 4.01 2.97 5.08 28.92S 2 6 20 4.01 2.76 6.25 20.46S 1 . 42 4.01 2.39 3.82 36.09S 2 . 23 4.01 2.76 5.02 28.92S 5 . 33 4.01 3.98 5.46 28.92
AV Predicted Value
OO
Leitfaden Teil V: Kontrolle der Ersetzung
ITEM1 ITEM2 ITEM3 KRIT 5 1 4 39 4 4 5 34 3 3 3 23 5 3 6 34 5 1 5 35 1 2 3 43 . 4 6 20 . 3 5 33 . 2 6 20 . 1 4 42 . 2 5 23 . 5 5 33
ITEM1 ITEM2 ITEM3 KRIT . . . . 4 4 5 34 3 3 3 23 5 . . 34 5 1 . 35 1 2 3 43 S 4 6 20 S 3 5 33 S 2 6 20 S 1 . 42 S 2 . 23 S 5 . 33
ITEM1 ITEM2 ITEM3 KRIT 6 -1 4 39 4 4 5 34 3 3 3 23 5 3 6 34 5 1 5 35 1 2 3 43 . 4 6 20 . 3 5 33 . 2 6 20 . 1 4 42 . 2 5 23 . 5 5 33
Rohdaten Vorhergesagte Werte Korrigierte WerteOO O
Rückblick
• Leitfaden zur Behandlung von MD
• ‚Werkzeuge‘ zur Analyse und Ersetzung von MD
• Standardisierung und Dokumentation der MD-Behandlung
Bewertung des Leitfadens aufgrund methodische
Richtlinien
Der Leitfaden ist
• transparent (dokumentierbar)
• vergleichbar (standardisiert)
• nachvollziehbar (begründet)
• wiederholbar (replizierbar)
• bewertbar (evaluierbar)
Ausblick
• Vom experimentellen Stand zum allgemein einsetzbaren ‚Werkzeug‘
• Kontinuierliche Verbesserung der MD-Behandlung nach transparenten Leifäden zur Qualitätssicherung in der Auswertung rehabilitationswissenschaftlicher Studien
Diskussion