Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
Prof. Dr. Hans-Christian Waldmann
Profil / 2018
Zur Person
Lebenslauf
Qualifikationen
EDV-Kenntnisse
Forschung
Transfer
Programming
Lehre
Publikationen
Zeugnisse
5
2 Forschung und Transfer
2.1 Methoden- und Statistikberatung
Mehrjahrige Erfahrung in der Methoden- und Statistikberatung sowie die Kooperation in unzahligen, zu-
meist medizinisch oder klinisch-psychologisch ausgerichteten Forschungsprojekten haben die Idee aufkom-
men lassen, neben der Entwicklung statistischer Methoden die Beratungstatigkeit selbst zum Gegenstand
von Forschung werden zu lassen. Durch Fortschritte der Informationstechnologie und parallel steigende
Anspruche an die statistische Modellbildung werden Datenhaltung und -auswertung fur viele Forschungs-
projekte in den Humanwissenschaften zu einer immer großeren Belastung. Neben der Maximierung der
Validitat motiviert auch die Mittelknappheit in der Forschung dazu, rechen- oder zeitintensive Analysen
gebundelt an eine spezialisierte Stelle auszulagern. Methoden- und Statistikberatung muss heute also einen
einen optimalen Ausgleich schaffen von inhaltlichen Vorgaben, methodischen Erfordernissen, datenanalyti-
schen Moglichkeiten und Ressourcen-Begrenzung.
Meine Antwort auf diese Herausforderung besteht in einem integrierten Dienstleistungsmodell fur Methoden-
und Statitistikberatung (Waldmann, 2001).”Integriert“ bedeutet in diesem Zusammenhang, dass neben
den technologischen Losungen auch rechtliche, organisatorische, psychologische und wissenschaftstheoreti-
sche Aspekte aufgearbeitet werden. Ein Methodiker/Statistiker sollte heute nicht mehr nur Fachmann fur
hochkomplexe Datenanalyseverfahren, sondern den gesamten Forschungsprozess im Blick haben.
Der Leistungsumfang der Beratung variiert zwischen der kontinuierlichen Projektbegleitung von der Antrag-
stellung bis zum Abschlussbericht und einem kurzfristigen consulting on demand (z.B. Machbarkeitsanalyse
einer Weiterqualifikation). Meine Klienten kommen mehrheitlich aus den Sozial- und Gesundheitswissen-
schaften sowie der Pharmazie, aber auch Geologen, Biologen und Betriebswirten konnte ich bei statistischen
Herausforderungen zur Seite stehen. Seit 12 Jahren lege ich einen Schwerpunkt auf die Entwicklung, Normie-
rung und Bewertung psychologischer Testverfahren (vgl. 1.7: Drittmitteleinwerbungen). Fur kommerzielle
Anwendungen habe ich dynamisches Abrechnungsmodell entwickelt, das dem Klienten ein Hochstmaß an
Steuerung seines Auftrags garantiert und zu jedem Zeitpunkt der Projektabwicklung eine optimale Balance
von Kosten und Ertragen sicherstellt. Mein Geschaftsmodell ist fur Klienten transparent sichtbar in fachan-
waltlich gepruften AGB, die sich problemlos auch auf inner-universitare Beziehungen ubertragen lassen,
zum Beispiel in einer zentralen Stabs- oder Beratungsstelle fur Projektberatung, Datenbankentwicklung
und statistische Datenanalyse.
Im technischen Bereich (Programmierung) biete ich meinen Klienten
• die Erstellung intelligenter Kodierschemata fur ihre Erhebungsinstrumente und deren Umsetzung in
Datenstrukturen nach dem objektrelationalen Datenbankmodell, optional mit session-basierter online-
Dateneingabe und sample-monitoring (vgl. 2.2)
• die Ubernahme von statistischen Auswertungen jeder Komplexitat mit SAS in einem hocheffizienten
Programmierparadigma (vgl. 2.3)
• ein multimediales reporting wahlweise mit zeitechtem web-forwarding oder durch prasentationsfahige
Berichte in allen denkbaren Formaten einschließlich LATEX(vgl. 2.5)
2.2 Datenmanagement in multi-center-Studien 6
2.2 Datenmanagement in multi-center-Studien
Durch mein Engagement in bundesweiten Forderschwerpunkten oder Testnormierungen ist die Mehrzahl
der von mir betreuten Projekte vom Typ”multi-center“-Studie; hier stellt das zentrale Datenmanagement
die großte Herausforderung dar. Fur die Normierung der Wechsler-Intelligence-Scale for Children (WISC-
IV) habe ich ein objekt-relationales ERM entworfen und durch ein UNIX-RMDBS praktisch implementiert,
in dessen Tabellenraum Daten uber etwa 600 Variablen von 2600 Probanden aus verteilten Datenzentren
zentral nach Bremen eingegeben werden und das bestimmte Analyseergebnisse zeitecht an den Projektneh-
mer zuruckgibt, Fur die NAB (Neuropsychologische Assessment Batterie, in meiner Koautorenschaft, vgl.
2.4) konnten auf diese Weise fur 126 Skalen (!) die Normtabellen als Datenbank mit 130534 Zeilen zzgl.
Psychometrie halbautomatisch erzeugt werden. Diese konnen als Referenz fur online-Scoring-Routinen oder
zur on-demand-Generierung von Test-Kurzformen genutzt werden.
Ein einfaches, nicht minder nutzliches Anwendungsbeispiel - einen online-sample-Monitor fur WAIS-IV -
zeigt Abbildung 1. Durch Abfagen des Monitors nach diversen Stratifizierungsvariablen kann das Erhe-
bungspersonal jederzeit und zeitecht die Passung zum Zensus des statistischen Bundesamts steuern.
Abbildung 1: Sample-Monitor zur Normierung des WAIS-IV
2.3 Output-handling und Analyse-Automatisierung 7
2.3 Output-handling und Analyse-Automatisierung
Gelegentlich besteht die Herausforderung bei der statistischen Auswertung weniger in der Komplexitat der
statistischen Modelle, sondern im Umgang mit den Ergebnissen. Dies gilt vor allem dann, wenn sehr vie-
le Variablen zur Auswertung herangezogen werden, deren verschiedene Eigenschaften selbst bei gleicher
Richtung der Fragestellung unterschiedliche statistische Verfahren erfordern. In einem klassischen Analyse-
Ansatz bedeutet dies, hunderte, wenn nicht tausende von Seiten an Output durchzusehen, zu sortieren, die
relevanten Informationen zu extrahieren und zu bewerten, und schließlich in einen Bericht zu formatieren.
Bei Anderung der Eingangsdaten muss der gesamte Aufwand wiederholt werden. Meine Makros erzeugen
dagegen einen strukturierten, zweidimensionalen Datensatz mit den Zielstatistiken in der Spalte und den
beliebig-dimensionalen Kombinationen von Kriteriums- und Gruppierungsvariablen in der Zeile. Das grund-
legende Prinzip besteht in der Gleichbehandlung von Eingabe und Ausgabe eines Analyse als Datensatze.
Damit kann der gesamte prozedurale Funktionsumfang des statistischen Analyse-Systems wiederum auf die
Verarbeitung von Ergebnissen (nun als Eingabe) angewandt werden. Kann man eine Zielfunktion fur forma-
tive Analysen formulieren, wird durch sich verschrankt aufrufende Makros eine exzellente Automatisierung
erreicht (vgl. 2.5). Solche Ergebnis-Tabellen dienen zudem als look-up-table fur weitere Auswertungen, in-
dem sie Parameter ohne Neuberechnung zur Verfugung stellen oder data-mining-Techniken zur Erkennung
von Ergebnis-Mustern bedienen (in welchen Phanomenbereichen”ballen“ sich Effekte, welche Instrumente
erzeugen uberdurchschnittliche missing-Raten, etc.). Dies kann fur den Klienten einen erheblichen Mehr-
wert erzeugen. Naturlich erfordert eine tabellarische Berichterstattung eine aufwendige Legenden-Fuhrung,
welche aber - als Datenbank abgelegt - modular wiederverwendbar ist (vgl. 2.5). Viele Klienten bevorzugen
die tabellarische Ausgabe auch als Abnahme-Format, weil sie technisch einfach in eigene Publikations-
entwurfe einzubinden ist und die Berichtsstiefe als Kostenfaktor von der puren”result compliation“ bis hin
zur detaillierten Kommentierung der statistischen Verfahren stufenweise wahlbar ist.
2.4 Moderne Testnormierung
Manuale neuester psychometrischer Leistungstests zeigen deutlich, dass die Normierung heute wesentlich
mehr erfordert als die Tabellierung von Prozentrangen und T-Werten. Zum einen wird statt datennaher
Arbeit die konsequente Umsetzung des Testmodells erwartet (so erfordern die modernen Wechlser-Tests wie
WISC-IV, WAIS oder WMS sowie einer der renommiertesten neuropsychologischen Testbatterien der Welt
(NAB, s.u.) das Verfahren des sog.”continuous norming“ (CN), um den Entwicklungsgedanken adaquat ab-
zubilden), zum anderen werden eine große Menge fur den Praktiker informativer Zusatztabellen hergestellt
(kritische Differenzen, Basis-Raten, Vertrauensintervalle, Starken-Schwachen-Analysen, etc.). Ich begleite
seit 12 Jahren Testentwicklungsprojekte jeder Art vom Datenbank-Design bis hin zur print-Formatierung
der Handbuchtabellen. So ist ein System von Code-Fragmenten in SAS entstanden, welches solche Auswer-
tungsprojekte mit hohem Automatisierungsgrad realisieren kann und damit einen sehr erheblichen Wett-
bewerbsvorteil bedeutet. Auch im Rahmen der”klassischen“ Normierung kann ich innovative Techniken
anbieten (cdf-Interpolation durch nonlineare Methoden aus dem Bio-assay-Bereich, downhill-Normierung
bei inversen Skalen [hoherer Wert gleich schlechtere Leistung]). Die Ubersicht zu Drittmitteleinwerbungen
(vgl. 1.7) macht deutlich, dass hier ein langfristig stabiler Bedarf gleichermaßen fur Forschungsprojekte und
Produktentwicklungen besteht. Ich bitte um Verstandnis dafur, dass ich Funktionsprinzip, Code-Beispiele
und Arbeitsproben aus diesen Projekten nur nach personlichem Vorgesprach vorstellen kann.
2.5 Operative Dokumentation als Datenbank-Modell 8
2.5 Operative Dokumentation als Datenbank-Modell
Alle vorgenannten Forschungsinitiativen werden zur Zeit in ein zukunftsweisendes Projekt integriert: die
semi-automatische Herstellung komplexerer Statistiken bei gleichzeitiger voll-automatischer Dokumenta-
tion des Herstellungsprozesses. Dabei werden alle Komponenten (Daten, Programme [Syntax in diversen
Sprachen], Formatierungs-Schablonen, Ergebnisse und printfahige final reports) in einem gemeinsamen
Tabellenraum einer SQL-Server-Datenbank vorgehalten und rufen sich durch einen analyse-spezifischen
Prozessplan gegenseitig auf. Der Grundgedanke ist einfach: sogenannte”sniplets“ in mehreren Sprachen
(perl, sql/plsql, C, SAS, IML) greifen Daten-Abfragen auf (Atome) und produzieren daraus immer komple-
xere Ergebnisse (Molekule), die ihrerseits Bausteine fur komplexere Analysen oder Ergebnistabellen sind.
Alle Molekule”wissen“, was nachfolgende Molekule an Argumenten und Parametern beotigen. Jedem defi-
nierten Ergebnissatz einer Analyse (Tabellenspalten) ist auf jedem Aggregationsniveau eine Dokumentation
(Zeile) zugeordnet, die sich beim Transfer der Ergebnisse in den formatierten Report fur den Klienten
automatisch zu Tabellen-Legenden anordnet. Das entitity-relationship-model dieser Datenbank erweitert
um die prozedurale Steuerung ist somit operative Dokumentation: es rekonstruiert (statisch) alle Kompo-
nenten (z.B. Daten-backup, Versionskontrolle von Dokumenten) und integriert daruberhinaus deklaratives
Wissen uber Statistik, ist aber gleichzeitig selbst ablauffahiger Code in PL/SQL und (re-)produziert nicht
nur die Ergebnisse im Zusammenspiel mit der Analysesoftware, sondern das gesamte Projekt. Alle bisheri-
gen statistischen Auswertungen samt Syntax sind Bestandteil dieser Datenbank, so dass durch kumulative
Erfahrungverwertung komplexe Auswertungen sehr schnell realisiert werden konnen. Ebenso enthalten sind
Legenden-Zeilen fur jede erzeugte statistische Große und Ausgabefilter in beliebige Formate (u.a. html,
pdf, xls, mdb, docbook, LATEX, ps, doc, txt).
2.6 Zusammenfassung / Mehrwert fur die Forschung 9
Abbildung 2: Operative Dokumentation als Vorgehensmodell
Ein Nebeneffekt dieser Strategie besteht darin, dass statistische Algorithmen sowie die die Programmlo-
gik recht einfach in andere Programmiersprachen ubertragen und auch online verfugbar gemacht werden
konnen. Als Beispiel dient ein in perl (V.5.10) geschriebenes Script auf meinem UNIX-Server, welches Ein-
trage einer Vierfeldertafel und eine Pravalenzangabe entgegen nimmt und daraus eine ganze Reihe von Ma-
ßen zur epidemiologischen Risiko-Analyse und Screener-Performance berechnet (http://www.psychstat.uni-
bremen.de/cgi-bin/public/hcwepi.cgi).
2.6 Zusammenfassung / Mehrwert fur die Forschung
Methodenberatung, Datenbankentwicklung und Statistikprogrammierung sind keine den”eigentlichen“ For-
scher unterstutzenden Dienstleistungen oder gar wissenschaftlich nachrangige Forschungs-Infrastruktur.
Durch mehrere Wellen von IT-Revolutionen hindurch sind statistische Verfahren nicht nur theoretisch-
mathematisch, sondern auch in ihrer technischen Verfugbarkeit komplexer geworden, und in gleichem Maße
die Rezipienten von Forschung anspruchsvoller. Nicht umsonst sind diverse Verfahrensmodelle fur Program-
mierung ganz unabhangig von einer konkreten Sprache oder einer bestimmten inhaltlichen Problemstellung
entwickelt worden, nicht umsonst ist Projektmanagement ein eigenes Studienfach, nicht umsonst ist Da-
tensicherheit ein weltweites Topthema. All dieses zu uberblicken und verantwortungsvoll wie auch effizient
auf die spezifische Lage eines Klienten, seine fachwissenschaftliche Problemstellung, die Kompetenzen sei-
nes Teams, seine Moglichkeiten und Grenzen zu beziehen, ist gleichermaßen Wissenschaft (in der Sache)
und Kunst (in der Projektfuhrung) und geht uber den rein taktischen Vorteil einer professionellen MSB -
extreme Beschleunigung der Datenauswertungsphase - weit hinaus.