Pro l / 2018 - psychstat.uni-bremen.de · Solche Ergebnis-Tabellen dienen zudem als look-up-table f ur weitere Auswertungen, in- dem sie Parameter ohne Neuberechnung zur Verf ugung

Prof. Dr. Hans-Christian Waldmann

Profil / 2018

Zur Person

Lebenslauf

Qualifikationen

EDV-Kenntnisse

Forschung

Transfer

Programming

Lehre

Publikationen

Zeugnisse

www.psychstat.uni-bremen.de

www.theoretische-psychologie.uni-bremen.de

... extracted ...

5

2 Forschung und Transfer

2.1 Methoden- und Statistikberatung

Mehrjahrige Erfahrung in der Methoden- und Statistikberatung sowie die Kooperation in unzahligen, zu-

meist medizinisch oder klinisch-psychologisch ausgerichteten Forschungsprojekten haben die Idee aufkom-

men lassen, neben der Entwicklung statistischer Methoden die Beratungstatigkeit selbst zum Gegenstand

von Forschung werden zu lassen. Durch Fortschritte der Informationstechnologie und parallel steigende

Anspruche an die statistische Modellbildung werden Datenhaltung und -auswertung fur viele Forschungs-

projekte in den Humanwissenschaften zu einer immer großeren Belastung. Neben der Maximierung der

Validitat motiviert auch die Mittelknappheit in der Forschung dazu, rechen- oder zeitintensive Analysen

gebundelt an eine spezialisierte Stelle auszulagern. Methoden- und Statistikberatung muss heute also einen

einen optimalen Ausgleich schaffen von inhaltlichen Vorgaben, methodischen Erfordernissen, datenanalyti-

schen Moglichkeiten und Ressourcen-Begrenzung.

Meine Antwort auf diese Herausforderung besteht in einem integrierten Dienstleistungsmodell fur Methoden-

und Statitistikberatung (Waldmann, 2001).”Integriert“ bedeutet in diesem Zusammenhang, dass neben

den technologischen Losungen auch rechtliche, organisatorische, psychologische und wissenschaftstheoreti-

sche Aspekte aufgearbeitet werden. Ein Methodiker/Statistiker sollte heute nicht mehr nur Fachmann fur

hochkomplexe Datenanalyseverfahren, sondern den gesamten Forschungsprozess im Blick haben.

Der Leistungsumfang der Beratung variiert zwischen der kontinuierlichen Projektbegleitung von der Antrag-

stellung bis zum Abschlussbericht und einem kurzfristigen consulting on demand (z.B. Machbarkeitsanalyse

einer Weiterqualifikation). Meine Klienten kommen mehrheitlich aus den Sozial- und Gesundheitswissen-

schaften sowie der Pharmazie, aber auch Geologen, Biologen und Betriebswirten konnte ich bei statistischen

Herausforderungen zur Seite stehen. Seit 12 Jahren lege ich einen Schwerpunkt auf die Entwicklung, Normie-

rung und Bewertung psychologischer Testverfahren (vgl. 1.7: Drittmitteleinwerbungen). Fur kommerzielle

Anwendungen habe ich dynamisches Abrechnungsmodell entwickelt, das dem Klienten ein Hochstmaß an

Steuerung seines Auftrags garantiert und zu jedem Zeitpunkt der Projektabwicklung eine optimale Balance

von Kosten und Ertragen sicherstellt. Mein Geschaftsmodell ist fur Klienten transparent sichtbar in fachan-

waltlich gepruften AGB, die sich problemlos auch auf inner-universitare Beziehungen ubertragen lassen,

zum Beispiel in einer zentralen Stabs- oder Beratungsstelle fur Projektberatung, Datenbankentwicklung

und statistische Datenanalyse.

Im technischen Bereich (Programmierung) biete ich meinen Klienten

• die Erstellung intelligenter Kodierschemata fur ihre Erhebungsinstrumente und deren Umsetzung in

Datenstrukturen nach dem objektrelationalen Datenbankmodell, optional mit session-basierter online-

Dateneingabe und sample-monitoring (vgl. 2.2)

• die Ubernahme von statistischen Auswertungen jeder Komplexitat mit SAS in einem hocheffizienten

Programmierparadigma (vgl. 2.3)

• ein multimediales reporting wahlweise mit zeitechtem web-forwarding oder durch prasentationsfahige

Berichte in allen denkbaren Formaten einschließlich LATEX(vgl. 2.5)

2.2 Datenmanagement in multi-center-Studien 6

2.2 Datenmanagement in multi-center-Studien

Durch mein Engagement in bundesweiten Forderschwerpunkten oder Testnormierungen ist die Mehrzahl

der von mir betreuten Projekte vom Typ”multi-center“-Studie; hier stellt das zentrale Datenmanagement

die großte Herausforderung dar. Fur die Normierung der Wechsler-Intelligence-Scale for Children (WISC-

IV) habe ich ein objekt-relationales ERM entworfen und durch ein UNIX-RMDBS praktisch implementiert,

in dessen Tabellenraum Daten uber etwa 600 Variablen von 2600 Probanden aus verteilten Datenzentren

zentral nach Bremen eingegeben werden und das bestimmte Analyseergebnisse zeitecht an den Projektneh-

mer zuruckgibt, Fur die NAB (Neuropsychologische Assessment Batterie, in meiner Koautorenschaft, vgl.

2.4) konnten auf diese Weise fur 126 Skalen (!) die Normtabellen als Datenbank mit 130534 Zeilen zzgl.

Psychometrie halbautomatisch erzeugt werden. Diese konnen als Referenz fur online-Scoring-Routinen oder

zur on-demand-Generierung von Test-Kurzformen genutzt werden.

Ein einfaches, nicht minder nutzliches Anwendungsbeispiel - einen online-sample-Monitor fur WAIS-IV -

zeigt Abbildung 1. Durch Abfagen des Monitors nach diversen Stratifizierungsvariablen kann das Erhe-

bungspersonal jederzeit und zeitecht die Passung zum Zensus des statistischen Bundesamts steuern.

Abbildung 1: Sample-Monitor zur Normierung des WAIS-IV

2.3 Output-handling und Analyse-Automatisierung 7

2.3 Output-handling und Analyse-Automatisierung

Gelegentlich besteht die Herausforderung bei der statistischen Auswertung weniger in der Komplexitat der

statistischen Modelle, sondern im Umgang mit den Ergebnissen. Dies gilt vor allem dann, wenn sehr vie-

le Variablen zur Auswertung herangezogen werden, deren verschiedene Eigenschaften selbst bei gleicher

Richtung der Fragestellung unterschiedliche statistische Verfahren erfordern. In einem klassischen Analyse-

Ansatz bedeutet dies, hunderte, wenn nicht tausende von Seiten an Output durchzusehen, zu sortieren, die

relevanten Informationen zu extrahieren und zu bewerten, und schließlich in einen Bericht zu formatieren.

Bei Anderung der Eingangsdaten muss der gesamte Aufwand wiederholt werden. Meine Makros erzeugen

dagegen einen strukturierten, zweidimensionalen Datensatz mit den Zielstatistiken in der Spalte und den

beliebig-dimensionalen Kombinationen von Kriteriums- und Gruppierungsvariablen in der Zeile. Das grund-

legende Prinzip besteht in der Gleichbehandlung von Eingabe und Ausgabe eines Analyse als Datensatze.

Damit kann der gesamte prozedurale Funktionsumfang des statistischen Analyse-Systems wiederum auf die

Verarbeitung von Ergebnissen (nun als Eingabe) angewandt werden. Kann man eine Zielfunktion fur forma-

tive Analysen formulieren, wird durch sich verschrankt aufrufende Makros eine exzellente Automatisierung

erreicht (vgl. 2.5). Solche Ergebnis-Tabellen dienen zudem als look-up-table fur weitere Auswertungen, in-

dem sie Parameter ohne Neuberechnung zur Verfugung stellen oder data-mining-Techniken zur Erkennung

von Ergebnis-Mustern bedienen (in welchen Phanomenbereichen”ballen“ sich Effekte, welche Instrumente

erzeugen uberdurchschnittliche missing-Raten, etc.). Dies kann fur den Klienten einen erheblichen Mehr-

wert erzeugen. Naturlich erfordert eine tabellarische Berichterstattung eine aufwendige Legenden-Fuhrung,

welche aber - als Datenbank abgelegt - modular wiederverwendbar ist (vgl. 2.5). Viele Klienten bevorzugen

die tabellarische Ausgabe auch als Abnahme-Format, weil sie technisch einfach in eigene Publikations-

entwurfe einzubinden ist und die Berichtsstiefe als Kostenfaktor von der puren”result compliation“ bis hin

zur detaillierten Kommentierung der statistischen Verfahren stufenweise wahlbar ist.

2.4 Moderne Testnormierung

Manuale neuester psychometrischer Leistungstests zeigen deutlich, dass die Normierung heute wesentlich

mehr erfordert als die Tabellierung von Prozentrangen und T-Werten. Zum einen wird statt datennaher

Arbeit die konsequente Umsetzung des Testmodells erwartet (so erfordern die modernen Wechlser-Tests wie

WISC-IV, WAIS oder WMS sowie einer der renommiertesten neuropsychologischen Testbatterien der Welt

(NAB, s.u.) das Verfahren des sog.”continuous norming“ (CN), um den Entwicklungsgedanken adaquat ab-

zubilden), zum anderen werden eine große Menge fur den Praktiker informativer Zusatztabellen hergestellt

(kritische Differenzen, Basis-Raten, Vertrauensintervalle, Starken-Schwachen-Analysen, etc.). Ich begleite

seit 12 Jahren Testentwicklungsprojekte jeder Art vom Datenbank-Design bis hin zur print-Formatierung

der Handbuchtabellen. So ist ein System von Code-Fragmenten in SAS entstanden, welches solche Auswer-

tungsprojekte mit hohem Automatisierungsgrad realisieren kann und damit einen sehr erheblichen Wett-

bewerbsvorteil bedeutet. Auch im Rahmen der”klassischen“ Normierung kann ich innovative Techniken

anbieten (cdf-Interpolation durch nonlineare Methoden aus dem Bio-assay-Bereich, downhill-Normierung

bei inversen Skalen [hoherer Wert gleich schlechtere Leistung]). Die Ubersicht zu Drittmitteleinwerbungen

(vgl. 1.7) macht deutlich, dass hier ein langfristig stabiler Bedarf gleichermaßen fur Forschungsprojekte und

Produktentwicklungen besteht. Ich bitte um Verstandnis dafur, dass ich Funktionsprinzip, Code-Beispiele

und Arbeitsproben aus diesen Projekten nur nach personlichem Vorgesprach vorstellen kann.

2.5 Operative Dokumentation als Datenbank-Modell 8

2.5 Operative Dokumentation als Datenbank-Modell

Alle vorgenannten Forschungsinitiativen werden zur Zeit in ein zukunftsweisendes Projekt integriert: die

semi-automatische Herstellung komplexerer Statistiken bei gleichzeitiger voll-automatischer Dokumenta-

tion des Herstellungsprozesses. Dabei werden alle Komponenten (Daten, Programme [Syntax in diversen

Sprachen], Formatierungs-Schablonen, Ergebnisse und printfahige final reports) in einem gemeinsamen

Tabellenraum einer SQL-Server-Datenbank vorgehalten und rufen sich durch einen analyse-spezifischen

Prozessplan gegenseitig auf. Der Grundgedanke ist einfach: sogenannte”sniplets“ in mehreren Sprachen

(perl, sql/plsql, C, SAS, IML) greifen Daten-Abfragen auf (Atome) und produzieren daraus immer komple-

xere Ergebnisse (Molekule), die ihrerseits Bausteine fur komplexere Analysen oder Ergebnistabellen sind.

Alle Molekule”wissen“, was nachfolgende Molekule an Argumenten und Parametern beotigen. Jedem defi-

nierten Ergebnissatz einer Analyse (Tabellenspalten) ist auf jedem Aggregationsniveau eine Dokumentation

(Zeile) zugeordnet, die sich beim Transfer der Ergebnisse in den formatierten Report fur den Klienten

automatisch zu Tabellen-Legenden anordnet. Das entitity-relationship-model dieser Datenbank erweitert

um die prozedurale Steuerung ist somit operative Dokumentation: es rekonstruiert (statisch) alle Kompo-

nenten (z.B. Daten-backup, Versionskontrolle von Dokumenten) und integriert daruberhinaus deklaratives

Wissen uber Statistik, ist aber gleichzeitig selbst ablauffahiger Code in PL/SQL und (re-)produziert nicht

nur die Ergebnisse im Zusammenspiel mit der Analysesoftware, sondern das gesamte Projekt. Alle bisheri-

gen statistischen Auswertungen samt Syntax sind Bestandteil dieser Datenbank, so dass durch kumulative

Erfahrungverwertung komplexe Auswertungen sehr schnell realisiert werden konnen. Ebenso enthalten sind

Legenden-Zeilen fur jede erzeugte statistische Große und Ausgabefilter in beliebige Formate (u.a. html,

pdf, xls, mdb, docbook, LATEX, ps, doc, txt).

2.6 Zusammenfassung / Mehrwert fur die Forschung 9

Abbildung 2: Operative Dokumentation als Vorgehensmodell

Ein Nebeneffekt dieser Strategie besteht darin, dass statistische Algorithmen sowie die die Programmlo-

gik recht einfach in andere Programmiersprachen ubertragen und auch online verfugbar gemacht werden

konnen. Als Beispiel dient ein in perl (V.5.10) geschriebenes Script auf meinem UNIX-Server, welches Ein-

trage einer Vierfeldertafel und eine Pravalenzangabe entgegen nimmt und daraus eine ganze Reihe von Ma-

ßen zur epidemiologischen Risiko-Analyse und Screener-Performance berechnet (http://www.psychstat.uni-

bremen.de/cgi-bin/public/hcwepi.cgi).

2.6 Zusammenfassung / Mehrwert fur die Forschung

Methodenberatung, Datenbankentwicklung und Statistikprogrammierung sind keine den”eigentlichen“ For-

scher unterstutzenden Dienstleistungen oder gar wissenschaftlich nachrangige Forschungs-Infrastruktur.

Durch mehrere Wellen von IT-Revolutionen hindurch sind statistische Verfahren nicht nur theoretisch-

mathematisch, sondern auch in ihrer technischen Verfugbarkeit komplexer geworden, und in gleichem Maße

die Rezipienten von Forschung anspruchsvoller. Nicht umsonst sind diverse Verfahrensmodelle fur Program-

mierung ganz unabhangig von einer konkreten Sprache oder einer bestimmten inhaltlichen Problemstellung

entwickelt worden, nicht umsonst ist Projektmanagement ein eigenes Studienfach, nicht umsonst ist Da-

tensicherheit ein weltweites Topthema. All dieses zu uberblicken und verantwortungsvoll wie auch effizient

auf die spezifische Lage eines Klienten, seine fachwissenschaftliche Problemstellung, die Kompetenzen sei-

nes Teams, seine Moglichkeiten und Grenzen zu beziehen, ist gleichermaßen Wissenschaft (in der Sache)

und Kunst (in der Projektfuhrung) und geht uber den rein taktischen Vorteil einer professionellen MSB -

extreme Beschleunigung der Datenauswertungsphase - weit hinaus.

... extracted ...

Documents

Pro l / 2018 - psychstat.uni-bremen.de · Solche Ergebnis-Tabellen dienen zudem als look-up-table f ur weitere Auswertungen, in- dem sie Parameter ohne Neuberechnung zur Verf ugung