233
Universität Koblenz-Landau Campus Landau Fachbereich 8: Psychologie BDI-II-V: Ein Vorschlag zur Vereinfachung der zweiten Auflage des Beck Depressionsinventars (BDI-II) und die Frage, ob BDI, BDI-V, BDI-II und BDI-II-V das Gleiche messen Diplomarbeit vorgelegt von Katharina Christine Fischer Gutachter: Prof. Dr. Manfred Schmitt Dr. Christine Altstötter-Gleich Neustadt an der Weinstraße, im Januar 2012

BDI-II-Vpsydok.psycharchives.de/jspui/bitstream/20.500.11780/664/1/Diplomarbe... · Danksagung 2 Danksagung Ich möchte mich bei Herrn Prof. Dr. Schmitt für die äußerst unterstützende

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Universität Koblenz-Landau

Campus Landau

Fachbereich 8: Psychologie

BDI-II-V:

Ein Vorschlag zur Vereinfachung der zweiten

Auflage des Beck Depressionsinventars (BDI-II)

und die Frage, ob BDI, BDI-V, BDI-II und

BDI-II-V das Gleiche messen

Diplomarbeit

vorgelegt von Katharina Christine Fischer

Gutachter:

Prof. Dr. Manfred Schmitt

Dr. Christine Altstötter-Gleich

Neustadt an der Weinstraße, im Januar 2012

„Wenn Du vor mir stehst und mich an-

siehst, was weißt Du von den Schmer-

zen, die in mir sind und was weiß ich

von den Deinen. Und wenn ich mich vor

Dir niederwerfen würde und weinen

und erzählen, was wüsstest Du von mir

mehr als von der Hölle, wenn Dir je-

mand erzählt, sie ist heiß und fürchter-

lich. Schon darum sollten wir Menschen

voreinander so ehrfürchtig, so nach-

denklich, so liebend stehn wie vor dem

Eingang zur Hölle.“

Franz Kafka

Danksagung 2

Danksagung

Ich möchte mich bei Herrn Prof. Dr. Schmitt für die äußerst unterstützende und motivie-

rende Betreuung dieser Arbeit bedanken. Seine außerordentlich schnelle Antwort auf

jede Art von Frage haben das Arbeiten sehr erleichtert. Außerdem gilt ihm besonderer

Dank für das zur Verfügung Stellen der Gutscheine zur Verlosung unter den Teilneh-

mern der Studie.

Ebenso möchte ich mich bei Frau Dr. Altstötter-Gleich für entscheidende Hinweise zur

Literatur und zur Behandlung der Daten bedanken sowie dafür, dass sie sich so viel Zeit

genommen hat.

Besonders dankbar bin ich Anna Halmburger, Christine Rieß und Isabell Kahl, die mit

wertvollen Rückmeldungen entscheidend zu dieser Arbeit beigetragen haben. Für die

Korrektur auf Rechtschreibfehler und unlesbare Monstersätze danke ich meiner Mutter

und Matthias. Ihm gebührt außerdem Dank für die Unterstützung bei der Erstellung der

Graphiken.

Dank gilt auch den Teilnehmern des Kolloquiums der Arbeitseinheit Diagnostik, Diffe-

rentielle- und Persönlichkeitspsychologie, Methodik und Evaluation des Fachbereichs

Psychologie der Universität Koblenz-Landau für ihren Beitrag zur Gestaltung der Items.

Diese Arbeit wäre nicht entstanden ohne all jene, die bereit waren, eines der Fragebo-

genpakete auszufüllen. Deswegen möchte ich mich bei all meinen Probanden bedanken.

Besonderer Dank gebührt den vielen „Multiplikatoren“, ohne die nicht 630 Fragebögen

hätten verteilt werden können. Ich danke für das Austeilen von Fragebögen Nadine Kis-

sel & Tim Langbein, meiner Oma Friedel, meiner Oma Gerda, Mama, Papa, Elisabeth,

meiner Cousine Julia, Matthias, Melanie Kotremba & Jan Wiss, Christine Rieß & Jens

Dietmann, Sabrina Lambert & Sandro Klepsch, Johanna Loschky, Christina Bürger,

Julia Ledulé, Anja Häuser & Christian Koop, Carsten Kroll, Christian Schneider, Vere-

na Allmacher, Marcel Kempeni, Anja & Adina Berneck, Christin & Steffen Lutze, Fa-

milie Seidel, Christine & Jürgen Gerhartz, Jürgen Winter, Jasmin Lambert & Adrian

Filipkowski, Familie Jäger, Familie Steiniger, Familie Weiß-Wipprecht, Frau Dagmar

Eichmann, Isabell Kahl, Ulrike Hettich, Bianca Alt, Maria Geißert, Sonja & Jochen

Danksagung 3

Bähr, Manfred Klohr, Familie Ost, Martina Prajitno, Gabriela Schwensen, Sonja Lede-

brink, Britta Jansen, Stefanie Buchert, Alexander Blankenburg, Julia Hauß, Richard

Städtler, Rigobert Müller, Wolfgang Medard, Bernd Riede, Frau Gabriela Falke, Dorit

Benoit, Ramona Wildt, Martin Buchheim, Mona Lisa Seithel und all denen, deren Na-

men hier fehlen, ebenso wie allen „Multiplikator-Multiplikatoren“!

Bedanken möchte ich mich auch bei jenen, die es mir ermöglicht haben, bei privaten

oder offiziellen Anlässen in größerem Rahmen für die Teilnahme an der Studie zu wer-

ben. Dank geht hierfür an meine Cousine Sandra und Markus Meßner, an Herrn Fritz

Wiedemann, Vorsitzender des Fördervereins „Freunde der Feuerwehr Mußbach e.V.“,

und an Frau Christine Harms, damals Leiterin des Kirchenchors Mußbach.

Hinweis 4

Hinweis

Im Text wird aus Gründen der Lesbarkeit durchgehend die männliche Form (Proban-

den, Patienten, Autoren, …) verwendet. Genauso gemeint sind an jeder Stelle natürlich

auch Probandinnen, Patientinnen und Autorinnen.

Inhaltsverzeichnis 5

Inhaltsverzeichnis

Danksagung ...................................................................................................................... 2

Hinweis ............................................................................................................................. 4

Inhaltsverzeichnis ............................................................................................................. 5

Zusammenfassung ............................................................................................................ 9

1 Einleitung ................................................................................................................ 13

2 Theorie .................................................................................................................... 17

2.1 Depression ........................................................................................................ 17

2.1.1 Symptome ................................................................................................... 17

2.1.2 Diagnostische Klassifikation ...................................................................... 18

2.1.3 Differentialdiagnostik ................................................................................. 23

2.1.4 Komorbidität ............................................................................................... 24

2.1.5 Epidemiologie und gesellschaftliche Bedeutung ........................................ 25

2.2 Depression und Persönlichkeit ......................................................................... 27

2.2.1 Methodische Fragen und Modelle............................................................... 28

2.2.2 Neurotizismus ............................................................................................. 31

2.2.3 Extraversion ................................................................................................ 33

2.2.4 Offenheit für Erfahrung .............................................................................. 34

2.2.5 Verträglichkeit ............................................................................................ 35

2.2.6 Gewissenhaftigkeit ...................................................................................... 36

2.2.7 Zusammenfassung ....................................................................................... 38

2.3 Das Beck Depressionsinventar (BDI) .............................................................. 38

2.3.1 Die Entstehung des Beck Depressionsinventars (BDI)............................... 38

2.3.2 Ein Vorschlag zur Vereinfachung des Beck Depressionsinventars

(BDI-V) ....................................................................................................... 41

2.3.3 BDI und BDI-V im Vergleich ..................................................................... 44

Inhaltsverzeichnis 6

2.3.4 Die Entstehung der zweiten Ausgabe des Beck Depressionsinventars

(BDI-II) ....................................................................................................... 46

2.3.5 BDI und BDI-II im Vergleich ..................................................................... 49

2.3.6 Ein Vorschlag zur Vereinfachung der zweiten Ausgabe des Beck

Depressionsinventars (BDI-II-V) ................................................................ 50

2.4 Messäquivalenz ................................................................................................ 55

2.4.1 Die Klassische Testtheorie .......................................................................... 56

2.4.2 Die Messmodelle der Klassischen Testtheorie ........................................... 57

2.4.3 Nutzen der Messmodelle ............................................................................. 66

2.4.4 Überprüfung der Messäquivalenz ............................................................... 67

3 Fragestellungen und Hypothesen ............................................................................ 69

4 Methode .................................................................................................................. 78

4.1 Instrumente ....................................................................................................... 78

4.1.1 Das Beck Depressionsinventar (BDI) ......................................................... 78

4.1.2 Das NEO-Fünf-Faktoren-Inventar (NEO-FFI) ........................................... 80

4.2 Durchführung der Erhebung ............................................................................ 83

4.3 Modelle ............................................................................................................ 85

4.3.1 Modelle zur Überprüfung der Messäquivalenz von BDI-II und

BDI-II-V (Hypothese III.b) ......................................................................... 86

4.3.2 Vergleich der Messäquivalenz von BDI-II-V.1 und BDI-II mit der

Messäquivalenz von BDI-II-V.2 und BDI-II (Hypothese IV.b) ................. 89

4.3.3 Modelle zur Überprüfung der Messäquivalenz von BDI, BDI-V,

BDI-II und BDI-II-V (Hypothese V.b) ....................................................... 90

4.4 Auswertungssoftware ....................................................................................... 96

4.5 Schätzmethode für die Modelle ....................................................................... 96

4.6 Beurteilung der Modellgüte ............................................................................. 98

4.6.1 Deskriptive Modellgüteindizes ................................................................... 99

4.6.2 Modellvergleich ........................................................................................ 102

Inhaltsverzeichnis 7

4.7 Aufbereitung der Rohdaten ............................................................................ 103

4.7.1 Skalenwerte des NEO-FFI ........................................................................ 103

4.7.2 Summenwerte des BDI ............................................................................. 103

4.7.3 Reskalieren der Werte der verkürzten BDI-Varianten .............................. 106

4.7.4 Logarithmieren der Werte ......................................................................... 107

4.7.5 Erstellen von Itemparcels .......................................................................... 108

5 Ergebnisse ............................................................................................................. 112

5.1 Datenbereinigung und Beschreibung der Stichprobe ..................................... 112

5.1.1 Verständnisschwierigkeiten oder mangelnde Sorgfalt beim Ausfüllen .... 113

5.1.2 Ausreißer und Extremwerte ...................................................................... 113

5.1.3 Fehlende Werte ......................................................................................... 114

5.1.4 Beschreibung der Stichprobe .................................................................... 115

5.2 Ergebnisse zur internen Konsistenz und Homogenität des BDI-II-V

(Hypothese I)................................................................................................. 120

5.3 Weitere Ergebnisse zu psychometrischen Eigenschaften des BDI-II-V ........ 122

5.4 Ergebnisse zur Konstruktvalidität des BDI-II-V (Hypothese II) ................... 128

5.5 Ergebnisse zur Entsprechung von BDI-II-V und BDI-II (Hypothese III) ..... 129

5.6 Ergebnisse zum Vergleich von BDI-II-V.1 und BDI-II-V.2 (Hypothese

IV) ................................................................................................................. 135

5.6.1 Überprüfung der Voraussetzungen ........................................................... 135

5.6.2 Ergebnisse der Analysen ........................................................................... 136

5.7 Ergebnisse zur Entsprechung von BDI, BDI-V, BDI-II und BDI-II-V

(Hypothese V) ............................................................................................... 142

6 Diskussion ............................................................................................................. 151

6.1 Interpretation der Ergebnisse ......................................................................... 151

6.1.1 Reliabilität und Validität des BDI-II-V .................................................... 151

6.1.2 BDI-II-V und BDI-II im Vergleich ........................................................... 154

6.1.3 BDI-II.V.1 und BDI-II-V.2 im Vergleich ................................................. 156

Inhaltsverzeichnis 8

6.1.4 BDI, BDI-V, BDI-II und BDI-II-V im Vergleich ..................................... 161

6.2 Einschränkungen und Kritik .......................................................................... 164

6.2.1 Stichprobe ................................................................................................. 164

6.2.2 Datenaufbereitung ..................................................................................... 166

6.2.3 Aussagekraft der Untersuchungen zum BDI-II-V in der

Gesamtstichprobe ...................................................................................... 166

6.2.4 Interpretierbarkeit der konfirmatorischen Faktorenanalysen .................... 167

6.2.5 Vergleich von BDI-II-V.1 und BDI-II-V.2 ............................................... 167

6.2.6 Modellgütebeurteilung und Interpretation der Modelle ............................ 168

6.3 Fazit und Anregungen für weiterführende Untersuchungen .......................... 169

Abbildungsverzeichnis .................................................................................................. 174

Tabellenverzeichnis ...................................................................................................... 176

Literaturverzeichnis ...................................................................................................... 179

Eidesstattliche Erklärung .............................................................................................. 188

Anhang .......................................................................................................................... 189

Zusammenfassung 9

Zusammenfassung

Analog der Ergänzung des Beck Depressionsinventars (BDI, Hautzinger, Bailer, Worall

& Keller, 1994) durch eine vereinfachte Variante (BDI-V) durch Schmitt und Maes

(2000) unterbreitet diese Diplomarbeit einen Vorschlag für eine vereinfachte Version

der zweiten Auflage des Beck Depressionsinventars (BDI-II, Hautzinger, Keller &

Kühner, 2006).

Im Unterschied zur ersten Auflage des BDI sind die Items der Revision explizit auf die

Symptomkriterien einer depressiven Episode der vierten Auflage des Diagnostischen

und Statistischen Manuals Psychischer Störungen (DSM-IV) der American Psychiatric

Association (APA, 1994) abgestimmt. Das BDI-II zeichnet sich durch sehr gute

psychometrische Eigenschaften und insbesondere durch eine hohe Reliabilität und Vali-

dität aus. Der Vorschlag einer vereinfachten Variante (BDI-II-V) hatte zum Ziel, dane-

ben die Ökonomie des Verfahrens zu optimieren.

Die vier Statements, aus denen jedes Item des Originals besteht, wurden zu je einer

Aussage zusammengefasst, die auf einer Häufigkeitsskala bewertet wird. Für die kom-

plex formulierten Items zu den Symptomen Appetit und Schlaf wurden zunächst zwei

Alternativen vorgeschlagen, deren Eignung im Rahmen der Auswertungen miteinander

verglichen werden sollte. Alternative 1 formulierte die Items zu Schlaf und Appetit glo-

bal (BDI-II-V.1), Alternative 2 fragte spezifisch sowohl nach außergewöhnlich hohen

als auch nach außergewöhnlich niedrigen Ausprägungen der beiden Phänomene

(BDI-II-V.2).

Die Untersuchung setzte das BDI (Hautzinger et al., 1994), das BDI-V (Schmitt & Ma-

es, 2000), das BDI-II (Hautzinger et al., 2006) und das vorgeschlagene BDI-II-V an

einer heterogenen Bevölkerungsstichprobe (N = 325) ein und untersuchte die Konver-

genz der Inventare. Jeweils etwa die Hälfte der Probanden hatten das BDI-II-V in der

Variante BDI-II-V.1 respektive BDI-II-V.2 erhalten. Zu Zwecken der Validierung des

BDI-II-V kam zudem das NEO-FFI (Borkenau & Ostendorf, 2008) zum Einsatz.

Für das BDI-II-V erfolgten die Auswertungen sowohl in der Gesamtstichprobe, indem

die Varianten 1 und 2 zusammengefasst wurden, als auch in den Teilstichproben, in

denen BDI-II-V.1 und BDI-II-V.2 getrennt ausgewertet und im Anschluss ihre Eigen-

schaften verglichen werden konnten.

Zusammenfassung 10

Die Analysen bescheinigten dem BDI-II-V (in der Gesamtstichprobe) eine sehr hohe

interne Konsistenz (Cronbach’s α = .95), eine hohe Homogenität (M (rii) = .50) und sehr

gute Itemtrennschärfen (M (rit) = .69). Eine Hauptachsenanalyse konnte so interpretiert

werden, dass die Items durch einen starken Faktor oder zwei hoch korrelierende Fakto-

ren repräsentiert werden. Die Zwei-Faktoren-Lösung entsprach sehr gut bisherigen Be-

funden für das Original (BDI-II) und konnte als Hinweis auf die faktorielle Validität des

BDI-II-V gewertet werden. Erste Belege der Konstruktvalidität ergaben sich aus hohen

positiven Korrelationen des Summenwertes mit Neurotizismus und niedrigeren Korrela-

tionen mit den weiteren Dimensionen des Fünf-Faktoren-Modells der Persönlichkeit.

Das BDI-II-V war etwas leichter als das BDI-II. Die Summenwerte von BDI-II und

BDI-II-V korrelierten hoch (r = .86), die mittlere Korrelation auf der Ebene der einzel-

nen Items war respektabel (r = .65). Die Beziehung, die ein bestimmtes Item zum

Summenwert der anderen Items aufweist, entsprach sich zwischen den Inventaren sehr

gut (Rangkorrelationen der Trennschärfen = .86). Im direkten Vergleich erwies sich das

BDI-II-V als etwas konsistenter als das BDI-II und seine Items waren etwas trennschär-

fer als die des Originals. In konfirmatorischen Faktorenanalysen ergab sich zwischen

den beiden latenten Faktoren, die das BDI-II und das BDI-II-V repräsentierten, eine

sehr hohe Korrelation von .92.

In den Auswertungen der beiden Alternativen in den Teilstichproben zeigte sich die

Variante BDI-II-V.1 der Variante BDI-II-V.2 deutlich überlegen. Sowohl ihre psycho-

metrischen Kennwerte im Allgemeinen, als auch ihre Konvergenz mit dem Original im

Speziellen waren besser als jene der Variante 2 und damit auch besser als jene der zu-

sammengefassten Auswertung beider Alternativen in der Gesamtstichprobe. So belief

sich in den konfirmatorischen Faktorenanalysen die latente Korrelation zwischen den

Faktoren für BDI-II-V.1 und BDI-II auf .94. Es werden potenzielle Gründe für die

Überlegenheit des BDI-II-V.1 diskutiert. Die Ergebnisse bedürfen weiterführender Ab-

sicherung, bevor endgültige Schlüsse gezogen werden sollten.

Das BDI-II war etwas schwerer, etwas konsistenter und etwas trennschärfer als das

BDI. Die Berechnung bivariater Zusammenhänge zwischen BDI, BDI-V, BDI-II und

BDI-II-V ergab sehr hohe Korrelationen jeweils zwischen den beiden gleich skalierten

Originalversionen (r = .94) und zwischen den verkürzten Versionen (r = .93). Die vier

weiteren Koeffizienten jeweils zwischen einem Original und einer verkürzten Version

Zusammenfassung 11

fielen niedriger, aber dennoch hoch aus (.85 ≤ r ≤ .86), wobei es unerheblich war, ob die

Korrelation zwischen einem Original und der zugehörigen Verkürzung oder zwischen

einem Original und der nicht-zugehörigen Verkürzung bestimmt wurde. Übereinstim-

mung der Skalierung schlug sich damit wesentlich deutlicher im Zusammenhangsmus-

ter der Fragebögen nieder als inhaltliche Übereinstimmung. Führt man in konfirmatori-

schen Faktorenanalysen die Zusammenhänge zwischen den Inventaren auf eine latente

Dimension Depressivität zurück, ließen sich daher weder ein Modell essentiell τ-

paralleler, noch ein Modell essentiell τ-äquivalenter und auch nicht ein minimales Mo-

dell τ-kongenerischer Variablen fitten. Erst ein Modell, das die beiden unterschiedlichen

Skalierungen in Form eines Methodenfaktors berücksichtigte, erzielte perfekten Fit. Es

ergab sich, dass die Abbildung der Depressivität durch die verkürzten BDI-Versionen

gut, aber nicht perfekt durch die Werte der Originalformen vorhergesagt werden konnte.

Die wahren Depressionswerte, die ein Original-BDI misst, unterschieden sich mäßig

von den wahren Depressionswerten, die ein verkürztes BDI misst. Die Konvergenz von

Originalen und Verkürzungen überstieg die Spezifität der verkürzten Versionen um

mehr als das Vierfache. (77 resp. 78% der Varianz vs. 17 resp. 14% der Varianz von

BDI-V resp. BDI-II-V).

Einschränkungen der Interpretierbarkeit der Ergebnisse ergeben sich aus der größten-

teils explorativen Natur der konfirmatorischen Faktorenanalysen und aus der Untersu-

chung einer überwiegend gesunden Bevölkerungsstichprobe mit stark rechtsschief ver-

teilter, niedriger durchschnittlicher Depressivität. Als nächste Schritte werden die Bestä-

tigung der exploratorischen Befunde, die Untersuchung klinischer Stichproben und die

Fortsetzung der Suche nach geeigneten Formulierungen zur Abbildung der Original-

Items, die Schlaf und Appetit betreffen, angeregt.

Mit dem BDI-II-V als vereinfachter Version des BDI-II steht damit ersten Erkenntnis-

sen zufolge ein reliables, valides und ökonomisches Instrument zur Erfassung von De-

pressivität in Anlehnung an die Kriterien der (Textrevision der) vierten Auflage des

Diagnostischen und Statistischen Manuals Psychischer Störungen (DSM-IV(-TR)) der

American Psychiatric Association (1994/2000) zur Verfügung. Es steht dem Original in

den Messeigenschaften nicht nach, deskriptive Ergebnisse sprechen für eine gute Kon-

vergenz der beiden Instrumente. Vollständige Messäquivalenz konnte bislang nicht be-

legt werden, weshalb es weiterer Analysen bedarf, bevor das BDI-II-V dem Original als

Zusammenfassung 12

Alternative für Verwendungszusammenhänge, in denen es besonders auf Messökono-

mie ankommt, zur Seite gestellt werden könnte.

Schlüsselwörter: Beck Depressionsinventar, Messäquivalenz, Messökonomie, Metho-

denfaktor.

Einleitung 13

1 Einleitung

Ein Aspekt, von dem die Qualität einer wissenschaftlichen Studie entscheidend ab-

hängt, ist die Sicherstellung der internen Validität. Dazu bedarf es der Möglichkeit,

alternative Erklärungen für die eigenen Befunde neben den Bedingungen, deren

Auswirkungen man untersuchen möchte, so weit wie möglich auszuschließen. As-

pekte, von denen man schon weiß oder vermutet, dass sie einen Einfluss auf die ab-

hängige Variable ausüben, können kontrolliert werden. Handelt es sich um zum Bei-

spiel um Einflussgrößen, die mittels Fragebögen erfasst werden können, ist es eine

einfach umzusetzende Kontrolltechnik, die Konstrukte zu erheben und damit statis-

tisch konstantzuhalten (Gollwitzer & Jäger, 2007).

In vielen Fällen sind Theorien und Modelle sehr komplex und umfassen zahlreiche

Einflussgrößen auf ein Konstrukt, direkte Beziehungen, moderierende Bedingungen

und Mediatoren. Alle diese Variablen müssen in Überprüfungen der Modelle und

Theorien erfasst werden.

Eine Möglichkeit, die Reliabilität, mit der ein Konstrukt gemessen wird, zu erhöhen,

besteht darin, mehrere Variablen, die Indikatoren für dieses Konstrukt darstellen, zu

erheben und zu aggregieren (Gollwitzer & Jäger, 2007).

Dies sind nur drei sehr allgemeine Beispiele dafür, dass im Rahmen einer wissenschaft-

lichen Untersuchung häufig eine umfangreiche Anzahl an Variablen berücksichtigt

werden muss, um zu möglichst hochwertigen Erkenntnissen zu gelangen.

Ist man darauf angewiesen, Freiwillige für die Teilnahme an der eigenen Studie zu ge-

winnen und hat dabei nicht die Möglichkeit, attraktive Anreize zum Beispiel finanziel-

ler Art zu bieten, kann ein großer Umfang der Untersuchung(smaterialien), wie etwa

eine große Anzahl zu bearbeitender Fragebögen, allerdings zu einem Nachteil geraten:

Zeit ist ein hohes Gut. Je länger die Teilnahme an einer Studie dauert, desto schwieriger

ist es für die meisten, sich darauf einzulassen.

Daraus entsteht ein Interessenkonflikt für den Forschenden. Die Anzahl benötigter Va-

riablen ergibt sich aus der theoretischen Fragestellung. Eine Reduktion der wünschens-

werten Parameter wirkt sich notwendigerweise auf die Qualität der Ergebnisse aus.

Doch umfangreiche Untersuchungsmaterialien erschweren das Gewinnen von großen

Stichproben, wenn man nicht auf Studenten, die Versuchspersonenstunden abzuleisten

Einleitung 14

haben, zurückgreifen kann oder möchte und auch keine Möglichkeiten hat, die Proban-

den (finanziell) zu entschädigen.

Im klinischen Kontext sind die begrenzenden Faktoren andere. Auch hier ist der Um-

fang der „Fragebogenbatterien“, die Patienten mindestens zur Eingangs- und Entlassdi-

agnostik, häufig auch an zusätzlichen Zeitpunkten im Verlauf einer Behandlung ausfül-

len sollen, oft sehr hoch. Die Notwendigkeit einer möglichst guten Erfassung der Be-

schwerden eines Patienten, aber auch ihrer Besserung zu Zwecken der Therapieplanung

und -evaluation macht die Umfänge erforderlich. Gleichzeitig sind solche Untersuchun-

gen in vielen Fällen wiederum mit wissenschaftlichen Zielen der Erforschung klinischer

Fragestellungen verbunden.

Hier geht es weniger darum, „Unbeteiligte“ zu einer freiwilligen Teilnahme zu bewe-

gen. Bei der Menge an und Komplexität der Instrumente ist viel mehr die Belastungs-

grenze von Patienten zu berücksichtigen. Je länger und komplexer die Fragebögen aus-

fallen, desto eher befürchten Patienten, dem nicht gewachsen zu sein. So lange Papier-

und-Bleistift-Verfahren zum Einsatz kommen, spielt zudem der Verbrauch finanzieller

Ressourcen von Kliniken eine Rolle, denn es fallen sowohl Druckkosten wie auch Per-

sonalkosten durch das Eingeben oder –lesen der Fragebögen an.

Wie können die Interessenkonflikte entschärft werden?

Ein Ansatz besteht darin, die einzelnen Instrumente möglichst ökonomisch zu gestalten.

Die Ökonomie ist ein Gütekriterium psychometrischer Verfahren. Ein ökonomischer

Test oder Fragebogen beansprucht gemessen am diagnostischen Erkenntnisgewinn rela-

tiv wenige Ressourcen (Schermelleh-Engel, Kelava & Moosbrugger, 2006). Instrumente

müssen objektiv, reliabel und valide sein. Je ökonomische sie dabei sind, umso besser

ist es.

Diese Arbeit beschäftigt sich mit der Gestaltung eines ökonomischen Fragebogens. Sie

unterbreitet einen Vorschlag für eine vereinfachte Variante eines der wichtigsten In-

strumente zur Bestimmung des Schwergrads depressiver Symptome, die zweite Auflage

des Beck Depressionsinventars (BDI-II, in der deutschen Ausgabe von Hautzinger,

Keller & Kühner, 2006). Das Ziel ist, einen verkürzten Fragebogen zur Verfügung zu

stellen, der in Verwendungszusammenhängen, in denen es auf Testökonomie ankommt,

eine Alternative zum Original darstellen könnte.

Einleitung 15

Das BDI-II weist hervorragende psychometrische Eigenschaften sowie eine sehr hohe

Validität auf. Doch obwohl es aus einer überschaubaren Anzahl von 21 Items besteht,

müssen beim Ausfüllen 90 Aussagen gelesen und abgewogen werden. Dieses Verhältnis

sollte optimiert werden.

Ein solches Vorhaben gelang bereits für die deutsche Übersetzung der erste Auflage des

Inventars (BDI, Hautzinger, Bailer, Worall & Keller, 1994) für die Schmitt und Maes

(2000) eine Vereinfachung vorschlugen, welche die Anzahl der Aussagen, die in den 21

Items enthalten waren, von damals 85 auf 20 reduzierten, ohne die Güte der psychomet-

rischen Eigenschaften des Inventars zu schmälern.

Kapitel 2 stellt zunächst das Krankheitsbild der Depression dar, damit ein Eindruck ent-

steht, welche Symptome dieses ausmachen und von Instrumenten zur Beurteilung einer

Depression erfasst werden müssen. Die Zusammenhänge zwischen Depression und Per-

sönlichkeit spielen eine Rolle in der Validierung der vorgeschlagenen Vereinfachung

des BDI-II und werden daher anschließend beleuchtet. Entstehung und Geschichte des

Beck Depressionsinventars werden im Folgenden beschrieben und schließen mit der

Vorstellung des Vorschlags für ein verkürztes BDI-II. Damit dieser Vorschlag tatsäch-

lich eine Alternative zum Original darstellen kann, muss nachgewiesen werden, dass er

dem Original äquivalent ist. Die Messäquivalenz und ihre Überprüfung werden daher

im letzten Abschnitt des zweiten Kapitels behandelt.

Kapitel 3 konkretisiert die Fragestellungen und Hypothesen dieser Arbeit.

Kapitel 4 ergänzt Informationen zu den eingesetzten Instrumenten, die in Kapitel 1 noch

nicht dargestellt wurden, und beschreibt die Durchführung der Untersuchung. Im An-

schluss werden die Modelle konfirmatorischer Faktorenanalysen veranschaulicht, die

zur Testung der Messäquivalenzhypothesen spezifiziert wurden. Es folgen spezifische

Informationen zur verwendeten Software sowie zur Testung und Beurteilung der Mo-

delle. Das Kapitel schließt mit der Darstellung der Aufbereitung der Rohdaten vor den

Analysen.

Kapitel 5 berichtet die Ergebnisse zu den einzelnen Hypothesen.

Kapitel 6 fasst die Ergebnisse zusammen, vergleicht sie mit den Befunden bisheriger

Studien und versucht eine Interpretation. Anschließend werden Durchführung und

Einleitung 16

Auswertung der Arbeit kritisch reflektiert. Im letzten Abschnitt wird nach einem kurzen

Fazit zusammengestellt, welche Schritte sich an diese Arbeit anschließen könnten.

Theorie 17

2 Theorie

Der erste Abschnitt des Theorieteils beschreibt das Krankheitsbild der Depression und

seine gesellschaftliche Bedeutung. Im Anschluss werden Befunde dazu dargestellt, wie

Depression mit Persönlichkeitseigenschaften zusammenhängt. Der nächste Abschnitt ist

dem Beck Depressionsinventar (Beck, Ward, Mendelson, Mock & Erbaugh, 1961) ge-

widmet. Er beschreibt die Geschichte seiner Entstehung und Veränderung bis heute und

schließt mit der Vorstellung eines Vorschlags zur Vereinfachung der aktuellen deut-

schen Auflage dieses Inventars (Hautzinger et al., 2006). Der letzte Teil des Theorieka-

pitels widmet sich dem Konzept der Messäquivalenz.

2.1 Depression

Dieser Abschnitt widmet sich dem Störungsbild der Depression. Auf eine Schilderung

der Symptome folgt die diagnostische Klassifikation depressiver Erkrankungen. Im An-

schluss wird darauf eingegangen, von welchen Störungsbildern die Depression abzu-

grenzen ist (Differentialdiagnostik) und welche Erkrankungen häufig mit Depressionen

auftreten (Komorbidität).

Um der Bedeutung des Themas Ausdruck zu verleihen, schließen nationale und interna-

tionale Befunde zu Prävalenz und gesellschaftlichen Auswirkungen sowie einige Bei-

spiele für volkswirtschaftliche Konsequenzen, bezogen auf die Bundesrepublik

Deutschland, den Abschnitt ab.

2.1.1 Symptome

Schwermütigkeit, Freudlosigkeit, emotionale Leere, Antriebslosigkeit, Hoffnungslosig-

keit, Ängste, Selbstzweifel, Schuldgefühle, Reizbarkeit, Schlafstörungen oder körperli-

che Beschwerden wie zum Beispiel Schmerzen sind nur einige der Anzeichen depressi-

ver Erkrankungen (Hautzinger, 2010; Saß, Wittchen, Zaudig & Houben, 2003).

Viele der Gefühlszustände und Beschwerden treten bei allen Menschen als normale,

gesunde Reaktion auf negative Erfahrungen wie Verlust, Misserfolg, Belastung oder

Erschöpfung auf (Hautzinger, 2010). In bestimmten Situationen wäre daher das Aus-

bleiben der Anzeichen von Niedergeschlagenheit oder Traurigkeit ungewöhnlicher als

ihr Vorhandensein. Selbst das vorübergehende Erleben einzelner depressiver Symptome

Theorie 18

auch ohne erkennbaren Grund rechtfertigt nicht automatisch die Annahme einer depres-

siven Erkrankung. Wird jedoch eine bestimmte Intensität und/oder Dauer der Sympto-

me überschritten, kann nicht mehr von einer normalen Reaktion, sondern muss von ei-

nem klinisch auffälligen Zustand gesprochen werden (Hautzinger, 2010). „Wann und

wodurch die Grenze (…) überschritten wird, gehört unverändert zu den ungelösten Fra-

gen im Zusammenhang mit depressiven Störungen“ (Hautzinger, 2010, S. 1)

Die Symptome eines akuten depressiven Syndroms betreffen Gefühlsleben, Motivation,

Denken, körperliches Empfinden, Verhalten, Motorik und Interaktion (Hautzinger,

2010). Dass jeder Mensch, der an einer Depression leidet, ein individuelles Muster an

Symptomen zeigt, stellt hohe Ansprüche an die Diagnostik depressiver Störungen (vgl.

Hautzinger, 2010).

Die Intensität der Depressivität reicht von leicht gedrückter Stimmung bis hin zu tiefer,

auswegloser Verzweiflung, in der jede Emotion verloren geht, so dass die Betroffenen

sich innerlich wie versteinert fühlen (Laux, 2009). Das große Leid, das eine Depression

bedeutet, geht einher mit der Unfähigkeit, Hoffnung auf Besserung zu empfinden. Häu-

fig treten lebensmüde Gedanken auf. Von denjenigen, die von einer schweren Depressi-

on betroffen sind, nehmen sich 15% das Leben (Saß et al., 2003).

2.1.2 Diagnostische Klassifikation

Depressive Störungen gehören zu den affektiven Störungen, psychische Erkrankungen,

bei welchen das herausragende Merkmal eine krankhafte Veränderung der Stimmung

darstellt (Laux, 2009). Das Diagnostische und Statistische Manual Psychischer Störun-

gen (Textrevision der vierten Auflage, DSM-IV-TR) der American Psychiatric Associa-

tion (APA, 2000; verwendet in der deutschen Übersetzung von Saß et al., 2003) klassi-

fiziert zu den affektiven Störungen neben den depressiven Störungen die bipolaren Stö-

rungen sowie andere affektive Störungen. Die depressiven Störungen (Monopolare De-

pressionen) werden im DSM-IV-TR untergliedert in die Major Depression, die dysthy-

me Störung sowie die nicht näher bezeichnete depressive Störung. Zu den bipolaren

Störungen zählen in dem Klassifikationssystem die bipolar I Störung, die bipolar II

Störung, die zyklothyme Störung sowie die nicht näher bezeichnete bipolare Störung.

Die anderen affektiven Störungen umfassen die affektive Störung aufgrund eines medi-

zinischen Krankheitsfaktors, die substanzinduzierte affektive Störung und die nicht nä-

Theorie 19

her bezeichnete affektive Störung. Abbildung 1 veranschaulicht die Klassifikation der

Affektiven Störungen nach DSM-IV-TR (Saß et al., 2003).

Abbildung 1 Klassifikation der Affektiven Störungen nach DSM-IV-TR

Da die vorliegende Arbeit sich mit Instrumenten zur Erfassung der Depressivität be-

schäftigt, soll im Folgenden vornehmlich auf die Gruppe depressiver Störungen und

dabei insbesondere auf die Merkmale einer Major Depression eingegangen werden.

Symptome oder Episoden einer Major Depression treten jedoch auch im Rahmen der

bipolaren Störungen und der anderen affektiven Störungen auf und müssen auch dort

erkannt und diagnostiziert werden. Gleichzeitig ist es wichtig, die verschiedenen affek-

tiven Störungen voneinander abgrenzen zu können. Daher wird an geeigneter Stelle im

Text sowie am Ende des Abschnitts kurz auf diese Störungen Bezug genommen, um zu

schildern, in welchem Verhältnis Symptome der Depression zu diesen weiteren Erkran-

kungen aus der Gruppe der affektiven Störungen stehen.

Eine Depressive Episode nach DSM-IV-TR (Saß et al., 2003, vgl. S. 398 ff. und S. 406

f.) liegt vor, wenn von den folgenden Symptomkriterien (A-Kriterien) mindestens eines

der beiden ersten Kriterien (A1/A2), daneben mindestens vier der weiteren Kriterien

(A3 bis A9) über mindestens zwei aufeinander folgende Wochen „an fast jedem Tag die

meiste Zeit des Tages“ (S. 398) bestehen. Die Symptome müssen dabei „in klinisch

Affektive Störungen

Depressive Störungen Bipolare StörungenAndere Affektive

Störungen

Major

Depression

Dysthyme

Störung

Nicht Näher

Bezeichnete

Depressive

Störung

Bipolar I

Störung

Bipolar II

Störung

Zyklothyme

Störung

Nicht Näher

Bezeichnete

Bipolare

Störung

Substanz-

induzierte

Affektive

Störung

Nicht Näher

Bezeichnete

Affektive

Störung

Affektive Störung

Aufgrund eines

Medizinischen

Krankheitsfaktors

Theorie 20

bedeutsamer Weise“ (S. 406) zu Leiden oder Beeinträchtigungen in sozialen, berufli-

chen oder anderen wichtigen Funktionsbereichen führen.

Kriterium A1: Depressive Verstimmung, d. h. die Betroffenen geben an, sich „de-

pressiv, traurig, hoffnungslos, entmutigt oder niedergeschlagen“ (S. 398) zu fühlen;

in einigen Fällen werden vorrangig oder ausschließlich körperliche Beschwerden

geschildert oder die Betroffenen fühlen sich eher gereizt und verärgert als traurig

Kriterium A2: Verlust von Interesse oder Freude an Aktivitäten, an denen früher

Freude empfunden wurde, z. B. Hobbys, bis hin zu einem generellen Desinteresse

oder der vollkommenen Unfähigkeit, Freude zu empfinden; die Interessenminde-

rung oder Interesselosigkeit kann auch das sexuelle Verlangen betreffen

Kriterium A3: Verminderter Appetit bis hin zur Appetitlosigkeit, was sich in unbe-

absichtigter Gewichtsabnahme niederschlagen kann bzw. bei Kindern in einem

Ausbleiben der erwarteten Gewichtszunahme; auch der umgekehrte Fall, gesteiger-

ter Appetit oder Heißhunger mit Gewichtszunahme in der Folge, ist möglich

Kriterium A4: Schlafstörungen, meist in Form von Ein- oder Durchschlafstörungen

oder frühmorgendlichem Erwachen; seltener auch der umgekehrte Fall, Hypersom-

nie mit vermehrtem Nachtschlaf oder Schlafen während des Tages

Kriterium A5: Psychomotorische Symptome, entweder in Form von Unruhe und

Agitiertheit oder in Form von psychomotorischer Verlangsamung (z. B. Verlangsa-

mung der Sprache, des Denkens und der Bewegungen); die Symptome dürfen nicht

nur subjektiv empfunden werden, sondern müssen von anderen beobachtbar sein

Kriterium A6: Müdigkeit oder Energieverlust, die Betroffenen fühlen sich matt oder

empfinden schon kleinste alltägliche Verrichtungen als außergewöhnliche Anstren-

gung

Kriterium A7: Gefühle von Wertlosigkeit oder auch übermäßige oder inadäquate

Schuldgefühle, die sich z. B. in unverhältnismäßigen Selbstvorwürfen bei kleineren

Versäumnissen manifestieren können; die Wertlosigkeits- oder Schuldgefühle kön-

nen so weit gesteigert sein, dass die Wahnkriterien erfüllt werden

Kriterium A8: Verminderte Denk- oder Konzentrationsfähigkeit, Gedächtnisprob-

leme und/oder Schwierigkeiten, Entscheidungen zu treffen.

Kriterium A9: Gedanken an den Tod oder Suizid, Suizidabsichten, -planung

und -versuche bis hin zum vollendeten Suizid

Theorie 21

Das Vorliegen einer solchen Episode einer Major Depression ist die Voraussetzung für

die Diagnose einer Major Depression. Weitere Bedingungen, die nach DSM-IV-TR

(Saß et al., 2003) erfüllt sein müssen, bevor eine Episode einer Major Depression ange-

nommen oder die Diagnose einer Major Depression vergeben werden darf, betreffen die

Differentialdiagnostik. In diesem Abschnitt soll dabei nur auf die Abgrenzung der ver-

schiedenen affektiven Störungen voneinander eingegangen werden. Andere differenti-

aldiagnostische Notwendigkeiten, die das DSM-IV-TR in seinen Kriterien herausstellt,

werden im folgenden Abschnitt (2.1.3) gemeinsam mit weiteren Hinweisen zur Diffe-

rentialdiagnostik dargestellt.

Vor allen Dingen muss ausgeschlossen werden, dass die Symptome als direkte körperli-

che Folge eines medizinischen Krankheitsfaktors erklärt werden können oder lediglich

der direkten körperlichen Wirkung einer Droge, eines Medikaments oder der Exposition

gegenüber einem Toxin zuzurechnen sind. In diesem Falle wäre eine affektive Störung

aufgrund eines medizinischen Krankheitsfaktors respektive eine substanzinduzierte af-

fektive Störung zu diagnostizieren (Saß et al., 2003). Außerdem muss gesichert werden,

dass keine gemischte Episode (also eine Mischung der depressiven Symptomatik mit

Symptomen der Manie) vorliegt. Ebenso müssen manische, gemischte oder hypomane

Episoden in der Vergangenheit, die nicht der Wirkung von Substanzen wie beispiels-

weise Drogen oder Medikamenten oder einem somatischen Krankheitsfaktor zuge-

schrieben werden können, ausgeschlossen werden (Saß et al., 2003). Manische Episo-

den sind dabei Phasen abnorm gehobener oder auch reizbarer Stimmung, bis hin zu

Größenwahn oder anderen wahnhaften Überzeugungen, wie zum Beispiel dem Glauben,

fliegen zu können. Die Merkmale einer hypomanen Episode entsprechen im Prinzip

denen einer manischen Episode, jedoch dürfen keine Wahnideen oder Halluzinationen

auftreten.

Die Major Depression kann dann weiter klassifiziert werden als einzelne Episode oder

rezidivierend, d. h. wiederkehrend, was bedeutet, dass es sich um mindestens das zweite

Auftreten einer depressive Episode im Laufe des Lebens handelt (Saß et al., 2003).

Darüber hinaus kann eine Major Depression nach DSM-IV-TR (Saß et al., 2003) einge-

stuft werden als leicht, mittelschwer oder schwer. Die Einstufung geschieht in Abhän-

gigkeit von der Anzahl der erfüllten Kriterien, dem Schweregrad der Symptome und

dem Ausmaß der Beeinträchtigung in der Ausübung der beruflichen und/oder sozialen

Verpflichtungen beziehungsweise des subjektiven Leidens, das der Patient berichtet

Theorie 22

(vgl. Saß et al., 2003). Bei einer schweren Episode wird zudem danach unterschieden,

ob psychotische Symptome vorliegen oder nicht. Psychotische Merkmale im Rahmen

einer Major Depression sind in aller Regel stimmungskongruent, d. h. der Inhalt des

Wahns oder der Halluzinationen „passt“ zur depressiven Stimmung des Patienten und

dreht sich zum Beispiel um Themen wie Schuld (Schuldwahn), Bestrafung (Bestra-

fungswahn), Verarmung (Verarmungswahn), Krankheit (hypochondrischer Wahn) oder

das Gefühl, nicht zu existieren (nihilistischer Wahn); bei Halluzinationen kann es sich

z. B. um Stimmen handeln, die die Person beschimpfen (Laux, 2009; Saß et al., 2003).

Im Unterschied zur Major Depression handelt es sich bei der dysthymen Störung um

eine depressive Erkrankung, die durch besonders lange Dauer (Chronizität), gleichzeitig

aber durch eine etwas mildere Ausprägung der Symptomatik gekennzeichnet ist (Saß et

al., 2003).

Unter die nicht näher bezeichnete depressive Störung werden im DSM-IV-TR (Saß et

al., 2003) solche Fälle subsummiert, in denen zwar depressive Symptome vorliegen, die

aber nicht eindeutig einer anderen, spezifischen Störungskategorie des Manuals zuge-

ordnet werden können.

Episoden oder Symptome einer Major Depression können bei Patienten, die an einer

bipolaren Störung (bipolar I Störung, bipolar II Störung, zyklothyme Störung oder nicht

näher bezeichnete bipolare Störung) leiden, im Wechsel oder gleichzeitig mit mani-

schen oder hypomanen Episoden oder Symptomen auftreten (Laux, 2009; Saß et al.,

2003).

Die genaue Beschreibung der bipolaren Störungen und des Zusammenspiels von de-

pressiven und (hypo)manischen Episoden bei diesen Erkrankungen soll hier nicht vor-

genommen werden. Entscheidend ist, dass in der Diagnostik affektiver Erkrankungen

schon eine einzige manische, hypomane oder gemischte Episode im Laufe des Lebens

die Diagnose einer depressiven Störung unmöglich macht bzw. das Abändern einer zu-

vor gültigen Diagnose einer depressiven Störung in die jeweilige Kategorie einer bipo-

laren Störung erfordert (Dilling, Mombour & Schmidt, 2010; Saß et al., 2003).

Während der Darstellung in diesem Kapitel mit dem DSM-IV-TR das in den USA gül-

tige diagnostische Manual der American Psychiatric Association zugrunde gelegt wur-

de, das darüber hinaus weltweit standardmäßig in der wissenschaftlichen Forschung

Theorie 23

Verwendung findet, ist die Basis von Diagnostik und Kostenabrechnung im deutschen

Gesundheitssystem das Klassifikationssystem der Weltgesundheitsorganisation (World

Health Organization, WHO; aktuelle Version ist die ICD-10; deutsche Übersetzung von

Dilling et al., 2010). Zur Orientierung wurde hier das DSM-IV-TR (Saß et al., 2003)

gewählt, weil die Items der Revision des Beck Depressionsinventars (BDI-II; Beck,

Steer & Brown, 1996; deutschsprachige Version von Hautzinger et al., 2006), welches

Gegenstand dieser Arbeit ist, explizit auf die diagnostischen Kriterien für die Episode

einer Major Depression dieses Diagnosemanuals abgestimmt wurden. Die Geschichte

des Beck Depressionsinventars und die Hintergründe der Abstimmung der Revision

dieses Selbstbeurteilungsfragbogens zur Beurteilung der Schwere einer depressiven

Symptomatik auf die DSM-Kriterien der Major Depression werden in Abschnitt 2.3

dargestellt. Tabelle 15 und Tabelle 16 in Anhang A ordnen den oben aufgeführten diag-

nostischen Kriterien des DSM-IV-TR einer depressiven Episode die einzelnen Items des

Beck Depressionsinventars zu.

Die Unterschiede zwischen den Klassifikationssystemen DSM-IV-TR (Saß et al., 2003)

und ICD-10 (Dilling et al., 2010) in der Beschreibung und Diagnostik depressiver Stö-

rungen sind nicht von grundlegender Natur und spielen für die vorliegende Arbeit keine

Rolle.

2.1.3 Differentialdiagnostik

Es soll nun kurz geschildert werden, von welchen Erkrankungen die akute Depression

(Major Depression nach DSM-IV-TR, Saß et al., 2003; depressive Episode nach

ICD-10, Dilling et al., 2010) differenzialdiagnostisch abzugrenzen ist.

Die Differenzierung innerhalb der affektiven Störungen wurde im vorangegangenen

Kapitel bereits dargestellt. Betont werden soll noch einmal die Notwendigkeit, vor der

Diagnose einer Major Depression oder depressiven Episode organische Ursachen ein-

schließlich der Verursachung durch Medikamente oder Drogen mit den zu Gebote ste-

henden medizinisch-diagnostischen Verfahren auszuschließen (Laux, 2009). Als

schwierig erweist sich dabei bei älteren Patienten oft die differentialdiagnostische Ab-

grenzung zu einer (beginnenden) Demenz (Laux, 2009).

Weiterhin muss gesichert werden, dass es sich nicht um eine vorübergehende Stim-

mungsschwankung handelt, welche nicht die Dauer, die Schwere oder vorgegebene(n)

Theorie 24

Symptome(anzahl) einer depressiven Episode erreicht (Laux, 2009). Ebenso darf eine

normale Trauerreaktion nach dem Verlust einer nahestehenden Person nicht zu der

Fehldiagnose einer depressiven Erkrankung führen (Dilling et al., 2010; Saß et al.,

2003).

Nicht leicht fällt die Differentialdiagnose der Depression gegenüber Angsterkrankun-

gen, somatoformen Störungen, der (depressiven) Anpassungsstörung, der (posttraumati-

schen) Belastungsstörung und der pathologischen Trauer (Laux, 2009).

Auszuschließen sind ferner psychotische Erkrankungen (schizoaffektive Störung, Schi-

zophrenie, schizophrenieforme Störung, wahnhafte Störung oder psychotische Störung)

als Ursache der Symptome (Saß et al., 2003).

2.1.4 Komorbidität

Depressive Patienten sind häufig von mindestens einer weiteren körperlichen oder psy-

chischen Erkrankung betroffen.

Hautzinger (2010) gibt an, dass 77% der depressiven Patienten an mindestens einer wei-

teren psychischen Erkrankung, darunter am häufigsten eine Angststörung, somatoforme

Störung oder Substanzabhängigkeit, leiden. Doch auch Substanzmissbrauch, Zwangs-

störungen, Posttraumatische Belastungsstörungen, Essstörungen, Schlafstörungen, Se-

xuelle Störungen, schizophrene Störungen und bestimmte Persönlichkeitsstörungen sind

häufig mit Depressionen assoziiert (Hautzinger, 2010). Weitere psychiatrische Diagno-

sen, mit denen eine Komorbidität besteht, sind Demenz, Parkinson und Schlaganfall

(Laux, 2009).

Zu den somatischen Erkrankungen, für die bei depressiven Patienten ein erhöhtes Risi-

ko besteht, zählen Diabetes, koronare Herzerkrankung, COPD (Chronisch Obstruktive

Lungenerkrankung) und Arthritis (Laux, 2009).

Zwischen der Depression und komorbiden Krankheiten bestehen dabei höchst komplexe

Beziehungen und (negative) wechselseitige Beeinflussungen. So verschlechtert körper-

liche und psychiatrische Komorbidität die Prognose depressiver Erkrankungen, umge-

kehrt verschlechtert sich der Zustand körperlich erkrankter Menschen, wenn eine De-

pression hinzutritt (Gastpar, 2006; Laux, 2009; Lederbogen, 2006). Dabei kann die De-

pression „primäre“ Erkrankung sein oder in der Folge zum Beispiel als Reaktion auf

Theorie 25

eine belastende körperliche oder seelische Erkrankung entstehen (vgl. Hautzinger,

2010).

2.1.5 Epidemiologie und gesellschaftliche Bedeutung

In Deutschland sind zu jedem Zeitpunkt etwa 5.6% der Menschen von einer unipolaren

depressiven Erkrankung1 betroffen (Vier-Wochen-Punktprävalenz nach Ergebnissen des

repräsentativen Bundesgesundheitssurvey (BGS) 1998/99, Zusatzsurvey Psychische

Störungen; Jacobi et al., 2004). Innerhalb eines Jahres erkranken 10.7% der Deutschen

an einer depressiven Störung2. Das Risiko, im Laufe seines Lebens mindestens einmal

an einer an einer unipolaren depressiven Erkrankung zu leiden beträgt 17.1%3. Frauen

sind dabei – unabhängig davon, welche Prävalenzraten man betrachtet – etwa doppelt so

häufig von Depressionen betroffen wie Männer. So liegt zum Beispiel das Morbiditäts-

risiko bezogen auf die Lebenszeit für Frauen bei 23.3%, jenes für Männer bei 11.1%

(Jacobi et al., 2004).

Aktuelle Zahlen für Europa zeichnen ein ähnliches Bild. Auf europäischer Ebene leiden

nach einer Auswertung von über 20 populationsbasierten, nach 1990 veröffentlichten

Studien innerhalb eines Jahres durchschnittlich 18.4 Millionen Menschen (6.9% der

europäischen Bevölkerung) an einer Major Depression4, wobei das Risiko für Frauen

zweimal so hoch ist wie jedes für Männer (Wittchen & Jacobi, 2005).

Dabei handelt es sich bei beiden Untersuchungen noch um konservative Schätzungen,

da nur die Bevölkerung zwischen 18 und 65 Jahren erfasst wurde (Wittchen & Jacobi,

2005). Während das Vollbild depressiver Erkrankungen bei Kindern selten ist, sind Ju-

gendliche jedoch in zunehmendem Maße von Depressionen betroffen (Wittchen &

Jacobi, 2006). Bei älteren Menschen sind Depressionen wie bei Erwachsenen mittleren

Alters die häufigste psychische Erkrankung, die Prävalenz bei den über 65-Jährigen

wird auf mindestens 10% geschätzt (Bramesfeld & Stoppe, 2006; Laux, 2009).

Weltweit lagen die uniploraren depressiven Erkrankungen bereits im Jahre 2000 auf

dem vierten Rang der bedeutendsten Gründe für durch Behinderung verlorene Lebens-

1 Episode einer Major Depression oder Dysthymie, ohne depressive Episoden im Rahmen bipolarer Er-

krankungen; bezogen auf alle affektiven Störungen (alle Episoden uni- und bipolarer Erkrankungen) liegt

der Prozentsatz bei 6.3% 2 bezogen auf alle affektiven Störungen: 11.9%

3 bezogen auf alle affektiven Störungen: 18.6%

4 bezogen auf alle affektiven Störungen: 20.8 Millionen (7.8%)

Theorie 26

jahre (Diability Adjusted Life Years, DALY). Damit waren sie für 4.4% der durch Er-

krankung beeinträchtigten oder verlorenen Lebenszeit verantwortlich und die vierthäu-

figste Todesursache (Organisation mondiale de la Santé, OMS-WHO, 2001). Betrachtet

man nur die mit Beeinträchtigung gelebten Jahre des Lebens (ohne vorzeitige krank-

heitsbedingte Mortalität; Years Lived With Disability, YLD) so belegte die Depression

im Jahr 2000 den ersten Rang, war also für die meiste (11.9%) durch Behinderung be-

einträchtigten Lebenszeit verantwortlich. Die Weltgesundheitsorganisation (OMS-

WHO, 2001) geht in ihrer Prognose für das Jahr 2020 davon aus, dass die Depression

hinter den kardiovaskulären ischämischen Erkrankungen auf Rang zwei der wichtigsten

Gründe für durch Behinderung verlorene Lebensjahre (DALY) liegen und 5.7% der

„globalen Krankheitslast“ (global burden of disease) ausmachen wird.

Affektive Erkrankungen bedeuten dabei nicht nur erhebliches Leid für die Betroffenen

und ihr direktes Umfeld, sie gehen auch mit immensen volkswirtschaftlichen Kosten

einher (Stamm & Salize, 2006). Die Kosten für die Behandlung affektiver Störungen

belaufen sich in Deutschland auf jährlich 4,03 Milliarden Euro (Stamm & Salize, 2006).

Hinzu kommen kaum abschätzbare Kosten aufgrund (häufig sehr langer Phasen von)

Fehlbehandlungen (Stamm & Salize, 2006; Zielke & Limbacher, 2004). Menschen, die

an einer Depression oder dysthymen Störung leiden, haben im Mittel übers Jahr etwa

doppelt so viele Krankheitstage wie Menschen, die nicht an einer depressiven Störung

leiden (24.9 Ausfalltage vs. 11.5 Ausfalltage; Zahlen des BGS 1998/99; Wittchen &

Jacobi, 2006). Im Jahre 2003 waren depressive Erkrankungen für 2.8% aller Arbeitsun-

fähigkeitstage verantwortlich und stellten damit die vierthäufigste Ursache für eine

Krankschreibung dar (Zahlen der Deutsche Angestellten-Krankenkasse (DAK); Zielke

& Limbacher, 2004). Depressionen waren im Jahre 2003 außerdem die häufigste Ursa-

che für Berentung wegen verminderter Erwerbsfähigkeit (VDR-Verband Deutscher

Rentenversicherungsträger, 2004, zitiert nach Bramesfeld & Stoppe, 2006, S. 1).

Viele Betroffene suchen wegen ihrer Beschwerden jedoch nie einen Arzt auf oder ihre

depressive Erkrankung wird nicht erkannt (Laux, 2009). So gaben im Bundesgesund-

heitssurvey (BGS) nur gut 50% aller an einer depressiven Störung Erkrankten an, je

aufgrund dieser Beschwerden eine Behandlung aufgesucht zu haben oder dies von ei-

nem Arzt empfohlen bekommen zu haben (Jacobi et al., 2004). Somit dürfte der tatsäch-

liche Umfang des Produktivitätsverlustes in Folge von Depressionen noch höher liegen

als es diese Zahlen dokumentieren.

Theorie 27

Das Statistische Bundesamt (2004, zitiert nach Stamm & Salize, 2006, S. 112) schätzt,

dass für das Jahr 2002 aufgrund von Arbeitsunfähigkeit, Invalidität und vorzeitigem

Tod im Zusammenhang mit affektiven Erkrankungen (für die Gruppe der Berufstätigen)

185.000 Erwerbstätigkeitsjahre beziehungsweise (bezogen auf die Gesamtbevölkerung)

528.000 Lebensjahre verloren gingen.

2.2 Depression und Persönlichkeit

Persönlichkeitsmerkmale stehen „in systematischen Beziehungen zum Verhalten und

Erleben und haben gravierende Konsequenzen, z. B. für Berufserfolg, Lebenserwartung

und Lebenszufriedenheit“ (Borkenau & Ostendorf, 2008, S. 27). Die Zusammenhänge

zwischen Depression und Persönlichkeit gehören zu den am besten untersuchten Berei-

chen innerhalb der Depressionsforschung (Kronmüller & Mundt, 2006).

Die aus der intensiven Beforschung des Feldes resultierenden Befunde sollen hier zu

Zwecken der Validierung einer im Rahmen dieser Arbeit vorgeschlagenen Vereinfa-

chung eines etablierten Inventars zur Erfassung von Depressivität genutzt werden.

Daher soll in diesem Kapitel auf die Beziehungen zwischen Persönlichkeitseigenschaf-

ten und dem Auftreten von Depressionen eingegangen werden. Die Ausführungen wer-

den sich auf die Beziehungen zwischen Depressivität und jenen fünf Merkmalen der

Persönlichkeit konzentrieren, welche sich in unzähligen Untersuchungen (Übersicht

siehe z. B. bei Borkenau & Ostendorf, 2008) als stabile Dimensionen zur Beschreibung

von Menschen und den Unterschieden zwischen ihnen herausgestellt haben: Neuroti-

zismus, Extraversion, Offenheit für Erfahrung, Verträglichkeit und Gewissenhaftigkeit.

Die fünf Faktoren werden auch als Big Five bezeichnet und im Fünf-Faktoren-Modell

der Persönlichkeit zusammengefasst (Allport und Odbert, 1936; Cattell, 1943, zit. nach

Borkenau und Ostendorf, 2008, S. 7). Die Eigenschaftsdimensionen können auf Ebene

der fünf Domänen (Borkenau & Ostendorf, 2008) oder etwas detaillierter zusätzlich auf

der Ebene der je sechs Facetten, die jede der fünf Domänen ausmachen (Ostendorf &

Angleitner, 2004), erfasst werden. Für eine ausführliche Beschreibung der Merkmalsbe-

reiche Neurotizismus, Extraversion, Offenheit für Erfahrung, Verträglichkeit und Ge-

wissenhaftigkeit wird auf die Beschreibung des zur Erfassung eingesetzten Instrumentes

in Abschnitt 4.1.2 verwiesen.

Theorie 28

Im Folgenden werden Befunde zur Verbindung von Depressivität und den fünf Faktoren

der Persönlichkeit geschildert, wobei jedem Persönlichkeitsfaktor ein eigenes Unterka-

pitel gewidmet ist.

Vorausgeschickt wird ein Abschnitt zu methodischen Herausforderungen bei der Erhe-

bung und Interpretation der Zusammenhänge und ein kurzer Überblick, welche Modelle

zur Beziehung zwischen Persönlichkeitsmerkmalen und Depression diskutiert werden.

2.2.1 Methodische Fragen und Modelle

In der Beforschung der Beziehung zwischen Depression und Persönlichkeitsmerkmalen

existieren methodische Schwierigkeiten, die bei der Interpretation der Befunde berück-

sichtigt werden müssen. Zwei Herausforderungen heben Kronmüller und Mundt (2006)

als besonders bedeutsam hervor. Zum einen die notwendige Unterscheidung zwischen

prä-, intra-, inter- und postmorbider Persönlichkeit, das heißt, die sorgfältige Klärung,

ob Persönlichkeitsmerkmale, die sich in Studien als mit Depressionen assoziiert darstel-

len, einer Erkrankung vorausgegangen sind, mit ihr vorübergehend auftreten oder mehr

oder weniger dauerhaft aus ihr resultieren. Diese Frage des zeitlichen Vor- oder Nach-

geordnetseins kann nur in Längsschnittdesigns angegangen werden. Dabei muss beton

werden, dass jedoch auch Ergebnisse, die eine bestimmte zeitliche Abfolge nahelegen,

zum Beispiel, dass eine Erkrankung durch bestimmte Persönlichkeitszüge vorhergesagt

wird, nicht per se kausale Schlussfolgerungen, beispielsweise zu gemeinsamen Ursa-

chen, erlauben (Bienvenu et al., 2004). Zum Zweiten betonen Kronmüller und Mundt

(2006), dass die Konfundierung von aktuellen Depressionssymptomen und Persönlich-

keitsparametern berücksichtigt werden muss. Es ist bekannt, dass das akute Vorliegen

einer Depression die Werte auf einigen Persönlichkeitstraits beeinflusst (Costa, Bagby,

Herbst & McCrae, 2005). Die Gründe dafür liegen Costa et al. (2005) zufolge darin,

dass „personality traits are defined not by temporal stability but by their biological

bases, and that the stability normally seen in traits is a consequence of the stability of

the biological bases“ (S. 52). Ändern sich jedoch die biologischen Grundlagen, zu de-

nen insbesondere genetische Einflüsse zählen, zum Beispiel durch eine Erkrankung, wie

etwa eine Depression, oder therapeutische Eingriffe als Reaktion auf eine Erkrankung,

ändern sich auch Gedanken, Gefühle und Handlungen. Die Wahrnehmung dieser Ver-

änderungen durch das Individuum schlägt sich dann in einem veränderten Selbstkonzept

nieder. Dies führt dazu, dass sich Trait Levels verändern, wie sie eben zum Beispiel in

Theorie 29

Persönlichkeitsfragebögen erfasst werden. Bessert sich das Befinden nach einer Erkran-

kung, verändern sich die Werte auf den Persönlichkeitsdimensionen erneut.

Dies bedeutet nicht, dass unter diesen Bedingungen erhobene Befunde als nicht reliabel

oder valide zu betrachten sind, wie Costa et al. (2005) betonen. Es muss lediglich bei

der Interpretation in Betracht gezogen werden, unter welchen Umständen die Ergebnis-

se zu Stande gekommen sind. Sie dürfen so lange als reliable und valide Abbildung der

Persönlichkeitsmerkmale eines Menschen betrachtet werden, wie auch die Umstände

bei der Messung vorliegen.

Dieser Umstand stellt eine Herausforderung für die Forschung zu den Zusammenhän-

gen zwischen Persönlichkeit und Depression (bzw. psychischer Erkrankung ganz all-

gemein) dar. Es gilt, durch geschickte Designs zwischen der akuten Assoziation und

darüber hinausgehenden, längerfristigen Zusammenhängen zu trennen (Duggan, Sham,

Lee, Minne & Murray, 1995; Kronmüller & Mundt, 2006; Trull & Sher, 1994). Zu den

Methoden, die dabei eingesetzt werden können, zählt die Untersuchung von Menschen,

die in ihrem Leben bereits Depressionen durchlitten haben, zum Zeitpunkt der Erhe-

bung jedoch nicht unbedingt akut betroffen sind (das heißt, die Verwendung von so

genannten Lifetime-Diagnosen). Alternativ oder parallel kann die statistische Kontrolle

aktueller Symptombelastung erfolgen. Diese Maßnahmen schwächen die Problematik

etwas ab, ermöglichen aber dennoch keine kausalen Schlussfolgerungen, für die Längs-

schnittstudien erforderlich sind (Trull & Sher, 1994).

Außerdem kann das Auswählen nicht akut depressiver Patienten und/oder das statisti-

sche Herausrechnen der aktuellen Depressionsschwere die Problematik nicht vollstän-

dig beseitigen. Es bleibt die Konfundierung auf Ebene der Erfassungsinstrumente, wel-

che darin besteht, dass (vor allem Selbstbeurteilungs-)Fragebögen zur Depressionsmes-

sung auch Persönlichkeit, insbesondere das Persönlichkeitsmerkmal Neurotizismus,

messen und umgekehrt, die Items von Neurotizismusskalen sich mit denen von Depres-

sionsfragebögen überschneiden (Kronmüller & Mundt, 2006).

Wie Persönlichkeitsmerkmale und Depression zusammenhängen, dafür gibt es verschie-

dene, sich nicht grundsätzlich ausschließende, sondern teilweise ergänzende Erklä-

rungsmodelle (Klein, Wonderlich & Shea, 1993), die sich nach Kronmüller und Mundt

(2006) wie folgt zusammenfassen lassen: Das Prädispositionsmodell geht davon aus,

dass Persönlichkeitsmerkmale gemeinsam mit konstitutionellen und Umgebungsmerk-

Theorie 30

malen die Vulnerabilität für eine depressive Störung bestimmen. Im Spektrummodell

wird angenommen, dass bestimmte Persönlichkeitsauffälligkeiten als „subklinische

Manifestation der Depression“ (Kronmüller & Mundt, 2006, S.865) betrachtet werden

können. Das pathoplastische Modell vermutet, dass Persönlichkeitsmerkmale sich nicht

auf das Risiko für eine depressive Erkrankung, sondern auf das klinische Bild, den Ver-

lauf und das Ansprechen auf bestimmte Behandlungen auswirken. Während das Kom-

plikationsmodell annimmt, dass sich die Persönlichkeit in Folge einer Depression vo-

rübergehend verändert, glaubt das Scar-Modell (Scar = engl. Narbe) an dauerhafte Ver-

änderungen. Dass Persönlichkeitsmerkmale und Depression eine gemeinsame geneti-

sche Grundlage besitzen, davon geht schließlich das Gemeinsame-Ursachen-Modell

aus.

Die Erforschung, welches Modell zu welchen Anteilen für die Beziehung zwischen De-

pression und bestimmten Persönlichkeitsmerkmalen gelten könnte, hängt eng mit den

oben angesprochenen methodischen Herausforderungen zusammen. Nur Designs, die

diese Probleme berücksichtigen, können zur Klärung der zeitlichen und kausalen Zu-

sammenhänge beitragen (Bienvenu et al., 2004; Duggan et al., 1995; Rosellini &

Brown, 2011; Trull & Sher, 1994). Wie beschrieben, sind dies insbesondere Längs-

schnittdesigns.

Die folgenden Abschnitte werden einige Befunde zum Zusammenhang zwischen De-

pressivität und Persönlichkeit zusammenstellen. Hauptsächlich werden Ergebnisse refe-

riert, die in Studien gewonnen wurden, welche ein Querschnittdesign nutzten und zu-

sätzlich das Konzept der Life-Time-Diagnosen anwandten oder die aktuelle Depressivi-

tät kontrollierten. Auch Korrelationsstudien werden berichtet. Diese Studien genügen

damit nicht den Ansprüchen, die man an wissenschaftliche Arbeiten zur Beforschung

von ursächlichen Strukturen stellen würde. Für die Zwecke dieser Arbeit sind sie jedoch

sehr gut geeignet, da aus den Befunden Ansprüche abgeleitet werden sollen, die inner-

halb eines Querschnittdesigns an die Korrelationen eines validen Inventars zur Erfas-

sung von Depressivität mit Persönlichkeitsvariablen zu stellen sind. Mit Blick auf die

Forderungen der Konstruktvalidität, die in Kapitel 3 genauer erläutert werden, gehen die

Ausführungen dennoch auf einige theoretische Erklärungen und mögliche Gründe ein,

die für die gefundenen Assoziationen vorgeschlagen wurden und teilweise über den

querschnittlichen Zusammenhang hinausweisen. In einigen Fällen fließen auch längs-

schnittliche Befunde ein.

Theorie 31

2.2.2 Neurotizismus

Neurotizismus gilt neben zwanghaftem Perfektionismus und sozialer Abhängigkeit als

„zentrales Persönlichkeitsmerkmal für Depression“ (Hautzinger, 2010, S. 26).

Unzählige Male repliziert ist der Befund, dass die Neurotizismuswerte von Patienten,

die akut an einer Depression leiden, bedeutsam höher sind als jene von gesunden Pro-

banden (Kronmüller & Mundt, 2006). Aufgrund der oben angesprochenen Überschnei-

dung der Messinstrumente für beide Konstrukte ist jedoch entscheidender, dass der Zu-

sammenhang sich auch dann immer wieder fand, wenn diese Konfundierung statistisch

kontrolliert wurde (Kronmüller & Mundt, 2006).

Signifikant höhere Werte für Neurotizismus bei Verwandten von an einer Major De-

pression erkrankten Patienten, die selbst schon ein- oder mehrmals im Leben eine de-

pressive Episode erlebt hatten, im Vergleich zu solchen Verwandten dieser Patienten,

die selbst noch nie im Leben an einer Depression gelitten hatten, fanden Wissenschaft-

ler in einer britischen Studie (Duggan et al., 1995). Die signifikanten Unterschiede blie-

ben bestehen, wenn die aktuellen Depressionswerte auspartialisiert wurden, was die

Autoren als Anhaltspunkt dafür werten, dass „high N[euroticism] is more than a state

effect of being depressed“ (S. 142). Sie schlussfolgern: „Our data indicate, that, while

there is an overlap between depressive symptoms and neuroticism, they are also separa-

te in their effects“ (S. 142).

Bienvenu et al. (2004) und Trull und Sher (1994) verglichen in US-amerikanischen Be-

völkerungsstichproben die Persönlichkeitsprofile von Menschen, die in ihrem Leben

mindestens einmal an einer von verschiedenen psychischen Störungen, darunter auch

depressive Störungen, erkrankt waren, mit den Persönlichkeitsprofilen von Menschen,

die bislang in ihrem Leben keine der betrachteten psychischen Erkrankungen erlebt hat-

ten. Es zeigten sich signifikant höhere Neurotizismuswerte für die Gruppe derer mit

einer Lifetime-Diagnose Depression oder Dysthymia im Vergleich mit der Gruppe der

bislang nie Erkrankten. Bienvenu et al. (2004) erfassten dabei die Persönlichkeit mit

einem Instrument, das neben den globalen fünf Domänen auch die jeweils sechs Domä-

nenfacetten misst, die Persönlichkeit also etwas differenzierter erfasst. Entsprechende

Analysen auf Ebene der Facetten ergaben, dass in der Gruppe der (ehemals oder aktuell)

Depressiven alle sechs Facetten des Neurotizismus, in der Gruppe der (ehemals oder

aktuell) an Dysthymia Erkrankten drei Facetten des Neurotizismus im Vergleich zur

Theorie 32

Gruppe der bislang Gesunden signifikant erhöht waren. Bienvenu et al. (2004) vergli-

chen auch die Persönlichkeitstraits innerhalb der Depressions-Substichprobe zwischen

den Probanden, die aktuell Symptome aufwiesen und den Probanden, die gegenwärtig

voll remittiert waren. Es ergab sich, dass die akute Symptomatik auf Ebene der Faktoren

assoziiert war mit dem mittleren Neurotizismuswert und auf Ebene der Facetten mit

dem Ergebnis auf zwei Facetten des Neurotizismus.

Trull & Sher (1994) fanden ebenfalls, dass die Persönlichkeitsfaktoren einen signifikan-

ten Beitrag zur Aufklärung der Varianz der verschiedenen DSM-II-R-Diagnosen

(American Psychiatric Association, 1987, zit. nach Trull & Sher, 1994, S. 351) ihrer

Probanden über das Geschlecht und aktuelle Symptombelastung hinaus leisten. Für die

Diagnose der Depression zählte der Neurotizismus zu den signifikanten (positiven) Prä-

diktoren.

An einer großen klinischen Stichprobe ambulant behandelter Patienten untersuchten

Rosellini & Brown (2011) ebenfalls in den USA in einem Strukturmodell die latenten,

messfehlerbereinigten Beziehungen zwischen den Dimensionen des Fünf-Faktoren-

Modells und verschiedenen psychischen Erkrankungen. Auch in diesem Ansatz ergaben

sich hoch positive, signifikante Assoziation zwischen dem Faktor Neurotizismus und

der Dimension Depression auf verschiedenen Ebenen.

Es existieren zudem Längsschnittstudien, die nahelegen, dass impulsive und labile Per-

sönlichkeitszüge einen Prädiktor für spätere depressive Erkrankungen darstellen, Neuro-

tizismus also als prämorbides Persönlichkeitsmerkmal einer depressiven Erkrankung

vorausgehen kann (Hautzinger, 2010). Neurotizismus und Major Depression scheinen

eine gemeinsame genetische Grundlage zu haben (Kendler & Myers, 2010).

Gut gesichert ist zudem der Befund, dass Neurotizismus den Langzeitverlauf depressi-

ver Erkrankungen ungünstig beeinflusst (Kronmüller & Mundt, 2006).

Entsprechend dieser Befunde korrelierte auch das deutsche BDI-II (Hautzinger et al.,

2006) in einer mittelgroßen Gemeindestichprobe hoch und signifikant positiv (r = .70)

mit der Skala Neurotizismus des NEO-FFI (Borkenau & Ostendorf, 1993). Niedrigere,

aber ebenso signifikante Korrelationen (r = .32) zwischen Neurotizismus, gemessen mit

dem NEO-FFI (Borkenau & Ostendorf, 1993) und einer anderen Depressionsskala, der

deutschen Version der CES-D (Center for Epidemiological Studies – Depression;

Theorie 33

Radloff, 1977, zit. nach Meyer, 2002; deutsch von Hautzinger & Bailer, 1993) ergaben

sich in einer deutschen Studie mit studentischer Stichprobe (Meyer, 2002).

2.2.3 Extraversion

Die Extraversion ist in Untersuchungen bei depressiven Patienten häufig geringer aus-

geprägt als bei gesunden Kontrollprobanden, ohne dass sich jedoch durchgehend Nor-

mabweichungen im Vergleich zur Kontrollpopulation zeigen würden (Kronmüller &

Mundt, 2006).

Auch Trull und Sher (1994) sowie Bienvenu et al (2004) fanden in ihren Vergleichen

der Persönlichkeitstraits von Probanden aus der Normalbevölkerung mit einer bestimm-

ten Störung in der Lebensgeschichte und Probanden, die in ihrem Leben bislang keine

solche Störung erlebt hatten, eine signifikante Verknüpfung zwischen depressiven Stö-

rungen in der Vergangenheit und niedrigerer Extraversion. In der Studie von Bienvenu

et al. (2004) zeigte sich der Zusammenhang allerdings nur für die (ehemals oder aktuell)

Dysthymie-Erkrankten auf der Ebene der Faktoren und der Facetten, in der Gruppe der

(ehemals oder aktuell) depressiven Probanden ließ sich nur in den Analysen auf Ebene

der Facetten ein Unterschied zu den Gesunden in Form einer signifikant niedriger ge-

messenen Facette finden.

(Niedrigere) Extraversion leistete wie Neurotizismus zusätzlich zum Geschlecht und zur

aktuellen Symptombelastung einen signifikanten Beitrag zur Vorhersage, ob ein Pro-

band die Lifetime-Diagnose ,Depression‘ erhalten hatte oder nicht (Trull & Sher, 1994).

Auch im Strukturmodell von Rosellini und Brown (2011; s.o.) waren Depressionen in

einer klinischen Stichprobe signifikant negativ mit Extraversion verknüpft.

Mit dem deutschen BDI-II (Hautzinger et al., 2006) korrelierte die Extraversionsskala

des NEO-FFI (Borkenau & Ostendorf, 1993) in einer Bevölkerungsstichprobe in mittle-

rer Höhe negativ und hoch signifikant (r = -.36). Etwas niedriger, dennoch signifikant

negativ fiel die Korrelation zwischen der deutschen Version eines anderen Depressi-

onsmaßes, der CES-D (Radloff, 1977, zit. nach Meyer, 2002; deutsch von Hautzinger &

Bailer, 1993), und Extraversion in einer Untersuchung von Meyer (2002) aus (r = -.19).

Extraversion könnte einen positiven Einfluss auf den Langzeitverlauf von Depressionen

ausüben (Enns und Cox, 1997, zit. nach Kronmüller & Mundt, 2006, S. 874).

Theorie 34

2.2.4 Offenheit für Erfahrung

Im Vergleich zu Menschen, die bislang nicht an einer Depression, einer Angst- oder

einer Abhängigkeitserkrankung gelitten hatten, hatten Menschen, die mindestens einmal

in ihrem Leben an einer Major Depression erkrankten, signifikant höhere Offenheits-

werte in der Studie von Trull & Sher (1994). Nach Kontrolle für die Komorbidität in der

Stichprobe der Probanden mit einer Lifetime-Diagnose für eine oder mehrere der unter-

suchten Störungen blieb dabei zumindest ein Trend zur einer schwach positiven Ver-

knüpfung der Depression mit Offenheit für Erfahrung bestehen. Offenheit gehörte au-

ßerdem neben Neurotizismus und Extraversion zu den (positiven) Prädiktoren, die über

Geschlecht und akute Symptome hinausgehend Varianz in der Frage aufklärten, ob ein

Proband an einer Depression gelitten hatte bzw. aktuell litt, oder nicht (Trull & Sher,

1994).

Allerdings waren die Autoren von ihren Befunden überrascht, hatten sie doch einen

negativen Zusammenhang erwartet: „The positive relationship between openness and

major depression seems somewhat counterintuitive“ (Trull & Sher, 1994, S. 358). Eine

mögliche Erklärung sei jedoch, dass die Erfahrung einer depressiven Episode zu einem

insgesamt höheren Maß an Offenheit (zum Beispiel erhöhter Sensibilität, Offenheit für

neue Ideen) führen könnte.

Bienvenu et al (2004) hatten in ihrer Untersuchung lediglich in den Analysen auf Ebene

der Facetten, nicht jedoch auf der Ebene der Faktoren, einen signifikanten Unterschied

zwischen Probanden mit der Lifetime-Diagnose Depression und Probanden, die bislang

keine depressive, Angst- oder Zwangserkrankung erlebt hatten, gefunden. Die teilweise

remittierten, teilweise jedoch auch akut depressiven Probanden erzielten nur auf einer

Facette signifikant höhere Werte als die bislang gesunden Probanden. In der Dysthymi-

a-Substichprobe hatten sich keine signifikanten Unterschiede in der Offenheit im Ver-

gleich zu Gesunden ergeben, weder auf Ebene der globalen Domänen, noch auf einer

der Domänenfacetten.

In der klinischen Stichprobe hatten Rosellini & Brown (2011) in ihren Analysen auf

latenter Ebene keine signifikante Verknüpfung zwischen dem Depressivitätsfaktor und

der Offenheitsdimension gefunden. Die entsprechende Korrelation lag nahe Null (je-

doch im positiven Bereich) und war nicht signifikant.

Theorie 35

Die Korrelation zwischen dem BDI-II (Hautzinger et al., 2006) und der Offenheitsdo-

mäne des NEO-FFI (Borkenau & Ostendorf, 1993) war in der Normalbevölkerung nied-

rig positiv (r = .09), wurde jedoch nicht signifikant (Hautzinger et al., 2006). In der Stu-

die von Meyer (2002) korrelierte Depressivität, gemessen mit der deutschen Version der

CES-D (Center for Epidemiological Studies – Depression; Radloff, 1977, zit. nach

Meyer, 2002; deutsch von Hautzinger & Bailer, 1993) ebenfalls niedrig positiv (r = .14)

mit der Offenheit, erfasst über das NEO-FFI (Borkenau & Ostendorf, 1993), wobei der

Koeffizient signifikant wurde.

2.2.5 Verträglichkeit

In der Studie von Trull und Sher (1994) lag die Verträglichkeit in der Stichprobe der

zum Großteil remittierten depressiven Probanden zwar unter derjenigen in der Stichpro-

be der bislang nicht Erkrankten, der Unterschied wurde aber nicht signifikant. Bienvenu

et al. (2004) konnten keinerlei eindeutige Zusammenhänge zwischen der Lifetime-

Depression beziehungsweise -Dysthymia und dem Faktor oder den Faktorfacetten der

Verträglichkeit finden. Genauso wenig leistete die Verträglichkeit einen Beitrag zur

Unterscheidung zwischen Menschen, die in ihrem Leben depressive Episoden durchlebt

hatten und bislang Gesunden (Trull & Sher, 1994) und war auch im Modell von Rosel-

lini und Brown (2011; s.o.) nicht signifikant mit depressiver Symptomatik verknüpft.

Die von Hautzinger et al. (2006) im Manual des BDI-II berichteten Werte für die Korre-

lation mit dem Persönlichkeitstrait Verträglichkeit fallen mittelhoch signifikant negativ

aus (r = -.25). In der Studentenstichprobe von Meyer (2002) war die Depressivität je-

doch nicht mit Verträglichkeit assoziiert, der Koeffizient lag nur knapp unter Null

(r = -.05) und wurde nicht signifikant.

Entgegen den bisher berichteten Untersuchungsergebnissen negativer, häufig jedoch

nicht signifikanter Beziehungen zwischen Depressivität und Verträglichkeit, schreiben

Kronmüller und Mundt (2006), die Befundlage zum Zusammenhang zwischen Depres-

sion und Verträglichkeit sei heterogen, die bisherigen Ergebnisse würden jedoch eher

auf höhere Verträglichkeitswerte und damit verminderte Aggressivität bei Depressiven

hinweisen. DeNeve und Cooper (1998) fanden in einer Metaanalyse jedoch eine positi-

ve Beziehung zwischen Verträglichkeit und verschiedenen Komponenten des subjekti-

ven Wohlbefindens (Lebenszufriedenheit, Happiness und positver Affekt) sowie eine

Theorie 36

negative Assoziation zwischen Verträglichkeit und negativem Affekt. Dies passt wiede-

rum eher zu den oben berichteten Ergebnissen eines negativen Zusammenhangs zwi-

schen Depressivität und Verträglichkeit (oder Verträglichkeit als einem protektiven

Faktor), wenngleich diese Schlussfolgerung natürlich nur sehr zurückhaltend zu inter-

pretieren ist, da Depressivität nicht gleichgesetzt werden darf mit negativem Affekt und

auch nicht als das Gegenteil von subjektivem Wohlbefinden definiert ist.

2.2.6 Gewissenhaftigkeit

In der von Trull und Sher (1994) untersuchten Bevölkerungsstichprobe war eine etwas

niedrigere Gewissenhaftigkeit signifikant verknüpft mit der Lifetime-Diagnose Major

Depression. Die durchschnittlichen Werte auf der Skala Gewissenhaftigkeit und ihren

Facetten lagen auch bei Bienvenu et al. (2004) für die Stichproben der im Laufe ihres

Lebens an einer Depression oder Dysthymie Erkrankten durchgehend unter denen von

Probanden, die bislang keine Depression, Angststörung oder Zwangserkrankung erlebt

hatten. Signifikant wurde dabei aber nur ein Unterschied auf einer einzigen Facette.

Wie beschrieben, konnten Neurotizismus, Extraversion und Offenheit dazu beitragen,

(ehemals) Depressive von (bislang) Gesunden oder Menschen, die an anderen Störun-

gen (ge)litten (hatten), zu trennen – auch Gewissenhaftigkeit fügte sich in dieser Analy-

se in die Reihe der signifikanten (negativen) Prädiktoren ein (Trull & Sher, 1994).

Ebenso waren bei den ambulanten depressiven Patienten von Rosellini und Brown

(2011) aktuelle Schwere von Depression und Gewissenhaftigkeit signifikant negativ,

jedoch nur in niedrigem bis mittelmäßigem Maße, verknüpft.

Die Assoziation von Gewissenhaftigkeit mit Major Depression weist nach Rosellini und

Brown (2011) darauf hin, dass ein Defizit an Selbstkontrolle bei Organisation und Pla-

nung mit ernsthaften depressiven Symptomen verbunden sein könnte. Der Zusammen-

hang könnte den Autoren zufolge dergestalt sein, dass eine niedrige Gewissenhaftigkeit

über die unterschiedlichsten Wege (zum Beispiel schwache Leistungen in Schule oder

Beruf oder Schwierigkeiten in Beziehungen) zu Stress führt, was zur Verstärkung oder

Aufrechterhaltung von Symptomen der Depression beitragen könnte. Darüber hinaus

passt die negative Beziehung zwischen Depression und Gewissenhaftigkeit zu Befunden

Kendlers und Myers (2010), die in den von ihnen ermittelten negativen genetischen

Korrelationen zwischen Gewissenhaftigkeit und Major Depression einen Hinweis da-

Theorie 37

rauf sahen, dass „a modest proportion of genes which influence C[onscientiousness]

might also impact on risk for M[ajor] D[epression]“ (S. 804).

Die Korrelation des BDI-II mit der Gewissenhaftigkeit, die Hautzinger et al. (2006) im

Manual berichten, fiel signifikant mittelmäßig negativ aus (r = -.25). Meyer (2002) be-

richtet zwar ebenfalls negative, jedoch im Betrag noch deutlich niedrigere und nicht

signifikante Korrelationen zwischen der Gewissenhaftigkeit und dem Ausmaß der De-

pressivität (r = -.08).

Diesen Ergebnissen steht die Einschätzung der Befundlage durch Kronmüller und

Mundt (2006) entgegen, denen zufolge sich bei Patienten, die von einer Depression be-

troffen sind, in den meisten Studien erhöhte Werte auf der Skala Gewissenhaftigkeit

finden, die allerdings nicht in allen Untersuchungen statistisch signifikant werden. Ähn-

liches gelte für der Gewissenhaftigkeit nahestehende Konstrukte wie Rigidität, Ordent-

lichkeit und Zwanghaftigkeit. Dazu passt auch eher, dass (wie in Abschnitt 2.2.2 bereits

angesprochen) zwanghafter Perfektionismus neben emotionaler Labilität und starker

Anlehnungsbedürftigkeit zu charakteristischen Merkmalen im Zusammenhang mit De-

pression zählt (Hautzinger, 2010). Hinsichtlich der Betrachtung von Persönlichkeits-

mustern lassen sich zwei „Depressionstypen“ ausmachen. Sowohl sozial abhängige

Menschen mit Verlustängsten im zwischenmenschlichen Bereich („,soziotrope […]‘

Depressionspersönlichkeit“ (Hautzinger, 2010, S. 26)) weisen ein gewisses Risiko auf,

als auch Menschen mit einem ausgeprägten Streben nach Autonomie, Unabhängigkeit,

Leistung und Kontrolle. Sehr leistungsbezogene, perfektionistische Menschen mit ei-

nem ausgeprägten Kontrollbedürfnis sind gefährdet, eine Depression zu entwickeln, da

für sie leistungsbezogene Misserfolge, Scheitern oder erlebter Kontrollverlust eine Be-

drohung darstellen, die über die Zwischenstufe Reaktanz und Aggression zu resignati-

ven, depressiven Reaktionen führen kann (Hautzinger, 2010).

Inwiefern die zunächst widersprüchlich scheinenden Einschätzungen und Befunde zur

Beziehung von Gewissenhaftigkeit und Depressivität zusammengebracht werden kön-

nen, wird sich im Rahmen dieser Arbeit nicht erörtern lassen. Möglicherweise können

sowohl mangelnde Gewissenhaftigkeit über daraus resultierenden Misserfolg als auch

erhöhte Gewissenhaftigkeit, verbunden mit einem (perfektionistisch) hohen Anspruch

an eigene Leistungen und Erfolge bei Nichterreichen dieser Ansprüche (was ebenso ein

Erleben von „Misserfolg“ darstellt) für Depression prädisponieren oder Depressivität

Theorie 38

aufrechterhalten. Ein gesundes Maß an Gewissenhaftigkeit könnte dagegen ein protek-

tiver Faktor sein, ist die Persönlichkeitseigenschaft doch positiv mit Lebenszufrieden-

heit assoziiert (DeNeve & Cooper, 1998).

2.2.7 Zusammenfassung

Akute Depression respektive Depressivität scheint mit deutlich erhöhtem Neurotizismus

und mittelmäßig niedrigerer Extraversion einherzugehen. Bezüglich Offenheit für Er-

fahrung kann nach den hier berichteten Erkenntnissen nicht sicher von einer signifikan-

ten Verknüpfung mit Depressivität ausgegangen werden, entsprechende Koeffizienten

lagen jedoch immer im niedrig positiven Bereich. Ebenso scheint Verträglichkeit eher

nicht signifikant mit Depression zusammenzuhängen, Korrelationen waren in den auf-

geführten Studien jedoch durchgängig schwach bis mittelmäßig negativ, wenngleich

Einschätzungen vorliegen, die dem widersprechen und eher von einer positiven Bezie-

hung ausgehen. Die Erkenntnisse zu Gewissenhaftigkeit sind vorerst widersprüchlich.

Während zumindest in den zitierten (Korrelations)studien eine schwach bis mittelmäßig

negative Verknüpfung mit Depressivität gefunden wurde, sprechen anderen Befunde

und theoretische Annahmen eher für einen positiven Zusammenhang.

2.3 Das Beck Depressionsinventar (BDI)

Das Depressionsinventar von Beck (BDI; erste Fassung von Beck et al., 1961; aktuelle

englischsprachige Originalauflage von Beck et al., 1996) ist das weltweit am häufigsten

eingesetzte Selbstbeurteilungsinstrument zur Beschreibung der Schwere einer depressi-

ven Episode (Hautzinger & Meyer, 2002). Im Rahmen der vorliegenden Arbeit wird ein

Vorschlag für eine vereinfachte Variante der aktuellen deutschen Auflage des BDI

(BDI-II; Hautzinger et al., 2006) unterbreitet. Vor diesem Hintergrund sollen in diesem

Kapitel das Verfahren selbst, die in dieser Untersuchung verwendeten Versionen sowie

die Erstellung des neuen Vorschlags und die Gründe für diesen Schritt erläutert werden.

2.3.1 Die Entstehung des Beck Depressionsinventars (BDI)

Die erste Fassung des Beck Depressionsinventars (BDI) entstand vor etwa 50 Jahren

(Beck et al., 1961). Die 21 Items reflektierten „characteristic attitudes and symptoms of

depressed patients“ (Beck et al., 1961, S. 562), welche diese im Verlauf von Therapie-

Theorie 39

sitzungen geäußert hatten. Die Itemkategorien des Inventars sind damit also rein kli-

nisch entstanden und basieren nicht auf einer Theorie zur Ätiologie der Depression oder

zu der Depression zugrundeliegenden psychologischen Prozessen (Beck et al., 1961).

Schon diese Version beinhaltete den bis heute für das BDI charakteristischen Aufbau

jedes Items aus – damals noch je vier bis fünf – der Intensität nach ansteigend gestaffel-

ten selbstbeschreibenden Statements. Auf dieses Itemformat wird später noch genauer

eingegangen. Konzipiert war das Verfahren als klinisches Interview. Bereits damals

wiesen die Autoren nachdrücklich darauf hin, dass das Inventar mit dem Ziel entwickelt

wurde, den Grad der Depressivität zu quantifizieren. Es ist nicht dafür geeignet, Diag-

nosen zu stellen oder zwischen standardisierten Diagnosekategorien zu differenzieren

(Beck et al., 1961). Das Instrument erfasst depressive Symptome, gleich, in welchem

Zusammenhang sie auftreten, ob im Rahmen einer Depression oder im Verlauf oder der

Folge anderer Erkrankungen oder Ereignisse (vgl. Abschnitte 2.1.2 und 2.1.3). Dies gilt

bis heute (Hautzinger et al., 2006) beziehungsweise es gilt heute umso mehr, da sich die

ursprüngliche Konzeption als standardisiertes Interview nicht durchsetzte und das Ver-

fahren mittlerweile als Selbstbeurteilungsfragebogen eingesetzt wird. Selbstbeurtei-

lungsverfahren sind eine sehr gute Methode, um den Schweregrad der Depressivität und

Veränderungen im Grad der Belastung oder im Ausmaß bestimmter Symptome zu beur-

teilen, ersetzen aber keinesfalls eine klinische Störungsdiagnostik sondern sind dieser

als Ergänzung nachgeordnet (vgl. Hautzinger & Meyer, 2002).

Seit der ersten Veröffentlichung hat das BDI viele Überarbeitungen und Neuveröffentli-

chungen erfahren, wurde in alle Kultursprachen der Welt übersetzt und avancierte zu

einem der am häufigsten eingesetzten klinischen Verfahren weltweit (Hautzinger et al.,

2006). Die erste veröffentlichte deutsche Übersetzung stammt von Blaser, Löw und

Schäublin aus dem Jahre 1968.

Im angloamerikanischen Sprachraum veröffentlichten Beck, Rush, Shaw & Emery 1979

eine überarbeitete Version des Originalfragebogens, zu der 1987 (Beck & Steer) ein

Manual herausgegeben wurde. Seit dieser Version besteht jedes Item des BDI einheit-

lich aus genau vier selbstbeschreibenden Statements ansteigender Schwierigkeit. Auf

dieser Ausgabe basiert die erste „verbindliche“ (Hautzinger et al., 2006, S. 5) Form der

Veröffentlichung des BDI in Deutschland von Hautzinger et al. im Jahre 1994 (welche

identisch, aber mit erweitertem Manual 1995 neu aufgelegt wurde; diese Version wird

in der vorliegenden Arbeit eingesetzt und findet sich in Anhang B.2.1). Die in den Items

Theorie 40

abgefragten Kategorien depressiver Symptomatik betreffen seit der Einführung 1961

unverändert traurige Stimmung, Pessimismus, Versagen, Unzufriedenheit, Schuldgefüh-

le, Strafbedürfnis, Selbsthass, Selbstanklagen, Selbstmordimpulse, Weinen, Reizbarkeit,

sozialer Rückzug und Isolierung, Entschlussunfähigkeit, negatives Körperbild, Arbeits-

unfähigkeit, Schlafstörungen, Ermüdbarkeit, Appetitverlust, Gewichtsverlust, Hypo-

chondrie und Libidoverlust. Tabelle 1 (linke Spalte) gibt Beispiele für Items des Frag-

bogens. Die beschriebene Skalierung über je vier Aussagen pro Item lässt sich erken-

nen. Jedes Item erfragt eines der Symptome depressiver Stimmung und erfasst dessen

Ausprägung vierfach gestuft, beginnend mit einer Aussage, die für Symptomfreiheit

steht (z. B. „Ich sehe nicht besonders mutlos in die Zukunft“) bis hin zu einer Aussage

maximaler Intensität (z. B. „Ich habe das Gefühl, dass die Zukunft hoffnungslos ist und

dass die Situation nicht besser werden kann“). Jeder Aussage ist dabei eine Ziffer von 0

(niedrigste Intensität) bis 3 (maximale Intensität) zugewiesen; die Beträge des vom Pro-

banden in jedem Item gewählten Statements werden zum Gesamtwert aufsummiert.

Tabelle 1 Beispiele für Items des BDI und entsprechende Items des BDI-V

BDI♠ BDI-V

Item B (Pessimismus)

0 Ich sehe nicht besonders mutlos in die

Zukunft

1 Ich sehe mutlos in die Zukunft

2 Ich habe nichts, worauf ich mich freuen

kann

3 Ich habe das Gefühl, dass die Zukunft

hoffnungslos ist und dass die Situation

nicht besser werden kann

Item 2

Ich sehe mutlos in die Zukunft

(nie … fast immer)

Item M (Entschlussunfähigkeit)

0 Ich bin so entschlussfreudig wie immer

1 Ich schiebe Entscheidungen jetzt öfter

als früher auf

2 Es fällt mir jetzt schwerer als früher,

Entscheidungen zu treffen

3 Ich kann überhaupt keine Entscheidun-

gen mehr treffen

Item 13

Ich schiebe Entscheidungen vor mir her

(nie … fast immer)

Anmerkungen. ♠ (Hautzinger, Bailer, Worall & Keller, 1995). ♣ (Schmitt & Maes, 2000).

Theorie 41

Viele Untersuchungen bescheinigen diesen ersten Formen des BDI eine gute Reliabilität

und Validität (z. B. Beck et al., 1961; Hautzinger et al., 1995; Übersicht z. B. bei

Richter, 1991).

Cronbachs α bewegte sich nach Angaben des Testmanuals des in der vorliegenden Un-

tersuchung eingesetzten deutschen BDI (Hautzinger et al., 1995) in klinischen Stichpro-

ben zwischen .79 und .92 und lag in einer Stichprobe Gesunder bei .74. Die Trennschär-

fen sind nicht für alle Items zufriedenstellend. Hautzinger et al. (1995) berichten für

Stichproben depressiver Patienten Trennschärfen zwischen .31 und .67, wenn man das

Item Gewichtsverlust ausnimmt, dessen Trennschärfe sich – je nach Stichprobe – zwi-

schen .06 und .24 bewegte; auch die Trennschärfe des Items Hypochondrie lag in einer

Untersuchung nur bei .19. Bei gesunden Kontrollpersonen ergaben sich für den Großteil

der Items Trennschärfen von .31 bis .53, darunter lag erneut das Item Gewichtsverlust

(rit = .10), zudem die Items Appetitverlust (rit = .23) und Libidoverlust (rit = .07). Nach

der Zusammenstellung Richters (1991) erzielten andere Untersuchungen ähnliche, ins-

gesamt jedoch etwas bessere Resultate ohne „Ausreißer“ in Form von Trennschärfen

unter .20.

Das BDI bildet Veränderungen der Depressivität, z. B. im Therapieverlauf, gut ab und

diskriminiert gut zwischen depressiven und nicht depressiven Probanden (Hautzinger et

al., 1995). Die Items sind relativ schwer.

2.3.2 Ein Vorschlag zur Vereinfachung des Beck Depressionsinventars

(BDI-V)

Das Format der Items war es, das Schmitt und Maes veranlasste, im Jahr 2000 einen

Vorschlag zur Vereinfachung des BDI basierend auf der Version von Hautzinger et al

(1994) zu unterbreiten, da ihnen die „Schwierigkeitsskalierung (…) unökonomisch“

(Schmitt & Maes, 2000, S. 38) schien. Sie sahen darin eine möglicherweise unnötig

hohe Belastung von Probanden, die insbesondere bei schwer depressiven Patienten ei-

nen Abbruch der Bearbeitung begünstigen könnte (Schmitt et al., 2003). Zumindest

soweit Papier-und-Bleistift-Verfahren Einsatz finden, bestand zudem Potential, mit ei-

ner Vereinfachung des Verfahrens Kosten in nicht unerheblichem Umfange zu sparen,

zum einen materielle Aufwendungen für den Druck sowie zum anderen personelle Kos-

ten durch die Reduktion der zeitlichen Beanspruchung des wissenschaftlichen Personals

Theorie 42

für das Eingeben oder Einlesen der einzelnen Fragebögen (vgl. Schmitt et al., 2003;

Schmitt & Maes, 2000). In jedem Falle aber lassen sich umso mehr relevante Konstruk-

te in einer Untersuchung erheben und die Zusammenhänge zwischen ihnen eruieren, je

kürzer oder einfacher die einzelnen Instrumente und je geringer damit die kognitive und

zeitliche Beanspruchung der Probanden sind (Schmitt et al., 2003).

Während Schmitt und Maes (2000) sowie Schmitt et al. (2003) zwar darauf hinweisen,

dass Fragen der Ökonomie im Zuge groß angelegter wissenschaftlicher Untersuchungen

oder epidemiologischer Screenings eher eine Rolle spielen als in der Einzelfalldiagnos-

tik, so soll hier dennoch zu bedenken gegeben werden, dass die Anzahl an Verfahren,

die in der „Einzelfalldiagnostik“, beispielsweise in psychiatrischen Kliniken, eingesetzt

werden, teilweise ebenfalls beträchtlich ist (ob zur „reinen“ Einzelfalldiagnostik in der

Therapieplanung und -evaluation des einzelnen Patienten oder in Kombination mit wis-

senschaftlichen Zielen). Somit sind auch hier Länge und Komplexität der einzelnen

Fragebögen von Bedeutung im Hinblick auf die Belastung der Probanden, aber auch des

untersuchungsleitenden und -auswertenden Personals und damit die finanziellen Res-

sourcen von Kliniken.

Zwar existier(t)en bereits ökonomische Instrumente zur Erfassung von Depressivität,

welche den weiteren Gütekriterien der Reliabilität und Validität ebenso entsprechen

(zum Beispiel die Depressivitäts-Skala (D-S/D-S'; von Zerssen, 1976, zit. nach CIPS,

1996, S. 91 f.), die Self-Rating Depression Scale (SDS; Zung, 1965, zit. nach CIPS,

1996, S. 103) oder die Allgemeine Depressionsskala (ADS; Hautzinger & Bailer,

1993)). Dennoch war und ist, wie Schmitt et al. (2003) feststellen, die Bearbeitung des

BDI gerechtfertigt, handelt es sich doch um das weltweit am häufigsten eingesetzte

Selbstbeurteilungsinstrument zur Erfassung von Depressivität (Hautzinger & Meyer,

2002), für das eine vereinfachte und damit optimierte Entsprechung zur Verfügung zu

haben sich lohnen würde. Nach Schmitt et al. (2003) sprachen zudem weitere Argumen-

te für die Ergänzung des bestehenden Repertoires an depressionserfassenden Instrumen-

ten um ein ökonomisiertes BDI:

Die Verfügbarkeit verschiedener Instrumente zur Messung eines Konstrukts ermög-

licht die Auswahl eines für den jeweiligen Verwendungszusammenhang am besten

geeigneten Instrumentes (vorstellbar ist zum Beispiel, dass das Anbieten mehrerer

ausformulierter Sätze unterschiedlicher Intensität pro Item in einem Interview ange-

Theorie 43

nehmer zu handhaben ist als eine Intensitätsabstufung mittels eines Häufigkeitsfor-

mates, welches wiederum beim Ankreuzen im Selbstrating komfortabler ist).

Mehrere Messverfahren für ein Konstrukt können unter bestimmten Umständen die

Konstruktdifferenzierung voranbringen.

Durch den Einsatz verschiedener Verfahren bei wiederholter Messung eines Kon-

strukts kann Testwiederholungseffekten entgegengewirkt werden.

Mehrere Möglichkeiten zur Erfassung eines Konstruktes ermöglichen die Untersu-

chung von Methodenvarianz (Eid & Diener, 2006, zit. nach Schmitt et al., 2003, S.

148).

Während die gut belegte Reliabilität und Validität des BDI nicht zur Debatte standen,

ging es Schmitt und Maes (2000) also um die Verbesserung der Ökonomie und Nütz-

lichkeit des Verfahrens.

Das Gütekriterium der Ökonomie verlangt, dass ein Verfahren möglichst wenige Res-

sourcen beanspruchen sollte, womit insbesondere zeitliche und finanzielle Aufwendun-

gen gemeint sind. Jeder Aufwand sollte durch den diagnostischen Erkenntnisgewinn

gerechtfertigt sein (Schermelleh-Engel et al., 2006). Ein Verfahren erfüllt das Gütekrite-

rium der Nützlichkeit zunächst dann, wenn es praktische Relevanz besitzt und zu nutz-

bringenden Entscheidungen führt (Schermelleh-Engel et al., 2006). Dies stand (und

steht) für das wohletablierte BDI nicht in Frage. Die Forderung wird darüber hinaus

jedoch dahingehend erweitert, als für die Beurteilung der Nützlichkeit und damit prakti-

schen Relevanz auch eine Rolle spielt, ob andere Verfahren existieren, welche eine di-

agnostische Fragestellung – bei übereinstimmender Erfüllung der anderen Gütekriterien

– zu geringeren Kosten beantworten (Kubinger, 2003; Schermelleh-Engel et al., 2006).

Beide Gütekriterien fordern also eine ganz bestimmte Relation zwischen Nutzen und

Kosten (verstanden im weiteren Sinne nicht nur finanzieller Aufwendungen). Das Ziel

der Vereinfachung war es demnach, eine Version des Fragebogens zu entwickeln, die

den unumstritten hohen Nutzen mit geringeren Kosten verbindet.

Von den 21 Symptomen des Originals wurden im verkürzten BDI (im Folgenden

BDI-V; Schmitt & Maes, 2000) alle bis auf das Symptom des Gewichtsverlustes beibe-

halten, da dies in Untersuchungen grundsätzlich die geringste Trennschärfe aufwies

(siehe z. B. Beck et al., 1961; Hautzinger et al., 1995; Schmitt & Maes, 2000). Die ent-

scheidende Vereinfachung geschah dadurch, dass jedes Symptom nur noch über eine

Theorie 44

Aussage, statt wie im Original durch vier Aussagen, operationalisiert wurde. Die Inten-

sitätsskalierung fand nun über das Antwortformat statt, eine sechsstufige Häufigkeits-

skala, deren Stufen durch die Ziffern 0, 1, 2, 3, 4 und 5 bezeichnet waren, die Endpunk-

te 0 bzw. 5 wurden zusätzlich sprachlich verankert durch die Begriffe „nie“ bzw. „fast

immer“ (Schmitt & Maes, 2000). Statt 85 Aussagen (21 Items mit je vier Aussagen +

eine Zusatzfrage das Item „Gewichtsverlust“ betreffend) müssen also nur noch 20 Aus-

sagen gelesen und beurteilt werden (Schmitt et al., 2003). Tabelle 1 zeigt Beispiele, wie

Items des BDI (linke Spalte) in Items des BDI-V (rechte Spalte) umgewandelt wurden.

Das BDI-V findet Verwendung in der vorliegenden Untersuchung und ist deshalb in

Anhang B.2.2 abgedruckt.

2.3.3 BDI und BDI-V im Vergleich

Wie im Original sind die Items rechtsschief verteilt, sie bleiben also schwierig (Schmitt

& Maes, 2000). Schmitt & Maes (2000) wiesen eine sehr hohe Reliabilität des neuen

Verfahrens nach. Die interne Konsistenz α betrug .90, eine Latent-State-Trait-Analyse

ergab eine Reliabilität von .95 für den Summenwert. Nach diesen Ergebnissen und im

direkten Vergleich (Schmitt et al., 2003) war das BDI-V etwas reliabler als das Origi-

nal. Die mittlere Itemtrennschärfe des BDI-V belief sich in einer klinisch unauffälligen

Stichprobe (N = 200) auf .60 (minimale Itemtrennschärfe .35, maximale Itemtrennschär-

fe .79), in einer kleinen Stichprobe depressiver Patienten (N = 60) auf .42 (Minimum

.16, Maximum .64); und in einer aus diesen beiden und weiteren klinischen Stichproben

zusammengesetzten Gesamtstichprobe (N = 310) auf .67 (Minimum .46, Maximum

.80). Stellt man diesen Werten die mittleren Itemtrennschärfen gegenüber, die sich in

denselben Stichproben für das BDI ergaben, so erwiesen sich die Items des BDI-V in

jedem Falle als trennschärfer (Schmitt et al., 2003). Im direkten Vergleich zeigte sich

auch eine etwas höhere Homogenität des BDI-V; so betrug die durchschnittliche Inter-

korrelation der Items des BDI-V in der eben erwähnten klinisch unauffälligen Stichpro-

be .39, die mittlere Interkorrelation der Items des BDI lag in der gleichen Stichprobe bei

.21 (Schmitt et al., 2003).

Korrelationen des BDI-V mit weiteren Skalen, wie beispielsweise solche zur Erfassung

der Seelischen Gesundheit, des Selbstwertgefühls, verschiedener Aspekte der Lebenszu-

friedenheit oder von Kontrollierbarkeitsüberzeugungen entsprachen den Erwartungen

und ließen sich daher als Indikatoren der konvergenten Konstruktvalidität werten; eben-

Theorie 45

so fielen Zusammenhänge mit demographischen Variablen erwartungsgemäß aus

(Schmitt & Maes, 2000). Von besonderer Wichtigkeit für den Nachweis der Validität

des veränderten Verfahrens waren die sehr hohen Korrelationen mit anderen Depressi-

onsskalen und – in klinischen Stichproben – einem Expertenrating der Depressivität

(Schmitt et al., 2003).

Hinweise auf die Entsprechung der Messeigenschaften des etablierten Verfahrens und

der verkürzten Version ergaben sich sowohl auf deskriptiver Ebene, wie auch in kon-

firmatorischen Faktorenanalysen (Schmitt et al., 2003). Die Korrelationen zwischen den

Gesamtscores des BDI und BDI-V fielen in einer Bevölkerungs- wie in einer klinischen

Stichprobe depressiver Patienten hoch aus (r = .82 resp., r = .88), noch höher in einer

aus Bevölkerungs- und verschiedenen klinischen Stichproben zusammengesetzten Ge-

samtstichprobe (r = .91). Selbst auf Ebene der einzelnen Items ergaben sich im Mittel

Korrelationen, deren Höhe die Autoren in Anbetracht der Tatsache, dass einzelne Items

korreliert wurden, als „beträchtlich“ (Schmitt et al., 2003, S. 152) bewerten. Zudem

fielen die Korrelationen des BDI und des BDI-V mit anderen Selbst- bzw. Fremdbeur-

teilungsinstrumenten für Depressivität jeweils nahezu identisch aus. Eine Überprüfung,

ob „beide BDI-Versionen die einzelnen Symptome in ähnlicher Weise verorten, dem

jeweiligen Symptom also eine eher zentrale oder eine eher periphere Bedeutung zuwei-

sen“ (Schmitt et al., 2003, S. 151) über einen Vergleich der Trennschärfeprofile zeigte

zufriedenstellende Ergebnisse (Spearman Rangkorrelationen der Trennschärfen:

ϱp = .65 in der Bevölkerungsstichprobe, .61 in der Stichprobe depressiver Patienten

bzw. .85 in der zusammengesetzten Stichprobe). Bezüglich des Vergleichs der differen-

tialdiagnostischen Trennschärfe der beiden Versionen waren die Befunde nicht voll-

kommen eindeutig interpretierbar. Beide Verfahren trennten verschiedene klinische und

nicht klinische Gruppen den Hypothesen entsprechend, unterschieden sich dabei aber

leicht (und nicht statistisch signifikant).

Der Nachweis hoher Konvergenz der Verfahren auf deskriptiver Ebene wurde um die

inferenzstatistische Überprüfung der Messäquivalenz mittels konfirmatorischer Fakto-

renanalysen ergänzt. In der Gesamtstichprobe konnte ein Modell angenommen werden,

in dem BDI und BDI-V auf latenter Ebene perfekt korrelierten, was dafür spricht, dass

beide Versionen identisch sind (Schmitt et al., 2003). In der Bevölkerungsstichprobe

ergab sich mit .95 eine Korrelation zwischen den beiden latenten Faktoren, welche BDI

und BDI-V repräsentierten, die einer perfekten Korrelation sehr nahekam; ein Modell,

Theorie 46

das die Korrelation auf 1 festlegte, ließ sich in dieser etwas kleineren Stichprobe mit

geringerer Varianz nicht annehmen.

Wenn auch keine absolute Messäquivalenz nachgewiesen werden konnte, so veranlass-

ten die Ergebnisse die Autoren dennoch zu dem Schluss, „dass mit dem vereinfachten

BDI ein Instrument zur Verfügung steht, welches in seiner Messqualität dem Original

gleichwertig ist, dieses im Bereich der Messökonomie aber übertrifft“ (Schmitt et al.,

2003, S. 155).

2.3.4 Die Entstehung der zweiten Ausgabe des Beck Depressionsin-

ventars (BDI-II)

Da das BDI rein klinisch entstanden war (Beck et al., 1961), lehnte es sich bislang nicht

explizit an diagnostische Kriterien der Depression an. Mit der Veröffentlichung der drit-

ten Revision des Diagnostischen und Statistischen Manuals Psychischer Störungen

(DSM-III) der American Psychiatric Association (1980) wurde diese Diskrepanz zwi-

schen den offiziellen Diagnosekriterien für depressive Erkrankungen und den in den

Items des BDI abgebildeten Symptomen zunehmend Gegenstand von Diskussionen

(Hautzinger et al., 2006). So fehlten zum Beispiel manche Symptome aus dem offiziel-

len Kriterienkatalog, andere Items bildeten Symptome ab, die nicht im Manual enthalten

waren oder fragten ein Symptom nur unvollständig ab. Obwohl das BDI in keiner seiner

Formen ein diagnostisches Instrument darstellt (Beck et al., 1961; Hautzinger et al.,

2006), schien eine Übereinstimmung zwischen den diagnostischen Kriterien des Manu-

als und den Kriterien zur Bestimmung der Schwere einer depressiven Symptomatik mit-

tels des BDI dennoch wünschenswert. Die 1996 von Beck et al. veröffentlichte Neuauf-

lage des BDI als „BDI-II“, für die seit 2006 eine verbindliche, manualisierte deutsche

Übersetzung von Hautzinger et al. vorliegt, zielte genau darauf ab. In Abstimmung auf

die Diagnosekriterien für eine depressive Episode des zum Zeitpunkt der Revision vor-

liegenden DSM-IV5 (American Psychiatric Association, 1994) wurden, wie Hautzinger

et al. (2006) berichten, …

5 Eine deutsche Übersetzung des DSM-IV liegt vor von Saß, Wittchen und Zaudig (1996). Die Kriterien

für die Episode einer Major Depression, Diagnose einer Major Depression und Diagnose einer dysthymen

Störung des DSM-IV sind identisch mit denen der Textrevision der vierten Auflage (DSM-IV-TR; Ame-

rican Psychiatric Association, 2000; deutsche Übersetzung von Saß et al., 2003), welche in Abschnitt

2.1.2 beschrieben sind.

Theorie 47

… der in den Instruktionen abgefragte Bezugszeitraum von einer Woche im BDI

(„ …, wie Sie sich in dieser Woche einschließlich heute gefühlt haben …“

(Hautzinger et al., 1995)) auf zwei Wochen im BDI-II („…, wie Sie sich in den letz-

ten zwei Wochen, einschließlich heute, gefühlt haben“ (Hautzinger et al., 2006))

erweitert

… vier Items des BDI, die Symptome abbilden, welche nicht Gegenstand des offizi-

ellen Kriterienkataloges des DSM sind, eliminiert; dies betraf die Items negatives

Körperbild, Arbeitsunfähigkeit und Hypochondrie sowie außerdem das nicht aussa-

gekräftige Item Gewichtsverlust

… vier Items, die Symptome abbilden, welche Gegenstand des offiziellen Kriterien-

kataloges sind, jedoch bislang nicht im BDI enthalten waren, hinzugefügt; dies wa-

ren die Items Unruhe, Gefühl der Wertlosigkeit, Konzentrationsschwierigkeiten und

Energieverlust

… die Items Schlafstörungen und Appetitverlust jeweils dahingehend verändert

bzw. erweitert, dass sie nicht mehr nur die Abnahme/Verschlechterung von Schlaf

bzw. Appetit, sondern auch eine Zunahme von Schlaf bzw. Appetit abbilden kön-

nen; dies wurde realisiert durch die Hinzunahme jeweils dreier Antwortalternativen

… das Item sozialer Rückzug und Isolierung des BDI, durch Ausweiten der Frage

zu nachlassendem Interesse auf Tätigkeiten und Dinge im Allgemeinen (zusätzlich

zu Menschen) im BDI-II zum Item Interessenverlust erweitert

Die weiteren Items wurden teilweise sprachlich mehr oder weniger stark überarbeitet,

um die Verständlichkeit weiter zu erhöhen, z. B: durch Umformulierung einiger oder

aller Antwortalternativen. Einige Items erhielten zudem eine neue Bezeichnung. Das

Itemformat blieb unberührt. Das revidierte BDI (BDI-II) umfasst wie das ursprüngliche

BDI 21 Items, welche nun die Symptomkategorien Traurigkeit, Pessimismus, Versa-

gensgefühle, Verlust von Freude, Schuldgefühle, Bestrafungsgefühle, Selbstablehnung,

Selbstvorwürfe, Selbstmordgedanken, Weinen, Unruhe, Interessenverlust, Entschluss-

unfähigkeit, Wertlosigkeit, Energieverlust, Veränderungen der Schlafgewohnheiten,

Reizbarkeit, Veränderungen des Appetits, Konzentrationsschwierigkeiten, Ermüdung

oder Erschöpfung und Verlust an sexuellem Interesse abfragten.

Einen detaillierten Überblick über die Veränderungen der einzelnen Items des deutsch-

sprachigen BDI-II gegenüber den Items des deutschsprachigen BDI sowie die Zuord-

Theorie 48

nung der Items zu den Symptomkriterien (A-Kriterien) der Major Depression nach

DSM-IV (American Psychiatric Association, 1994) beziehungsweise DSM-IV-TR

(American Psychiatric Association, 2000)6, wie sie in Abschnitt 2.1.2 dargestellt wur-

den, ermöglicht Tabelle 15 in Anhang A7. Da das BDI-II in der vorliegenden Studie

eingesetzt wird, findet es sich zudem vollständig in Anhang B.2.3.

Wie für das BDI werden auch für das BDI-II sowohl für das englischsprachige Original,

als auch für die deutsche Adaptation sehr gute psychometrische Eigenschaften berichtet

(Übersichten siehe bei Hautzinger et al., 2006). Nach den Angaben im Manual

(Hautzinger et al., 2006), die sich auf Untersuchgen des deutschen BDI-II beziehen,

variierte Cronbach’s α zwischen .89 und .93, womit eine hohe interne Konsistenz bzw.

Homogenität belegt ist. Die korrigierten Trennschärfen lagen in einer Stichprobe de-

pressiver Patienten zwischen .43 und .77 (Durchschnitt .61), in einer Stichprobe gesun-

der Probanden etwas niedriger, zwischen .43 und .59 (Durchschnitt .52). Die Testwie-

derholungsreliabilität in nichtklinischen Stichproben über drei Wochen und über fünf

Monate bewerten die Autoren als sehr zufriedenstellend. Korrelationen mit weiteren

Skalen zur Selbst- oder Fremdbeurteilung der Depressivität fallen hoch aus, über erwar-

tungsgemäße Korrelationen mit konstruktnahen und –fernen Skalen (wie zum Beispiel

dem Selbstwertgefühl oder verschiedene Facetten der Selbstaufmerksamkeit) werden

weitere Bestätigungen der konvergenten und wie auch der diskriminanten Validität er-

bracht.

Eine Hauptkomponentenanalyse mit anschließender Promax-Rotation führte in einer

Stichprobe depressiver Patienten sowie in einer Stichprobe Gesunder zur Annahme

zweier hoch korrelierter Faktoren (Patientenstichprobe r = .68, gesunde Stichprobe

r = .60), die sich Hautzinger et al. (2006) zufolge in beiden Stichproben als somatisch-

affektive und kognitive Dimensionen darstellten. Das einzige Item, das nicht in beiden

Stichproben demselben Faktor zugeordnet werden konnte, ist das Item Traurigkeit. Es

lädt in der Stichprobe der Patienten zusammen mit den anderen affektiven Items höher

auf dem somatisch-affektiven Faktor, in der Stichprobe Gesunder jedoch auf dem kog-

nitiven Faktor. Von einer klaren Einfachstruktur kann jedoch nicht gesprochen werden.

Insbesondere einige Items, die der somatisch-affektiven Dimension zugeordnet sind,

6 Die beiden Auflagen unterscheiden sich wie beschrieben nicht in den Kriterien der Major Depression

7 Eine entsprechende Aufstellung der Änderungen der Items des BDI-II im Vergleich mit den Items des

BDI für die englischsprachige Originalversion findet sich bei Interesse in Hautzinger et al., 2006, S. 9

Theorie 49

weisen beträchtliche Nebenladungen auf der kognitiven Dimension auf, so auch das

genannte Item Traurigkeit in der Patientenstichprobe (umgekehrt besteht eine Nebenla-

dung dieses Items auf dem somatisch-affektiven Faktor in der Lösung für die gesunde

Stichprobe). Hautzinger et al (2006) stellen zahlreiche internationale Untersuchungen

der Faktorstruktur des BDI-II zusammen. Ähnlich ihren Befunden in den deutschen

Stichproben werden die Zusammenhänge der Items auch in der Mehrzahl internationa-

ler Studien am besten durch zwei hoch korrelierende Faktoren abgebildet, die sich in

psychiatrischen Stichproben grundsätzlich als somatisch-affektiver und kognitiver Fak-

tor interpretieren lassen, während in nicht-psychiatrischen Stichproben (vorwiegend

studentische Stichproben) das Ladungsmuster eher einen kognitiv-affektiven und einen

somatischen Faktor ergibt.

2.3.5 BDI und BDI-II im Vergleich

Die amerikanischen Originalausgaben von BDI und BDI-II korrelieren sehr hoch (z. B.

zu .93 in einer Untersuchung von Dozois, Dobson & Ahnberg, 1998; etwas niedrigere

Korrelationen berichten Beck et al., 1996, zit. nach Hautzinger et al., 2006, S. 10)8. Der

Summenwert des BDI-II scheint im Durchschnitt leicht (etwa 1 – 3 Punkte) über dem

des BDI zu liegen (Beck et al., 1996, zit. nach Hautzinger et al., S. 10; Dozois et al.,

1998). Dozois et al. (1998) kommen in ihrer Untersuchung, die die beiden Versionen

des Inventars einer sehr großen studentischen Stichprobe vorlegte, zu dem Schluss, dass

„in general, (…) the psychometric characteristics of the BDI-II are highly congruent

with the BDI“ (S. 87). Beide Inventare wiesen in der Studie ähnlich hohe interne Kon-

sistenzen auf (BDI: α = .89, BDI-II α = .91) und die korrelativen Zusammenhänge zwi-

schen den Items wurden in beiden Versionen am besten durch eine zwei-Faktor-Lösung

mit obliquen Faktoren beschrieben, wenn auch die Faktorstruktur des BDI-II klarer aus-

geprägt war und die Revision somit in dieser Hinsicht ein stärkeres Instrument als die

Erstauflage darstellt. Für die deutschen Ausgaben des BDI sind der Autorin keine Un-

tersuchungen, die das BDI und das BDI-II parallel eingesetzt hätten, bekannt.

8 Das Manual zur amerikanischen Originalauflage (Beck et al., 1996) ließ sich trotz intensivster Bemü-

hungen nicht beschaffen

Theorie 50

2.3.6 Ein Vorschlag zur Vereinfachung der zweiten Ausgabe des Beck

Depressionsinventars (BDI-II-V)

Unbesehen der sehr guten messtheoretischen Eigenschaften des BDI-II (Hautzinger et

al., 2006), kann man – entsprechend der Kritik am BDI (Schmitt et al., 2003; Schmitt &

Maes, 2000) – die Frage stellen, ob sich die Ökonomie des Verfahrens im Hinblick auf

zeitliche und kognitive Belastung der Patienten oder Probanden beim Ausfüllen (sowie

der mit der Auswertung betrauten Mitarbeiter von Kliniken oder Forschungsinstitutio-

nen) noch optimieren ließe. So hat diese Arbeit sich den Versuch zum Ziel gesetzt, ana-

log der Ergänzung des BDI (Hautzinger et al., 1994) durch eine ökonomischere Varian-

te durch Schmitt und Maes (2000), auch dem BDI-II (Hautzinger et al., 2006) eine ver-

kürzte Version zur Seite zu stellen.

Neben den zahlreichen im Zusammenhang mit der Darstellung der Verkürzung des BDI

in Abschnitt 2.3.2 bereits ausgeführten Vorteilen, die mit der Existenz einer Kurzversi-

on des weltweit geschätzten und vielfach eingesetzten BDI verbunden sind, spricht ein

weiteres Argument für die analoge Erstellung einer Kurzversion des BDI-II: Mit einer

vereinfachten Version dieses Instruments stünde ein sehr ökonomisches Verfahren zur

Verfügung, welches Depressivität wie das BDI-II in enger Abstimmung mit den diag-

nostischen Kriterien der Depression nach DSM-IV (American Psychiatric Association,

1994) beziehungsweise DSM-IV-TR (American Psychiatric Association, 2000) abbil-

den würde. Dieser Umstand würde auch einen Unterschied zu bereits verfügbaren und

ebenfalls ökonomischen Verfahren zur Erfassung von Depressivität (Beispiele siehe

Abschnitt 2.3.2) darstellen, die nicht explizit an offizielle diagnostische Kriterien der

Depression angelehnt sind.

Die Entwicklung des Vorschlages für eine vereinfachte Variante des BDI-II, basierend

auf der deutschen Übersetzung des Verfahrens von Hautzinger et al. (2006), für die die

Bezeichnung BDI-II-V (V für verkürzt oder vereinfacht) gewählt werden soll, erfolgte

entsprechend dem Vorgehen von Schmitt und Maes (2000) bei der Erstellung des

BDI-V und wird nachfolgend beschrieben.

Die vier Aussagen eines jeden Items wurden in einem Statement zusammengefasst, zu

dem auf einer sechsstufigen Häufigkeitsskala von 0 (nie) bis 5 (fast immer) Stellung

bezogen werden kann. Dieses Antwortformat bildet damit anstelle der sich steigernden

Formulierungen die Intensität des jeweiligen Symptoms ab. Alle Items wurden mög-

Theorie 51

lichst prägnant und kurz formuliert und in Richtung des Symptoms gepolt. In Anpas-

sung an das Häufigkeitsformat der Antwortskala wurden die Items zur Vermeidung

doppelter Verneinung positiv formuliert, zudem wurde im Unterschied zum Original auf

die Verwendung des Perfekts sowie auf zeitliche Adverbien (oft, ständig, …) verzichtet.

Insbesondere zeitliche Vergleiche (als früher, als sonst, …), wie sie in den Statements

des BDI-II häufig vorkommen, sollten ebenso vermieden werden, was bis auf einen

Fall, in dem sich die Formulierungsfindung sehr schwierig gestaltete (s.u.), gelang. Ins-

gesamt orientierte sich die Umwandlung an dem Prinzip, die Items so weit abzuwan-

deln, wie es nötig erschien, um sie in das neue Format zu bringen, dabei jedoch so nah

wie möglich an Inhalt und Formulierung der Original-Items zu bleiben. Hatten sich zwi-

schen den Items des deutschen BDI und des deutschen BDI-II keine oder nur minimale

Veränderungen ergeben, wurde in den meisten Fällen die Formulierung des auf dem

BDI beruhenden BDI-V übernommen. Tabelle 2 veranschaulicht an zwei Beispielen,

wie die Items des BDI-II (linke Spalte) zu Items des BDI-II-V (rechte Spalte) umformu-

liert wurden. Alle 21 Items des BDI-II wurden beibehalten.

Tabelle 2 Beispiele für Items des BDI-II und entsprechende Items des BDI-II-V

BDI-II♠ BDI-II-V

Item 14 (Wertlosigkeit)

0 Ich fühle mich nicht wertlos

1 Ich halte mich für weniger nützlich als

sonst

2 Verglichen mit anderen Menschen fühle

ich mich viel weniger wert

3 Ich fühle mich völlig wertlos

Item 14

Ich fühle mich wertlos

(nie … fast immer)

Item 19 (Konzentrationsschwierigkeiten)

0 Ich kann mich so gut konzentrieren wie

immer

1 Ich kann mich nicht mehr so gut kon-

zentrieren wie sonst

2 Es fällt mir schwer, mich längere Zeit

auf irgend etwas zu konzentrieren

3 Ich kann mich überhaupt nicht mehr

konzentrieren

Item 19

Es fällt mir schwer, mich zu konzentrieren

(nie … fast immer)

Anmerkungen. ♠ (Hautzinger et al., 2006)

Theorie 52

Für die sieben Items Weinen, Interessenverlust, Energieverlust, Veränderungen der

Schlafgewohnheiten, Veränderungen des Appetits, Konzentrationsschwierigkeiten und

Verlust an sexuellem Interesse (zur Formulierung der Items im Original BDI-II siehe

Anhang B.2.3) gestaltete sich die Suche nach geeigneten Formulierungen am schwie-

rigsten, weshalb zur Entscheidungsfindung ein Gremium aus Fachleuten hinzugezogen

wurde. Im Kolloquium der Arbeitseinheit Diagnostik, Differentielle- und Persönlich-

keitspsychologie, Methodik und Evaluation des Fachbereichs Psychologie der Universi-

tät Koblenz-Landau, an welchem Mitarbeiter sowie Diplomanden des Arbeitsbereiches

teilnahmen, wurden für jedes der Items verschiedene Alternativen diskutiert und im

Hinblick auf die Verbindung von intuitiver Verständlichkeit mit maximaler Nähe zur

Originalformulierung des BDI-II bewertet. Auf diesem Wege fiel die Entscheidung für

eine Formulierung. Besondere Schwierigkeiten bereiteten dabei weiterhin die Items zu

Veränderungen der Schlafgewohnheiten und Veränderungen des Appetits. Wie oben

dargelegt, wurden diese im BDI-II um jeweils drei Aussagen erweitert, die – um den

Kriterien des DSM-IV gerecht zu werden – neben der Abnahme von Schlaf respektive

Appetit auch eine Zunahme von Schlaf respektive Appetit abfragten (siehe Tabelle 3,

linke Spalte). Die Instruktion des BDI-II verlangt dabei von den Probanden, pro Item

wie üblich nur ein Kreuz zu setzen (Näheres zur Instruktion des Beck Depressionsin-

ventars im Allgemeinen in Abschnitt 4.1.1; Spezielles zur Auswertung dieser beiden

Items in Abschnitt 4.7.2). Die Umsetzung dieser Itemform im BDI-II-V fiel deswegen

schwer, weil sich kaum eine passend anmutende Formulierung finden ließ, die jeweils

Zu- und Abnahme von Schlaf beziehungsweise Appetit in einem Statement – wie es

dem Aufbau des BDI-II-V gerecht geworden wäre – abfragte. Die Kolloquiumsteilneh-

mer sprachen sich dabei zwar für die Formulierungen „Ich leide unter Schlafstörungen“

respektive „Mein Appetit ist anders als früher“ (siehe Tabelle 3, mittlere Spalte) aus,

man war sich jedoch nicht sicher, ob es sich bei diesen Varianten um eine zufriedenstel-

lende Lösung handelte. Insbesondere wurde zu dem Begriff „Schlafstörungen“ einge-

wandt, dass diese Formulierung bei den meisten Menschen möglicherweise viel mehr

mit Ein- und Durchschlafstörungen assoziiert sein könnte, als mit einer Zunahme von

Schlaf. Aus diesem Grunde wurden Möglichkeiten eruiert, die Items zu Schlaf und Ap-

petit im BDI-II-V jeweils über zwei getrennte Aussagen abzufragen, von denen beide

von den Probanden beantwortet werden sollten. Auch dazu wurden Alternativvorschlä-

ge innerhalb des Kreises der Kolloquiumsteilnehmer abgestimmt; das Ergebnis ist in

Tabelle 3, rechte Spalte abgetragen.

Theorie 53

Tabelle 3 Die Items Veränderungen der Schlafgewohnheiten und Veränderungen des Appetits des

BDI-II und entsprechende Items des BDI-II-V

BDI-II♠ BDI-II-V.1 BDI-II-V.2

Item 16

(Veränderungen der Schlafge-

wohnheiten)

0 Meine Schlafgewohnheiten

haben sich nicht verändert

1a Ich schlafe etwas mehr als

sonst

1b Ich schlafe etwas weniger als

sonst

2a Ich schlafe viel mehr als sonst

2b Ich schlafe viel weniger als

sonst

3a Ich schlafe fast den ganzen

Tag

3b Ich wache 1-2 Stunden früher

auf als gewöhnlich und kann

nicht mehr einschlafen

Item 16

Ich leide unter Schlaf-

störungen

(nie … fast immer)

Item 16 & 17

Ich schlafe außerge-

wöhnlich wenig

(nie … fast immer)

Ich schlafe außerge-

wöhnlich viel

(nie … fast immer)

Item 18

(Veränderungen des Appetits)

0 Mein Appetit hat sich nicht

verändert

1a Mein Appetit ist etwas

schlechter als sonst

1b Mein Appetit ist etwas größer

als sonst

2a Mein Appetit ist viel schlech-

ter als sonst

2b Mein Appetit ist viel größer als

sonst

3a Ich habe überhaupt keinen

Appetit

3b Ich habe ständig Heißhunger

Item 18

Mein Appetit ist anders

als früher

(nie … fast immer)

Item 19 & 20

Ich habe außergewöhn-

lich wenig Appetit

(nie … fast immer)

Ich habe außergewöhn-

lich viel Appetit

(nie … fast immer)

Anmerkungen. ♠ (Hautzinger et al., 2006)

Schließlich wurde entschieden, zunächst zwei Versionen des BDI-II-V zu entwerfen,

eine Version, in der die Items zu Schlaf und Appetit in einem Statement abgefragt wur-

den (BDI-II-V.1, siehe Tabelle 3, mittlere Spalte) und eine Version, in der die Items in

Theorie 54

je zwei Statements abgefragt wurden (BDI-II-V.2, siehe Tabelle 3, rechte Spalte). Alle

anderen Items waren zwischen den beiden Versionen des BDI-II-V (1 und 2) identisch.

Die Instruktionen des neuen Fragebogens wurden – in Anlehnung an den BDI-V sowie

den BDI-II – eingeleitet mit der Beschreibung

„In diesem Fragebogen geht es um Ihr gegenwärtiges Lebensgefühl. Bitte geben Sie zu

jeder Frage an, wie häufig Sie die genannte Stimmung oder Sichtweise in den letzten

zwei Wochen, einschließlich heute, erlebt haben. (…)“.

Die vollständigen Instruktionen, das Layout und alle Items der Fragebögen BDI-II-V.1

und BDI-II-V.2 können Anhang B.2.4 und B.2.5 entnommen werden.

Entsprechend dem BDI, dem BDI-V und dem BDI-II erfolgt die Berechnung eines Ge-

samtwertes für das BDI-II-V.1 und BDI-II-V.2 durch Aufsummieren der angekreuzten

Ziffern aller Items. Alles zu Auswertung und Wertebereich des BDI-II-V.1 und .2 sowie

der weiteren verwendeten BDI-Formen findet sich in Abschnitt 4.7.2. Dort wird auch

erläutert, wie neben einer getrennten Auswertung und Untersuchung des BDI-II-V.1

und des BDI-II-V.2 in den jeweiligen Teilstichproben auch eine gemeinsame Auswer-

tung in der Gesamtstichprobe durch Zusammenfassung der beiden Unterformen zum

BDI-II-V erfolgen kann.

Tabelle 16 in Anhang A stellt den Bezug zwischen den Symptomkategorien des Beck

Depressionsinventars und den in Abschnitt 2.1.2 dargestellten Symptomkriterien (A-

Kriterien) der Major Depression nach DSM-V beziehungsweise DSM-V-TR her und

bietet zudem die Möglichkeit des direkten Vergleichs der Items aller vier in der vorlie-

genden Untersuchung eingesetzten Versionen des Beck Depressionsinventars zu jeder

Symptomkategorie.

Damit die Möglichkeit besteht, ein verkürztes BDI-II in Verwendungszusammenhän-

gen, in denen dies nützlich scheint, an Stelle des BDI-II einzusetzen, muss nachgewie-

sen werden, dass es dem Original messtheoretisch äquivalent ist. Der Messäquivalenz in

der Klassischen Testtheorie und ihrem inferenzstatistischen Nachweis widmet sich der

folgende Abschnitt.

Theorie 55

2.4 Messäquivalenz

Messäquivalenz bedeutet, dass Variablen (zum Beispiel Tests oder Subtests) das Glei-

che messen. Der Begriff besitzt dabei keine allgemeingültige Definition. Messäquiva-

lenz (auch Messinvarianz) kann in den unterschiedlichsten Verwendungszusammen-

hängen, auf verschiedenen Ebenen und unter Berücksichtigung unterschiedlicher As-

pekte definiert und überprüft werden. Sehr häufig wird die Frage untersucht, ob ein und

derselbe Fragebogen in verschiedenen Subgruppen, zum Beispiel bei Männern und

Frauen, das Gleiche misst oder ob verschiedene Versionen eines Fragebogens in ver-

schiedenen Subgruppen das Gleiche messen, zum Beispiel ob Übersetzungen eines Fra-

gebogens in verschiedenen Kulturen Vergleichbares messen (wie Byrne, Stewart,

Kennard & Lee, 2007) oder ob Resultate, die sich mit einer Selbstrating-Form und einer

Fremdrating-Form erzielen lassen, übereinstimmen (wie Han, Burns, Weed, Hatchett &

Kurokawa, 2009). Dabei kann die Entsprechung struktureller Aspekte der Fragebögen

im Vordergrund stehen oder auch die Entsprechung konkreter Ergebnisse, die Proban-

den in den Fragebögen erreichen (Brown, 2006).

Diese Arbeit wird der Frage nachgehen, ob die verschiedenen Versionen des im voran-

gegangenen Kapitel vorgestellten Beck Depressionsinventars das Gleiche messen, d.h.

messäquivalent sind. Dabei wird jedoch nicht verglichen, ob die Inventare in verschie-

denen Subgruppen Äquivalentes erfassen, sondern ob das diagnostische Ergebnis, das

Probanden gemäß einem der Inventare erzielen, mit dem vergleichbar ist, das sich für

diese Probanden gemäß anderen Versionen des Inventars ergibt. Eine theoretische Schu-

le, die exakte Definitionen verschiedener Stufen von Messäquivalenz, denen Variablen

(zum Beispiel Fragebögen) genügen können, vorgenommen hat, ist die Klassische Test-

theorie (KTT; Gulliksen, 1950; Lord & Novick, 1968). Eine Ergänzung und Alternative

zur Klassischen Testtheorie stellt die Item Response Theorie (IRT; siehe z. B.

Moosbrugger, 2007a) dar, in deren Rahmen die Messäquivalenz auf anderen Wegen

ermittelt werden kann (Differential Option, Test und Item Functioning; z. B. Nye,

Newman & Joseph, 2010).

Die Analysen dieser Arbeit werden jedoch auf die Konzepte der Klassischen Testtheorie

Bezug nehmen, weswegen sie im Folgenden vorgestellt werden soll. Dazu wird zu-

nächst ein Überblick über die Klassische Testtheorie und ihre Grundprinzipien gegeben,

um dann die in Messmodellen festgeschriebenen, verschieden strengen Stufen der Ähn-

Theorie 56

lichkeit oder Äquivalenz von Variablen darzustellen. Schließlich wird die Möglichkeit

der Überprüfung dieser Messmodelle und damit der Äquivalenz von Variablen erläutert.

Der Leser möge darauf hingewiesen sein, dass der Begriff der Messäquivalenz im wei-

teren Verlauf dieser Arbeit grundsätzlich als theoretisch nicht verankerter Überbegriff

für die (psychometrische) Gleichwertigkeit oder Entsprechung von Variablen verwendet

wird. Ist dagegen von Messäquivalenz im Sinnes eines der Modelle der Klassischen

Testtheorie, wie sie im Folgenden eingeführt werden, die Rede, wird der entsprechende

Fachterminus (zum Beispiel essentielle τ-Äquivalenz) verwendet.

2.4.1 Die Klassische Testtheorie

Die Klassische Testtheorie, auch Messfehlertheorie, bildet seit mehr als 50 Jahren eine

theoretische Grundlage für die Konstruktion und Interpretation von Testverfahren

(Moosbrugger, 2007b). Auch wenn sie mittlerweile durch die Item-Response-Theorie

ergänzt wurde und auch teilweise ersetzt werden kann (Moosbrugger, 2007a), ist sie

weiterhin von hoher Bedeutung. Ein Großteil der aktuell eingesetzten psychodiagnosti-

schen Verfahren basiert auf den Konstruktionsprinzipien der Klassischen Testtheorie

(Moosbrugger, 2007b).

Die zentrale Grundannahme der Klassischen Testtheorie lautet, dass jeder Testwert ei-

ner Person, z. B. eine Antwort auf ein Testitem, zusammengesetzt ist aus einem wahren

Anteil, dem wahren Wert oder englisch „True Score“, und einem zufälligen Messfehler-

anteil (Moosbrugger, 2007b). Der wahre Wert entspricht der tatsächlichen Merkmals-

ausprägung der Person auf der in Frage stehenden Dimension, z. B. ihrer wahren Intel-

ligenz. Das entscheidende Charakteristikum des Messfehlers ist seine Definition als

unsystematischer und zufälliger Einfluss auf das Messergebnis, welcher vom wahren

Wert unabhängig sein muss. Aus diesen Konzeptionen des wahren Wertes und des

Messfehlers folgt zum einen, dass der bedingte und der unbedingte Erwartungswert des

Messfehlers Null sind (Steyer & Eid, 2001). Zum anderen folgt, dass der Messfehler

nicht nur (wie oben schon in der Definition enthalten) unkorreliert ist mit dem True-

Score-Anteil der gemessenen Variable, sagen wir: Variable Yi, sondern ebenfalls nicht

korreliert mit dem True Score einer anderen, ebenfalls gemessenen Variable, nennen

wir sie Variable Yj (Steyer & Eid, 2001). Die Annahme der Unkorreliertheit der Mess-

fehler untereinander, also die Voraussetzung, dass der Messefehler einer Variable Yi

Theorie 57

nicht mit dem Messfehler einer Variablen Yj korrelieren darf, gilt dagegen – wie Steyer

und Eid (2001) betonen – nicht unbedingt, auch wenn dies ursprünglich in der Literatur

zur Klassischen Testtheorie (z. B. Gulliksen, 1950; Lord & Novick, 1968) angenommen

wurde. Sie ist lediglich eine Zusatzannahme, die einen Bestandteil der Modelle der

Klassischen Testtheorie, welche im Folgenden beschrieben werden, und eine Voraus-

setzung zur Bestimmung der Reliabilität in der Klassischen Testtheorie darstellt

(Moosbrugger, 2007b; Steyer & Eid, 2001), aber keine unbedingte Folge der Definitio-

nen von wahrem Wert und Fehler. Sie kann in der Realität daher unerfüllt sein und

muss bei bestimmten Formen der Modellprüfung und vor der Bestimmung der Reliabili-

tät überprüft werden (Steyer & Eid, 2001).

Die zentrale Grundannahme der Klassischen Testtheorie von der additiven Zusammen-

setzung eines jeden Testwertes (hier: Ymi für den Wert einer Person m auf dem Item i)

aus den zwei Komponenten wahrer Wert (τ, tau für „True Score“) und Messfehler (ε,

epsilon für „error score“) kann als mathematische Gleichung formuliert werden (Eid,

Gollwitzer & Schmitt, 2010, S.818):

(F1)

Über mehrere Personen hinweg lautet die Grundgleichung (Eid et al., 2010, S. 818):

(F2)

Die Varianz einer an mehreren Personen beobachteten Variable Yi speist sich gemäß

der Grundannahme der Klassischen Testtheorie damit aus den beiden Quellen wahre

Unterschiede zwischen Personen und messfehlerbedingte Unterschiede zwischen Per-

sonen (Eid et al., 2010). In diese beiden Bestandteile, Varianz der True-Score-Variablen

und Varianz der Messfehlervariablen, kann die Gesamtvarianz einer Variablen demnach

additiv zerlegt werden (Eid et al., 2010, S. 819):

( ) ( ) ( ) (F3)

2.4.2 Die Messmodelle der Klassischen Testtheorie

Die Messmodelle der Klassischen Testtheorie formulieren unterschiedlich strenge Ho-

mogenitätsanforderungen, welchen ein Instrument, oder etwas allgemeiner, ein Satz an

Variablen, von denen ich annehme, dass sie das gleiche Merkmal messen, genügen

Theorie 58

kann, aber nicht muss (Eid et al., 2010). Variablen steht hier und im Folgenden also für

einzelne Messungen desselben Merkmals. Es kann sich dabei zum Beispiel um mehrere

Subskalen eines Tests handeln, welche jeweils eine Summe aus mehreren Items darstel-

len. Ebenso kann es sich um Summenwerte von vollständigen Fragebögen oder Tests

handeln, die vorgeben, dasselbe Merkmal zu messen. Theoretisch könnten die Variablen

eben auch einzelne Items eines Tests sein. Dies kann allerdings insofern problematisch

sein, als die Modelle der Klassischen Testtheorie metrische Variablen voraussetzen (Eid

et al., 2010), eine Bedingung, die beispielsweise nur dreifach gestufte Items nicht im

strengen Sinne erfüllen.

Folgende fünf Messmodelle werden in der Klassischen Testtheorie unterschieden (Eid

et al., 2010):

das Modell τ-kongenerischer Variablen

das Modell essentiell τ-äquivalenter Variablen

das Modell essentiell τ-paralleler Variablen

das Modell τ-äquivalenter Variablen

das Modell τ-paralleler Variablen

Jedes dieser Modelle macht unterschiedlich strenge Annahmen bzw. Vorschriften, wel-

che erfüllt sein müssen, um von hinreichender Ähnlichkeit oder Messäquivalenz der

Variablen im Sinne des jeweiligen Modells sprechen zu dürfen. In Bezug auf die (Men-

ge an) Anforderungen, die an die Variablen hinsichtlich ihrer Gleichwertigkeit gestellt

werden, stehen die Modelle in einer hierarchischen Beziehung zueinander (Eid et al.,

2010): Das Modell τ-kongenerischer Variablen stellt das Grundmodell dar, auf dem alle

weiteren Modelle basieren. Es ist ein minimales Modell, welches am wenigsten Voraus-

setzungen formuliert, und wird somit am leichtesten erfüllt. Damit ist es aber auch das

am wenigsten strenge Modell, dessen Variablen nur die niedrigste Stufe der Gleichwer-

tigkeit erfüllen. Die zweite Stufe stellt das Modell essentiell τ-äquivalenter Variablen

dar. Das Modell essentiell τ-paralleler Variablen und das Modell τ-äquivalenter Variab-

len teilen sich die dritte Stufe der Hierarchie; unter dem Gesichtspunkt der Menge an

Voraussetzungen, die an die Variablen gestellt werden, können sie als gleichwertig gel-

ten. Das Modell τ-paralleler Variablen schließlich ist das höchste in der Hierarchie,

welches die meisten und strengsten Voraussetzungen an die Gleichwertigkeit von Vari-

Theorie 59

ablen stellt. Modelle, die in der Hierarchie höher stehen, erfüllen auch die Vorausset-

zungen von Modellen niedrigeren Niveaus.

Diese Annahmen und damit das Vorliegen von unterschiedlich differenzierten Niveaus

der Messäquivalenz können überprüft werden, wie später erläutert wird.

2.4.2.1 τ-Kongenerität (Das Modell τ-kongenerischer Variablen)

Wie beschrieben, handelt es sich hier um das Basismodell der Klassischen Testtheorie.

Die Modelle der Klassischen Testtheorie bilden die Beziehungen von Variablen, die

dasselbe Merkmal messen, sparsam und übersichtlich ab, indem dieses eine Merkmal

als gemeinsame latente Variable modelliert wird, mit dem alle Variablen verknüpft

werden (Eid et al., 2010). Diese wird auch latente Dimension oder Faktor genannt und

mit η bezeichnet.

In aller Regel wird dabei angenommen, dass die latente Dimension den True-Score-

Anteil der beobachteten Werte auf den manifesten Variablen, auch Indikatoren genannt,

„verursacht“ (Eid et al., 2010), dass diese Werte also von der Ausprägung des Faktors

abhängen9.

Dem Modell der Klassischen Testtheorie entsprechend setzt sich jede beobachtete Vari-

able additiv aus dem True-Score-Anteil und dem Messefehler-Anteil zusammen (s.o.).

Der True-Score-Anteil ist der Teil, der von der latenten Variablen verursacht wird. Der

Messfehleranteil – oder, etwas allgemeiner, Residualanteil – ist der Teil, der nicht von

der in Frage stehenden latenten Variablen, sondern von anderen Einflüssen abhängt, die

in den Modellen der Klassischen Testtheorie als unsystematische Messfehler konzipiert

sind10

.

9 Man spricht in diesem Falle von reflektiven Indikatoren. Manchmal ist jedoch die umgekehrte Konzep-

tion sinnvoller. In diesem Falle, wenn das Modell also davon ausgeht, dass die Indikatoren der „Grund“

für die latente Variable sind, wie bspw. beim Konzept des „Sozioökonomischen Status“, spricht man von

formativen Indikatoren (Brown, 2006). Dieser Spezialfall wird in dieser Arbeit jedoch keine Rolle spie-

len. 10

Dies gilt für die hier beschriebenen True-Score-Modelle. Mehrdimensionale Faktorenanalytische Mo-

delle nehmen häufig an, dass der nicht durch eine latente Variable bestimmte Anteil der Varianz einer

manifesten Variablen ebenfalls wieder aus zwei Anteilen zusammengesetzt ist, dem Messfehler und dar-

über hinaus einen indikatorspezifischen weiteren True-Score-Anteil, der aber nicht mit anderen Variablen

im Modell geteilt wird. Messfehler und indikatorspezifischer True-Score-Anteil werden unter dem Be-

griff der uniqueness zusammengefasst, lassen sich jedoch ohne die Hinzunahme weiterer Indikatoren, mit

denen die entsprechende manifeste Variable Varianz teilt, nicht voneinander trennen (Eid et al., 2010).

Theorie 60

Die zentrale Annahme des Modells τ-kongenerischer Variablen betrifft die Messfehler:

Diese variablenspezifischen Messfehler müssen voneinander unabhängig sein (Eid et

al., 2010). Es darf keine Korrelation geben zwischen dem Fehleranteil der Variablen Yi

und dem Fehleranteil der Variablen Yj oder Yk oder Yl (das heißt, diese Vorschrift gilt

für alle Messfehlerpaare).

Die Annahme der Unkorreliertheit der Messfehler ist ebenso die Grundvoraussetzung

aller anderen Modelle, wird dort aber jeweils um weitere Bedingungen ergänzt, wie

unten beschrieben wird.

In der inhaltlichen Betrachtung der Modelle bedeutet dies, dass die Zusammenhänge

zwischen den Variablen (Yi, Yj, Yk und Yl) im Modell vollständig durch die latente Va-

riable η erklärt werden müssen, wenn das Modell τ-kongenerischer Variablen (oder ir-

gendein anderes der Modelle der Klassischen Testtheorie) gelten soll (Eid et al., 2010).

„Dass die beobachteten Variablen (…) miteinander korrelieren, darf – dem Modell zu-

folge – nur daran liegen, dass sie das gleiche Merkmal messen, und nicht daran, dass es

gemeinsame Messfehlereinflüsse gibt“ (Eid et al., 2010, S. 827). Die True-Score-

Variablen sind dann lineare Transformationen voneinander und von der latenten Variab-

len (Eid et al., 2010). Die unterste Homogenitätsanforderung, die für alle Modelle der

Klassischen Testtheorie gilt, ist damit die der Eindimensionalität. Alle Variablen dürfen

nur einen einzigen True-Score messen.

Lässt sich die Annahme unkorrelierter Messfehler nicht halten, muss davon ausgegan-

gen werden, dass die Variablen im Modell, die korrelierte Messfehler aufweisen, mehr

als eine gemeinsame latente Dimension erfassen (Eid et al., 2010). Das Modell wäre

dann nicht mehr unidimensional, sondern multidimensional (Eid et al., 2010).

Dabei können multidimensionale Modelle wiederum aus unidimensionalen Modellen

aufgebaut sein – dann, wenn jeder Indikator (manifeste Variable) im Modell nur einer

der latenten Variablen im Modell „zugeordnet“ ist, also keine Doppelladungen auf-

weist11

(Brown, 2006). Ein Indikator (Item, Variable) wird immer dann als kongene-

risch bezeichnet, wenn er in einem Modell auf nur einem Faktor lädt (Brown, 2006).

11

Jedenfalls entsprechend moderner Auffassungen; früher wurde der Begriff „kongenerisch“ tatsächlich

nur für 1-Faktor-Messmodelle verwendet (Brown, 2006).

Theorie 61

Dabei dürfen sich die einzelnen Variablen jedoch in bestimmten Parametern unterscheiden,

und zwar je nach Modell in unterschiedlichen und unterschiedlich vielen Parametern.

Im τ-kongenerischen Modell dürfen sich die beobachteten Variablen in drei Belangen

voneinander unterscheiden.

Zwei Unterschiede beziehen sich auf den True-Score-Anteil: Die Variablen dürfen un-

terschiedlich schwierig sein (Eid et al., 2010), das heißt, sie erfassen zwar das gleiche

Merkmal, doch kann man manchen Items eher zustimmen (bzw. sie leichter lösen) als

andere(n), wobei sich diese Differenz bei allen Personen, die dieses Item bearbeiten,

zeigt (siehe dazu ausführlicher unten). Dazu wird in die Gleichung (siehe Tabelle 4) der

Leichtigkeitsparameter α eingeführt. Außerdem dürfen bei τ-kongenerischen Variablen

„die linearen Abhängigkeiten der True-Score-Variablen von der latenten Variablen η

durch unterschiedliche Steigungskoeffizienten gekennzeichnet“ sein (Eid et al., 2010, S.

835). Dies kann unterschiedliche Ursachen haben. Zum einen kann es aus unterschiedli-

chen Maßeinheiten (Metrik) der verschiedenen manifesten Variablen resultieren (Eid et

al., 2010), zum Beispiel wenn ein Indikator auf einer vierstufigen Likert-Skala gemes-

sen wurde, der andere aber auf einer stufenlosen visuellen Analogskala, deren Enden

bei 0 und 100 verankert sind. Zum anderen kann dies eine unterschiedliche Diskrimina-

tionsfähigkeit der Variablen bedeuten (Eid et al., 2010), die sich zum Beispiel ergibt,

wenn zwei Variablen „das zu messende Merkmal in unterschiedlicher Stärke anspre-

chen“ (S. 836). Dann unterscheiden sich die wahren Werte zweier Personen auf dem in

Frage stehenden Merkmal in unterschiedlichem Ausmaß, je nachdem, welche Variable

(Item, Subtest, Test, …) zur Messung dieses Merkmals verwendet wird (Eid et al.,

2010). So zeigt sich „der Unterschied zwischen [zwei] Personen (…) bei dem Verfahren

mit höherer Diskriminationsfähigkeit deutlicher“ (S. 836). In jedem Falle muss in die

Gleichung (siehe Tabelle 4) ein Steigungs- oder Ladungsparameter λ, auch Diskrimina-

tionsparameter genannt, eingeführt werden.

Der dritte Unterschied betrifft den Residualanteil. Die beobachteten Variablen unter-

scheiden sich in dem Anteil ihrer Varianz, der durch Messfehlereinflüsse zustande

kommt (Eid et al., 2010).

Demnach dürfen sich die True-Score-Variablen in ihren Leichtigkeitsparametern (und

damit in ihren Erwartungs- bzw. Mittelwerten) sowie in ihren Diskriminationsparame-

tern (und damit ihren Varianzen und Kovarianzen) unterscheiden; die beobachteten Va-

Theorie 62

riablen weisen unterschiedliche Mittelwerte, unterschiedliche Varianzen und unter-

schiedliche Kovarianzen auf und sind unterschiedlich reliable Indikatoren des erfassten

Konstrukts (vgl. Eid et al., 2010).

Erfüllt ein Set an Variablen, die dasselbe Merkmal erfassen sollen, also die Anforde-

rungen des Modells τ-kongenerischer Variablen, jedoch keine der Anforderungen hö-

herwertiger Modelle, erfassen sie zwar das gleiche Merkmal, tun dies aber unterschied-

lich differenziert und sind nicht völlig gleichwertig oder austauschbar. Wenn man die

Unterschiede zweier Personen auf diesem Merkmal messen will, ist es nicht gleichgül-

tig, welche der Variablen (Items, Subskalen oder Tests/Messinstrumente) ich verwende,

denn das Ergebnis des Vergleichs der Personen wird sich unterscheiden (Eid et al.,

2010). Auch wenn man umgekehrt die Variablen selbst miteinander vergleichen, zum

Beispiel ihre Schwierigkeit bewerten möchte, ist das Ergebnis nicht unabhängig davon,

welche Personen die Items bearbeiten respektive welche Merkmalsausprägungen diese

Personen aufweisen (Eid et al., 2010).

2.4.2.2 Essentielle τ-Äquivalenz (Das Modell essentiell τ-äquivalenter

Variablen)

Das Modell essentiell τ-äquivalenter Variablen fügt dem Modell τ-kongenerischer Vari-

ablen die strenge Annahme hinzu, dass alle True-Score-Variablen perfekt von der laten-

ten Variablen η abhängen (Eid et al., 2010). Damit sind auch alle True-Score-Variablen

untereinander perfekt korreliert (Eid et al., 2010). Dies gilt nicht in gleicher Weise für

die beobachteten Werte, die neben dem True-Score-Anteil noch einen Residualanteil

beinhalten, der nicht von der latenten Variablen beeinflusst wird. Dieser unsystemati-

sche Messfehleranteil darf sich zwischen den Variablen im Modell essentiell τ-

äquivalenter Variablen weiterhin unterscheiden und sorgt so dafür, dass die beobachte-

ten Werte (im Gegensatz zu den wahren Werten) nicht perfekt miteinander korreliert

sind (Eid et al., 2010). Man kann sich vorstellen, dass es sich beim Modell essentiell τ-

äquivalenter Variablen um ein Modell τ-kongenerischer Variablen handelt, in dem die

Parameter λ aller Variablen den gleichen Wert, zum Beispiel „1“, aufweisen, und alle

True-Score-Variablen so den Faktor so mit gleicher Diskrimination erfassen (Brown,

2006; Eid et al., 2010). Alle Indikatoren haben eine äquivalente Beziehung zum latenten

Konstrukt und messen dieses in der gleichen Metrik (Brown, 2006).

Theorie 63

Auch wenn die wahren Werte perfekt miteinander korrelieren, dürfen sich diese Werte

selbst weiterhin unterscheiden, wie dies im Modell τ-kongenerischer Variablen der Fall

war. Eine Person darf also beispielsweise auf einer Variablen Yi einen höheren wahren

Wert haben als auf einer Variablen Yj. Anders als im Modell τ-kongenerischer Variab-

len muss dieser Unterschied nun jedoch über alle Personen hinweg gleich sein (Eid et

al., 2010). Alle Personen müssten dann auf der Variablen Yi einen um den gleichen Be-

trag höheren Wert als auf einer Variablen Yj haben. Das bedeutet, der Unterschied darf

lediglich daraus resultieren, dass zwei Variablen unterschiedlich schwer (das heißt, un-

terschiedlich leicht zu bejahen bzw. lösen) sind, und zwar für alle Personen in gleicher

Weise. Der Unterschied darf also nur noch in einer additiven Konstante bestehen, wel-

che die Leichtigkeit oder Schwierigkeit einer Variablen abbildet (Eid et al., 2010). Die

Differenz in den wahren Werten von Variablen darf nicht mehr (zusätzlich) – wie im

Modell τ-kongenerischer Variablen – in einer multiplikativen Konstante bestehen, wie

sie aus unterschiedlichen Maßeinheiten oder Diskriminationsfähigkeiten resultiert (vgl.

Eid et al., 2010). Die True-Score-Variablen sind im Modell essentiell τ-äquivalenter

Variablen Translationen voneinander (Eid et al., 2010).

Genügen Variablen den Ansprüchen des Modells essentiell τ-äquivalenter Variablen, so

ist demnach der Vergleich zweier Variablen unabhängig von der Merkmalsausprägung

der Personen, die sie ausfüllen. Umgekehrt kann zum Vergleich zweier Personen hin-

sichtlich ihrer Merkmalsausprägung jedes der Variablenpaare verwendet werden, ohne

dass dies das Ergebnis beeinflussen würde, da die Differenz der wahren Werte zweier

Personen auf der in Frage stehenden Eigenschaft immer gleich sein muss, unabhängig

davon, welche der Variablen (also Items, Subskalen oder Skalen) ich verwende (Eid et

al., 2010).

Für die Messfehler gilt weiterhin die Forderung der Unkorreliertheit untereinander.

Somit dürfen im Modell essentiell τ-äquivalenter Variablen nur noch zwei Unterschiede

bestehen. Ein Unterschied in der Leichtigkeit und damit den Mittelwerten – nicht jedoch

der Varianz und den Kovarianzen – der True-Score-Variablen sowie ein Unterschied in

der Fehlervarianz der beobachteten Variablen (vgl. Eid et al., 2010). Die Mittelwerte

der beobachteten Variablen sind ebenso unterschiedlich. Da sich die Varianzen der beo-

bachteten Variablen zu gleichen Anteilen aus True-Score-Varianz, aber zu unterschied-

lichen Anteilen aus Fehlervarianz zusammensetzen, unterscheiden sich die Varianzen

Theorie 64

und die Reliabilitäten der beobachteten Variablen (Eid et al., 2010). Die Kovarianzen

zwischen den beobachteten Variablen sollten dennoch näherungsweise gleich sein. Die

Hypothese gleicher Kovarianzen bezieht sich zwar auf die Kovarianzen der wahren

Werte, nicht jedoch der beobachteten Werte, sollte jedoch annähernd auf diese übertra-

gen werden können (Steyer & Eid, 2001).

2.4.2.3 Essentielle τ-Parallelität (Das Modell essentiell τ-paralleler Vari-

ablen)

Während sich die Varianzen der beobachteten Variablen im Modell essentiell τ-

äquivalenter Variablen aufgrund unterschiedlich großer Messfehlereinflüsse unterschei-

den dürfen, setzt das Modell essentiell τ-paralleler Variablen voraus, dass sich die Vari-

ablen weder in den Anteilen der True-Score-Varianz, noch in den Anteilen der Residu-

alvarianz unterschieden dürfen und damit gleiche Reliabilitäten aufweisen (Eid et al.,

2010).

Die True-Score-Variablen unterscheiden sich damit wie im Modell essentiell τ-

äquivalenter Variablen zwar in der Schwierigkeit, nicht jedoch in der Varianz und sie

korrelieren perfekt. Die beobachteten Variablen weisen gleiche Varianzen und Kovari-

anzen auf, dürfen sich aber in ihren Mittelwerten unterscheiden (Eid et al., 2010).

Im Modell essentiell τ-paralleler Variablen messen damit alle Indikatoren das latente

Konstrukt nicht nur in den gleichen Maßeinheiten sondern auch mit gleicher Präzision

(Brown, 2006).

2.4.2.4 τ-Äquivalenz (Das Modell τ-äquivalenter Variablen)

In diesem Modell wird die Restriktion gleicher (Fehler-)Varianzen der beobachteten

Variablen wieder gelöst. Dafür müssen hier alle Variablen die gleiche Schwierigkeit

aufweisen (Eid et al., 2010). Alle beobachteten Variablen haben einen identischen Er-

wartungswert, der zudem den Erwartungswert der latenten Variablen η darstellt (Eid et

al., 2010).

Der Anteil wahrer Varianz an den beobachteten Variablen muss – wie im Modell essen-

tiell τ-äquivalenter Variablen – gleich sein. Die Kovarianzen der True-Score-Variablen

und der beobachteten Variablen sollten jeweils identisch sein.

Theorie 65

In einem Modell τ-äquivalenter Variablen sind alle Variablen gleich schwierig und dis-

kriminieren gleich gut zwischen verschiedenen Personen. Die Variablen können aber

unterschiedlich reliabel sein. (Eid et al., 2010).

2.4.2.5 τ-Parallelität (Das Modell τ-paralleler Variablen)

Dieses Modell stellt die höchsten Ansprüche an die Gleichwertigkeit von Variablen,

indem es verlangt, dass alle Variablen „dasselbe eindimensionale Merkmal mit gleicher

Leichtigkeit, Diskriminationsfähigkeit und Reliabilität“ (Eid et al., 2010, S. 841) mes-

sen. τ-parallele Testverfahren weisen gleiche wahre Werte und gleiche Streuungen auf

(Moosbrugger, 2007b; Schermelleh-Engel & Werner, 2007) und sind daher vollständig

identische, austauschbare Indikatoren eines latenten Konstrukts (vgl. Brown, 2006).

Weder die True-Score-Variablen, noch die beobachteten Variablen dürfen sich in ihren

Mittelwerten, Varianzen oder Kovarianzen unterscheiden (vgl. Brown, 2006; Eid et al.,

2010).

2.4.2.6 Zusammenfassung der Messmodelle

τ-kongenerische Variablen messen dasselbe latente Merkmal, sind jedoch unterschied-

lich schwer, unterschiedlich eng mit dem erfassten Konstrukt verknüpft und unterschei-

den sich in ihrer Reliabilität. Sie sind „homogen im Sinne eines eindimensionalen Mo-

dells“ (Eid et al., 2010, S. 842). Diese Mindestanforderung erfüllen auch die Variablen

aller weiteren Modelle:

Essentiell τ-äquivalente Variablen erfassen dasselbe Merkmal mit gleicher Diskrimina-

tionsfähigkeit, aber unterschiedlicher Schwierigkeit. Auch sie weisen keine identischen

Reliabilitäten auf.

Variablen dürfen als essentiell τ-parallel gelten, wenn sie neben identischen Faktorla-

dungen gleiche Reliabilitäten aufweisen. Die Schwierigkeiten unterscheiden sich wei-

terhin zwischen den Variablen.

Variablen, die τ-äquivalent sind, weisen gleiche Beziehungen zum latenten Konstrukt

und gleiche Schwierigkeiten auf, unterscheiden sich aber in der Reliabilität.

Theorie 66

τ-parallele Variablen sind gleich schwierige, gleich gut diskriminierende und gleich

reliable Indikatoren ein und desselben Merkmals und damit quasi austauschbare Indika-

toren dieses Konstrukts.

Tabelle 4 gibt einen Überblick über die zu den jeweiligen Modellen gehörigen Glei-

chungen.

Tabelle 4 Übersicht über die Modellgleichungen der Klassischen Testtheorie

Grundgleichung der Klassischen Testtheorie Yi = τi + εi♠

Modell τ-kongenerischer Variablen Yi = αi + λi * η + εi♣

Modell essentiell τ-äquivalenter Variablen Yi = η + αi + εi♥

Modell essentiell τ-paralleler Variablen Yi = η + αi + εi,

Var(εi) = Var (εj) = Var (ε), i ≠ j ♦

Modell τ-äquivalenter Variablen Yi = η + εi●

Modell τ-paralleler Variablen Yi = η + εi,

Var(εi) = Var (εj) = Var (ε), i ≠ j♦

Anmerkungen. αi Achsenabschnitt. λi Steigung einer Variablen. Grau hinterlegt ist jeweils die Modellie-

rung des True-Scores τ. ♠ (Eid et al., 2010, S. 818). ♣ (Eid et al., 2010, S. 835). ♥ (Eid et al., 2010, S.

825). ♦ (Eid et al., 2010, S. 830). ● (Eid et al., 2010, S. 831).

2.4.3 Nutzen der Messmodelle

Die Option, im Rahmen der Modelle der Klassischen Testtheorie die Eindimensionalität

und weitere Homogenitätsstufen von Variablen zu überprüfen, macht man sich klassi-

scherweise in der Konstruktion von Fragebögen zunutze. So können für einen eindi-

mensionalen Fragebogen homogene Items ausgewählt werden oder – sollte dies empi-

risch nicht möglich und/oder theoretisch nicht gewünscht sein – Items zusammenge-

stellt werden, die in einem mehrdimensionalen Fragebogen jeweils bestimmte Subdi-

mensionen homogen erfassen (Eid et al., 2010).

Die Frage, ob eine Menge an Variablen den jeweiligen Kriterien eines Modells ent-

spricht, ist in der Klassischen Testtheorie zudem dafür relevant, ob und mit welchen

Methoden die Reliabilität der einzelnen Messungen (z. B. Items eines Tests) und der

Gesamtheit der Variablen (z. B. Gesamtscore des Tests) rechnerisch bestimmt werden

darf (Eid et al., 2010; Moosbrugger, 2007b).

Theorie 67

Außerdem können mit Hilfe der vorgestellten Modelle individuelle wahre Merkmals-

ausprägungen als Wert einer Person auf der latenten Variablen η geschätzt werden (Eid

et al., 2010).

Da der Fokus der vorliegenden Arbeit jedoch auf den Messmodellen selbst und den Be-

dingungen ihrer Gültigkeit und damit der Frage des Vorliegens bestimmter Niveaus von

Messäquivalenz liegt, wurden und werden die Themen der Reliabilität(sbestimmung)

und der Messung wahrer Merkmalsausprägungen nicht vertieft. Der Leser findet Infor-

mationen zu beiden Aspekten zum Beispiel in Eid et al. (2010) oder (zur Reliabilität) in

Moosbrugger (2007b) sowie Schermelleh-Engel und Werner (2007).

2.4.4 Überprüfung der Messäquivalenz

Mit Hilfe des statistischen Verfahrens der konfirmatorischen Faktorenanalyse (CFA)

kann für ein gegebenes Set an Variablen inferenzstatistisch überprüft werden, welchen

Anforderungen bezüglich ihrer Gleichwertigkeit sie mindestens genügen

(Modellgeltungstest; Eid et al., 2010). Konfirmatorische Faktorenanalysen überprüfen,

ob eine postulierte Struktur in einem Set von Daten vorhanden ist oder besser gesagt,

wie wahrscheinlich es ist, dass eine postulierte Struktur die Zusammenhänge in den

Daten zufriedenstellend beschreibt. Die Anforderungen der jeweiligen Modelle werden

durch bestimmte Restriktionen umgesetzt, die der Anwender in die Spezifikation der

Modellstruktur einfügt (siehe z .B. Brown, 2006).

Im Modell τ-kongenerischer Variablen ist die einzige umzusetzende Einschränkung die

unkorrelierter Fehler, die Faktorladungen und Fehlervarianzen dürfen frei variieren

(Brown, 2006). Die Residualkorrelationen zwischen den Variablen müssen also auf

Null fixiert werden, denn die Partialkorrelation zwischen den beobachteten Variablen

müssen Null sein, wenn die latente Variable η auspartialisiert wird (Eid et al., 2010).

In der praktischen Anwendung von CFAs wird das Modell essentiell τ-äquivalenter Va-

riablen umgesetzt, indem zusätzlich zu der Einschränkung, dass Fehlervarianzen nicht

korrelieren dürfen, die Ladungsparameter aller Indikatoren eines Faktors gleichgesetzt

werden (engl. „equality constraints“); die Fehlervarianzen dürfen weiter frei variieren

(Brown, 2006).

Theorie 68

Um in einem Modell essentielle τ-Parallelität der Variablen zu testen, wird die Restrik-

tion identischer Fehlervarianzen der Indikatoren eines Faktors zur Restriktion identi-

scher Faktorladungen und fehlender Residualkorrelationen hinzugefügt (Brown, 2006).

Wird ein Modell τ-äquivalenter Variablen angenommen, wird die Restriktion identi-

scher (Fehler)varianzen der manifesten Variablen wieder gelockert, der Modellbe-

schreibung jedoch die Einschränkung gleicher Indikator-Intercepts hinzugefügt (vgl.

Brown, 2006). Die Vorschrift gleicher Intercepts setzt die Forderung gleicher Mittel-

werte der Indikatoren um. Die Vorschriften gleicher Faktorladungen und Nullkorrelati-

onen zwischen den Fehlern bleiben erhalten. Ab diesem Modell wird also neben der

Kovarianzstruktur auch die Erwartungswertstruktur in die Überprüfung mit einbezogen.

Alle Einschränkungen werden formuliert für die Überprüfung des strengsten aller Mo-

delle, des Modells τ-paralleler Variablen. Die Indikatoren eines latenten Konstrukts

müssen identische Ladungsparameter, identische Fehlervarianzen und identische Inter-

cepts aufweisen, die Fehlervariablen dürfen nicht korrelieren (vgl. Brown, 2006).

Das Prinzip des Modelltest und wie die Passung eines Modells beurteilt werden kann

werden in den Abschnitten 4.5 und 4.6 näher erläutert.

Fragestellungen und Hypothesen 69

3 Fragestellungen und Hypothesen

Der im Rahmen dieser Arbeit vorgestellte Vorschlag für eine vereinfachte Variante der

zweiten Auflage des Beck Depressionsinventars (BDI-II; Hautzinger et al., 2006),

BDI-II-V, soll auf seine psychometrischen Eigenschaften untersucht und hinsichtlich

dieser mit dem Original (BDI-II) verglichen werden. Zugleich soll der direkte Vergleich

aller eingesetzten Versionen des Beck Depressionsinventars (das BDI von Hautzinger et

al. (1995), das BDI-V von Schmitt und Maes (2000), das BDI-II von Hautzinger et al.

(2006) und das vorgeschlagene BDI-II-V) erfolgen. Das BDI-II-V findet dabei in zwei

Ausführungen (BDI-II-V.1 und BDI-II-V.2) Anwendung, die hinsichtlich ihrer Nähe

zum Original gegeneinander abgewogen werden sollen. Gleichzeitig ermöglicht eine

Zusammenfassung der beiden Ausführungen zum BDI-II-V die Untersuchung des Fra-

gebogens in einer größeren Gesamtstichprobe. Erste Hinweise auf die Konstruktvalidi-

tät des BDI-II-V sollen Zusammenhänge mit depressionsnahen und –ferneren Persön-

lichkeitsvariablen erbringen.

Hypothese I: Zur internen Konsistenz und Homogenität des BDI-II-V

Da für das Original in Form des BDI-II sehr gute psychometrische Eigenschaften nach-

gewiesen sind (Hautzinger et al., 2006) und entsprechend den Ergebnissen von Schmitt

und Maes (2000), deren BDI-V dem BDI-II-V in Inhalt und Aufbau sehr ähnlich ist,

wird postuliert, dass für das BDI-II-V gute Kennwerte der internen Konsistenz und der

Homogenität sowie zufriedenstellende korrigierte Trennschärfen nachzuweisen sind:

α (BDI-II-V) ≥ .85

M rii (BDI-II-V) ≥ .30

.30 ≤ niedrigste rit (BDI-II-V), höchste rit (BDI-II-V) ≥ .60; M rit (BDI-II-V) ≥ .50

Hypothese II: Zur Konstruktvalidität des BDI-II-V

Zu den drei Hauptgütekriterien, auf deren Basis diagnostischen Verfahren bewertet

werden, zählt neben der Objektivität und der Reliabilität auch die Validität. Kennwerte

der Validität geben im Allgemeinen an, in wie weit ein Instrument das Merkmal erfasst,

das es zu erfassen vorgibt. Besonders umfassende Überprüfungen werden dabei im

Rahmen der Konstruktvalidität vorgenommen, die fordert, dass die von einem Messin-

Fragestellungen und Hypothesen 70

strument generierten Daten mit diversen Kriterien in der Höhe korrelieren, wie begrün-

dete Theorien es erwarten lassen (z. B.Campbell & Fiske, 1959; Cronbach & Meehl,

1955). Weit verbreitet ist eine darauf basierende, vereinfachte Definition der Konstrukt-

validität. Danach sollten die von einem Messinstrument generierten Daten den Erwar-

tungen aus bisherigen Befunden entsprechend hoch mit Verfahren – oder allgemeiner

Variablen – korrelieren, die dieselben oder zumindest verwandte Konstrukte erfassen

(konvergente Validität) und den Erwartungen entsprechend niedrig(er) oder sogar gar

nicht mit Verfahren respektive Variablen, die entfernte Konstrukte erfassen (diskrimi-

nante Validität) (z. B. Campbell & Fiske, 1959; Gollwitzer & Jäger, 2007; Schermelleh-

Engel & Schweizer, 2007).

Auf dieser Basis sollen erste Hinweise auf die Konstruktvalidität des BDI-II-V gewon-

nen werden, indem seine Zusammenhänge mit depressionsnahen und –ferneren Persön-

lichkeitsvariablen verglichen werden mit bisherigen Befunden zur Assoziation von De-

pressivität und Persönlichkeit. Solche bisherigen Befunde und einige theoretische Erklä-

rungsansätze wurden in Abschnitt 2.2 dargestellt.

Der Bewertung des Ausmaßes des Zusammenhangs wird im Folgenden die grobe Klas-

sifikation von Cohen (1988) zugrunde gelegt, wonach eine Korrelation ab dem Betrag

von r = .1 einen schwachen Zusammenhang bedeutet, ein Betrag von r = .3 kennzeich-

net einen mittleren Zusammenhang und ab einem Betrag von r = .5 darf von einem star-

ken Zusammenhang gesprochen werden.

Entsprechend den Befunden, die in der Literatur berichtet werden, und dabei insbeson-

dere unter Bezugnahme auf die Ergebnisse, welche die querschnittliche Korrelation

zwischen aktueller Depressivität und Persönlichkeitseigenschaften betreffen, würde

man für die Korrelation eines validen Instrumentes zur Erfassung der Depressivität eine

positive Korrelation mit Neurotizismus erwarten, die im Betrag r = .5 nicht unterschrei-

ten sollte, was einem deutlichen Zusammenhang entspricht. Mit der Extraversion sollte

ein solches Instrument etwa mittelmäßig negativ korrelieren, im Bereich von r = .3 oder

.4. Der Zusammenhang mit Offenheit sollte niedrig positiv (etwa bei r = .1 oder .2) sein,

mit Verträglichkeit wäre am ehesten eine negative Assoziation niedrigen oder mittleren

Ausmaßes zu erwarten, zwischen r = .1 und .3. Zwischen der Gewissenhaftigkeit und

Depressivität sollte ebenso eine schwach bis mittelmäßig (r = .1 bis .3) negative Bezie-

hung bestehen:

Fragestellungen und Hypothesen 71

ϱ (BDI-II-V, Neurotizismus) ≥ .5

-.3 ≤ ϱ (BDI-II-V, Extraversion) ≤ -.4

.1 ≤ ϱ (BDI-II-V, Offenheit für Erfahrung) ≤ .2

-.1 ≤ ϱ (BDI-II-V, Verträglichkeit) ≤ -.3

-.1 ≤ ϱ (BDI-II-V, Gewissenhaftigkeit) ≤ -.3

Hypothesen III.a.1 bis III.a.5 und III.b: Zur Entsprechung von BDI-II-V und BDI-II

Das Kapitel 2.3.4 beschreibt, dass die Entwicklung des BDI-II-V das Ziel verfolgte,

inhaltlich so nah wie möglich am Original zu bleiben, um so eine ebenbürtige Alternati-

ve für das BDI-II darzustellen. Ob dieses Vorhaben geglückt ist, soll durch die Untersu-

chung der Äquivalenz der Messeigenschaften von Original (BDI-II) und Verkürzung

(BDI-II-V) überprüft werden.

Hypothesen III.a.1 bis III.a.5: Zur Konvergenz von BDI-II-V und BDI-II auf deskripti-

ver Ebene

Hypothese III.a.1: Zur Korrelation auf Item- und Summenwertebene

Die Summenwerte von BDI-II-V und BDI-II sollen hoch korrelieren:

ϱ (BDI-II-V, BDI-II) ≥ .8

Auch die Korrelationen zwischen den Werten auf Ebene der Items, die in den Fragebö-

gen jeweils dasselbe Symptom erfassen, sollten deutlich ausgeprägt sein. Die Koeffi-

zienten können im Betrag allerdings nicht die Werte von Korrelationen zwischen aggre-

gierten Maßen erreichen (vgl. Schmitt & Maes, 2000):

M ϱ (Items BDI-II-V, Items BDI-II) ≥ .5

Hypothese III.a.2: Zum Vergleich der Summenwerte

Die mittleren Summenwerte von BDI-II-V und BDI-II sollen sich nicht signifikant un-

terscheiden:

μ (BDI-II-V) = μ (BDI-II)

Fragestellungen und Hypothesen 72

Hypothese III.a.3: Zum Vergleich der internen Konsistenzen

Die interne Konsistenz des BDI-II-V soll die interne Konsistenz des BDI-II nicht unter-

schreiten:

α (BDI-II-V) ≥ α (BDI-II)

Hypothese III.a.4: Zum Vergleich der Trennschärfen

Die part-whole-korrigierten Trennschärfen der Items des BDI-II-V sollen die part-

whole-korrigierten Trennschärfen der Items des BDI-II nicht unterschreiten. Für jedes

Item gilt:

rit (BDI-II-V) ≥ rit (BDI-II)

Korrigierte Trennschärfen geben an, wie gut ein Item die aus allen anderen Items gebil-

dete Gesamtskala repräsentiert und damit, wie „prototypisch“ (Bühner, 2006, S. 95;

Hervorhebung durch die Verfasserin) ein Item für eine Skala ist. Wenn BDI-II-V und

BDI-II einander entsprechen, sollte ein bestimmtes Item in beiden Instrumenten in der

gleichen Beziehung zu den anderen Items und damit zum Gesamtwert stehen, also die

Gesamtskala gleich gut repräsentieren. Dies würde eine Entsprechung der Position des

Items in einer Rangreihe der Trennschärfen bedeuten und damit hätte ein Item in beiden

Inventaren den gleichen relativen Bezug zum Summenwert. Eine Übereinstimmung der

Trennschärfeprofile würde sich in einer hohen Spearman-Rangkorrelation zwischen den

Trennschärfen ausdrücken (Schmitt et al., 2003; Schmitt, Maes & Seiler, 2001):

ϱp (Trennschärfen BDI-II-V, Trennschärfen BDI-II) ≥ .5

Hypothese III.a.5: Zum Vergleich der Zusammenhänge mit anderen Variablen

Als Hinweis auf ähnliche Messeigenschaften zweier Instrumente kann auch gelten,

wenn sie ähnlich hoch mit anderen Variablen korrelieren (Schmitt et al., 2003). Es wird

erwartet, dass die Korrelationen des BDI-II-V mit den Persönlichkeitsvariablen Neuro-

tizismus, Extraversion, Offenheit für Erfahrung, Verträglichkeit und Gewissenhaftigkeit

ähnlich hoch und gleich gerichtet ausfallen wie jene des BDI-II mit diesen Persönlich-

keitsvariablen:

Fragestellungen und Hypothesen 73

ϱ (BDI-II-V, Neurotizismus) ≈ ϱ (BDI-II, Neurotizismus)

ϱ (BDI-II-V, Extraversion) ≈ ϱ (BDI-II, Extraversion)

ϱ (BDI-II-V, Offenheit für Erfahrung) ≈ ϱ (BDI-II, Offenheit für Erfahrung)

ϱ (BDI-II-V, Verträglichkeit) ≈ ϱ (BDI-II, Verträglichkeit)

ϱ (BDI-II-V, Gewissenhaftigkeit) ≈ ϱ (BDI-II, Gewissenhaftigkeit)

Hypothese III.b: Zur inferenzstatistischen Überprüfung der Messäquivalenz von

BDI-II-V und BDI-II

Es wird postuliert, dass das BDI-II-V und das BDI-II entsprechend dem Modell essenti-

ell τ-paralleler Variablen der klassischen Testtheorie parallele Indikatoren eines latenten

Konstrukts, das mit „Depressivität“ bezeichnet werden soll, darstellen. Beide Variablen

sollen dieses latente Konstrukt mit gleicher Diskrimination und gleicher Reliabilität

erfassen und das latente Konstrukt soll die Korrelation zwischen dem BDI-II und dem

BDI-II-V vollständig erklären.

Hypothesen IV.a.1 bis IV.a.3 und IV.b: Zum Vergleich von BDI-II-V.1 und BDI-II-V.2

Das BDI-II-V wurde in zwei Ausführungen vorgeschlagen, die bezüglich ihrer Nähe

zum Original miteinander verglichen werden sollen. Da Aufbau und Inhalt der infrage

stehenden Items zu „Schlaf“ und „Appetit“ im BDI-II-V.2 näher am BDI-II sind, als

dies im BDI-II-V.1 der Fall ist, wird postuliert, dass die vorgeschlagenen Maße der

Ähnlichkeit zwischen BDI-II und BDI-II-V in getrennten Untersuchungen der Konver-

genz von BDI-II und BDI-II-V.1 sowie der Konvergenz von BDI-II und BDI-II-V.2 für

das BDI-II-V.2 höher ausfallen als für das BDI-II-V.1.

Hypothesen IV.a.1 bis IV.a.3: Zur Konvergenz von BDI-II-V und BDI-II auf deskriptiver

Ebene

Hypothese VI.a.1: Zur Korrelation auf Item- und Summenwertebene

Der Summenwert des BDI-II-korreliert höher mit dem Summenwert des BDI-II-V.2 als

mit dem Summenwert des BDI-II-V.1:

ϱ (BDI-II-V.2, BDI-II) > ϱ (BDI-II-V.1, BDI-II)

Fragestellungen und Hypothesen 74

Insbesondere korrelieren die Werte auf der Ebene der Items zu „Schlaf“ und „Appetit“

höher zwischen BDI-II-V.2 und BDI-II als zwischen BDI-II-V.1 und BDI-II:

ϱ (Schlafitem BDI-II-V.2, Schlafitem BDI-II) > ϱ (Schlafitem BDI-II-V.1, Schlafitem BDI-II)

ϱ (Appetititem BDI-II-V.2, Appetititem BDI-II) > ϱ (Appetititem BDI-II-V.1, Appetititem BDI-II)

Hypothese IV.a.2: Zum Vergleich der Summenwerte

Der mittlere Summenwert des BDI-II liegt näher am mittleren Summenwert des

BDI-II-V.2 als am mittleren Summenwert des BDI-II-V.1:

Δ (μ (BDI-II-V.2), μ (BDI-II)) < Δ (μ (BDI-II-V.1), μ (BDI-II))

Hypothese IV.a.3: Zum Vergleich der Trennschärfen

Die Rangkorrelation der Itemtrennschärfen fällt höher aus zwischen dem BDI-II-V.2

und dem BDI-II als zwischen dem BDI-II-V.1 und dem BDI-II:

ϱp (Trennschärfen BDI-II-V.2, Trennschärfen BDI-II) > ϱp (Trennschärfen BDI-II-V.1, Trennschärfen BDI-II)

Hypothese IV.b: Vergleich der Messäquivalenz von BDI-II-V.1 und BDI-II mit der

Messäquivalenz von BDI-II-V.2 und BDI-II

Es wird postuliert, dass ein Modell essentiell τ-paralleler Variablen im Sinne der klassi-

schen Testtheorie besser auf ein Modell passt, das die manifesten Variablen BDI-II-V.2

und BDI-II auf eine latente Variable „Depressivität“ zurückführt als auf ein Modell, das

die manifesten Variablen BDI-II-V.1 und BDI-II auf eine solche latente Variable zu-

rückführt.

Hypothesen V.a.1 bis V.a.5 und V.b: Zur Entsprechung von BDI, BDI-V, BDI-II und

BDI-II-V

Eine interessante Frage ist, ob die im BDI-II realisierte, auf eine Verbesserung der In-

haltsvalidität zielende (Kühner, Bürger, Keller & Hautzinger, 2007) Anpassung der in

den Items repräsentierten Symptome an die diagnostischen Kriterien der Major Depres-

sion nach DSM-IV (American Psychiatric Association, 1994) Auswirkungen auf die

psychometrischen Eigenschaften des Inventars hatte. In diese Analysen sollen auch die

Fragestellungen und Hypothesen 75

verkürzten Versionen der beiden Inventare einbezogen werden, um einen abgerundeten

Gesamteindruck zu erhalten, in welchem Verhältnis die Messeigenschaften aller Inven-

tare zueinander stehen.

Zum einen lassen sich deskriptive Maße vergleichen. Hier wäre festzustellen, ob sich

die Ergebnisse des direkten Vergleichs der amerikanischen Originalausgaben von BDI

und BDI-II (z. B. Dozois et al., 1998) auch für die deutschen Übersetzungen zeigen.

Dies würde sehr hohe Korrelationen zwischen den Summenwerten von BDI und BDI-II

bedeuten, einen gegenüber dem BDI etwas erhöhten mittleren Summenwert des BDI-II,

und ähnlich hohe interne Konsistenzen.

Zum anderen kann analysiert werden, ob BDI und BDI-II die Intensität depressiver

Symptome mit gleicher Diskrimination und Reliabilität erfassen. Nach den Ergebnissen

von Dozois et al. (1998) könnte man dies zunächst einmal annehmen. Bezieht man

gleichzeitig die von Schmitt und Maes (2000) zumindest in einer großen Stichprobe

klinischer und nicht-klinischer Probanden nachgewiesene Messäquivalenz von BDI und

BDI-V ein und setzt voraus, dass sich die in Hypothese III.b postulierte Parallelität von

BDI-II und BDI-II-V bestätigt, so könnte man vorläufig postulieren, dass sich alle vier

Inventare als parallele Indikatoren eines latenten Konstrukts „Depressivität“ erweisen.

Die Korrelationen zwischen den Summenwerten der vier Inventare ließen sich dann

vollständig durch eine zugrunde liegende latente Dimension „Depressivität“ erklären

und alle vier Inventare wären gleich gut diskriminierende, gleich reliable Indikatoren

der Depressionsschwere.

Hypothesen V.a.1 bis V.a.5: Zur Konvergenz von BDI, BDI-V, BDI-II und BDI-II-V auf

deskriptiver Ebene

Hypothese V.a.1: Zur Korrelation auf Ebene der Summenwerte

Es wird erwartet, dass die Summenwerte aller vier Varianten des Inventars hoch unter-

einander korrelieren. Keiner der sechs Koeffizienten wird einen Wert von ϱ = .8 unter-

schreiten:

Fragestellungen und Hypothesen 76

ϱ (BDI, BDI-II) ≥ .8

ϱ (BDI-V, BDI-II-V) ≥ .8

ϱ (BDI, BDI-V) ≥ .8

ϱ (BDI-II, BDI-II-V) ≥ .8 (Wiederholung der Hypothese III.a.1)

ϱ (BDI, BDI-II-V) ≥ .8

ϱ (BDI-II, BDI-V) ≥ .8

Hypothese V.a.2: Zum Vergleich der Summenwerte

Die mittleren Summenwerte von BDI und BDI-V sollen sich nicht signifikant unter-

scheiden, ebenso nicht die Summenwerte von BDI-II und BDI-II-V (s.o., Hypothese

III.a.2). Entsprechend den Befunden für die amerikanischen Originalausgaben (Dozois

et al., 1998) wird erwartet, dass der Summenwert des BDI-II im Durchschnitt etwas

höher ausfällt als jener des BDI:

μ (BDI-II) > μ (BDI)

μ (BDI-V) = μ (BDI)

μ (BDI-II-V) = μ (BDI-II) (Wiederholung der Hypothese III.a.2)

Hypothese V.a.3: Zum Vergleich der internen Konsistenzen

Die internen Konsistenzen von BDI und BDI-II sollen einander ähnlich sein. Die interne

Konsistenz des BDI-V soll jene des BDI nicht unterschreiten. Die interne Konsistenz

des BDI-II-V soll jene des BDI-II nicht unterschreiten (s.o., Hypothese III.a.3):

α (BDI-II) ≈ α (BDI)

α (BDI-V) ≥ α (BDI)

α (BDI-II-V) ≥ α (BDI-II) (Wiederholung der Hypothese III.a.3)

Hypothese V.a.4: Zum Vergleich der Trennschärfen

Nach den berichteten Ergebnissen (Hautzinger et al., 1995; Hautzinger et al., 2006;

Richter, 1991) scheinen die Itemtrennschärfen des BDI unter denen des BDI-II zu lie-

gen. Für den Vergleich der Itemtrennschärfen zwischen den Original-BDIs und ihrer

jeweiligen verkürzten Version wird angenommen, dass die mittleren Trennschärfen für

Fragestellungen und Hypothesen 77

die verkürzten Versionen etwas höher sind als jene der Original-Versionen (vgl. Schmitt

et al., 2003):

M (rit (BDI-II)) > M (rit (BDI))

M (rit (BDI-V)) > M (rit (BDI))

M (rit (BDI-II-V)) > M (rit (BDI-II))

Hypothese V.a.5: Zum Vergleich der Zusammenhänge mit anderen Variablen

Die Zusammenhänge aller vier Inventare mit den Persönlichkeitsvariablen Neurotizis-

mus (N), Extraversion (E), Offenheit für Erfahrung (O), Verträglichkeit (V) und Gewis-

senhaftigkeit (G) werden ähnlich ausfallen (vgl. Hypothese III.a.5):

ϱ (BDI, N) ≈ ϱ (BDI-II, N) ≈ ϱ (BDI-II-V, N) ≈ ϱ (BDI-V, N)

ϱ (BDI, E) ≈ ϱ (BDI-II, E) ≈ ϱ (BDI-II-V, E) ≈ ϱ (BDI-V, E)

ϱ (BDI, O) ≈ ϱ (BDI-II, O) ≈ ϱ (BDI-II-V, O) ≈ ϱ (BDI-V, O)

ϱ (BDI, V) ≈ ϱ (BDI-II, V) ≈ ϱ (BDI-II-V, V) ≈ ϱ (BDI-V, V)

ϱ (BDI, G) ≈ ϱ (BDI-II, G) ≈ ϱ (BDI-II-V, G) ≈ ϱ (BDI-V, G)

Hypothese V.b: Zur inferenzstatistischen Überprüfung der Messäquivalenz von BDI,

BDI-V, BDI-II und BDI-II-V

Alle vier Varianten des Beck Depressionsinventars erweisen sich als gleich gut diskri-

minierende, gleich reliable Indikatoren der Depressivität und das Konstrukt der Depres-

sivität erklärt vollständig die Zusammenhänge zwischen den vier Indikatoren.

Methode 78

4 Methode

Das Methodenkapitel geht zunächst auf die eingesetzten Instrumente ein und beschreibt

im Anschluss die Durchführung der Untersuchung. Darauf folgt die Darstellung der in

konfirmatorischen Faktorenanalysen getesteten Modelle. Die verwendete Auswertungs-

software findet sodann Erwähnung. Danach wird auf den in den konfirmatorischen Fak-

torenanalysen gewählten Schätzalgorithmus eingegangen. Der darauf folgende Ab-

schnitt beschreibt, wie die Güte der Modelle konfirmatorischer Faktorenanalysen beur-

teilt wird. Das Methodenkapitel schließt mit der Darstellung der Aufbereitung der Roh-

daten für die Analysen.

4.1 Instrumente

In diesem Abschnitt wird auf die eingesetzten Instrumente eingegangen, wobei nur das

NEO-Fünf-Faktoren-Inventar (NEO FFI; Borkenau & Ostendorf, 2008) ausführlich

dargestellt wird, während für das Beck Depressionsinventar ein Großteil der Beschrei-

bung bereits im Theorieteil erfolgte, so dass hier neben einem kurzen Überblick über

die verwendeten Versionen des Inventars und ihren Bezug zueinander nur noch eine

Besonderheit bezüglich der Instruktionen Erwähnung findet. Alle Instrumente befinden

sich in Anhang B.2.

4.1.1 Das Beck Depressionsinventar (BDI)

Diese Arbeit unterbreitet einen Vorschlag zur Vereinfachung der zweiten Auflage des

deutschen Beck Depressionsinventars (BDI‑II; Hautzinger et al., 2006), der dem etab-

lierten Inventar als Ergänzung für bestimmte Verwendungszusammenhänge zur Seite

gestellt werden könnte. Diese neue Version (BDI-II-V) wurde in zwei Ausführen ent-

worfen (BDI-II-V.1 und BDI-II-V.2), die sich in zwei Items unterscheiden. Beide sollen

auf ihre Messeigenschaften untersucht und hinsichtlich dieser mit dem Original vergli-

chen werden. Neben dem BDI-II und dem BDI-II-V (in den Ausführungen 1 und 2)

kommen die erste Auflage des BDI (Hautzinger et al., 1995) und das BDI-V (Schmitt &

Maes, 2000), eine vereinfachte Variante des BDI, zum Einsatz.

Alle drei existierenden Inventare und die Gestaltung des neuen Vorschlags wurden be-

reits in Abschnitt 2.3 ausführlich vorgestellt, so dass hier auf weitere Beschreibungen zu

den Instrumenten selbst verzichtet wird.

Methode 79

Jeder Teilnehmer füllte vier verschiedene Versionen des BDIs aus (siehe dazu ausführ-

licher Abschnitt 4.2). Um keine irrelevanten Unterschiede zwischen den Antworten ei-

ner Person auf die Items verschiedener BDI-Versionen zu provozieren, welche sich ver-

fälschend auf die Bestimmung der Messäquivalenz ausgewirkt hätten, wurden die In-

struktionen für alle vier BDI-Versionen einheitlich gestaltet, was insbesondere für das

BDI ein Abrücken von den Original-Instruktionen bedeutete.

Dies betraf zum einen den zeitlichen Bezugsrahmen, den die Probanden bei ihrer Be-

antwortung zu Grunde legen sollen. Dieser variiert in den Originalinstruktionen zwi-

schen den Fragebögen (während das BDI darum bittet, die Angaben auf die letzte Wo-

che, einschließlich des heutigen Tages, zu beziehen, fragt das BDI-V ohne weitere zeit-

liche Eingrenzung nach dem gegenwärtigen Lebensgefühl, das BDI-II gibt schließlich

einen Zeitraum von zwei Wochen einschließlich des heutigen Tages vor).

Die Auswirkungen des zeitlichen Bezugsrahmens auf die Antworten der Probanden sind

eine gesonderte Fragestellung, die für das BDI-V kürzlich untersucht wurde (Fabian-

Krause, 2011; Heckmann, 2008). Im Vergleich zweier Gruppen, die das BDI-V im Ab-

stand von 14 Tagen zwei Mal beantworteten, wobei eine Gruppe ihre Angaben jeweils

auf die letzten zwei Wochen, die andere jeweils auf die letzten drei Monate bezog, fand

Heckmann (2008), dass Effekte zeitlicher Instruktionen zwar feststellbar waren, aber

gering ausfielen. Die Traitkonsistenz war in der drei-Monats-Gruppe nur geringfügig

höher als in der zwei-Wochen-Gruppe und insgesamt in beiden Gruppen sehr hoch. Die

Situationsspezifität lag in der zwei-Wochen-Gruppe nur geringfügig unter der der drei-

Monats-Gruppe und war in beiden Gruppen insgesamt gering.

Dennoch war davon auszugehen, dass bei der Verwendung unterschiedlicher zeitlicher

Instruktionen für sehr ähnliche Fragebögen innerhalb einer Befragung, die Probanden

auf diesen Unterschied aufmerksam werden. Es hätte nicht ausgeschlossen werden kön-

nen, dass Teilnehmer dabei implizit die Theorie entwickeln, dass sich die Antworten in

Abhängigkeit vom abgefragten Zeitraum zwischen den Fragebögen unterscheiden sol-

len. In der Folge hätten sie sich möglicherweise darum bemüht, bewusst Unterschiede

zu berichten. So entstandene Unterschiede hätten zu einer Unterschätzung der wahren

Messäquivalenz geführt und sollten deshalb durch Konstanthalten des zeitlichen Be-

zugsrahmens ausgeschlossen werden. Die hier verwendeten Instruktionen orientierten

Methode 80

sich deshalb für alle BDI-Varianten an der Vorgabe des Zweiwochenzeitraumes der In-

struktionen des BDI-II.

Zum anderen wurde – ebenfalls entsprechend den Instruktionen des BDI-II – für alle

Fragebögen vorgegeben, dass pro Item nur ein Kreuz gesetzt werden darf. Die Origi-

nalinstruktionen des BDI hätten dagegen explizit die Auswahl mehrerer Aussagen pro

Item zugelassen. Die Abwandlung der Instruktion des BDI wirkt sich dabei nicht auf die

Auswertung aus, die im BDI wie im BDI-II lediglich die Verrechnung einer Ziffer (und

zwar der höchstangekreuzten) pro Item erlaubt, unabhängig davon, wie viele Aussagen

(und damit Ziffern) pro Item angekreuzt wurden.

Der genaue Wortlaut der Instruktionen für jede der BDI-Varianten kann jeweils dem

entsprechenden Fragebogen in Anhang B.2.1 bis B.2.5 entnommen werden.

4.1.2 Das NEO-Fünf-Faktoren-Inventar (NEO-FFI)

Das NEO-Fünf-Faktoren-Inventar (NEO FFI; zweite Auflage, Costa & McCrae, 1992;

verwendet in der deutschen Version von Borkenau & Ostendorf, 2008)12

ist ein Selbst-

beurteilungsinstrument zur Erfassung der fünf Merkmalsbereiche Neurotizismus, Extra-

version, Offenheit für Erfahrung, Verträglichkeit und Gewissenhaftigkeit. Der Fragebo-

gen umfasst 60 Items, so dass auf jede Persönlichkeitsdimension 12 Fragen entfallen.

Jede dieser Aussagen wird auf einer fünfstufigen Ratingskala beurteilt, die mit den Ka-

tegorien „Starke Ablehnung“, „Ablehnung“ „Neutral“, „Zustimmung“ und „Starke Zu-

stimmung“ überschrieben sind. Der vollständige Fragebogen befindet sich in Anhang

B.2.6.

Borkenau & Ostendorf (2008) beschreiben die einzelnen Skalen (in Anlehnung an Costa

& McCrae, 1992) wie folgt:

Hohe Werte auf der Skala Neurotizismus weisen emotional labile Personen auf, die

häufig nervös, ängstlich, traurig, unsicher, beschämt oder verlegen sind und sich oft

Sorgen machen. Sie neigen auch zu unrealistischen Ideen, können ihre Bedürfnisse

schlecht kontrollieren und haben Schwierigkeiten, mit Stresssituationen angemessen

12

Die Daten, die in dieser Arbeit mit der zweiten Auflage des NEO-FFI erhoben wurden, sind vollständig

vergleichbar mit Daten, die mit der ersten Auflage des NEO-FFI (deutsche Ausgabe von Borkenau und

Ostendorf, 1993) erhoben wurden, wie sie Studien verwendeten, die im Theorieteil dieser Arbeit zitiert

werden, da Auswahl oder Formulierung der Items zwischen der ersten und zweiten Auflage des NEO-FFI

nicht verändert wurden

Methode 81

umzugehen. Niedrige Werte kennzeichnen Personen, die emotional stabil und see-

lisch ausgeglichen sind, sich wenig oder selten Sorgen machen, und sich durch

Stress und Anforderungen nicht leicht aus der Ruhe bringen lassen.

Hohe Werte auf der Skala Extraversion sind typisch für Personen, die gesellig,

selbstsicher, aktiv, gesprächig, personenorientiert, herzlich, optimistisch und heiter

sind und gerne anregenden oder aufregenden Aktivitäten nachgehen. Introvertierte

Personen sind eher zurückhaltend, zurückgezogen, sie sind gerne für sich und eher

von unabhängigem Naturell.

Hohe Werte auf der Skala Offenheit für Erfahrung sind kennzeichnend für wissbe-

gierige, vielseitig interessierte, kreative, phantasievolle, in ihrem Urteil unabhängige

und häufig unkonventionelle Menschen, die neue Erfahrungen hoch schätzen und

Abwechslung lieben. Sie setzen sich mit sich selbst auseinander, nehmen ihre Ge-

fühle bewusst wahr und sind zu kritischer Auseinandersetzung mit bewährten Nor-

men, Regeln und Systemen bereit. Personen mit niedrigen Werten auf dieser Skala

sind eher konservativ eingestellt, Neuem gegenüber kritisch und emotional zurück-

haltender.

Hohe Werte auf der Skala Verträglichkeit erzielen Personen, die altruistisch, empa-

thisch, verständnisvoll, wohlwollend, kooperativ, nachgiebig und harmoniebedürftig

sind und ihren Mitmenschen Vertrauen entgegenbringen. Wenngleich Personen mit

niedrigeren Werten zu antagonistischen und egozentrischen Zügen neigen, so sollte

bedacht werden, dass ein gewisses Ausmaß an Misstrauen und Wettbewerbsorien-

tierung auch eine notwendige und gesunde Eigenschaft in Bezug auf (berufliches)

Vorankommen, Erfolg und Verteidigung der eigenen Person gegen Angriffe von

außen darstellt.

Hohe Werte auf der Skala Gewissenhaftigkeit zeichnen Personen aus, die sich als

ordentlich, zuverlässig, diszipliniert, pünktlich, penibel und ehrgeizig beschreiben,

ihrer Selbstbeschreibung nach hart arbeiten und ein systematisches Vorgehen bevor-

zugen. Die Skala korreliert positiv mit akademischen und beruflichen Leistungen,

andererseits können sehr hohe Werte auch mit ungünstig hohen, perfektionistischen

Ansprüchen, zwanghaften Zügen oder „Arbeitssucht“ einhergehen.

Das Inventar erhebt damit die Big Five, also jene fünf Merkmale, welche sich in einer

Vielzahl bedeutsamer Untersuchungen als stabile Dimensionen zur Beschreibung von

Personen und Unterschieden zwischen ihnen erwiesen hatten und daher zum

Methode 82

Fünf-Faktoren-Modell der Persönlichkeit zusammengefasst wurden (Übersicht über den

historischen Entstehungsprozess z. B. bei Borkenau und Ostendorf, 2008).

Für die Zwecke dieser Arbeit, in der es um die Prüfung von Zusammenhängen zwischen

Depressivität und den Persönlichkeitsvariablen der Big Five, geht, ist das Instrument

bestens geeignet, da es die Merkmalsbereiche „zugleich umfassend und sparsam“

(Borkenau & Ostendorf, 2008, S. 25) erfasst, so dass hinreichende Genauigkeit mit ei-

ner vertretbaren zeitlichen und kognitiven Belastung der Probanden verbunden werden

konnte. Der zeitliche Umfang der Bearbeitung musste insofern bei der Auswahl der

Instrumente streng berücksichtigt werden, als die Motivation zur freiwilligen Teilnahme

von möglichst vielen Personen Grundvoraussetzung für die Arbeit war. Somit kam zum

Beispiel das zwar in der Erfassung der Persönlichkeitsdimensionen umfassendere, je-

doch damit auch wesentlich umfangreichere NEO-PI-R (Ostendorf & Angleitner, 2004)

nicht in Betracht.

Für das NEO-FFI berichten Borkenau und Ostendorf (2008) gute Reliabilitäts- und

Homogenitätskennwerte. Die interne Konsistenz (Cronbachs α) der Skalen liegt im

Durchschnitt bei .80, genauer für die Skala Neurotizismus bei .87, für die Skala Extra-

version bei .81, für die Skala Offenheit für Erfahrung bei .75, für die Skala Verträglich-

keit bei .72 und für die Skala Gewissenhaftigkeit bei .84. Über die Messwiederho-

lungsmethode ergaben sich für die Skalenwerte Reliabilitätskoeffizienten von .65 bis

.81 (zwei-Jahres-Intervall) respektive .71 bis .82 (fünf-Jahres-Intervall), was in dem

Sinne interpretiert werden kann, dass das NEO-FFI stabile Persönlichkeitseigenschaften

misst (Borkenau & Ostendorf, 2008). Die Autoren berichten jeweils über die Items ei-

ner Skala gemittelte korrigierte Trennschärfen von rit = .55 (Skala Neurotizismus),

rit = .46 (Skala Extraversion), rit = .39 (Skala Offenheit für Erfahrung), rit = .35 (Skala

Verträglichkeit), rit = .51 (Skala Gewissenhaftigkeit); der Gesamtdurchschnitt der

Trennschärfen aller 60 Items wird mit rit = .46. angegeben.

Die Autoren belegen eine den Erwartungen entsprechende, zufriedenstellende faktoriel-

le Validität und berichten verschiedenartige Analysen, die die Konstruktvalidität des

Verfahrens nachweisen.

Methode 83

4.2 Durchführung der Erhebung

Jeder Proband erhielt vier Versionen des Beck Depressionsinventars, und zwar das BDI,

das BDI-V, das BDI-II und entweder das BDI-II-V.1 oder das BDI-II-V.2 sowie einen

NEO-FFI. Entsprechend den Angaben der Autoren in den Manualia wurde die voraus-

sichtliche Bearbeitungsdauer mit 25 – 30 Minuten veranschlagt. Allerdings ist davon

auszugehen, dass Probanden, die bislang wenig Erfahrung im Ausfüllen von Fragebö-

gen gesammelt hatten, mehr Zeit benötigten.

Die Fragebögen waren in einer bestimmten Reihenfolge geheftet, wobei die Probanden

in den Instruktionen gebeten wurden, die vorgegebene Reihenfolge der Bögen beim

Ausfüllen zu berücksichtigen. Zu Beginn befanden sich immer die BDI-Versionen, de-

ren Reihenfolge wie folgt variiert wurde, um mögliche Reihenfolgeeffekte auszubalan-

cieren:

Jede Version (BDI, BDI-V, BDI-II, BDI-II-V) sollte gleich häufig jede der vier

möglichen Positionen innehaben

Eine bestimmte Version sollte nicht immer von derselben anderen Version gefolgt

werden (auf das BDI sollte also zum Beispiel nicht immer das BDI-V folgen)

Die Variationsmöglichkeiten wurden jedoch dadurch eingeschränkt, dass nicht zwei

Fragebögen des gleichen Formats aufeinander folgen durften (also nicht BDI-II-V

auf BDI-V oder umgekehrt und nicht BDI auf BDI-II oder umgekehrt), um Ermü-

dung oder Irritationen beim Ausfüllen so gering wie möglich zu halten.

Somit wurden die in Tabelle 5 aufgelisteten acht möglichen BDI-Reihenfolgen (Rotati-

onen) realisiert.

In Kombination mit der Variation der Ausführung des BDI-II-V (1 oder 2) ergaben sich

so 16 verschiedenen Fragebogenoptionen für den ersten Abschnitt mit den BDIs. Der

NEO-FFI folgte grundsätzlich auf das letzte BDI. Den Abschluss bildete eine Seite mit

Fragen zu den soziodemographischen Variablen Alter, Geschlecht, Schulabschluss, be-

rufsqualifizierender Abschluss, aktuelle Berufstätigkeit, Familienstand und aktuelle Partner-

schaft (siehe Anhang B.3).

Methode 84

Tabelle 5 Mögliche Reihenfolgen (Rotationen)

der BDI-Versionen in den Untersu-

chungsmaterialien

Reihenfolge 1 I.O – I.V – II.O – II.V

Reihenfolge 2 I.V – II.O – II.V – I.O

Reihenfolge 3 II.O – II.V – I.O – I.V

Reihenfolge 4 II.V – I.O – I.V – II.O

Reihenfolge 5 II.O – I.V – I.O – II.V

Reihenfolge 6 I.V – I.O – II.V – II.O

Reihenfolge 7 I.O – II.V – II.O – I.V

Reihenfolge 8 II.V – II.O – I.V – I.O

Anmerkungen. I = BDI. II = BDI-II. O = Original.

V = Verkürzung

Dem Fragebogen waren ausführliche Instruktionen, ein adressierter und mit dem Fran-

kierungsvermerk „Entgelt bezahlt Empfänger“ versehener Rückumschlag zum Zurück-

senden des ausgefüllten Fragebogens direkt an die Universität Landau sowie eine eben-

falls adressierte und vorfrankierte Gewinnspielpostkarte beigelegt. Die Postkarte ermög-

lichte die Teilnahme an einer Verlosung (s.u.) sowie die Mitteilung, ob nach Abschluss

der Studie Informationen über die Ergebnisse gewünscht würden. Da die Postkarte not-

wendigerweise Angaben zur Person wie insbesondere Name und Adresse enthalten

musste, wurden die Teilnehmer darum gebeten, die Karte nicht in den Umschlag mit

dem Fragebogen zu stecken, sondern sie getrennt zu versenden. Den Teilnehmern wur-

de mitgeteilt, dass keinerlei Verpflichtung zur Versendung einer Gewinnspielkarte be-

stünde und eine Teilnahme an der Studie auch ohne das Versenden der Gewinnspielkar-

te möglich sei. Eine Zuordnung von eingegangenen Umschlägen beziehungsweise Fra-

gebögen zu eingegangenen Postkarten war selbstverständlich nicht möglich13

.

Die Instruktionen, die unter anderem die notwendigen Informationen zum Rahmen der

Studie, die Zusicherung von Anonymität, die Beschreibung des Vorgehens und genaue

Hinweise zum Ausfüllen der Fragbögen enthielten, bereiteten auch auf die Ähnlichkeit

13

Theoretisch wäre damit natürlich auch die Versendung einer Gewinnspielpostkarte ohne die Teilnahme

an der Studie möglich gewesen. Da jede Möglichkeit der Überprüfung, ob zu einer eingesandten Postkar-

te auch ein Fragebogen vorlag, jedoch die Anonymität der Teilnehmer aufgehoben hätte, verbot sich eine

solche Option, so dass die Möglichkeit des Missbrauchs in Kauf genommen werden musste.

Methode 85

der Fragebögen im ersten Abschnitt vor und baten die Teilnehmer, sich dadurch nicht

irritieren zu lassen. Zudem wurden die Teilnehmer explizit darauf hingewiesen, dass

aufgrund der anonymen Teilnahme keine Rückmeldung individueller Ergebnisse erfol-

gen konnte. Es wurde entschieden, zu Zweck und Inhalt der Studie vorab so wenig An-

gaben wie möglich zu machen, so dass die Probanden aus den Instruktionen lediglich

erfuhren, dass die Diplomarbeit sich mit „diagnostischen Verfahren in der Psychologie“

beschäftige. Über das Ankreuzen der entsprechenden Option auf der Gewinnspielpost-

karte bestand jedoch für alle Teilnehmer die Möglichkeit, nach Abschluss der Untersu-

chung genauer informiert zu werden. Die Instruktionen finden sich in Anhang B.1,

Postkarte und Umschlag in Anhang B.4.

Die zusammengesteckten und in eine Sichthülle gelegten Unterlagen, bestehend aus den

Instruktionen, dem gehefteten Fragebogenpaket, der Gewinnspielpostkarte und dem

Rücksendeumschlag, wurden jedem Interessenten entweder persönlich übergeben oder

postalisch zugesandt.

Die Rekrutierung der Teilnehmer erfolgte im Bekanntenkreis der Autorin nach dem

Schneeballsystem, das bedeutet, entweder die Autorin selbst trat an mögliche Teilneh-

mer heran oder Bekannte der Autorin trugen das Anliegen weiter in ihren Bekannten-

kreis. Somit wurde eine Gelegenheitsstichprobe realisiert.

Die Teilnahme an der Studie wurde durch die Möglichkeit, an einer Verlosung teilzu-

nehmen, attraktiv gemacht. Verlost wurden 5 Gutscheine à 50 Euro (ja nach Wahl vom

Elektromarkt Media Markt, der Buchhandlung Thalia, der Tankstellenkette Shell oder

dem Warenhaus Galeria Kaufhof). Auf der oben bereits beschriebenen Gewinnspiel-

postkarte konnte ausgewählt werden, welcher Gutschein im Gewinnfalle gewünscht

würde. Neben dem Motiv, die Autorin der Arbeit oder die Wissenschaft im Allgemei-

nen unterstützen zu wollen, dürfte die Gewinnmöglichkeit eine entscheidende Motivati-

on zur Teilnahme dargestellt haben.

4.3 Modelle

Dieser Abschnitt soll die theoretische Beschreibung der Modelle der klassischen Test-

theorie (Abschnitt 2.4.2) einschließlich ihrer Überprüfung (Abschnitt 2.4.4) und die

Hypothesen zur Messäquivalenz verschiedener Versionen des Beck Depressionsinven-

tars (Kapitel 3) zusammenführen in einer Veranschaulichung der mittels konfirmatori-

Methode 86

scher Faktorenanalysen konkret getesteten Modelle. Da sich die postulierten Strukturen

nicht zufriedenstellend nachweisen ließen, werden zusätzlich alternative Modelle aufge-

stellt, die exploratorisch überprüft werden.

Die Zuweisung der Metrik latenter Variablen erfolgt grundsätzlich durch Fixierung der

Varianz der latenten Variable auf 1.0.

4.3.1 Modelle zur Überprüfung der Messäquivalenz von BDI-II und

BDI-II-V (Hypothese III.b)

Es wird zunächst das hypothetisierte Modell essentiell τ-paralleler Variablen des BDI-II

und BDI-II-V vorgestellt. Im Anschluss daran wird ein alternatives Modell beschrieben,

das eine perfekte latente Korrelation zwischen Faktoren des BDI-II und des BDI-II-V

postuliert. Dieses Modell wurde exploratorisch überprüft, da das erwartete Modell kei-

nen zufriedenstellenden Fit erzielte.

4.3.1.1 Modell essentiell τ-paralleler Variablen

BDI-II (Y1) und BDI-II-V (Y2) sollen Indikatoren der latenten Variablen η1 sein, welche

die Bezeichnung Depressivität erhält. Zwischen den Residualvariablen ε1 und ε2 wird

keine Korrelation spezifiziert (Minimalmodell τ-kongenerischer Variablen). Die La-

dungsparameter λ11 und λ21 sollen gleich hoch sein und werden daher mit Equality

Constraints (etwa „Gleichheitsrestriktionen“) belegt (Modell essentiell τ-äquivalenter

Variablen). Ebenso sollen die Residualvariablen ε1 und ε2 identisch sein und werden

daher gleich gesetzt (hypothetisiertes Modell essentiell τ-paralleler Variablen). Abbil-

dung 2 zeigt das Modell.

Methode 87

Abbildung 2 Modell essentiell τ-paralleler

Variablen des BDI-II und

BDI-II-V

4.3.1.2 Alternatives Modell: Modell mit perfekter latenter Korrelation

Wie im Ergebnisteil darzulegen sein wird, fiel die Überprüfung des Modells nicht zur

vollsten Zufriedenheit aus, so dass exploratorisch eine alternative Modellspezifikation

getestet wurde.

Der logisch nächste Schritt wäre die Testung der nächst niedrigeren Stufe der Mess-

äquivalenz gewesen. Dies hätte bedeutet, zu überprüfen, ob BDI-II und BDI-II-V als

essentiell τ-äquivalente Variablen gelten können, Depressivität also mit gleicher Dis-

krimination erfassen, ohne gleich reliabel zu sein. Das dazu notwendige Entfernen der

Gleichheitsrestriktion der Fehlervariablen hätte bei fortgesetzter Verwendung der bei-

den Summenwerte als manifeste Indikatoren jedoch zu einem Modell mit null Freiheits-

graden geführt, das nicht testbar gewesen wäre. Eine Möglichkeit, die Freiheitsgrade zu

erhöhen, ist die Vergrößerung der Anzahl bekannter Informationen durch das Hinzufü-

gen manifester Indikatoren. Hierzu bot es sich an, statt der zwei Gesamtsummenwerte

von BDI-II und BDI-II-V Itemparcels („Itempäckchen“) zu verwenden, also nicht alle

Items eines Inventars zu einem Wert aufzusummieren, sondern nur jeweils eine be-

stimmte Menge an Items eines Inventars zu einem Summenwert, einem Parcel, zusam-

menzufassen.

BDI-II

y1

BDI-II-V

y2

λ11 λ21=

ε1 ε2=

Depressivität

η1

Methode 88

Das Bilden von Itemparcels ist eine übliche, jedoch auch kontrovers diskutierte, Metho-

de zur Erstellung von Indikatoren für konfirmatorische Faktorenanalysen zur Überprü-

fung von Messinvarianz (Meade & Kroustalis, 2006). Im vorliegenden Fall war es die

einzige Option, weitere Überprüfungen der Messäquivalenz der beiden Inventare vor-

zunehmen. Die Verwendung einzelner Items schied aus, da sie die Voraussetzung met-

rischer Indikatoren, die für die eingesetzte Variante konfirmatorischen Faktorenanaly-

sen gilt (Eid et al., 2010), nicht erfüllt hätten; dies kann dagegen für Summenwerte an-

genommen werden.

Jedes BDI wurde in zwei Parcels aufgeteilt (zum Vorgehen bei der Erstellung der

Parcels siehe Abschnitt 4.7.5), so dass nun vier manifeste Variablen in die Analysen

eingehen konnten. Abbildung 3 veranschaulicht das getestete Modell. BDI-II und

BDI-II-V werden zu latenten Variablen (η1 und η2), deren Indikatoren jeweils ihre zwei

Itemparcels konstituieren. Ein Modell essentiell τ-äquivalenter Variablen in seiner ur-

sprünglichen Konzeption kann so jedoch nicht mehr getestet werden, da die Restriktion

identischer Ladungsparameter der verschiedenen Itemparcels inhaltlich keinen Sinn

ergibt. Stattdessen wird angenommen, dass die latente (messfehlerbereinigte) Korrelati-

on zwischen dem BDI-II und dem BDI-II-V perfekt ist, was so interpretiert werden darf,

dass die beiden Inventare identisch sind (vgl. Schmitt et al., 2003). Das Modell weist

damit insofern Elemente eines Modells essentiell τ-äquivalenter Variablen auf, als es

dessen Postulat der perfekten Korrelation der True-Score-Variablen umsetzt. Während

sich die manifesten Indikatoren (die Itemparcels) aus dem True-Score-Anteil und einem

zufälligen Fehleranteil zusammensetzen, repräsentieren die latenten Variablen den

True-Score der Konstrukte, in diesem Falle des BDI-II und des BDI-II-V. Die Korrela-

tion der wahren Werte (der Parameter ψ12) wird auf den Wert 1 restringiert.

Methode 89

Abbildung 3 Modell mit perfekter latenter Korrelation zwischen BDI-II und BDI-II-V

4.3.2 Vergleich der Messäquivalenz von BDI-II-V.1 und BDI-II mit der

Messäquivalenz von BDI-II-V.2 und BDI-II (Hypothese IV.b)

Um zu überprüfen, ob die Entsprechung zwischen BDI-II und BDI-II-V.1 oder zwi-

schen BDI-II und BDI-II-V.2 enger ist, wird die Analyse der Modelle, die in Kapitel

4.3.1 für die Gesamtstichprobe (BDI-II und BDI-II-V) beschrieben wurden, getrennt

wiederholt in der Substichprobe, in der das BDI-II-V.1 ausgefüllt wurde, und in der

Substichprobe, in der das BDI-II-V.2 Anwendung fand. Es soll dadurch eine Einschät-

zung ermöglicht werden, ob ein Modell jeweils in einer der Teilstichproben einen besse-

ren Fit aufweist. Zur Veranschaulichung können erneut die Abbildungen 2 respektive 3

dienen. In Abbildung 2 steht die manifeste Variable Y2 nun für das BDI-II-V.1 bezie-

hungsweise das BDI-II-V.2; in Abbildung 3 muss die latente Variable η2 nun mit

BDI-II-V.1 beziehungsweise BDI-II-V.2 bezeichnet werden; entsprechend muss man

sich die Variablen Y3 und Y4 als Parcels des BDI-II-V.1 beziehungsweise BDI-II-V.2

vorstellen.

λ11 λ21

ε1 ε2

BDI-II

η1

λ32 λ42

ε3 ε4

BDI-II-V

η2

BDI-II-V: Parcel 2

y4

BDI-II-V: Parcel 1

y3

BDI-II: Parcel 2

y2

BDI-II: Parcel 1

y1

Ψ12 = 1

Methode 90

4.3.3 Modelle zur Überprüfung der Messäquivalenz von BDI, BDI-V,

BDI-II und BDI-II-V (Hypothese V.b)

Zuerst soll das in den Hypothesen postulierte Modell veranschaulicht werden, das BDI,

BDI-V, BDI-II und BDI-II-V als essentiell τ-parallele Variablen konzipiert. Da dieses in

den Analysen nicht bestätigt werden konnte, wie im Ergebnisteil berichtet wird, wurden

Alternativen exploriert, die im Anschluss beschrieben werden. Dabei handelt es sich

zum einen um ein Modell mit perfekten latenten Korrelationen zwischen Faktoren, wel-

che die BDIs repräsentieren, zum anderen um ein Modell mit Methodenfaktor.

4.3.3.1 Modell essentiell τ-paralleler Variablen

Analog dem Vorgehen für das Modell von BDI-II und BDI-II-V (Abschnitt 4.3.1.1),

wird ein Modell spezifiziert, das BDI, BDI-V, BDI-II und BDI-II-V als essentiell τ-

parallele Indikatoren einer latenten Variable Depressivität modelliert (siehe Abbildung

4).

Abbildung 4 Modell essentiell τ-paralleler Variablen des BDI, BDI-V, BDI-II und

BDI-II-V

Die Korrelationen zwischen BDI, BDI-V, BDI-II und BDI-II-V (Y1bis Y4) sollen voll-

ständig durch diese latente Variable (η1) erklärt werden. Die Ladungskoeffizienten λ11

bis λ41 werden mit Equality Constraints belegt, ebenso die Residualvariablen ε1 bis ε4.

BDI-V

y2

BDI-II

y3

λ21 λ31=

ε2 ε3=

Depressivität

η1

BDI

y1

ε1

BDI-II-V

y4

ε4

λ11 λ41

= =

= =

Methode 91

4.3.3.2 Alternatives Modell 1: Modell mit perfekten latenten Korrelatio-

nen

Wie sich im Verlauf der Analysen herausstellte, gelang es weder, einen durchgängig

akzeptablen Fit für das spezifizierte Modell essentiell τ-paralleler Variablen zu erzielen,

noch für Modellstufen darunter (exploratorische Überprüfung eines Modells essentiell

τ-äquivalenter Variablen und eines Modells τ-kongenerischer Variablen).

Es wurde in einem nächsten Schritt überprüft, welchen Fit ein Modell erzielen konnte,

das perfekte latente Korrelationen zwischen den vier Inventaren annimmt (vgl. das al-

ternative Modell zur Messäquivalenzuntersuchung von BDI-II und BDI-II, Abschnitt

4.3.1.2). Abbildung 5 veranschaulicht dieses Modell.

Abbildung 5 Modell mit perfekter latenter Korrelation zwischen BDI, BDI-V, BDI-II und BDI-II-V

Jedes BDI ist als latente Variable (η1 bis η4) modelliert, welche durch zwei Itemparcels

gemessen wird. Die Korrelationen zwischen diesen latenten Variablen (ψ12 bis ψ34) sind

auf 1 festgesetzt. Mittels dieser Modellspezifikation können zudem bei Lockerung der

Restriktion perfekter Faktorinterkorrelationen die messfehlerbereinigten Zusammen-

hänge zwischen den BDI-Formen bestimmt werden.

λ11 λ21

ε1 ε2

BDI

η1

λ32 λ42

ε3 ε4

BDI-V

η2

BDI-V:

Parcel 2

y4

BDI-V:

Parcel 1

y3

BDI:

Parcel 2

y2

BDI:

Parcel 1

y1

ψ12 = 1

λ53 λ63

ε5 ε6

BDI-II

η3

λ74 λ84

ε7 ε8

BDI-II-V

η4

BDI-II-V:

Parcel 2

y8

BDI-II-V:

Parcel 1

y7

BDI-II:

Parcel 2

y6

BDI-II:

Parcel 1

y5

ψ34 = 1ψ23 = 1

ψ13 = 1 ψ24 = 1

ψ14 = 1

Methode 92

4.3.3.3 Alternatives Modell 2: Modell mit Methodenfaktor

Auch die Modellspezifikationen mit und ohne perfekte latente Korrelationen ließen sich

nicht problemlos fitten. Aus diesem Grund wurde weiter exploriert und ein Modell

überprüft, welches der unterschiedlichen Intensitätsskalierung der Originale und der

Verkürzungen Rechnung trägt, indem es die den verschiedenen Skalierungsmethoden

geschuldeten Unterschiede zwischen den Variablen in einem Methodenfaktor abzubil-

den sucht. Bevor das Modell vorgestellt wird, soll ein kurzer Exkurs das Konzept des

Methodenfaktors und seine Modellierung darstellen.

4.3.3.3.1 Exkurs: Methodenfaktoren und ihre Modellierung

Der Aspekt des Methodenfaktors wurde in einer richtungsweisenden Veröffentlichung

von Campbell und Fiske (1959) in den Fokus der fachlichen Öffentlichkeit gerückt.

Methodeneffekte waren zuvor zwar bereits thematisiert worden (z. B. Cronbach, 1946,

zit. nach Campbell & Fiske, 1959, S. 85), erfuhren aber erst in der Folge des Artikels

von Campbell und Fiske (1959) verstärkt Aufmerksamkeit (Schermelleh-Engel &

Schweizer, 2007). Nach Campbell und Fiske (1959) stellt jede Messung eine Trait-

Methoden-Einheit (trait-method unit) dar:

In any given psychological measuring device, there are certain features or stimu-

li introduced specifically to represent the trait that it is intended to measure. The-

re are other features which are characteristic of the method being employed, fea-

tures which could also be present in efforts to measure other quite different

traits. (S. 84)

Dabei ist das Ausmaß des Einflusses von Methodenfaktoren auf Messungen in der Psy-

chologie Campbell und Fiske (1959) zufolge erheblich und (irrelevante) Methodenef-

fekte können, solange sie nicht erkannt und berücksichtigt werden, die Validität von

Messungen einschränken.

Würden zum Beispiel die Leistungsfähigkeit und die Kreativität von Personen selbst

und von ihren Vorgesetzen beurteilt, so ist anzunehmen, dass die Korrelation der beiden

Merkmale anders ausfällt, je nachdem, innerhalb welcher Beurteilergruppe man den

Zusammenhang berechnet (angelehnt an Schermelleh-Engel & Schweizer, 2007). Wür-

den die Eltern und die Freunde einer Person jeweils auf mehreren Variablen (z. B. Items

Methode 93

oder Fragebogenskalen) die Depressivität dieser Person beurteilen, so ist es wahrschein-

lich, dass die Korrelationen zwischen den Variablen innerhalb der Beurteilergruppen

jeweils zumindest etwas höher ausfällt als dazwischen (angelehnt an Eid et al., 2010).

Methodeneffekte können damit „alternative Erklärungen für beobachtete Zusammen-

hänge zwischen Konstrukten liefern“ (Schermelleh-Engel & Schweizer, 2007, S. 327).

Dabei ist der Begriff „Methodeneffekt“ nicht beschränkt auf verschiedene Beurteiler,

wie in den Beispielen, die eben zur Veranschaulichung gewählt wurden. Es ist ein

„Sammelbegriff für verschiedene systematische Varianzquellen, die sich über den Trait

hinausgehend auf die Validität der Messung auswirken können“ (Schermelleh-Engel &

Schweizer, 2007, S. 327). Als weitere mögliche Ursachen für Methodenvarianz neben

Charakteristika von Beurteilern („Informant“) nennen die Autoren Eigenschaften von

Messinstrumenten („Method“) oder Merkmale der Situation, in der eine Messung statt-

findet (Kontext, „Occasion“).

Campbell und Fiske (1959) brachten die Vorschläge, Validität parallel über Konvergenz

und Distinktion nachzuweisen und gleichzeitig eine Abschätzung der Varianzbeiträge

von Trait und Methode vorzunehmen, zusammen im Konzept der Multitrait-

Multimethod-Matrizen (MTMM-Matrizen). Diese basierten darauf, mehrere (mindes-

tens zwei, besser drei) Traits jeweils mit mehreren (mindestens zwei, besser drei) Me-

thoden zu messen und anhand des Musters der Interkorrelationen zwischen den so ent-

standenen Trait-Methoden-Einheiten Reliabilität, konvergente und diskriminante Vali-

dität sowie Methodeneffekte zu beurteilen (Campbell & Fiske, 1959; Schermelleh-

Engel & Schweizer, 2007). Heute werden die Korrelationen in MTMM-Matrizen in der

Regel mittels Strukturgleichungsanalysen oder konfirmatorischer Faktorenanalysen ana-

lysiert (Eid, Lieschetzke & Nussbeck, 2006; Schermelleh-Engel & Schweizer, 2007).

Zu ihrer Analyse stehen – Theorie und Ziel der eigenen Untersuchung entsprechend –

eine Vielzahl denkbarer Modelle zur Verfügung, welche die angenommene Anzahl an

Trait- und Methodenfaktoren, auf die die Korrelationen der Indikatoren zurückgeführt

werden, variieren und gleichzeitig unterschiedliche Annahmen dazu machen, ob die

Trait- und Methodenfaktoren jeweils untereinander korrelieren oder nicht (siehe z. B.

Eid et al., 2006; Schermelleh-Engel & Schweizer, 2007; Widaman, 1985). Eines der

„klassischen“ Modelle ist das sogenannte Correlated Trait/Correlated Method Modell

(CTCM-Modell), welches für jeden im Modell angenommenen Trait („klassischer-

weise“ drei) und für jede im Modell angenommene Methode („klassischerweise“ eben-

Methode 94

so drei) einen Faktor spezifiziert, wobei die Traitfaktoren und die Methodenfaktoren

jeweils untereinander, aber nicht miteinander, korrelieren. Ein solches Modell ist nicht

frei von (Schätz-)Problemen (siehe z. B. Eid et al., 2006). Dies veranlasste Eid (2000),

ein Modell vorzuschlagen, in dem ein Methodenfaktor weniger spezifiziert wird, als

Methoden verwendet wurden, das sogenannte Correlated Trait/Correlated Method mi-

nus one Modell (CTC(M-1)-Modell), welches die Identifikations- und Interpretations-

schwierigkeiten des CTCM-Modells überwinden kann. Eid (2000) weist nach, dass in

diesem CTC(M-1)-Modell Trait- und Methodenfaktoren nicht korrelieren können. Die

Varianz kann zerlegt werden in traitspezifische, methodenspezifische und Fehlervari-

anz. Die Methode, die nicht modelliert wird, hat die Funktion einer Standardmethode,

mit der alle anderen Methoden kontrastiert werden. Ein latenter Traitfaktor ist in diesem

Modell der wahre Wert eines Indikators, der mit der Standard-Methode erfasst wurde

(Eid et al., 2006). Ein latenter Methodenfaktor repräsentiert die Abweichungen der wah-

ren Werte, die mit dieser Methode erfasst wurden, von der Vorhersage dieser Werte

durch die Standardmethode (Nussbeck, Eid, Geiser, Courvoisier & Cole, 2007). Der

Vergleichsstandard muss auf der Grundlage theoretischer Überlegungen gewählt wer-

den. Dabei muss bedacht werden, dass das Modell nicht symmetrisch ist, was zur Folge

hat, dass die Modellgüte im gleichen Datensatz unterschiedlich sein kann, je nachdem,

welche Methode die Standardmethode ist (Eid, 2000). Es sollte die Methode zur Stan-

dardmethode gemacht werden, von der zu erwarten ist, dass sie das in Frage stehende

Merkmal am besten erfasst (Nussbeck et al., 2007).

4.3.3.3.2 Das Modell

Obwohl nach inhaltlichen Kriterien davon auszugehen war, dass die vier BDI-Formen

das gleiche Konstrukt erfassen, bildete selbst das minimale Modell τ-kongenerischer

Variablen die Beziehungen zwischen den BDIs nicht gut ab. Es war also anzunehmen,

dass die Zusammenhänge zwischen den Variablen durch einen weiteren Aspekt geprägt

waren, der im Modell bislang keine Berücksichtigung gefunden hatte (vgl. Eid et al.,

2010). Die Ergebnisse der deskriptiven Analysen sowie die Resultate der Versuche,

eines der zuvor beschriebenen Modell zu fitten, das alle BDI-Formen vereinte, legten

nahe, dass es sich dabei um einen Methodenfaktor handelte, der den Einfluss der Skalie-

rungsunterschiede zwischen Original-BDIs und verkürzten BDIs repräsentierte (Ab-

schnitt 5.7 wird die entsprechenden Befunde näher erläutern).

Methode 95

Im Unterschied zu der Konzeption der MTMM-Modelle, in deren Tradition auch das

CTC(M-1)-Modell von Eid (2000) steht, wird in der vorliegenden Arbeit von den Indi-

katoren nur ein Trait (Depressivität) mit zwei Methoden erfasst, nicht mehrere Traits.

Dennoch soll das Prinzip des Eid‘schen Modells angewandt werden, indem nur ein Me-

thodenfaktor spezifiziert wird, was zu einem sparsameren und besser interpretierbaren

Modell führt als die Modellierung zweier Methodenfaktoren.

Naheliegend ist, die Original-Skalierung als Standardmethode zu wählen und daher ei-

nen Methodenfaktor zu modellieren, der die Abweichung der neu geschaffenen, ver-

kürzten BDIs von der mit den Originalen gemessenen Depressivität einzuschätzen er-

laubt. Abbildung 6 zeigt das Modell. Alle BDI-Formen (Y1 bis Y4) sind weiterhin Indi-

katoren einer gemeinsamen latenten Variablen (η1), die Depressivität zum Ausdruck

bringt. Sie sollen entsprechend der ursprünglichen Annahmen in der Erfassung der De-

pressivität gleich gut diskriminieren, was durch Equality Constraints auf die Ladungspa-

rameter λ11 bis λ41 umgesetzt wird. Zudem werden BDI-V (Y2) und BDI-II-V (Y4) auf

einen latenten Methodenfaktor (η2) zurückgeführt, der die spezifischen Einflüsse der

neuen Skalierung auf die Messung der Depressivität repräsentiert. Da die Skalierung

von BDI-V und BDI-II-V identisch ist, gibt es keinen Grund anzunehmen, dass ihr Ein-

fluss auf die beiden Inventare unterschiedlich ausfiele, so dass auch die Ladungspara-

meter λ22 und λ42 gleichgesetzt werden14

. Entsprechend des Nachweises von Eid (2000)

wird die Korrelation zwischen η1 und η2 auf Null fixiert.

14

Abgesehen davon war die Restriktion von λ22 und λ42 erforderlich, da die Modellspezifikation ansons-

ten zu Fehlermeldungen führte. Zum einen konnten dann keine Standardfehler berechnet werden, zum

zweiten traten Heywood Cases in Form von negativen Residualvarianzen des BDI-Indikators auf. Die

Lockerung der Restriktionen auf λ11 bis λ41, wie sie im Verlauf der Analysen ebenfalls durchgeführt wer-

den wird, erfordert ebenso ein Beibehalten der Restriktion von λ22 und λ42, da das Modell ansonsten keine

Freiheitsgrade aufweist.

Methode 96

Abbildung 6 Modell des BDI, BDI-V, BDI-II und BDI-II-V mit Methodenfaktor

4.4 Auswertungssoftware

Die deskriptiven Analysen (Maße der zentralen Tendenz, Streuung, Verteilung, Item-

trennschärfen), Hauptachsenanalysen, Korrelationsanalysen, t-Tests und χ2-Tests wur-

den mit der Software IBM SPSS Statistics in der Version 19 (SPSS Inc., 1989, 2010)

vorgenommen. Die konfirmatorischen Faktorenanalysen wurden mit dem Programm

Mplus (Muthén & Muthén, 1998-2010) in der Version 6 gerechnet. Zur Erstellung der

Itemparcels und einigen Berechnungen, zum Beispiel von Durchschnittwerten, wurden

außerdem die Funktionen von Microsoft Office Excel 2010 in Anspruch genommen.

4.5 Schätzmethode für die Modelle

Das Ziel der konfirmatorischen Faktorenanalyse ist es, Schätzer für die Modellparame-

ter (Faktorladungen, Faktorvarianzen und Kovarianzen, Indikator-Fehlervarianzen etc.)

des spezifizierten Modells zu finden, die eine modellimplizierte Varianz-Kovarianz-

Matrix (Σ) generieren, die der empirisch gefundenen (beobachteten) Varianz-

Kovarianz-Matrix (S) so nahe wie möglich kommt (Brown, 2006). Das Schätzen der

BDI-V

y2

BDI-II

y3

λ21 λ31=

ε2 ε3

Depressivität

η1

BDI

y1

ε1

BDI-II-V

y4

ε4

λ11 λ41= =

Methode

η2

λ22 λ42=

Methode 97

Modellparameter und der von ihnen implizierten Matrix geschieht in einem iterativen

Prozess, der dann stoppt, wenn sich der Unterschied zwischen der beobachteten Vari-

anz-Kovarianz-Matrix und der modellimplizierten Varianz-Kovarianz-Matrix nicht

mehr wesentlich verringern lässt (Bühner, 2006). Genau genommen wird dabei eine

Diskrepanzfunktion (fitting function) minimiert, welche die Unterschiede zwischen den

beiden Matrizen S und Σ repräsentiert. Das Schätzverfahren, das dabei am häufigsten

verwendet wird, ist die Maximum Likelihood Schätzung (ML). Dieses setzt jedoch ne-

ben einer großen Stichprobe und Intervallskalenniveau der Indikatoren auch die mul-

tivariate Normalverteilung der Indikatoren voraus (Brown, 2006). Die Stichprobengröße

kann mit 163 ≤ N ≤ 325 in der vorliegenden Analyse als ausreichend für eine konfirma-

torische Faktorenanalyse betrachtet werden (Bühner, 2006). Das Intervallskalenniveau

der einzelnen Items, insbesondere der Items der Original-BDIs, kann in Frage gestellt

werden, da diese lediglich vierfach gestuft sind und vor allem nicht als gesichert gelten

kann, dass benachbarte Skalenpunkte äquidistant bzw. ihre Distanzen sinnvoll interpre-

tierbar sind (vgl. die Analysen zur Ordinalität der Antwortkategorien von Hautzinger et

al., 2006), wie es für eine Intervallskala gefordert wird (Wirtz & Nachtigall, 2002). In

die Analysen gingen daher aggregierte Daten in Form von Summenscores (Gesamt-

summenscores beziehungsweise durch Aufsummierung einzelner Items gebildete Item-

parcels) ein, für die metrische Skaleneigenschaften angenommen werden können. Er-

wartungsgemäß waren jedoch weder die einzelnen Items, noch die Parcels oder Sum-

menwerte univariat normalverteilt (im Ergebnisteil wird jeweils an geeigneter Stelle auf

die entsprechenden Tabellen in Anhang C verwiesen, die Schiefe und Kurtosis der Indi-

katoren der jeweiligen Modellanalyse wiedergeben). Die Frage einer multivariaten

Normalverteilung stellte sich somit erst gar nicht, da eine multivariate Normalverteilung

von Variablen die univariate Normalverteilung der Variablen als notwendige (jedoch

keineswegs hinreichende) Bedingung voraussetzt (Stevens, 2002). Zwar sind die Werte

der Parameterschätzer durch die Verletzung der Normalverteilungsannahme in der Re-

gel nicht betroffen, sofern die Daten nicht extrem schief verteilt beziehungsweise ext-

rem flach- oder spitzgipfelig sind; jedoch können deutlich nicht-normale Ausgangsdaten

zu verzerrten Standardfehlern der Parameterschätzer und einem verzerrten χ2, welches

zur Bewertung der Modellgüte (siehe Abschnitt 4.6) herangezogen wird, führen

(Brown, 2006). Durch die Überschätzung von χ2 wird der darauf beruhende Modellgüte-

test zu konservativ (Curran, West & Finch, 1996), durch die Unterschätzung der Stan-

dardfehler fällt die Bewertung der Signifikanz der Parameterschätzer zu liberal aus

Methode 98

(West, Finch & Curran, 1995). Darüber hinaus resultiert eine Verzerrung von Modell-

güteindizes (siehe Abschnitt 4.6), die eine zu strenge Bewertung des Modells nach sich

zieht (siehe z. B. Brown, 2006). Diese Auswirkungen kommen umso deutlicher zum

Tragen, je kleiner die Stichprobe ist.

Einen alternativen Schätzalgorithmus stellt der Maximum-Likelihood-Schätzer mit ro-

busten Standardfehlern und robustem χ2 (MLM) dar, der das Satorra-Bentler-skalierte χ

2

(SB χ2, Satorra & Bentler, 1994) ausgibt. Auch wenn ML gegenüber kleineren Verlet-

zungen der Normalverteilung relativ robust ist, so zeigt sich dennoch grundsätzlich eine

Vergrößerung von χ2 mit zunehmender Abweichung der Verteilung von der Normalver-

teilung (Curran et al., 1996). Daher wurde entschieden, für die Analysen dieser Arbeit

den MLM-Schätzer zu verwenden. Das SB χ2 hat darüber hinaus den bestechenden Vor-

teil, dass es sich – wenn multivariate Normalverteilung gegeben ist – zum gewöhnlichen

ML χ2 vereinfacht (CWF, 1996). Der Nachteil ist, dass das SB χ

2 mit zunehmender

Schiefe und Kurtosis der Daten insbesondere in kleinen Stichproben an Teststärke zur

Entdeckung von Modellfehlspezifikationen verliert. Der Verlust an Power war jedoch in

den Monte Carlo Simulationen von Curran et al. (1996) selbst unter moderater Verlet-

zung der Normalverteilungsannahme (Schiefe = 2, Kurtosis = 7, d. h. Werten, die weit

über denen lagen, wie sie in den Daten dieser Analyse vorlagen) nur in Stichproben mit

einem Umfang von N = 100, nicht mehr jedoch in Stichproben mit N ≥ 200 zu finden

(wobei der Stichprobenumfang bei den meisten Analysen in dieser Arbeit jenseits von N

= 300 liegt, einige jedoch eine Stichprobe von N = 163 – 169 verwenden, also genau

zwischen den Umfängen, die die Autoren untersucht hatten). Insgesamt kommen Curran

et al. (1996) zu dem Schluss, dass das „SB χ2 behaved extremely well in nearly every

condition across sample size, distribution, and model specification“ (S. 27). Entspre-

chend ihrer Empfehlungen, dennoch sowohl SB χ2

als auch ML χ2

zu berücksichtigen,

wenn die Normalverteilung der Daten in Frage gestellt ist, werden Analysen unter

Schätzung mit ML wiederholt, wenn die MLM-Schätzung einen guten Fit nahelegt, um

diesen im strengeren Lichte einer höheren Teststärke zu überprüfen.

4.6 Beurteilung der Modellgüte

Die Beurteilung, ob das spezifizierte Modell zu den Daten passt, sollte nach Brown

(2006) auf drei Wegen erfolgen. Zum einen über die Bewertung des globalen Modellfits

mithilfe deskriptiver Modelgüteindizes. Zum zweiten sollte untersucht werden, ob das

Methode 99

Modell „localized areas of strain“ (S. 113) aufweist, also Beziehungen, die das Modell

nicht angemessen reproduzieren kann. Dazu können die Residuen sowie die von den

Programmen ausgegebenen Modifikationsindizes genutzt werden. Zum dritten sind die

Parameterschätzer zu betrachten im Hinblick auf ihre Signifikanz, Interpretierbarkeit,

mögliche Heywood-Cases und darauf, ob sie in Stärke und Richtung den Erwartungen

entsprechen.

Die deskriptiven Modellgüteindizes, auf die sich die Beurteilung der Modelle in der

vorliegenden Arbeit stützen wird, sollen im Folgenden beschrieben werden. Im An-

schluss wird auf die Möglichkeit, den Fit zweier ineinander verschachtelter Modelle zu

vergleichen, eingegangen.

4.6.1 Deskriptive Modellgüteindizes

Das Modell passt umso besser auf die Daten, je geringer die Diskrepanz zwischen der

beobachteten Varianz-Kovarianz-Matrix (S) und der bestmöglichen modellimplizierten

Varianz-Kovarianz-Matrix (Σ) und damit die Diskrepanzfunktion ausfällt (Brown,

2006). Direkt auf dieser Diskrepanzfunktion beruht der klassische Modellgüteindex χ2.

Der Index wird ausgegeben mit einem p-Wert, welcher angibt, wie wahrscheinlich das

gefundene χ2 ist, wenn die beiden Matrizen gleich wären. Je geringer diese Wahrschein-

lichkeit, desto schlechter passt das Modell zu den Daten. Es handelt sich um einen klas-

sischen Signifikanztest: Überschreitet χ2 den kritischen Wert, kann von signifikanten

Unterschieden zwischen S und Σ ausgegangen werden. Da die Nullhypothese (keine

Unterschiede zwischen S und Σ) die Wunschhypothese ist, sollte – zumindest „bei klei-

nen Stichproben“ (Bühner, 2006, S. 253) – ein alpha-Niveau von .20 gewählt werden.

Bei nicht-signifikantem χ2 darf von exaktem Modell-Fit gesprochen werden (Bühner,

2006).

Unter anderem dafür, dass die sehr strenge Annahme getestet wird, dass die beiden Mat-

rizen identisch sind sowie dafür, dass χ2 umso größer (und eine Ablehnung des Modells

umso wahrscheinlicher) wird, je größer die Stichprobe ist, wird der Index jedoch kriti-

siert (Brown, 2006). Die Bewertung des Modells sollte daher zusätzlich auf der Basis

weiterer Güteindizes erfolgen, die unterschiedlichen Aspekten der Modellgüte Gewicht

verleihen. Welche Indizes unter welchen Umständen und mit welchen Grenzwerten

Anwendung finden sollen, ist umstritten. Die vorliegende Arbeit orientiert sich in der

Methode 100

Frage der zu berücksichtigenden Indizes weitestgehend an den Empfehlungen von

Brown (2006).

Modellgüteindizes können grob drei Kategorien zugewiesen werden: Absolute Fitindi-

zes, Fitindizes mit Sparsamkeitskorrektur sowie komparative (oder inkrementelle) Fit-

indizes, wobei aus jeder Kategorie mindestens ein Index berücksichtigt werden sollte

(Brown, 2006).

Absolute Fitindizes berücksichtigen – in absoluter Art und Weise – nichts außer der

Übereinstimmung der beobachteten und der modellimplizierten Matrix. Somit gehört

auch χ2 in diese Kategorie. Ein weiterer Index ist der SRMR (Standardized Root Mean

Square Residual). Sein Wertebereich liegt zwischen 0 und 1, wobei kleinere Werte bes-

seren Modellfit anzeigen und ein Wert von Null für perfekten Fit steht. Hu und Bentler

(1999) empfehlen für eine vernünftige Relation von alpha- und beta-Fehler einen

SRMR ≤ .08.

Fitindizes mit Sparsamkeitskorrektur belohnen – neben der Bewertung der Abweichung

zwischen beobachteter und modellimplizierter Matrix – Sparsamkeit im Modell, so zum

Beispiel der RMSEA (Root Mean Square Error Of Approximation, Steiger & Lind,

1980, zit. nach Brown, 2006, S. 83). Der RMSEA ist nach oben nicht begrenzt und soll-

te so klein wie möglich sein, idealerweise wird er Null (in diesem Fall darf von perfek-

tem Fit gesprochen werden). Hu und Bentler (1999) empfehlen einen Cutoff von

RMSEA ≤ .06. Der RMSEA ist zwar deutlich weniger empfindlich gegenüber der

Stichprobengröße als χ2, fällt aber dennoch größer aus bei kleineren Stichproben (Hu &

Bentler, 1999), so dass Bühner (2006) empfiehlt, den Cutoff RMSEA ≤ .06 für N > 250

anzuwenden und bei einem N ≤ 250 auf einen liberaleren Cutoff von RMSEA ≤ .08 zu

setzen. Browne und Cudeck (1993) sind der Ansicht, dass ein RMSEA ≤ .05 einen aus-

reichend guten Fit eines Modells bedeutet, ein RMSEA ≤ .08 noch immer ein

„reasonnable error of approximation“ (S. 144) sei und ein Modell ab einem RMSEA

von ≥ .10 abzulehnen sei. MacCallum, Browne und Sugawara (1996) halten einen

RMSEA zwischen .08 und .1 für ein Anzeichen immerhin noch mittelmäßigen („medio-

cre“, S. 134) Fits.

Auf ihrer Bewertung, dass ein RMSEA ≤ .05 einen ausreichend guten Modellfit dar-

stellt, basiert die von Browne und Cudeck (1993) vorgeschlagene Fitstatistik CFit (Test

Methode 101

of Close Fit)15

. Diese besteht in einem p-Wert, der die Wahrscheinlichkeit darstellt, mit

der der RMSEA ≤ .05 ist. Für akzeptablen Modellfit sollte diese Wahrscheinlichkeit

> .05, betragen. Um den RMSEA kann zudem ein Konfidenzintervall (CI) gebildet wer-

den15

, dessen Berücksichtigung zum Beispiel von MacCallum et al. (1996) empfohlen

wird. Schließt es Null ein, darf von exaktem Modellfit gesprochen werden (Bühner,

2006).

Bühner (2006) gruppiert sowohl den SRMR als auch den RMSEA zur Kategorie der

Absoluten Fitindizes, denn beiden ist gemeinsam, dass sie die Abweichung des spezifi-

zierten Modells von einem perfekten, saturierten Modell, das die beobachtete Varianz-

Kovarianz-Matrix exakt repliziert, ausdrücken. Im Gegensatz dazu vergleichen kompa-

rative (inkrementelle) Fit-Indizes den Fit des spezifizierten Modells mit dem Fit eines

Nullmodells, also einem Modells, in dem die Indikatoren unkorreliert sind. Dadurch

resultiert zwar ein eher wohlwollender Blick auf das Modell, jedoch weisen einige sol-

cher Indikatoren äußerst gute Eigenschaften auf (Brown, 2006). Einer dieser Indizes ist

der CFI (Comparative Fit Index, Bentler, 1990). Sein Wertebereich liegt zwischen 0 und

1, wobei ein höherer Wert einen besseren Fit ausdrückt. Ein weiterer Index ist der TFI

(Tucker-Lewis Index, Tucker & Lewis, 1973, zit. nach Brown, S. 85), auch Non-

Normed Fit Index genannt. Im Unterschied zum CFI bestraft er – wie der RMSEA – das

unnötige Hinzufügen frei geschätzter Parameter. Zwar ist der TLI nicht normiert (hat

also keinen strengen Wertebereich zwischen 0 und 1), wird aber dennoch interpretiert

wie der CFI, das heißt, Werte nahe bei 1 zeigen einen guten Modellfit an. Der Cutoff für

CFI und TLI für vernünftigen Fit liegt nach Vorschlag von Hu & Bentler (1999) nahe

bei .95 oder darüber. Tabelle 6 fasst die Modellgüteindizes und die empfohlenen

Grenzwerte zusammen.

15

CFit und Vertrauensintervall werden von der in dieser Untersuchung verwendeten Statistik-Software

Mplus (Muthén & Muthén, 1998 – 2010) nur für den ML-Schätzer ausgegeben und werden daher nur in

den Fällen berichtet, in denen nach den Modelschätzungen mit dem MLM-Schätzalgorithmus alle Indizes

auf guten Fit hinweisen, der dann mit dem „strengeren“ ML-Schätzer überprüft wird.

Methode 102

Tabelle 6 Indizes zur Beurteilung der Modellgüte und Grenzwerte, wie sie der Modellgütebeurtei-

lung in dieser Arbeit zu Grunde gelegt wurden

Index♠ Approximativer Modellfit

♠ Perfekter Modellfit

χ2 und p-Wert nicht definiert kleine Stichproben: p ≥

.20

große Stichproben: p ≥

.05

SRMR SRMR ≤ .08 SRMR = 0.0

RMSEA N > 250: RMSEA ≤ .06

N ≤ 250: RMSEA ≤ .08

.08 ≤ RMSEA ≤ .10 = mittelmäßi-

ger Fit

RMSEA = 0.0

Cfit p > .05 nicht definiert

90% CI des

RMSEA

nicht definiert CI umfasst 0.0

CFI CFI ≥ .95 nicht definiert

TLI TLI ≥ .95 nicht definiert

Anmerkungen. ♠ (Brown, 2006; Browne & Cudeck, 1993; Bühner, 2006; Hu & Bentler, 1999;

MacCallum et al., 1996)

4.6.2 Modellvergleich

Sollen zwei ineinander verschachtelte Modelle (d. h. Modelle, bei denen sich eines

(comparison model) aus dem anderen (nested model) durch Lockerung von Restriktio-

nen ergibt) hinsichtlich ihres Modellfits miteinander verglichen werden, kann dazu die

χ2-Statsitik verwendet werden (χ

2-Differenzentest). Die Differenz zweier χ

2-Werte folgt

ebenso einer χ2-Verteilung und kann auf Signifikanz getestet werden; die Differenz der

Freiheitsgrade beider Modelle stellen die Freiheitsgrade des Differenztests dar. Findet,

wie in der vorliegenden Arbeit, das SB- χ2 Verwendung, kann als Teststatistik aller-

dings nicht die einfache Differenz der χ2-Werte eingesetzt werden, da sie nicht χ

2-

verteilt ist. Die Berechnung einer entsprechend korrigierten Teststatistik (χ2s

genannt,

Satorra & Bentler, 1994) ist zum Beispiel bei Brown (2006) beschrieben.

Methode 103

4.7 Aufbereitung der Rohdaten

Dieses Kapitel legt dar, wie die Rohdaten behandelt wurden, bevor sie in die Analysen

eingingen. Die Items des NEO-FFI wurden in Skalenwerten zusammengefasst. Zur

Auswertung der BDI-Varianten wurden Summenwerte der Items gebildet. Die Items

respektive Summenwerte der verkürzten BDIs wurden reskaliert, um sie in Bezug auf

ihren Werteberich vergleichbar zu machen und so direkte Gegenüberstellungen zwi-

schen Summenwerten von originalen und verkürzten BDI-Versionen zu ermöglichen.

Logarithmische Transformationen der Daten sollten die Verteilungseigenschaften ver-

bessern. Zur Testung verschiedener Modelle war die Aufteilung der Items auf Testhälf-

ten (Itemparcels) erforderlich.

4.7.1 Skalenwerte des NEO-FFI

Entsprechend den Anweisungen des Manuals (Borkenau & Ostendorf, 2008) wurden

die invers codierten Items rekodiert (umgepolt) und für jede der fünf Skalen (Neuroti-

zismus, Extraversion, Offenheit für Erfahrung, Verträglichkeit und Gewissenhaftigkeit)

ein Skalenwert errechnet.

4.7.2 Summenwerte des BDI

Für jedes BDI wurde durch Aufaddieren der angekreuzten Ziffern ein Summenwert

gebildet. In den Original-BDIs (BDI und BDI-II) geht jedes der 21 Items mit einem

Punktwert von 0 – 3 in die Bildung des Gesamtscores ein, so dass der Wertebereich des

Summenwertes jeweils zwischen 0 und 63 Punkte liegt. Hatten Probanden entgegen der

Instruktion Kreuzchen bei mehreren Aussagen pro Item gesetzt, wurde entsprechend

den Auswertungsvorschriften für das BDI (Hautzinger et al., 1995) sowie das BDI-II

(Hautzinger et al., 2006) nur die höchste angekreuzte Ziffer gezählt.

Die Auswertungsvorschrift eine Ziffer pro Item gilt auch für die Items 16 („Verände-

rungen der Schlafgewohnheiten“) und 18 („Veränderungen des Appetits“) des BDI-II,

wobei ein Proband hier bei einem Wert > 0 gleichzeitig angibt, ob eine Zunahme oder

eine Abnahme/Verschlechterung des Schlafes bzw. Appetits vorliegt, indem auf den

Stufen 1 – 3 zwischen a(Zunahme)- und b(Abnahme)-Aussagen gewählt werden muss.

Beides kann nicht gleichzeitig ausgewählt werden beziehungsweise es würde, wenn ein

Proband entgegen der Instruktion doch beides angibt, nur eines der Kreuzchen gezählt

Methode 104

werden, und zwar das bei der höchsten Ziffer. (Wenn also beispielsweise 2a („Ich schla-

fe viel weniger als sonst“) und 3b („Ich schlafe fast den ganzen Tag“) angekreuzt wä-

ren, würde das Item mit drei Punkten gewertet, sofern man davon ausgehen kann, dass

das Item ernsthaft ausgefüllt wurde). Die inhaltliche Unterscheidung (a/Zunahme oder

b/Abnahme oder die Angabe beider Phänomene) wird bei der Bildung des Summenwer-

tes nicht berücksichtigt und ist im Gesamtscore daher nicht repräsentiert.16

Für die verkürzten BDIs (BDI-V, BDI-II-V.1 und BDI-II-V.2) lag der Skalenbereich

jedes Items zwischen 0 und 5, so dass für das BDI-V (20 Items) ein Summenwert zwi-

schen 0 und 100 möglich war, für das BDI-II-V.1 (21 Items) ein Summenwert zwischen

0 und 105 und für das BDI-II-V.2 (23 Items) ein Summenwert zwischen 0 und 115.

Für das BDI-II-V.2 wurde zudem eine zweite Auswertung durchgeführt, in der die je

zwei Items zu Schlaf und Appetit zu je einem Item zusammengefasst wurden. Dies ge-

schah, indem jeweils die höhere der Ziffern beider Items verwendet wurde – analog der

Auswertung der Items im BDI-II, in welchem auch nur je eine Ausprägungsrichtung der

Symptome angegeben beziehungsweise bei Angabe von Schwierigkeiten in beiden

Richtungen nur eine Aussage gezählt werden kann (s.o.). Hatte ein Proband beispiels-

weise in Item 16 des BDI-II-V.2 („Ich schlafe außergewöhnlich wenig“) eine 1 ange-

kreuzt und in Item 17 („Ich schlafe außergewöhnlich viel“) eine 3, so wurde für das

zusammengefasste Item (neues Item 16) die 3 übernommen. Analog war das Vorgehen

bei der Zusammenfassung der Items zu Appetit: Hatte ein Proband zum Beispiel in Item

19 („Ich habe außergewöhnlich wenig Appetit“ eine 4 angekreuzt und in Item 20 („Ich

habe außergewöhnlich viel Appetit“) eine 2, so wurde für das zusammengefasste Item

(neues Item 18) die 4 gewertet. Die Angabe von Werten ungleich Null in beiden Aus-

prägungen des Symptoms kam sehr häufig vor und ist – da das Antwortformat in den

verkürzten BDIs ein Häufigkeitsformat ist – nicht so abwegig, wie es auf den ersten

Blick vielleicht scheinen mag. Es ist schließlich gut möglich, dass in den letzten zwei

Wochen beispielsweise selten außergewöhnlich wenig geschlafen wurde (1 in Item 16)

und oft außergewöhnlich viel geschlafen wurde (3 in Item 17) oder analog zum Beispiel

sehr oft außergewöhnlich wenig Appetit vorkam (4 in Item 19) und manchmal außer-

gewöhnlich viel Appetit vorkam (2 in Item 20).

16

Im klinischen Kontext müssen die beiden Items daher neben dem Summenwert gesondert betrachtet

werden, um eine differenzierte Einschätzung der Symptome eines Patienten vornehmen zu können

(Hautzinger et al., 2006).

Methode 105

Diese Auswertung des BDI-II-V.2 wurde mit BDI-II-V.2.Z bezeichnet (Z für zusam-

mengefasst). Sie umfasst wie das BDI-II-V.1 21 Items (Wertebereich des Summenwer-

tes daher 0 – 105), wobei das Item 16 zu Schlaf aus den vormaligen Items 16 („Ich

schlafe außergewöhnlich wenig“ und 17 („Ich schlafe außergewöhnlich viel“) hervor-

ging und das Item 18 zu Appetit eine Zusammenfassung der vormaligen Items 19 („Ich

habe außergewöhnlich wenig Appetit“ und 20 („Ich habe außergewöhnlich viel Appe-

tit“) darstellt. Das BDI-II-V.2.Z ist aufgrund der gleichen Anzahl an sich jeweils ent-

sprechender Items besser direkt mit dem Original (BDI-II) und mit dem BDI-II-V.1

vergleichbar als das BDI-II-V.2 mit seinen 23 Items.

Das BDI-II-V.2.Z ermöglichte außerdem – was noch viel entscheidender war – eine

Zusammenfassung der Teilstichprobe, die das BDI-II-V.1 ausgefüllt hatte, und der Teil-

stichprobe, die das BDI-II-V.2 ausgefüllt hatte, zu einer Gesamtstichprobe. Auch dies

war möglich, da nun in beiden Versionen dieselbe Anzahl sich entsprechender Items

vorhanden war (denn auch im BDI-II-V.1 war das Item 16 jenes zu Schlaf und das Item

18 jenes zu Appetit, die anderen Items entsprachen sich ohnehin.). Zur Bezeichnung der

gemeinsamen Version in der Gesamtstichprobe wurde schlicht BDI-II-V gewählt. Wenn

also im Folgenden vom BDI-II-V die Rede ist, wird auf Auswertungen Bezug genom-

men, die in dieser Gesamtstichprobe vorgenommen wurden. BDI, BDI-V und BDI-II

waren generell allen Probanden in der gleichen Form vorgelegt worden. Mit der Zu-

sammenfassung von BDI-II-V.1 und BDI-II-V.2.Z zum BDI-II-V lag nun auch für die-

sen Fragebogen ein Datensatz vor, der alle Probanden umfasste, so dass alle vier Frage-

bögen im kompletten Datensatz verglichen werden konnten.

Gleichzeitig konnten in den jeweiligen Teilstichproben das BDI-II mit dem BDI-II-V.1

und das BDI-II mit dem BDI-II-V.2 respektive dem BDI-II-V.2.Z vergleichen werden.

In diesen beiden Fällen wird natürlich auch für das BDI-II auf die jeweilige Teilstich-

probe Bezug genommen (Bezeichnungen dann: BDI-II.1 für das BDI-II in der Teil-

stichprobe derer, die das BDI-II-.1 erhalten hatten und BDI-II.2 für das BDI-II in der

Teilstichprobe derer, die das BDI-II-V.2 erhalten hatten) Außerdem konnte zwischen

den Teilstichproben das BDI-II-V.1 mit dem BDI-II-V.2 verglichen werden.

Tabelle 7 fasst die in dieser Arbeit verwendeten Versionen bzw. Auswertungsvarianten

des BDI und ihre Bezeichnung zusammen. Auf die mittlere Spalte „Reskalierte Versi-

on“ wird im folgenden Abschnitt (4.7.3) eingegangen.

Methode 106

Tabelle 7 Alle verwendeten Versionen und Auswertungen des BDI im Überblick

Version Reskalierte Version Erläuterung

BDI - Original des BDI von Hautzinger et al. (1994)

in der Gesamtstichprobe

BDI-V BDI-V.R Verkürzung des BDI von Schmitt und Maes

(2000) in der Gesamtstichprobe

BDI-II - Original des BDI-II von Hautzinger et al.

(2006) in der Gesamtstichprobe

BDI-II.1 - Original des BDI-II von Hautzinger et al.

(2006) in der Substichprobe 1, die den

BDI-II-V.1 (s.u.) erhalten hatten

BDI-II.2 - Original des BDI-II von Hautzinger et al.

(2006) in der Substichprobe 2, die den

BDI-II-V.2 (s.u.) erhalten hatten

BDI-II-V.1 BDI-II-V.1.R Verkürzung des BDI-II, wie sie diese Arbeit

vorschlägt mit je einem Item zu Schlaf und

Appetit (Substichprobe 1)

BDI-II-V.2 BDI-II-V.2.R Verkürzung des BDI-II, wie sie diese Arbeit

vorschlägt mit je zwei Items zu Schlaf und

Appetit (Substichprobe 2)

BDI-II-V.2.Z BDI-II-V.2.Z.R BDI-II-V.2, in dem die je zwei Items zu

Schlaf und Appetit zu je einem Item zusam-

mengefasst wurden (Substichprobe 2)

BDI-II-V BDI-II-V.R Zusammenfassung von BDI-II-V.1 und

BDI-II-V.2.Z (Gesamtstichprobe).

4.7.3 Reskalieren der Werte der verkürzten BDI-Varianten

Um die Summenwerte zwischen den Original-BDIs mit ihrer Itemskalierung von 0 – 3

und den verkürzten Versionen mit ihrer Itemskalierung von 0 – 5 direkt vergleichen zu

können, wurde für alle verkürzten Versionen eine reskalierte Variante erstellt, indem

Methode 107

die Itemantworten mit 0.6 (=

) multipliziert wurden. Die Bezugnahme auf eine reska-

lierte Variante ist erkennbar an der Erweiterung der Fragebogen-Bezeichnung durch ein

.R (R für reskaliert) am Ende, zum Beispiel BDI-V.R (statt BDI-V) (siehe Tabelle 7,

mittlere Spalte).

Die Reskalierung ist zudem eine notwendige Voraussetzung zur Testung der Modelle,

in denen zwei oder mehr BDI-Formen als gleich diskriminierende Indikatoren der laten-

ten Variablen Depressivität spezifiziert wurden. Indikatoren, deren Ladungsparameter

sich gleichen sollen, sollten die gleiche Metrik besitzen, da die unstandardisierten La-

dungen (die mit den Restriktionen belegt werden) sich sonst schon inhärent unterschei-

den würden (Brown, 2006; siehe auch Kapitel 2.4.2.1 & 2.4.2.2).

In konfirmatorischen Faktorenanalysen, in denen Equality Constraits für Ladungspara-

meter definiert wurden, und bei Vergleichen der Mittelwerte zwischen Original und

Verkürzung mittels t-Tests, wird daher immer mit reskalierten Versionen der verkürzten

BDIs gerechnet17

. In konfirmatorischen Faktorenanalysen, in denen keine Equality

Constraints auf Ladungsparameter bestanden, und in allen anderen Auswertungen, die

von Lineartransformationen nicht berührt werden, spielt die Frage der Reskalierung

keine Rolle.

4.7.4 Logarithmieren der Werte

Wie erwähnt waren Item- und Summenwerte nicht normal verteilt. Da – trotz der Ver-

wendung eines robusten Schätzalgorithmus – Schwierigkeiten bestanden, einen guten

Fit für die hypothetisierten Modelle zu erzielen, wurden mittels logarithmischer Trans-

formation der Daten Versuche unternommen, die deutliche Rechtsschiefe der Item- und

Summenwerte zu reduzieren und die Verteilungsform näher an eine Normalverteilung

heranzuführen. So sollten Erkenntnisse dazu ermöglicht werden, ob der Modellfit durch

eine Annährung der Verteilung an die Normalverteilung verbessert werden konnte und

somit die Verletzung der Normalverteilung zum unbefriedigenden Modellfit beigetra-

gen haben könnte.

17

Die einzige Ausnahme bilden konfirmatorische Faktorenanalysen, in denen logarithmierte Summen-

werte Verwendung finden (s.u.). In diesen Fällen wird probehalber mit reskalierten und nicht-reskalierten

Summenwerten gerechnet; die Ergebnisse dieser Analysen sind jedoch ohnehin nur sehr eingeschränkt

interpretierbar

Methode 108

Logarithmiert wurden zum einen die Werte der einzelnen Items, die in dieser Form in

eine Variante der Itemparcelbildung (siehe Abschnitt 4.7.5) eingingen. Zum anderen

wurden die Summenwerte der BDIs einer logarithmischen Transformation unterzogen,

um in dieser Form als Indikatorvariablen der konfirmatorischen Faktorenanalysen zu

dienen, die auf Summenscores basierten. Die Summenwerte wurden deswegen unab-

hängig von den Items logarithmiert, weil sich durch eine direkte logarithmische Trans-

formation der Summenwerte im Vergleich zu einer Summenbildung aus logarithmierten

Items eine stärkere Angleichung der Verteilungsform an die Normalverteilung erzielen

ließ.

Vor dem Logarithmieren mussten die Daten durch die Addition von 1 linear transfor-

miert werden, da der mögliche und auch der tatsächliche Wertebereich bei Item- und

Summenwerten Null einschloss, der Logarithmus für Null jedoch nicht definiert ist.

4.7.5 Erstellen von Itemparcels

In konfirmatorischen Faktorenanalysen, in denen die manifesten Indikatoren in Item-

parcels bestehen, hängt der Modellfit unter anderem davon ab, wie diese Parcels zu-

sammengesetzt sind (siehe z. B. Fabian-Krause, 2011). Dies zeigte sich auch in den

Analysen der vorliegenden Arbeit. Modelle, in denen Itemparcels in Form von

BDI-Testhälften als manifeste Indikatoren von latenten BDI-Variablen dienten, wiesen

mehr oder weniger große Abweichungen von einem zufriedenstellenden Fit auf, je

nachdem, wie sich die Items auf die Parcels verteilten. Die Strategien, die eingesetzt

wurden, um Parcels zu generieren, werden im Folgenden beschrieben. Der Abschnitt

schließt mit dem Fazit, welche Zusammensetzung der Itempäckchen für die verschiede-

nen Modelle jeweils zum besten Modellfit führte. Nur die Ergebnisse, die mit den opti-

malen Parcels erzielt wurden, werden in der Darlegung der Analysen im Ergebnisteil

berichtet.

Variante 1. Zunächst wurden entsprechend dem Vorgehen von Schmitt et al. (2003) für

jede der BDI-Formen zwei Parcels mit dem Ziel gebildet, dass die Aufteilung der Items

auf die Parcels sich zwischen den Formen maximal unterscheiden sollte. Dies sollte die

Wahrscheinlichkeit von Fehlerkorrelationen minimieren (Schmitt et al., 2003). Dazu

wurde das BDI nach Item 10 in eine erste (Item 1 – 10) und eine zweite (Item 11 – 21)

Hälfte geteilt. Das BDI-V wurde nach der Odd-Even Methode unterteilt (d. h., die gera-

Methode 109

den Items gelangten in Parcel 1, die ungeraden in Parcel 2). Beim BDI-II wurde so ver-

fahren, dass jeweils zwei Items in das erste Parcel gelangten, die nächsten zwei in das

zweite Parcel, dann wieder zwei in das erste Parcel und so weiter. Ähnliche Strategien

wurden verfolgt für das BDI-II- V und das BDI-II-V.1, bei denen jeweils18

drei Items in

das erste Päckchen gelangten, die nächsten drei in das zweite Päckchen und so weiter.

Beim BDI-II-V.2 gelangten entsprechend Vierergruppen in die beiden Parcels.

Variante 2a – f. Es wurde sodann die Strategie verfolgt, die Korrelationen zwischen

allen Parcels parallel so ähnlich wie möglich zu gestalten. Je gleichmäßiger die Zusam-

menhänge zwischen den Indikatoren der latenten BDI-Variablen sein würden, desto

ähnlicher könnten auch die latenten Korrelationen ausfallen, so die Annahme.

Variante 3. Während die bisherigen Techniken weitestgehend auf logischen Überlegun-

gen sowie Trial and Error basierten, orientierte sich das Vorgehen nun enger an im

Vorfeld der erkennbaren psychometrischen Charakteristika der Items. Mit dem Ziel,

dass jeweils beide Parcels eines BDIs eine möglichst identische Beziehung zum latenten

Konstrukt haben mögen, wurden zum Erstellen der Parcels die Trennschärfen genutzt.

Getrennt für jedes Inventar wurde dem ersten Parcel jeweils das Item mit der höchsten

Trennschärfe zugewiesen, das Item mit der zweithöchsten Trennschärfe gelangte in das

zweite Parcel. Dann wurde das Item mit der dritthöchsten Trennschärfe wiederum dem

zweiten Parcel zugewiesen und das Item mit der vierthöchsten Trennschärfe in das erste

Parcel eingefügt. Das Item mit der fünfthöchsten Trennschärfe gehörte wieder zum ers-

ten Parcel und so weiter.

Variante 4. Schließlich wurden die Strategien des Logarithmierens und der Berücksich-

tigung der Beziehung der Items untereinander (vgl. Variante 3) kombiniert. Um die

Verteilungseigenschaften der Itens und damit der aus ihnen generierten Parcels zu ver-

bessern, wurden logarithmierte Items verwendet. Die so veränderten Items wurden für

jede Version des BDIs Hauptachsenanalysen unterzogen. (Extrahiert wurden jeweils so

viele Faktoren, wie eine Parallelanalyse nahelegte. Das Generieren der dazu benötigten

zufälligen Eigenwerte erfolgte unter Verwendung einer Syntax von O’Connor (2000).)

In Anlehnung an die Empfehlungen von Little, Cunningham, Shahar und Widaman

(2002) wurden die zwei Itempäckchen jedes BDI erstellt, indem der Betrag der Ladun-

18

Da das BDI-II-V und das BDI-II-V.1 niemals gemeinsam in eine Analyse eingehen konnten, durften

die Items in gleicher Weise verteilt werden

Methode 110

gen der Items auf dem ersten unrotierten Faktor und – in gewissem Maße – ihr Mittel-

wert zugrunde gelegt wurde. Das Ziel war, Parcels zu bilden, die in Bezug auf ihre Re-

lation zum Konstrukt (Diskrimination) sowie in Bezug auf ihre Schwierigkeit ausbalan-

ciert sein sollten (Little et al., 2002). Das Item mit der höchsten Ladung auf dem ersten

unrotierten Faktor gelangte in das erste Parcel, das Item mit der zweithöchsten Ladung

auf dem ersten unrotierten Faktor in das zweite Parcel, das Item mit der dritthöchsten

Ladung wieder in das zweite Parcel und so weiter (s.o.; diese Strategie entspricht weit-

gehend der Berücksichtigung der Trennschärfen in Variante 3). War die Zuordnung der

Items zu Päckchen auf Basis der Ladung erfolgt, wurde überprüft, ob die Verteilung der

Items mit hohen, mäßig hohen, mäßig niedrigen und niedrigen Mittelwerten zwischen

den beiden Parcels in etwa ausgeglichen war. Gegebenenfalls wurde korrigiert, indem

Items zwischen den Parcels getauscht wurden. Das gewählte Vorgehen konnte die

Schwierigkeiten zwischen den Parcels nicht exakt ausgleichen, schien aber der beste

Kompromiss zwischen einem im Rahmen dieser Arbeit zu komplexen Verfahren, das

parallel Faktorladung und Mittelwert exakt berücksichtigt hätte, und dem vollständigen

Verzicht auf die Beachtung der Schwierigkeiten.

Fazit. Bei der Verfolgung der Ziele der jeweiligen Strategien wurden während der Ana-

lysen alle BDI-Formen parallel berücksichtigt. Für die Modelle, die nur zwei der

BDI-Formen einbezogen, ergab sich dadurch ein überraschender Schluss:

In den Analysen, die lediglich BDI-II und entweder BDI-II-V, BDI-II-V.1 oder

BDI-II-V.2 enthielten, ließ sich der beste Modellfit jeweils mit Parcels erzielen, die auf

der Suche nach Indikatoren möglichst ähnlicher manifester Korrelationen entstanden

waren (Variante 2e). Interessanterweise wiesen diese jeweils vier Parcels jedoch bei

weitem nicht die ähnlichsten Korrelationen auf. Der Range von der niedrigsten Inter-

parcelkorrelation zur höchsten Interparcelkorrelation betrug (je nach Stichprobe) zwi-

schen 0.158 und 0.163 Punkten. Für andere Varianten belief sich dieser Range auf ge-

ringere Werte, bis zu zwischen 0.108 und 0.134 Punkte. Viel mehr war es so, dass die

Itempäckchen der Variante 2e exakt den Parcels entsprachen, wie sie Schmitt et al.

(2003) für BDI und BDI-V gebildet hatten (siehe Variante 1, maximale Unähnlichkeit

zwischen den Parcels). Die Anwendung der Strategie der maximalen Unähnlichkeit

zwischen den Parcels in Bezug auf alle Formen parallel hatte nicht zum Erfolg geführt,

wenn ein Modell mit allen Formen gefittet wurde (s.u.). Für BDI-II und BDI-II-V ein-

zeln betrachtet hatten sich dabei auch nicht maximal unähnliche Parcels ergeben, da alle

Methode 111

Formen parallel einbezogen worden waren. Bezieht man diese Strategie auf nur zwei

Inventare, lässt sie sich am effektivsten umsetzen und war in dieser Untersuchung die

erfolgreichste.

In den Analysen, in denen alle vier BDI-Formen modelliert wurden, erwiesen sich die

nach der Variante 3 (Ausgleich der Trennschärfen zwischen den Parcels) erstellten In-

dikatoren als optimal. (Gleichzeitig wiesen diese Parcels die höchste Ähnlichkeit der

Koeffizienten der Interkorrelationen der acht Indikatoren auf; Range: 0.169).

Die Verteilung der Items auf die Parcels, die sich als optimal erwiesen hatten und in den

im Ergebnisteil berichteten Analysen zum Einsatz kamen, wird in Anhang C dargestellt.

Tabelle 19 zeigt die nach Variante 2e gebildeten Parcels für die Modelle zur Analyse

von BDI-II und BDI-II-V in der Gesamt- und den Teilstichproben. Tabelle 20 zeigt die

nach Variante 3 gebildeten Parcels für die Modelle zur Analyse von BDI, BDI-V,

BDI-II und BDI-II-V in der Gesamtstichprobe.

Ergebnisse 112

5 Ergebnisse

Dieses Kapitel stellt die Ergebnisse der statistischen Analysen dar. Die Struktur des

Abschnitts spiegelt die Struktur der Fragestellungen und Hypothesen wieder. Der Be-

richt beginnt mit den psychometrischen Charakteristika und den Ergebnissen zur Validi-

tät des BDI-II-V (zur Erinnerung: dabei handelt es sich um die aus der Zusammenfas-

sung von BDI-II-V.1 und BDI-II-V.2 hervorgegangene Version des vorgeschlagenen

Inventars in der Gesamtstichprobe). Darauf folgt der Vergleich des BDI-II-V mit dem

Original (BDI-II). Der nächste Abschnitt analysiert Unterschiede zwischen den Sub-

formen 1 und 2 des BDI-II-V. Schließlich werden BDI, BDI-V, BDI-II und BDI-II-V

einem parallelen Vergleich unterzogen.

Bevor der Einstieg in die statistischen Ergebnisse erfolgt, werden das Vorgehen bei der

Datenbereinigung und die resultierende Analysestichprobe dargestellt.

Alle im Text angegebenen p-Werte sind zweiseitig.

5.1 Datenbereinigung und Beschreibung der Stichprobe

Wie in Abschnitt 4.2 dargelegt, handelt es sich um eine Gelegenheitsstichprobe, die

nach dem Schneeballsystem im Bekanntenkreis der Autorin rekrutiert wurde. Die Be-

mühungen gingen dabei in die Richtung, eine soziodemographisch möglichst heteroge-

ne Bevölkerungsstichprobe zu verwirklichen. Der Zeitraum der Datenerhebung lag zwi-

schen Februar und Juli 2011.

Es wurden 630 Bögen an Interessenten ausgegeben, von denen 361 ausgefüllt zurückge-

sendet wurden, was einer Rücklaufquote von 57% entspricht.

Im Folgenden wird zunächst auf die drei Problembereiche der Identifikation nicht ernst-

haft ausgefüllter Fragebögen, des Umgangs mit Extremwerten und Ausreißern sowie

des Verfahrens bei fehlenden Werten eingegangen, um dann die Analysestichprobe zu

beschreiben.

Ergebnisse 113

5.1.1 Verständnisschwierigkeiten oder mangelnde Sorgfalt beim Aus-

füllen

Um Verfälschungen der Ergebnisse durch nicht sorgfältig ausgefüllte Fragebögen oder

Verständnisschwierigkeiten bei Teilnehmenden zu verhindern, wurden die Fragebögen

von Probanden mit Extremwerten oder Ausreißern in einem der BDI-Summenwerte,

von Probanden mit fehlenden Werten (Missings) in einem der Fragebögen sowie von

Probanden, deren Ankreuzverhalten auffällige „Muster“ produziert hatte oder deren

Bögen Hinweise auf Verständnisschwierigkeiten enthalten hatten, genauer inspiziert.

14 Probanden mussten nach diesen Analysen vollständig ausgeschlossen werden, da

eindeutige Hinweise auf fehlende Ernsthaftigkeit oder mangelndes Verständnis vorla-

gen. Für zwei Probanden mussten einzelne Fragebögen aus dem Datensatz entfernt

werden. Unter den 14 vollständig ausgeschlossenen Probanden befanden sich überpro-

portional viele Teilnehmer unter 20 Jahren (5 Teilnehmende, also 36%), was dazu führ-

te, dass diese Altersgruppe in der Gesamtstichprobe nun noch stärker unterrepräsentiert

war, als dies bereits vor den erforderlichen Ausschlüssen der Fall gewesen war (s.u.).

5.1.2 Ausreißer und Extremwerte

Als Ausreißer gelten solche Werte, die innerhalb des anderthalb- bis dreifachen Inter-

quartilsabstandes liegen; von Extremwerten spricht man bei Werten, die sich außerhalb

des dreifachen Interquartilsabstandes befinden (Bühl, 2010; Gollwitzer & Jäger, 2007).

Ausreißer und Extremwerte können mittels Boxplots identifiziert werden (Bühl, 2010).

In dem um unverständig oder boykottierend ausgefüllte Fragebögen bereinigten Daten-

satz fand sich in keinem der BDIs ein Extremwert, jedoch einige Ausreißer. Es gibt kei-

ne allgemeingültige Empfehlung, wie mit ihnen umzugehen ist (Schendera, 2007). Sie

dürfen im Datensatz belassen werden, sofern davon ausgegangen werden kann, dass es

sich „um ‚reale‘ Ausreißer handelt“ (Schendera, 2007, S. 199). Dies war für die verblie-

benen Ausreißer wahrscheinlich, da „irreale“ Ausreißer, die aus fehlerhaften Eingaben,

mangelnder Motivation oder Verständnisschwierigkeiten resultierten, in den vorange-

gangenen Analysen zu identifizieren versucht worden waren. So wurde entschieden, sie

nicht zu löschen. Damit wurde der entscheidende Nachteil der Eliminierung von Aus-

reißerwerten, die Reduktion der Power (Schendera, 2007), vermieden.

Ergebnisse 114

5.1.3 Fehlende Werte

Durch das Auslassen eines einzigen Items in einem BDI kann für diesen Fragebogen

kein Gesamtscore gebildet werden kann, da es sich um Summen-, nicht um Durch-

schnittswerte handelt. Die Gesamtscores der Skalen des NEO-FFI (Borkenau &

Ostendorf, 2008) dagegen stellen Durchschnittswerte dar, so dass auch bei einzelnen

Missings ein Skalenwert berechnet werden kann19

. Einige Probanden wiesen fehlende

Werte in einzelnen Items einer der BDI-Formen und damit im jeweiligen Summenwert

auf (BDI: 2 Probanden, BDI-V: 10 Probanden, BDI-II: 5 Probanden, BDI-II-V: 8 Pro-

banden; BDI-II-V.1: 2 Probanden, BDI-II-V.2: 8 Probanden/BDI-II-V.2.Z: 6 Proban-

den20

). Für 3 Probanden fehlt der NEO-FFI.

Zunächst wurde entschieden, Probanden, für die nur der Summenwert eines BDI fehlte,

in den Analysen zu belassen, um die Power nicht unnötig zu reduzieren. Damit stand

eine Stichprobe von insgesamt 347 Personen zur Verfügung. Für die einzelnen Inventa-

re lag der Umfang entsprechend der fehlenden Werte leicht darunter.

Nach Abschluss der Datenaufbereitung und Voranalysen wurde der Autorin bewusst,

dass zur Berechnung der endgültigen Ergebnisse immer dann Personen mit fehlenden

Werten in einzelnen der Depressionsinventare ausgeschlossen werden mussten, wenn

Werte direkt zwischen den Inventaren verglichen werden sollten, damit die Statistiken

für alle BDI-Formen auf einer(m) identischen Stichprobe(numfang) fußten. Zudem wur-

den auch für die konfirmatorischen Faktorenanalysen Stichproben ohne einzelne feh-

lende Werte benötigt, da der verwendete MLM-Schätzer keine Missings toleriert21

.

19

Borkenau & Ostendorf (2008) empfehlen in ihrer Handanweisung, dass Skalenwerte ab 10 von 12

beantworteten Items pro Skala interpretiert werden dürfen, auch wenn die Autoren durchaus kritisch da-

rauf hinweisen, dass jede Art solcher Grenzen nicht einer gewissen Willkür entbehrt. 20

Für 8 Probanden kann kein Summenwert berechnet werden, wenn alle 23 Items in den Summenwert

einfließen (BDI-II-V.2), für den Summenwert von 21 Items nach Zusammenfassung jeweils der Items für

Appetit und für Schlaf (BDI-II-V.2.Z), fehlen nur noch 6 Werte. Dies liegt daran, dass für zwei Proban-

den ein fehlender Wert wegfiel, weil er sich auf einem der Items zu Schlaf oder Appetit befand, und hier

(siehe Abschnitt 4.7.2) jeweils lediglich der höchste Wert das zusammengefasste Item bildete. Die Anzahl

fehlender Summenwerte im BDI-II-V stimmt deswegen auch nur dann mit der Summe der fehlenden

Summenwerte aus BDI-II-V.1 und BDI-II-V.2 überein, wenn für das BDI-II-V.2 die zusammengefasste

21-Item-Version (BDI-II-V.2.Z) betrachtet wird, da das BDI-II-V (siehe Abschnitt 4.7.2) auf der Basis

des BDI-II-V.1 und des BDI-II-V.2.Z gebildet wurde. 21

Zur Analyse nicht normalverteilter Daten hätte zwar mit dem MLR-Schätzer ein alternativer robuster

Schätzalgorithmus zur Verfügung gestanden, der mit fehlenden Werten umgehen kann und in Voranaly-

sen zum Einsatz kam. Für den MLR-Schätzer ist der Autorin jedoch keine Korrekturformel zur Durchfüh-

rung des (für den ML-Schätzer konzipierten) χ2-Differenzentests bekannt (siehe Kapitel 4.6.2).

Ergebnisse 115

Dort, wo bereits Analysen durchgeführt worden waren, wurden diese soweit möglich

wiederholt. Teilweise wurden Stichproben neu gebildet, teilweise wurde, um Zeit einzu-

sparen, die Option des listenweisen Fallausschlusses eingesetzt. Die Bildung der

Itempäckchen (siehe Abschnitt 4.7.5) und die Hauptachsenanalyse des BDI-II-V konn-

ten aus Zeitgründen nicht wiederholt werden.

Aus den beschriebenen Umständen heraus ergeben sich für die einzelnen Analysen

nicht in allen Fällen identische Stichprobenumfänge. Letztendlich basieren die Analy-

sen, die alle vier Formen des BDI parallel vergleichen, auf einer Stichprobe von

N = 325 Personen. Auf diese Stichprobe beziehen sich außerdem alle Berechnungen, die

den aus der Zusammenfassung von BDI-II-V.1 und BDI-II-V.2 hervorgegangenen

BDI-II-V in der Gesamtstichprobe beschreiben, außer der Hauptachsenanalyse, die eine

Stichprobe vom Umfang N = 339 zur Grundlage hat. Die konfirmatorischen Faktoren-

analysen, die BDI-II und BDI-II-V modellieren, greifen auf eine Stichprobe von

N = 334 Teilnehmenden zu. Die Vergleiche zwischen BDI-II und den zwei Unterformen

des BDI-II-V (1 und 2) konnten naturgemäß nur in den jeweiligen Substichproben statt-

finden, die wiederum aus der Gesamtheit der 347 Teilnehmer jeweils durch den Aus-

schluss von Probanden mit fehlenden Werten in einem der Fragebögen gebildet wurden.

Der Umfang der Substichprobe zum Vergleich von BDI-II und BDI-II-V.1 belief sich

auf N = 169 Probanden. Zwischen dem BDI-II und dem BDI-II-V.2 (bzw.

BDI-II-V.2.Z) erfolgte der Vergleich in einer Stichprobe mit dem Umfang von N = 163

(bzw. 165) Personen.

Die Trennschärfeanalysen und die Hauptachsenanalysen der logarithmierten Items, auf

deren Basis Entscheidungen zur Verteilung der Items auf die Päckchen getroffen wur-

den, griffen auf die ursprüngliche Gesamtstichprobe von 347 Personen (+/- Missings für

die einzelnen Fragebögen) zu. Alle Angaben zu Trennschärfen von Items, die im Fol-

genden berichtet werden, beruhen dagegen auf erneut ausgeführten Berechnungen und

somit auf identischen Stichprobenumfängen für alle Inventare.

5.1.4 Beschreibung der Stichprobe

In Anbetracht der Tatsache, dass der Großteil der endgültigen Analysen auf der Stich-

probe mit dem Umfang von N = 325 Personen beruht, soll diese im Folgenden beschrie-

Ergebnisse 116

ben werden. Es wird zudem berichtet, mit welcher Häufigkeit die verschiedenen reali-

sierten Rotationen der BDIs in der Stichprobe vorkamen.

Die Substichproben zur Betrachtung des BDI-II-V.1 und BDI-II-V.2 werden nicht in

aller Ausführlichkeit beschrieben, sondern es wird im Anschluss an die Beschreibung

der Gesamtstichprobe lediglich auf Unterschiede zwischen diesen Substichproben, die

soziodemographischen Merkmale betreffend, eingegangen. Die genaue Verteilung der

soziodemographischen Variablen in der BDI-II-V.1-Substichprobe (N = 169),

BDI-II-V.2 -Substichprobe (N = 165), der hier beschriebenen Gesamtstichprobe

(N = 325) sowie der ursprünglichen Gesamtstichprobe (N = 347), aus der alle anderen

Analysestichproben durch den Ausschluss jeweils so vieler Fragebögen wie nötig her-

vorgingen, kann jedoch im direkten Vergleich Tabelle 17 in Anhang C entnommen

werden.

5.1.4.1 Beschreibung der Gesamtstichprobe

In der Analysestichprobe von 325 Teilnehmern waren 132 Probanden (40.6%) männ-

lich, 192 (59.1%) weiblich, eine Person hatte keine Angaben zum Geschlecht gemacht.

Der jüngste Proband war 16 Jahre alt, der älteste 84, der Altersschnitt lag bei

44.26 Jahren (SD = 17.40). Eine Person hatte ihr Alter nicht angegeben. Abbildung 7

zeigt, wie sich die Probanden auf verschiedenen Altersgruppen verteilen (die Verteilung

der Probanden auf die Kategorien in präzisen Zahlen findet sich bei Bedarf in Tabelle

17 in Anhang C).

Die Angaben zum höchsten erreichten Schulabschluss ergaben folgendes Bild: 1.5% der

Teilnehmenden besuchten aktuell noch die Schule. Von den weiteren Probanden hatten

0.6% keinen Schulabschluss erworben, 20.9% hatten die Haupt- oder Volksschule abge-

schlossen, die mittlere Reife besaßen 20.0% und 56.9% hatten Abitur oder Fachabitur

gemacht.

Auf die Frage nach einem berufsqualifizierenden Abschluss antworteten 18.2% der Pro-

banden, keine abgeschlossene Berufsausbildung zu haben. Hierunter fallen sowohl und

insbesondere jene Teilnehmenden, die sich noch in Schule, Erstausbildung oder Erst-

Ergebnisse 117

studium befanden (zusammen 12.9%)22

, als auch jene, welche auf ihrem Lebensweg

bislang keinen berufsqualifizierenden Abschluss erworben hatten, ohne sich aktuell auf

dem Ausbildungsweg zu befinden (5.3%). 43.7% der Teilnehmenden hatten eine Be-

rufsausbildung absolviert, 38.2% ein Fachhochschul- oder Hochschulstudium abge-

schlossen.

Abbildung 7 Verteilung der Probanden der Analysestichprobe mit dem Umfang N = 325 auf

verschiedene Altersgruppen

Gefragt nach der aktuellen Berufstätigkeit gaben 1.5% an, Schüler zu sein (s.o.), 2.5%

waren Auszubildende, 15.1% studierten aktuell an einer Universität oder Fachhochschu-

le, 6.8% waren Hausfrau oder Hausmann, 1.2% waren auf Arbeitssuche, 57.5% waren

erwerbstätig und 15.4% gaben an, Rentner oder Pensionär zu sein.

22

Wie im Folgenden zu sehen sein wird, liegt der Anteil der Schüler, Auszubildenden und Studenten in

der Stichprobe bei zusammen 19.1%. Die Differenz zu 12.9% ergibt sich aus der Tatsache, dass 25% der

Auszubildenden und 36.7% der Studenten bereits eine erste Ausbildung oder ein erstes Studium abge-

schlossen hatten.

Ergebnisse 118

Die Angaben zum legalen Familienstand ergaben, dass 38.2% der Teilnehmenden ledig

waren, 52.0% waren verheiratet, 6.2% geschieden und 3.7% verwitwet.

Befragt nach der aktuellen Partnerschaft gaben 16.6% an, ohne Partnerbeziehung zu

sein, 67.1% lebten in fester Partnerschaft oder Ehe mit einem Partner zusammen, 12.6%

hatten einen festen Partner oder Ehepartner, mit dem sie nicht zusammenlebten. 3.7%

wählten die Kategorie „weder noch“, wollten oder konnten sich also nicht festlegen, ob

eine feste Partnerschaft bestand oder nicht.

5.1.4.1.1 Kontrolle der ausbalancierten Reihenfolge

Bei exakter Gleichverteilung hätte jede der acht möglichen BDI-Rotationen bei 12.5%

der Fragebögen vorkommen müssen, was bei 325 Probanden etwa 41 Bögen entspricht.

Erwartungsgemäß schwanken die tatsächlichen Zahlen um diesen Wert und liegen zwi-

schen 27 Bögen (8.3%) und 51 Bögen (15.7%) pro möglicher Reihenfolge.

5.1.4.2 Vergleich der Stichprobencharakteristika der Substichproben

Im Folgenden werden die Substichproben, welche das BDI-II-V.1 und das BDI-II-V.2

erhalten haben, hinsichtlich der Stichprobencharakteristika verglichen.

Geht man von dem üblichen α-Niveau von 0.05 aus, so unterscheidet sich das Verhält-

nis von Frauen zu Männern nicht signifikant zwischen den Substichproben

(χ2 (1) = 1.80, p = .18; N = 333). Allerdings könnte man, da in dieser Überprüfung die

Nullhypothese die „Wunschhypothese“ darstellt, etwas strengere Maßstäbe anlegen und

einen p-Wert ≥ .20 verlangen. Dann müsste man die Geschlechtsdifferenzen (Substich-

probe BDI-II-V.1 56.2% Frauen; Substichprobe BDI-II-V.2 63.0% Frauen) als „signifi-

kant“ bezeichnen.

Die Teilnehmer sind in beiden Stichproben im Mittel gleich alt (t (328.281) = .82, p

= .41)23

. Ein Vergleich der Verteilung auf die ursprünglichen Altersgruppen (16 – 19,

20 – 29, …; siehe Tabelle 17 in Anhang C) wäre aufgrund mehrerer Zellen mit erwarte-

ten Häufigkeiten unter 5 schwierig umzusetzen gewesen. Die Verletzung der Vorausset-

zung für χ2-Tests von erwarteten Häufigkeiten über 5 in allen Zellen (Bortz, 2005) bzw.

nicht mehr als 20% der Zellen mit erwarteten Häufigkeiten unter 5 (Bühl, 2010) wird im

23

Aufgrund ungleicher Varianzen wurde die korrigierte Statistik interpretiert.

Ergebnisse 119

verwendeten Statistikprogramm IBM SPSS (Version 19) nur dann durch die Ausgabe

einer alternativen Statistik ausgeglichen, wenn es sich um eine Vier-Felder-Tafel han-

delt (Bühl, 2010). Dies war bei acht Altersgruppen nicht der Fall. Daher wurden statt-

dessen alternative Altersgruppen (16 – 25, 26 – 35, 36 – 45, 46 – 55, 56 – 65, 66 – 75,

76 – 85) gebildet und verglichen. Die Analyse bestätigte das Ergebnis des Mittelwert-

vergleiches. Es ergaben sich keine signifikanten Unterschiede (χ2 (6) = 4.29, p = .64;

N = 333).

Bezüglich des höchsten Schulabschlusses wurde zunächst der Anteil an Probanden mit

Volks- oder Hauptschulabschluss, mittlerer Reife und (Fach)Abitur verglichen, wobei

sich keine signifikanten Unterschiede zeigten (χ2 (2) = 2.83, p = .24; N = 327). Im An-

schluss wurden die gering besetzten Kategorien Schüler und kein Schulabschluss in

einer gesonderten Analyse ausgewertet und die alternative Signifikanz-Statistik für

Vier-Felder-Tafeln mit erwarteten Häufigkeiten kleiner als 5, der exakte Test nach Fis-

her, interpretiert. Die Differenzen zwischen den Stichproben wurden nicht signifikant

(χ2 (1) = .63, p = 1.00; N = 7). Einerseits ist zwar zu bedenken, dass der geringe Stich-

probenumfang dieser Analyse ein nicht-signifikantes Ergebnis begünstigt, andererseits

dürften jedoch Unterschiede in so minimalem Umfang, d. h. auf der Basis von 7 Perso-

nen, für die Vergleichbarkeit der Substichproben tatsächlich nur eine geringe Rolle

spielen.

Ebenso sind die Stichproben vergleichbar in Bezug auf den Anteil an Probanden ohne

abgeschlossene Berufsausbildung, mit abgeschlossener Berufsausbildung und abge-

schlossenem Studium (χ2 (2) = 2.01, p = .37; N = 334).

Zur Feststellung von Unterschieden in der aktuellen Berufstätigkeit mussten erneut ge-

trennte Analysen für verschiedene Kategorien vorgenommen werden, weil sonst zu vie-

le Zellen mit erwarteten Häufigkeiten unter 5 vorgelegen hätten, was nur in Vier-Felder-

Tafeln durch die Interpretation einer alternativen Statistik ausgeglichen werden kann. In

den Anteilen an Studenten, Hausfrauen/Hausmännern, Erwerbstätigen und Rent-

nern/Pensionären wurden keine signifikanten Unterschiede gefunden (χ2 (3) = 1.67, p

= .64; N = 317). In jeder der Teilstichproben befanden sich 2 Personen auf Arbeitssu-

che, was jeweils 1.2% entsprach. In der Vier-Felder-Analyse wurden außerdem Unter-

schiede zwischen der Anzahl an Schülern und Auszubildenden nicht signifikant

(χ2 (1) = 2.24, p = .27; N = 13; exakter Test nach Fisher). Allerdings gelten für diese

Ergebnisse 120

letzte Berechnung dieselben Bedenken wie für die Analyse der kleinen Stichprobe der

Schüler und Personen ohne Schulabschluss.

Auch ledige, verheiratete, geschiedene oder verwitwete Personen fanden sich nicht in

einer der Substichproben signifikant häufiger als in der anderen (χ2 (3) = 4.28, p = .23;

N = 334). Im χ2-Test zum Vergleich der Verteilung der Probanden auf unterschiedliche

Partnerschaftssituationen wurde ein marginal signifikantes Ergebnis erzielt. Der p-Wert

betrug .08 (χ2 (3) = 6.80; N = 333), was üblicherweise nicht als statistische Signifikanz

interpretiert wird, jedoch als signifikant gelten kann, wenn aufgrund der Tatsache, dass

keine Unterschiede gefunden werden sollen, strenger bewertet wird (s.o.).

Zusammenfassend lässt sich konstatieren, dass die beiden Teilstichproben bezüglich

ihrer Zusammensetzung vergleichbar sind. Die Unterschiede in den Anteilen an Pro-

banden in verschiedenen Partnerschaftssituationen sind nur marginal signifikant, jene

im Verhältnis von Frauen zu Männern noch weniger deutlich ausgeprägt.

5.2 Ergebnisse zur internen Konsistenz und Homogenität des

BDI-II-V (Hypothese I)

Die interne Konsistenz Cronbach’s α für das BDI-II-V beträgt .95 und liegt damit ent-

sprechend der Erwartung jenseits von .85. Die Items des BDI-II-V korrelieren im Mittel

zu .50 (Minimum .10, Maximum .79), so dass sich auch die Erwartungen an die mittlere

Inter-Item-Korrelation (M rii ≥ .30) erfüllt haben. Die korrigierten Trennschärfen der

Items betragen im Mittel .69; die niedrigste Trennschärfe weist mit .37 das Item Li-

bidoverlust auf, am engsten hängt mit einer korrigierten Trennschärfe von .83 das Item

Energieverlust mit dem Summenwert aller anderen Items zusammen. Das BDI-II-V

weist damit den Erwartungen entsprechend sehr hohe Homogenitätswerte auf.

Tabelle 8 sind zum direkten Vergleich die Itemtrennschärfen und internen Konsistenzen

aller eingesetzten BDI-Varianten in den unterschiedlichen Stichproben zu entnehmen.

Auf die Werte der verschiedenen Inventare wird im Laufe des Kapitels sukzessive Be-

zug genommen.

Ergebnisse 121

Tabelle 8 Korrigierte Trennschärfen und Cronbach’s α für alle eingesetzten Varianten des BDI in

der Gesamtstichprobe und den beiden Teilstichproben

BD

I

BD

I-V

BD

I-II

BD

I-II

-V

BD

I-II

.1

BD

I-II

-V.1

BD

I-II

.2

BD

I-II

-V.2

.Z

BD

I-II

-V.2

Item rit rit rit rit rit rit rit rit rit

Traurigkeit .58 .78 .66 .74 .64 .76 .70 .73 .73

Pessimismus .60 .76 .65 .78 .63 .79 .70 .77 .77

Versagensgefühle .57 .75 .61 .75 .61 .76 .68 .74 .74

Verlust von Freude .69 .70 .62 .76 .70 .83 .59 .64 .63

Schuldgefühle .59 .74 .55 .67 .58 .71 .55 .65 .66

Bestrafungsgefühle .46 .62 .48 .64 .50 .67 .52 .63 .64

Selbstablehnung .60 .77 .57 .75 .62 .78 .57 .73 .73

Selbstvorwürfe .53 .75 .66 .73 .67 .77 .67 .69 .69

Selbstmordgedanken .53 .54 .50 .44 .50 .47 .48 .39 .40

Weinen .52 .57 .49 .71 .52 .72 .49 .71 .71

Unruhe - - .65 .78 .70 .81 .62 .74 .74

Interessenverlust .50 .65 .59 .71 .59 .73 .67 .71 .72

Entschlussunfähigkeit .61 .64 .62 .71 .68 .74 .57 .69 .70

Wertlosigkeit - - .70 .78 .73 .83 .70 .73 .74

Energieverlust - - .69 .83 .66 .85 .73 .79 .79

Schlafveränderungen .47 .56 .49 .61 .54 .68 .45 .53 -

Schlafveränderungen - - - - - - - - - .37

Schlafveränderungen + - - - - - - - - .38

Reizbarkeit .47 .75 .58 .72 .57 .72 .62 .71 .71

Appetitveränderungen .30 .48 .36 .48 .36 .61 .35 .41 -

Appetitveränderungen - - - - - - - - - .48

Appetitveränderungen + - - - - - - - - .31

Konzentrationsschwierigkeiten - - .62 .73 .61 .76 .62 .71 .72

Ermüdbarkeit .61 .80 .64 .78 .65 .80 .64 .76 .76

Libidoverlust .32 .38 .32 .37 .35 .42 .33 .35 .36

negatives Körperbild .40 .60 - - - - - - -

Arbeitsunfähigkeit .61 .73 - - - - - - -

Hypochondrie .45 .57 - - - - - - -

Ergebnisse 122

BD

I

BD

I-V

BD

I-II

BD

I-II

-V

BD

I-II

.1

BD

I-II

-V.1

BD

I-II

.2

BD

I-II

-V.2

.Z

BD

I-II

-V.2

Gewichtsverlust .07 - - - - - - - -

M (rit) .50 .66 .57 .69 .59 .73 .58 .66 .63

α .89 .94 .92 .95 .92 .96 .92 .94 .94

Anmerkungen. N (BDI, BDI-V, BDI-II, BDI-II-V) = 325. N (BDI-II.1, BDI-II-V.1) = 169. N (BDI-II.2,

BDI-II-V.2.Z) = 165. N (BDI-II-V.2) = 163. rit = korrigierte Itemtrennschärfe. M (rit) = mittlere korrigier-

te Itemtrennschärfe. α = Cronbach’s α. Die niedrigste und höchste Itemtrennschärfe jedes Inventars ist

jeweils grau hinterlegt.

5.3 Weitere Ergebnisse zu psychometrischen Eigenschaften des

BDI-II-V

Der mittlere Summenwert des BDI-II-V beläuft sich auf 21.8 Punkte (SD = 18.1), der

Median liegt bei 17 Punkten, der Modalwert beträgt 9 Punkte. Das erste Quartil ist 9,

das zweite 17 und das dritte 32. Der minimale vorkommende Wert sind 0 Punkte; 13

Personen hatten angegeben, in den letzten zwei Wochen niemals unter einem der Symp-

tome gelitten zu haben. Das Maximum liegt bei 81 Punkten. Die Summenwerte sind mit

einer Schiefe von 1.09 und einer Kurtosis von 0.57 rechtsschief und etwas spitzgipfelig

verteilt. Die in der positiven Schiefe zum Ausdruck kommende hohe Schwierigkeit ist

dem Umstand geschuldet, dass es sich um ein Depressionsinventar handelt, das in einer

aus überwiegend Gesunden bestehenden Bevölkerungsstichprobe zum Einsatz kam.

Abbildung 8 veranschaulicht die Schiefe der Verteilung sehr deutlich.

Ergebnisse 123

Abbildung 8 Häufigkeitsverteilung der Summenwerte des BDI-II-V

(N = 325)

Die Itemmittelwerte des BDI-II-V liegen zwischen 0.18 (Item Selbstmordgedanken)

und 1.75 (Item Ermüdbarkeit), der mittlere Itemmittelwert beträgt1.04 (SD 0.37). Bei

einem Wertebereich von 0 bis 5 lassen diese Ergebnisse auch eine deutliche Rechts-

schiefe respektive eine hohe Schwierigkeit der Items erkennen, was erneut mit der

Stichprobenziehung zusammenhängt. Die mittlere Standardabweichung der Items be-

trägt 1.19, wobei abgesehen von den Items Selbstmordgedanken und Bestrafungsgefühle

alle Standardabweichungen über 1 liegen. Tabelle 9 gibt die Itemmittelwerte und ihre

Standardabweichungen für das BDI-II-V wieder. Zu Vergleichszwecken sind auch die

Ergebnisse in den Substichproben enthalten. Auf diese soll jedoch im Weiteren nicht

explizit eingegangen werden.

Ergebnisse 124

Tabelle 9 Itemmittelwerte und Itemstandardabweichungen für das BDI-II-V, BDI-II-V.1,

BDI-II-V.2.Z und BDI-II-V.2

BD

I-II

-V

BD

I-II

-V.1

BD

I-II

-V.2

.Z

BD

I-II

-V.2

Item M

(SD)

M

(SD)

M

(SD)

M

(SD)

Traurigkeit 1.12

(1.10)

1.10

(1.13)

1.15

(1.07)

1.15

(1.07)

Pessimismus 0.85

(1.10)

0.91

(1.15)

0.80

(1.05)

0.80

(1.05)

Versagensgefühle 0.72

(1.10)

0.71

(1.10)

0.72

(1.09)

0.72

(1.09)

Verlust von Freude 0.99

(1.17)

1.04

(1.22)

0.93

(1.09)

0.93

(1.09)

Schuldgefühle 0.80

(1.13)

0.78

(1.18)

0.85

(1.10)

0.85

(1.10)

Bestrafungsgefühle 0.44

(0.96)

0.48

(0.97)

0.42

(0.96)

0.42

(0.96)

Selbstablehnung 0.90

(1.23)

0.93

(1.31)

0.87

(1.17)

0.87

(1.17)

Selbstvorwürfe 1.22

(1.23)

1.21

(1.25)

1.25

(1.23)

1.25

(1.23)

Selbstmordgedanken 0.18

(0.59)

0.21

(0.67)

0.15

(0.46)

0.15

(0.46)

Weinen 0.90

(1.20)

0.95

(1.27)

0.87

(1.14)

0.87

(1.14)

Unruhe 1.39

(1.25)

1.47

(1.35)

1.32

(1.14)

1.32

(1.14)

Interessenverlust 0.90

(1.08)

0.97

(1.18)

0.87

(1.02)

0.87

(1.02)

Entschlussunfähigkeit 1.23

(1.25)

1.23

(1.26)

1.25

(1.27)

1.25

(1.27)

Wertlosigkeit 0.59

(1.07)

0.65

(1.16)

0.55

(1.00)

0.55

(1.00)

Energieverlust 1.30

(1.34)

1.37

(1.40)

1.24

(1.26)

1.24

(1.26)

Schlafveränderungen 1.54

(1.55)

1.34

(1.55)

1.75

(1.52)

-

Schlafveränderungen - - - - 1.04

(1.35)

Schlafveränderungen + - - - 1.02

(1.39)

Ergebnisse 125

BD

I-II

-V

BD

I-II

-V.1

BD

I-II

-V.2

.Z

BD

I-II

-V.2

Reizbarkeit 1.30

(1.22)

1.33

(1.30)

1.30

(1.15)

1.30

(1.15)

Appetitveränderungen 1.13

(1.38)

0.83

(1.22)

1.47

(1.49)

-

Appetitveränderungen - - - - 0.47

(0.92)

Appetitveränderungen + - - - 1.29

(1.46)

Konzentrationsschwierigkeiten 1.32

(1.18)

1.38

(1.30)

1.27

(1.08)

1.27

(1.08)

Ermüdbarkeit 1.75

(1.42)

1.72

(1.44)

1.82

(1.41)

1.82

(1.41)

Libidoverlust 1.26

(1.38)

1.23

(1.44)

1.31

(1.35)

1.31

(1.35)

mittlerer Itemmittelwert

(SD)

1.04

(0.37)

1.04

(0.36)

1.05

(0.41)

0.99

(0.38)

mittlere Itemstandardabw. 1.19 1.23 1.15 1.14

Anmerkungen. N (BDI-II-V) = 325. N (BDI-II-V.1) = 169. N (BDI-II-V.2.Z) = 165.

163 ≤ N (BDI-II-V.2) ≤ 165. M = mittlerer Itemwert. SD = Standardabweichung.

Um die faktorielle Struktur des neuen Instruments zu explorieren, wurden die Items des

BDI-II-V einer Hauptachsenanalyse (N = 339) unterzogen. Eine Parallelanalyse nach

Horn legte knapp die Extraktion eines Faktors nahe (anfänglicher Eigenwert des ersten

Faktors 11.32, zugehöriger zufälliger Eigenwert 1.74; anfänglicher Eigenwert des zwei-

ten Faktors 1.49, zugehöriger zufälliger Eigenwert 1.58; zur Erzeugung des zufälligen

Eigenwerteverlaufs wurde eine von O’Connor (2000) bereitgestellte Syntax verwendet).

Das Kriterium der Eigenwerte größer 1 ist nur auf Hauptkomponentenanalysen an-

wendbar (Bühner, 2006), hätte aber die Extraktion zweier (hoch korrelierter, r = .76)

Faktoren ergeben. Der Screeplot (Abbildung 9) kann so interpretiert werden, dass es

einen ersten starken Faktor gibt, wobei ein zweiter kleiner Knick auch die Interpretation

erlaubt, dass zwei Faktoren extrahiert werden dürfen.

Ergebnisse 126

Abbildung 9 Screeplot der Faktoreigenwerte einer Hauptachsenanalyse der

Items des BDI-II-V

In Anbetracht des nicht vollständig eindeutigen Ergebnisses wurden beide Lösungen

(Extraktion eines und zweier Faktoren) durchgeführt. Wird eine Hauptachsenanalyse

gerechnet, in der ein Faktor extrahiert wird, erklärt dieser .51.8% der Varianz. Die Items

korrelieren zwischen .84 und .39 (im Durchschnitt .71) mit dem Faktor, so dass dieser

entsprechend zwischen 71% und 15% der Varianz eines Items erklärt (durchschnittlich

51.8%, s.o.).

Extrahiert man zwei Faktoren, können diese zusammen natürlich etwas mehr Varianz

aufklären (57.3%; erster Faktor 52.1%, zweiter Faktor 5.2%). Von der Varianz eines

Items werden durch beide Faktoren zwischen 78% und 20% erklärt (durchschnittlich

57.3%, s.o.). Die hohe Faktorinterkorrelation legte eine oblique Rotation nahe (es wurde

die Promax-Technik eingesetzt). Auf dem ersten Faktor laden die Items Traurigkeit,

Pessimismus, Versagensgefühle, Schuldgefühle, Bestrafungsgefühle, Selbstablehnung,

Selbstvorwürfe, Selbstmordgedanken, Weinen und Wertlosigkeit höher, so dass er

hauptsächlich kognitive, mit Traurigkeit und Weinen aber auch affektive Symptome

enthält (vgl. Hautzinger et al., 2006). Auf dem zweiten Faktor weisen die Items Verlust

Ergebnisse 127

von Freude, Unruhe, Interessenverlust, Entschlussunfähigkeit, Energieverlust,

Schlafveränderungen, Reizbarkeit, Appetitveränderungen, Konzentrationsschwierigkei-

ten, Ermüdbarkeit und Libidoverlust den höheren Ladungsbetrag auf, so dass er somati-

sche, aber auch weitere affektive Aspekte abbildet (vgl. Hautzinger et al., 2006). Eine

perfekte Einfachstruktur mit durchgängig hohen Haupt- und geringen Nebenladungen

lässt sich jedoch nicht erzielen. Tabelle 10 gibt die Mustermatrix (partielle standardi-

sierte Regressionsgewichte der Items mit den beiden Faktoren) wieder.

Tabelle 10 Partielle standardisierte Regressionsgewichte der Items des

BDI-II-V mit den beiden extrahierten Faktoren einer Hauptach-

senanalyse nach Promax-Rotation.

Item Faktor 1 Faktor 2 Item

Traurigkeit .55 .27

Pessimismus .52 .33

Versagensgefühle .99 -.14

.32 .49 Verlust von Freude

Schuldgefühle .87 -.11

Bestrafungsgefühle .61 .10

Selbstablehnung .92 -.07

Selbstvorwürfe .87 -.06

Selbstmordgedanken .34 .14

Weinen .48 .29

.18 .67 Unruhe

.05 .74 Interessenverlust

.22 .57 Entschlussunfähigkeit

Wertlosigkeit .78 .10

.23 .67 Energieverlust

-.23 .88 Schlafveränderungen

.21 .57 Reizbarkeit

.09 .42 Appetitveränderungen

.05 .76 Konzentrations-

schwierigkeiten

.04 .81 Ermüdbarkeit

-.11 .53 Libidoverlust

↓ ↓

kognitiv/affektiv somatisch/affektiv

Anmerkungen. N = 339.

Ergebnisse 128

Es lässt sich erkennen, dass etwa die Hälfte der Items eindeutig einem Faktor zugeord-

net werden kann, während die andere Hälfte der Items kein zufriedenstellendes Verhält-

nis von Haupt- zu Nebenladung aufweist.

5.4 Ergebnisse zur Konstruktvalidität des BDI-II-V (Hypothese II)

Um Hinweise auf die Konstruktvalidität des BDI-II-V zu erhalten, sollen die Korrelati-

onen nach Pearson zwischen dem Summenwert des Inventars und den Skalen des NEO-

Fünf-Faktoren Inventars (Borkenau & Ostendorf, 2008) mit den Erwartungen vergli-

chen werden. Die Koeffizienten sind in Tabelle 11 (rechte äußere Spalte; alle anderen

Spalten werden in Abschnitt 5.7 besprochen) abgetragen. Mit der Skala Neurotizismus

korreliert das BDI-II-V erwartungsgemäß hoch positiv (r = .79, p = .00). Der Zusam-

menhang mit der Skala Extraversion beträgt -.50 (p = .00), was den Erwartungen

(-.3 ≤ ϱ ≤ -.4) sehr nahe kommt. Überraschend negativ fällt die Korrelation mit Offen-

heit für Erfahrung aus. Erwartet wurde ein schwach positiver Zusammenhang. Jedoch

wird der Koeffizient trotz der großen Stichprobe nur marginal signifikant (r = -.11, p

= .052). Wie erwartet besteht mit Verträglichkeit eine mäßig negative Assoziation

(r = -.25, p = .00). Der Zusammenhang zwischen dem BDI-II-V und Gewissenhaftigkeit

fällt mit -.41. (p = .00) im Betrag ein wenig höher aus als erwartet (-.1 ≤ ϱ ≤ -.3), die

Richtung des Zusammenhanges stimmt jedoch mit den Erwartungen überein.

Tabelle 11 Produkt-Moment-Korrelationen verschiedener BDI-Formen mit

den Skalen des NEO-FFI

BDI BDI-V BDI-II BDI-II-V

Neurotizismus .75**

.78**

.77**

.79**

Extraversion -.53**

-.51**

-.55**

-.50**

Offenheit -.16**

-.12* -.14

* -.11

Verträglichkeit -.33**

-.29**

-.31**

-.25**

Gewissenhaftigkeit -.36**

-.39**

-.37**

-.41**

Anmerkungen. N = 323. ** signifikant auf dem Niveau von 0.01 (zweiseitig). *

signifikant auf dem Niveau von 0.05 (zweiseitig).

Ergebnisse 129

5.5 Ergebnisse zur Entsprechung von BDI-II-V und BDI-II (Hypo-

these III)

Es werden zunächst die Ergebnisse zur Konvergenz von BDI-II-V und BDI-II auf de-

skriptiver Ebene (Hypothesen III.a.1 bis III.a.5) dargestellt und im Anschluss die Resul-

tate der Durchführung konfirmatorischer Faktorenanalysen (Hypothese III.b) präsen-

tiert.

Ergebnisse zur Korrelation auf Item- und Summenwertebene (Hypothese III.a.1). Die

Summenwerte von BDI-II und BDI-II-V korrelieren in Höhe von .86 (p = .00) und er-

reichen damit die Erwartungen.

Die durchschnittliche Korrelation zwischen einem Item des Originals und dem entspre-

chenden Item in der verkürzten Version beträgt .65, was ebenfalls den Erwartungen

entspricht. Die einzelnen Koeffizienten liegen im Bereich zwischen .51 (Item Appetit-

veränderungen) und .76 (Item Selbstmordgedanken; alle p = .00).

Tabelle 12 listet die Korrelationen auf der Ebene der Items und auf der Ebene der

Summenwerte zwischen Original und Verkürzung in der Gesamtstichprobe sowie in

den Teilstichproben 1 und 2 auf. Auf die Ergebnisse in den Teilstichproben wird im

weiteren Verlauf der Analysen Bezug genommen.

Ergebnisse zum Vergleich der Summenwerte (Hypothese III.a.2). Der mittlere Sum-

menwert des BDI-II liegt bei 9.0 Punkten (SD = 8.0), im BDI-II-V erreichen die Pro-

banden durchschnittlich einen Wert von 21.8 Punkten (SD = 18.1; s.o.). Diese Werte

sind nicht direkt vergleichbar, da die beiden Inventare unterschiedlich skaliert sind (vgl.

Abschnitt 4.7.3 zur Reskalierung der verkürzten BDIs). Der mittlere Summenscore des

reskalierten BDI-II-V beträgt 13.1 Punkte (SD = 10.8). Vergleicht man die durchschnitt-

lichen Werte der Probanden im BDI-II mit denen im BDI-II-V.R mittels t-Test, ergibt

sich entgegen der Vorhersage ein signifikanter Unterschied (t (324) = -6.87, p = .00).

(Tabelle 18 in Anhang C stellt zur Übersicht die mittleren Summenwerte aller Inventare

zusammen.)

Ergebnisse 130

Tabelle 12 Korrelation zwischen BDI-II und BDI-II-V, zwischen BDI-II.1 und BDI-II-V.1 sowie

zwischen BDI-II.2 und BDI-II-V.2/.Z auf der Ebene der Items und der Summenwerte

r(BDI-II,BDI-II-V) r(BDI-II.1,BDI-II-V.1) r(BDI-II.2,BDI-II-V.2/.Z)

Traurigkeit .70 .75 .67

Pessimismus .70 .69 .74

Versagensgefühle .64 .58 .70

Verlust von Freude .60 .66 .52

Schuldgefühle .65 .70 .60

Bestrafungsgefühle .70 .59 .78

Selbstablehnung .65 .64 .66

Selbstvorwürfe .55 .60 .50

Selbstmordgedanken .76 .75 .78

Weinen .62 .59 .65

Unruhe .60 .65 .52

Interessenverlust .53 .55 .56

Entschlussunfähigkeit .65 .71 .60

Wertlosigkeit .74 .81 .65

Energieverlust .64 .65 .63

Schlafveränderungen

Schlafveränderungen-

Schlafveränderungen+

.56 .62 .49

.47

.22

Reizbarkeit .64 .68 .59

Appetitveränderungen

Appetitveränderungen-

Appetitveränderungen+

.51 .66 .41

.40

.24

Konzentrationsschwierigkeiten .75 .76 .72

Ermüdbarkeit .66 .69 .63

Libidoverlust .74 .76 .76

M (r) auf Itemebene .65 .67 .64

r auf Summenwertebene .86 .87 .84♠

.83♣

Anmerkungen. ♠ BDI-II-V.2.Z. ♣ BDI-II-V.2. N r(BDI-II, BDI-II-V) = 325. N r(BDI-II.1, BDI-II-V.1) = 169. 163 ≤ N

r(BDI-II.2, BDI-II-V.2./Z) ≤ 165. Alle Koeffizienten sind signifikant auf dem Niveau von 0.01 (zweiseitig). Die

niedrigste und höchste Korrelation auf Itemebene ist für jedes Inventar grau hinterlegt (ausgenommen die

Koeffizienten der Items zu Schlafabnahme und –zunahme respektive Appetitabnahme und –zunahme des

BDI-II-V.2). r = Pearsons Produkt-Moment-Korrelation. M (r)= mittlere Korrelation.

Ergebnisse zum Vergleich der internen Konsistenzen (Hypothese III.a.3). Den Erwar-

tungen entsprechend besitzt das BDI-II-V keine geringere interne Konsistenz als das

BDI-II (α = .95 für ersteres bzw. 92 für letzteres; siehe Tabelle 8).

Ergebnisse 131

Ergebnisse zum Vergleich der Trennschärfen (Hypothese III.a.4). Bis auf ein Item

(Selbstmordgedanken; vgl. Tabelle 8) liegen die part-whole-korrigierten Trennschärfen

der Items des BDI-II-V wie vorhergesagt jeweils über denen der entsprechenden Items

des BDI-II.

Um zu untersuchen, ob die Items in beiden Inventaren den gleichen relativen Bezug

zum Summenwert aufweisen, wurden Spearman-Rangkorrelationen zwischen den

Trennschärfen berechnet. Das Ergebnis belegt mit einem Koeffizienten von .86

(p = .00), dass die Trennschärfeprofile von BDI-II-V und BDI-II eine hohe Ähnlichkeit

aufweisen und bestätigt so die Erwartungen (ϱp ≥ .5) sehr deutlich.

Ergebnisse zum Vergleich der Zusammenhänge mit anderen Variablen (Hypothese

III.a.5) Tabelle 11 lässt gut erkennen, dass BDI-II-V und BDI-II wie vorhergesagt ähn-

lich hoch mit den Persönlichkeitseigenschaften Neurotizismus, Extraversion, Offenheit

für Erfahrung, Verträglichkeit und Gewissenhaftigkeit korrelieren. Die Differenzen sind

sehr gering und schwanken zwischen .02 Punkten für Neurotizismus und .06 Punkten

für Gewissenhaftigkeit.

Ergebnisse zur inferenzstatistischen Überprüfung der Messäquivalenz von BDI-II-V und

BDI-II (Hypothese III.b)24

. Bei der Überprüfung, ob ein Modell essentiell τ-paralleler

Variablen die Zusammenhänge zwischen dem BDI-II und dem BDI-II-V beschreiben

kann (siehe Abbildung 2 in Abschnitt 4.3.1.1), zeigen die Modellgüteindizes keinen

zufriedenstellenden Fit an (Mittelwerte, Standardabweichungen, Schiefe und Kurtosis

der als Indikatoren dienenden Summenwerte finden sich in Tabelle 21 A in Anhang C).

Der Unterschied zwischen der modellimplizierten und der empirisch gefundenen Vari-

anz-Kovarianz-Matrix wird hochsignifikant (χ2 (1) = 70.42, p = .00), RMSEA und

SRMR liegen mit .46 beziehungsweise .19 deutlich über den akzeptablen Grenzwerten

(≤.10 bzw. ≤.08); ebenso unterschreiten CFI und TLI (jeweils .78) den gewünschten

Wert (≥.95). Für alle Parameter (Ladungsparameter sowie Fehlervarianzen) weisen auch

hohe Modifikationsindizes auf die inakzeptable Modellspezifikation hin. Abbildung 10

gibt zur Orientierung dennoch die errechneten vollständig standardisierten Modellpara-

meter wieder, die alle signifikant werden (p = .00).

24

Die in diesem Abschnitt berichteten Analysen beruhen auf einem Stichprobenumfang von N = 334.

Ergebnisse 132

Abbildung 10 Vollständig standardisierte

Modellparameter für das

Modell essentiell τ-

paralleler Variablen des

BDI-II und BDI-II-V. Der

Modellfit ist nicht zufrie-

denstellend.

Um die deutliche Rechtsschiefe der Indikatorvariablen zu reduzieren, wurde die Analy-

se unter Verwendung logarithmierter Summenwerte wiederholt (sowohl für reskalierte,

als auch für nicht-reskalierten Summenwert des BDI-II-V). Die logarithmische Trans-

formation der Summenwerte verringerte tatsächlich den Betrag ihrer Schiefe und Kurto-

sis (siehe Tabelle 21 B in Anhang C). Allerdings indizierten sowohl Kolmogorov-

Smirnov-Test als auch Shapiro-Wilk-Test wie schon für die Rohsummenwerte auch für

die transformierten Werte weiterhin signifikante Abweichungen von einer Normalver-

teilung (p = .00).

Werden logarithmierte (jedoch nicht reskalierte) Summenwerte eingesetzt, kann ein

perfekter Modellfit erzielt werden (χ2 (1) = 0.001, p = .98; RMSEA und SRMR = .00,

CFI und TLT = 1.00). Der Fit bei logarithmierten und (für das BDI-II-V) reskalierten

Indikatoren ist nur teilweise zufriedenstellend (χ2 (1) = 8.48, p = .004; RMSEA = .15;

jedoch: SRMR = .06, CFI und TLI = .98).

Der perfekte Fit eines Modells essentiell τ-paralleler Variablen bei logarithmierten

Summenscores könnte ein Hinweis sein auf mögliche Ursachen für die schlechte Pas-

sung des postulierten Modells bei den nicht transformierten Daten. Allerdings ist damit

BDI-II

y1

BDI-II-V

y2

λ11

.91

λ21

.91=

ε1

.18

ε2

.18

=

Depressivität

η1

1.00

Ergebnisse 133

nicht die Frage nach der Stufe der Äquivalenz von BDI-II und BDI-II-V beantwortet.

Um dieser weiter nachzugehen, wurde explorativ überprüft, ob die Annahme einer per-

fekten latenten Korrelation zwischen BDI-II und BDI-II-V haltbar ist, wenn diese je-

weils als ein Faktor modelliert werden (siehe Abbildung 3 in Abschnitt 4.3.1.2)25

. Wie

bereits behandelt (Abschnitt 4.7.5), unterscheiden sich die Resultate für ein solches

Modell in Abhängigkeit von der Verteilung der Items auf die als Indikatoren dienenden

Testhälften. Die letztendlich verwendeten Itempäckchen, die Mittelwerte, Standardab-

weichungen, Schiefe und Kurtosis dieser Summenwerte sowie die manifesten Inter-

Indikator-Korrelationen können den Tabellen 19, 21 C und 22 in Anhang C entnommen

werden.

Die Fitstatistiken ergeben ein gemischtes Bild. Der strenge Maßstab des χ2 –Tests wird

nicht erfüllt (χ2 (2) = 23.33, p = .00), ebenso liegt der RMSEA (.18) eindeutig jenseits

der akzeptablen Grenze (≤.10). Der SRMR dagegen bleibt mit .03 unter dem Cutoff

(≤.08), ebenso fallen CFI (.98) und TLI (.93) erfreulich hoch aus, wenn auch der TLI

minimal hinter dem eigentlichen Ziel von ≥.95 zurückbleibt.

Erwartungsgemäß lässt sich der Fit verbessern, wenn die Festlegung der Faktorinterkor-

relation auf 1 gelockert wird. Alle Güteindizes zeigen dann perfekten Fit an

(χ2 (1) = 0.00, p = .98; RMSEA und SRMR = .00, CFI = 1.00, TLI = 1.01). Der Unter-

schied im Fit ist signifikant (χ2s

(1) = 18.76, p < .01). Der RMSEA beträgt auch bei

Verwendung des ML-Schätzers, der keine begünstigende Anpassung für die Vertei-

lungseigenschaften der Daten vornimmt und zudem Vertrauensintervall und Close Fit-

Statistik für den Index ausgibt, .00; das 90%-Konfidenzintervall für den RMSEA liegt

„zwischen“ .00 und .00, die Wahrscheinlichkeit, dass der RMSEA kleiner oder gleich

.05 ist (Close Fit), beläuft sich auf .98. Auch im Falle der Schätzung mit ML fällt der χ2-

Test vollkommen zufriedenstellend aus (χ2 (1) = 0.00, p = .97).

25

Genau genommen wurde die Korrelation zwischen η1 und η2 in der Programmsyntax von Mplus

(Muthén und Muthén, 1998 – 2010) nicht, wie in Abschnitt 4.3.1.2 beschrieben, auf 1.0, sondern auf

0.9999 festgesetzt, um die Warnmeldung des Programms zu unterdrücken, die auf eine nicht positiv defi-

nite Kovarianzmatrix der latenten Variablen in Folge der Korrelation von 1.0 hinwies. Der Unterschied in

den ausgegebenen Güteindizes zwischen einer Syntax, welche die Korrelation auf 1.0 fixierte, und einer

Syntax, welche die Korrelation auf 0.9999 setzte, betraf ausschließlich die zweite und dritte Nachkom-

mastelle des χ2-Wertes (p-Wert und alle anderen Güteindizes blieben unberührt) und war demnach zu

vernachlässigen. Die Unterschiede in den vollständig standardisierten sowie unstandardisierten Parame-

terschätzern waren mit einem Unterschied von maximal 0.01 Punkten ebenso irrelevant. Die Korrelation

wird in der Ausgabe in jedem Fall auf 1.000 gerundet angegeben.

Ergebnisse 134

Die Modifikationsindizes bilden die Differenzen im Fit der beiden Modelle mit und

ohne Fixierung der Faktorinterkorrelation auf 1.0 entsprechend ab. So legen sie für das

Modell mit fixierter latenter Korrelation eine Aufhebung derselben sowie Fehlerkorrela-

tionen jeweils zwischen den beiden Parcels sowohl des BDI-II als auch des BDI-II-V

nahe, betragen aber 0.00 im Modell mit frei geschätzter latenter Korrelation. Abbildung

11 veranschaulicht die geschätzten, vollständig standardisierten Modellparameter für

beide Modelle. Alle Parameter werden signifikant (p = .00). Mit einem Wert von .92

liegt die messfehlerbereinigte Korrelation zwischen BDI-II und BDI-II-V dennoch sehr

hoch, wenn sie auch nicht perfekt ist.

Abbildung 11 Vollständig standardisierte Modellparameter für die Modelle mit fixierter perfekter

Korrelation (obere Werte) und mit frei geschätzter Korrelation (untere Werte) zwi-

schen den latenten Variablen des BDI-II und BDI-II-V. Das Modell mit fixierter Kor-

relation weist keinen vollständig zufriedenstellenden Fit auf. Das Modell mit frei ge-

schätzter Korrelation fittet perfekt.

λ11

.85

.90

λ21

.82

.87

ε1

.29

.19

ε2

.33

.24

BDI-II

η1

1.00

1.00

λ32

.96

.96

λ42

.97

.97

ε3

.08

.07

ε4

.06

.06

BDI-II-V

η2

1.00

1.00

BDI-II-V: Parcel 2

y4

BDI-II-V: Parcel 1

y3

BDI-II: Parcel 2

y2

BDI-II: Parcel 1

y1

Ψ12

1.00

0.92

Ergebnisse 135

5.6 Ergebnisse zum Vergleich von BDI-II-V.1 und BDI-II-V.2 (Hy-

pothese IV)

In diesem Abschnitt sollen die Hypothesen überprüft werden, die sich auf die Fragestel-

lung beziehen, welche der beiden Subformen des BDI-II-V näher an das Original her-

ankommt. Bevor die statistischen Ergebnisse dazu dargelegt werden, werden die zwei

Teilstichproben, in denen die beiden Inventare BDI-II-V.1 und BDI-II-V.2 zum Einsatz

kamen, auf Unterschiede in der Depressivität untersucht, um diese gegebenenfalls bei

der Interpretation der Ergebnisse der Hypothesenprüfung berücksichtigen zu können.

5.6.1 Überprüfung der Voraussetzungen

Voraussetzung für die vorgesehenen Vergleiche ist die Vergleichbarkeit der Substich-

proben. Hinsichtlich soziodemographischer Charakteristika wurde diese weitestgehend

belegt (Abschnitt 5.1.4.2). Ob sich auch das durchschnittliche Niveau der Depressivität

in beiden Substichproben entspricht, ist nicht mit letzter Sicherheit zu sagen. Der durch-

schnittliche Summenwert des BDI-II liegt in der Stichprobe mit BDI-II-V.1 bei 9.9

Punkten (SD = 8.7), in der Stichprobe mit BDI-II-V.2 bei 8.3 Punkten (SD = 7.7). Der t-

Test für unabhängige Stichproben wird – nach üblichen Maßstäben – gerade nicht mehr

signifikant (t (328.955) = 1.76, p = .08); bei einem angestrebten p-Wert ≥ .2 müsste man

jedoch von überzufälligen Unterschieden in der Depressivität sprechen, wenn auch ein-

gewandt werden darf, dass aufgrund der recht großen Stichprobe auch ein wenig be-

deutsamer Unterschied Signifikanz erlangt haben könnte. Der Test auf Varianzhomoge-

nität fällt negativ aus (F (1; 332) = 4.65; p = .03) (weswegen die korrigierte Statistik zu

interpretieren war). Dagegen weisen die Resultate des BDI-II-V nicht auf unterschiedli-

che Depressivität beider Stichproben hin. Der durchschnittliche Summenwert des

BDI-II-V.1 beläuft sich auf 21.8 Punkte (SD = 19.6), jener des BDI-II-V.2.Z auf 22.1

Punkte (SD = 16.8), der t-Test ist klar nicht signifikant (t (326.594) = -.15, p = .88),

allerdings muss auch hier von nicht homogenen Varianzen ausgegangen werden

(F (1; 332) = 5.21, p = .02). Die Summenwerte des BDI-II-V.1 und des BDI-II-V.2.Z

können aufgrund des unterschiedlichen Wertebereiches nicht verglichen werden.

Da es sich beim BDI-II um das etablierte Inventar handelt, wohingegen sich beide For-

men des BDI-II-V in den gegenwärtigen Analysen erst bewähren müssen, ist dem

BDI-II in der vorliegenden Frage etwas mehr Gewicht zu geben. Dies bedeutet, dass bei

Ergebnisse 136

den folgenden Auswertungen zu bedenken ist, dass der Vergleich von BDI-II-V.1 und

BDI-II-V.2 im Hinblick auf ihre Ähnlichkeit zum BDI-II auf der Basis nicht vollständig

identischer Bedingungen stattfindet, was die Verteilung depressiver Merkmale anbe-

trifft. Gleichwohl kann davon ausgegangen werden, dass es sich nur um sehr geringe

Unterschiede handelt.

5.6.2 Ergebnisse der Analysen

Den Resultaten zur Konvergenz von BDI-II und BDI-II-V.1, BDI-II-V.2 sowie

BDI-II-V.2.Z auf deskriptiver Ebene (Hypothesen IV.a.1 bis IV.a.3) folgen die Ergeb-

nisse der konfirmatorischen Faktorenanalysen (Hypothese IV.b).

Ergebnisse zur Korrelation auf Item- und Summenwertebene (Hypothese IV.a.1). Die

Annahme, dass der Summenwert des BDI-II höher mit dem Summenwert des BDI-II-V

zusammenhängt in der Teilstichprobe von Probanden, die das BDI-II-V.2 vorgelegt

bekamen, als in der Teilstichprobe, in der das BDI-II-V.1 ausgefüllt wurde, bestätigt

sich nicht. Die Korrelation fällt umgekehrt mit .87 (p = .00) etwas höher aus zwischen

BDI-II.1 und BDI-II-V.1 als zwischen BDI-II.2 und BDI-II-V.2 beziehungsweise

BDI-II.2 und BDI-II-V.2.Z (r = .83 bzw. .84, p = .00; vgl. Tabelle 12), wobei die Diffe-

renzen minimal sind und nicht auf Signifikanz überprüft wurden, so dass sie für sich

genommen nicht interpretiert werden dürfen.

Der äußerst geringe Unterschied der Korrelation mit dem Original zwischen beiden

Teilstichproben überrascht nicht in Anbetracht der Tatsache, dass 19 von 23 Items der

beiden Fragebögen BDI-II-V.1 und BDI-II-V.2 respektive 19 von 21 Items der beiden

Fragebögen BDI-II-V.1 und BDI-II-V.2.Z identisch sind. Interessanter ist also der Ver-

gleich der Korrelationen auf Ebene jener Items, welche sich zwischen den Fragebögen

unterscheiden. Es sind dies die Items zu Veränderungen des Schlafs und des Appetits.

Die Resultate (in Tabelle 12 durch Einrahmung hervorgehoben) fallen eindeutiger aus

als für die Korrelation auf Ebene der Summenwerte. Es ergibt sich – ebenfalls hypothe-

senkonträr –, dass das Item des BDI-II, das nach Veränderungen des Schlafs fragt, zu

.62 (p = .00) mit dem Item zu Schlafveränderungen des BDI-II-V.1 korreliert, jedoch

nur zu .49 (p = .00) mit dem zusammengefassten Schlaf-Item des BDI-II-V.2.Z. Die

Korrelation mit dem Item des BDI-II-V.2, das eine Verringerung des Schlafes abfragt,

liegt bei .47 (p = .00), die Korrelation mit dem Item des BDI-II-V.2, das eine Zunahme

Ergebnisse 137

des Schlafes abfragt, bei nur .22 (p = .004). Auch beim Abbild der Veränderungen des

Appetits scheint das BDI-II-V.1 entgegen den Erwartungen das entsprechende Item des

BDI-II-V besser widerzuspiegeln als das BDI-II-V.2 respektive das BDI-II-V.2.Z, wo-

bei die Differenzen noch höher ausfallen als bei den Items zum Schlaf: Die entspre-

chenden Korrelationen liegen bei .66 (BDI-II.1, BDI-II-V.1; p = .00) und .41 (BDI-II.2,

BDI-II-V.2.Z; p = .00; für das Item zur Verringerung des Appetits des BDI-II-V.2

bei .40 (p = .00), für das Item zur Zunahme des Appetits des BDI-II-V.2 bei .24

(p = .002)). Die Korrelationen zwischen den Items zu Schlaf und Appetit sind mit .49

respektive .41 die niedrigsten Korrelationen überhaupt zwischen den Items des BDI-II.2

und den Items des BDI-II-V.2.Z und liegen noch unter der niedrigsten Korrelation, die

sich zwischen den Items des BDI-II.1 und den Items des BDI-II-V.1 ergibt (r = .55 für

die Items zum Interessenverlust, vgl. Tabelle 12).

Ohne dass eine Hypothese dazu formuliert worden wäre, fiel des Weiteren auf, dass die

mittlere Inter-Item-Korrelation für das BDI-II-V.1 mit .55 (SD = 0.13) höher ausfiel als

für das BDI-II-V.2.Z, dessen Items im Durchschnitt zu .46 (SD = 0.15) miteinander

korrelierten respektive als für das BDI-II-V.2, in dem sich der mittlere Zusammenhang

zwischen den Items auf .42 (SD = .17) belief.

Ergebnisse zum Vergleich der Summenwerte (Hypothese IV.a.2). Zunächst ist erneut zu

beachten, dass die Summenwerte zwischen Original und Verkürzung erst nach der Res-

kalierung der verkürzten Version direkt verglichen werden können. Außerdem erübrigt

sich ein Vergleich zwischen dem BDI-II und dem BDI-II-V.2, da letzterer aufgrund

einer höheren Zahl an Items schon natürlich einen höheren Summenwert haben muss

(es kann also nur das BDI-II-V.2.Z berücksichtigt werden). Stellt man die mittleren

Summenwerte von BDI-II.1 und BDI-II-V.1.R einander gegenüber, ergibt sich eine

mittlere Differenz von -3.17, die im t-Test signifikant wird (t (168) = -6.93, p = .00).

Die mittlere Differenz der Summenwerte von BDI-II.2 und BDI-II-V.2.R fällt mit -4.94

höher aus (t (164) = -11.40, p = .00). Dies widerspricht der Vorannahme, dass die Ähn-

lichkeit auf Ebene der Summenwerte zwischen dem BDI-II und dem BDI-II-V.2 höher

sein würde als zwischen dem BDI-II und dem BDI-II-V.1. (Tabelle 18 in Anhang C gibt

alle mittleren Summenwerte wieder.)

Ergebnisse zum Vergleich der Trennschärfen (Hypothese IV.a.3). Die Beziehungen, die

die einzelnen Items zum Summenwert aller anderen Items aufweisen, sollten sich zwi-

Ergebnisse 138

schen BDI-II und BDI-II-V.2.Z besser entsprechen als zwischen BDI-II und BDI-II-V.1

(erneut ist ein direkter Vergleich zwischen BDI-II und BDI-II-V.2 aufgrund der unter-

schiedlichen Anzahl von Items nicht sinnvoll). Überraschend ergibt sich ein umgekehr-

tes Bild: Die Spearman-Rangkorrelationen der Trennschärfen fällt für die Items des

BDI-II und des BDI-II-V.2.Z mit .80 (p = .00) niedriger aus als für die Items des BDI-II

und des BDI-II-V.1 mit .89 (p = .00).

Es erstaunt allerdings der Befund, dass die Itemtrennschärfen der Items des

BDI-II-V.2.Z durchgängig unter denen des BDI-II-V.1 liegen, und zwar im Durch-

schnitt um 0.07 Punkte (vgl. Tabelle 8). Die niedrigeren Trennschärfen gelten zwar in

besonderem Maße für die Items zu Schlaf (.20 Punkte Unterschied) und Appetit (.15

Punkte Unterschied); doch auch, wenn man nur die Differenzen im Betrag der Trenn-

schärfen der anderen 19 Items, die zwischen den Fragebögen identisch sind, berücksich-

tigt, ergibt sich noch immer eine mittlere Differenz von -0.06 Punkten (zwischen -0.01

z. B. für das Item Reizbarkeit und -0.19 für das Item Verlust von Freude). Auch zwi-

schen BDI-II.1 und BDI-II.2 unterscheiden sich naturgemäß die Trennschärfen der

identischen Items (um durchschnittlich 0.04 Punkte) – allerdings in unterschiedlichen

Richtungen für verschiedene Items, so dass sich nahezu identische durchschnittliche

Itemtrennschärfen des BDI-II in den Teilstichproben ergeben. Es verwundern also nicht

so sehr die betraglichen Differenzen zwischen BDI-II-V.1 und BDI-II-V.2.Z an sich,

sondern dass sie alle in gleicher Richtung ausfallen, so dass im BDI-II-V.2.Z eine um

0.07 Punkte niedrigere durchschnittliche Itemtrennschärfe resultiert als im BDI-II-V.1,

obwohl beide Fragebögen bis auf die Items zu Schlaf und Appetit identisch sind. Es ist

zumindest fraglich, ob die niedrigeren Itemtrennschärfen lediglich daraus resultieren,

dass sich die Formulierung dieser Items zu Schlaf und Appetit so ungünstig auf den

Gesamtsummenwert ausgewirkt haben könnte, dass daraus durchgängig niedrigere Zu-

sammenhänge aller anderen Items mit diesem Gesamtsummenwert resultieren. Es ist

nicht auszuschließen, dass die Befunde lediglich auf zufällige Unterschiede im Ant-

wortverhalten der Probanden der beiden Stichproben hindeuten. Somit scheint offen,

wie bedeutsam vor diesem Hintergrund die Unterschiede in den Rangkorrelationen der

Itemtrennschärfen sind.

Ergebnisse zum Vergleich der Messäquivalenz von BDI-II-V.1 und BDI-II mit der

Messäquivalenz von BDI-II-V.2 und BDI-II mittels konfirmatorischer Faktorenanalysen

(Hypothese IV.b). Die essentielle τ-Parallelität der Fragebögen BDI-II und BDI-II-V

Ergebnisse 139

hatte sich in der Gesamtstichprobe nicht nachweisen lassen. Die Wahrscheinlichkeit war

hoch, dass dies für beide Formen des BDI-II-V galt und nicht nur aus der mangelnden

Übereinstimmung zwischen einer der beiden Formen und dem Original resultierte. Ein

Modell essentiell τ-paralleler Variablen passt tatsächlich in keiner der beiden Substich-

proben, sofern die Ausgangsdaten nicht logarithmiert werden. Da fraglich ist, welche

Schlüsse aus einem Vergleich des Modellfits gezogen werden können, wenn die Daten

in ihrer Verteilung so wesentlich verändert wurden, wie dies durch eine logarithmische

Transformation der Fall ist, soll nicht weiter auf die Resultate eingegangen werden.

Die folgenden Ausführungen widmen sich daher direkt den exploratorischen Modellen

zur Überprüfung, ob die Fragebögen in einer der Substichproben nach Maßgabe einer

perfekten latenten Korrelation als identisch angesehen werden können (siehe Abbildung

3 in Abschnitt 4.3.1.2). Vorgestellt werden der Modellfit in der Teilstichprobe, die das

BDI-II-V.1 ausfüllte (N = 169) sowie der Modellfit in der Teilstichprobe, die das

BDI-II-V.2 ausfüllte; dabei wird in dieser zweiten Teilstichprobe der Modellfit zum

einen für die Auswertungsvariante BDI-II-V.2 (N = 163) und zum anderen für die Aus-

wertungsvariante BDI-II-V.2.Z (N = 165) berichtet.

Die Zusammensetzung der als Indikatoren eingesetzten Testhälften ist in Tabelle 19 in

Anhang C dargestellt; die Mittelwerte, Standardabweichungen, Schiefe und Kurtosis der

einzelnen Indikatoren und ihre Interkorrelationen finden sich in den Tabellen 23 bis 28

desselben Anhangs. In allen drei Modellen (BDI-II-V.1, BDI-II-V.2 und BDI-II-V.2.Z)

verteilen sich die Items identisch auf die Testhälften des BDI-II; ebenso sind Parcel 1

und 2 der verkürzten Versionen zwischen den Modellen jeweils nicht unterschiedlich

zusammengesetzt, abgesehen davon, dass das Parcel 2 des BDI-II-V.2 unumgänglich

statt einem Item zum Schlaf und einem Item zum Appetit je zwei Items zu Schlaf und

Appetit enthält. Die manifesten Korrelationen der Testhälften des BDI-II fallen in allen

drei Modellen identisch aus, die manifesten Korrelationen der Testhälften des BDI-II-V

liegen für das BDI-II-V.1 etwas über den Zusammenhängen im BDI-II-V.2(.Z). Mit

Koeffizienten zwischen .80 und.84 bewegen sich die manifesten Korrelationen zwi-

schen den Parcels des BDI-II.1 und den Parcels des BDI-II-V.1 etwas über den Werten,

die sich für die Zusammenhänge zwischen den Testhälften des BDI-II.2 und den Test-

hälften des BDI-II-V.2(.Z) ergeben (.76 – .78 und .76 – .79).

Ergebnisse 140

Wird die latente Korrelation zwischen BDI-II und BDI-II-V auf 1 festgesetzt26

, muss

das Modell in jeder Stichprobe nach Maßgabe des χ2-Tests verworfen werden. Weder

BDI-II.2 und BDI-II-V.2 oder BDI-II-V.2.Z (χ2 (2) = 17.09, p = .00 bzw. χ

2 (2) = 16.77,

p = .00), noch BDI-II.1 und BDI-II-V.1 (χ2 (2) = 7.43, p = .024) dürfen nach diesem

strengen Kriterium als identisch angesehen werden. Eine sehr schwache Tendenz lässt

sich in der Stichprobe mit BDI-II-V.1 jedoch erkennen, der p-Wert tendiert in Richtung

der in großen Stichproben zu überschreitenden kritischen Grenze von .05. Allerdings ist

ein Stichprobenumfang von N = 169 als kleine Stichprobe zu betrachten, in der ein p-

Wert von mindestens .20 zu verlangen ist, bevor von einem fittenden Modell gespro-

chen werden darf. Der RMSEA fällt in keiner der Stichproben zufriedenstellend aus,

nimmt aber den kleinsten Wert bei der Überprüfung des Modells in der Stichprobe mit

BDI-II-V.1 an (RMSEA = .13). Der SRMR jedoch weist in allen Stichproben einen

guten Fit aus, liegt er doch für die Überprüfung der Messäquivalenz von BDI-II.2 und

BDI-II-V.2 bei .03, für die Überprüfung der Messäquivalenz von BDI-II.2 und

BDI-II-V.2.Z ebenfalls bei .03 und für die Überprüfung der Messäquivalenz von

BDI-II.1 und BDI-II-V.1 bei .02. Auch der CFI zeigt grundsätzlich einen guten Fit an

(BDI-II.2 und BDI-II-V.2 sowie BDI-II.2 und BDI-II-V.2.Z je .96; BDI-II.1 und

BDI-II-V.1 .99). Der TLI fällt nur in der Stichprobe mit BDI-II-V.1 zufriedenstellend

aus (.97). Tabelle 13 stellt die Fitstatistiken dieser (und der im Weiteren spezifizierten)

Modelle zusammen.

Nachdem sich kein guter Modellfit erzielen ließ, wurde weiter explorierend die Fixie-

rung der latenten Korrelation auf 1 in allen Analysen gelockert, um die messfehlerbe-

reinigte Korrelation von BDI-II.2 und BDI-II-V.2, BDI-II.2 und BDI-II-V.2.Z sowie

BDI-II.1 und BDI-II-V.1 zu bestimmen. Die Fitstatistiken deuten allesamt auf perfekten

Fit hin (siehe Tabelle 13). Die Verbesserung des Fits durch die Entfernung der Restrik-

tion ist in jedem der drei Fälle signifikant (BDI-II-V.2: χ2s

(1) = 15.49, p < .01;

BDI-II-V.2.Z: χ2s

(1) = 17.04, p < .01; BDI-II-V.1: χ2s

(1) = 5.36, p < .05).

26

Erneut erfolgte tatsächlich eine Fixierung auf 0.9999 (s.o.). Unterschiede in den Fitstatistiken im Ver-

gleich zur Fixierung auf 1.0 betrafen lediglich Nachkommastellen des χ2-Wertes und in einem Fall die 4.

Nachkommastelle des p-Wertes.

Ergebnisse 141

Tabelle 13 Fitstatistiken für Modelle mit frei geschätzter latenter Korrelation sowie auf 1.0 fixierter

latenter Korrelation zwischen BDI-II und BDI-II-V.1, BDI-II-V.2Z sowie BDI-II-V.2

BD

I-II

-V-F

orm

Sp

ezif

ikati

on

für

ψ1

2

Sch

ätz

alg

o-

rith

mu

s

χ2

p

df

RM

SE

A

90%

CI

des

RM

SE

A♠

CF

it

SR

MR

CF

I

TL

I

1 frei MLM 0.07 .79 1 0.00 0.00 1.00 1,01

ML 0.08 .77 0.00 0.00,

0.14

0.82

0.9999 MLM 7.43 .02 2 0.13 0.02 0.99 0.97

2 frei MLM 0.79 .38 1 0.00 0.00 1.00 1.00

ML 1.07 .30 0.02 0.00,

0.21

0.39

0.9999 MLM 17.09 .00 2 0.22 0.03 0.96 0.88

2Z frei MLM 0.24 .62 1 0.00 0.00 1.00 1.00

ML 0.34 .56 0.00 0.00,

0.17

0.63

0.9999 MLM 16.77 .00 2 0.21 0.03 0.96 0.89

Anmerkungen. ♠ (untere Grenze, obere Grenze). Akzeptable Fitstatistiken grau hinterlegt.

Die latente Korrelation zwischen Original und verkürzter Version wird im Modell des

BDI-II-V.1 auf .94 geschätzt; mit .91 liegt der latente Zusammenhang mit dem Original

in der Modellierung von BDI-II-V.2 beziehungsweise BDI-II-V.2.Z ganz leicht darun-

ter. Abbildung 12 veranschaulicht die Ergebnisse (vollständig standardisierte Parame-

ter) für alle drei Versionen bei frei geschätzter Korrelation. Alle Parameterschätzer im

Modell sind signifikant (.00 ≤ p ≤.01). Die Werte sind sich zwischen den Modellen (al-

so zwischen den Formen des BDI-II-V) jeweils äußerst ähnlich, für BDI-II-V.2 und

BDI-II-V.2.Z nahezu identisch.

Ergebnisse 142

Abbildung 12 Vollständig standardisierte Modellparameter für die Modelle mit frei geschätzter

Korrelation zwischen BDI-II und BDI-II-V.1 (obere Werte), BDI-II-V.2Z (mittlere

Werte) sowie BDI-II-V.2 (untere Werte). Die Modelle fitten perfekt.

5.7 Ergebnisse zur Entsprechung von BDI, BDI-V, BDI-II und

BDI-II-V (Hypothese V)

Dem Aufbau der vorangegangenen Ergebniskapitel folgend werden zuerst deskriptive

Analysen geschildert (Hypothesen V.a.1 bis V.a.5), bevor die Ergebnisse der konfirma-

torischen Faktorenanalysen (Hypothese V.b) dargelegt werden.

Ergebnisse zur Korrelation der Summenwerte (Hypothese V.a.1). Erwartungsgemäß

unterschreitet keiner der sechs Korrelationskoeffizienten zwischen den Inventaren BDI,

BDI-V, BDI-II und BDI-II-V einen Wert von .80 (alle p = .00). Tabelle 14 gibt die Kor-

relationen wieder. Am engsten hängen jeweils die beiden Original-Versionen unterei-

nander und die beiden verkürzten Versionen untereinander zusammen (r = .94 und .93);

niedriger, aber nahezu in identischer Höhe korrelieren jeweils BDI und BDI-V, BDI-II

und BDI-II-V, BDI und BDI-II-V sowie BDI-II und BDI-V (r = .85 bzw. .86, s. a. o.).

λ11

.90

.89

.89

λ21

.87

.88

.88

ε1

.18

.20

.21

ε2

.24

.23

.22

BDI-II

η1

1.00

1.00

1.00λ32

.97

.95

.95

λ42

.98

.97

.97

ε3

.06

.11

.10

ε4

.04

.06

.07

BDI-II-V

η2

1.00

1.00

1.00

BDI-II-V: Parcel 2

y4

BDI-II-V: Parcel 1

y3

BDI-II: Parcel 2

y2

BDI-II: Parcel 1

y1

Ψ12

0.94

0.91

0.91

Ergebnisse 143

Tabelle 14 Korrelation der Summenwerte von BDI, BDI-V,

BDI-II und BDI-II-V

BDI BDI-V BDI-II BDI-II-V

BDI 1 .85**

.94**

.86**

BDI-V 1 .86**

.93**

BDI-II 1 .86**

BDI-II-V 1

Anmerkungen. N = 325. ** signifikant auf dem Niveau von 0.01

(zweiseitig).

Ergebnisse zum Vergleich der Summenwerte (Hypothese V.a.2). Es wurde bereits darge-

legt, dass sich die mittleren Summenwerte von BDI-II und BDI-II-V.R signifikant un-

terscheiden. Dies gilt – bei einer mittleren Differenz von 3.72 – auch für die Summen-

werte von BDI und BDI-V.R (t (324) = -12.794, p = .00), was nicht erwartet worden

war. Den Erwartungen dagegen entspricht, dass der mittlere Summenwert des BDI-II

mit 9.0 (SD = 8.0) etwas über dem mittleren Summenwert des BDI (M = 7.8, SD = 6.9)

liegt. Auch diese Differenz wird signifikant (t(324) = -7.520, p = .00). (Den direkten

Vergleich aller Summenwerte ermöglicht auch Tabelle 18 in Anhang C).

Ergebnisse zum Vergleich der internen Konsistenzen (Hypothese V.a.3). Hypothesen-

gemäß zeigt sich, dass sich die internen Konsistenzen von BDI und BDI-II kaum unter-

scheiden (α = .89 bzw. .92). Das BDI-V (α = .94) ist leicht konsistenter als das BDI, das

BDI-II-V (α = .95) liegt mit seiner internen Konsistenz ebenfalls minimal über der in-

ternen Konsistenz des BDI-II, wie oben bereits dargelegt.

Ergebnisse zum Vergleich der Trennschärfen (Hypothese V.a.4). Die durchschnittliche

Itemtrennschärfe des BDI liegt bei .50, jene des BDI-II ist mit .57 erwartungsgemäß

etwas höher. Den Annahmen entsprechend liegen die mittleren Itemtrennschärfen der

verkürzten Versionen über jenen der Originalversionen (BDI-V: M (rit) = .66, BDI-II-V:

M (rit) = .69; vgl. Tabelle 8).

Ergebnisse zum Vergleich der Zusammenhänge mit anderen Variablen (Hypothese

V.a.5). Tabelle 11 lässt erkennen, dass sich die Hypothese zu ähnlichen Zusammenhän-

gen der vier BDI-Varianten mit Neurotizismus, Extraversion, Offenheit für Erfahrung,

Verträglichkeit und Gewissenhaftigkeit bestätigt: Durchschnittlich weichen die Koeffi-

zienten (bezogen auf die Korrelation mit jeweils einer der fünf Eigenschaften) um .03

Ergebnisse 144

Einheiten voneinander ab, die maximale Abweichung zwischen zwei Werten beträgt .08

Einheiten zwischen der Korrelation des BDI und des BDI-II-V mit Verträglichkeit.

Ergebnisse zur inferenzstatistischen Überprüfung der Messäquivalenz von BDI, BDI-V,

BDI-II und BDI-II-V (Hypothese V.b)27

. Die Modellgüteindizes, die für das vorgeschla-

gene Modell essentiell τ-paralleler Variablen (siehe Abbildung 4 in Abschnitt 4.3.3.1)

erzielt wurden, liegen nicht im zufriedenstellenden Bereich. χ2 ist mit 382.79 (df = 8)

sehr hoch, der zugehörige p-Wert beträgt dementsprechend .000. Der RMSEA beläuft

sich auf .38 und liegt damit eindeutig jenseits eines gerade noch akzeptablen Modellfits

von .10. Ebenso befindet sich der SRMR von .24 sehr klar außerhalb des gewünschten

Bereichs zwischen 0.0 und .08. CFI (.74) und TLI (.81) unterschreiten ihren individuel-

len Grenzwert von .95 gleichfalls. Dies überrascht nicht, nachdem sich bereits für die

„Teilmodelle“, die die Parallelität von BDI-II und BDI-II-V prüften, kein guter Modell-

fit hatte erzielen lassen, was in der Hypothese als Voraussetzung für die essentielle τ-

Parallelität aller BDIs formuliert worden war. Wie in diesen vorangegangenen Analysen

lässt sich auch hier der Modellfit durch eine logarithmische Transformation der Daten

verbessern, doch er bleibt schwach (χ2 (8) = 86.51, p = .00; lediglich der SRMR (.05)

zeigt einen passablen Fit an, CFI (.92) und TLI (.94) liegen näher am erwünschten

Grenzwert bei Verwendung logarithmierter und nicht reskalierten Daten). Mittelwerte,

Standardabweichungen, Schiefe und Kurtosis der nicht-logarithmierten und logarith-

mierten Indikatoren sind Tabelle 29 A und B in Anhang C zu entnehmen. Die logarith-

mische Transformation hatte erwartungsgemäß Schiefe und Kurtosis im Betrag redu-

ziert, jedoch nicht die signifikante Abweichung der Summenwerte von einer Normal-

verteilung beseitigen können (hochsignifikante Kolmorogrov-Smirnov-Tests sowie

Shapiro-Wilk-Tests).

Exploratorisch wurde weiter eruiert, welches Modell die Beziehungen der Inventare

optimal beschreiben könnte. Zunächst wurde überprüft, ob die Annahmen des Modells

essentiell τ-paralleler Variablen zu streng waren. Löst man die Restriktion gleicher Feh-

lervarianzen und testet so ein Modell essentiell τ-äquivalenter Variablen, erreicht jedoch

auch dieses keinen befriedigenden Fit, kein Modellgüteindex liegt im akzeptablen Be-

reich (χ2 (5) = 274.77, p = .00; RMSEA = .41, SRMR = .17, CFI = .81, TLI = .78). Un-

ter Verwendung logarithmierter Summenwerte als manifeste Variablen zeigt zumindest

27

Alle folgenden Analysen beruhen auf einer Stichprobe mit dem Umfang von N = 325.

Ergebnisse 145

der SRMR (.05) einen passablen Fit an, CFI (.93) und TLI (.92) kommen näher an ihren

Zielbereich.

Nur minimal besser wird der Fit bei zusätzlicher Aufhebung der Restriktion identischer

Faktorladungen zur Überprüfung des minimalen Modells τ-kongenerischer Variablen.

Der χ2-Test fällt weiterhin unbefriedigend aus (χ

2 (2) = 164.68, p = .00), der RMSEA

verschlechtert sich wegen der niedrigeren Sparsamkeit des Modells weiter (.50). Ledig-

lich der SRMR (.03) fällt gut aus; CFI (.89) und TLI (.66) sind nicht akzeptabel. Abbil-

dung 13 lässt die geschätzten vollständig standardisierten Parameter (alle p = .00) er-

kennen. Deutlich wird, dass alle Formen des BDI eng mit der gemeinsamen latenten

Variablen verbunden sind (.91 ≤ λ ≤ .97) und die Fehlervarianzen gering ausfallen

(.07 ≤ ε ≤ .18), wobei die Parameter wegen des schlechten Modellfits nur sehr bedingt

aussagekräftig sind. Logarithmieren der Summenscores führt nur dazu, dass (neben dem

bereits akzeptablen SRMR) noch der CFI (.96) in einen zufriedenstellenden Bereich

vordringt, alle anderen Indizes zeigen weiter Missfit an (χ2 (2) = 43.36, p = .00;

RMSEA = .25, TLI = .87 für logarithmierte und nicht-reskalierten Daten).

Abbildung 13 Vollständig standardisierte Modellparameter für das Modell τ-

kongenerischer Variablen des BDI, BDI-V, BDI-II und BDI-II-V.

Der Modellfit ist nicht zufriedenstellend.

BDI-V

y2

BDI-II

y3

λ21

.91

λ31

.97

ε2

.17

ε3

.07

Depressivität

η1

1.00

BDI

y1

ε1

.08

BDI-II-V

y4

ε4

.18

λ11

.96

λ41

.91

Ergebnisse 146

Die Exploration, ob sich perfekte Zusammenhänge28

zwischen BDI, BDI-V und

BDI-II-V finden ließen, wenn sie jeweils als latente Variable modelliert werden (siehe

Abbildung 5 in Abschnitt 4.3.3.2), war nicht erfolgreich. (Die Zusammensetzung der

verwendeten Itemparcels der Inventare ist in Tabelle 20 in Anhang C aufgeführt; Mit-

telwerte, Standardabweichungen, Schiefe und Kurtosis der Indikatoren sowie manifeste

Inter-Indikator-Korrelationen finden sich im selben Anhang in Tabelle 29 C und Tabel-

le 30.) Nachdem sich dieses Modell bereits zwischen BDI-II und BDI-II-V nicht hatte

fitten lassen, war dies zu erwarten. Der χ2-Test weist auf signifikante Unterschiede zwi-

schen der postulierten Struktur und den Zusammenhängen in den empirischen Daten hin

(χ2 (20) = 272.56, p = .00); der RMSEA fällt mit einem Wert von .20 inakzeptabel aus,

ebenso weist der TLI (.87) nicht auf einen guten Fit hin; der CFI (.91) kann maximal als

mäßig bezeichnet werden, lediglich der SRMR (.03) zeigte guten Fit an. Lockert man

die Restriktion perfekter Korrelationen zwischen den latenten BDI-Variablen, um die

messfehlerbereinigten Korrelationen der Inventare zu schätzen, bleibt das Modell – an-

ders als bei der Modellierung von BDI-II und BDI-II-V – nach dem strengen χ2-Test

inakzeptabel (χ2 (14) = 43.96, p = .00). Die deskriptiven Güteindizes fallen zwar alle-

samt mittelmäßig gut (RMSEA = .08) bis sehr gut (SRMR = .01, CFI = .99, TLI = .98)

aus, das Problem ist jedoch, dass die interessierenden Parameterschätzer der Korrelatio-

nen zwischen den latenten Variablen Heywood Cases aufweisen: Der Koeffizient für

den Zusammenhang von BDI und BDI-II liegt mit 1.04 außerhalb des möglichen Wer-

tebereiches und veranlasst das Programm dementsprechend zu der Warnmeldung einer

nicht positiv definiten Kovarianzmatrix der latenten Variablen. BDI-V und BDI-II-V

weisen eine latente Korrelation von .98 auf, BDI und BDI-V korrelieren zu .93, BDI-II

und BDI-II-V zu .91, BDI und BDI-II-V sowie BDI-II und BDI-V jeweils zu .92 (alle p

= .00).

Da kein Modell nach den Kriterien des χ2-Tests oder des RMSEA akzeptiert werden

konnte (beziehungsweise das einzige Modell, das einen akzeptablen RMSEA aufwies,

in Folge von Heywood Cases nur bedingt interpretierbar war), wurde das Modell weiter

modifiziert. Verschiedene Anzeichen legten die Erweiterung um einen Methodenfaktor

nahe. Zum einen wies das manifeste Korrelationsmuster darauf hin, dass sich der Unter-

schied zwischen der Skalierung von Originalen und Verkürzungen in den Zusammen-

28

Spezifiziert wurde erneut eine latente Korrelation von .9999 zwischen den Faktoren statt einer Korrela-

tion von 1.0, was den Modellfit gegenüber der Spezifikation einer Korrelation von 1.0 jedoch nicht be-

rührte (s.o.).

Ergebnisse 147

hängen der Variablen niederschlägt und neben dem Trait (Depressivität) einen systema-

tischen Einfluss auf das Ergebnis einer Person ausübt (vgl. Eid et al., 2010). Wie darge-

legt betrug die manifeste Korrelation zwischen den beiden Original-Versionen .94

(p = .00) und zwischen den beiden verkürzten Versionen .93 (p = .00), dagegen aber

„nur“ .85 oder .86 (p jeweils = .00), wenn eine Original-Version mit einer Verkürzung

korreliert wurde. Dieses Muster liegt prinzipiell auch in den latenten Korrelationen vor,

wenn diese auch in Anbetracht des unmöglichen Wertes der Korrelation zwischen BDI

und BDI-II zurückhaltend interpretiert werden müssen. Zum Zweiten legen die Modifi-

kationsindizes des nicht fittenden Modells τ-kongenerischer Variablen Residualkorrela-

tionen zwischen BDI und BDI-II respektive zwischen BDI-V und BDI-II-V nahe, wei-

sen also auch darauf hin, dass die beiden Inventare jeweils untereinander etwas mehr

gemeinsam haben als miteinander. Zum Dritten spiegeln die zu diesem Modell in Ab-

bildung 13 abgetragenen Ladungsparameter dieses Bild wieder. Die Ladungen auf der

gemeinsamen latenten Variablen Depressivität entsprechen sich für die Originalversio-

nen und die Verkürzungen jeweils wesentlich stärker als zwischen einem Original und

einer Verkürzung.

So wird ein Methodenfaktor spezifiziert, der die Abweichung der wahren Depressivi-

tätswerte, wie sie sich entsprechend der Messung mit einer verkürzten Version ergeben,

von den wahren Depressivitätswerten, wie sie bei einer Messung mit einem Original-

BDI erwartet worden wären, repräsentiert (siehe Abbildung 6 in Abschnitt 4.3.3.3.2). Es

wird angenommen, dass BDI-V und BDI-II-V als Indikatoren dieses Methodenfaktors

jeweils gleich stark mit ihm verbunden sind.

Behält man die Festlegung identischer Ladungsparameter der BDI-Formen auf dem

Depressivitätsfaktor bei, gibt das Modell die Zusammenhangsstruktur der Daten nicht

korrekt wieder (χ2 (4) = 86.74, p = .00). Bis auf den CFI, der mit .94 den Sollwert nahe-

zu erfüllt, liegt keiner der Modellgüteindizes im akzeptablen Bereich (RMSEA = .25,

SRMR = .16, TLI = .92). Also wird überprüft, ob die Beziehungen der BDI-Formen

durch das Modell mit Methodenfaktor beschrieben werden, wenn die Bedingung glei-

cher Ladungen der vier BDI-Variablen auf der latenten Variable Depressivität gelockert

wird (nicht jedoch die Vorgabe gleicher Ladungsparameter von BDI-V und BDI-II-V

auf der Methodenvariable). Dieses Modell weist perfekten Fit auf (χ2 (1) = 0.41, p = .52;

RMSEA und SRMR = .00, CFI und TLI = 1.00), der sich unter Verwendung des ML-

Schätzers bestätigt (RMSEA ebenfalls .00, das 90%-Vertrauensintervall um den

Ergebnisse 148

RMSEA schließt den Wert Null ein (0.00 bis 0.13), Close Fit = .65; χ2 (1) = 0.46,

p = .50). Die Verbesserung der Modellgüte im Vergleich zu einem Modell mit identi-

schen Ladungen der BDI-Summenwerte auf dem Depressivitätsfaktor ist signifikant

(χ2s

(3) = 83.42, p ≤ .01). Die vollständig standardisierten Modellparameter sind in Ab-

bildung 14 wiedergegeben. Mit Koeffizienten zwischen .88 und .98 laden alle BDI-

Formen hoch auf der Traitvariablen; dabei sind die Ladungen der verkürzten BDIs ge-

ringer als die der Original-BDIs. Weiterhin ähnelt sich die Verbindung der Originale

mit dem Traitfaktor und der verkürzten Versionen mit dem Traitfaktor wesentlich stär-

ker als die Verbindung von Original und (zugehöriger) Verkürzung mit dem Trait. Die

Ladungsparameter der verkürzten BDI-Formen auf dem Methodenfaktor fallen wesent-

lich geringer aus, sind mit .42 und .37 aber dennoch deutlich ausgeprägt. Die Residual-

variablen sind mit Werten zwischen .10 und .05 sehr gering.

Abbildung 14 Vollständig standardisierte Modellparameter für ein Modell des

BDI, BDI-V, BDI-II und BDI-II-V mit Methodenfaktor. λ22 und λ42

wurden in der unstandardisierten Lösung gleichgesetzt. Das Modell

fittet perfekt.

Die Varianz jeder manifesten Variablen lässt sich zerlegen in den Anteil, der durch die

Traitvariable (Depressivität) erklärt wird, den Anteil, der durch den Methodenfaktor zu

BDI-V

y2

BDI-II

y3

λ21

.88

λ31

.98

ε2

.05ε3

.05

Depressivität

η1

1.00

BDI

y1

ε1

.07

BDI-II-V

y4

ε4

.10

λ11

.96

λ41

.88

Methode

η2

1.00

λ22

.42

λ42

.37

Ergebnisse 149

Stande kommt (sofern eine Variable mit diesem Faktor verbunden ist) und die Residu-

alvarianz. Mit Hilfe dieser Varianzkomponenten lassen sich die Reliabilität, die konver-

gente Validität beziehungsweise der Konsistenzkoeffizient und die Methodenspezifität

bestimmen (Eid et al., 2010). Die Reliabilitäten liegen sehr hoch (BDI .93, BDI-V .95,

BDI-II .95 und BDI-II-V .92). Für BDI und BDI-II entspricht die Reliabilität der Kon-

sistenz. BDI-V und BDI-II-V weisen Konsistenzkoeffizienten von .78 und .77 auf, die

Methodenspezifitätskoeffizienten belaufen sich auf .17 und .14. Die hohe Konsistenz im

Vergleich zu der geringeren Methodenspezifität bedeutet, dass die wahren Depressivi-

tätswerte der verkürzten Versionen gut, aber dennoch nicht perfekt durch die wahren

Depressivitätswerte der Original-Versionen vorhergesagt werden können.

Ein Modell mit nur einem Methodenfaktor bei zwei verwendeten Methoden ist nicht

symmetrisch. Je nach Modellspezifikation kann sich der Modellfit unterscheiden (Eid,

2000). Die Analysen sollen daher abgerundet werden mit einer Überprüfung der Unter-

schiede, die sich ergeben, wenn statt der Originalskalierung die Skalierung der verein-

fachten Versionen zur Standardmethode gemacht wird. In Abbildung 6 (Abschnitt

4.3.3.3.2) werden dann die manifesten Variablen BDI und BDI-II statt der manifesten

Variablen BDI-V und BDI-II-V auf den Methodenfaktor zurückgeführt. Ansonsten wird

nichts an der Modellspezifikation geändert.

Alle Fitstatistiken, einschließlich des χ2-Tests, fallen exakt identisch aus. Die Modellpa-

rameter und damit die Schätzungen von Reliabilitäten, Konsistenzen und Methodenspe-

zifität „verschieben“ sich erwartungsgemäß. Die vollständig standardisierten Ladungen

der vier Inventare auf der latenten Variablen Depressivität liegen mit Werten zwischen

.88 und .97 nahezu im selben Bereich wie für das vorherige Modell, mit dem Unter-

schied, dass es nun die verkürzten BDIs sind, die eine höhere Ladung aufweisen (.97

bzw. .96) als die Originale (.88 bzw. .89). BDI und BDI-II weisen mit Parametern von

.43 und .37 nahezu dieselbe Verbindung zum Methodenfaktor auf wie zuvor BDI-V und

BDI-II-V. Die Residualvariablen fallen noch ein wenig geringer aus als zuvor (.04 bis

.08). Nun ist es die Methodenspezifität der Originalskalierung, die im Vergleich zur

„Standardmethode“ der verkürzten Skalierung bestimmt wird und die sich auf – den

Werten des obigen Modells nahezu identische – .18 (BDI) und .13 (BDI-II) beläuft;

entsprechend ist es nun die Konsistenz von BDI und BDI-II, die mit .77 und .80 ange-

geben werden kann. Die Interpretation lautet parallel zur obigen, dass die Methodenspe-

zifität als mäßig einzuschätzen ist, aber dennoch messbare Unterschiede zwischen den

Ergebnisse 150

wahren Werten existieren, je nachdem, welche Methode zur Messung verwendet wird.

Die geschätzten Reliabilitäten ändern sich um maximal .02 Punkte (BDI .95, BDI-V

.94, BDI-II .93 und BDI-II-V .92).

Diskussion 151

6 Diskussion

Der erste Abschnitt des Diskussionsteils stellt die Ergebnisse der Analysen in den Zu-

sammenhang bisheriger Resultate und versucht eine Interpretation der Befunde. Der

zweite Abschnitt reflektiert, was die Interpretierbarkeit der Resultate einschränkt und

kritisiert verbesserungsfähige Vorgehensweisen in der Durchführung und Auswertung

der Studie. Der dritte und letzte Abschnitt zieht ein Fazit, welche Erkenntnisse aus der

Untersuchung gewonnen wurden und welche Fragen offen blieben oder im Laufe der

Analysen aufgeworfen wurden. Diese bieten Anregungen für die nächsten Schritte in

der Weiterentwicklung und Evaluation des BDI-II-V.

6.1 Interpretation der Ergebnisse

Die folgenden Abschnitte fassen die Ergebnisse zusammen. Gleichzeitig werden die

Resultate durch den Vergleich mit den Befunden anderer Autoren genauer eingeordnet.

Einige Erklärungsversuche für nicht hypothesenkonforme Ergebnisse werden erörtert.

6.1.1 Reliabilität und Validität des BDI-II-V

Für die vorgeschlagene Vereinfachung der zweiten Auflage des Beck Depressionsin-

ventars BDI-II-V konnten erwartungsgemäß sehr gute Homogenitäts- und Reliabilitäts-

kennwerte erzielt werden. Cronbach’s α beträgt .95. Die mittlere Inter-Item-Korrelation

ist mit .50 hoch, die korrigierten Itemtrennschärfen belaufen sich im Mittel auf .69.

Die hohe Schwierigkeit der Items, die sich in dieser Studie zeigt, hängt damit zusam-

men, dass das Depressionsinventar in einer überwiegend gesunden Bevölkerungsstich-

probe eingesetzt wurde. Die Standardabweichungen der Items liegen nahezu alle über 1,

was als Zeichen für gute Diskriminationsfähigkeit gewertet werden darf (vgl. Schmitt &

Maes, 2000).

Eine Hauptachsenanalyse legte eher die Extraktion eines starken Faktors nahe, doch die

Kriterien ließen auch die Interpretation zu, dass die Extraktion zweier hochkorrelierter

Faktoren möglich sei. Werden zwei Faktoren extrahiert und oblique rotiert, kann einer

als kognitiv-affektiver, der andere als somatisch-affektiver Faktor bezeichnet werden.

Zwar ergibt sich in Folge der starken Assoziation der Faktoren keine klare Einfach-

struktur; ordnet man dennoch die Items jeweils dem Faktor zu, auf dem sie die höhere

Diskussion 152

Ladung aufweisen, ergibt sich ein Faktor, dem die kognitiven Items wie Versagensge-

fühle, Schuldgefühle, Bestrafungsgefühle, Selbstablehnung oder Selbstvorwürfe zugehö-

ren und ein Faktor, dem die somatischen Items wie Schlafveränderungen, Appetitverän-

derungen, Konzentrationsschwierigkeiten oder Ermüdbarkeit zugehören. Die affektiven

Items Traurigkeit, Weinen, Reizbarkeit und Verlust von Freude verteilen sich auf die

Faktoren, wobei das besonders charakteristische Symptom Traurigkeit zusammen mit

dem Symptom Weinen dem kognitiven Faktor zugeordnet ist.

Die Resultate liegen auf einer Linie mit dem, was exploratorische Faktorenanalysen für

das BDI-II fanden. In einer Untersuchung von Hautzinger et al. (2006) an deutschen

Stichproben hatten sich Zwei-Faktor-Lösungen ergeben, in denen die Dimensionen je-

doch etwas niedriger korrelierten als in dieser Studie die Dimensionen des BDI-II-V.

Was die Verteilung der Items auf die Faktoren angeht, so fand sich in internationalen

Studien regelmäßig, dass die somatischen Items auf einem Faktor höher laden und die

kognitiven Items auf einem anderen Faktor. Die affektiven Items sind, je nach Stichpro-

be, entweder dem somatischen oder dem kognitiven Faktor zugeordnet (Beck et al.,

1996, zit. nach Hautzinger et al., 2006, S. 12) oder verteilen sich auf die beiden Fakto-

ren (vgl. die Ergebnisse der Stichprobe gesunder Probanden bei Hautzinger et al.,

2006).

Die Überprüfung der Konstruktvalidität des neu entwickelten Verfahrens durch die Er-

mittlung seiner Zusammenhänge mit den Persönlichkeitsdimensionen Neurotizismus,

Extraversion, Offenheit für Erfahrung, Verträglichkeit und Gewissenhaftigkeit ergibt

ein zufriedenstellendes Bild. Die Korrelation des BDI-II-V-Summenwertes mit Neuroti-

zismus zeigt sich hoch positiv, was in der Literatur sehr gut belegten Befunden zum

Zusammenhang von Depressivität und Neurotizismus (Bienvenu et al., 2004; Duggan et

al., 1995; Hautzinger et al., 2006; Meyer, 2002; Rosellini & Brown, 2011; Trull & Sher,

1994) entspricht. Alle anderen Koeffizienten liegen im niedrigen bis mittelhohen Be-

reich. Dabei fällt der negative Zusammenhang mit Extraversion im Betrag ein wenig

höher aus, als andere Untersuchungen (Bienvenu et al., 2004; Hautzinger et al., 2006;

Meyer, 2002; Rosellini & Brown, 2011; Trull & Sher, 1994) dies erwarten ließen. Im

Betrag erwartet niedrig zeigt sich die (nur marginal signifikante) negative Korrelation

mit Offenheit, allerdings mit umgekehrtem Vorzeichen als andere Autoren dies für den

Zusammenhang zwischen Depressivität und Offenheit gefunden hatten (Bienvenu et al.,

2004; Hautzinger et al., 2006; Meyer, 2002; Rosellini & Brown, 2011; Trull & Sher,

Diskussion 153

1994). Die Verbindung zwischen Offenheit und Depressivität scheint nicht geklärt. Klar

ist, dass sie – wenn überhaupt eine bedeutsame Assoziation existiert – sehr gering aus-

geprägt ist. Der Koeffizient war in dieser Untersuchung trotz der großen Stichprobe nur

marginal signifikant, Hautzinger et al. (2006) sowie Rosellini und Brown (2011) hatten

ebenfalls keine signifikanten Ergebnisse erzielt. Bei Bienvenu et al. (2004) hatte sich

der Zusammenhang nur auf der Ebene einer Facette als überzufällig erwiesen. Trull und

Sher (1994) waren von ihren – je nach Analyse signifikanten oder marginal signifikan-

ten – Ergebnissen eines positiven Zusammenhangs überrascht, da sie in ihren Voran-

nahmen von einer negativen Verknüpfung ausgegangen waren. Entscheidend für die

Beurteilung der Validität des BDI-II-V ist, dass die Korrelation mit Offenheit im Betrag

niedrig ausfällt. Die Assoziation des BDI-II-V mit Verträglichkeit ist mäßig negativ.

Einen Koeffizienten in dieser Höhe und Richtung hatten auch die Befunde von

Bienvenu et al. (2004), Hautzinger et al. (2006), Meyer (2002), Rosellini und Brown

(2011) sowie Trull & Sher (1994) erwarten lassen, wobei das einzig signifikante dieser

Resultate bei Hautzinger et al. (2006) beschrieben ist. Jedenfalls scheint auch nach den

Ergebnissen dieser Untersuchung die Einordnung von Kronmüller und Mundt (2006),

wonach die Verträglichkeit bei Depressiven erhöht sei, weiter unklar. Zumindest für die

vorliegende Studie könnte eingewandt werden, dass eine Bevölkerungsstichprobe

untersucht wurde, die überwiegend gesunde Probanden umfasste und somit nicht

beurteilt werden kann, ob sich eine positive Assoziation in Stichproben akut depressiver

Patienten finden ließe. Der Zusammenhang zwischen BDI-II-V und Gewissenhaftigkeit

zeigte sich entsprechend der Befundlage (Bienvenu et al., 2004; Hautzinger et al., 2006;

Meyer, 2002; Rosellini & Brown, 2011; Trull & Sher, 1994) negativ, jedoch stärker

ausgeprägt als in den anderen Untersuchungen. Neben der negativen assoziativen Be-

ziehung zwischen aktueller Depressivität und Gewissenhaftigkeit scheint auch eine

Verbindung zwischen hoher Gewissenhaftigkeit bzw. damit zusammenhängenden Per-

sönlichkeitseigenschaften wie Perfektionismus, Kontrollbedürfnis oder Leistungsstre-

ben und (dem Risiko für) Depression zu existieren (Hautzinger, 2010; Kronmüller &

Mundt, 2006). Wie die beiden Ausprägungen des Zusammenhanges zu interpretieren

sind, war im Rahmen dieser Arbeit nicht zu erörtern. Möglicherweise werden dadurch

verschiedene zeitliche Prozesse wiedergespiegelt, indem zunächst (zu) hohe Ansprüche

und ein (zu stark) ausgeprägtes Leistungsstreben das Risiko für eine Depression erhö-

hen, in einer akuten Depression (bzw. mit ansteigenden Depressivitätswerten) aber die

tatsächliche Reduktion der Leistungsfähigkeit in Folge von Ermüdung und Antriebslo-

Diskussion 154

sigkeit und/oder die Wahrnehmung der eigenen Person als insuffizient und leistungs-

schwach in Folge des niedrigen Selbstwertgefühls für ein Absinken der Werte auf Ge-

wissenhaftigkeitsskalen sorgen. Vorstellbar ist jedoch auch, dass sowohl niedrige Sorg-

falt und ein geringer Anspruch an die eigene Arbeit über Misserfolg und Enttäuschun-

gen, zum Beispiel im Arbeitsleben, das Risiko für eine Depression erhöhen respektive

eine Depression aufrechterhalten können, als auch wahrgenommener Misserfolg und

Enttäuschung, die aus überhöhten Ansprüchen an die eigenen Leistungen resultieren.

6.1.2 BDI-II-V und BDI-II im Vergleich

Im direkten Vergleich scheinen die Items des BDI-II-V etwas leichter zu sein als jene

des BDI-II, spricht doch ein t-Test für signifikant höhere Summenwerte in der (in Be-

zug auf die Skalierung dem Original vergleichbar gemachten) verkürzten Version. Die

Summenwerte beider Inventare korrelieren jedoch hoch (r = .86). Auch auf der Ebene

der einzelnen Items ergeben sich respektable Korrelationen von durchschnittlich .65.

Diese Koeffizienten entsprechen denen, die Schmitt et al. (2003) für die Korrelationen

der Summenwerte und Items des BDI und BDI-V in einer Stichprobe Gesunder fanden.

Das BDI-II-V weist in dieser Studie eine minimal höhere interne Konsistenz als das

Original auf. Bis auf das Item, das Suizidgedanken erfragt, sind die verkürzten Items

des BDI-II-V etwas trennschärfer als die jeweils zu Grunde liegenden Items des BDI-II.

Die Bedeutung eines einzelnen Items in Relation zu allen anderen Items und damit sein

Bezug zum Gesamtwert entsprechen sich in beiden Inventaren gut, wie Rangkorrelatio-

nen der Trennschärfen ergeben. Mit einem Koeffizienten von .86 liegt der Wert sogar in

dem Bereich, der sich in den Analysen der Entsprechung von BDI-V und BDI (Schmitt

et al., 2003) nur für eine Gesamtstichprobe ergab, die neben den gesunden Probanden

auch eine heterogene Gruppe klinischer Patienten umfasste, und damit eine größere Va-

rianz der Werte aufwies als die „reine“ Stichprobe klinisch unauffälliger Probanden, in

der eine geringere Rangkorrelation der Trennschärfen erzielt wurde.

BDI-II-V und BDI-II hängen ähnlich hoch mit Validierungskorrelaten in Form der Di-

mensionen des Big-Five-Persönlichkeitsmodells zusammen.

Ergebnisse konfirmatorischer Faktorenanalysen bestätigen jedoch nicht die Annahme,

BDI-II-V und BDI-II würden sich als essentiell τ-parallel im Sinne der Klassischen

Testtheorie erweisen. Ein entsprechendes Modell wies nur dann perfekten Fit auf, wenn

Diskussion 155

die Summenwerte zuvor einer logarithmischen Transformation unterzogen wurden. Ex-

ploratorisch wurde ein Modell spezifiziert, in dem BDI-II und BDI-II-V als latente Va-

riablen modelliert und ihre Korrelation auf 1.0 fixiert wurde, in Anlehnung an die Ana-

lyse, mit der Schmitt et al. (2003) die Messäquivalenz von BDI und BDI-V nachgewie-

sen hatten. Die Überprüfung fiel nur nach Maßgabe einiger Güteindizes (SRMR, CFI,

tendenziell auch TLI), nicht jedoch nach dem Kriterium des χ2-Tests zufriedenstellend

aus. Perfekter Fit konnte in weiter explorierenden Analysen nur für ein Modell nachge-

wiesen werden, in dem die latente Korrelation der beiden Faktoren BDI-II und

BDI-II-V frei geschätzt wurde. Sie belief sich darin auf immer noch hohe, aber eben

nicht perfekte .92.

Schmitt et al. (2003) hatten für BDI und BDI-V in einer Stichprobe, die im Umfang in

etwa der hier eingesetzten entsprach, eine perfekte Korrelation der beiden Faktoren, die

Original und Verkürzung repräsentierten, nachweisen können. Allerdings handelte es

sich dabei um die bereits angesprochene Gesamtstichprobe, die sich neben zwei Dritteln

gesunder Probanden auch aus einem Drittel in stationärer psychiatrischer Behandlung

befindlicher Patienten zusammensetzte, von denen etwa die Hälfte an einer Depression

erkrankt war. Innerhalb der Gruppe der 200 klinisch unauffälligen Probanden gelang es

auch in der Untersuchung von Schmitt et al. (2003) nicht, ein Modell mit perfekter la-

tenter Korrelation zu fitten. Stattdessen ergab sich eine Korrelation von .95 zwischen

dem BDI-Faktor und dem BDI-V-Faktor, die damit ein wenig höher ausfällt, als der

Zusammenhang, der in der vorliegenden Arbeit zwischen den beiden Faktoren von

BDI-II und BDI-II-V erzielt werden konnte.

Sowohl die Befunde von Schmitt et al. (2003), als auch die wesentliche Verbesserung

des Fits eines Modells essentiell τ-paralleler Variablen unter Verwendung logarithmier-

ter Summenwerte, geben Anlass zu der begründeten Vermutung, dass sich eine höhere

Übereinstimmung von BDI-II und BDI-II-V durchaus nachweisen ließe, wenn die Ver-

teilungseigenschaften der Daten dem gewählten Verfahren konfirmatorischer Faktoren-

analysen metrischer Daten angemessener wären. Durch eine Erweiterung der Stichprobe

um eine Gruppe klinisch depressiver Patienten, deren Symptomatik unterschiedliche

Schweregrade aufweist, könnte die Varianz in den Daten erhöht und gleichzeitig die

deutliche Rechtsschiefe der Verteilung reduziert sowie Bodeneffekte relativiert werden.

Diskussion 156

6.1.3 BDI-II.V.1 und BDI-II-V.2 im Vergleich

Das BDI-II-V wurde in zwei Versionen vorgeschlagen, die sich bis auf die Items zur

Erfassung von Veränderungen des Schlafs und des Appetits glichen. Im BDI-II-V.1

wurden diese Items entgegen ihrer Gestaltung im Original-BDI-II global gehalten, im

BDI-II-V.2 wurde dagegen in Übereinstimmung mit dem Original-BDI-II getrennt nach

Zu- und Abnahme der Phänomene gefragt. Das BDI-II-V.2 konnte dann auf zwei We-

gen ausgewertet werden. Zum einen war es möglich, jedes der insgesamt vier Items zur

Zu- und Abnahme von Schlaf und Appetit in den Summenwert einzurechnen, was je-

doch eine Abweichung zum Vorgehen im Original darstellte (bezeichnet mit

BDI-II-V.2). Zum Zweiten ließen sich die Items durch Berücksichtigung nur der höchst-

ausgewählten Ziffer der beiden Schlafitems und der höchstausgewählten Ziffer der bei-

den Appetititems so zusammenfassen, dass für jedes Phänomen – wie bei der Abfrage

durch ein einziges Item – nur eine Ziffer in den Summenwert einfloss; dies entsprach

der Auswertungsstrategie des Originals (bezeichnet mit BDI-II-V.2.Z). Die Ergebnisse

sollten zeigen, welche der Varianten, die Items zu Schlaf und Appetit abzubilden, sich

durch eine größere Nähe zum Original auszeichnete und demnach zur Aufnahme in den

endgültigen Vorschlag eines BDI-II-V empfohlen werden konnte.

In der folgenden Zusammenstellung der Ergebnisse hierzu wird die vom Original ab-

weichende Auswertungsstrategie des BDI-II-V.2 keine Berücksichtigung mehr finden.

Diese musste in ihrem Zusammenhang mit dem Original der zweiten Auswertungsstra-

tegie (BDI-II-V.2.Z) unterlegen sein, da alleine die höhere Anzahl an Items der Ver-

gleichbarkeit mit dem BDI-II abträglich war. Dort, wo Vergleiche vorgenommen wer-

den konnte, bestätigten die Analysen diese Annahme. Viele Berechnungen waren auf-

grund der unterschiedlichen Anzahl an Items gar nicht möglich.

Es werden also BDI-II-V.1 und BDI-II-V.2.Z hinsichtlich ihrer Übereinstimmung mit

dem BDI-II einander gegenübergestellt.

Der Summenwert des BDI-II-V.1 korreliert – wenn auch nur minimal – höher mit dem

Summenwert des BDI-II als der Summenwert des BDI-II-V.2.Z. Noch Aufschlussrei-

cher und aussagekräftiger sind die Korrelationen auf der Ebene der beiden in Frage ste-

henden Items. Auch hier ergibt sich – noch deutlicher als auf Summenwertebene – eine

größere Nähe zwischen der Itemvariante des BDI-II-V.1 und den Items des BDI-II als

zwischen der Itemvariante des BDI-II-V.2.Z und den Items des Originals.

Diskussion 157

Die Differenz zwischen den mittleren Summenwerten in der (reskalierten) verkürzten

Version und dem Original fällt in beiden Substichproben signifikant aus, wobei der Un-

terschied zwischen BDI-II und BDI-I-V.2.Z minimal (1.8 Punkte) größer ist als jener

zwischen BDI-II und BDI-II-V.1.

Der Bezug jedes einzelnen Items zum Summenwert aller anderen Items scheint sich

zwischen BDI-II-V.1 und BDI-II etwas besser zu entsprechen als zwischen

BDI-II-V.2.Z und BDI-II, wie in den Teilstichproben durchgeführte Rangkorrelationen

der Trennschärfen annehmen lassen. Auffällig ist jedoch, dass die Trennschärfe eines

jeden Items des BDI-II-V.2.Z hinter der Trennschärfe des entsprechenden Items des

BDI-II-V.1 zurückbleibt. Im Durchschnitt liegen die Itemtrennschärfen des

BDI-II-V.2.Z um .07 Punkte niedriger als die des BDI-II-V.1.Weder hatte es dazu im

Vorfeld explizite Annahmen gegeben, noch findet sich im Nachhinein eine plausible

Erklärung. Theoretisch kann die Möglichkeit in Betracht gezogen werden, dass der Be-

fund dadurch (mit)verursacht ist, dass die Formulierung der Items zu Appetit und Schlaf

im BDI-II-V.2 sich so ungünstig auf den Gesamtsummenwert auswirkt, dass die Korre-

lation aller anderen Items mit dieser Summe abgeschwächt wird. Ebenso gut ist es je-

doch möglich, dass die Befunde lediglich Ausdruck zufälliger Unterschiede im Ant-

wortverhalten der Probanden der beiden Substichproben sind. Diese Frage konnte nicht

beantwortet werden.

Es fand sich darüber hinaus, dass die mittlere Inter-Item-Korrelation als Maß für die

Homogenität eines Verfahrens im BDI-II-V.1 höher ausfiel als im BDI-II-V.2.Z.

In konfirmatorischen Faktorenanalysen ließ sich wie schon im Vergleich von BDI-II

und BDI-II-V in der Gesamtstichprobe weder für BDI-II und BDI-II-V.1, noch für

BDI-II und BDI-II-V.2.Z in den jeweiligen Teilstichproben ein Modell essentiell τ-

paralleler Variablen fitten, sofern die Ausgangsdaten nicht logarithmiert wurden. Explo-

ratorisch wurde in beiden Teilstichproben daraufhin getestet, ob die Inventare eine per-

fekte latente Korrelation aufweisen würden, wenn sie jeweils als Faktoren modelliert

wurden. Nur wenn man ein α-Niveau von .05 annehmen würde, was für diese relativ

kleine Stichprobe nicht angemessen ist, könnte man für BDI-II und BDI-II-V.1 davon

sprechen, dass ein solches Modell nach Maßgabe des χ2-Tests eine Tendenz in Richtung

Modellfit aufweist. Nach wissenschaftlichen Standards darf es entsprechend dem

χ2-Test nicht als akzeptabel bezeichnet werden. Die Güteindizes SRMR, CFI und TLI

Diskussion 158

bescheinigen diesem Modell dagegen einen akzeptablen Fit. Für BDI-II und

BDI-II-V.2.Z würden nur die Indizes SRMR und CFI eine Annahme dieses Modells

empfehlen. Perfekt passt in beiden Stichproben nur ein Modell, in dem die Korrelation

zwischen den Faktoren, welche die Inventare repräsentierten, ohne jede Restriktion frei

geschätzt wird. Sie beläuft sich auf hohe .91 zwischen BDI-II und BDI-II-V.2.Z und auf

noch etwas höhere .94 zwischen BDI-II und BDI-II-V.1.

Die berichteten Ergebnisse sprechen ausnahmslos für die Ausgestaltung der Items, wie

sie im BDI-II-V.1 vorgenommen wurde. Ihre Interpretierbarkeit ist jedoch durch einige

Unsicherheiten eingeschränkt. Zum einen widersprechen sie der theoretisch begründe-

ten Annahme, das BDI-II-V.2.Z würde dem BDI-II besser entsprechen, da die Ausge-

staltung beziehungsweise Formulierung der Items und auch die Strategie ihrer Auswer-

tung wesentlich näher am Original bleiben. Zum Zweiten ist die Vergleichbarkeit der

Substichproben nicht mit letzter Sicherheit gegeben. Es war nicht nachzuweisen, dass

sich beide Teilstichproben im Hinblick auf das Niveau der Depressivität entsprechen.

Die mittleren Summenwerte des BDI-II unterschieden sich zwischen den Gruppen zu-

mindest bei einem angestrebten α-Niveau von .20 überzufällig, wenn auch nur in gerin-

gem Ausmaß. Auch war die soziodemographische Zusammensetzung der Stichproben

zwar gut vergleichbar, aber nicht identisch. Hinsichtlich der Verteilung von Männern

und Frauen auf die Teilstichproben und dem Anteil an Teilnehmern in verschiedenen

Partnerschaftssituationen bestanden leicht überzufällige Unterschiede. Zum Dritten ist

das Zustandekommen der Unterschiede in den Trennschärfen zwischen BDI-II-V.1 und

BDI-II-V.2.Z nicht geklärt, wodurch insbesondere die Ergebnisse der Rangkorrelatio-

nen der Trennschärfen von BDI-II-V und BDI-II innerhalb der Teilstichproben nur vor-

läufig interpretiert werden sollten. Einerseits ist es möglich, dass sich in den durchgän-

gig niedrigeren Trennschärfen des BDI-II-V.2.Z die unangemessenere Ausformulierung

der Schlaf- und Appetit-Items in dieser Version ausdrückt und dass diese Items im

BDI-II-V.1 besser ins Gesamtbild der anderen Items passen. Wahrscheinlicher ist je-

doch ein Zustandekommen durch zufällige Stichprobenunterschiede, deren weitere

Auswirkungen nicht abgeschätzt werden können. Zum Vierten und insbesondere aber

handelt es sich in allen Fällen um rein deskriptive Vergleiche der Größe bestimmter

Koeffizienten und Gütemaßstäbe, deren Unterschied nicht zufallskritisch abgesichert

ist.

Diskussion 159

Geht man jedoch davon aus, dass die Ergebnisse trotz der dargelegten Einschränkungen

substanzieller Natur sind und die Items des BDI-II zu Schlaf und Appetit tatsächlich

besser durch die entsprechenden Items des BDI-II-V.1 repräsentiert werden, wäre eine

theoretische Erklärung der Befunde zu versuchen.

Die Items zielen ursprünglich darauf ab, die Symptomatik einer Depression zu erfragen,

wie sie sich in Schlaf und Appetit niederschlagen kann. Dabei weisen Betroffene in der

Regel entweder eine Verschlechterung oder eine Steigerung von Schlaf beziehungswei-

se Appetit auf (Saß et al., 2003). Es geht also um eine auffällige Veränderung der Phä-

nomene in eine Richtung, die der Betroffene in der Regel als belastend erlebt. Dement-

sprechend erzwingt die Instruktion des Original-BDI-II schon beim Ausfüllen eine Ent-

scheidung ob – im Vergleich zu früheren Zeiten – eine Zunahme oder eine Abnahme

von Schlaf beziehungsweise Appetit aufgetreten ist.

Wird dagegen wie im BDI-II-V.2 nach „außergewöhnlich viel“ und „außergewöhnlich

wenig“ Schlaf beziehungsweise Appetit gefragt, könnte es sein, dass in der Urteilsfin-

dung der Probanden in erster Linie ein Abwägen stattfindet, wie oft es in den letzten

beiden Wochen vorkam, dass sie eher mehr als gewöhnlich geschlafen (Appetit emp-

funden) haben und wie oft es vorkam, dass sie eher weniger als gewöhnlich geschlafen

(Appetit empfunden) haben. Die erzwungene Stellungnahme zur Ausprägung der Phä-

nomene in beide Richtungen führt damit zumindest bei weitgehend gesunden Proban-

den, bei denen nicht – wie im Falle einer akuten Depression – eine Veränderung im

Vordergrund steht, sondern im Rahmen des normalen Alltagsgeschehens Tage mit viel

und wenig Schlaf (Appetit) vorkommen, möglicherweise zu einer verzerrten Abbildung

dessen, was ursprünglich mit dem Item erfragt werden sollte.

Damit wäre es nachvollziehbar, dass die global gehaltenen Items des BDI-II-V.1 („Ich

leide unter Schlafstörungen“ und „Mein Appetit ist anders als früher“) auch bei Gesun-

den den eigentlichen Hintergrund des Items besser abbilden. Sie sind vermutlich stärker

mit dem im Original-BDI-II entscheidenden Aspekt einer auffälligen Veränderung

und/oder des Leidens verknüpft und verleiten nicht zu einem schlichten Abwägen all-

täglicher Schwankungen in der Dauer des Schlafs respektive der Intensität des Appetits.

Sollte dies der Fall sein, müsste sich in klinischen Stichproben ein höherer Zusammen-

hang zwischen den Schlaf- und Appetit-Items des BDI-II-V.2.Z und denen des BDI-II

zeigen als in der Bevölkerungsstichprobe, da bei Erkrankten häufiger tatsächlich eines

Diskussion 160

der Phänomene (zu viel oder zu wenig) im Vordergrund steht und alltäglich Schwan-

kungen überlagert, die so die Antworten weniger verzerren können.

Eine Rolle in den niedrigeren Korrelationen der Schlaf- und Appetititems des

BDI-II-V.2.Z mit den entsprechenden Items des Originals im Vergleich zu den Korrela-

tionen, die Schlaf- und Appetit-Items des BDI-II-V.1 mit den Items des Originals erziel-

ten, könnte zudem die übermäßige Gewichtung von viel Schlaf beziehungsweise Appe-

tit gespielt haben. Im Rahmen klinischer Depressionen kommt eine Verschlechterung

von Schlaf und Appetit viel häufiger vor als deren Zunahme. Eine Steigerung von

Schlaf und Appetit zeigt sich vor allem in der seltenen Ausprägung der Major Depres-

sion mit atypischen Merkmalen, die insbesondere dann auftritt, wenn es sich um mit

saisonalem Muster rezidivierende depressive Episoden handelt (Saß et al., 2003). Im

BDI-II-V.2. wird dagegen immer auch eine Angabe verlangt, wie häufig außergewöhn-

lich viel geschlafen und gegessen wurde. Jedes Mal, wenn das Empfinden eines Zuviel

häufiger vorkam als das Empfinden eines Zuwenig und die Ziffer des außergewöhnlich

viel-Items damit die Ziffer des außergewöhnlich wenig-Items überstieg, wurde sie als

endgültiger Wert des Items verwendet. In Verbindung mit der weiter oben geäußerten

Vermutung, dass das Item Probanden zu einem reinen Abwägen von mehr oder weniger

veranlasst, könnte dies alleine durch zufällige Schwankungen nicht selten der Fall ge-

wesen sein. Dadurch ging sehr häufig ein Wert ein, der mit depressiver Symptomatik in

den seltensten Fällen zu tun hat. Dieses Übergewicht gilt ganz besonders für das Appe-

tit-Item, nachdem in der erwachsenen Bevölkerung sehr viele Menschen (durchgehend

oder phasenweise) unter dem Eindruck leiden, eher zu viel als zu wenig Appetit zu ha-

ben.

Die Erklärungsversuche könnten einer Plausibilitätsprüfung unterzogen werden, indem

getestet wird, ob die Zusammenhänge wie vorhergesagt in klinischen Stichproben an-

ders ausfallen als in der hier untersuchten Bevölkerungsstichprobe.

Vorstellbar wäre auch der Versuch, ähnlich der Instruktion des BDI-II, die Probanden

nur eines der Schlaf- und eines der Appetit-Items des BDI-II-V.2 beantworten zu lassen

oder eine Art Filterfrage vorzuschalten. Diese könnte zunächst abfragen, ob in den letz-

ten zwei Wochen eher viel oder eher wenig Schlaf (Appetit) vorhanden war und danach

eine Angabe erbitten, wie häufig außergewöhnlich viel respektive außergewöhnlich we-

nig Schlaf oder Appetit vorkamen.

Diskussion 161

Soll die Abbildung der Symptome in Schlaf und Appetit in Form von je zwei Items bei-

behalten werden, müsste ihre Formulierung näher an die des Originals herangeführt

werden. Es dürfte nicht mehr nach „außergewöhnlich viel“ und „außergewöhnlich we-

nig“ Schlaf respektive Appetit gefragt werden, sondern es müsste der Aspekt der Ver-

änderung gegenüber sonst aus dem Original übernommen werden. Beispielsweise

könnte man formulieren:

Ich habe weniger als sonst geschlafen (nie … fast immer)

Ich habe mehr als sonst geschlafen (nie … fast immer)

und

Ich hatte weniger Appetit als sonst (nie … fast immer)

Ich hatte mehr Appetit als sonst (nie … fast immer)

Die Items so zu belassen und ihre Auswertung zu verändern, indem die beiden Schlaf-

und Appetit-Items jeweils gemittelt werden, scheint in keinem Falle angebracht.

Dadurch würden ernsthafte Probleme in Form von entweder zu viel oder zu wenig

Schlaf respektive Appetit relativiert, wenn durch eine niedrige Angabe auf dem zweiten

Item der Wert des gemittelten Items sinkt.

6.1.4 BDI, BDI-V, BDI-II und BDI-II-V im Vergleich

Die Berechnung bivariater Zusammenhänge zwischen allen eingesetzten Varianten des

Beck Depressionsinventars BDI, BDI-V, BDI-II und BDI-II-V ergibt sehr hohe Korre-

lationen jeweils zwischen den beiden gleich skalierten Originalversionen (r = .94) und

zwischen den verkürzten Versionen (r = .93). Die vier weiteren Koeffizienten jeweils

zwischen einem Original und einer verkürzten Version fallen niedriger, aber dennoch

hoch aus (r = .85 – 86), wobei es unerheblich scheint, ob die Korrelation zwischen ei-

nem Original und der zugehörigen Verkürzung oder die Korrelation zwischen einem

Original und der nicht-zugehörigen Verkürzung bestimmt wird. Ähnliche Skalierung

schlägt sich damit wesentlich deutlicher im Zusammenhangsmuster der Fragebögen

nieder als inhaltliche Übereinstimmung.

Wie die mittleren Summenwerte von BDI-II und reskaliertem BDI-II-V, so unterschei-

den sich auch die mittleren Summenwerte von BDI und reskaliertem BDI-V überzufäl-

lig. Die verkürzten Versionen sind jeweils etwas leichter als das Original. Wie in Unter-

Diskussion 162

suchungen für das amerikanische BDI und BDI-II (Dozois et al., 1998), so zeigt sich

auch in dieser Untersuchung für das deutsche BDI, dass Probanden in der zweite Aufla-

ge ganz leicht höhere Werte (mittlere Differenz 1.2 Punkte) erzielen; ein Unterschied,

der in dieser Stichprobe signifikant wird.

Die internen Konsistenzen der Inventare sind allen früheren Ergebnissen (Hautzinger et

al., 1995; Hautzinger et al., 2006; Schmitt et al., 2003; Schmitt & Maes, 2000) entspre-

chend sehr hoch, wobei sich die Befunde in dieser Untersuchung allesamt am oberen

Rand der Konsistenzwerte, die für die einzelnen Inventare zuvor gefunden wurden, be-

wegen. Den Anfang macht das BDI mit einem Koeffizient α von .89, direkt danach liegt

das BDI-II, dessen interne Konsistenz sich in der vorliegenden Arbeit auf .92 beläuft;

noch etwas konsistenter sind die verkürzten Versionen mit einem α von .94 (BDI-V)

respektive .95 (BDI-II-V). Wird die Homogenität nach Maßgabe der Itemtrennschärfen

bestimmt, ergibt sich ein identisches Bild im Vergleich der Inventare: Die durchschnitt-

lich trennschärfsten Items besitzt das BDI-II-V (M (rit) = .69), in entsprechender Höhe

liegt die mittlere Trennschärfe des BDI-V (M (rit) = .66); schon ein wenig niedriger fal-

len die Zusammenhänge der Items mit dem Summenwert aller anderen Items im BDI-II

aus (M (rit) = .57), für das BDI wurde eine mittlere Itemtrennschärfe von .50 gefunden.

Im Vergleich mit früheren Befunden zu BDI (Hautzinger et al., 1995), BDI-V (Schmitt

et al., 2003) und BDI-II (Hautzinger et al., 2006) fallen die mittleren Trennschärfen in

dieser Stichprobe im oberen Bereich dessen aus, was man erwarten konnte, wie es sich

schon für die internen Konsistenzen gezeigt hatte.

Mit den Dimensionen des Big Five Persönlichkeitsmodells bestehen für alle Formen

ähnliche Zusammenhänge.

In konfirmatorischen Faktorenanalysen werden die Zusammenhänge zwischen den vier

Inventaren BDI, BDI-V, BDI-II und BDI-II-V weder von dem postulierten Modell es-

sentiell τ-paralleler Variablen, noch von exploratorisch überprüften, weniger restringier-

ten Modellen essentiell τ-äquivalenter oder τ-kongenerischer Variablen zufriedenstel-

lend beschrieben. Selbst das Logarithmieren der Summenwerte, das im Falle der „klei-

nen“ Modelle für BDI-II und BDI-II-V zu perfektem Fit geführt hatte, verbesserte den

Modellfit nicht soweit, dass er akzeptabel gewesen wäre. Perfekte latente Korrelationen

zwischen den Inventaren hatten sich schon in den Modellen des BDI-II und BDI-II-V

nicht bestätigen lassen und waren daher ebenso wenig in der Modellierung aller BDIs

Diskussion 163

nachzuweisen. Bei freier Schätzung messfehlerbereinigter Korrelationen zwischen den

BDI-Faktoren lässt sich zwar perfekter Modellfit erzielen, doch es treten Heywood

Cases auf: Die Korrelation zwischen dem Faktor des BDI und dem Faktor des BDI-II

übersteigt 1. Die anderen latenten Korrelationen bewegen sich zwischen .98 (Korrelati-

on zwischen den Faktoren der verkürzten Inventare) und .91 bis .93 (weitere Koeffi-

zienten).

Das Muster manifester bivariater Korrelationen zwischen den Inventaren und die Er-

gebnisse der bisherigen Versuche, ein die Struktur der Daten beschreibendes Modell zu

finden, hatten eindeutig einen systematischen Einfluss der unterschiedlichen Skalierung

der originalen und verkürzten Inventare angezeigt. Dieser Einfluss wurde in einem

nächsten Schritt als Methodenfaktor im Modell berücksichtigt. In Anlehnung an das von

Eid (2000) eingeführte Prinzip, einen Methodenfaktor weniger zu spezifizieren, als Me-

thoden eingesetzt wurden, wurde nur ein Methodenfaktor ins Modell aufgenommen.

Die Methode, die nicht modelliert wird, wird zur Standardmethode. Der Methodenfak-

tor bildet dann Abweichungen von der Messung eines Traits mit der Standardmethode

ab (Eid, 2000). Zunächst wurde die Originalskalierung zur Standardmethode gemacht,

BDI-V und BDI-II-V als Indikatoren eines Methodenfaktors gewählt und ihre Verbin-

dung zu diesem Faktor in der Modellspezifikation als identisch festgelegt. Spezifiziert

man im Modell weiterhin, dass alle vier Inventare gleich stark mit dem Traitfaktor De-

pression verknüpft sein sollen, weist das Modell keinen Fit auf. Lockert man diese Rest-

riktion, fittet das Modell perfekt. Die Konsistenz von BDI-V und BDI-II-V fällt hoch,

ihre Methodenspezifität niedrig aus, 78 respektive 77% der Varianz in den Werten wer-

den nach diesem Modell durch den interessierenden Trait, 17 respektive 14% der Vari-

anz durch die Wahl einer anderen Methode als die der Originalskalierung bestimmt. Die

Abbildung der Depressivität durch die verkürzten Versionen der BDIs kann gut, aber

nicht perfekt durch die Werte der Originalformen vorhergesagt werden. Die Überprü-

fung eines Modells, in dem die Rollen von Standard- und Vergleichsmethode getauscht

werden, also die beiden Original-BDIs auf einen Methodenfaktor zurückgeführt werden,

führt zum gleichen Schluss. Die wahren Depressionswerte, die ein Original-BDI misst,

unterscheiden sich mäßig von den wahren Depressionswerten, die ein verkürztes BDI

misst.

Diskussion 164

6.2 Einschränkungen und Kritik

Dieser Abschnitt dient der Beschreibung und Kritik von Umständen und Vorgehenswei-

sen, die die Interpretierbarkeit und Generalisierbarkeit der Ergebnisse dieser Studie ein-

schränken. Wo immer es möglich scheint, werden Alternativen beschrieben, die in

künftigen Untersuchungen ähnliche Beschränkungen vermeiden oder überwinden könn-

ten.

6.2.1 Stichprobe

Zur realisierten Stichprobe lassen sich zwei Aspekte kritisch anmerken: Die Auswahl

einer nicht klinischen Stichprobe und die mangelnde Bevölkerungsrepräsentativität, die

sich besonders deutlich zeigt in der Unterrepräsentation von Teilnehmer unter 20 Jah-

ren.

6.2.1.1 Auswahl der Stichprobe

Insgesamt ist es nicht optimal, Depressionsinventare an reinen Bevölkerungsstichproben

zu untersuchen. Zum einen war zu erwarten, dass daraus Varianzeinschränkungen res-

pektive Bodeneffekte resultieren würden, da Depressivität in einer nicht-klinischen

Stichprobe nicht ausgeglichen oder normal verteilt sein kann. Die Verteilungsform der

Daten verletzte so die Voraussetzungen der eingesetzten Verfahren und trug im Falle

der konfirmatorischen Faktorenanalysen vermutlich zu den nicht erwartungskonformen

Resultaten bei. Insbesondere für die Analysen, die nur BDI-II und BDI-II-V modellier-

ten, ist nicht zu sagen, inwieweit der nicht zufriedenstellende Modellfit mit den ungüns-

tigen Verteilungseigenschaften der Daten zusammenhängt und inwieweit er tatsächlich

Mängel in der Messäquivalenz der Inventare wiederspiegelt. Zwar wäre auch in klini-

schen Stichproben oder aus klinischen und gesunden Stichproben zusammengesetzten

Gruppen nicht unbedingt eine Normalverteilung zu erwarten, aber insgesamt würde sich

die Varianz in den Daten vergrößern und die Form der Verteilung würde zumindest

etwas näher an eine Normalverteilung heranreichen. Zum anderen sind die gefundenen

Resultate nicht auf die Verhältnisse in klinischen Populationen generalisierbar.

Diskussion 165

6.2.1.2 Repräsentativität der Stichprobe

Die realisierte Stichprobe ist nicht bevölkerungsrepräsentativ, was die Generalisierbar-

keit der Ergebnisse auch innerhalb nicht-klinischer Populationen weiter einschränkt.

Eine exakte Bevölkerungsrepräsentativität war im Rahmen dieser Arbeit nicht zu reali-

sieren und wurde auch nicht explizit angestrebt. Ein Aspekt verdient trotzdem eine kur-

ze Beleuchtung.

Besonders deutlich unterrepräsentiert ist die Gruppe der unter 20-Jährigen. Dies hat

zwei Gründe. Zum einen war der Zugang zu Jugendlichen schwierig, so dass schon die

Rekrutierungsquote unter der für alle anderen Altersgruppen lag. Institutionen, über die

an viele Jugendliche gleichzeitig hätte herangetreten werden können, wären zum Bei-

spiel Schulen oder Vereine gewesen. Um in diesem Rahmen für die Teilnahme an der

Studie zu werben, hätte das Einverständnis sowohl von Institutionsleitung

und -mitarbeitern, als auch von allen Eltern eingeholt werden müssen. Dies erschien der

Autorin unverhältnismäßig für die Zwecke einer ersten Untersuchung eines neu entwor-

fenen Fragebogens. Sollte sich der Fragebogen jedoch bewähren und weitergehende

Analysen und Normierungsuntersuchungen angestrebt werden, wäre der Weg über offi-

zielle Institutionen eine Möglichkeit, die Gruppe Jugendlicher und junger Erwachsener

anzusprechen.

Der zweite Grund besteht in der überproportional hohen Ausschlussquote. Von den 10

antwortenden Teilnehmern unter 20 Jahren mussten 5 (also 50%)29

aus der Stichprobe

genommen werden, da ihre Fragebögen eindeutig auf unverständiges oder nicht ernst-

haftes Ausfüllen schließen ließen. So war zum Beispiel in allen Items die gleiche Ziffer

angekreuzt und/oder die Kombination der ausgewählten Antwortmöglichkeiten war

äußerst fragwürdig respektive unmöglich.

Jugendliche hätten grundsätzlich durch die Autorin selbst oder durch von der Autorin

gut eingewiesene Personen angesprochen und genauer instruiert werden müssen, um

sicherzustellen, dass ihnen Sinn und Bedeutung der Arbeit zumindest vermittelt wurden.

Möglicherweise ist es generell schwer realisierbar, jugendliche Teilnehmer mittels eines

Schneeballsystems zu rekrutieren. Vermutlich ließe sich eine höhere Quote mit Bedacht

ausgefüllter Fragebögen zurückerhalten, wenn die Untersuchung in einem offiziellen

29

Zum Vergleich: Die Ausschlussquote für die Stichprobe der Rücksender ab 20 Jahren lag bei 3%.

Diskussion 166

Rahmen (s. o.) angekündigt oder – noch besser – auch durchgeführt würde, als bei „in-

offiziellen“ Ansprachen durch Freunde oder Bekannte.

6.2.2 Datenaufbereitung

Ungünstig war das Vorgehen bei der Datenaufbereitung, die zu viel Wert darauf legte,

die Power nicht durch vermeidbare Ausschlüsse von Probanden zu reduzieren. Aus die-

sem Grund wurde darauf verzichtet, Probanden mit fehlenden Werten in einem der In-

ventare von vorne herein aus den Analysen auszuschließen. Letztendlich wurden aber

Stichproben ohne fehlende Werte benötigt, so dass die Ausschlüsse im Nachhinein vor-

genommen wurden. Da nicht alle Arbeitsschritte wiederholt werden konnten, sind die

Stichprobenumfänge zwischen Vor- und endgültigen Analysen und in Einzelfällen auch

innerhalb der endgültigen Analysen nicht exakt identisch. Dies ist nicht optimal und

machte zudem eine komplizierte Darstellung des Prozesses nötig, um Umschlüssigkei-

ten zu vermeiden. Solche wären aufgetreten, wenn unterschiedliche Stichprobenumfän-

ge oder Unterschiede in vorläufigen30

und endgültigen Trennschärfeanalysen aufgefal-

len, aber unerklärt geblieben wären. Eine bessere Alternative zum gewählten Vorgehen

wäre gewesen, in Fragebögen, in denen nur vereinzelte Items fehlten, diese durch Impu-

tation zu ersetzen und nur Probanden, für die in einem Fragebogen (zum Beispiel durch

das Überblättern einer Seite) mehrere Items fehlten, aus der Stichprobe zu nehmen. So

wäre eine Stichprobe ohne fehlende Werte entstanden und gleichzeitig wäre die Power

nur in vernachlässigbarem Umfang reduziert worden.

6.2.3 Aussagekraft der Untersuchungen zum BDI-II-V in der Gesamt-

stichprobe

Es ist kritisch zu reflektieren, was die Ergebnisse zum BDI-II-V aussagen, der aus der

Zusammenfassung der Varianten BDI-II-V.1 und BDI-II-V.2.Z hervorging, um Analy-

sen in der Gesamtstichprobe mit großem Stichprobenumfang vornehmen zu können.

Den Auswertungen wurde der Gedanke zu Grunde gelegt, dass diese Analysen einen

globalen Eindruck vermitteln und die Berechnungen in den Teilstichproben für das

BDI-II-V.1 und BDI-II-V.2(.Z) das Ergebnis weiter spezifizieren würden.

30

Die vorläufigen Analysen werden nicht berichtet, kommen aber indirekt in der Verteilung der Items auf

jene Parcels zum Ausdruck, die auf der Basis der Trennschärfen erstellt wurden.

Diskussion 167

In jedem Falle sind alle Analysen, die sich in dieser Arbeit auf das BDI-II-V beziehen,

nicht exakt auf eine endgültige Variante des BDI-II-V übertragbar, in der die Items zu

Schlaf und Appetit in der einen oder anderen hier untersuchten oder sogar einer dritten

Weise ausgestaltet sein werden.

6.2.4 Interpretierbarkeit der konfirmatorischen Faktorenanalysen

Die Interpretierbarkeit der Ergebnisse konfirmatorischer Faktorenanalysen ist insbeson-

dere dadurch eingeschränkt, dass alle Analysen, die einen perfekten Fit erzielten, ent-

weder an logarithmierten Daten vorgenommen wurden oder Modelle testeten, die erst

exploratorisch im Laufe der Analysen entstanden. Der Fit von Modellen, die nicht die

Rohdaten, sondern in ihrer Verteilung nicht-linear veränderte Daten untersuchen, kann

nicht auf die realen Verhältnisse übertragen werden. Die Ergebnisse geben maximal

Auskunft darüber, wie der Fit möglicherweise durch die Verteilung der Daten beein-

flusst worden ist. Die Passung von Modellen, die nicht im Vorhinein theoretisch ange-

nommen, sondern während der Analysen auf der Basis von in den erhobenen Daten

vorgefundenen Verhältnissen entwickelt wurden, bedarf einer Bestätigung in neuerli-

chen Untersuchungen, bevor sie endgültig interpretiert werden darf. Eine Option hätte

darin bestanden, die Stichprobe vor den Analysen zu unterteilen und die in der ersten

Hälfte gut passenden Modelle an der zweiten Hälfte direkt zu überprüfen (Kreuzvalidie-

rung).

6.2.5 Vergleich von BDI-II-V.1 und BDI-II-V.2

In der Frage, ob das BDI-II-V.1 oder das BDI-II-V.2 (beziehungsweise dessen Auswer-

tung als BDI-II-V.2.Z) dem BDI-II besser entspricht, sind Schlussfolgerungen aus den

Analysen dieser Untersuchung nur auf der Basis rein deskriptiver Vergleiche von Diffe-

renzen, Koeffizienten und Modellgüteindizes möglich, die nicht auf Signifikanz über-

prüft wurden.

Die Indizes, die zum inferenzstatistischen Vergleich des Fits von Modellen konfirmato-

rischer Faktorenanalyen existieren (wie der χ2-Differenzentest für ineinander verschach-

telte Modelle oder andere Maße für nicht verschachtelte Modelle, beispielsweise Akai-

ke‘s Information Criterion, AIC), sind nur zur Anwendung auf Modelle konzipiert, die

im selben Datensatz gerechnet wurden (Hox, 2002) und konnten daher keine Verwen-

Diskussion 168

dung finden. Zum Vergleich von Modellen in verschiedenen Stichproben existieren

jedoch Mehr-Gruppen-Lösungen, zum einen Multiple-Groups CFA und zum anderen

MIMIC-Models (Analysen, die Kovariaten enthalten; Brown, 2006). Diese Methoden

sind dafür geeignet, zu überprüfen, ob sich Struktur und Parameter eines Modells in

zwei verschiedenen Gruppen (wie zum Beispiel Männern und Frauen) entsprechen oder

nicht (ein klassischer Ansatz zur Messinvarianzüberprüfung, vgl. Abschnitt 2.4). Im

Rahmen dieser Methodik hätten sich wahrscheinlich auch Vergleiche zwischen der

Konvergenz mit dem Original von BDI-II-V.1 und .2 realisieren lassen, die damit infer-

enzstatistisch abgesichert gewesen wären. Unter Verwendung der zusammengefassten

Auswertung von BDI-II-V in der Gesamtstichprobe wäre die Variante des BDI-II-V (1

vs. 2) die Gruppierungsvariable gewesen. So hätte zum Beispiel die latente Korrelation

zwischen den Faktoren von BDI-II und BDI-II-V in beiden Stichproben auf Gleichheit

getestet und damit die Frage beantwortet werden können, ob das BDI-II-V.1 signifikant

höher mit dem BDI-II korreliert als das BDI-II-V.2.Z oder ob es sich bei der gefunde-

nen höheren latenten Korrelation um einen rein zufälligen, augenscheinlichen Unter-

schied handelt.

Die Zuverlässigkeit der Schlussfolgerungen aus dieser Untersuchung ist zudem durch

Unterschiede zwischen den Stichproben beeinträchtigt, deren Auswirkungen nicht abzu-

schätzen sind. Die Teilstichproben unterschieden sich leicht in Bezug auf das depressive

Niveau und differierten ebenso ein wenig im Bereich der soziodemographischen Zu-

sammensetzung. Darüber hinaus bleibt die Arbeit eine sichere Antwort auf die Ursache

der durchgängig niedrigeren Trennschärfen der Items des BDI-II-V.2 schuldig.

6.2.6 Modellgütebeurteilung und Interpretation der Modelle

Modellgüteindizes sind neben der Güte der Modellspezifikation auch abhängig von der

Stichprobengröße, von der Verteilung der Daten, dem verwendeten Schätzer und der

Modellkomplexität und sind daher immer im Lichte dieser Umstände zu bewerten

(Brown, 2006). Neben der suboptimalen Verteilung der Daten, auf die bereits eingegan-

gen wurde, könnte der verwendete Schätzalgorithmus ein Problem dargestellt haben.

Die Cut-Off-Kriterien, die bei der Beurteilung der Modellgüteindizes RMSEA, SRMR,

CLI und TLI zu Grunde gelegt wurden und die sich hauptsächlich an den Empfehlungen

von Hu und Bentler (1999) orientieren, wurden von den Autoren explizit unter Annah-

me einer Modellschätzung mit dem ML-Schätzer formuliert. Die konfirmatorischen

Diskussion 169

Faktorenanalysen in dieser Arbeit wurden dagegen mit dem MLM-Schätzer durchge-

führt. So könnte man die Frage stellen, ob die Modelle auf der Basis der Modellgütein-

dizes adäquat bewertet wurden. Zumindest für den Fall einer zu liberalen Bewertung

kann jedoch relativierend hinzugefügt werden, dass der Fit immer dann mit einer ML-

Schätzung und den dabei ausgegebenen Güteindizes überprüft wurde, wenn die MLM-

Schätzung einen guten Fit nahegelegt hatte31

.

Insgesamt wurde möglicherweise zu viel Wert auf die Suche nach einem Modell, das

die Struktur der Daten nach Maßgabe von χ2-Test und Fitindizes gut beschreiben würde,

gelegt und in Folge dessen die tiefgründige Interpretation weiterer Aspekte der Modelle

vernachlässigt. So wären sicher noch einige Schlussfolgerungen zur Beziehung der Fra-

gebögen zueinander und den Ursachen für (schlechten) Modellfit aus der Ausprägung

der Parameterschätzer oder Residualstatistiken ableitbar gewesen (vgl. Brown, 2006).

6.3 Fazit und Anregungen für weiterführende Untersuchungen

Nach bisherigen Analysen steht mit dem vereinfachten BDI-II (BDI-II-V) ein reliables,

valides und ökonomisches Instrument zur Erfassung von Depressivität in enger Anleh-

nung an die Kriterien des aktuellen Diagnostischen und Statistischen Manuals Psychi-

scher Störungen (DSM-IV-TR) der American Psychiatric Association (2000) zur Ver-

fügung. Für seine Konstruktvalidität sprechen neben hohen Korrelationen mit dem etab-

lierten Original (BDI-II) auch hohe Korrelationen mit Neurotizismus und niedrige bis

mittelhohe Korrelationen mit Extraversion, Offenheit für Erfahrung, Verträglichkeit und

Gewissenhaftigkeit.

Auf der Ebene deskriptiver Maße entspricht das BDI-II-V gut dem Original, wenn die

verkürzte Version auch etwas leichter ist. Mittels konfirmatorischer Faktorenanalysen

konnte in der hier verwendeten Bevölkerungsstichprobe mit stark rechtsschief verteilter,

niedriger durchschnittlicher Depressivität jedoch keine Messäquivalenz der beiden In-

ventare nachgewiesen werden. Je nach verwendeter Ausgestaltung des BDI-II-V wur-

den zwischen latenten Faktoren, die das BDI-II und das BDI-II-V repräsentierten, be-

achtliche Korrelationen von .91 bis .94 erzielt. Korrigierte Itemtrennschärfen und inter-

ne Konsistenz des BDI-II-V sind sogar noch etwas höher als die des Originals.

31

Mit Ausnahme der Modelle, die logarithmierte Daten verwendeten; die Interpretierbarkeit dieser Mo-

delle ist jedoch ohnehin eingeschränkt und ihre Resultate bilden nicht die Basis inhaltlicher Schlussfolge-

rungen

Diskussion 170

Es wurden vorläufig zwei Varianten des BDI-II-V, die sich in den Items zu den Symp-

tomen Schlaf und Appetit unterscheiden, vorgeschlagen. Das BDI-II-V.1 fragt die

Symptome jeweils in einem globalen Statement ab („Ich leide unter Schlafstörungen“

und „Mein Appetit ist anders als früher“), das BDI-II-V.2 formuliert zu den Symptom-

bereichen je zwei Fragen, die Beschwerden in beide Richtungen erfassen, („Ich schlafe

außergewöhnlich wenig“/“Ich schlafe außergewöhnlich viel“ und „Ich habe außerge-

wöhnlich wenig Appetit“/“Ich habe außergewöhnlich viel Appetit“). In der Auswertung

des BDI-II-V.2 wird dabei jeweils nur die höher bewertete der beiden Aussagen zu

Schlaf und Appetit gezählt. Die beiden Varianten konnten zusammengefasst und ge-

meinsam als „BDI-II-V“ untersucht werden (s.o.); wurden aber auch getrennt analysiert

und verglichen. Die Ergebnisse sprachen augenscheinlich für eine bessere Äquivalenz

von BDI-II-V.1 und BDI-II als von BDI-II-V.2 und BDI-II sowie für bessere psycho-

metrische Eigenschaften des BDI-II-V.1. Dieser Befund sollte wegen verschiedener

Unklarheiten und teilweisen Unzulänglichkeiten der eingesetzten Methoden bis auf wei-

teres jedoch nicht generalisiert werden, sondern zunächst an neuen Stichproben über-

prüft werden.

Schließlich wurden die erste (Hautzinger et al., 1994) und die zweite Auflage (Hautzin-

ger et al., 2006) des deutschen Beck Depressionsinventars zusammen mit vereinfachten

Varianten der Inventare, dem BDI-V (Schmitt & Maes, 2000) und dem hier vorgeschla-

genen BDI-II-V parallelen Vergleichen ihrer Messeigenschaften unterzogen. Auf der

Ebene deskriptiver Maße zeigte sich, dass die beiden Original-Auflagen und die beiden

verkürzten Versionen jeweils sehr hoch korrelieren. Der Zusammenhang zwischen ei-

nem Original-BDI und dessen Verkürzung oder zwischen einem Original-BDI und der

Verkürzung des jeweils anderen Originals ist etwas niedriger. Der Summenwert, den ein

Proband im BDI-II erzielt, liegt durchschnittlich 1.2 Punkte höher als sein Ergebnis im

BDI. Die vereinfachten BDIs sind etwas leichter als die Originale. Das BDI ist etwas

weniger konsistent als das BDI-II und seine Items sind etwas weniger trennscharf. In-

terne Konsistenz und Itemtrennschärfe der vereinfachten Inventare sind höher als inter-

ne Konsistenz und Itemtrennschärfe der Original-BDIs. Konfirmatorische Faktorenana-

lysen mussten von dem Ziel, die inhaltliche Übereinstimmung der Verfahren in einem

Modell essentiell τ-paralleler Variablen nachzuweisen, abrücken. Es zeigte sich, dass

das Zusammenhangsmuster zwischen den vier Versionen des BDI neben inhaltlichen

Aspekten sehr deutlich durch die Unterschiede in der Skalierung zwischen Originalen

Diskussion 171

und Verkürzungen geprägt war. So erzielte ein Modell, das die Zusammenhänge zwi-

schen den Inventaren auf eine latente Dimension Depressivität zurückführte, erst per-

fekten Fit, nachdem die unterschiedliche Skalierung in Form eines Methodenfaktors im

Modell berücksichtigt wurde. Die Analyse führte zu dem Schluss, dass die wahren Wer-

te eines Originals und einer vereinfachten Version in Folge der Skalierungsunterschiede

nicht perfekt übereinstimmen, wenn auch der Einfluss der Skalierung nur mäßig ausge-

prägt ist. Die Konvergenz von Originalen und Verkürzungen übersteigt die Spezifität

der verkürzten Versionen um mehr als das Vierfache.

Insgesamt konnte diese Arbeit einige vorläufige Resultate zu den Messeigenschaften

eines Vorschlages für ein verkürztes BDI-II (BDI-II-V) sowie zur Konvergenz des

BDI-II-V mit dem Original und zur Konvergenz von vier verschiedenen Versionen des

Beck Depressionsinventars erzielen.

Auf viele Fragen konnte keine zufriedenstellende Antwort gefunden werden. Zudem

ergaben sich im Laufe der Auswertungen neue Fragen, die zur Fortsetzung der Analy-

sen anregen. Auf dieser Grundlage werden abschließend mögliche nächste Schritte in

der Weiterentwicklung und Evaluation des BDI-II-V dargestellt.

Weitere Belege für die Konstruktvalidität des BDI-II-V würden seinen Wert steigern.

Die konvergente Validität sollte vor allem über hohe Korrelationen mit etablierten De-

pressionsmaßen über das BDI-II hinaus nachgewiesen werden, im klinischen Kontext

sollte die Konvergenz des BDI-II-V mit der Diagnostik durch Experten überprüft wer-

den (vgl. Schmitt et al., 2003). Natürlich bieten sich zur Validierung noch weitere Kon-

strukte an, von denen eine deutliche positive (zum Beispiel Angst, vgl. Hautzinger et

al., 2006) oder negative (zum Beispiel Lebensqualität oder Selbstwertgefühl, vgl.

Hautzinger et al., 2006) Assoziation mit Depressivität bekannt ist. Theorien und Vorbe-

funden entsprechend niedrige Korrelationen mit der Depression unverwandten Kon-

strukten (diskriminante Validität) würden das Bild der Konstruktvalidität abrunden. Zu

Variablen, mit denen sich regelmäßig geringe Zusammenhänge ergeben, gehören zum

Beispiel das Alter (vgl. Hautzinger et al., 2006) und das Geschlecht (vgl. Schmitt &

Maes, 2000).

Die wichtigste Verbesserung und Erweiterung gegenüber der vorliegenden Arbeit be-

stünde darin, für weitere Analysen des BDI-II-V Stichproben einzusetzen, die auch kli-

nisch depressive Patienten umfassen. Idealerweise setzen sich die Stichproben aus An-

Diskussion 172

teilen gesunder Probanden und Anteilen erkrankter Probanden zusammen. So dürften

zum einen die bestmöglichen Verteilungseigenschaften der Daten resultieren. Zum an-

deren ist nur durch die Untersuchung von Patientenstichproben eine Generalisierung der

Ergebnisse auf den klinischen Kontext möglich, was für einen Depressionsfragebogen

essentiell ist.

Die Modelle, die in dieser Arbeit perfekten Fit erzielten, jedoch auf explorativem Vor-

gehen beruhten, müssen sich in neuen Untersuchungen bewähren, bevor sie als gültig

angenommen werden dürfen. Dies gilt sowohl für die Modelle zur Überprüfung der

Konvergenz von BDI-II und BDI-II-V, die die Korrelation der latenten Faktoren frei

schätzten, wie auch für das Gesamtmodell, das alle BDIs auf eine latente Dimension

Depressivität zurückführte und zusätzlich einen Methodenfaktor modellierte, um Kon-

sistenz und Methodenspezifität abzuschätzen.

Modelle höherer Stufen der Äquivalenz respektive Modelle mit strengeren Annahmen

zur Entsprechung der Inventare, wie sie sich in dieser Arbeit zumindest nach Maßgabe

des χ2-Tests und des RMSEA nicht akzeptieren ließen, könnten erneut überprüft wer-

den, wenn Daten gewonnen werden können, die bessere Verteilungseigenschaften auf-

weisen als in dieser Untersuchung. Durch den Einsatz von Stichproben, die sich aus

Bevölkerungs- und klinischen Stichproben depressiver Patienten zusammensetzen, ließe

sich die Varianz in den Daten erhöhen und vermutlich die deutliche Rechtsschiefe der

Verteilung reduzieren sowie Bodeneffekte relativieren.

Im Rahmen der Überprüfung der Messäquivalenz in Modellen konfirmatorischer Fakto-

renanalysen sollte auch der Vergleich von verschiedenen Ausgestaltungen der Items zu

Schlaf und Appetit fortgesetzt werden, damit eine Entscheidung über eine endgültige

Version des BDI-II-V getroffen werden kann. Die Schlaf- und Appetit-Items des

BDI-II-V.2 haben sich in dieser Arbeit scheinbar nicht bewährt. Es könnte überprüft

werden, ob sich die Resultate mit den hier verwendeten Items des BDI-II-V.2 replizie-

ren lassen oder eher davon ausgegangen werden muss, dass die Ergebnisse dieser Studie

zufälligen Schwankungen oder Stichprobenbesonderheiten zuzuschreiben sind. Besser

wäre es jedoch, bei einer neuerlichen Untersuchung direkt Veränderungen der Schlaf-

und Appetit-Items des BDI-II-V.2 vorzunehmen, da davon auszugehen ist, dass die ur-

sprüngliche Gestaltung gewisse Nachteile hat. Eine Option bestünde darin, mittels In-

struktionen oder Filterfragen zu jedem Symptom nur eines der beiden Statements be-

Diskussion 173

werten zu lassen (außergewöhnlich viel oder außergewöhnlich wenig). Eine andere

Möglichkeit wäre eine Umformulierung der Items, die sie dem Original näher bringt:

„Ich habe weniger als sonst geschlafen“/“Ich habe mehr als sonst geschlafen“ und „Ich

hatte weniger Appetit als sonst“/„Ich hatte mehr Appetit als sonst“. In jedem Falle soll-

ten für die Analysen Methoden gewählt werden, die eine inferenzstatistische Absiche-

rung der Befunde erlauben. Möglicherweise wären konfirmatorische Faktorenanalysen

für zwei Gruppen oder konfirmatorische Faktorenanalysen mit Kovariaten dafür geeig-

net.

Liegt ein Vorschlag für eine endgültige Version des BDI-II-V vor, dessen Messäquiva-

lenz mit dem Original hinreichend belegt werden konnte, wäre eine Untersuchung des

Inventars in einer bevölkerungsrepräsentativen Stichprobe wichtig, um psychometrische

Kennwerte und Normwerte auf einer angemessenen Basis feststellen zu können (vgl.

Schmitt, Altstötter-Gleich, Hinz, Maes & Brähler, 2006).

Damit das BDI-II-V auch im klinischen Kontext eine Alternative an der Seite des

BDI-II darstellen kann, müssten parallel weitere Belege erbracht werden. Es stünden

Überprüfungen an, ob das BDI-II-V valide und dem BDI-II äquivalent gesunde Proban-

den von klinisch depressiven Patienten trennt und auch zwischen klinischen Gruppen,

zum Beispiel zwischen Angst-, Zwangs- und Depressionspatienten, entsprechend dis-

kriminiert (vgl. Schmitt et al., 2003). Es wäre darüber hinaus zu belegen, dass das In-

ventar eine ausreichende, dem Original mindestens entsprechende Änderungssensitivität

besitzt, da es sonst nicht in Verlaufsstudien einsetzbar wäre. Zudem sollten, dem BDI-II

entsprechend, Schwellenwerte ermittelt werden, nach denen der Schweregrad depressi-

ver Symptome (bei diagnostizierter depressiver Störung) eingestuft werden kann (vgl.

Hautzinger et al., 2006).

Abbildungsverzeichnis 174

Abbildungsverzeichnis

Abbildung 1 Klassifikation der Affektiven Störungen nach DSM-IV-TR .................. 19

Abbildung 2 Modell essentiell τ-paralleler Variablen des BDI-II und BDI-II-V ........ 87

Abbildung 3 Modell mit perfekter latenter Korrelation zwischen BDI-II und

BDI-II-V .................................................................................................. 89

Abbildung 4 Modell essentiell τ-paralleler Variablen des BDI, BDI-V, BDI-II

und BDI-II-V ........................................................................................... 90

Abbildung 5 Modell mit perfekter latenter Korrelation zwischen BDI, BDI-V,

BDI-II und BDI-II-V ............................................................................... 91

Abbildung 6 Modell des BDI, BDI-V, BDI-II und BDI-II-V mit

Methodenfaktor ....................................................................................... 96

Abbildung 7 Verteilung der Probanden der Analysestichprobe mit dem Umfang

N = 325 auf verschiedene Altersgruppen .............................................. 117

Abbildung 8 Häufigkeitsverteilung der Summenwerte des BDI-II-V (N = 325) ...... 123

Abbildung 9 Screeplot der Faktoreigenwerte einer Hauptachsenanalyse der

Items des BDI-II-V ............................................................................... 126

Abbildung 10 Vollständig standardisierte Modellparameter für das Modell

essentiell τ-paralleler Variablen des BDI-II und BDI-II-V. Der

Modellfit ist nicht zufriedenstellend. .................................................... 132

Abbildung 11 Vollständig standardisierte Modellparameter für die Modelle mit

fixierter perfekter Korrelation (obere Werte) und mit frei

geschätzter Korrelation (untere Werte) zwischen den latenten

Variablen des BDI-II und BDI-II-V. Das Modell mit fixierter

Korrelation weist keinen vollständig zufriedenstellenden Fit auf.

Das Modell mit frei geschätzter Korrelation fittet perfekt. ................... 134

Abbildung 12 Vollständig standardisierte Modellparameter für die Modelle mit

frei geschätzter Korrelation zwischen BDI-II und BDI-II-V.1

(obere Werte), BDI-II-V.2Z (mittlere Werte) sowie BDI-II-V.2

(untere Werte). Die Modelle fitten perfekt. .......................................... 142

Abbildung 13 Vollständig standardisierte Modellparameter für das Modell τ-

kongenerischer Variablen des BDI, BDI-V, BDI-II und BDI-II-V.

Der Modellfit ist nicht zufriedenstellend. ............................................. 145

175

Abbildung 14 Vollständig standardisierte Modellparameter für ein Modell des

BDI, BDI-V, BDI-II und BDI-II-V mit Methodenfaktor. λ22 und

λ42 wurden in der unstandardisierten Lösung gleichgesetzt. Das

Modell fittet perfekt. ............................................................................. 148

Tabellenverzeichnis 176

Tabellenverzeichnis

Tabelle 1 Beispiele für Items des BDI und entsprechende Items des BDI-V ......... 40

Tabelle 2 Beispiele für Items des BDI-II und entsprechende Items des

BDI-II-V .................................................................................................. 51

Tabelle 3 Die Items Veränderungen der Schlafgewohnheiten und

Veränderungen des Appetits des BDI-II und entsprechende Items

des BDI-II-V ........................................................................................... 53

Tabelle 4 Übersicht über die Modellgleichungen der Klassischen Testtheorie ...... 66

Tabelle 5 Mögliche Reihenfolgen (Rotationen) der BDI-Versionen in den

Untersuchungsmaterialien ....................................................................... 84

Tabelle 6 Indizes zur Beurteilung der Modellgüte und Grenzwerte, wie sie

der Modellgütebeurteilung in dieser Arbeit zu Grunde gelegt

wurden ................................................................................................... 102

Tabelle 7 Alle verwendeten Versionen und Auswertungen des BDI im

Überblick ............................................................................................... 106

Tabelle 8 Korrigierte Trennschärfen und Cronbach’s α für alle eingesetzten

Varianten des BDI in der Gesamtstichprobe und den beiden

Teilstichproben ...................................................................................... 121

Tabelle 9 Itemmittelwerte und Itemstandardabweichungen für das BDI-II-V,

BDI-II-V.1, BDI-II-V.2.Z und BDI-II-V.2 ........................................... 124

Tabelle 10 Partielle standardisierte Regressionsgewichte der Items des

BDI-II-V mit den beiden extrahierten Faktoren einer

Hauptachsenanalyse nach Promax-Rotation. ........................................ 127

Tabelle 11 Produkt-Moment-Korrelationen verschiedener BDI-Formen mit

den Skalen des NEO-FFI ...................................................................... 128

Tabelle 12 Korrelation zwischen BDI-II und BDI-II-V, zwischen BDI-II.1

und BDI-II-V.1 sowie zwischen BDI-II.2 und BDI-II-V.2/.Z auf

der Ebene der Items und der Summenwerte.......................................... 130

Tabelle 13 Fitstatistiken für Modelle mit frei geschätzter latenter Korrelation

sowie auf 1.0 fixierter latenter Korrelation zwischen BDI-II und

BDI-II-V.1, BDI-II-V.2Z sowie BDI-II-V.2 ......................................... 141

Tabelle 14 Korrelation der Summenwerte von BDI, BDI-V, BDI-II und

BDI-II-V ................................................................................................ 143

Tabellenverzeichnis 177

Tabelle 15 Veränderungen der Items des BDI-II gegenüber dem BDI in der

deutschsprachigen Version und Bezug der Items zu den

Symptomkriterien (A-Kriterien) der Major Depression nach

DSM-IV bzw. DSM-IV-TR .................................................................. 190

Tabelle 16 Direkter Vergleich aller Items der in dieser Untersuchung

verwendeten Versionen des Beck Depressionsinventars und Bezug

der Items zu den Symptomkriterien (A-Kriterien) der Major

Depression nach DSM-IV bzw. DSM-IV-TR ....................................... 193

Tabelle 17 Verteilung soziodemographischer Merkmale in Gesamt- und

Substichproben ...................................................................................... 222

Tabelle 18 Direkte Gegenüberstellung der Summenwerte aller verwendeten

Varianten des BDI in der reskalierten und nicht-reskalierten

Fassung für die verkürzten Versionen in der Gesamtstichprobe und

den Teilstichproben 1 und 2 .................................................................. 225

Tabelle 19 Verteilung der Items auf die Parcels der Modelle zur parallelen

Analyse jeweils von BDI-II und BDI-II-V, BDI-II.1 und

BDI-II-V.1, BDI-II.2 und BDI-II-V.2.Z sowie BDI-II.2 und

BDI-II-V-.2 ........................................................................................... 226

Tabelle 20 Verteilung der Items auf die Parcels der Modelle zur parallelen

Analyse von BDI, BDI-V, BDI-II und BDI-II-V .................................. 227

Tabelle 21 Mittelwerte (Standardabweichungen), Schiefe und Kurtosis der

manifesten Indikatoren der konfirmatorischen Faktorenanalysen

zur parallelen Analyse von BDI-II und BDI-II-V ................................. 228

Tabelle 22 Interkorrelationen der Itemparcels, die als manifeste Indikatoren

der konfirmatorischen Faktorenanalysen zur parallelen Analyse

von BDI-II und BDI-II-V dienten ......................................................... 229

Tabelle 23 Mittelwerte (Standardabweichungen), Schiefe und Kurtosis der

manifesten Indikatoren der konfirmatorischen Faktorenanalysen

zur parallelen Analyse von BDI-II und und BDI-II-V.1 ....................... 229

Tabelle 24 Interkorrelationen der Itemparcels, die als manifeste Indikatoren

der konfirmatorischen Faktorenanalysen zur parallelen Analyse

von BDI-II und BDI-II-V.1 dienten ...................................................... 229

178

Tabelle 25 Mittelwerte (Standardabweichungen), Schiefe und Kurtosis der

manifesten Indikatoren der konfirmatorischen Faktorenanalysen

zur parallelen Analyse von BDI-II und BDI-II-V.2.Z .......................... 230

Tabelle 26 Interkorrelationen der Itemparcels, die als manifeste Indikatoren

der konfirmatorischen Faktorenanalysen zur parallelen Analyse

von BDI-II und BDI-II-V.2.Z dienten ................................................... 230

Tabelle 27 Mittelwerte (Standardabweichungen), Schiefe und Kurtosis der

manifesten Indikatoren der konfirmatorischen Faktorenanalysen

zur parallelen Analyse von BDI-II und BDI-II-V.2 .............................. 230

Tabelle 28 Interkorrelationen der Itemparcels, die als manifeste Indikatoren

der konfirmatorischen Faktorenanalysen zur parallelen Analyse

von BDI-II und BDI-II-V.2 dienten ...................................................... 230

Tabelle 29 Mittelwerte (Standardabweichungen), Schiefe und Kurtosis der

manifesten Indikatoren der konfirmatorischen Faktorenanalysen

zur parallelen Analyse von BDI, BDI-V, BDI-II und BDI-II-V ........... 231

Tabelle 30 Interkorrelationen der Itemparcels, die als manifeste Indikatoren

der konfirmatorischen Faktorenanalysen zur parallelen Analyse

von BDI, BDI-V, BDI-II und BDI-II-V dienten ................................... 232

Literaturverzeichnis 179

Literaturverzeichnis

American Psychiatric Association. (1980). Diagnostic and Statistical Manual of Mental

Disorders. Third Edition. Washington, DC: American Psychiatric Association.

American Psychiatric Association. (1994). Diagnostic and Statistical Manual of Mental

Disorders. Fourth Edition. Washington, DC: American Psychiatric Association.

American Psychiatric Association. (2000). Diagnostic and Statistical Manual of Mental

Disorders. Fourth Edition. Text Revision. Washington, DC: American

Psychiatric Association.

Beck, A. T., Rush, A. J., Shaw, B. F. & Emery, G. (1979). Cognitive therapy of

depression. New York: The Guilford Press.

Beck, A. T. & Steer, R. A. (1987). Beck Depression Inventory. Manual. San Antonio,

TX: The Psychological Corporation.

Beck, A. T., Steer, R. A. & Brown, G. K. (1996). Beck Depression Inventory. Second

Edition. Manual. San Antonio, TX: The Psychological Corporation.

Beck, A. T., Ward, C. H., Mendelson, M., Mock, J. & Erbaugh, J. (1961). An Inventory

for Measuring Depression. Archives of General Psychiatry, 4, 561 - 571.

Bentler, P. M. (1990). Comparative fit indexes in structural models. Psychological

Bulletin, 107(2), 238-246.

Bienvenu, O. J., Samuels, J. F., Costa, P. T., Reti, I. M., Eaton, W. W. & Nestadt, G.

(2004). Anxiety and depressive disorders and the five-factor model of

personality: A higher- and lower-order personality trait investigation in a

community sample. Depression and Anxiety, 20, 92-97.

Blaser, P., Löw, D. & Schäublin, A. (1968). Die Messung der Depressionstiefe mit

einem Fragebogen. Psychiatria clinica, 1(5), 299-319.

Borkenau, P. & Ostendorf, F. (1993). NEO-Fünf-Faktoren Inventar (NEO-FFI) nach

Costa und McCrae. Handanweisung. Göttingen: Hogrefe.

Literaturverzeichnis 180

Borkenau, P. & Ostendorf, F. (2008). NEO-FFI. NEO-Fünf-Faktoren-Inventar nach

Costa und McCrae. Manual (2., neu normierte und vollständig überarbeitete

Aufl.). Göttingen: Hogrefe.

Bortz, J. (2005). Statistik für Human- und Sozialwissenschaftler (6., vollständig

überarbeitete und aktualisierte Aufl.). Heidelberg: Springer.

Bramesfeld, A. & Stoppe, G. (2006). Einführung. In G. Stoppe, A. Bramesfeld & F.-W.

Schwartz (Hrsg.), Volkskrankheit Depression? Bestandsaufnahme und

Perspektiven (S. 1-12). Berlin: Springer.

Brown, T. A. (2006). Confirmatory factor analysis for applied research. New York:

The Guilford Press.

Browne, M. W. & Cudeck, R. (1993). Alternative ways of assessing model fit. In K. A.

Bollen & J. S. Long (Hrsg.), Testing structural equation models (S. 136-162).

Newbury Park, CA: Sage.

Bühl, A. (2010). PASW 18. Einführung in die moderne Datenanalyse (12., aktualisierte

Aufl.). München: Pearson Studium.

Bühner, M. (2006). Einführung in die Test- und Fragebogenkonstruktion (2.,

aktualisierte Aufl.). München: Pearson Studium.

Byrne, B. M., Stewart, S. M., Kennard, B. D. & Lee, P. W. H. (2007). The Beck

Depression Inventory-II: Testing for measurement equivalence and factor mean

differences across Hong Kong and American adolescents. International Journal

of Testing, 7(3), 293-309.

Campbell, D. T. & Fiske, D. W. (1959). Convergent and discriminant validation by the

multitrait-multimethod matrix. Psychological Bulletin, 56(2), 81-105.

CIPS (Collegium Internationale Psychiatriae Scalarum) (Hrsg.). (1996). Internationale

Skalen für Psychiatrie (4., überarbeitete und erweiterte Aufl.). Göttingen: Beltz

Test.

Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2. Aufl.).

Hillsdale, NJ: Erlbaum.

Literaturverzeichnis 181

Costa, P. T., Bagby, R. M., Herbst, J. H. & McCrae, R. R. (2005). Personality self-

reports are concurrently reliable and valid during acute depressive episodes.

Journal of Affective Disorders, 89, 45-55.

Costa, P. T. & McCrae, R. R. (1992). Revised NEO Personality Inventory (NEO-PI-R)

and NEO Five Factor Inventory (NEO-FFI). Professional manual. Odessa, FL:

Psychological Assessment Resources.

Cronbach, L. J. & Meehl, P. E. (1955). Construct validity in psychological tests.

Psychological Bulletin, 52(4), 281-302.

Curran, P. J., West, S. G. & Finch, J. F. (1996). The robustness of test statistics to

nonnormality and specification error in confirmatory factor analysis

Psychological Methods, 1(1), 16-29.

DeNeve, K. M. & Cooper, H. (1998). The happy personality: A meta-analysis of 137

personality traits and subjective well-being. Psychological Bulletin, 124(2), 197-

229.

Dilling, H., Mombour, W. & Schmidt, M. H. (Hrsg.). (2010). Internationale

Klassifikation psychischer Störungen. ICD-10 Kapitel V (F). Klinisch-

diagnostische Leitlinien (7., überarbeitete Aufl.). Bern: Huber.

Dozois, D. J. A., Dobson, K. S. & Ahnberg, J. L. (1998). A psychometric evaluation of

the Beck Depression Inventory-II. Psychological Assessment, 10(2), 83-89.

Duggan, C., Sham, P., Lee, A., Minne, C. & Murray, R. (1995). Neuroticism: a

vulnerability marker for depression evidence from a familiy study. Journal of

Affective Disorders, 35, 139-143.

Eid, M. (2000). A multitrait-multimethod model with minimal assumptions.

Psychometrika, 65(2), 241-261.

Eid, M., Gollwitzer, M. & Schmitt, M. (2010). Statistik und Forschungsmethoden.

Weinheim: Beltz.

Eid, M., Lieschetzke, T. & Nussbeck, F. W. (2006). Structural equation models for

multitrait-multimethod data. In M. Eid & E. Diener (Hrsg.), Handbook of

Literaturverzeichnis 182

multimethod measurement in psychology. Washington, DC: American

Psychological Association.

Fabian-Krause, T. (2011). Einflüsse des zeitlichen Bezugsrahmens auf Angaben zur

eigenen depressiven Befindlichkeit Teil 2. Unveröffentlichte Diplomarbeit,

Universität Landau.

Gastpar, M. (2006). Depression und Komorbidität. In G. Stoppe, A. Bramesfeld & F.-

W. Schwartz (Hrsg.), Volkskrankheit Depression? Bestandsaufnahme und

Perspektiven (S. 277-286). Berlin: Springer.

Gollwitzer, M. & Jäger, R. S. (2007). Evaluation. Workbook. Weinheim: Beltz.

Gulliksen, H. (1950). Theory of mental tests. New York: Wiley.

Han, K., Burns, G. N., Weed, N. C., Hatchett, G. T. & Kurokawa, N. K. S. (2009).

Evaluation of an observer form of the coping inventory for stressful sitiations.

Educational and Psychological Measurement, 69(4), 675-695.

Hautzinger, M. (2010). Akute Depression. Göttingen: Hogrefe.

Hautzinger, M. & Bailer, M. (1993). ADS. Allgemeine Depressions Skala. Manual.

Göttingen: Beltz Test.

Hautzinger, M., Bailer, M., Worall, H. & Keller, F. (1994). Beck-Depressions-Inventar

(BDI) (1. Aufl.). Bern: Verlag Hans Huber.

Hautzinger, M., Bailer, M., Worall, H. & Keller, F. (1995). Beck-Depressions-Inventar

(BDI). Testhandbuch (2., überarbeitete Aufl.). Bern: Verlag Hans Huber.

Hautzinger, M., Keller, F. & Kühner, C. (2006). BDI-II. Beck Depressions-Inventar.

Revision. Manual. Frankfurt am Main: Harcourt Test Services GmbH.

Hautzinger, M. & Meyer, T. D. (2002). Diagnostik Affektiver Störungen. Göttingen:

Hogrefe.

Heckmann, N. (2008). Einflüsse des zeitlichen Bezugsrahmens auf Angaben zur eigenen

depressiven Befindlichkeit. Unveröffentlichte Diplomarbeit, Universität Landau.

Literaturverzeichnis 183

Hox, J. (2002). Multilevel Analysis. Techniques and Applications. Mahwah: Lawrence

Erlbaum Associates.

Hu, L. & Bentler, P. M. (1999). Cutoff criteria for fit indexes in covariance structure

analysis: Conventional criteria versus new alternatives. Structural Equation

Modeling, 6(1), 1-55.

Jacobi, F., Wittchen, H.-U., Hölting, C., Höfler, M., Pfister, H., Müller, N. et al. (2004).

Prevalence, co-morbidity and correlates of mental disorders in the general

population: results from the German Health Interview and Examination Survey

(GHS). Psychological Medicine, 34(4), 597-611.

Kendler, K. S. & Myers, J. (2010). The genetic and environmental relationship between

major depression and the five-factor model of personality. Psychological

Medicine, 40, 801-806.

Klein, M. H., Wonderlich, S. & Shea, M. T. (1993). Models of relationships between

personality and depression: Toward a framework for theory and research. In M.

H. Klein, D. J. Kupfer & M. T. Shea (Hrsg.), Personality and depression. A

current view (S. 1-54). New York: Guilford Press.

Kronmüller, K.-T. & Mundt, C. (2006). Persönlichkeit, Persönlichkeitsstörungen und

Depression. Der Nervenarzt, 77(7), 863-878.

Kubinger, K. D. (2003). Gütekriterien. In K. D. Kubinger & R. S. Jäger (Hrsg.),

Schlüsselbegriffe der Psychologischen Diagnostik (S. 195-204). Weinheim:

Beltz.

Kühner, C., Bürger, C., Keller, F. & Hautzinger, M. (2007). Reliabilität und Validität

des revidierten Beck-Depressionsinventars (BDI-II). Befunde aus

deutschsprachigen Stichproben. Der Nervenarzt, 78(6), 651-656.

Laux, G. (2009). Affektive Störungen. In H.-J. Möller, G. Laux & A. Deister (Hrsg.),

Psychiatrie und Psychotherapie (4., vollständig überarbeitete und erweiterte

Aufl., S. 76-110). Stuttgart: Thieme.

Literaturverzeichnis 184

Lederbogen, F. (2006). Körperliche Komorbidität. In G. Stoppe, A. Bramesfeld & F.-

W. Schwartz (Hrsg.), Volkskrankheit Depression? Bestandsaufnahme und

Perspektiven (S. 257-276). Berlin: Springer.

Little, T. D., Cunningham, W. A., Shahar, G. & Widaman, K. F. (2002). To parcel or

not to parcel: Exploring the question, weighing the merits. Structural Equation

Modeling, 9(2), 151-173.

Lord, F. M. & Novick, M. R. (1968). Statistical theories of mental test scores. Reading,

MA: Addison-Wesley.

MacCallum, R. C., Browne, M. W. & Sugawara, H. M. (1996). Power analysis and

determination of sample size for covariance structure modeling. Psychological

Methods, 1(2), 130-149.

Meade, A. W. & Kroustalis, C. M. (2006). Problems with item parceling for

confirmatory factor analytic tests of measurement invariance. Organizational

Research Methods, 9(3), 369-403.

Meyer, T. D. (2002). The Hypomanic Personality Scale, the Big Five, and their

relationship to depression and mania. Personality and Individual Differences, 32,

649-660.

Moosbrugger, H. (2007a). Item-Response-Theorie (IRT). In H. Moosbrugger & A.

Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion (S. 215-259).

Heidelberg: Springer.

Moosbrugger, H. (2007b). Klassische Testtheorie (KTT). In H. Moosbrugger & A.

Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion (S. 99-112).

Heidelberg: Springer.

Muthén, L. K. & Muthén, B. O. (1998-2010). Mplus User's Guide. Sixth Edition. Los

Angeles, CA: Muthén & Muthén.

Nussbeck, F. W., Eid, M., Geiser, C., Courvoisier, D. S. & Cole, D. A. (2007).

Konvergente und diskriminante Validität über die Zeit: Integration von

Multitrait-Multimethod-Modellen und der Latent-State-Trait-Theorie. In H.

Literaturverzeichnis 185

Moosbrugger & A. Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion (S.

361-387). Heidelberg: Springer.

Nye, C. D., Newman, D. A. & Joseph, D. L. (2010). Never say "always"? Extreme item

wording effects on scalar invariance and item response curves. Organizational

Research Methods, 13(4), 806-830.

O'Connor, B. P. (2000). SPSS, SAS, and MATLAB programs for determining the

number of components and factors using parallel analysis and Velicer's MAP

test. Abgerufen am 24.09.2011. Verfügbar unter

https://people.ok.ubc.ca/brioconn/nfactors/nfactors.html

Organisation mondiale de la Santé (2001). Rapport sur la santé dans le monde 2001: La

santé mentale: nouvelle conception, nouveaux espoirs. Abgerufen am

17.12.2011. Verfügbar unter http://www.who.int/whr/previous/fr

Ostendorf, F. & Angleitner, A. (2004). NEO-PI-R. NEO-Persönlichkeitsinventar nach

Costa und McCrae. Revidierte Fassung. Göttingen: Hogrefe.

Richter, P. (1991). Zur Konstruktvalidität des Beck-Depressionsinventars (BDI) bei der

Erfassung depressiver Verläufe. Ein empirischer und methodologischer Beitrag.

Regensburg: S. Roderer.

Rosellini, A. J. & Brown, T. A. (2011). The NEO Five-Factor Inventory: Latent

structure and relationships with dimensions of anxiety and depressive disorders

in a large clinical sample. Assessment, 18(1), 27-39.

Saß, H., Wittchen, H.-U. & Zaudig, M. (1996). Diagnostisches und Statistisches

Manual Psychischer Störungen DSM-IV. Göttingen: Hogrefe.

Saß, H., Wittchen, H.-U., Zaudig, M. & Houben, I. (2003). Diagnostisches und

Statistisches Manual Psychischer Störungen. Textrevision. DSM-IV-TR.

Göttingen: Hogrefe.

Satorra, A. & Bentler, P. M. (1994). Corrections to the test statistics and standard errors

in covariance structure analysis. In A. v. Eye & C. C. Clogg (Hrsg.), Latent

Literaturverzeichnis 186

variable analysis: Applications for developmental research (S. 399-419).

Thousand Oaks, CA: Sage.

Schendera, C. F. (2007). Datenqualität mit SPSS. München: Oldenbourg.

Schermelleh-Engel, K., Kelava, A. & Moosbrugger, H. (2006). Gütekriterien. In F.

Petermann & M. Eid (Hrsg.), Handbuch der Psychologischen Diagnostik (S.

420-433). Göttingen: Hogrefe.

Schermelleh-Engel, K. & Schweizer, K. (2007). Multitrait-Multimethod-Analysen. In

H. Moosbrugger & A. Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion

(S. 325-341). Heidelberg: Springer.

Schermelleh-Engel, K. & Werner, C. (2007). Methoden der Reliabilitätsbestimmung. In

H. Moosbrugger & A. Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion

(S. 113-133). Heidelberg: Springer.

Schmitt, M., Altstötter-Gleich, C., Hinz, A., Maes, J. & Brähler, E. (2006). Normwerte

für das Vereinfachte Beck-Depressions-Inventar (BDI-V) in der

Allgemeinbevölkerung. Diagnostica, 52(2), 51-59.

Schmitt, M., Beckmann, M., Dusi, D., Maes, J., Schiller, A. & Schonauer, K. (2003).

Messgüte des vereinfachten Beck-Depressions-Inventars (BDI-V). Diagnostica,

49(4), 147-156.

Schmitt, M. & Maes, J. (2000). Vorschlag zur Vereinfachung des Beck-Depressions-

Inventars (BDI). Diagnostica, 46(1), 38-46.

Schmitt, M., Maes, J. & Seiler, U. (2001). Meßäquivalenz und strukturelle Invarianz

von Indikatoren der seelischen Gesundheit bei Ost- und Westdeutschen.

Zeitschrift für Differentielle und Diagnostische Psychologie, 22(2), 87-99.

Stamm, K. & Salize, H.-J. (2006). Volkswirtschaftliche Konsequenzen. In G. Stoppe, A.

Bramesfeld & F.-W. Schwartz (Hrsg.), Volkskrankheit Depression?

Bestandsaufnahme und Perspektiven (S. 109-120). Berlin: Springer.

Stevens, J. P. (2002). Applied multivariate statistics for the social sciences (4. Aufl.).

Mahwah: Lawrence Erlbaum Associates.

187

Steyer, R. & Eid, M. (2001). Messen und Testen (2., korrigierte Aufl.). Berlin: Springer.

Trull, T. J. & Sher, K. J. (1994). Relationship between the five-factor model of

personality and axis I disorders in a nonclinical sample. Journal of Abnormal

Psychology, 103(2), 350-360.

West, S. G., Finch, J. F. & Curran, P. J. (1995). Structural equation models

withnonnormal variables: Problems and remedies. In R. H. Hoyle (Hrsg.),

Structural equation modeling. Concepts, issues, and applications (S. 56-75).

Thousand Oaks: Sage.

Widaman, K. F. (1985). Hierarchically nested covariance structure models for

multitrait-multimethod data. Applied Psychological Measurement, 9(1), 1-26.

Wirtz, M. & Nachtigall, C. (2002). Deskriptive Statistik. Statistische Methoden für

Psychologen. Teil 1 (2., überarbeitete und erweiterte Aufl.). Weinheim: Juventa.

Wittchen, H.-U. & Jacobi, F. (2005). Size and burden of mental disorders in Europe - a

critical review and appraisal of 27 studies. European

Neuropsychopharmacology, 15(4), 357-376.

Wittchen, H.-U. & Jacobi, F. J. (2006). Epidemiologie. In G. Stoppe, A. Bramesfeld &

F.-W. Schwartz (Hrsg.), Volkskrankheit Depression? Bestandsaufnahme und

Perspektiven. Berlin: Springer.

Zielke, M. & Limbacher, K. (2004). Fehlversorgung psychischer Erkrankungen.

Abgerufen am 18.12.2011. Verfügbar unter

http://www.presse.dak.de/ps.nsf/sbl/828702540CEDD7A3C1256EAE00447AF

A?open

Eidesstattliche Erklärung 188

Eidesstattliche Erklärung

Hiermit versichere ich gemäß § 18 Abs. 8 der Diplomprüfungsordnung Psychologie der

Universität Koblenz-Landau, Campus Landau, in der Fassung vom 18.02.1993, dass ich

diese Arbeit selbstständig verfasst und keine anderen als die angegebenen Hilfsmittel

und Quellen benutzt habe. Die Arbeit hat in gleicher oder ähnlicher Form noch keinem

anderen Prüfungsausschuss vorgelegen.

Neustadt, im Januar 2012 Katharina Christine Fischer

Anhang 189

Anhang

Anhang A: Tabellen zu den Items des Beck Depressionsinventars

Anhang B: Untersuchungsmaterial

Anhang B.1: Instruktion der Teilnehmer

Anhang B.2: Eingesetzte Fragebögen

Anhang B.3: Angaben zur Person

Anhang B.4: Gewinnspielpostkarte und Rücksendeumschlag

Anhang C: Zusätzliche Ergebnistabellen

Anhang 190

Anhang A: Tabellen zu den Items des Beck Depressionsinventars

Tabelle 15 Veränderungen der Items des BDI-II gegenüber dem BDI in der deutschsprachigen Version und Bezug der Items zu den Symptomkriterien (A-Kriterien) der

Major Depression nach DSM-IV bzw. DSM-IV-TR

BDI II Item♠ Veränderungen gegenüber dem entspre-

chenden Item des BDI♣

Zugehöriges Symptomkriterium der Major

Depression nach DSM-IV bzw. DSM-IV-TR♥♦

1. Traurigkeit drei Antwortalternativen verändert

(zwei leicht, eine deutlich)●

A1. depressive Verstimmung

2. Pessimismus vier Antwortalternativen verändert

(eine leicht, drei deutlich) ●

A1. depressive Verstimmung

3. Versagensgefühle zwei Antwortalternativen verändert

(eine leicht, eine deutlich) ●

A7. Wertlosigkeit/unangemessene Schuldgefühle

4. Verlust von Freude drei Antwortalternativen verändert

(eine leicht, zwei deutlich) ●

A2. Interessen-/Freudeminderung

5. Schuldgefühle vier Antwortalternativen verändert

(drei leicht, eine deutlich) ●

A7. Wertlosigkeit/unangemessene Schuldgefühle

6. Bestrafungsgefühle eine Antwortalternative verändert

(eine leicht, keine deutlich) ●

A7. Wertlosigkeit/unangemessene Schuldgefühle

Anhang 191

BDI II Item♠ Veränderungen gegenüber dem entspre-

chenden Item des BDI♣

Zugehöriges Symptomkriterium der Major

Depression nach DSM-IV bzw. DSM-IV-TR♥♦

7. Selbstablehnung vier Antwortalternativen verändert

(vier deutlich, keine leicht) ●

A7. Wertlosigkeit/unangemessene Schuldgefühle

8. Selbstvorwürfe vier Antwortalternativen verändert

(vier deutlich, keine leicht) ●

A7. Wertlosigkeit/unangemessene Schuldgefühle

9. Selbstmordgedanken keine Veränderung A9. Suizidalität

10. Weinen zwei Antwortalternativen verändert

(zwei deutlich, keine leicht) ●

A1. depressive Verstimmung

11. Unruhe neu im BDI-II A5. psychomotorische Unruhe/Verlangsamung

12. Interessenverlust vier Antwortalternativen verändert

(vier deutlich, keine leicht) ●

A2. Interessen-/Freudeminderung

13. Entschlussunfähigkeit drei Antwortalternativen verändert

(drei deutlich, keine leicht) ●

A8. Konzentrations-

/Entscheidungsschwierigkeiten

14. Wertlosigkeit neu im BDI-II A7. Wertlosigkeit/unangemessene Schuldgefühle

15. Energieverlust neu im BDI-II A6. Erschöpfung/Energieverlust

Anhang 192

BDI II Item♠ Veränderungen gegenüber dem entspre-

chenden Item des BDI♣

Zugehöriges Symptomkriterium der Major

Depression nach DSM-IV bzw. DSM-IV-TR♥♦

16. Veränderungen der Schlafgewohnheiten vier Antwortalternativen verändert

(vier deutlich, keine leicht) ●

; drei neue Ant-

wortalternativen zur Zunahme des Schlafs

A4. Insomnie/Hypersomnie

17. Reizbarkeit drei Antwortalternativen verändert

(drei deutlich, keine leicht) ●

A1. depressive Verstimmung

18. Veränderungen des Appetits vier Antwortalternativen verändert

(eine leicht, drei deutlich) ●

; drei neue Antwort-

alternativen zu Steigerung des Appetits

A3. Gewichtszunah-

me/-verlust/Appetitveränderung

19. Konzentrationsschwierigkeiten neu im BDI-II A8. Konzentrations-

/Entscheidungsschwierigkeiten

20. Ermüdung oder Erschöpfung vier Antwortalternativen verändert

(vier deutlich, keine leicht) ●

A6. Erschöpfung/Energieverlust

21. Verlust an sexuellem Interesse vier Antwortalternativen verändert

(drei deutlich, eine leicht) ●

A2. Interessen-/Freudeminderung

Anmerkungen. ♠ (BDI-II: Hautzinger et al., 2006). ♣ (BDI: Hautzinger et al., 1994) ♥ DSM-IV (American Psychiatric Association, 1994, verwendet in der deutschen

Übersetzung von Saß et al., 1996); DSM-IV-TR (American Psychiatric Association, 2000, verwendet in der deutschen Übersetzung von Saß et al., 2003); die Diagnosekriterien

der Major Depression unterscheiden sich nicht zwischen den beiden Auflagen. ♦ entnommen aus Hautzinger et al. (2006, S. 9). ● leichte Veränderung = Aus-

tausch/Hinzufügen/Abändern eines oder weniger Worte, der Inhalt bleibt nahezu identisch. deutliche Veränderung = alle weiteren sprachlichen Veränderungen, z. B. vollständige

Änderung der Formulierung

Anhang 193

Tabelle 16 Direkter Vergleich aller Items der in dieser Untersuchung verwendeten Versionen des Beck Depressionsinventars und Bezug der Items zu den Symptomkrite-

rien (A-Kriterien) der Major Depression nach DSM-IV bzw. DSM-IV-TR

Symptomkriterien der Major

Depression nach DSM-IV

bzw. DSM-IV-TR♠♣

Benennung der

Itemkategorie

(BDI/BDI-II)

BDI♥ BDI-V

♦ BDI-II

● BDI-II-V

A1

Depressive Verstimmung,

Traurigkeit, Hoffnungslosig-

keit, Mutlosigkeit, Niederge-

schlagenheit

oder

Gereiztheit, Ärger

oder

Schilderung körperlicher Be-

schwerden

Traurige Stimmung/

Traurigkeit

0 Ich bin nicht traurig.

1 Ich bin traurig.

2 Ich bin die ganze Zeit

traurig und komme

nicht davon los.

3 Ich bin so traurig oder

unglücklich, dass ich es

kaum noch ertrage.

Ich bin traurig. 0 Ich bin nicht traurig.

1 Ich bin oft traurig.

2 Ich bin ständig traurig.

3 Ich bin so traurig oder

unglücklich, dass ich es

nicht aushalte.

Ich bin traurig.

A1

Depressive Verstimmung,

Traurigkeit, Hoffnungslosig-

keit, Mutlosigkeit, Niederge-

schlagenheit

oder

Gereiztheit, Ärger

oder

Schilderung körperlicher Be-

schwerden

Pessimismus 0 Ich sehe nicht beson-

ders mutlos in die Zu-

kunft.

1 Ich sehe mutlos in die

Zukunft.

2 Ich habe nichts, worauf

ich mich freuen kann.

3 Ich habe das Gefühl,

dass die Zukunft hoff-

nungslos ist, und dass

die Situation nicht bes-

ser werden kann.

Ich sehe mutlos in die Zu-

kunft.

0 Ich sehe nicht mutlos

die Zukunft.

1 Ich sehe mutloser in die

Zukunft als sonst.

2 Ich bin mutlos und

erwarte nicht, dass

meine Situation besser

wird.

3 Ich glaube, dass meine

Zukunft hoffnungslos

ist und nur noch

schlechter wird.

Ich sehe mutlos in die Zu-

kunft.

Anhang 194

Symptomkriterien der Major

Depression nach DSM-IV

bzw. DSM-IV-TR♠♣

Benennung der

Itemkategorie

(BDI/BDI-II)

BDI♥ BDI-V

♦ BDI-II

● BDI-II-V

A1

Depressive Verstimmung,

Traurigkeit, Hoffnungslosig-

keit, Mutlosigkeit, Niederge-

schlagenheit

oder

Gereiztheit, Ärger

oder

Schilderung körperlicher Be-

schwerden

Reizbarkeit 0 Ich bin nicht reizbarer

als sonst.

1 Ich bin jetzt leichter

verärgert oder gereizt

als früher.

2 Ich fühle mich dauernd

gereizt.

3 Die Dinge, die mich

früher geärgert haben,

berühren mich nicht

mehr.

Ich fühle mich gereizt und

verärgert.

0 Ich bin nicht reizbarer

als sonst.

1 Ich bin reizbarer als

sonst.

2 Ich bin viel reizbarer als

sonst.

3 Ich fühle mich dauernd

gereizt.

Ich fühle mich gereizt.

A2

Verlust von Interesse oder

Freude, Libidoverlust

Unzufriedenheit/

Verlust von Freude

0 Ich kann die Dinge

genauso genießen wie

früher.

1 Ich kann die Dinge

nicht mehr so genießen

wie früher.

2 Ich kann aus nichts

mehr eine echte Befrie-

digung ziehen.

3 Ich bin mit allem unzu-

frieden oder gelang-

weilt.

Es fällt mir schwer, etwas

zu genießen.

0 Ich kann die Dinge

genauso gut genießen

wie früher.

1 Ich kann die Dinge

nicht mehr so genießen

wie früher.

2 Dinge, die mir früher

Freude gemacht haben,

kann ich kaum mehr

genießen.

3 Dinge, die mir früher

Freude gemacht haben,

kann ich überhaupt

nicht mehr genießen.

Es fällt mir schwer, etwas

zu genießen.

Anhang 195

Symptomkriterien der Major

Depression nach DSM-IV

bzw. DSM-IV-TR♠♣

Benennung der

Itemkategorie

(BDI/BDI-II)

BDI♥ BDI-V

♦ BDI-II

● BDI-II-V

A2

Verlust von Interesse oder

Freude, Libidoverlust

Libidoverlust/

Verlust an sexuel-

lem Interesse

0 Ich habe in letzter Zeit

keine Veränderung

meines Interesses an

Sex bemerkt.

1 Ich interessiere mich

weniger für Sex als frü-

her.

2 Ich interessiere mich

jetzt viel weniger für

Sex.

3 Ich habe das Interesse

an Sex völlig verloren.

Sex ist mir gleichgültig. 0 Mein Interesse an Se-

xualität hat sich in letz-

ter Zeit nicht verändert.

1 Ich interessiere mich

weniger für Sexualität

als früher.

2 Ich interessiere mich

jetzt viel weniger für

Sexualität.

3 Ich habe das Interesse

an Sexualität völlig

verloren.

Ich habe kein Interesse an

Sexualität.

A2

Verlust von Interesse oder

Freude, Libidoverlust

sozialer Rückzug

und Isolierung/

Interessenverlust

0 Ich habe nicht das Inte-

resse an Menschen ver-

loren.

1 Ich interessiere mich

jetzt weniger für Men-

schen als früher.

2 Ich habe mein Interesse

an anderen Menschen

zum größten Teil verlo-

ren.

3 Ich habe mein ganzes

Interesse an anderen

Menschen verloren.

Mir fehlt das Interesse an

Menschen.

0 Ich habe das Interesse

an anderen Menschen

oder an Tätigkeiten

nicht verloren.

1 Ich habe weniger Inte-

resse an anderen Men-

schen oder an Dingen

als sonst.

2 Ich habe das Interesse

an anderen Menschen

oder an Dingen zum

größten Teil verloren.

3 Es fällt mir schwer,

mich überhaupt für ir-

gend etwas zu interes-

sieren.

Es fällt mir schwer, mich

für etwas zu interessieren.

Anhang 196

Symptomkriterien der Major

Depression nach DSM-IV

bzw. DSM-IV-TR♠♣

Benennung der

Itemkategorie

(BDI/BDI-II)

BDI♥ BDI-V

♦ BDI-II

● BDI-II-V

A3

Verminderter Appetit, ggf. mit

Gewichtsabnahme

oder

gesteigerter Appetit, ggf. mit

Gewichtszunahme

Appetitverlust/

Veränderungen des

Appetits

0 Mein Appetit ist nicht

schlechter als sonst.

1 Mein Appetit ist nicht

mehr so gut wie früher.

2 Mein Appetit hat sehr

stark nachgelassen.

3 Ich habe überhaupt

keinen Appetit mehr.

Ich habe keinen Appetit. 0 Mein Appetit hat sich

nicht verändert.

1a Mein Appetit ist etwas

schlechter als sonst.

1b Mein Appetit ist etwas

größer als sonst.

2a Mein Appetit ist viel

schlechter als sonst.

2b Mein Appetit ist viel

größer als sonst.

3a Ich habe überhaupt

keinen Appetit.

3b Ich habe ständig Heiß-

hunger.

BDI-II-V-1:

Mein Appetit ist anders als

früher.

BDI-II-V-2:

Ich habe außergewöhnlich

wenig Appetit.

Ich habe außergewöhnlich

viel Appetit.

A3

Verminderter Appetit, ggf. mit

Gewichtsabnahme

oder

gesteigerter Appetit, ggf. mit

Gewichtszunahme■

Gewichtsverlust 0 Ich habe in letzter Zeit

kaum abgenommen.

1 Ich habe mehr als 2

Kilo abgenommen.

2 Ich habe mehr als 5

Kilo abgenommen.

3 Ich habe mehr als 8

Kilo abgenommen.

Ich esse absichtlich weni-

ger, um abzunehmen:

JA NEIN

- - -

Anhang 197

Symptomkriterien der Major

Depression nach DSM-IV

bzw. DSM-IV-TR♠♣

Benennung der

Itemkategorie

(BDI/BDI-II)

BDI♥ BDI-V

♦ BDI-II

● BDI-II-V

A4

Schlafstörungen

(verminderter oder gesteigerter

Schlaf)

Schlafstörungen/

Veränderungen der

Schlafgewohnheiten

0 Ich schlafe so gut wie

sonst.

1 Ich schlafe nicht mehr

so gut wie früher.

2 Ich wache 1 bis 2 Stun-

den früher auf als sonst,

und es fällt mir schwer,

wieder einzuschlafen.

3 Ich wache mehrere

Stunden früher auf als

sonst und kann nicht

mehr einschlafen.

Ich habe Schlafstörungen. 0 Meine Schlafgewohn-

heiten haben sich nicht

verändert.

1a Ich schlafe etwas mehr

als sonst.

1b Ich schlafe etwas we-

niger als sonst.

2a Ich schlafe viel mehr als

sonst.

2b Ich schlafe viel weni-

ger als sonst.

3a Ich schlafe fast den

ganzen Tag.

3b Ich wache 1-2 Stunden

früher auf als gewöhn-

lich und kann nicht

mehr einschlafen.

BDI-II-V-1:

Ich leide unter Schlafstö-

rungen.

BDI-II-V-2:

Ich schlafe außergewöhn-

lich wenig.

Ich schlafe außergewöhn-

lich viel.

A5

Psychomotorische Symptome

(Unruhe und Agitiertheit

oder psychomotorische Ver-

langsamung)

Unruhe - - 0 Ich bin nicht unruhiger

als sonst.

1 Ich bin unruhiger als

sonst.

2 Ich bin so unruhig, dass

es mir schwerfällt,

stillzusitzen.

3 Ich bin so unruhig, dass

ich mich ständig bewe-

gen oder etwas tun

muss.

Ich bin unruhig.

Anhang 198

Symptomkriterien der Major

Depression nach DSM-IV

bzw. DSM-IV-TR♠♣

Benennung der

Itemkategorie

(BDI/BDI-II)

BDI♥ BDI-V

♦ BDI-II

● BDI-II-V

A6

Müdigkeit, Energieverlust

Ermüdbarkeit/

Ermüdung oder

Erschöpfung

0 Ich ermüde nicht stärker

als sonst.

1 Ich ermüde schneller als

früher.

2 Fast alles ermüdet mich.

3 Ich bin zu müde, um

etwas zu tun.

Ich bin müde und lustlos. 0 Ich fühle mich nicht

müder oder erschöpfter

als sonst.

1 Ich werde schneller

müde oder erschöpft

als sonst.

2 Für viele Dinge, die ich

üblicherweise tue, bin

ich zu müde oder er-

schöpft.

3 Ich bin so müde oder

erschöpft, dass ich fast

nichts mehr tun kann.

Ich fühle mich müde oder

erschöpft.

A6

Müdigkeit, Energieverlust

Energieverlust - - 0 Ich habe so viel Energie

wie immer.

1 Ich habe weniger Ener-

gie als sonst.

2 Ich habe so wenig

Energie, dass ich kaum

noch etwas schaffe.

3 Ich habe keine Energie

mehr, um überhaupt

noch etwas zu tun.

Ich fühle mich antriebslos

und ohne Energie.

Anhang 199

Symptomkriterien der Major

Depression nach DSM-IV

bzw. DSM-IV-TR♠♣

Benennung der

Itemkategorie

(BDI/BDI-II)

BDI♥ BDI-V

♦ BDI-II

● BDI-II-V

A7

Gefühle von Wertlosigkeit,

übermäßige/inadäquate Schuld-

gefühle

Versagen/

Versagensgefühle

0 Ich fühle mich nicht als

Versager.

1 Ich habe das Gefühl,

öfter versagt zu haben

als der Durchschnitt.

2 Wenn ich auf mein

Leben zurückblicke, se-

he ich bloß eine Menge

Fehlschläge.

3 Ich habe das Gefühl, als

Mensch ein völliger

Versager zu sein.

Ich fühle mich als Versa-

ger(in).

0 Ich fühle mich nicht als

Versager.

1 Ich habe häufiger Ver-

sagensgefühle.

2 Wenn ich zurückblicke,

sehe ich eine Menge

Fehlschläge.

3 Ich habe das Gefühl, als

Mensch ein völliger

Versager zu sein.

Ich fühle mich als Versa-

ger(in).

A7

Gefühle von Wertlosigkeit,

übermäßige/inadäquate Schuld-

gefühle

Schuldgefühle 0 Ich habe keine Schuld-

gefühle.

1 Ich habe häufig Schuld-

gefühle.

2 Ich habe fast immer

Schuldgefühle.

3 Ich habe immer

Schuldgefühle.

Ich habe Schuldgefühle. 0 Ich habe keine besonde-

ren Schuldgefühle.

1 Ich habe oft Schuldge-

fühle wegen Dingen,

die ich getan habe oder

hätte tun sollen.

2 Ich habe die meiste Zeit

Schuldgefühle.

3 Ich habe ständig

Schuldgefühle.

Ich habe Schuldgefühle.

A7

Gefühle von Wertlosigkeit,

übermäßige/inadäquate Schuld-

gefühle

Strafbedürfnis/

Bestrafungsgefühle

0 Ich habe nicht das Ge-

fühl, gestraft zu sein.

1 Ich habe das Gefühl,

vielleicht bestraft zu

werden.

2 Ich erwarte, bestraft zu

werden.

3 Ich habe das Gefühl,

bestraft zu sein.

Ich fühle mich bestraft. 0 Ich habe nicht das Ge-

fühl, für etwas bestraft

zu sein.

1 Ich habe das Gefühl,

vielleicht bestraft zu

werden.

2 Ich erwarte, bestraft zu

werden.

3 Ich habe das Gefühl,

bestraft zu sein.

Ich fühle mich bestraft.

Anhang 200

Symptomkriterien der Major

Depression nach DSM-IV

bzw. DSM-IV-TR♠♣

Benennung der

Itemkategorie

(BDI/BDI-II)

BDI♥ BDI-V

♦ BDI-II

● BDI-II-V

A7

Gefühle von Wertlosigkeit,

übermäßige/inadäquate Schuld-

gefühle

Selbsthass/

Selbstablehnung

0 Ich bin nicht von mir

enttäuscht.

1 Ich bin von mir ent-

täuscht.

2 Ich finde mich fürchter-

lich.

3 Ich hasse mich.

Ich bin von mir enttäuscht. 0 Ich halte von mir ge-

nauso viel wie immer.

1 Ich habe Vertrauen in

mich verloren.

2 Ich bin von mir ent-

täuscht.

3 Ich lehne mich völlig

ab.

Ich bin von mir enttäuscht.

A7

Gefühle von Wertlosigkeit,

übermäßige/inadäquate Schuld-

gefühle

Selbstanklagen/

Selbstvorwürfe

0 Ich habe nicht das Ge-

fühl, schlechter zu sein

als alle anderen.

1 Ich kritisiere mich we-

gen meiner Fehler und

Schwächen.

2 Ich mache mir die gan-

ze Zeit Vorwürfe wegen

meiner Mängel.

3 Ich gebe mir für alles

die Schuld, was schief-

geht.

Ich werfe mir Fehler und

Schwächen vor.

0 Ich kritisiere oder tadle

mich nicht mehr als

sonst.

1 Ich bin mir gegenüber

kritischer als sonst.

2 Ich kritisiere mich für

all meine Mängel.

3 Ich gebe mir die Schuld

für alles Schlimme,

was passiert.

Ich werfe mir meine Fehler

und Schwächen vor.

A7

Gefühle von Wertlosigkeit,

übermäßige/inadäquate Schuld-

gefühle▲

Weinen 0 Ich weine nicht öfter als

früher.

1 Ich weine jetzt mehr als

früher.

2 Ich weine jetzt die gan-

ze Zeit.

3 Früher konnte ich wei-

nen, aber jetzt kann ich

es nicht mehr, obwohl

ich es möchte.

Ich weine. 0 Ich weine nicht öfter als

früher.

1 Ich weine jetzt mehr als

früher.

2 Ich weine beim gerings-

ten Anlass.

3 Ich möchte gern wei-

nen, aber ich kann

nicht.

Mir ist nach Weinen zumu-

te.

Anhang 201

Symptomkriterien der Major

Depression nach DSM-IV

bzw. DSM-IV-TR♠♣

Benennung der

Itemkategorie

(BDI/BDI-II)

BDI♥ BDI-V

♦ BDI-II

● BDI-II-V

A7

Gefühle von Wertlosigkeit,

übermäßige/inadäquate Schuld-

gefühle

Wertlosigkeit - - 0 Ich fühle mich nicht

wertlos.

1 Ich halte mich für we-

niger wertvoll und

nützlich als sonst.

2 Verglichen mit anderen

Menschen fühle ich

mich viel weniger wert.

3 Ich fühle mich völlig

wertlos.

Ich fühle mich wertlos.

A8

Verminderte Denk- oder Kon-

zentrationsfähigkeit, Gedächt-

nisprobleme, Entscheidungsun-

fähigkeit

Konzentrations-

schwierigkeiten

- - 0 Ich kann mich so gut

konzentrieren wie im-

mer.

1 Ich kann mich nicht

mehr so gut konzentrie-

ren wie sonst.

2 Es fällt mir schwer,

mich längere Zeit auf

irgend etwas zu kon-

zentrieren.

3 Ich kann mich über-

haupt nicht mehr kon-

zentrieren.

Es fällt mir schwer, mich

zu konzentrieren.

Anhang 202

Symptomkriterien der Major

Depression nach DSM-IV

bzw. DSM-IV-TR♠♣

Benennung der

Itemkategorie

(BDI/BDI-II)

BDI♥ BDI-V

♦ BDI-II

● BDI-II-V

A8

Verminderte Denk- oder Kon-

zentrationsfähigkeit, Gedächt-

nisprobleme, Entscheidungsun-

fähigkeit

Entschlussunfähig-

keit

0 Ich bin so entschluss-

freudig wie immer.

1 Ich schiebe Entschei-

dungen jetzt öfter als

früher auf.

2 Es fällt mir jetzt schwe-

rer als früher, Entschei-

dungen zu treffen.

3 Ich kann überhaupt

keine Entscheidungen

mehr treffen.

Ich schiebe Entscheidungen

vor mir her.

0 Ich bin so entschluss-

freudig wie immer.

1 Es fällt mir schwerer als

sonst, Entscheidungen

zu treffen.

2 Es fällt mir sehr viel

schwerer als sonst,

Entscheidungen zu

treffen.

3 Ich habe Mühe, über-

haupt Entscheidungen

zu treffen.

Es fällt mir schwer, Ent-

scheidungen zu treffen.

A9

Gedanken an den Tod oder

Suizid, Suizidabsichten

Selbstmordimpulse/

Selbstmordgedan-

ken

0 Ich denke nicht daran,

mir etwas anzutun.

1 Ich denke manchmal an

Selbstmord, aber ich

würde es nicht tun.

2 Ich möchte mich am

liebsten umbringen.

3 Ich würde mich um-

bringen, wenn ich die

Gelegenheit hätte.

Ich denke daran, mir etwas

anzutun.

0 Ich denke nicht daran,

mir etwas anzutun.

1 Ich denke manchmal an

Selbstmord, aber ich

würde es nicht tun.

2 Ich möchte mich am

liebsten umbringen.

3 Ich würde mich um-

bringen, wenn ich die

Gelegenheit dazu hätte.

Ich denke daran, mir etwas

anzutun.

Kann nicht eindeutig zugeord-

net werden■

Arbeitsunfähigkeit 0 Ich kann so gut arbeiten

wie früher.

1 Ich muss mir einen

Ruck geben, bevor ich

eine Tätigkeit in An-

griff nehme.

2 Ich muss mich zu jeder

Tätigkeit zwingen.

3 Ich bin unfähig zu ar-

beiten.

Ich muss mich zu jeder

Tätigkeit zwingen.

- -

Anhang 203

Symptomkriterien der Major

Depression nach DSM-IV

bzw. DSM-IV-TR♠♣

Benennung der

Itemkategorie

(BDI/BDI-II)

BDI♥ BDI-V

♦ BDI-II

● BDI-II-V

Kann nicht zugeordnet werden■ negatives Körper-

bild

0 Ich habe nicht das Ge-

fühl, schlechter auszu-

sehen als früher.

1 Ich mache mir Sorgen,

dass ich alt oder unat-

traktiv aussehe.

2 Ich habe das Gefühl,

dass Veränderungen in

meinem Aussehen ein-

treten, die mich hässlich

machen.

3 Ich finde mich hässlich.

Ich bin besorgt um mein

Aussehen.

- -

Kann nicht zugeordnet werden■ Hypochondrie 0 Ich mache mir keine

größeren Sorgen um

meine Gesundheit als

sonst.

1 Ich mache mir Sorgen

über körperliche Prob-

leme, wie Schmerzen,

Magenbeschwerden o-

der Verstopfung.

2 Ich mache mir so große

Sorgen über gesund-

heitliche Probleme, dass

es mir schwerfällt, an

etwas anderes zu den-

ken.

3 Ich mache mir so große

Sorgen über gesund-

heitliche Probleme, dass

ich an nichts anderes

mehr denken kann.

Ich mache mir Sorgen um

meine Gesundheit

- -

Anhang 204

Anmerkungen. ♠ DSM-IV (American Psychiatric Association, 1994, verwendet in der deutschen Übersetzung von Saß et al., 1996); DSM-IV-TR (American Psychiatric

Association, 2000, verwendet in der deutschen Übersetzung von Saß et al., 2003); die Diagnosekriterien der Major Depression unterscheiden sich nicht zwischen den beiden

Auflagen. ♣ Zuordnung der Items zu den der Kriterien vorgenommen nach Hautzinger et al. (2006). ♥ (Hautzinger et al., 1994). ♦ (Schmitt & Maes, 2000). ● (Hautzinger et al.,

2006). ■ Die Items, die im BDI-II eliminiert wurden, wurden von Hautzinger et al. (2006) nicht zugeordnet, die Zuordnung erfolgte hier durch die Autorin dieser Arbeit. ▲ Das

Item „Weinen“ wird bei Hautzinger et al. (2006) dem Kriterium A7 zugeordnet. Dem Augenschein nach könnte es möglicherweise zudem auch Kriterium A1 erfassen

Anhang 205

Anhang B: Untersuchungsmaterial

Anhang B.1: Instruktion der Teilnehmer

Anhang 206

Anhang 207

Anhang B.2: Eingesetzte Fragebögen

Anhang B.2.1: Das BDI

Anhang 208

Anhang 209

Anhang B.2.2: Das BDI-V

Anhang 210

Anhang B.2.3: Das BDI-II

Anhang 211

Anhang 212

Anhang B.2.4: Das BDI-II-V.1

Anhang 213

Anhang B.2.5: Das BDI-II-V.2

Anhang 214

Anhang B.2.6: Das NEO-FFI

Anhang 215

Anhang 216

Anhang 217

Anhang 218

Anhang 219

Anhang B.3: Angaben zur Person

Anhang 220

Anhang B.4: Gewinnspielpostkarte und Rücksendeumschlag

Anhang B.4.1 Vorder- und Rückseite der Gewinnspielpostkarte

Anhang 221

Anhang B.4.2 Rücksendeumschlag

Anhang 222

Anhang C: Zusätzliche Ergebnistabellen

Tabelle 17 Verteilung soziodemographischer Merkmale in Gesamt- und Substichproben

Variable Ursprüngliche

Gesamt-

stichprobe♠

Gesamt-

stichprobe♣

Substichprobe

BDI-II-V.1♥

Substichprobe

BDI-II-V.2.Z♦

N 347 325 169 165

Geschlecht

männlich 140 (40%) 132 (40.6%) 74 (43.8%) 60 (36.4%)

weiblich 206 (60%) 192 (59.1%) 95 (56.2%) 104 (63.0%)

Alter

16 - 19 5 (1.4%) 5 (1.5%) 5 (3.0%) 0 (0.0%)

20 – 29 98 (28.2%) 94 (28.9%) 50 (29.6%) 47 (28.5%)

30 – 39 45 (13.0%) 44 (13.5%) 17 (10.1%) 28 (17.0%)

40 – 49 53 (15.3%) 49 (15.1%) 26 (15.4%) 24 (14.5%)

50 – 59 66 (19.0%) 63 (19.4%) 28 (16.6%) 37 (22.4%)

60 – 69 37 (10.7%) 34 (10.5%) 20 (11.8%) 15 (9.1%)

70 – 79 34 (9.8%) 28 (8.6%) 18 (10.7%) 11 (6.7%)

80 und älter 8 (2.3%) 7 (2.2%) 4 (2.4%) 3 (1.8%)

Min - Max 16 - 84 16 - 84 16 - 84 20 - 83

M (SD) 44.89 (17.68) 44.26 (17.40) 45.02 (18.32) 43.45 (16.42)

Schulabschluss

Schüler 5 (1.4%) 5 (1.5%) 4 (2.4%) 1 (0.6%)

kein Schulabschluss 2 (0.6%) 2 (0.6%) 1 (0.6%) 1 (0.6%)

Volks- oder Haupt-

schulabschluss

75 (21.6%) 68 (20.9%) 41 (24.3%) 29 (17.6%)

mittlere Reife 68 (19.6%) 65 (20.0%) 34 (20.1%) 33 (20.0%)

Fachhochschulreife

oder Abitur

197 (56.8%) 185 (56.9%) 89 (52.7%) 101 (61.2%)

Anhang 223

Variable Ursprüngliche

Gesamt-

stichprobe♠

Gesamt-

stichprobe♣

Substichprobe

BDI-II-V.1♥

Substichprobe

BDI-II-V.2.Z♦

Berufsqualifizierender Abschluss

keine abgeschlossene

Berufsausbildung

62 (17.9%) 59 (18.2%) 35 (20.7%) 25 (15.2%)

abgeschlossene

Berufsausbildung

154 (44.4%) 142 (43.7%) 74 (43.8%) 73 (44.2%)

abgeschlossenes

Fachhochschul- oder

Hochschulstudium

131 (37.8%) 124 (38.2%) 60 (35.5%) 67 (40.6%)

Aktuelle Berufstätigkeit

Schüler/in 5 (1.4%) 5 (1.5%) 4 (2.4%) 1 (0.6%)

Wehr- oder Zivil-

dienstleistender/FSJ

0 (0.0%) 0 (0.0%) 0 (0.0%) 0 (0.0%)

Auszubildende/r 8 (2.3%) 8 (2.5%) 3 (1.8%) 5 (3.0%)

Student/in 51 (14.7%) 49 (15.1%) 24 (14.2%) 26 (15.8%)

Hausfrau/Hausmann 23 (6.6%) 22 (6.8%) 10 (5.9%) 13 (7.9%)

arbeitsuchend 5 (1.4%) 4 (1.2%) 2 (1.2%) 2 (1.2%)

erwerbstätig 195 (56.2%) 187 (57.5%) 96 (56.8%) 96 (58.2%)

Rentner/in /

Pensionär/in

60 (17.3%) 50 (15.4%) 30 (17.8%) 22 (13.3%)

Familienstand

ledig 127 (36.6%) 124 (38.2%) 68 (40.2%) 58 (35.2%)

verheiratet 180 (51.9%) 169 (52.0%) 85 (50.3%) 88 (53.3%)

geschieden 21 (6.1%) 20 (6.2%) 7 (4.1%) 14 (8.5%)

verwitwet 19 (5.5%) 12 (3.7%) 9 (5.3%) 5 (3.0%)

Anhang 224

Variable Ursprüngliche

Gesamt-

stichprobe♠

Gesamt-

stichprobe♣

Substichprobe

BDI-II-V.1♥

Substichprobe

BDI-II-V.2.Z♦

Aktuelle Partnerschaft

ohne

Partnerbeziehung

61 (17.6%) 54 (16.6%) 26 (15.4%) 31 (18.8%)

in fester Partner-

schaft/verheiratet,

zusammenlebend

228 (65.7%) 218 (67.1%) 107 (63.3%) 115 (69.7%)

in fester Partner-

schaft/verheiratet,

nicht zusammenle-

bend

43 (12.4%) 41 (12.6%) 29 (17.2%) 13 (7.9%)

weder noch 13 (3.7%) 12 (3.7%) 6 (3.6%) 6 (3.6%)

Anmerkungen. ♠ Stichprobe aller ernsthaft ausgefüllt zurückgesendeten Fragebögen, aus der die einzelnen

Analysestichproben durch Ausschluss von Probanden mit fehlenden Werten hervorgingen. ♣ Stichprobe,

auf der die meisten Analysen in der Gesamtstichprobe beruhen. ♥ Substichprobe von Teilnehmenden, die

den BDI-II-V.1 erhalten hatten. ♦ Substichprobe von Teilnehmenden, die den BDI-II-V.2 erhalten hatten.

Angaben in Anzahl und Prozent.

Anhang 225

Tabelle 18 Direkte Gegenüberstellung der Summenwerte aller verwendeten Varianten des BDI

in der reskalierten und nicht-reskalierten Fassung für die verkürzten Versionen in

der Gesamtstichprobe und den Teilstichproben 1 und 2

A: In der Gesamtstichprobe

BDI BDI-V BDI-V.R BDI-II BDI-II-V BDI-II-V.R

M

(SD)

7.8

(6.9)

19.2

(16.1)

11.5

(9.6)

9.0

(8.0)

21.8

(18.1)

13.1

(10.8)

Anmerkungen. N = 325. M = mittlerer Summenwert. SD = Standardabweichung.

B: In der Substichprobe 1

BDI-II.1 BDI-II-V.1 BDI-II-V.1.R

M

(SD)

9.9

(8.7)

21.8

(19.6)

13.1

(11.7)

Anmerkungen N = 169. M = mittlerer Summenwert.

SD = Standardabweichung.

C: In der Substichprobe 2

BDI-II.2 BDI-II-V.2.Z BDI-II-V.2.Z.R BDI-II-V.2 BDI-II-V.2.R

M

(SD)

8.3

(7.7)

22.1

(16.8)

13.3

(10.1)

22.7

(17.4)

13.6

(10.4)

Anmerkungen. 163 ≤ N ≤ 165. M = mittlerer Summenwert. SD = Standardabweichung.

Anhang 226

Tabelle 19 Verteilung der Items auf die Parcels der Modelle zur paral-

lelen Analyse jeweils von BDI-II und BDI-II-V, BDI-II.1

und BDI-II-V.1, BDI-II.2 und BDI-II-V.2.Z sowie BDI-II.2

und BDI-II-V-.2 B

DI-

II/I

I.1/I

I.2_P

1

BD

I-II

/II.

1/I

I.2_P

2

BD

I-II

-V/V

.1/V

.2.Z

_P

1

BD

I-II

-V/V

.1/V

.2.Z

_P

2

BD

I-II

-V.2

_P

1

BD

I-II

-V.2

_P

2

1 11 1 2 1 2

2 12 3 4 3 4

3 13 5 6 5 6

4 14 7 8 7 8

5 15 9 10 9 10

6 16 11 12 11 12

7 17 13 14 13 14

8 18 15 16 15 16

9 19 17 18 18 17

10 20 19 20 21 19

21 23 20

22

Anmerkungen. P1 = Parcel 1. P2 = Parcel 2. Die Ziffern entsprechen den

Nummern der Items im jeweiligen Fragebogen.

Anhang 227

Tabelle 20 Verteilung der Items auf die Parcels der Modelle zur parallelen Analyse von BDI,

BDI-V, BDI-II und BDI-II-V

BD

I_P

1

BD

I_P

2

BD

I-V

.R_P

1

BD

I-V

.R_P

2

BD

I-II

_P

1

BD

I-II

_P

2

BD

I-II

-V.R

_P

1

BD

I-II

-V.R

_P

2

1 2 2 1 2 1 1 3

3 5 3 4 7 3 2 7

4 6 6 5 8 4 4 8

8 7 10 7 10 5 5 10

11 9 11 8 12 6 6 11

12 10 13 9 13 9 9 14

15 13 15 12 14 11 12 16

17 14 17 14 16 15 13 17

18 16 19 16 18 17 15 18

19 21 20 18 20 19 20 19

20 21 21

Anmerkungen. P1 = Parcel 1. P2 = Parcel 2. Die Ziffern entsprechen den Nummern der Items im jeweili-

gen Fragebogen.

Anhang 228

Tabelle 21 Mittelwerte (Standardabweichungen), Schiefe und Kurtosis der manifesten Indi-

katoren der konfirmatorischen Faktorenanalysen zur parallelen Analyse von

BDI-II und BDI-II-V

A: Summenwerte

BDI-II BDI-II-V.R

M (SD) 9.1 (8.3) 13.2 (10.9)

Schiefe 1.19 1.09

Kurtosis 1.27 0.53

Anmerkungen. N = 334 M = mittlerer Summenwert.

SD = Standardabweichung.

B: Logarithmierte Summenwerte

BDI-II.L BDI-II-V.L BDI-II-V.R.L

M (SD) 1.9 (1.0) 2.7 (1.0) 2.3 (.92)

Schiefe -0.54 -0.84 -0.62

Kurtosis -0.62 0.50 -0.01

Anmerkungen. N = 334 M = mittlerer Summenwert.

SD = Standardabweichung.

C: Parcels

BDI-II_P1 BDI-II_P2 BDI-II-V_P1 BDI-II-V_P2

M (SD) 3.3 (4.0) 5.9 (4.8) 11.6 (9.5) 10.4 (9.1)

Schiefe 1.65 0.78 1.03 1.13

Kurtosis 2.65 0.16 0.48 0.73

Anmerkungen. N = 334. P1 = Parcel 1. P2 = Parcel 2. M = mittlerer Summenwert.

SD = Standardabweichung.

Anhang 229

Tabelle 22 Interkorrelationen der Itemparcels, die

als manifeste Indikatoren der konfirma-

torischen Faktorenanalysen zur paralle-

len Analyse von BDI-II und BDI-II-V

dienten

BD

I-II

_P

1

BD

I-II

_P

2

BD

I-II

-V_P

1

BD

I-II

-V_P

2

BDI-II_P1 1 .79 .80 .81

BDI-II_P2 1 .78 .78

BDI-II-V_P1 1 .94

BDI-II-V_P2 1

Anmerkungen. N = 334. P1 = Parcel 1. P2 = Parcel 2.

Tabelle 23 Mittelwerte (Standardabweichungen), Schiefe und Kurtosis der manifesten Indikato-

ren der konfirmatorischen Faktorenanalysen zur parallelen Analyse von BDI-II und

und BDI-II-V.1

BDI-II.1_P1 BDI-II.1_P2 BDI-II-V.1_P1 BDI-II-V.1_P2

M (SD) 3.5 (4.2) 6.4 (5.0) 11.7 (10.1) 10.1 (9.7)

Schiefe 1.45 0.67 0.98 1.13

Kurtosis 1.71 -0.22 0.15 0.33

Anmerkungen. N = 169. P1 = Parcel 1. P2 = Parcel 2. M = mittlerer Summenwert.

SD = Standardabweichung.

Tabelle 24 Interkorrelationen der Itemparcels, die als manifeste Indikatoren der konfirmatorischen

Faktorenanalysen zur parallelen Analyse von BDI-II und BDI-II-V.1 dienten

BDI-II.1_P1 BDI-II.1_P2 BDI-II-V.1_P1 BDI-II-V.1_P2

BDI-II.1_P1 1 .79 .83 .84

BDI-II.1_P2 1 .80 .81

BDI-II-V.1_P1 1 .95

BDI-II-V.1_P2 1

Anmerkungen. N = 169. P1 = Parcel 1. P2 = Parcel 2.

Anhang 230

Tabelle 25 Mittelwerte (Standardabweichungen), Schiefe und Kurtosis der manifesten Indikatoren

der konfirmatorischen Faktorenanalysen zur parallelen Analyse von BDI-II und

BDI-II-V.2.Z

BDI-II.2_P1 BDI-II.2_P2 BDI-II-V.2.Z_P1 BDI-II-V.2.Z_P2

M (SD) 3.0 (3.8) 5.3 (4.4) 11.4 (8.7) 10.7 (8.4)

Schiefe 1.90 0.86 1.08 1.16

Kurtosis 4.13 0.66 0.93 1.42

Anmerkungen. N = 165. P1 = Parcel 1. P2 = Parcel 2. M = mittlerer Summenwert.

SD = Standardabweichung.

Tabelle 26 Interkorrelationen der Itemparcels, die als manifeste Indikatoren der konfirmatorischen

Faktorenanalysen zur parallelen Analyse von BDI-II und BDI-II-V.2.Z dienten

BDI-II.2_P1 BDI-II.2_P2 BDI-II-V.2.Z_P1 BDI-II-V.2.Z_P2

BDI-II.2_P1 1 .79 .77 .79

BDI-II.2_P2 1 .76 .78

BDI-II-V.2.Z_P1 1 .91

BDI-II-V.2.Z_P2 1

Anmerkungen. N = 165. P1 = Parcel 1. P2 = Parcel 2.

Tabelle 27 Mittelwerte (Standardabweichungen), Schiefe und Kurtosis der manifesten Indikatoren

der konfirmatorischen Faktorenanalysen zur parallelen Analyse von BDI-II und

BDI-II-V.2

BDI-II.2_P1 BDI-II.2_P2 BDI-II-V.2_P1 BDI-II-V.2_P2

M (SD) 3.0 (3.8) 5.3 (4.4) 11.4 (8.8) 11.3 (9.0)

Schiefe 1.93 0.87 1.09 1.14

Kurtosis 4.23 0.73 0.93 1.16

Anmerkungen. N = 163. P1 = Parcel 1. P2 = Parcel 2. M = mittlerer Summenwert.

SD = Standardabweichung.

Tabelle 28 Interkorrelationen der Itemparcels, die als manifeste Indikatoren der konfirmatorischen

Faktorenanalysen zur parallelen Analyse von BDI-II und BDI-II-V.2 dienten

BDI-II.2_P1 BDI-II.2_P2 BDI-II-V.2_P1 BDI-II-V.2_P2

BDI-II.2_P1 1 .79 .77 .77

BDI-II.2_P2 1 .76 .78

BDI-II-V.2_P1 1 .92

BDI-II-V.2_P2 1

Anmerkungen. N = 163. P1 = Parcel 1. P2 = Parcel 2.

Anhang 231

Tabelle 29 Mittelwerte (Standardabweichungen), Schiefe und Kurtosis der manifesten Indikatoren

der konfirmatorischen Faktorenanalysen zur parallelen Analyse von BDI, BDI-V,

BDI-II und BDI-II-V

A: Summenwerte

BDI BDI-V.R BDI-II BDI-II-V.R

M (SD) 7.8 (6.9) 11.5 (9.6) 9.0 (8.0) 13.1 (10.8)

Schiefe 1.18 1.14 1.11 1.09

Kurtosis 1.26 0.79 1.00 0.57

Anmerkungen. N = 325. M = mittlerer Summenwert.

SD = Standardabweichung.

B: Logarithmierte Summenwerte

BD

I.L

BD

I-V

.L

BD

I-V

.R.L

BD

I-II

.L

BD

I-II

-V.L

BD

I-II

-V.R

.L

M (SD) 1.8 (0.9) 2.6 (1.0) 2.2 (0.9) 1.9 (1.0) 2.7 (1.0) 2.3 (0.9)

Schiefe -0.54 -0.78 -0.56 -0.55 -0.85 -0.63

Kurtosis -0.52 0.42 -0.10 -0.64 0.54 0.02

Anmerkungen. N = 325. M = mittlerer Summenwert. SD = Standardabweichung.

C: Parcels

BD

I_P

1

BD

I_P

2

BD

I-V

.R_P

1

BD

I-V

.R_P

2

BD

I-II

_P

1

BD

I-II

_P

2

BD

I-II

-V.R

_P

1

BD

I-II

-V.R

_P

2

M

(SD)

4.3

(3.6)

3.5

(3.6)

6.2

(5.0)

5.3

(4.9)

5.0

(4.5)

4.0

(3.8)

6.5

(5.5)

6.6

(5.6)

Schiefe 0.97 1.53 1.07 1.27 1.11 1.06 1.14 1.07

Kurtosis 1.05 2.57 0.86 1.17 0.96 0.84 0.73 0.56

Anmerkungen. N = 325. P1 = Parcel 1. P2 = Parcel 2. M = mittlerer Summenwert.

SD = Standardabweichung.

Anhang 232

Tabelle 30 Interkorrelationen der Itemparcels, die als manifeste Indikatoren der konfirmato-

rischen Faktorenanalysen zur parallelen Analyse von BDI, BDI-V, BDI-II und

BDI-II-V dienten

BD

I_P

1

BD

I_P

2

BD

I-V

.R_P

1

BD

I-V

.R_P

2

BD

I-II

_P

1

BD

I-II

_P

2

BD

I-II

-V.R

_P

1

BD

I-II

-V.R

_P

2

BDI_P1 1 .79 .79 .78 .86 .87 .79 .79

BDI_P2 1 .80 .77 .88 .83 .81 .75

BDI-V.R_P1 1 .90 .83 .82 .92 .86

BDI-V.R_P2 1 .80 .80 .88 .88

BDI-II_P1 1 .86 .82 .79

BDI-II_P2 1 .82 .80

BDI-II-V.R_P1 1 .91

BDI-II-V.R_P2 1

Anmerkungen. N = 325. P1 = Parcel 1. P2 = Parcel 2.