Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen

Nutzen für die psychologische Diagnostik aus der Interpretation

geschätzter raschskalierter Personenparametervarianzen

J. M. Müller

Universität Tübingen

DPPD, 2003 Halle J. M. Müller2

Gliederung

1. Theorie: Variabilität in psychologischen Eigenschaften

2. Daten: Test-Meta-Analyse-Projekt

3. Methode: Aspekte der Schätzung von Raschvarianzen

4. Anwendung: Anwendungsgebiete


1. Personen Variabilität in psychologischen Eigenschaften

Die psychometrisch basierte Persönlichkeitspsychologie ging bislang davon aus, dass Personen in verschiedenen Dimensionen vergleichbare Variabilität aufweisen.

Dichte

Psychologische Dimension I

Psychologische Dimension II

Die klassische Testtheorie kann Variabilitätsunterschiede in verschiedenen Dimensionen nicht darstellen. Innerhalb des Raschmodels lässt sich hingegen ein Ansatz ableiten.


AB

Schachspieler

1:2

Das Schach-Beispiel(aus Müller, 2002)

C1:2


Das Schach-Beispiel

1: 2

1: 2

1: 2

1: 2

1: 2

1: 2

1: 2

1:2

AB

C


Transfer zum Rasch Model(Fienberg & Larntz, 1976, Brogden, 1977; Andrich, 1978; Engelhard, 1984;

Mellenbergh & Vijn, 1981; Jansen, 1984 ) Spieler B wird zur Aufgabe b für Spieler A. Die Differenz zwischen zwei Personen wird nun definiert über die Differenz der Wahrscheinlichkeit eine Aufgabe b zu lösen.

Person Bp(B,b)=.50

p(A,b)=.66

Aufgabe b

Person A

iA

iAAiAi

xxp

exp1

exp


Interpretation einer Rasch Skalen Einheit

Personparameters

Lösungswahrscheinlichkeit

Item b with = 0

B A

Differenz der Lösungs-wahrscheinlichkeiten


True Rasch Variances als Maß für die Variabilität

Personparameters B A C

Konstante Differenz der Lsg-Wahrscheinlichk. Item b mit σ = 0

Item a mit σ = 1

Item c mit σ = 2


True Rasch Variances als Maß für die Variabilität


2. DATEN: Das TEST-META-ANALYSE-PROJEKT

Anzahl psychologischer Dimensionen > 92

Anzahl abgeschlossener IRT-Analysen

> 880

Anzahl der Personumfänge 150 < n < 3700

Item-Response-SoftwareBilogMG, Parscale, Winmira, Bigsteps

SAS-Macros zum Auslesen der Programm-Codes und des Outputs für BilogMG, PARSCALE; Winmira und bigsteps


Mein Dank an…

Die Testauthoren und Verlage für die Daten:

Paul Barrett EPQ-R English

Willibald Ruch EPQ-R German

Piotr Brzozowski EPQ-R Polish

Anton Aluja EPQ-R Spanish

Peter Borkenau NEO-FFI

Jochen Fahrenberg FPI-R

Peter Becker TIPI

Stephan Bulheller EPP

SWETS, SCHUHFRIED, HOGREFE

…und weitere….

und Studenten für die

Analysen:

Tina Fechter

Magnus Pagendarm

Mildred Girndt

Susana Ruiz

Daniel Kostatinov

Foundation ‚Strukturfond der Universität Tübingen‘ Kap. 1415


3. METHODE: Aspekte der Schätzung raschskalierter Personenparametervarianzen

1. SOFTWARE (Winmira, Parscale, BilogMG, Bigsteps)

2. MESSFEHLER

3. IRT-MODEL (1PL, 2PL, Partial Credit, Graded, ...)

4. MODEL-FIT/ROBUSTHEIT

5. SCHÄTZALGORITHMEN (WLE, MLE, EAP, etc.)

6. LINK-FUNKTIONEN (Logit, Normal-Ogive)

7. BODEN-UND-DECKEN-EFFEKTE


Interaktionen zwischen den Einflussgrößen

MESSFEHLER

IRT-MODEL

MODEL-FIT

ROBUSTHEIT

SCHÄTZALGORITHMEN

LINK-FUNKTIONEN

SOFTWARE

BODEN-UND-DECKEN-EFFEKTE

TRV




2. MESSFEHLER







1. A Fortran Program (Fischer & Scheiblechner, 1970);

2. LOGISTIC (Wood, Wingersky & Lord, 1976);

3. BMD (Dixon & Brown, 1977);

4. ECTA (Goodman & Fay, 1974);

5. BICAL (Wright & Mead, 1977);

6. DICOT (Masters, 1984);

7. MULTIRA (Carstensen & Rost, 1998);

8. ICL (Hanson, 2002);

9. XCALIBRE (Luecht, Gierl & Ackermann, 1996)

10. LATENT GOLD (Vermunt & Maqidson, 2000);

11. SAS-Macro (Christensen & Bjorner, 2003)

Einfluss der IRT-Software auf die Schätzung der Personenparametervarianz

12. WINSTEPS (Linacre & Wright, 1999);

13. BIGSTEPS (Linacre & Wright, 2003);

14. WINMIRA (Davier, 1998);

15. BILOG-MG (Zimowski, Muraki, Mislevy & Bock, 2003);

16. PARSCALE (Muraki & Bock, 2003);

17. QUEST (Adams & Khoo, 2003);

18. ConQuest (Wu, Adams & Wilson, 1997)

19. TESTFACT (Wood, 2003)

20. MULTILOG (Thissen, 2003)

Liste von IRT-Software:


Einfluss der IRT-Software-Optionen auf die Schätzung der Personenparametervarianz

am Beispiel der Parscale- und BilogMG-Optionen

PARSCALE>CALIB GRADED/PARTIAL, LOGISTIC/NORMAL, SCALE=n, NQPT=n, DIST =n, CYCLES =(list), CRIT = (list), DIAGNOSIS =n, QRANGE =(list), ITEMFIT = n, FREE=(list), RIDGE=(list), NEWTON = n, POSTERIOR, FLOAT, QPREAD, ESTORDER, SPRIOR, TPRIOR, GPRIOR, PRIORREAD, ACCEL/NOACCEL, NOCALIB, SKIPC, CSLOPE, THRESHOLD, NRATER;>SCORE NQPT = n, DIST = n, QRANGE = (list), SMEAN = n, SSD = n, NAME = n, PFQ = n, SCORING = STANDARD / CALIBRATION, EAP/MLE/WML, PRINT, QPREAD, NOSCORE, SAMPLE, RESCALE, NOADJ, FIT, NRATER;

Auszug aus Parscale 4.0 HelpBILOGMG

>CALIB NQPT=a, CYCLES=b, NEWTON=c, PRINT=d, CRIT=e, IDIST=f, PLOT=g, DIAGNOSIS=h, REFERENCE=i, SELECT=(list), RIDGE=(list), ACCEL=n, NSD=o, COMMON, EMPIRICAL, NORMAL, FIXED, TPRIOR, SPRIOR, GPRIOR, NOTPRIOR, NOSPRIOR, NOGPRIOR, READPRIOR, NOFLOAT, FLOAT, NOADJUST, GROUP-PLOT, RASCH, NFULL, CHI=(list);

Auszug aus BILOGMG 3.0 Help


Bigsteps

BilogMG

Parscale

Winmira

geschätze TRS_est

Wahre TRS

Einfluss der verwendeten Software: SimulationsstudieTRS 0.25 bis 4.00 (.25); N=1000; Items=20

ca. 1 RaschUnit




2. MESSFEHLER







Einfluss des Messfehlers auf die Rasch Varianz (Lord, 1983)

Die empirische Varianz ist dann

(2) )()()ˆ( VarVarVar

Wir korrigieren die ORV zur TRV

(4) )ˆ()ˆ()( RELVarVar ERVTRVORV

Wir kennen das Verhältnis...

(3))ˆ(

)()ˆ(

Var

VarREL

ERVTRVORV

Wir fassen eine Schätzung auf als

iii ˆ(1)

ORV = Observed Rasch Variance TRV = True Rasch Variance ERV = Error Rasch Variance


Die Wahl des Reliabilitätsschätzer ist nicht unerheblichZusammenhang zweier Reliabilitätsschätzungen

Spearman Korrelation r = 0.75 s.(N=466)

Cronbachs Alpha

Reliabilitäten der IRT-Software

0.0 0.25 .5 0.75 1.0

0.0

0.2

5

.

5

0.75

1

.0


Explizite Unterscheidung der Theoretische Reliabilität vs. Empirische Reliabilität in Bigsteps

(ebenfalls in BilogMG) (Thissen & Wainer, 1982; Embretson, 1999; Linacre, 2003)

SUMMARY OF 1500 MEASURED VPNS+------------------------------------------------+| RAW MODEL || SCORE COUNT MEASURE ERROR ||------------------------------------------------|| MEAN 34.4 58.8 .42 .29 || S.D. 6.9 3.7 .55 .02 || MAX. 53.0 61.0 2.15 .62 || MIN. 4.0 13.0 -1.74 .28 ||------------------------------------------------|| REAL RMSE .30 ADJ.SD .46 VPN RELIABILITY .70 ||MODEL RMSE .29 ADJ.SD .46 VPN RELIABILITY .71 |+------------------------------------------------+

Bigsteps Output

ORS

TRS


Die Reliabilität beeinflusst die ORV, aber nicht die TRV

Beispiel des SPM (N=1500) (Anmerkung: r reli, cronbach = 0.976)

TRV

0.5 1.0 1.5 2.0Rasch Varianzen Personen

ORV

10 20 30 40 50 60

Anzahl an Items

Zufällig Itemreduktion

Erwartet

Reliabilität

RawS

OPP


Während die Reliabilität die ORV beeinflusst, beeinflusst dagegen die TRV die Reliabilität

Simulationsstudie TRS 0.25 bis 4.00 (.25); N=1000; Items=20

0 1 4 9 16

TRV

0.25 0.5 0.75 1.0

Reliabilität Winmira


Konsequenz: Variationsreiche Eigenschaften sind ,unter sonst gleichen Bedingungen‘ reliabler

am Beispiel der EPQ-R(S) Skalen; (Itemanzahl zwischen 15 und 25)

0 1 2 0 1 2

TRV

0

0.2

5

.5

0.7

5

1.0

0

0.2

5

.5

0.7

5

1.0

Cronbach Reliabilität, N=40, rspear=.71, sign. Software Reliabilität N=40, rspear=. 44, sign.


Ohne Eingrenzung auf Skalen mit ca. 20 Itemsam Beispiel aller EPQ-R(S) Skalen: Deutsch, Spanisch, Englisch, Polnisch

Software Reliabilität N=87, r=.32, sign.Cronbach Reliabilität, N=87, r=.60, sign.

0 1 2 3 0 1 2 3

TRV

0

0.2

5

.5

0.7

5

1.0

0

0.2

5

.5

0.7

5

1.0


Erklärung: Relativer Anteil des Model-vorhergesagten Standardfehlers SE an der wahren Raschvarianz TRV

Personparameter

SE1,2

TRV 1

TRV 2




2. MESSFEHLER







Erklärung: Variierender Trennschärfen auf das TRV

Lösungs-wahrscheinlichkeit

β = 1

B

A

Konstante Differenz

C

β = 0.5

)(exp1

exp

iAi

iAiAiAi

xxp



1. SOFTWARE (Winmira, Parscale, Bilog, Bigsteps)

2. MESSFEHLER







Wie robust sind TRV-Schätzungen gegenüber Modellverletzungen?

Mögliche Modelverletzungen:

1. Falsche Modellwahl (z.B. 1PL statt 2PL)

2. Differential-Item-Functioning (Items sind für Subgruppen verschieden schwer)

3. Antworttendenzen in Subgruppen (testbar über Mixed-Rasch-Modelle; Rost & Carstensen)

4. Verletzung der Annahme lokal stochastischer Unabhängigkeit (Prüfung über T-Rasch, Ponocny; Residualanalysen, H. Müller, 2003, MethEval, Wien)

5. Inhomogene Personen (Person-Fit)

6. Inhomogene Items (Item-Fit)


Wie robust sind TRV-Schätzungen gegenüber Modellverletzungen?

Am Beispiel vier verschiedensprachiger EPQ-R(S) Skalen

Neurotizismus Psychotizismus LügenExtraversion

Deutsch

Spanisch

Polnisch

Englisch


Einfluss von Model-Verletzungenam Q-Index am Beispiel der EPQ-R

Neurotizismus Psychotizismus LügenExtraversion

Deutsch

Spanisch

Polnisch

Englisch 5 6

1 13

4 3

8 510 10

8 11

6 59 12

1 03 2 3 23 3

5 66 8 6 13

3 024

23

21

3225

23

2223

1212 1212

3214 21

32

Items

Q-Index

100

102

48

90

negativ positiv


Einfluss von Model-VerletzungenItemselektion nach Q-Index

am Beispiel des EPQ-R Deutsch Extraversion

Cronbachs Alpha

Software Reliabilität

ORV

TRV Software Korrektur

Mittelwert

TRV Cronbach-Korrektur

Itemanzahl


Voraussetzungen zur Interpretation von TRVam Beispiel des EPQ-R Deutsch

Itemuntergrenze von 10Neurotizismus

PsychotizismusLügen

Extraversion


Voraussetzungen zur Interpretation von TRVItemuntergrenze von 10

Spanisch

Deutsch Englisch

Polnisch

Ex Ne

PsLü

Ex Ne

PsLü

Ex Ne

PsLü

Ex Ne

PsLü




2. MESSFEHLER







Schätzalgorithmen:MLE, WLE, BME, EAP, MAP, EM, MLF, CMLF, OSB, h-

estimators, biweight and jackknifed estimators/robustification

Direct Estimation (Mislevy 1984; Cohen & Jiang, 2002; v. Davier, 2003) in ConQuest

Simulationsstudien:

Samejima, 1993; Hoijtink & Boomsma, 1993, 1995, 1996; Kim & Nicewander, 1993; Warm, 1989; Rigdon & Tsatakawa, 1983)

Einfluss der Schätzalgorithmen


Einfluss der SchätzalgorithmenMLE vs. WML

Mean Std Dev N Pr > |t|0.01 0.32 131 0.696




2. MESSFEHLER







BODEN-UND-DECKEN Effekte auf die

STANDARDABWEICHUNG



SCHIEFE



KURTOSIS


Die Notwendigkeit eines Standards...

1. Der Messfehler = 0 (TRV).

2. Die Link-Funktion ist der Logit.

3. Mindestens 10 Items.

4. Der Schätzalgorithmus über direct Estimation.

5. Die theoretische Verteilung ist normalverteilt?


4. Nutzen für die psychologische Diagnostik

1. Testkonstruktion

2. Testbeschreibung

3. Testanwendung

4. Neue Forschungsfelder


Nutzen für die psychologische Diagnostik Testkonstruktion

a) Hohe Variabilität als Voraussetzung

reliabler Messung

b) Inhaltsvalidität

c) Konstruktvalidität


Inhaltsvalidität…

… als Konzept einer repräsentativen Itemstichprobe aus dem Universum eines theoretisch unendlichen Itempools

(Fitzpatrick, 1983; Klauer, 1984).

Hypothese: Wir erwarten entsprechen vergleichbare TRV bei verschiedenen Operationalisierung eines Konstruktes


Variationsunterschiede am Beispiel des EPQ-R Deutsch

(mit Winmira; vergleichbar mit Bigsteps)

Deutsch

Ex Ne PsLü 0 1.0 2.0

Fehlerquellen: Konstrukt, Methode and Itemauswahl (Vijver & Hambleton, 1996)


Vergleich von Variationsunterschieden zur Überprüfung der Inhaltsvalidität

am Beispiel des EPQ-R(S)

Deutsch

Ex Ne PsLü 0 1.0 2.0

Spanisch

0 1.0 2.0Ex Ne PsLü

Polnisch

0 1.0 2.0

Ex Ne PsLü

Englisch

0 1.0 2.0

Ex Ne PsLü

?


EPQ-R(S)Inhaltsvalidität über Vergleiche der TRV

ohne inhomogene Items (Q-Index)(mit Winmira)

Deutsch Spanisch

PolnischEnglisch

Ex Ne PsLü Ex Ne PsLü

Ex Ne PsLü Ex Ne PsLü

0 1 2 3 0 1 2 3

0 1 2 3 0 1 2 3


KonstruktvaliditätÜberprüfung theoretischer Zusammenhänge

zwischen Konstrukten

Problemstellung:

Werden zwei Tests auf theoretische Zusammenhänge überprüft, so

werden hohe korrelative Zusammenhänge erwartet.

Es besteht jedoch die Gefahr, dass Item-Überschneidungen

(Westmeyer) stattdessen die Inhaltsvalidität prüfen.

Da beide Instrumente Verschiedenes messen (sollen), kann dies

über unterschiedliche Rasch Varianzen belegt werden (als

notwendige, aber nicht hinreichende Voraussetzung von

Unterschiedlichkeit).


Testbeschreibung Illustration von Variationsunterschiede am Beispiel des SPM (N=1500) und RIS (N=147)

0 10 20 30 40 50 60

Anzahl an Items

0 1 2 3

TRV

SPM Reliabilität

RIS

SPM

RIS Reliabilität


TestanwendungVerändertes diagnostisches Schlussfolgern

Rasch Einheiten

Dichte

SPM

DSPM

Testwert SPM

RIS

DRIS

Testwert RIS


TestanwendungDiagnostik von Interventionseffekten: Ein neues Effektmaß

in Ergänzung zu Cohen‘s Maße der Effektstärke

BA mm

d

BAdR

Effektmaß dvon Cohen

Effektmaß dR

Standardisierung notwendig

Keine Standardisierung

notwendig

Rasch Einheiten

Dichte

SPMZeitpunkt 2

dRVSPMZeitpunkt 1

Rasch Einheiten

Dichte

RISZeitpunkt 1

dRA RISZeitpunkt 2


Neue Forschungsfelder Veränderung der Variabilität über die Lebensspanne

Dichte

Testwert eines Kindes

True Rasch Scores

PP-Verteilung von 5 jährigen

Kinder

6 Jahre 7 Jahre 8 Jahre

Wachstum


Neue ForschungsfelderPersönlichkeitstests als Vektorraum Welche Tests umfassen mehr Variabilität?

D I

D II

D IIIII, III

I, II

I, III


Zusammenfassung

1. Interpretation der wahren Raschskalierten

Personenparametervarianzen

2. Methodische Aspekte der Schätzung

3. Nutzen in der Diagnostik

4. Ausblick


Thank you for your attention.More Information you can find under:

www.psychological-tests.de

Send me your data!


A link to a previews presentation on the European Congress of Personality in Jena, 2002


Bekannte Ansätze zur Überprüfung der Inhaltsvalidität:

Psychometrische Ansätze

1. ... by correlations2. ... by structural equivalence3. ... by simple descriptives like

• Variances in rasch-units


Differences between the approaches

Testing of relationsships

is a strategy that leads to

weak statistical testing (H1-hypothesis)

Testing of equivalence (deviation )

is a strategy that leads to

strong statistical testing (H0-hypothesis)


Influences of BOTTOM-AND-CEILING effects on the TRV

Bottom-effectLook for Skewness!

Bottom-and-ceiling effectLook for Kurtosis!

You find a skewness of magnitude 1

You see that this is caused by an cutting-point at 0.5

A cutting-point at 0.5 leads to an decreased variability of 70%

Documents

Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen