9
© Sandra Fuchs 3421, 6a, Kap. 3 Sose 2016 1 3. KTT und PTT KTT allgemein Axiome & Annahmen der KTT Kritik an der KTT - gegenwärtig die Grundlage der meisten psychologischen Testverfahren - nach Rost basieren 95% aller Tests auf der KTT - klassisch heißt die KTT, weil sie die erste Theorie war, die zur Konstruktion von psychologischen Tests herangezogen wurde (Gulliksen, 1950) - einige Schwächen, die von PTT (allerdings auf Kosten erheblich größerer mathematischer Komplexität) überwunden werden - einfache Anwendbarkeit - Tests haben sich bewährt - Die KTT machte keine Annahmen darüber, wie Items beantwortet werden oder wie eine Testleistung zustande kommt - Die KTT macht nur Annahmen darüber, aus welchen Komponenten Messwerte bestehen (X = T + E) - trotz gravierender Mängel bzw. Kritikpunkte hat sich die KTT in der Praxis bewährt - Die Brauchbarkeit eines Tests hängt v.a. von der inhaltlich begründeten Konstruktion der Items und Test ab - die KTT untersucht Rohwertvarianzen und Kovarianzen - Systematische Fehler werden indirekt der wahren Varianz zugeschlagen 1. Die KTT ist eine Theorie der Messfehler bzw. der Reliabilität - Die KTT trägt dem Umstand Rechnung, dass Testergebnisse einzelner Personen mit dem gleichen Test zwischen verschiedenen Messzeitpunkten variieren - berücksichtigt werden nur unsystematische Fehler (unsystematische innere/äußere Einflüsse, z.B. Lärm, stickige Luft, Müdigkeit, mangelnde Konzentration) - nicht berücksichtigt werden systematische Fehler (Übungs- und Transfereffekte) - systematische Fehler (Bias) werden dem wahren Wert zugerechnet, was zu einer Erhöhung der Reliabilität führt 2. Die KTT unterstellt Zufallsziehung und Zufallsfehler - Annahme bezieht sich auf intraindividuelle und interindividuelle Varianz - Annahme, dass das Testergebnis derselben Person bei mehreren Testungen rein zufallsabhängig variiert. - Bei beliebiger Anzahl an Testwiederholungen bei einer Person i mit dem gleichen Test und unter den gleichen Bedingungen, nähern sich die Testergebnisse Xi einer Normalverteilung an, deren Mittelwert Ti (wahrer Wert) ist Existenzaxiom 3. Das zentrale Grundaxiom der KTT besagt, dass sich jeder beobachtete Wert additiv aus einem wahren Wert Ti und einer Fehlerkomponente zusammensetzt (X = T +E) 4. Messfehler verteilen sich um den Wert Null, d.h. der wahre Wert wird in einer einzelnen Messung also gleicher Wahrscheinlichkeit über- oder unterschätzt und mittelt sich über viele Messungen tendenziell aus. a) Sowohl bei einer Person i bei unendlich vielen Messungen M(E)i = 0 b) Mittelwert der Fehler in einer Population/Teilpopulation M(E)P = 0 5. Wahrer Wert und Fehler sind unkorreliert, d.h. es besteht kein Zusammenhang zwischen dem Messfehler und dem wahren Wert – gilt sowohl für eine Person als auch für Population bzw. Teilpopulation: r(E,T) = 0 6. Fehler verschiedener Tests sind unkorreliert, d.h. der Messfehler eines Tests A weist keinen Zusammenhang r mit dem Messfehler eines anderen Tests B auf. (gilt nur bei experimenteller, nicht bei emprischer, Abhängigkeit!) 7. Kreuzweise Unkorreliertheit von Messfehlern und wahren Werten verschiedener Tests, d.h. die Messfehler eines Tests A weisen keinen Zusammenhang mit dem wahren Wert eines Tests B auf: r(EA,EB = 0) - die KTT umgeht das Problem des Intervallskalenniveaus durch „per-fiat“- Messung: durch Aufsummierung der Anzahl richtiger Lösungen oder Itemantworten nähert man sich generell Differenzen an und somit ist X = T+E wieder zulässig - Die KTT fasst Reliabilität als Anteil wahrer Varianz an der gesamten Testvarianz auf, wobei die Varianz der wahren Werte nicht beobachtbar ist und geschätzt werden muss. - Die Reliabilität ist die wesentliche Information zur Bestimmung von Standardmess- und Standschätzfehler (Beurteilung, wie gut man sich auf das Testergebnis einer Testperson verlassen kann). - Anhand der Formel für die Reliabilität kann der Unterschied zur Validität vorgenommen werden: Der Bias (systematische Fehler; nicht intendierte systematische Varianzanteile) hat im Grunde nichts mit dem Zielkonstrukt zu tun, wird in den Axiomen der KTT dem wahren Wert bzw. der wahren Varianz zugeschlagen und trägt so zur Erhöhung der Reliabilität bei. - Bei der Validität hingegen geht es ausschließlich um die Messung des Zielkonstrukts bzw. um die Gültigkeit inhaltlicher Aussagen auf der Grundlage von Testergebnissen. - Bei der Validität geht es um das Ausmaß, in dem ein Test in der jeweiligen Testsituation das misst, was er messen soll. - Die Validität ist der Anteil der Konstruktvarianz an der Gesamtvarianz 1. Axiome der KTT sind in der Praxis nicht immer haltbar - nicht intendierte systematische Varianzanteile (Bias) werden dem wahren Wert zugerechnet - die KTT stellt keine Verbindung zwischen einer Fähigkeit, einem Merkmal oder einer Eigenschaft und der Itembeantwortung her - Übungs- und Transfereffekte wirken sich u.U. systematisch auf die Testleistung auf und verändern die wahre Leistungsfähigkeit, werden aber einfach als Bias der wahren Varianz zugeordnet - die KTT macht keine Annahmen hinsichtlich des Zustandekommens der Leistungen - unter Verletzung der Annahme der Eindimensionalität werden Ti und Reliabilität eines Tests über- oder z.T. auch unterschätzt. → Annahme des fehlenden Zusammenhangs zwischen T und E zu bezweifeln, ebenso die Konstanz des wahren Wertes über verschiedene Messwiederholungen (Existenzaxiom) 2. Ungenaue Messung in Extrembereichen - Fischer weist darauf hin, dass insb. bei extrem hohen/niedrigen Fähigkeitsausprägungen die Leistungen ungenauer als im mittleren Bereich gemessen werden. - Items mit extremen Schwierigkeiten aber notwendig/nützlich für die Differenzierung von Testpersonen - dieselbe Messgenauigkeit in allen Eigenschafts- bzw. Fähigkeitsbereichen ist wichtige Voraussetzung für die Einzelfalldiagnostik 3. KTT setzt Eindimensionalität voraus (Annahme des fehlenden Zusammenhangs zwischen verschiedenen Fehlerwerten r(EA,EB) = 0 ) , prüft diese Annahme aber an keiner Stelle → PTT prüft diese Voraussetzung → Verwendung CFA 4. Stichprobenabhängigkeit der Testwerte - je nach Referenzgruppe erhält individuelle Testleistung andere Bedeutung → PTT ermittelt stichprobenunabhängige Item- und Personenkennwerte → KTT behilft sich mit Gütekriterien zu verschiedenen Teilstichproben

3. KTT und PTT - · PDF file© Sandra Fuchs 3421, 6a, Kap. 3 Sose 2016 1 3. KTT und PTT KTT allgemein Axiome & Annahmen der KTT Kritik an der KTT - gegenwärtig die Grundlage der

Embed Size (px)

Citation preview

Page 1: 3. KTT und PTT - · PDF file© Sandra Fuchs 3421, 6a, Kap. 3 Sose 2016 1 3. KTT und PTT KTT allgemein Axiome & Annahmen der KTT Kritik an der KTT - gegenwärtig die Grundlage der

© Sandra Fuchs 3421, 6a, Kap. 3 Sose 2016

1

3. KTT und PTT KTT allgemein Axiome & Annahmen der KTT Kritik an der KTT

- gegenwärtig die Grundlage der meisten psychologischen Testverfahren - nach Rost basieren 95% aller Tests auf der KTT - klassisch heißt die KTT, weil sie die erste Theorie war, die zur Konstruktion von psychologischen Tests herangezogen wurde (Gulliksen, 1950)

- einige Schwächen, die von PTT (allerdings auf Kosten erheblich größerer mathematischer Komplexität) überwunden werden - einfache Anwendbarkeit - Tests haben sich bewährt

- Die KTT machte keine Annahmen darüber, wie Items beantwortet werden oder wie eine Testleistung zustande kommt - Die KTT macht nur Annahmen darüber, aus welchen Komponenten Messwerte bestehen (X = T + E)

- trotz gravierender Mängel bzw. Kritikpunkte hat sich die KTT in der Praxis bewährt - Die Brauchbarkeit eines Tests hängt v.a. von der inhaltlich begründeten Konstruktion der Items und Test ab

- die KTT untersucht Rohwertvarianzen und Kovarianzen - Systematische Fehler werden indirekt der wahren Varianz zugeschlagen

1. Die KTT ist eine Theorie der Messfehler bzw. der Reliabilität - Die KTT trägt dem Umstand Rechnung, dass Testergebnisse einzelner Personen mit dem gleichen Test zwischen verschiedenen Messzeitpunkten variieren - berücksichtigt werden nur unsystematische Fehler (unsystematische innere/äußere Einflüsse, z.B. Lärm, stickige Luft, Müdigkeit, mangelnde Konzentration) - nicht berücksichtigt werden systematische Fehler (Übungs- und Transfereffekte) - systematische Fehler (Bias) werden dem wahren Wert zugerechnet, was zu einer Erhöhung der Reliabilität führt

2. Die KTT unterstellt Zufallsziehung und Zufallsfehler - Annahme bezieht sich auf intraindividuelle und interindividuelle Varianz - Annahme, dass das Testergebnis derselben Person bei mehreren Testungen rein zufallsabhängig variiert. - Bei beliebiger Anzahl an Testwiederholungen bei einer Person i mit dem gleichen Test und unter den gleichen Bedingungen, nähern sich die Testergebnisse Xi einer Normalverteilung an, deren Mittelwert Ti (wahrer Wert) ist Existenzaxiom

3. Das zentrale Grundaxiom der KTT besagt, dass sich jeder beobachtete

Wert additiv aus einem wahren Wert Ti und einer Fehlerkomponente zusammensetzt (X = T +E)

4. Messfehler verteilen sich um den Wert Null, d.h. der wahre Wert

wird in einer einzelnen Messung also gleicher Wahrscheinlichkeit über- oder unterschätzt und mittelt sich über viele Messungen tendenziell aus. a) Sowohl bei einer Person i bei unendlich vielen Messungen M(E)i = 0 b) Mittelwert der Fehler in einer Population/Teilpopulation M(E)P = 0

5. Wahrer Wert und Fehler sind unkorreliert, d.h. es besteht kein Zusammenhang zwischen dem Messfehler und dem wahren Wert – gilt sowohl für eine Person als auch für Population bzw. Teilpopulation: r(E,T) = 0

6. Fehler verschiedener Tests sind unkorreliert, d.h. der Messfehler eines Tests A weist keinen Zusammenhang r mit dem Messfehler eines anderen Tests B auf. (gilt nur bei experimenteller, nicht bei emprischer, Abhängigkeit!)

7. Kreuzweise Unkorreliertheit von Messfehlern und wahren Werten verschiedener Tests, d.h. die Messfehler eines Tests A weisen keinen Zusammenhang mit dem wahren Wert eines Tests B auf: r(EA,EB = 0)

- die KTT umgeht das Problem des Intervallskalenniveaus durch „per-fiat“-Messung: durch Aufsummierung der Anzahl richtiger Lösungen oder Itemantworten nähert man sich generell Differenzen an und somit ist X = T+E wieder zulässig

- Die KTT fasst Reliabilität als Anteil wahrer Varianz an der gesamten Testvarianz auf, wobei die Varianz der wahren Werte nicht beobachtbar ist und geschätzt werden muss. - Die Reliabilität ist die wesentliche Information zur Bestimmung von Standardmess- und Standschätzfehler (Beurteilung, wie gut man sich auf das Testergebnis einer Testperson verlassen kann). - Anhand der Formel für die Reliabilität kann der Unterschied zur Validität vorgenommen werden: Der Bias (systematische Fehler; nicht intendierte systematische Varianzanteile) hat im Grunde nichts mit dem Zielkonstrukt zu tun, wird in den Axiomen der KTT dem wahren Wert bzw. der wahren Varianz zugeschlagen und trägt so zur Erhöhung der Reliabilität bei. - Bei der Validität hingegen geht es ausschließlich um die Messung des Zielkonstrukts bzw. um die Gültigkeit inhaltlicher Aussagen auf der Grundlage von Testergebnissen. - Bei der Validität geht es um das Ausmaß, in dem ein Test in der jeweiligen Testsituation das misst, was er messen soll.

- Die Validität ist der Anteil der Konstruktvarianz an der Gesamtvarianz

1. Axiome der KTT sind in der Praxis nicht immer haltbar - nicht intendierte systematische Varianzanteile (Bias) werden dem wahren Wert zugerechnet - die KTT stellt keine Verbindung zwischen einer Fähigkeit, einem Merkmal oder einer Eigenschaft und der Itembeantwortung her - Übungs- und Transfereffekte wirken sich u.U. systematisch auf die Testleistung auf und verändern die wahre Leistungsfähigkeit, werden aber einfach als Bias der wahren Varianz zugeordnet - die KTT macht keine Annahmen hinsichtlich des Zustandekommens der Leistungen - unter Verletzung der Annahme der Eindimensionalität werden Ti und Reliabilität eines Tests über- oder z.T. auch unterschätzt.

→ Annahme des fehlenden Zusammenhangs zwischen T und E zu bezweifeln, ebenso die Konstanz des wahren Wertes über verschiedene Messwiederholungen (Existenzaxiom)

2. Ungenaue Messung in Extrembereichen

- Fischer weist darauf hin, dass insb. bei extrem hohen/niedrigen Fähigkeitsausprägungen die Leistungen ungenauer als im mittleren Bereich gemessen werden. - Items mit extremen Schwierigkeiten aber notwendig/nützlich für die Differenzierung von Testpersonen - dieselbe Messgenauigkeit in allen Eigenschafts- bzw. Fähigkeitsbereichen ist wichtige Voraussetzung für die Einzelfalldiagnostik

3. KTT setzt Eindimensionalität voraus (Annahme des fehlenden Zusammenhangs zwischen verschiedenen Fehlerwerten r(EA,EB) = 0 ) , prüft diese Annahme aber an keiner Stelle → PTT prüft diese Voraussetzung → Verwendung CFA

4. Stichprobenabhängigkeit der Testwerte - je nach Referenzgruppe erhält individuelle Testleistung andere Bedeutung → PTT ermittelt stichprobenunabhängige Item- und Personenkennwerte → KTT behilft sich mit Gütekriterien zu verschiedenen Teilstichproben

Page 2: 3. KTT und PTT - · PDF file© Sandra Fuchs 3421, 6a, Kap. 3 Sose 2016 1 3. KTT und PTT KTT allgemein Axiome & Annahmen der KTT Kritik an der KTT - gegenwärtig die Grundlage der

© Sandra Fuchs 3421, 6a, Kap. 3 Sose 2016

2

3. Itemanalyse: Kürzung und Revision des Entwurfs

Itemanalyse nach KTT Rekodierung Deskriptive Itemanalyse Interpretation: Itemschwierigkeit Nun liegt eine erste Rohfassung des Testentwurfs vor, d.h. eine geordnete Itemsammlung

Pretest der ersten Rohfassung, um die Items auf Verständlichkeit, Eindeutigkeit zu testen - ebenso Erfassung möglicher Probleme mit der Akzeptanz (invasive, belastende oder inakzeptable Fragen

qualitative Erhebung mit Kommentarmöglichkeit - kleine Stichprobe genügt - diese sollte allerdings zur Zielgruppe des Tests gehören

Identifikation und ggf. Elimination oder Umformulierung besonders missverständlicher und inakzeptabler Items

Nun kann empirische, quantitative Prüfung der Vorform des Tests in größerem Rahmen beginnen (anhand von empirischen Kennwerten für die einzelnen Items)

→ Kennwerte werden genutzt, um Unterschiede in den Messeigenschaften einzelner Items zu identifizieren und zur Kürzung der Vorform des Tests bzw. Eliminierung weniger guter Aufgaben genutzt

Beispieldatensatz: -SPSS, Stichprobe (1999) zu BFI -Insg. 44 Items, je 7-10 für O,C,E,A,N -Fünfstufige, bipolare Ratingskalen -Kurze Satzfragmente -Rational konstruiert, zur Messung eines faktorenanalytisch begründeten Persönlichkeistmodells Rekodierung, da die Items des BFI unterschiedlich gepolt (hohe Werte stehen mal für Ausprägungen, mal für niedrige Merkmalsausprägungen) → so dass alle Items gleich gepolt 1.) TRANSFORMIEREN → UMKODIEREN IN DIESELBEN (oder IN ANDERE) VARIABLEN

2.) Verschiebung der Items in Liste NUMERISCHE VARIABLEN

3.) Rekodierung spezifizieren über ALTE UND NEUE WERTE 4. jeweils HINZUFÜGEN 5. WEITER (nicht OK, wegen Syntax!)

Prüfung univariater Verteilungseigenschaften:

Wichtigste Kennwerte - zentrale Tendenz: Mittelwert, Median, Modus - Streuung: Varianz, Percentile, Streubreite - Form: Schiefe, Exzess - Grafische Hilfsmittel: Histogramme, Diagramme

ANALYSIEREN → DESKRIPTIVE STATISTIKEN → DESKRIPTIVE STATISTIK - alle 44 Items in Liste VARIABLEN verschieben - OPTIONEN: wichtigste Kennwerte inkl. Schiefe und Kurtosis auswählen WEITER

ANALYSIEREN → DESKRIPTIVE STATISTIKEN → DIAGRAMME - Tests auf Normalverteilung - Histogramme

- Mittelwerte der Items bilden bei den vorliegenden Ratingskalen des BFI de Grundlage zur Berechnung von Itemschwierigkeiten

Itemschwierigkeit = der prozentuale Anteil der richtigen Lösungen (bzw. Zustimmungen) an allen Lösungen eines Items innerhalb einer Stichprobe - einer der wichtigsten Kennwerte in der Itemanalyse - =empirischer Lösungsmittelwert einer Stichprobe - je nach Skalenniveau unterscheidet sich Berechnung Hoher Wert = geringe Schwierigkeit niedriger Wert = hohe Schwierigkeit

Itemschwierigkeitsindex ohne Korrektur

Itemschwierigkeitsindex mit Zufallskorrektur

Itemschwierigkeitsindex mit Inangriffnahmekorrektur z.B. bei zeitbegrenzten Leistungstests wird im Nenner die Anzahl NB der Personen, die Item bearbeitet haben

Transformation bei Ratingskalen - zunächst Transformation der Ratingskala auf das theoretische Minimum mit Wert Null - Anschließend Berechnung Itemschwierigkeitsindex ohne Korrektur, aber mit Modifizierungen: NR = (transf.) Mittelwert Mi des Items i N = (transf.) Maximalwert xmax des Items

Bedeutung der Itemschwierigkeit - Zahl theoretisch möglicher Unterscheidungen und somit die Informationshaltigkeit eines Items hängt von dessen Schwierigkeit ab. - bei mittlerer Schwierigkeit liegt das theoretische Maximum 50% (Da 50*50 = 2500 Unterscheidungen)

→Ein Item, das niemand oder alle lösen können, enthalt keinerlei empirische Informationen & ist somit wertlos! →Zusammenhang zw. Itemschwierigkeit und Informationshaltigkeit ist umgekehrt u-förmig mit Maximum in der Mitte

Interpretation der Itemschwierigkeit - Faustregeln mit Vorsicht genießen, da a) Die Lösungswkt eines Items annahmegemäß von der individuellen Ausprägung des gemessenen Merkmals abhängt b) Schwierigkeit nur etwas über die maximal in einem Item enthaltene Information aussagt, aber nichts über die tatsächliche Informationshaltigkeit → Die Schwierigkeit beeinflusst die VArianz, die wiederum notwendige aber nicht hinreichende Bedingung für die Korrelation mit anderen Variablen ist → Test mit nur extremen Schwierigkeiten ist eingeschränkt hinsichtlich Itemhomogenität, Trennschärfe, Reliabilität, Validität (Kennwerte & Gütekriterien) und hinsichtlich der Korrelation der Items untereinander, wenn viele links- & rechtsschiefe (schwierige / einfache) items kombiniert werden Aber: Stets abzuwägen gegen die Notwendigkeit einer vollständigen Abdeckung des Merkmalsbereichs

Die Standardabweichung sollte bei einer 5-stufigen Skala idealerweise den Wert 1 annehmen (→ beste Annäherung an Normalverteilung)

„Itemleichtigkeit“

B B

Mi

xmax P =

Page 3: 3. KTT und PTT - · PDF file© Sandra Fuchs 3421, 6a, Kap. 3 Sose 2016 1 3. KTT und PTT KTT allgemein Axiome & Annahmen der KTT Kritik an der KTT - gegenwärtig die Grundlage der

© Sandra Fuchs 3421, 6a, Kap. 3 Sose 2016

3

3.1.2 Trennschärfeanalyse Defintion/Allgemeines Part-Whole-Korrektur Trennschärfen bei … Ursachen für verzerrte Trennschärfen Schwierigkeitskorrektur

Trennschärfe Gibt die Stärke der Übereinstimmung der mit dem jeweiligen Item erzielten Differenzierung zwischen den VPn und der Differenzierung durch den Gesamttest an

→ in der KTT der wichtigste Indikator dafür, wie gut jedes einzelne Items das zugrunde liegende Merkmal abbildet

Eigentrennschärfe: Stellt inhaltlich dar, wie gut ein Item eine Skala, die aus den restlichen Itemsgebildet wird, widerspeigelt bzw. wie prototypisch ein Item für eine Skala ist → Vorausssetzung: valide Messung des Merkmals → Part-Whole-Korrektur!

Fremdtrennschärfe Korrelationen von Items mit Skalen/Testwerten anderer Fragebögen/Kriterien →Wird insb. bei der externalen Testkonstruktion hernagezogen - keine Part-Whole-Korrektur notwendig!

Skala Mehrere aufsummierte/gemittelte Items, die inhaltlich dieselbe Eigenschaft/Fähigeit erfassen sollen

Part-Whole-Korrektur notwendig,

weil sonst das betreffende Item mit in den Skalenwert einfließt → Teil der Skalenstreuung geht auf das entsprechende Item zurück → Überschätzung der Trennschärfe → unkorrigierter Wert ist partielle Eigenkorrelation

Artefakt der partiellen Eigenkorrelation ist umso größer

a) je kürzer die Skala (anteiliges Gewicht des Items steigt)

b) je heterogener die Skala (Items korrelieren im Mittel geringer untereinander bei heterogener Skala → Trennschärfe und Reliabilität bedingen sich zT gegenseitig)

Je homogener eine Skala, desto weniger ändert sich die Trennschärfe durch die Part-Whole-Korrektur.

Ratingskalen

Trennschärfe entspricht der Produkt-Moment-Korrelation nach Part-Whole-Korrektur

Dichotomen Items Trennschärfe entspricht der punktibiserialen Korrelation nach Part-Whole-Korrektur (wird in SPSS automatisch berechnet)

Verzerrungen der Trennschärfe sind möglich durch - Erweiterung der Varianz (Ausreißer, bimodale Verteilungen) - Einschränkung der Varianz (Schiefe, extreme Schwierigkeiten)

Überprüfbarkeit - statististisch (Schwierigekitsnalayse) - visuell (Inspektion Histogramme)

Folgen von Verzerrungen - Ratinskala → robust gegen Ausreißer - bimodale Verteilungen → erhebliche Varianzerweiterungen -Schiefe Verteilungen → häufig Varianzeinschränkungen

Alternatives Verfahren zur Korrektur der Ternnschärfe von Items mit extremen Schwierigkeiten von Moosbrugger & Zistler (1993): - Aufwertung der Trennschärfe dichotomer Items durch die Berechnung eines sog.

Selektionskenntwertes →Stellt eine Art Korrektur der Trennschärfe um VArainzeinschränkung dar)

Selektion von Items, bei der solche Items mit extremen Schwierigkeiten weniger stark benachteiligt werden als bei Anwendung der unkorrigierten Trennschärfe

Trennschärfe ist eine Korrelation zwischen einem Item und einer Skala und liegt immer zwischen -1 und +1.

Page 4: 3. KTT und PTT - · PDF file© Sandra Fuchs 3421, 6a, Kap. 3 Sose 2016 1 3. KTT und PTT KTT allgemein Axiome & Annahmen der KTT Kritik an der KTT - gegenwärtig die Grundlage der

© Sandra Fuchs 3421, 6a, Kap. 3 Sose 2016

4

Trennschärfeanalyse in SPSS Berechnung von Fremdtrennschärfen Selektion von Items aufgrund der Itemanalyse

ANALYSIEREN → SKALIERUNG → RELIABILITÄTSANALYSE

ANALYSIEREN → KORRELATION → BIVARIAT Korrelation von ob35i mit den Skalen Extraversion Verträglichkeit, Gewissenhaftigkeit und Neurotizismus → Item ob35i korreliert auch mit drei dieser Skalen (Extraversion (.215),, Gewissenhaftigkeit (.135), und Neurotizismus (-.159)), aber in → keinem Fall höher als mit der eigenen Skala (.221)

→ aber in ähnlicher Höhe im Falle von Extraversion (.215)

vor Selektion aber noch faktorenanalytisch untersuchen!

- Indikatoren Itemschwierigkeit und Trennschärfe, ggf. auch Varianz und andere deskriptive Statistiken sowie die Korrelationen mit Außenkriterien simulzan betrachten und gegen inhaltliche Gesichtspunkte abwägen - korrelative Kennwerte (Trennschärfe und bei inhaltl. Begrüdnung mit Außenkriterien) bedeutsamer als univariate Indizes - die Beibehaltung von extrem schwierigen Items lässt sich nur (und nur dann!) rechtfertigen, wenn gleichzeitig angemessen hohe Trennschärfen (umgekehrt kann unzureichende Trennschärfe eine mittlere Schwierigkeit keinesfalls kompensieren).

Ausnahme: Bei strikt external konstruierte Skalen ist Korrelation mit Zielkriterium inkl. der Unterscheidung von Gruppen der alles überragende Faktor zur Beurteilung einzelner Items

Aber: - stichprobenabhängig - gerade bei längeren Skalen ist Einfluss einzelner Items auf Reliabilität oft minimal

Selektion von Items ist im Rahmen der KTT ein nicht automatisierbarer Prozess des Abwägens und Begründens

Items in die Itemliste verschieben (bei mehrdimensionalen Inventaren die Items für jede Dimension einzeln verschieben!)

STATISTIKEN → SKALA WENN ITEM GELÖSCHT

Mittelwert und Korrelationen liefern Infos zur mittleren Schwierigkeit der Items, deren Bandbreite & der mittleren Interkorrelationen der Items untereinander (→ interpretierbar als Indikator für Itemhomogenität)

Itemschwierigkeit Trennschärfe

Reliabilität

Behalte Items bei, solange sie positiv zur Erhöhung der Reliabilität beitragen!

Page 5: 3. KTT und PTT - · PDF file© Sandra Fuchs 3421, 6a, Kap. 3 Sose 2016 1 3. KTT und PTT KTT allgemein Axiome & Annahmen der KTT Kritik an der KTT - gegenwärtig die Grundlage der

© Sandra Fuchs 3421, 6a, Kap. 3 Sose 2016

5

PTT Rasch-Modell Wird Modell durch Modelltest nicht abgelehnt … - überwindet einige Schwächen der KTT

- erheblich größerer mathematischer Komplexität

- Das Rasch-Modell ist ein Modell aus der Familie der PTT: praktische Bedeutung

- es geht in der PTT darum, wie Antworten auf Items zustande kommen

- es geht in der PTT um den Zusammenhang zwischen der Fähigkeit (oder Eigenschaft) einer Person und der Wahrscheinlichkeit, mit der diese Person eine Aufgabe löst bzw. einer Aussage zustimmt, welche die besagte Fähigkeit messen soll

- die Erfüllung der mathematischen Annahmen wird durch Modelltests geprüft

- die PTT untersucht Antwortmuster (nicht Rohvarianzen/Kovarianzen), die einem bestimmten Modell folgen müssen

- in der PTT heißt „erschöpfende“ Statistik“, dass der Summenwert einer Person alle Informationen über die Fähigkeitsausprägung dieser Person liefert

- Die Lösungswahrscheinlichkeit für ein bestimmtes Item hängt ab von Personparamter (Fähigkeit/Eigenschaftsausprägung der Person) und Itemparamter (Schwierigkeit eines Items)

- Person- und Itemparameter werden empirisch geschätzt

- Beziehung zwischen Item- und Personparameter ist probabilistisch, d.h. auch eine Person mit geringer Fähigkeitsausprägung im Vergleich zur Itemschwierigkeit hat eine gewisse Wahrscheinlichkeit ein solches Item zu lösen

- Das Rasch-Modell sagt voraus, dass mit steigender Personenfähigkeit die Wahrscheinlichkeit einer Itemlösung zunimmt (einer bestimmbaren mathematischen Funktion folgende)

Falsch: Die Personparamter besitzen Intervallskalenniveau

1. erschöpfende Statistik

- Summenwert der Itemantworten sagt wirklich etwas über den Ausprägungsgrad einer Person auf der latenten Variable (Fähigkeit) aus - Summenwert einer Person liefert alle Informationen über die Fähigkeitsausprägung der Person - Antwortmuster muss nicht mehr Item für Item betrachtet werden Erschöpfende Statistik der Personfähigkeit

2. Itemhomogenität

Ein Item ist dann ein guter Indikator für eine latente Variable, wenn die Leistung in diesem Item komplett auf die Fähigkeitsausprägung auf der latenten Variable zurückzuführen ist und nicht auf andere Fähigkeiten Wünschenswerte Annahme für die Testkonstruktion

3. lokale stochastische Unabhängigkeit

- Formalisierung der Itemhomogenität - man darf die Lösungswahrscheinlichkeiten der Items für alle Personen multiplizieren

Rasch-Modell impliziert eine echte Messtheorie in der Psychologie

Page 6: 3. KTT und PTT - · PDF file© Sandra Fuchs 3421, 6a, Kap. 3 Sose 2016 1 3. KTT und PTT KTT allgemein Axiome & Annahmen der KTT Kritik an der KTT - gegenwärtig die Grundlage der

© Sandra Fuchs 3421, 6a, Kap. 3 Sose 2016

6

3.2 Überblick über die PTT

PTT Grundlagen des Rasch-Modells (1-Parameter-Modell)

In der PTT geht es (im Gegensatz zur KTT) darum, WIE Antworten auf Items zustande kommen. → Antwortmuster werden untersucht → Es geht um den Zusammenhang zwischen der Fähigkeit/Eigenschaft einer Person und der Wahrscheinlichkeit, mit der diese Person eine Aufgabe löst bzw. einer Aussage zustimmt, welche besagte Fähigkeit/Eigenschaft messen soll

Das Rasch-Modell gilt als das wichtigste Modell der PTT → Von praktischer Bedeutung

Rasch-Modell ist aber nur ein Modell aus der Familie der PTT Terminologie (wie bei KTT) aus der Intelligenzmessung abgeleitet

- Das Rasch-Modell sagt voraus, dass mit steigender Personenfähigkeit die Wahrscheinlichkeit einer Itemlösung zunimmt Lösungswkt eines Items hängt ab von 1. Fähigkeit/Eigenschaftsausprägung (Personparameter) 2. Schwierigkeit des Items (Itemparameter) - im Rahmen der PTT können verschiedene Modelltest durchgeführt werden. Wird das Rasch-Modell durch einen Modelltest nicht abgelehnt, dann trifft eine Reihe von Annahmen zu: - Die Lösungswahrscheinlichkeit wird durch eine logistische Funktion (ICC) beschrieben - Summenwerte sind suffiziente oder erschöpfende Statistiken der Personfähigkeit - Vergleiche zwischen Items und Personen sind spezifisch objektiv - Items sind (Abgesehen von wenigen Ausnahmen) eindimensional, d.h. die Forderung der lokalen stochastischen Unabhängigkeit ist erfüllt - dichotomes Rasch-Modell: alle Items besitzen die gleiche Trennschärfe → Voraussetzung für erschöpfende Statistiken - ordinales Raschmodell: geordnete Antwortschwellen (Nicht gleiche Itemtrennschärfen) notwendige Voraussetzung

Erschöpfende Statistik - wird das Rasch-Modell durch den Modelltest nicht abgelehnt, sagt der ungewichtete Summenwert der Itemantworten auch wirklich etwas übe den Ausprägungsgrad einer Person auf der latenten Variable aus - der Summenwert einer Person liefert alle Informationen über die Fähigkeitsausprägung einer Person - Antwortmuster muss nicht mehr Item für Item betrachtet werden - aber: nur wenn alle Items gleich viel wert sind, ist das Zählen/einfach Verrechnen der Itemantworten erlaubt

Eindimensionalität - Antwort auf das Item kann komplett auf eine einzige Fähigkeits- oder Eigenschaftsausprägung zurückgeführt werden und nicht auf mehrere - wenn das Rasch-Modell durch Modelltest nicht verworfen wird, ist der Test eindimensional - formal ist Eindimensionalität gegeben, wenn die Korrelation zwischen den Testitems nach Auspartilisierung der latenten Eigenschaft verschwindet (lokale Unabhängigkeit) - lokale stochastische Unabhängigkeit heißt, die Lösungswkt zweier beliebiger Items dürfen multipliziert werden, um die kombinierte Lösungswahrscheinlichkeit zu erhalten

Spezifische Objektivität - unter Geltung des Raschmodells sind Vergleiche zwischen Personen spezifisch objektiv, d.h. 1. invarianz über alle Items bei Personenvergleichen 2. Invarianz über spezifische Personen bei Vergleichen zwischen Items

Modellparameter Itemparameter Sigma Personparamter Theta

Schätzung der Modellparameter Um die Personfähigkeit festzustellen, benötigt man zunächst die Itemparameter → Schätzung mit Hilfe der cML

Einheit der Modellparameter Logit-Einheit →Abstrakte Einheit für Intervallskalierung - Logit-Transformation ist die Transformation der Rohwerte in die Logit-Einheit - nichtlineare Transformation - sichert Differenzskalenniveau - lässt im Gegensatz zu Ordinalskalierung die Interpretation von Differenzen zwischen Fähigkeits- oder Eigenschaftsausprägungen zu - gleiche Einheit und subtraktive Verknüpfung ermöglichen kriteriumsorientierte Interpretation der Personparamter

Wertebereich der Modellparameter Plus/minus unendlich i.d.R. zwischen +/-3 → negative Werte kennzeichne leichte Items →positive Werte kennzeichnen schwere Items

Verknüpfung der Modellparameter Kennt man Item- und Personparamter kann man die Lösungswkt für ein Item direkt berechnen - Parameter sind additiv (subtraktiv) verknüpft - ICC

Rückgriff auf Normstichprobe zur Interpretation eines Personparameters nicht unbedingt erforderlich

ICC Idee des Rasch-Modells ist, dass die Lösung eines Items immer wahrscheinlicher wird, je weiter die Personfähigkeit die Itemschwierigkeit übersteigt

Vorhersage der Itemlösungswahrscheinlichkeit Es ist möglich, aufgrund des Person- und Itemparamters die Wkt zu bestimmen, mit der eine Person ein Item löst

Modelltests und Stichprobenunabhängigkeit - ob das Rasch-Modell durch die Daten abgelehn werden muss, wird durch Modelltests festgestellt → grafische Modelltests: Streudiagramm - Schätzung der Itemparameter sollte unabhängig von Teilstichprobe sein - Nachteil: grafischer Modelltest ist kein Signifikanztest

Signifikanztests und Modellvergleiche - Anderson Likelihood-Quotienten-Test - Person-Chiquadrat-Test - Bootstrap-Methode

- auch die Möglichkeit, die Passung verschiedener konkurrierender Modell relativ zueinander testen

Page 7: 3. KTT und PTT - · PDF file© Sandra Fuchs 3421, 6a, Kap. 3 Sose 2016 1 3. KTT und PTT KTT allgemein Axiome & Annahmen der KTT Kritik an der KTT - gegenwärtig die Grundlage der

© Sandra Fuchs 3421, 6a, Kap. 3 Sose 2016

7

3.2.2 Weitere probabilistische Testmodelle 2-Parameter-Modell (Birnbaum-Modell)

3-Parameter-Modell Ordinales Raschmodell Mixed-Rasch-Modelle

Trennschärfe als zusätzliche Einflussgröße der Itemlösung

- Trennschärfe isst anders formalisiert als in der KTT: In der PTT wird die Trennschärfe durch die Steigung der ICC widergespiegelt - Je höher die Trennschärfe, desto steiler die ICC

- im 2-Paramter-Modell unterscheiden sich die Trennschärfen einzelner Items

Unterschiedliche Trennschärfen kritisch - es kann passieren, dass ein schweres Item trotz geringerer Personfähigkeit gelöst wird im Ggs. Zu Person mit hoher Personfähigkeit (Umkehrung der Lösungswahrscheinlichkeiten) - die unterschiedlichen Trennschärfen müssen zusätzlich geschätzt werden - ungewichtete Summenbildung nicht mehr zulässig

Berücksichtigt zusätzlich die Ratewahrscheinlichkeit d.h. eine Person besitzt eine gewisse Lösungswahrscheinlichkeit, ein Item trotz mangelnder Personfähigkeit zu lösen Umgekehrt besitzt ein „fähige“ Person immer auch eine gewisse Irrtumswahrscheinlichkeit

- Beschaffenheit der Distraktoren dient zur Kontrolle der Ratewahrscheinlichkeit - Distraktoren so gestalten, dass schwierig genug - Anzahl der Distraktoren erhöhen

- beschäftigt sich mit Items, die über mehr als 2 geordnete Antwortkategorien verfügen Schwellenkonzept - welche Kategorie eine Person wählt, hängt ab von Person- und Itemparameter - Treshold entsprechen dem WP der logistischen Funktion ICC sowie zugleich dem Itemparameter (bei 2 Antwortkategorien) - das Schwellenkonzept lässt sich auch auf mehr als zwei geordnete Antwortkategorien übertragen: CCC

Vorhersage der Itemlösungswkt erfolgt durch das Partial-Credit-Modell

Voraussetzung: Antwortschwellen dürfen sich nicht überschneiden

Quantifizieren und klassifizieren zugleich Das Mixed-Rasch-Modell sucht nach Personengruppen, die sich in ihrem Antwortmuster maximal unterscheiden; Innerhalb einer jeden klasse gilt aber das Rasch-Modell MRM sind für die Testkonstruktion sehr nützlich, das sie Verletzungen von der Annahme der Eindimensionalität für jedes Item anzeigen können. (Items können entfernt werden)

Page 8: 3. KTT und PTT - · PDF file© Sandra Fuchs 3421, 6a, Kap. 3 Sose 2016 1 3. KTT und PTT KTT allgemein Axiome & Annahmen der KTT Kritik an der KTT - gegenwärtig die Grundlage der

© Sandra Fuchs 3421, 6a, Kap. 3 Sose 2016

8

Unterschiede KTT und PTT Gemeinsamkeiten KTT und PTT

- Im Rahmen der PTT kann ein Modelltests durchgeführt werden, der die Erfüllung der Voraussetzungen prüft

- PTT prüft Zulässigkeit der Summation und somit indirekt das Skalenniveau

- PTT untersucht Antwortmuster und beschäftigt sich damit, wie Antworten auf Items zustande kommen

- PTT beschäftigt sich mit dem Zusammenhang zwischen Fähigkeit einer Person und Wahrscheinlichkeit, eine Aufgabe zu lösen

- probabilistischer Zusammenhang zwischen Personfähigkeit und Itemlösewahrscheinlichkeit

- In der KTT werden Rohwertvarianzen und Kovarianzen untersucht

- Schwierigkeiten in der KTT sind: Bias werden dem wahren Wert zugerechnet, die Annahme unkorrelierter Fehlerwerte wird nicht empirisch geprüft, die Vorstellung dass sich wahre Werte über mehrere Messungen hinweg nicht verändern ist nur für kurze Zeiträume und bestimmte Merkmalsbereiche haltbar, Kennwerte sind stichprobenabhängig

- Im Unterscheid zur KTT wird in der PTT die Erfüllung der mathematischen Annahmen durch Modelltests regelmäßig geprüft (falsch: geprüft, wie wahrscheinlich die Lösung einer Aufgabe in der Population im Mittel ist, die inhaltliche Übereinstimmung zwischen Konstrukt und Messwert geprüft, die Rohwertvarianzen und Kovarianzen untersucht, der Messwert als Ausprägung der individuellen Fähigkeit geprüft

- Die KTT war die erste Theorie, die zur Testkonstruktion herangezogen wurde, nach Rost basieren 95% der Tests auf KTT, wird auch als Theorie der Reliabilität bezeichnet (falsch: überwindet einige Schwächen der PTT, als Theorie der Objektivität/Validität bezeichnet)

- Systematische Fehler werden in der KTT indirekt der wahren Varianz zugeschlagen (falsch: indirekte Fehlerkomponente, indirekt Fehlerkomponente UND wahre Varianz, mit Fehlerkomponente gleichgesetzt, mit der beobachteten Varianz gleichgesetzt)

- die Terminologie ist aus der Intelligenzdiagnostik abgleitet

- sowohl in KTT als auch in PTT müssen Items validiert werden

- Ermittlung von Itemschwierigkeiten

Falsch: - Annahmen über das Zustandekommen (WIE) der Antworten - identischer Ablauf der Itemanalyse - ungeprüfte Voraussetzung des Skalenniveaus eines aggregierten testwertes - Untersuchung Rohwertvarianzen - Eindimensionalität wird ungeprüft vorausgesetzt

- Sowohl in der KTT als auch in der PTT müssen die Items validiert werden (Falsch: Annahmen über das Zustandekommen von Antworten, identischer Ablauf einer Itemanalyse, ungeprüfte Voraussetzung der Eindimensionalität, ungeprüfte Voraussetzung des Skalenniveaus eines aggregierten Testwerts (Summenwert)

- Sowohl in der KTT als auch in der PTT wird die Schwierigkeit eines Items ermittelt (falsch: Untersuchung Rohwertvarianzen)

Page 9: 3. KTT und PTT - · PDF file© Sandra Fuchs 3421, 6a, Kap. 3 Sose 2016 1 3. KTT und PTT KTT allgemein Axiome & Annahmen der KTT Kritik an der KTT - gegenwärtig die Grundlage der

© Sandra Fuchs 3421, 6a, Kap. 3 Sose 2016

9

Konstruktionsschritte (Vergleich)

KTT PTT Ausgangspunkt: Gesamttest Ausgangspunkt: einzelne Items

Testentwurf & Itemkonstruktion Itementwicklung

Aufgbenanalyse - Schwierigkeit Trennschärfe - erste Schätzung Reliabilität und Validität

Logit-Transformation Separate Schätzung von Item- und Personparameter

Selektion & Revision Items Modelltest (Grafisch)

Erneute emprische Prüfung (Reliabilität, Validität)

Eliminierung von Items, die die strengen Modellannahmen nicht erfüllen

Testeichung (Normung) Zusammenstellung des Gesamttests

Vorteile der PTT Einwände gegen die PTT

- empirische Überprüfung der Modellannahmen - Stichprobenunabhängigekit der Parameter - INtervallskalennievau liegt gesichtert bir - weiterte Vorzüge, z.B. adaptives Testen

- sehr komplex - hoher Konstruktionsaufwand - praktisch haben sich auch Tests nach KTT bewährt - enge Merkmalsbereiche - seltene Anwendund

Bottom-Up Top-Down