Standard-Setting Mathematik 8. Schulstufe - BIFIE · dik des Standard-Settings verwendet, was im weiteren Sinne einen komplexen Entscheidungsprozess beschreibt der m oglichst standardisiert

Standard-Setting Mathematik8. Schulstufe

Technischer Bericht(Autor: Roman Freunberger)

BIFIE SalzburgZentrum fur Bildungsmonitoring & Bildungsstandards

Alpenstraße 121 / 5020 SalzburgTelefon +43-662-620088-3000 / Fax DW-3900

[email protected] / www.bifie.atJanner 2013

Inhaltsverzeichnis

1 Das Kompetenzstufenmodell 2

2 Phase III: Das Standard-Setting fur Mathematik auf der 8. Schulstufe 22.1 Die Expertengruppe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32.2 Das Ordered-Item-Booklet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32.3 Item-Descriptor-Matching-Methode (IDM) . . . . . . . . . . . . . . . . . . . . . . . 52.4 Training und Vorbereitung auf den Beurteilungsprozess . . . . . . . . . . . . . . . . 62.5 Runde 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2.5.1 Aufgabe und Instruktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62.5.2 Auswertung der Ratingdaten . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2.6 Runde 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.6.1 Aufgabe und Instruktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.6.2 Bestimmung der Cut-Scores . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.7 Prasentieren der Konsequenzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92.8 Runde 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102.9 Setzung der Schwelle zu Unter Level 1 . . . . . . . . . . . . . . . . . . . . . . . . . 10

3 Validitat und Post-Standard-Setting 113.1 Prozessevaluation und Evaluation der Cut-Score-Urteile . . . . . . . . . . . . . . . . 113.2 Endgultige M8-Cut-Score-Werte und Standardfehler . . . . . . . . . . . . . . . . . . 123.3 Rating-Verhalten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123.4 Interrater-Reliabilitat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

4 Phase IIb und Phase IIIb 15

Literatur 16

5 Appendix 18

Standard-Setting Mathematik 8 1

Bundesergebnisbericht, Standardüberprüfung 2012 – M8 17

1.3.3 Hinweise zur Interpretation der Ergebnisse

Kom

pete

nzstu

fen

in d

er k

riter

iale

n Rü

ckm

eldu

ng

Ein wesentliches Ziel der Standardüberprüfung ist es festzustellen, inwieweit die Schüler/innen die Bildungsstandards erreicht haben (vgl. BGBl. II Nr. 1/2009). Dieser Erreichungsgrad wird durch Kom-petenzstufen beschrieben, deren inhaltliche und methodische Festlegung durch ein Expertengremium aus Fachdidaktik und Methodik erfolgte.4 In Abbildung 4 sind die Bezeichnungen, inhaltlichen Be-schreibungen und Punktbereiche der einzelnen Kompetenzstufen nachzulesen. Die Rückmeldung an-hand der vorher definierten Kompetenzstufen wird auch als „kriteriale Rückmeldung“ bezeichnet und ergänzt die Rückmeldung nach erzielten Testpunkten.

500

350

400

450

300

250

200

550

600

Kom

pete

nzen

nied

riger

höhe

r

650

700

750

800

Mathematik 8. SchulstufeBeschreibung der KompetenzstufenBIST-Ü M8 (2012)

3

2

1

unter 1

Kompetenzstufen Mathematik

Bildungsstandards teilweise erreicht Punktbereich: 440 bis 517

Die Schüler/innen verfügen über grundlegende Kenntnisse und Fertigkeiten in allen Teilbereichen des Lehrplans Mathematik und können damit reproduktive Anforderungen bewältigen und Routineverfahren durchführen.

Bildungsstandards übertroffen Punktbereich: ab 691

Die Schüler/innen verfügen über grundlegende Kenntnisse und Fertigkeiten in allen Teilbereichen des Lehrplans Mathematik und über erweiterte Wissensstrukturen, welche über die Anforderungen der Stufe 2 hinausgehen, insbesondere über stärker ausgeprägtes Abstraktionsvermögen und höhere Kombinationsfähigkeit. Sie können diese eigenständig in neuartigen Situationen flexibel einsetzen.

Bildungsstandards erreicht Punktbereich: 518 bis 690

Die Schüler/innen verfügen über grundlegende Kenntnisse und Fertigkeiten in allen Teilbereichen des Lehrplans Mathematik und können diese flexibel nutzen. Sie können geeignete Lösungsstrategien finden und umsetzen, gewählte Lösungswege beschreiben und begründen. Sie können mit verbalen, grafischen und formalen Darstellungen mathematischer Sachverhalte flexibel umgehen und diese angemessen verwenden. Sie können relevante Informationen aus unterschiedlich dargestellten Sachverhalten (z. B. Texte, Datenmaterial, grafische Darstellungen) entnehmen und sie im jeweiligen Kontext deuten. Sie können ihre mathematischen Kenntnisse miteinander in Verbindung setzen sowie mathematische Aussagen kritisch prüfen, bewerten und/oder begründen.

Punktskala

Bildungsstandards nicht erreicht Punktbereich: bis 439

Abbildung 4: Kompetenzstufen in Mathematik auf der 8. Schulstufe

4 Das Gremium bestand aus Expertinnen und Experten aus Schulpraxis, Fachdidaktik, Pädagogik und Psychologie sowie den Interessenvertretungen (Eltern, Wirtschafts- und Arbeiterkammer), Abnehmerinstitutionen und dem BMUKK.

Abbildung 1: Kompetenzstufenmodell Mathematik 8.

1 Das Kompetenzstufenmodell

Im Rahmen der Bildungsstandarduberprufung, beginnend mit 2012 in Osterreich, wurde fur Mathe-matik 8. Schulstufe ein Standard-Setting durchgefuhrt, das insgesamt 3 Phasen umfasst hat. PhaseIII beschreibt das eigentliche Standard-Setting und wird im Weiteren naher erlautert. In Phase I undPhase II wurde durch Fachexperten ein Kompetenzstufenmodell entwickelt das 4 Stufen umfasst undin Abbildung 1 dargestellt ist.

2 Phase III: Das Standard-Setting fur Mathematik auf der 8. Schul-stufe

Ziel der Phase III war es Schwellenwerte auf der kontinuierlichen Kompetenzskala zu definieren, welchees erlauben, die Schuler und Schulerinnen den einzelnen Stufen zuzuordnen. Hierzu wurde die Metho-dik des Standard-Settings verwendet, was im weiteren Sinne einen komplexen Entscheidungsprozessbeschreibt der moglichst standardisiert durchgefuhrt werden sollte, um valide Schwellenwertsetzun-gen zu ermoglichen.

Der eigentliche Standard-Setting-Prozess mit einer Expert/innen-Gruppe soll in der Domane Mathe-matik 8. Schulstufe drei Schwellenwerte (Cut-Scores) hervorbringen. Daraus ergibt sich — neben


Abbildung 2: Zusammensetzung der Expertengruppe fur das Standard-Setting.

den drei definierten Stufen — noch die Stufe Unter Level 1. Die Cut-Scores sollen, unter Verwen-dung einer modifizierten Item-Descriptor-Matching-Methode (Ferrara, Perie & Johnson, 2002; Cizek,1996; Cizek & Bunch, 2007), mit Ordered-Item-Booklets von einer Expert/innen-Gruppe erarbeitetwerden. Zusatzlich wird zur Bestimmung des Cut-Scores zu Unter Level 1 eine modifizierte Form derDirect-Consensus-Methode verwendet. Der Workshop zum Standard-Setting fand von 12. 10. – 14.10. 2011 am BIFIE Salzburg statt.

2.1 Die Expertengruppe

Die insgesamt 23 Teilnehmer/innen setzten sich aus unterschiedlichen Teilgruppen zusammen, dieein bestimmtes Spektrum reprasentierten (Abb. 2). Die direkte Auswahl geschah durch das BIFIEin Zusammenarbeit mit den verschiedenen Institutionen und Behorden. Unter den Teilnehmer/innenbefanden sich Vertreter der Fachdidaktik (30,43%), der Elternvertretungen (13,04%), verschiedenerAbnehmergruppen wie zum Beispiel Berufschulen (17,39%), des Ministeriums (8,70%), praktizieren-de Lehrer/innen fur M4 und M8 (13,04%), des Schulrats (8,70%) und der Psychometrie (8,70%).An Tag drei des Workshops mussten 3 Personen aus beruflichen Grunden bzw. krankheitsbedingtausscheiden. Fur Runde 3 des Standard-Settings reduzierte sich die Gruppe somit auf 20 Personen.

Laut Einfuhrungsfragebogen waren zum Zeitpunkt des Standard-Settings 95% der Experten/innenmit Schulerleistungsstudien vertraut, 62% waren mit der Konstruktion von Testaufgaben in Kompetenz-messungen vertraut, 76% waren mit den Kompetenzstufen der Bildungsstandards in Osterreich furMathematik 8 vertraut, 67% mit dem Setzen von Standards im Bildungswesen.

2.2 Das Ordered-Item-Booklet

Das gereihte Aufgabenheft (Ordered-Item-Booklet, OIB) wurde ursprunglich durch die Bookmark-Methode eingefuhrt (Karantonis & Sireci, 2006; Mitzel, Lewis, Green & Patz, 1999). Bei der Bookmark-Methode werden die Items nach den ermittelten Schwierigkeiten aufsteigend, von leicht bis schwie-rig, geordnet. Die Itemschwierigkeiten werden durch psychometrische Verfahren der Item-Response-Theorie (IRT) aus den vorhandenen Daten geschatzt. Pro Seite wird ein Item mit der dazugehorigenSchwierigkeit dargestellt. Die Teilnehmer/innen setzen nun unter Berucksichtigung der Schwierig-keiten ein Lesezeichen (Bookmark) an der jeweiligen Stelle, an der sie die Cut-Scores zwischen denunterschiedlichen Kompetenzstufen vermuten.

Die Frage, die an die Teilnehmer/innen gestellt wird, lautet (cf., Cizek & Bunch, 2007): ”Ist es


wahrscheinlich dass ein/e minimalqualifizierte/r Schuler/in bzw. eine Testperson an derGrenze zwischen den Kategorien X und Y dieses Item richtig beantworten wird?” Der Term”wahrscheinlich” wird meist mit einer 2/3- oder 67%-Wahrscheinlichkeit festgelegt (Response Pro-bability, RP = .67), das Item zu losen (50% bei Wang, 2003). Der/die Teilnehmer/in erhalt somitdie Aufgabe jedes Item zu begutachten und sich die Frage zu stellen, ob ein/e minimalqualifizierte/rSchuler/in in 2 von 3 Fallen die Aufgabe richtig beantworten wurde. Kommt der/die Teilnehmer/inzu einem Item, bei dem die Wahrscheinlichkeit unter 2/3 fallen wurde, setzt er/sie dort eine Marke.Alle Items bis zu dieser Bookmark konnten demnach minimalqualifizierte Testpersonen (mit einer2/3-Wahrscheinlichkeit) losen. Hier bleibt zu entscheiden, welche Response Probability man festlegt,da diese Auswirkungen auf die Cut-Scores hat (Wyse, 2011).

Neben der oft schweren Verstandlichkeit des Konzepts der RP, weisenKarantonis und Sireci (2006)auf einige zusatzliche Schwierigkeiten in der Anwendung der Bookmark-Methode hin:

• Im OIB kann eine Item-Disordinalitat auftreten, die den Entscheidungsprozess erheblich er-schweren kann.

• Es konnte gezeigt werden, dass die Bookmark-Methode Cut-Scores meist etwas unterschatzt(negativer Bias) und zwar im Vergleich zu anderen Methoden und zu simulierten Daten.

• Generell scheinen Panelisten die Anforderungen in der Bookmark-Methode zu verstehen, dasAusmaß der kognitiven Komplexitat und inwiefern die Urteile tatsachlich valide sind, ist aller-dings unklar.

• Eine weitere Frage ist, ob der Mittelwert oder Median fur die Cut-Score-Berechnung verwen-det werden sollte. Der Median ist zwar unabhangig von Ausreißern, allerdings konnten solcheExtremmeinungen auch eine wichtige Bedeutung haben.

Fur das Standard-Setting in M8 wurde daher die Item-Descriptor-Matching-Methode (s. unten) be-vorzugt. Diese verwendet ebenfalls ein OIB und das Konzept der RP ist fur die Reihung der Itemsnotwendig, geht allerdings nicht in den Entscheidungsprozess ein. Die Itemschwierigkeiten wurden furM8 durch das Rasch-Modell (Rasch, 1960) ermittelt, wobei die Losungswahrscheinlichkeit auf 62,5%gesetzt wurde. Fur das bessere allgemeine Verstandnis wurde der Mittelwert der Item- und Personen-parameterverteilung fur das Standard-Setting auf 500 gesetzt. Dieser ist aufgrund von internationalenSchulerleistungsstudien vertraut. Fur die Konsequenzdaten wurde eine gemeinsame Verteilung ausder Pilotierungsstudie (N = 2530) sowie aus der Baselinestudie (N = 10082) gebildet, diese Vertei-lung hat einen gewichteten Mittelwert von 516,94. Um einen Mittelwert von 500 zu erhalten wurdedie sich ergebende Differenz von 16,96 von den Item- und Personenparametern subtrahiert. Alle be-richteten Ergebnisse und Analysen beziehen sich auf Daten dieser korrigierten Verteilung mit einemMittelwert von 500. Zur endgultigen Festlegung der Cut-Scores muss diese Differenz allerdings wiederaufaddiert werden. An den Konsequenzdaten andert dies dabei nichts.

Aus dem gesamten Itempool wurden durch ein internes Review 80 Items ausgewahlt, die das gesamteSchwierigkeitsspektrum bestmoglich reprasentierten (aus Zeitgrunden konnen nicht alle verfugbarenItems in den Standard-Setting-Prozess einbezogen werden). Die Items wurden sortiert nach Schwie-rigkeit (von leicht bis schwierig) in das Ordered-Item-Booklet gegeben, wobei pro Seite nur ein Itemgelistet wurde. Jede Seite enthielt den Itemtext (Itemstamm) und dazugehorige Abbildungen sowieden Antwort-Schlussel, den Itemnamen und die Seitennummer. Zusatzlich zum OIB erhielten die Teil-nehmerinnen ein Ratingsheet (auch als Item-Map bezeichnet) der die Itemnamen mit dazugehorigerOIB-Seitennummer, ein Feld fur Notizen sowie drei Kastchen zum Ankreuzen der unterschiedlichenLevels enthielt. Der Ratingbogen wurde nach jeder Runde eingescannt und anschließend die Datenaufbereitet. Die daraus gewonnenen Daten dienten wiederum als Grundlage fur die Diskussionen imPlenum. Insgesamt wurden drei Ratingrunden durchgefuhrt, die im Nachfolgenden erlautert werden.


2.3 Item-Descriptor-Matching-Methode (IDM)

Die IDM-Methode wurde aus der Motivation heraus entwickelt, eine bessere Verlinkung zwischen denPLDs (Performance Level Descriptors = Kompetenzstufenbeschreibungen) und den Cut-Scores zugewahrleisten, was wiederum die Validitat der Ergebnisse erhoht (Cizek & Bunch, 2007). Die Metho-de verwendet ebenfalls ein Ordered-Item-Booklet und die einzelnen Testitems werden den einzelnenPLDs zugeordnet (Ferrara et al., 2002).

Die Frage, die an das Experten-Panel gestellt wird, ist: ”Welcher PLD reprasentiert am besten dieAnforderungen des Items?” Oder genauer: ”Welcher PLD druckt am besten das Wissen, die ver-langte Fahigkeit und kognitiven Prozesse aus, die zur Beantwortung des bestimmten Itemsgefordert sind?”Die Teilnehmer ordnen danach jedes Item einem bestimmten PLD zu und vermerkendies auf dem Antwortbogen. Der Schwellenwert, der zwei Kompetenzstufen voneinander trennt, wirddort gesetzt, wo der/die Teilnehmer/in kontinuierlich und systematisch von einem Level ins nachstewechselt. Dies spricht fur eine sehr flexible Methode, die nicht von einer strengen Sequenzierung(wie bei der Bookmark-Methode) ausgeht und auch etwas Rauschen zulasst. Da die Schwierigkeitender Items meist durch Schatzungen basierend auf der IRT erfolgen, kann nicht davon ausgegangenwerden, dass die Item-Positionen im Booklet unveranderlich sind, sondern auch einem Schatzfehlerunterliegen, eine erlaubte Flexibilitat entspricht also einem naturlicheren Matching-Prozess (Cizek &Bunch, 2007; Ferrara et al., 2002). In Regionen alternierender Item-PLD-Matches wird der Threshold-Bereich festgelegt (Ferrara et al., 2002). Da es auch in den PLDs keine absolut festsetzbaren Grenzengibt, sondern auch hier die Ubergange eines PLDs zum nachsten fließend sind, wird dieser Bereichals optimal zur Schwellenwertbestimmung angesehen.

Die IDM verwendet eine Start/Stopp-Regel (die laut Autoren ahnlich wie bei IQ und Diagnosetestdefiniert ist) zur Festlegung der Grenzbereiche. Mindestens drei aufeinanderfolgende gleiche Klas-sifizierungen mussen vorliegen, um den Anfang und das Ende eines Grenzbereichs zu definieren. Indiesem Bereich wird der Cut-Score ermittelt. Dies kann ahnlich wie bei einer Bookmark-Methodegeschehen, indem man die Teilnehmer/innen nochmals entscheiden lasst, wo genau sich in dieserRegion der exakte Ubergang zwischen den Kompetenzstufen befindet. Genauer kann man es mit-tels Median oder Mittelwertberechnung erfassen. Im Falle der Mittelwertbestimmung werden nur dieSchwierigkeiten der jeweiligen Grenz-Items verwendet (N = 2). Es gibt auch Ansatze, in denen derSchwellenwert mittels logistischer Regression bestimmt wird (Sireci & Clauser, 2001).

Die IDM wird grundsatzlich in mehreren Runden durchgefuhrt, wobei in Runde 1 die Items den PLDszugeordnet werden, danach werden die Schwellenwert-Regionen durch die Standard-Setters ermittelt(oder auch durch Panelteilnehmer selbst) und ruckgemeldet. Diese werden dann im Plenum diskutiertoder in Subgruppen. In Runde 2 wird das Gleiche nochmals durchgefuhrt, Anderungen konnen vor-genommen werden und ein erster Cut-Score wird berechnet. In Runde 3 werden die Werte diskutiertund es werden den Teilnehmern/innen zusatzlich Informationen uber die Konsequenzen, Mittelwerte,Verteilungen usw. vermittelt. Der endgultige Cut-Score wird danach festgelegt und nochmals zurBegutachtung prasentiert. Zusatzlich konnte die IDM noch durch eine Item-Map erganzt werden, daeine solche auch Item-Untergruppen besser darstellt (Schulz, Kolen & Nicewander, 1999; Schulz, Lee& Mullen, 2005).

Die sogenannten Threshold Regions (TR) sind Bereiche in denen der Match zwischen Item-Anforderung(Wissen, Fahigkeit etc.) und die Anforderungen des Descriptors (PLDs) nicht klar sind. Dies kannmehrere Grunde haben und die Teilnehmer/innen mussen darauf sensibilisiert und trainiert werden.Grunde konnen sein:

• Item Ordering Effects (inkl. methodische Aspekte der OIB-Generierung)

• Unklarheit in Beschreibung der PLDs


• Unsicherheit der Teilnehmer/innen bzgl. Zuordnung

In der Originalmethode vermerken Teilnehmer/innen in einem Formblatt ihre jeweiligen TRs, in demsie einfach die spezifischen OIB-Seitennummern eintragen, Psychometriker konnen dann die Daten-eingabe leichter vornehmen. Die Teilnehmer/innen werden hier auch gebeten, innerhalb der TR einenCut-Score zu definieren, der ebenfalls vermerkt wird.

Der wesentliche Vorteil der Methode liegt darin, dass der kognitive Anspruch an die Teilnehmer/innengering gehalten wird (Ferrara et al., 2002). Die Items mussen lediglich den PLDs zugeordnet werden,es bedarf keiner zusatzlichen Instruktion, wie z. B. sich eine bestimmte Schulergruppe vorzustellen,die einer bestimmten Mindestanforderung entspricht. Da Personen generell Probleme haben, Urteileauf Grund von Wahrscheinlichkeitsangaben zu machen (cf., Impara & Plake, 1998; Plous, 1993)bietet diese Methode auch den Vorteil, dass Antwortwahrscheinlichkeiten zwar in die Generierung desOIB miteinfließen, fur den Entscheidungsprozess allerdings irrelevant sind (nicht so bei der Bookmark-Methode).

2.4 Training und Vorbereitung auf den Beurteilungsprozess

Die Teilnehmer/innen mussen eine umfassende Schulung erhalten, damit sie mit dem Material, derMethode und dem Ablauf vertraut sind. Es ist von enormer Wichtigkeit, dass die Aufgaben ver-standen werden. Cizek und Bunch (2007) geben einen kleinen Leitfaden, an dem der Ablauf desStandard-Settings fur M8 ausgerichtet wurde.

Am Tag 1 des Workshops wurden die Teilnehmer/innen einen Nachmittag lang geschult. Nach ei-ner ausfuhrlichen Einfuhrung in die Bildungsstandardsuberprufung sowie zum bisherigen Verlauf desStandard-Setting-Prozesses (Phase I und II) bekamen die Experten einen Ubungstest mit 11 Itemsvorgelegt. Dadurch sollte ihnen eine mogliche Testsituation vermittelt werden und ihnen auch zeit-licher Druck, der in der tatsachlichen Bearbeitung der Items miteinfließt, bewusst gemacht werden.Danach folgte eine Einfuhrung in die Standard-Setting-Methode und den Ratingprozess. Nach genaue-rer Erlauterung der Kompetenzstufenbeschreibungen folgte eine kurze Diskussion in Kleingruppen, indenen die Personen auf Unterschiede zwischen den Stufenbeschreibungen achten und Unklarheiten inden Begrifflichkeiten klaren konnten. Anschließend wurde im Plenum nochmals uber kritische Punktediskutiert und erste Ratings anhand von einigen Items in der Gesamtgruppe vorgenommen. Erst amzweiten Tag folgten Runde 1 und Runde 2.

2.5 Runde 1

2.5.1 Aufgabe und Instruktion

In Runde 1 wurden die Experten/innen aufgefordert, die Items den Kompetenzstufenbeschreibungen(= PLDs) zuzuordnen. Die genaue Instruktion lautete: ”Beantworten Sie folgende Fragen: WelcheKompetenzanforderung stellt das Item an die Schuler/innen? Welche Kompetenzstufenbe-schreibung druckt das am besten aus?” Die Teilnehmer/innen wurden aufgefordert, das OIBindividuell durchzuarbeiten und ihre Entscheidungen in den Ratingbogen einzutragen. Anschließendwurden die Bogen gescannt und ausgewertet.

2.5.2 Auswertung der Ratingdaten

Aus dem Scanprozess erhalt man eine Datenmatrix mit Panelisten × Items, mit den Werten 1, 2 und3 (Level-Ratings 1 – 3). Zur Auswertung wurde fur jedes Item separat die prozentuelle Haufigkeitder einzelnen Kategorien ermittelt und grafisch aufbereitet (siehe Abb. 3). Dieses Datenblatt dienteals Diskussionsgrundlage. Diskussionspunkte waren Items mit hoher Konvergenz bzw. Divergenz,


augenscheinliche Ubergange zwischen Levels und Abschnitte, die sich bereits als einzelne Levelsherauskristallisierten.

2.6 Runde 2

2.6.1 Aufgabe und Instruktion

Die Diskussion in Runde 1 diente dazu, die Expertengruppe in bestimmten Diskussionspunkten, die furden Entscheidungsprozess wichtig sind, zu homogenisieren. In Runde 2 arbeiteten die Experten/innenwiederum individuell das OIB durch und adjustierten ihre Item-PLD-Zuordnungen, sie vermerktenihre Urteile wiederum in einem Ratingbogen, der anschließend gescannt wurde. Als Feedback zurRunde 2 wurden den Experten/innen erneut die Ratingdaten vorgelegt, die in ahnlicher Weise wiein Runde 1 diskutiert wurden. Zusatzlich wurden hier auch noch die Cut-Scores ermittelt und denTeilnehmern/innen ruckgemeldet.

2.6.2 Bestimmung der Cut-Scores

Die Bestimmung der Cut-Scores erfolgt in mehreren Analyseschritten. Wie bereits erwahnt wurdeeine Methode verwendet, die dem Prozess der IDM (Ferrara et al., 2002) sehr ahnlich ist. DieBestimmung der Ubergangsbereiche, die in der IDM zur Bestimmung der Cut-Scores definiert sind,ist praktisch sehr schwierig umzusetzen. Bei großeren Item-Mengen konnen auch Ausreißer auftreten,die laut Original-Methode bereits den Beginn oder das Ende eines Grenzbereichs festlegen wurden.Zusatzlich ist die Verwendung der Start/Stopp-Regel kritisch zu hinterfragen. Im Standard-Settingfur M8 verwendeten wir daher eine alternative Strategie zur Auswertung des Ratingverhaltens undder damit verbundenen Cut-Score-Bestimmung. Ziel der Methode ist es Ubergange zwischen deneinzelnen Levels zu detektieren, was in drei Schritten vorgenommen wurde:

1. Als erster Schritt wird jede individuelle Ratingserie durch einen symmetrischen Moving Averagegeglattet ( order = 1, Filterfenster ergibt sich aus 2 ∗ order + 1, ungewichtet). Um in denRandbereichen keinen Datenverlust durch die Filterung zu erleiden, wurden die mittleren Ra-tingwerte dem Beginn und Ende der Serie angefugt. Abbildung 4 zeigt die Rating-Serie (series,obere Graphik) einer Person und die gefilterte Funktion dieser Serie darunter. Die individuelleRatingserie besteht aus 80 Werten (pro Item ein Wert). Die Itemnummer entspricht exakt derSeitenzahl im OIB, die Items sind nach Schwierigkeit geordnet.

2. Die geglattete Funktion jedes Panelisten steigt mit zunehmender Kategorienzahl an. Es wurden2 Schwellen definiert, die jeweils ersten Werte, die diese Schwellen uberschreiten, liefern denSeiten-Index fur den jeweiligen Cut-Score. Die dazugehorige Schwierigkeit des Items auf derjeweiligen Schwelle definiert des Weiteren den Cut-Score auf der Theta-Metrik. Die Schwellen-werte wurden auf 1,7 fur den ersten Cut und auf 2,4 fur den zweiten Cut gesetzt. Diese Werteergaben sich aus zusatzlich in einem Probelauf erhaltenen Daten1.

3. Nach anschließender manueller Kontrolle erhalt man pro Teilnehmer/in Index-Werte mit An-gabe der Seitenzahl des Cut-Score-Items sowie die dazugehorigen Theta-Werte (siehe Abb. 4).Um einen Gruppen-Wert fur die jeweiligen Cut-Scores zu erhalten, wurde der Median uber alleindividuellen Cut-Scores berechnet (Abb. 5).

Die Methode erbrachte bei allen Teilnehmern/innen reliable Werte der Ubergange zwischen Level 1und 2. Der Ubergang zwischen Level 2 und 3 konnte bei drei Experten nicht genau erfasst werden.

1Uberschreitet — wie in Abbildung 4 — die geglattete Funktion (filtered, mittlere Graphik) den ersten Schwel-lenwert von 1,7, definiert dieser Punkt den Index fur die Seite im OIB. In diesem Fall Seite 20. Dieses Item, mit derentsprechenden Schwierigkeit (auf Theta-Metrik), liefert den ersten Cut-Score fur diese/n Experten/in. Analog verfahrtman mit dem zweiten Cut-Score.


1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Seiten Nr. (ITEM)

% H

äufig

keit

040

100

21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40

Seiten Nr. (ITEM)

% H

äufig

keit

040

80

41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60

Seiten Nr. (ITEM)

% H

äufig

keit

040

80

61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80

Seiten Nr. (ITEM)

% H

äufig

keit

040

80

Abbildung 3: Rating-Daten aus Runde 1, die an die Teilnehmer/innen ruckgemeldet wurden. Pro Itemwird die prozentuale Haufigkeit der Zuordnungen pro Level dargestellt. Die Teilnehmer/innen konnendadurch Items mit hoher/niedriger Ubereinstimmung erkennen und uber diese Items diskutieren (ROT= Level 1, GRUN = Level 2, BLAU = Level 3).


Abbildung 4: Methodik der Cut-Score-Bestimmung. Die oberste Grafik zeigt eine einzelne Ratingserieeiner Person. Darunter ist die geglattete Funktion dieser Serie (unten: Filter-Residuen). Gestricheltehorizontale Linien zeigen die beiden Schwellenwerte bei 1,7 und 2,4. Vertikale Linien stellen dieSchnittpunkte der geglatteten Funktion mit den Schwellenwerten dar. Aus diesen Punkten kann manauf der X-Achse die Seitennummer des Items ablesen, das den Cut-Score reprasentiert.

Dies lag entweder an sehr inhomogenen Ratingserien oder wie bei einem Experten daran, dass ledig-lich ein Item dem Level 3 zugeordnet wurde. Die Filterungs-Methode kann somit keinen Ubergangbestimmen.

Zur Ruckmeldung an die Teilnehmer/innen wurde eine Tabelle prasentiert, in der die individuel-len Cut-Scores mit dazugehoriger OIB-Seitennummer dargestellt wurde (Abb. 5). Da vor allem dieUbergange zu Level 3 nicht genau erfasst werden konnten, wurde dies als Diskussionspunkt in Run-de 2 eingebracht, starker uber die Definition von Level 3 sowie uber die typische Level-3-Items zudiskutieren.

2.7 Prasentieren der Konsequenzen

Die Klarung, was Schuler/innen wissen und konnen sollen, ist sehr wichtig zur genauen Definitionder Cut-Scores. Studien zeigen, dass z. B. die Konsistenz der Einschatzung der Cut-Scores in derDiskussion von den erhaltenen Informationen abhangt (Jaeger & Mills, 2001; Jaeger, 1990).

Generell sollte man sich Gedanken machen, ob bzw. wann Feedback gegeben und auch welches Feed-back gegeben werden sollte (Hambleton, Jaeger, Plake & Mills, 2000). Es wird auch berichtet, dassman durch das Vermeiden von Ruckmeldung von genauen Ergebnissen zwischen den Runden desStandard-Settings statistische Unabhangigkeit der Daten erhalt (Reckase, 2006b, 2006a)2.

2Kritische Meinungen behaupten auch, dass durch die Ruckmeldung uber bestimmte Konsequenzen, der Standard-


Abbildung 5: Feedback in Runde 2 und 3: Deskriptive Statistik der Cut-Scores.

Im Standard-Setting fur M8 wurde nach einer ersten Diskussionsphase in Runde 2, die lediglichdie Itemzuordnungen im Fokus haben sollte, den Teilnehmer/innen die Konsequenzdaten (ahnlichzu Abb. 6 nur ohne unter Level 1) prasentiert. Dadurch wurde ermoglicht, dass die Experten dieItems und deren Level-Zuordnungen als Hauptaufgabe im Zentrum ihrer Aufmerksamkeit behielten,und erst relativ spat im Prozess die Auswirkungen berichtet bekamen. Durch die Prasentation solcherKonsequenzdaten erkannten die Panelisten die Auswirkungen ihrer Entscheidungen auf die Cut-Score-Setzung. Sie sehen somit die prozentuale Aufteilung der Schuler/innen auf die einzelnen Levels.

2.8 Runde 3

Nach der Diskussion zu Runde 2 wurden die Teilnehmer/innen gebeten, die OIBs ein letztes Maldurchzuarbeiten, die Zuordnungen zu adjustieren und sich auf endgultige Urteile festzulegen. Wie-derum wurden Ruckmeldedaten und Konsequenzdaten prasentiert, danach folgte eine abschließendeDiskussion und Entscheidung uber die Setzung der Cut-Scores.

2.9 Setzung der Schwelle zu Unter Level 1

Nach einer endgultigen Entscheidung uber die Cut-Scores zu Level 1–2 und Level 2–3 wurde ab-schließend noch die Grenze zu Unter Level 1 bestimmt. Dazu wurde ein modifizierte Form derDirect-Consensus-Methode verwendet. Es wurde ein absoluter Standard festgelegt, das heißt, esmusste daruber entschieden werden, wie viele Items ein/e Schuler/in beantworten muss, um einebestimmte Kompetenz vorzuweisen bzw. um den Standard zu erfullen (Norcini, 2003). Dazu wurdenden Teilnehmern/innen alle Items, die auf Level 1 liegen, prasentiert (von OIB-Seite 1 bis OIB-Seite12, siehe Abb. 5, Runde 3).

Die Teilnehmer/innen wurden gebeten, sich sogenannte Grenz- oder minimal-kompetente-Schuler/innenvorzustellen, also jene, die gerade noch auf Level 1 liegen wurden. Es wurde die Frage gestellt: ”Wieviele Items mussten Grenz-Schuler/innen richtig beantworten, um dem Level 1 zu entspre-chen?” Die Experten/innen gaben ihre Entscheidungen ab und diese wurden wiederum im Plenumprasentiert und diskutiert. Die Experten/innen mussten zu einem endgultigen Entschluss kommen.

Setting-Prozess von einem ursprunglich kriteriumsbasierten in ein normreferenziertes Verfahren uberfuhrt wird (Impara& Plake, 1997).


Abbildung 6: Endgultige Cut-Score-Werte fur M8 inklusive der Konsequenzdaten.

Der Median lag bei 7 Items (von 12), die es zu losen galt, um auf Level 1 zu kommen. Der Wert von7 wurde von der Mehrheit akzeptiert und als endgultig festgelegt, dieser entsprach einem Theta-Wertvon 420,32 (Abb. 6).

3 Validitat und Post-Standard-Setting

3.1 Prozessevaluation und Evaluation der Cut-Score-Urteile

Es ist von großer Bedeutung, am Ende wichtiger Entscheidungsrunden interne Evaluationen durchzu-fuhren (Hambleton, 2001). Mit diesen soll geklart werden, ob die Teilnehmer/innen alles verstandenhaben, ob es Verbesserungsvorschlage fur die Vorgehensweise gibt und wie einig man sich bei denErgebnissen ist (Morgan & Perie, 2004; Raymond & Reid, 2001).

Fur Cizek, Bunch und Koons (2004) besteht die Evaluation aus mehreren Teilen: nach einer erstenOrientierung wird der Grad des Bereitseins der Experten erhoben (Training, Aufgabenverstandnis,Uberzeugung gegenuber der Methode). Danach folgt eine Evaluation uber das Ergebnis des Standard-Settings (Pitoniak, 2003). Fur das M8-Standard-Setting wurde ein Eingangsfragebogen und ein Ab-schlussfragebogen verwendet, sowie ein Fragebogen nach jeder Runde.

Aus der Evaluation durch die Experten/innen konnte ebenfalls ein positives Bild des Standard-Setting-Prozesses, hinsichtlich Methodik, Durchfuhrung und Organisation gezeichnet werden. Die ermitteltenCut-Scores wurden großteils (ca. 95%) als verlasslich eingestuft. Viele Personen waren ebenfalls derMeinung, dass die Verteilung, die sich aus den Konsequenzdaten ergab, ein sehr gutes Abbild ausder praktischen Erfahrung wiederspiegelt. Ein einziger Kritikpunkt betraf die Formulierung des PLDs


Abbildung 7: Cut-Scores wurden mit Median (Md) und Mittelwert (MW) bestimmt, Standardfehler(SE) durch Jacknife- und Bootstrap-Verfahren.

zu Stufe 3. Die Zustimmung zu der Frage, inwieweit man von den Item-Zuordnungen zu den Levelsuberzeugt sei, zeigte fur Level 3 deutlich geringere Werte als fur Level 1 und Level 2.

3.2 Endgultige M8-Cut-Score-Werte und Standardfehler

Fur die Cut-Scores der Runde 3 wurden uber Jackknife-3 und Bootstrapping-Verfahren Standardfehlerermittelt.Anstelle der Medianberechnung konnte man auch eine Mittelwertsberechnung zur Bestimmung derCut-Scores in Betracht ziehen. Hier wurden alle Meinungen der Experten gleich einfließen, das heißt,auch extremere Meinungen (die durchaus wichtig sind) wurden in die Cut-Score-Bestimmung mit-einfließen. Durch den Median wurde man solche Meinungen verlieren, da dieser ein robustes Maßgegenuber Ausreißern darstellt. Aus diesen Grunden wurden daher alle Cut-Scores auch durch eineMittelwertberechnung bestimmt und uber Jackknife- und Bootstrap-Verfahren die jeweiligen Stan-dardfehler errechnet (Abb. 7). Zwischen den beiden Methoden gibt es numerisch keine großen Un-terschiede, die Mittelwertsberechnung liefert allerdings kleinere Standardfehler. Fur die Bestimmungder endgultigen Cut-Scores werden die Mittelwerte herangezogen (siehe Abb. 8).

3.3 Rating-Verhalten

Die Ergebnisse einer 2-faktoriellen Varianzanalyse (Greenhouse-Geisser korrigiert) mit den FaktorenRunde (1–3) und Cut (Cut-Level 1–2, Cut Level 2–3) zeigten einen Haupteffekt fur den FaktorCut (F (1, 19) = 182, 85; p < .001; η2 = .91) sowie eine Interaktion zwischen Runde × Cut(F (2, 38) = 7, 34; p = .003; η2 = .23). Der Haupteffekt fur Cut zeigt, dass die verwendete Methodefunktioniert hat da die Schwelle zwischen Level 2 und 3 signifikant hoher liegt als zwischen Level1 und 2. Es ware durchaus problematisch, wurden sich die beiden Cut-Scores nicht signifikant von-einander unterscheiden. Die Interaktion ist interessant, sie zeigt, dass die Experten uber die Rundenhinweg ihre Urteile adjustieren, der unterste Cut-Score sinkt uber die Runden hinweg leicht ab, derobere Cut-Score steigt nach Runde 1 an und bleibt dann konstant.

Um festzustellen, ob bestimmte Rater strenger oder milder urteilen, wurde fur jede/n Experten/in(Rater) der Mittelwert uber alle Item-Ratings berechnet. Abbildung 9 zeigt Boxplots fur die be-rechneten individuellen Mittelwerte uber die Runden hinweg. Die Streuung nimmt uber die Rundenhinweg augenscheinlich ab, eine Person zeigt tendenziell hohere mittlere Ratings im Vergleich zu

3Da der Median einen Datensatz genau in der Mitte teilt, ergeben sich durch Weglassen eines Werts hochstens zweiunterschiedliche Mediane aus dem Jackknifing, egal ob die Anzahl an Datenwerten gerade oder ungerade ist. Der Medianist daher kein ”glatter” Schatzer der Daten, er kann die Daten also nicht linear approximieren. Efron und Tibshirani(1986) weisen auf diese Problematik hin und empfehlen hier eher ein Bootstrapping-Verfahren zur Berechnung desStandardfehlers des Medians


Abbildung 8: Konsequenzdaten fur Cut-Scores durch Mittelwertberechnung.

allen anderen Ratern4. Um zusatzlich Aufschluss uber das Rating-Verhalten zu bekommen, wurde inRunde 3 fur jedes Item der Modalwert5 berechnet. Jede individuelle Ratingserie wurde anschließendmit der Reihe an Modalwerten korreliert. Wie Abbildung 10 zeigt, sind die Korrelationen generellhoch (von r = 0.54 bis r = 0.84). Vergleicht man die Person mit dem hochsten und dem niedrigstenRang sieht man keine auffalligen Rating-Verhalten (Abb. 11). Auf Grund dieser Analysen wurdendaher keine Personen aus dem Standard-Setting-Prozess ausgeschlossen.

3.4 Interrater-Reliabilitat

Um Interrater-Reliabilitat festzustellen. kann man grundsatzlich zwischen Maßen der Rater-Konsistenzund der Rater-Ubereinstimmung unterscheiden (e. g. Eckes, 2011). Rater-Ubereinstimmung (oderRater-Konsens) beschreibt hier die exakte Ubereinstimmung der einzelnen Ratings zwischen den Ra-tern. Rater-Konsistenz hingegen gibt an, inwieweit die Rater bestimmte Objekte (Personen, Itemsetc.) in eine ahnliche Reihung bringen. Es ist wichtig anzumerken, dass diese Maße zu unterschiedli-chen Ergebnissen fuhren konnen. Die Reihung der bewerteten Objekte kann zum Beispiel gleich sein(hohe Konsistenz) und die absoluten Ratings aber unterschiedlich (niedriger Konsens). Dies wurdepassieren wenn bestimmte Rater generell strengere Urteile abgeben als andere, die Reihung aberbeibehalten. Bewertet zum Beispiel ein Experte drei Items mit 1, 1, 2 und ein anderer Experte mit2, 2, 3, so hatten diese beiden Rater keine Ubereinstimmung, aber eine hohe Konsistenz.

Als erste Analyse der Ubereinstimmung der Raterurteile wurde der von Fleiss vorgeschlagene Kappa-Koeffizient fur jede Standard-Setting-Runde berechnet (Fleiss, 1971). Fleiss’ Kappa ist eine Erweite-

4Es wurden daher alle Cut-Scores erneut berechnet ohne diesen Ausreißer. Die Cut-Scores veranderten sich allerdingsnicht substanziell. Das Rating-Verhalten dieser Person zeigt ebenfalls keinen ungewohnlichen Verlauf die Person wurdesomit nicht aus dem Standard-Setting-Prozess ausgeschlossen.

5Der am haufigsten vorkommende Wert.


●

●

●

1.6

1.8

2.0

2.2

Rater−Strenge

RUNDE 1 RUNDE 2 RUNDE 3

Abbildung 9: Boxplots zu Rater-Strenge/-Milde uber die Runden hinweg.

● ● ● ● ●

●

● ● ● ●

● ● ● ●

● ● ● ●

● ● ● ●

●

● ● ●

● ●

● ● ● ●

● ●

● ●

● ●

● ●

●

●

● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

●

●

●

● ● ● ● ●

●

●

●

●

●

● ●

●

●

●

●

● ● ● ●

0 20 40 60 80

1.0

1.5

2.0

2.5

3.0

Modalwert − Items

Item−Nr.

Mod

●

● ●

● ●

●

●

● ●

●

●

●

●

●

●●

● ●

● ●●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●●

●

●

●

●

●

●

●●

●

●

●

●

●● ●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

0 20 40 60 80

1.0

1.5

2.0

2.5

3.0

Mittelwert − Items

Item−Nr.

MW

5 10 15 20

0.2

0.6

1.0

Korrelation mit Modalwert

Experten−ID (gereiht)

Kor

r. SS23 SS06 SS04 SS20 SS18 SS15 SS19 SS10 SS02 SS05 SS11 SS17 SS22 SS07 SS16 SS09 SS08 SS12 SS13 SS01

Abbildung 10: Modalwerte und Mittelwerte der Itemratings (oben, Mitte). Korrelation der individu-ellen Ratingserie mit Modalwert (unten). Die Experten-IDs sind aufsteigend nach Korrelationskoeffi-zient gereiht.


Rang 1 (geringe Korr.)

Item−Nr.

Rat

ings

0 20 40 60 80

1.0

1.5

2.0

2.5

3.0

Rang 20 (hohe Korr.)

Item−Nr.

Rat

ings

0 20 40 60 80

1.0

1.5

2.0

2.5

3.0

Abbildung 11: Ratingserien (schwarze Linien) der Personen mit hochster und geringster Korrelationmit Modalwert (rote Linien).

rung zu Cohen’s Kappa (Cohen, 1960) bei mehr als 2 Raterurteilen, wobei κ = 1 perfekte Uberein-stimmung bedeutet. Runde 1 ergab fur 23 Experten und 80 Items κ = 0.24, bei Runde 2 κ = 0.38und in Runde 3 fur 20 Experten κ = 0.43. Interpretiert man die Werte nach Landis und Koch (1977),so wurden jeweils in den ersten beiden Runden ausreichende (0, 21 < κ < 0, 40) und in Runde 3mittelmaßige (0, 41 < κ < 0, 60) Ubereinstimmungen der Expertenurteile vorherrschen.

Die Intraklassen-Korrelation (intraclass correlation coefficient, ICC) kann auf Basis von verschiedenenVarianzanteilen sowohl zur Bestimmung von Konsens als auch fur Konsistenz eingesetzt werden. DerICC beschreibt das Verhaltnis der Varianz einer abhangigen Variable (e. g. Ratings) zur Gesamtvari-anz. Ist die Varianz ausschließlich auf die Items und nicht auf die unterschiedlichen Rater ruckfuhrbar,erreicht der ICC einen Wert von 1 (Bartko, 1966; McGraw & Wong, 1996). Unter der Annahme, dasssowohl Zeilen als auch Spalten der Datenmatrix (Rater × Items) systematische Variation aufwei-sen, wurde zur Analyse ein two-way random effects model verwendet, es lassen sich dadurch Maßezur Konsistenz6 wie auch zur Ubereinstimmung ermitteln. Rechnerisch unterscheiden sich die Maßedahingehend, dass beim ICC fur Ubereinstimmung auch die mean squares (MS) uber die Spaltenmiteinberechnet werden. Die Ergebnisse sind in Abbildung 12 zusammengefasst.

4 Phase IIb und Phase IIIb

Aus der Evaluation des Standard-Settings ging hervor, dass vor allem die Zuordnung von Items zuLevel 3 schwierig erschien, da hier die Definition der Kompetenzstufe zu eingeschrankt war (sieheKapitel 3.1). Basierend auf dieser Ruckmeldung fand am 9. Marz 2012 ein eintagiger Workshop(Phase IIb) mit 7 nationalen Experten/innen am BIFIE Salzburg statt. Ziel dieses Workshops war es— basierend auf den Erfahrungen aus dem Standard-Setting und unter Berucksichtigung der Items

6Wurde man von einem einfaktoriellen Design ausgehen und annehmen die Item-Reihung sei unmatched, konnteals Konsequenz kein Maß zur Konsistenz berechnet werden. Da die Itemschwierigkeit aber zunimmt, wird hier einesystematische Varianzquelle postuliert.


Abbildung 12: Analysen zur Ubereinstimmung und Konsistenz der Ratings. ICC = Intraclass correla-tion coefficient.

Cut uL1-L1 Cut L1-L2 Cut L2-L3Phase III 439,63 517,82 669,46

Phase IIIb 419,43 506,05 712,35

GESAMT 439,63 517,82 690,91

Abbildung 13: Cut-Scores aus den zwei Standard-Settings (Phase III und Phase IIIb). Zur Bestimmungdes Cut-Scores zwischen Level 2 und 3 wurde der Mittelwert aus den beiden Phasen gebildet.

— die Stufenbeschreibung von Level 3 zu uberarbeiten. In Kapitel 1 sind die endgultigen Beschrei-bungen dargestellt.

Von 28. – 29. September 2012 fand ein abschließender Standard-Setting Workshop (Phase IIIb) mit 10nationalen Experten/innen statt. Der Prozess wurde vollstandig wiederholt, Ziel war es einen Vergleichzum ersten Standard-Setting herstellen zu konnen und den Cut-Score zu Level 3, unter Verwendungder neu definierten Stufenbeschreibung, exakter zu bestimmen. Die Ergebnisse aus Phase III undPhase IIIb sind in Abbildung 13 dargestellt. Zur Bestimmung des endgultigen Cut-Scores zwischenLevel 2 und Level 3 wurde der Mittelwert aus Phase III und Phase IIIb gebildet.

Literatur

Bartko, J. (1966). The intraclass correlation coefficient as a measure of reliability. PsychologicalReports, 19 , 3-11.

Cizek, G. J. (1996). Standard-setting guidelines. Educational Measurement: Issues and Practice, 15(1), 13–21.

Cizek, G. J. & Bunch, M. B. (2007). Standard setting: a guide to establishing and evaluatingperformance standards on tests. Sage.

Cizek, G. J., Bunch, M. B. & Koons, H. (2004). Setting performance standards: Contemporarymethods. Educational Measurement: Issues and Practice, 23 (4), 31–31.

Cohen, J. (1960). A coefficient of agreement for nominal scales. Educational and PsychologicalMeasurement, 20 , 37-46.

Eckes, T. (2011). Introduction to many-facet Rasch measurement. Frankfurt: Peter Lang.Efron, B. & Tibshirani, R. (1986). The bootstrap method for standard errors, confidence intervals,

and other measures of statistical accuracy. Statistical Science, 1 , 1-35.Ferrara, S., Perie, M. & Johnson, E. (2002, April). Matching the judgemental task with standard


setting panelist expertise: The item-descriptor (id) matching procedure. Paper presented atthe annual meeting of the American Educational Research Association, New Orleans, LA.

Fleiss, J. (1971). Measuring nominal scale agreement among many raters. Psychological Bulletin,76(5), 378-382.

Hambleton, R. K. (2001). Setting performance standards on educational assessments and criteriafor evaluating the process. In G. J. Cizek (Hrsg.), (S. 89-116). New York: Routledge.

Hambleton, R. K., Jaeger, R. M., Plake, B. S. & Mills, C. (2000). Setting performance standardson complex educational assessments. Applied Psychological Measurement, 24 (4), 355-366.

Impara, J. & Plake, B. S. (1997). Standard setting: an alternative approach. Journal of EducationalMeasurement, 34 , 353-366.

Impara, J. & Plake, B. S. (1998). Teacher’s ability to estimate item difficulty: A test of the assumptionin the modified angoff standard setting method. Journal of Educational Measurement, 35(1),69-81.

Jaeger, R. M. (1990). Establishing standards for teacher certification tests. Educational Measure-ment: Issues and Practice, 9(4), 15-20.

Jaeger, R. M. & Mills, C. (2001). An integrated judgment procedure for setting standards on complex,large-scale assessments. In G. J. Cizek (Hrsg.), (S. 313-338). NJ: Lawrence Erlbaum.

Karantonis, A. & Sireci, S. G. (2006). The bookmark standard-setting method: A literature review.Educational Measurement: Issues and Practice, 25 (1), 4–12.

Landis, J. & Koch, G. (1977). The measurement of observer agreement for categorical data.Biometrics, 33 , 159-174.

McGraw, K. & Wong, S. (1996). Forming inferences about some intraclass correlation coefficients.Psychological Methods, 1(1), 30-46.

Mitzel, H. C., Lewis, D. M., Green, D. R. & Patz, R. J. (1999). The bookmark standard settingprocedure. Monterey, CA: McGraw-Hill.

Morgan, D. L. & Perie, M. (2004). Setting standards in education: Choosing the best method foryour assessment and population. (note)

Norcini, J. J. (2003, May). Setting standards on educational tests. Med Educ, 37 (5), 464–469.Pitoniak, M. (2003). Standard setting methods for complex licensure examinations. Unveroffentlichte

Dissertation, University of Massachusetts, Amherst.Plous, S. (1993). The psychology of judgement and decision making. New York: McGraw-Hill.Rasch, G. (1960). Probabilistic models for some intelligence and attainment tests. Copenhagen:

Nielsen & Lydiche.Raymond, M. R. & Reid, J. B. (2001). Who made thee a judge? selecting and training participants

for standard-setting. In G. J. Cizek (Hrsg.), (S. 119-158). New York: Routledge.Reckase, M. D. (2006a). A conceptual framework for a psychometric theory for standard setting with

examples of its use for evaluating the functioning of two standard setting methods. EducationalMeasurement: Issues and Practice, 25 (2), 4–18.

Reckase, M. D. (2006b). Rejoinder: Evaluating standard setting methods using error models proposedby schulz. Educational Measurement: Issues and Practice, 25 (3), 14–17.

Schulz, E. M., Kolen, M. J. & Nicewander, W. A. (1999). A rationale for defining achievement levelsusing irt-estimated domain scores. Applied Psychological Measurement, 23 (4), 347-362.

Schulz, E. M., Lee, W.-C. & Mullen, K. (2005). A domain-level approach to describing growth inachievement. Journal of Educational Measurement, 42 (1), 1–26.

Sireci, S. G. & Clauser, B. E. (2001). Practial issues in setting standards on computerized adaptivetests. In G. J. Cizek (Hrsg.), (S. 355-369). New York: Routledge.

Wang, N. (2003). Use of the rasch irt model in standard setting: An item-mapping method. Journalof Educational Measurement, 40 (3), 231–253.

Wyse, A. E. (2011). The similarity of bookmark cut scores with different response probability values.Educational and Psychological Measurement, xx , xx-xx.


5 Appendix

1. Agenda Workshop Standard-Setting

2. Fragebogen Einfuhrung

3. Fragebogen Durchfuhrung

4. Fragebogen Abschluss


Tag 1 Zeit

Präsentation 13:00 Begrüßungsworte und Einleitung

Präsentation 13:45 Einführung in die Methode des Standard Settings

Evaluation 14:45 Bearbeitung Evaluations Fragebogen (vorher)

15:00 Kaffeepause

Bearbeitung 15:20 Bearbeitung eines Übungstests

Diskussion 16:00 Kleingruppendiskussionen zu den Niveaustufenbeschreibungen

Diskussion 16:30Diskussion im Plenum und Zuordnung einzelner Trainings-Items zu den Niveaustufenbeschreibungen

17:00 Einsammeln der Materialien

Tag 2

Präsentation 09:00 Rekapitulation der Methode, Diskussion offener Fragen, Verteilung Materialien

Präsentation 09:30 Instruktion zu RUNDE 1

09:45 Kaffeepause

Bearbeitung 10:00

12:30 Mittagspause

Präsentation 14:00 Feedback zu RUNDE 1

Diskussion 14:15 Diskussion zu RUNDE 1

Evaluation 15:15 Bearbeitung Evaluations Fragebogen (RUNDE 1)

15:30 Kaffeepause

Präsentation 15:45 Instruktion RUNDE 2

Bearbeitung 16:00 RUNDE 2: Erneutes Durchgehen der gereihten Aufgabenhefte und adjustieren der Zuordnungen

17:00 Einsammeln der Materialien

Tag 3

Präsentation 09:00 Feedback zu RUNDE 2 und Diskussion

Präsentation 09:30 Präsentieren der Konsequenzdaten

Diskussion 09:45 Diskussion der Konsequenzdaten


10:45 Kaffeepause

Präsentation 11:00 Instruktion RUNDE 3

Bearbeitung 11:15 RUNDE 3: Erneutes Durchgehen der gereihten Aufgabenhefte und festlegen der Zuordnungen

12:30 Mittagspause

Präsentation 13:30 Präsentation der Konsequenzdaten, Feedbackdaten

Diskussion 13:45 Diskussion und endgültige Entscheidung über die Schwellenwertsetzung


14:45 Kaffeepause

Präsentation 15:00 Einführung und Instruktion zur Methode der Schwellentwertbestimmung "Unter Level 1"

Bearbeitung 15:15 Bestimmen der Grenze "Unter Level 1"

Diskussion 15:30 Diskussion und Festlegung der Grenze "Unter Level 1"

Evaluation 16:00 Bearbeitung Evaluations Fragebogen (nachher)

16:30 Verabschiedung und Einsammeln der Materialien

Workshop: Standard Setting M8, 12.10.-14.10.2011

RUNDE 1: Durcharbeiten des gereihten Aufgabenheftes, Zuordnen der Items zu den Niveaustufenbeschreibungen

a

a

a

a

a

a a a a

a a a a

a a a a

a a a a

a

a

a a a a a

a a a a

a a a a

a a a a

a a a a

a a a a

a a a a

a a a a

a a a a

a a a a

a a a a

a

a

a

a a a a

a a a a

a a a a

a a a a

a a a a

a a a a

a a a a

a a a a

a a a a

a a a a

a a a a

a a a a

a a a a

a a a a

a a a a

a a a a

a a a a

a a a a

a a a a

Documents

Standard-Setting Mathematik 8. Schulstufe - BIFIE · dik des Standard-Settings verwendet, was im weiteren Sinne einen komplexen Entscheidungsprozess beschreibt der m oglichst standardisiert