Download pdf - Lücken schließen, Brücken bauen: Bestimmung von … · Korrelationen zwischen deutschen C-Tests und TestDaF- ... Schriftlicher Ausdruck Mündlicher Ausdruck C-Test Ein-Faktor C-Test-Modell

Lücken schließen, Brücken bauen:

Bestimmung von GER-Niveaus mit

dem onSET

6. Bremer Symposion zum Sprachenlernen und -lehren

Bremen, 24. 25. Februar 2017

Thomas Eckes

Gesellschaft für Akademische Studienvorbereitung und Testentwicklung (g.a.s.t. e.V.) / TestDaF-Institut

Ruhr-Universität Bochum

25. Februar 2017

Übersicht

1. Konzeption des onSET

2. onSET-Teilnehmerergebnisse

3. Brückenschlag zum GER

4. Prototypgruppenmethode (PGM)

5. Bestimmung der Cut-Scores (GER-Niveaus)

6. Zusammenfassung

Konzeption des onSET

onSET = Online-Spracheinstufungstest

(www.onset.de)

Komplett internetgestütztes System zur Messung der

allgemeinen Sprachkompetenz in Fremdsprachen

C-Test-Prinzip (Prinzip der reduzierten Redundanz)

Aktuell verfügbar: onSET-Deutsch (vormals onDaF),

onSET-English

Konzeption des onSET (Forts.)

„Lücken schließen“: Fehlende Wortteile ergänzen

(zentral: lexiko-grammatikalische Kompetenz)

onSET-Methodik: Rasch-Skalierung

Systematische Erprobung und Skalierung von Lückentexten

Kalibrierte Itembank („Herzstück“)

LOFT-Methode der Testdarbietung

Acht Texte mit je 20 Lücken

Konzeption des onSET (Forts.)

„Brücken bauen“: Von der Punktzahl zu GER-Niveaus

onSET-Skala

Punktzahl: 0 bis 160 Punkte

GER-Niveaus: A2 bis C1

onSET-Teilnahme

Bis Ende 2016 haben insgesamt 152.808 Personen den

onSET abgelegt.

760

4.473

7.587

10.876

13.026 13.485

17.281

20.411 20.602 21.632

22.675

2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016

onSET-Ergebnisse

Im onSET-Deutsch erreichten 59,5 % der Teilnehmenden

das Niveau B1 oder höher.

14,3%

26,2%

38,0%

18,1%

3,4%

Unter A2 A2 B1 B2 C1 oder höher

onSET-Ergebnisse

Im onSET-English erreichten 69,5 % der Teilnehmenden

(N = 3.401) das Niveau B1 oder höher.

5,3%

25,2% 26,7%

32,5%

10,3%

Unter A2 A2 B1 B2 C1 oder höher

Wie aber erfolgt die

Zuordnung von C-Test-

Leistungen zu GER-Niveaus?

GER C-Test

GER C-Test

• Allgemeine Sprachkompetenz

• Textschwierigkeit komplex

• Kommunikative Kompetenz

• Handlungsorientierung

C-Test GER

„Unknown territory“? (Reichert et al., 2010, S. 206)

GER

Empirische Stützung für den Brückenschlag zum GER:

1. Korrelation von C-Tests mit rezeptiven und produktiven Fertigkeiten

2. Standard-Setting mit der Prototypgruppenmethode (PGM)

C-Test

Korrelationen zwischen deutschen C-Tests und TestDaF-

Subtests (Eckes, 2014; Eckes & Grotjahn, 2006)

TestDaF-Subtest Korrelationen

Leseverstehen (Punktzahl, TDN) .60 bis .66

Hörverstehen (Punktzahl, TDN) .62 bis .69

Schriftlicher Ausdruck (TDN) .62 bis .68

Mündlicher Ausdruck (TDN) .54 bis .64

Alle Korrelationen: p < .01.

Stützpfeiler 1: Korrelationen (und mehr)

Allgemeine

Sprachkompetenz

Leseverstehen

Hörverstehen

Schriftlicher

Ausdruck

Mündlicher

Ausdruck

C-Test

Ein-Faktor C-Test-Modell

(Eckes & Grotjahn, 2006) .69

.77

.65

.78

.83

W-HR = Wortschatztest (X-Lex) Hit Rate. W-FAR = Wortschatztest (X-

Lex) False-Alarm Rate (Guessing). * p < .05. ** p < .01. *** p < .001.

Test LV HV W-HR W-FAR

C-Test .73*** .76*** .48*** -.15*

Leseverstehen - .68*** .39** -.16**

Hörverstehen - - .49*** -.10

Wortschatz (HR) - - - .33***

Wortschatz (FAR) - - - -

Korrelationen eines C-Tests mit Tests des Lese-

und Hörverstehens und einem Wortschatztest

(Harsch & Hartig, 2016)

Werte sind Maße der Varianzaufklärung (quadrierter Determinationskoeffizient).

*** p < .001.

Prädiktoren Kriterium LV Kriterium HV

C-Test (allein) .53*** .58***

Wortschatztest (HR, FAR) .24*** .32***

Alle (C-Test, HR, FAR) .54*** .60***

Vorhersagekraft von C-Test und Wortschatztest für

rezeptive Fertigkeiten (Harsch & Hartig, 2016)

Stützpfeiler 2: Standard-Setting

onSET-Testwerte: 0 bis 160 Punkte

GER-Niveaus: A2, B1, B2, C1

Ab welchem Testwert (x) hat eine Person das Niveau

A2, B1, B2 oder C1 erreicht?

0

Punkte

160

Punkte

Wo liegen die Grenzen zwischen

benachbarten Niveaus?

0

Punkte

160

Punkte

x1

A2

x2 x3 x4

B1 B2 C1

Hier?

0

Punkte

160

Punkte

x1

A2

x2 x3 x4

B1 B2 C1

Oder hier?

0

Punkte

160

Punkte

x1

A2

x2 x3 x4

B1 B2 C1

Oder doch eher hier?

Methoden des Standard-Settings

Standard-Setting stützt sich wesentlich auf Urteile oder

Einschätzungen geschulter Beurteiler (Experten)

Hambleton & Pitoniak (2006, p. 235): “blend of judgment,

psychometrics, and practicality”

Testzentriert: Urteile über Testitems

Angoff-Methode

Bookmarkmethode

Personenzentriert: Urteile über Teilnehmende

Borderlinegruppenmethode

Kontrastgruppenmethode

Probleme

Wahrscheinlichkeitsurteile stark fehleranfällig

(Heuristiken, Urteilstendenzen, mangelnde

Übereinstimmung zwischen Experten)

Konzept einer “Borderline-” oder “mindest-

kompetenten Person” unklar bzw. diffus

Testzentrierte Methoden beim onSET nicht praktikabel

(ca. 15 bis 20 Experten diskutieren in einem

mehrtägigen Workshop mehrere hundert Lückentexte

bzw. ein paar tausend Lücken)

Lösung

Personenzentrierter Ansatz (Personen mit

bekanntem Sprachleistungsprofil)

Beurteilung nicht der Grenzfälle, sondern der

typischen Fälle: Prototypen (Konzept aus der

Begriffs- und Kategorisierungsforschung)

Benennung von Prototypen durch GER-erfahrene

Sprachlehrkräfte bzw. Kursleiter (im Rahmen von

Erprobungen)

Lösung

Personenzentrierter Ansatz (Personen mit

bekanntem Sprachleistungsprofil)

Beurteilung nicht der Grenzfälle, sondern der

typischen Fälle: Prototypen (Konzept aus der

Begriffs- und Kategorisierungsforschung)

Benennung von Prototypen durch GER-erfahrene

Sprachlehrkräfte bzw. Kursleiter (im Rahmen von

Erprobungen)

Prototypgruppenmethode

(PGM; Eckes, 2010, 2012, 2016)


Benennung von

Lernerprototypen

onSET-Erprobung

Kursleiter benennen bis zu drei typische Lerner

Gut bekannte rezeptive und produktive Fertigkeiten

Niveaus A1, A2, B1, B2, C1

Messung der

Sprachkompetenz

onSET-Erprobung

Rasch-Analyse pro Set

Simultane Rasch-Analyse (über alle Sets)

Schätzung der Kompetenz der Lernerprototypen (Logits)

Receiver-Operating-Characteristic

(ROC)-Analyse

Cut-Scores

ROC-Analyse

Weit verbreitet in der medizinischen Diagnostik (klinische Testdaten zur

Unterscheidung zwischen “gesund” und “krank”)

Verteilungsfreies, nichtparametrisches Verfahren

Geringe Anforderungen an Umfang der Stichprobe

Im Kontext von Methoden des Standard-Settings erstmals diskutiert

von Kaftandjieva (2010)


ROC-Analyse: Vierfelder-Klassifikationsschema

Beispiel für Niveau A2 (-) vs. B1 (+)


Klassifikation (nach Cut-Score)

Kriterium (B1) A2 (-) B1 (+)

Prototyp A2 (-) RN FP

Prototyp B1 (+) FN RP

+ bedeutet: erfüllt das Kriterium; - bedeutet: erfüllt das Kriterium nicht

RP = richtig-positiv (Treffer)

FN = falsch-negativ (Verpasser)

FP = falsch-positiv (falscher Alarm)

RN = richtig-negativ (korrekte Ablehnung)

ROC-Analyse: Sensitivität und Spezifität

Beispiel für Niveau A2 (-) vs. B1 (+)


Sensitivität = RP/(FN + RP) Trefferquote

1 – Sensitivität = FN/(FN + RP) Verpasserquote

Spezifität = RN/(FP + RN) Quote korrekter Ablehnungen

1 – Spezifität = FP/(FP + RN) Quote falscher Alarme

Klassifikation (nach Cut-Score)

Kriterium (B1) A2 (-) B1 (+)

Prototyp A2 (-) RN FP

Prototyp B1 (+) FN RP

ROC-Analyse: Der Idealfall


Personen Cut-Score

A2 (-) B1 (+)

Testergebnis (C-Test)

Test: A2 Test: B1

ROC-Analyse: Sensitivität (Trefferquote)


Personen Cut-Scores

A2 (-) B1 (+)

RP

FN

Sensitivität =

RP/(FN + RP)


ROC-Analyse: Spezifität (Quote korr. Ablehnungen)


Personen Cut-Scores

A2 (-) B1 (+) FP

RN

Spezifität =

RN/(FP + RN)


ROC-Analyse: ROC-Kurve


1 - Spezifität

Se

nsitiv

itä

t

Cut-Scores

- +


ROC-Analyse: AUC (Area Under the Curve)


1 - Spezifität

Se

nsitiv

itä

t

Cut-Scores

- +

AUC

.50 AUC 1


ROC-Analyse: Youden-Index J (Youden, 1950)


J = Sensitivität + Spezifität – 1

Se

nsitiv

itä

t

1 - Spezifität

Welcher Cut-Score liefert den

höchsten Wert des Youden-

Index J?

Datenbasis

Weltweite Erprobung neuer (englischer) Texte (N = 3.310)

20 Sets von je 6 oder 10 Texten

Ankertestplan (pro Set 2 Ankertexte)

Benennung von 470 Lernerprototypen (14,2 %)

Cut-Scores für onSET-English

ROC-Analyse

Niveauvergleiche (gesucht: 4 Cut-Scores)

A1 vs. A2 (n = 120)

A2 vs. B1 (n = 183)

B1 vs. B2 (n = 241)

B2 vs. C1 (n = 201)

Korrelation Prototypen (A1 bis C1) mit Fähigkeitsschätzungen

(nach Rasch-Modell): r(470) = .66 (p < .001)

Analyse mit R-Paket pROC (Robin et al., 2011)


ROC-Analyse

A1 vs. A2

J-Index = 0.41

Cut-Score cJ = -0.86

AUC = 0.75

CI (AUC): 0.66 / 0.84

PCTR = 0.75


1 - Specificity

Se

nsitiv

ity

0.0

0.2

0.4

0.6

0.8

1.0

0.0 0.2 0.4 0.6 0.8 1.0

-0.880 (0.550, 0.863)-0.860 (0.575, 0.838)

ROC-Analyse

A2 vs. B1

J-Index = 0.55

Cut-Score cJ = -0.26

AUC = 0.87

CI (AUC): 0.82 / 0.92

PCTR = 0.80


1 - Specificity

Se

nsitiv

ity

0.0

0.2

0.4

0.6

0.8

1.0

0.0 0.2 0.4 0.6 0.8 1.0

-0.260 (0.600, 0.951)

ROC-Analyse


B1 vs. B2

J-Index = 0.46

Cut-Score cJ = 0.55

AUC = 0.80

CI (AUC): 0.75 / 0.86

PCTR = 0.73

1 - Specificity

Se

nsitiv

ity

0.0

0.2

0.4

0.6

0.8

1.0

0.0 0.2 0.4 0.6 0.8 1.0

0.555 (0.709, 0.754)

ROC-Analyse

B2 vs. C1

J-Index = 0.56

Cut-Score cJ = 1.56

AUC: 0.83

CI (AUC): 0.76 / 0.89

PCTR = 0.86


1 - Specificity

Se

nsitiv

ity

0.0

0.2

0.4

0.6

0.8

1.0

0.0 0.2 0.4 0.6 0.8 1.0

1.560 (0.986, 0.571)

4 . + 4

. |

|

|

. |

3 . + 3

. |

.# |

.# |

.## T|

2 .### + 2

.####### |

.######### |

.############ | .

.################# S|

1 .####################### +T X 1

.########################## | X.

.######################### | XXXXX

######################### M|S XXXXXX

.###################### | XXXXXX

0 .##################### +M XXXXXXXXXXXX 0

.################# | XXXXXXXXXXX

.################ |S XXXXX

.############ S| XXXX.

.########## | XX.

-1 .######## +T . -1

.###### | .

.##### | .

.### T|

.## |

-2 .# + -2

.# |

. |

. |

. |

-3 . + -3

. |

. |

|

. |

-4 + -4

Teilnehmendee

Texte

Ergebnis der simultanen

Rasch-Analyse . . .


H = 6.49

R = .96

4 . + 4

. |

|

|

. |

3 . + 3

. |

.# |

.# |

.## T|

2 .### + 2

.####### |

.######### |

.############ | .

.################# S|

1 .####################### +T X 1

.########################## | X.

.######################### | XXXXX

######################### M|S XXXXXX

.###################### | XXXXXX

0 .##################### +M XXXXXXXXXXXX 0

.################# | XXXXXXXXXXX

.################ |S XXXXX

.############ S| XXXX.

.########## | XX.

-1 .######## +T . -1

.###### | .

.##### | .

.### T|

.## |

-2 .# + -2

.# |

. |

. |

. |

-3 . + -3

. |

. |

|

. |

-4 + -4

Teilnehmendee

Texte

C1 (oder höher)

B2

B1

A22

unter A2

. . . mit Cut-Scores und

GER-Niveaus


0

Punkte

160

Punkte

Wo liegen die Grenzen zwischen

benachbarten Niveaus beim onSET-English?

0

Punkte

160

Punkte

42

A2

71 98 133

B1 B2 C1

Hier!

Zusammenfassung

Die PGM erlaubt die zuverlässige Bestimmung von GER-Niveaus (nicht nur bei C-Tests)

In Kombination mit einer ROC-Analyse liefert die PGM trennscharfe Cut-Scores (hohe Genauigkeit der Zuordnung zu GER-Niveaus)

Dies erweitert die Einsatzmöglichkeiten von C-Tests, insbesondere des onSET

onSET für Flüchtlinge, seit April 2016 (refugees.onset.de)

Weitere Sprachversionen in Planung (onSET-Français, onSET-Español, onSET-Italiano etc.)

Danke.

E-Mail: [email protected]

www.testdaf.de

www.onset.de