Ocenianie szkolne Teoria budowy testów osiągnięć szkolnych

Preview:

DESCRIPTION

Ocenianie szkolne Teoria budowy testów osiągnięć szkolnych. Roman Dolata Wydział Pedagogiczny UW rdolata@uw.edu.pl. Kontakt. Roman Dolata Dyżury Piątki od 16 do 17, s. 314 Poczta rdolata@uw.edu.pl. Cele kursu. Opanowanie umiejętności: - PowerPoint PPT Presentation

Citation preview

Ocenianie szkolneTeoria budowy testów osiągnięć szkolnych

Roman DolataWydział Pedagogiczny UW

Michał ModzelewskiInstytut Badań Edukacyjnych

Kontakt

Roman Dolata

• DyżuryPiątki od 16 do 17, s. 314

• Pocztardolata@uw.edu.pl

Cele kursu

• Opanowanie umiejętności:– tworzenia nauczycielskich testów osiągnięć

szkolnych– oceny jakości i interpretacji wyników

standaryzowanych testów osiągnięć szkolnych

– wykorzystania wyników egzaminacyjnych do ewaluacji wewnątrzszkolnej (metoda EWD)

Literatura, zaliczenie

• Literatura:M. Jakubowski, A. Pokropek (2009) Badając egzaminy. Podejście

ilościowe w badaniach edukacyjnych. Centralna Komisja Egzaminacyjna. Str. 8-72. (do pobrania ze strony www.ewd.edu.pl)

Strona www.ewd.edu.pl

• ZaliczenieOpracowanie, przeprowadzenie i przeanalizowanie wyników

testu osiągnięć edukacyjnych

Czym jest ocenianie szkolne?

Czym jest test osiągnięć szkolnych?

• Mała próbka zadań, której używamy do oszacowania opanowania przez uczniów szerokiego wachlarza wiadomości i umiejętności

(Daniel Koretz)

Cechy formalne testu:

- obiektywność- standaryzacja- liczbowa postać wyniku

Testy osiągnięć szkolnych a testy zdolności

testy poznawcze

testy osiągnięć związane

z określonymi kursami

testy osiągnięć szeroko

zorientowane

słowne testy inteligencji

bezsłowne

i wykonaniowe testy inteligencji

testy inteligencji wolne od wpływów

kulturowych

Typy testów osiągnięć szkolnych

• Przesiewowe (minimum kompetencji),

szerokiego stosowania, selekcyjne

• Testy różnicujące i testy kryterialne

• Testy mocy i testy szybkości

Podstawowe pojęcia statystyczne przydatne przy konstrukcji testów i analizie ich

wyników

Rozkład wyników

L. pkt. L. uczn.

0 1

1 3

2 6

… …

38 13

39 7

40 60 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40

Jak opisać rozkład wyników?

1) Miary tendencji centralnej

2) Miary rozproszenia wyników

3) Miary kształtu rozkładu

Jak opisać rozkład wyników?

1) Miary tendencji centralnej: np. średnia

Jak opisać rozkład wyników?

2) Miary rozproszenia wyników: np. odchylenie standardowe

Jak opisać rozkład wyników?

3) Miary kształtu rozkładu: np. skośność

Rozkład procentowyWyniki sprawdzianu 2009, rozkład dla kraju, n=400887

Rozkład skumulowany, procentowyWyniki sprawdzianu 2009, rozkład dla kraju, n=400887

Wyniki Sprawdzianu w klasie szóstej 2002-2014

Skąd się biorą zróżnicowane rozkłady wyników surowych?

• Źródła zmienności rozkładów wyników surowych dla kolejnych roczników: zmiany w rozkładzie umiejętności w kolejnych

rocznikach absolwentów SP http://pwe.ibe.edu.pl

zmiany narzędzia pomiarowego, czyli testu

Na jakiej skali przedstawiać wyniki testów?

1. Kwestia pożądanego kształtu rozkładu wyników

2. Kwestia odpowiedniej skali wyników

Zakładany kształt rozkładu wyników testu...

Liczba wyników

Rodzaj testu

Niskich Przeciętnych Wysokich

Test minimum kompetencji

+ ++ +++

Test szerokiego spektrum

++ +++ ++

Test selekcyjny +++ ++ +

... a funkcja testu.

Zakładany kształt rozkładu wyników testu...

Liczba wyników

Rodzaj testu

Niskich Przeciętnych Wysokich

Test minimum kompetencji

+ ++ +++

Test szerokiego spektrum

++ +++ ++

Test selekcyjny +++ ++ +

... a funkcja testu.

Sprawdzian, egzamin gimnazjalny, testy diagnostyczne typu OBUT

to testy w założeniu badające szerokie spektrum umiejętności

Zakładany kształt rozkładu wyników testu...

Liczba wyników

Rodzaj testu

Niskich Przeciętnych Wysokich

Test minimum kompetencji + ++ +++

Test szerokiego spektrum ++ +++ ++

Test selekcyjny +++ ++ +

... a funkcja testu.

Sprawdzian, egzamin gimnazjalny, testy

diagnostyczne typu OBUT,to testy w założeniu badające

szerokie spektrum umiejętności

Rozkład normalny

Zakładany kształt rozkładu wyników testu...

... a faktyczny rozkład wyników.

W praktyce bywa różnie

Zakładany kształt rozkładu wyników testu...

... a faktyczny rozkład wyników.

W praktyce bywa różnie Możemy jednak rozkład empiryczny spróbować dopasować

do założonego

Popularne skale wyników

typy skal

Założenia Przykłady

standardowe wyniki mają rozkład normalny

odchylenie standardowe jako jednostka pomiaru

skala staninowa

skala 500/100 (np. PISA)

skala 100/15

pozycyjne

odsetek wyników w grupie odniesienia jako jednostka pomiaru

centylowa

Skale standardowe

Skala staninowa

Dzieli rozkład normalny na 9 przedziałów (staniny)

Wyniki surowe przypisywane do staninów

Skale standardowe

Skala 500/100

Wykorzystywana np. w badaniach PISA Skala „ciągła”

Skale standardowe

Skala 100/15

Tzw. skala „IQ” Skala „ciągła”

Skala centylowa

Pochodna rozkładu skumulowanegoPrzyjmuje się, że jest 99 rang Wyniki są przypisywane do rang centylowych

Którą skalę wybrać?

500/100

100/15

Pożądane cechy skali wyników

Którą skalę wybrać?Problemy ze skalą staninową Za „gruboziarnista”

Utrata informacji: 41 wyników 9 wartości W obrębie stanina nie rozróżniamy wyników stanin wynik

Sprawdzian 2014

1 0 - 9

2 11 - 14

3 15 -19

4 20 - 24

5 25 - 28

6 29 - 32

7 33 - 34

8 35 - 37

9 38 - 40

Tu jest dwadzieścia kategorii punktowych

Którą skalę wybrać?Problemy ze skalą 500/100 Za „drobnoziarnista” Złudzenie precyzji (zwłaszcza przy krótkich testach) Skala wyników dziurawa

wynik Sprawdzian

2014

wynik na skali

500/100

... ...

5 245

6 266

7 284

... ...

20 434

21 444

22 454... ...

Którą skalę wybrać?

Problemy ze skalą centylową Ryzyko złączenia się kategorii punktowych Ryzyko dziur w rangach (przy krótkim teście) Statystyka lubi rozkład normalny

wynik Sprawdzian

2014

Percentyl(max. ranga)

... ...

5 1

6 1

7 1

... ...

20 25

21 28

22 32... ...

Którą skalę wybrać?

Skala 100/15

Dobra „gęstość” wyników Sensowny „zapas” precyzji (dla dłuższych testów) Nasz wybór !

wynik Sprawdzian

2014

wynik na skali 100/15

... ...

5 62

6 65

7 68

... ...

20 90

21 92

22 93... ...

Jak przełożyć wyniki surowe na skalę 100/15

metodą rozkładu skumulowanego w czterech prostych krokach

Bierzemy rozkład (procentowy)wyników surowych

Jak przełożyć wyniki surowe na skalę 100/15metodą rozkładu skumulowanego w czterech prostych krokach

Bierzemy rozkład wyników surowych(procentowy)

Przekształcamy go na rozkład skumulowany

Jak przełożyć wyniki surowe na skalę 100/15metodą rozkładu skumulowanego w czterech prostych krokach

Przekształcamy go na rozkład skumulowany

Porównujemy z rozkładem skumulowanym dla skali 100/15

Bierzemy rozkład wyników surowych(procentowy)

Jak przełożyć wyniki surowe na skalę 100/15

Przekształcamy go na rozkład skumulowany

Porównujemy z rozkładem skumulowanym dla skali 100/15

Bierzemy rozkład wyników surowych(procentowy)

I otrzymujemy wyniki na skali 100/15

wynik Sprawdzian

2014

wynik na skali 100/15

... ...

5 626 657 68

... ...

metodą rozkładu skumulowanego w czterech prostych krokach

Zalety używania skal standardowych

Wyniki mają znany rozkład w grupie odniesienia.

Wynik na skali łatwo porównać do rozkładu w grupie odniesienia (ile jest wyników poniżej/powyżej danego wyniku).

Różnice w wynikach indywidualnych na skali 100/15 są sensownie interpretowalne. Nie ma potrzeby wykorzystania wyników ułamkowych.

Może „obsłużyć” krótsze i dłuższe testy.

Gdzie jest wykorzystywana skala 100/15 ?

Porównywalne Wyniki Egzaminów http://pwe.ibe.edu.pl

Kalkulator EWD SP, wskaźniki EWD dla gimnazjów i szkół maturalnych http:// ewd.edu.pl

Testy wykorzystane w badaniu SUEK (TOS3 i TOS6) OBUT Test umiejętności na starcie szkolnym (TUNSS) Niektóre testy psychologiczne

Przykłady ilościowej interpretacji wyników na skali 100,15

• Wyraź poniższe wyniki w jednostkach odchylenia standardowego:

• 115• 95• 111

Ćwiczenia: wyrażanie wyniku w jednostkach odchylenia standardowego

• 145• 70• 105• 103

Przykłady ilościowej interpretacji wyników na skali 100,15

• Jaki procent uczniów w grupie odniesienia (kraju) uzyskał wynik wyższy niż:

• 115• 85• 112

Przykłady ilościowej interpretacji wyników na skali 100,15

• Jaki procent uczniów w grupie odniesienia (kraju) uzyskał wynik wyższy niż 112:

Wartość na skali

Procent skumulowany

104 60,51105 63,06106 65,54107 67,96108 70,31109 72,58110 74,75111 76,83112 78,81

Fragment rozkładu skumulowanego dla skali 100,15

100% – 78,18% = 21,82%

Ćwiczenia: podawanie odsetka wyników wyższych i niższych od danego

• 100• 87• 113• 133

Przykład przekładania wyniku surowego na skalę 100,15

• Na sprawdzianie 2013 uczeń uzyskał 12 punktów.

Wynik surowy

Procent skumulo-wany

10 5,82

11 7,86

12 10,17

13 12,74

14 15,52

Fragmenty rozkładów skumulowanych dla: wyników surowych wyników na

skali 100,15 Wartość na skali

Procent skumulo-wany

79 8,08

80 9,12

81 10,26

82 11,51

83 12,85

12 81

Ćwiczenia w przekładaniu wyniku surowego na wynik na skali 100,15: sprawdzian 2013

• 24• 9• 16• 28• 39

Ćwiczenia w przekładaniu wyniku surowego na wynik na skali 100,15: sprawdzian 2014

• 24• 9• 16• 28• 39

Zestawienie wyników dla 2013 i 2014 roku

Wynik surowy

Wynik na skali 100,15 w roku 2013

Wynik na skali 100,15 roku 2014

24 100 96

9 74 72

16 88 84

28 106 103

39 136 134

Przykład przekładania wyniku ze skali 100,15 na skalę staninową

• 108

Wartość na skali

Procent skumulowany

104 60,51105 63,06106 65,54107 67,96108 70,31109 72,58110 74,75111 76,83

Fragment rozkładu skumulowanego dla skali 100,15

Skal staninowa

108 = 6

Ćwiczenia w przeliczaniu wyników między skalami

• Proszę przeliczyć poniższe wyniki wyrażone na skali 100,15 na wynik w skali staninowej:• 100• 70• 129• 91• 121

Ćwiczenia w przeliczaniu wyników między skalami

• Proszę przeliczyć poniższe wyniki wyrażone na skali staninowej na wynik w skali 100,15: 1 5 8 9

Zestawienie wyników: 100,15 - staninowa

Wynik na skali 100,15

Wynik na skali staninowej

100 5

70 1

129 9

91 4

121 8

Wynik na skali staninowej

Wynik na skali 100,15 (w przybliżeniu)

1 do 74

5 96 - 104

8 119 - 126

9 127 i więcej

Badanie współzmienności wyników dwóch testów

• Czy zmianom jednej zmiennej towarzyszą zmiany drugiej zmiennej?

• Analiza graficzna: wykresy rozrzutu

• Możliwe do zastosowania statystyki:

- współczynnik korelacji r Pearsona

Korelacja dodatnia (pozytywna)współczynnik korelacji wyższy od zera

Korelacja ujemna (negatywna) współczynnik korelacji niższy od zera

Brak korelacji (zerowa) współczynnik korelacji bliski zeru

Korelacja nieliniowa

Konstruowanie testów osiągnięć szkolnych

Ostateczna postać testu

Badania pilotażow

e – w

ybór zadań, określenie rzetelności testu

Schemat konstrukcyjny testów osiągnięć szkolnych

Norm

y wykonania

Wynik surow

y

Zadania testow

e

Cele kształcen

ia

Skalow

anie

Wynik testu

Elementy składowe testu

1. Lista celów edukacyjnych

2. Plan testu

3. Zadania testowe

4. Schematy punktacji

5. Kwestionariusz testu i instrukcja testowania

6. Normy wykonania testu: ilościowe i treściowe

Lista celów edukacyjnych

• Fundament budowy testu• Cele dotyczą wiadomości i umiejętności, które

mają opanowywać uczniowie, a nie czynności nauczyciela

• Cele muszą być sformułowane w sposób jasny i jednoznaczny

• Lista celów nie powinna być zbyt długa; gdy zbyt długa:– łączenie celów w ogólniejsze– wyznaczenie priorytetów

Plan testu

• W najprostszej postaci tabela o postaci:

Cel edukacyjny Liczba zadań

Typy zadań Nr w kwestionariuszu

1. Umie przedstawić geometryczną interpretację mnożenia

4 2 WW, 2 KO 1,2,7,8

2. Potrafi przedstawić mnożenie jako dodawanie i odwrotnie

4 4 WW 3,4,5,6

3. Rozwiązuje zadania tekstowe, jednodziałaniowe na mnożenie

4 4 KO 9,10,11,12

Plan testu taksonomia ABC na podstawie B. Blooma

Cele

Materiał

Wiadomości Umiejętności Zastosowanie Razem

dodawanie 4 zadania 4 zadania 4 zadania 12

odejmowanie 4 zadania 4 zadania 4 zadania 12

mnożenie 4 zadania 2 zadania 4 zadania 12

razem 12 12 12 36

Plan testu: przykład kursu statystyki

Zadania testowe

• Zadanie testowe to wskaźnik opanowania celu edukacyjnego

• By rzetelnie wypowiadać się o opanowaniu celu potrzebujemy wielu wskaźników

• W wypadku szczegółowego celu wystarczy kilka zadań testowych

• W wypadku ogólnych celów potrzeba znacznie więcej zadań testowych

Zadania testowe: klasyfikacja

Schemat punktacji

• Schematy punktacji do zadań zamkniętych– Problem tzw. punktów ujemnych

• Schematy punktacji do zadań otwartych– Problem rzetelności oceny wykonania zadań

otwartych

Kwestionariusz testu i instrukcja przeprowadzenia testowania

• Szata graficzna testu

• Problem praw autorskich

• Kolejność zadań– Od najłatwiejszych do najtrudniejszych

• Instrukcja przeprowadzenia testu– Standaryzacja sytuacji testowej– Limit czasu: testy mocy vs testy szybkości

Norma ilościowa wykonania testu

• Interpretacja ilościowa wyniku testu: wynik testu na tle rozkładu wyników w grupie odniesienia

• Najprostsza norma: odniesienie wyniku do średniej w grupie odniesienia

• Standaryzacja wyniku: – skala staninowa– skale o zadanej średniej i odchyleniu standardowym– skale pozycyjne: centyle

Norma treściowa

• Wynik testu jako miara opanowania celów edukacyjnych

• Najprostsza norma treściowa: wskazanie od jakiego wyniku można uznać, że cel został opanowany w stopniu pozwalającym na dalsze uczenie się

• Złożone normy treściowe: zdefiniowanie kilku poziomów opanowania celu– Problem kumulatywności testu

Trafność testu

Trafność w testach osiągnięć

• Test jest trafny, gdy:– uczniowie wykonują, te operacje umysłowe,

na których nam zależy– możemy dostać na to dowód

Trafność zadania testowego

Trafność zadania - problemy

Przykład:

• Badana umiejętność: zasób słownikowy dziecka

Trafność zadania - problemy

Przykład:

• Badana umiejętność: zasób słownikowy dziecka, rozpoznawanie błędnego użycia słowa.

Trafność zadania zamkniętego - problemy

• Czy prawidłowa odpowiedź jest na pewno poprawna, a dystraktory błędne?

• Jakość dystraktorów: – Czy są prawdopodobne?– Czy zawierają typowe błędne przekonania

uczniów?– Czy wykorzystują prawdziwe stwierdzenia,

które nie są poprawną odpowiedzią?

Trafność zadania - problemy

• Czy treść zadania (polecenie, pytanie, możliwe odpowiedzi, rysunki i schematy) jest jednoznaczna, jasna i zrozumiała?– Język odpowiedni do wieku ucznia.– Główna myśl w pytaniu, nie w odpowiedziach.

• Czy w zadaniu nie ma nadmiaru słów? • Czy w pytaniu i możliwych odpowiedziach nie ma negacji?

Jeśli musi być, czy jest wyróżniona?• Czy poprawna odpowiedź jest dłuższa od dystraktorów?• Czy występują duże kwantyfikatory: zawsze, nigdy,

całkowicie, absolutnie.

Metody analizy trafności

• Analiza treściowa zadań - jw

• Analiza jakościowa rozwiązywania zadań przez uczniów (technika głośnego myślenia)

• Analiza statystyczna: związek z innymi miarami odniesienia

Rzetelność testu

Rzetelność testu

• Każdy pomiar obarczony jest niepewnością pomiarową

• Klasyczne ujęcie niepewności pomiarowej

wynik empiryczny = wynik prawdziwy + błąd pomiaru

Wynik prawdziwy: średni wynik z nieskończonej liczby powtórzeń testu

Wyniki

Wysokie Niskie

Uczeń

Błąd pomiaruBłąd pomiaru

Wynik ucznia w teście

Wyniki

Wysokie Niskie

Uczeń

Błąd pomiaruBłąd pomiaru

Wynik prawdziwy

Wynik ucznia w teście

Błąd pomiaru

Główne źródła błędu pomiaru w testach osiągnięć szkolnych

• Arbitralność doboru zadań testowych

• Niedostatki standaryzacji procedury testowej

• Zgadywanie w zadaniach zamkniętych

• Ocenianie zadań otwartych

• Ściąganie

• Losowe wahania dyspozycji intelektualnych ucznia

• Błędy systematyczne: stronniczość testu

Rzetelność punktacji – opis eksperymentu

Na podstawie: R. Dolata, E. Putkiewicz, A. Wiłkomirska Reforma egzaminu maturalnego: oceny i rekomendacje

Instytut Spraw Publicznych, badanie sfinansowane przez MENiS

Analiza rzetelności systemów punktacji

• Przedmiotem analiz były systemy punktacji przygotowane na maturę 2002:

– Język polski - wypracowania (arkusz I i III), rozumienie czytanego tekstu (arkusz II).

– Historia – test i interpretacja źródeł (arkusz I i II).– Matematyka – poziom podstawowy i rozszerzony

(arkusz I i II).

Procedura badania rzetelności

• Dobór prac.

• Przygotowanie prac do ponownego sprawdzania.

• Dobór egzaminatorów.

Problem trafności ekologicznej eksperymentu

• Czynniki mogące zawyżać oszacowanie rzetelności:- dobór egzaminatorów (posługiwanie się dobrze znanym

schematem punktacji),- pominięcie opcji (polski, historia).

• Czynniki mogące zaniżać oszacowanie rzetelności:- upływ czasu,- brak procedur oceniania grupowego

Metoda badania rzetelności systemów punktacji

• Każda praca była niezależnie sprawdzana przez ośmiu egzaminatorów. Problem wielkości próbki.

• Zbiór danych (dla każdego kryterium):

Lp E1 E2 E3 E4 E5 E6 E7 E8

1. 31 25 35 36 21 27 36 21

2. 55 41 59 25 26 21 36 54

3. 48 49 51 50 48 47 52 50

… … … … … … … … …

50. 21 18 19 20 21 21 19 20

Model analizy statystycznej

Prosty efekt egzaminatora Interakcyjny efekt egzaminatora

Efekt jakości pracy

Całkowita zmienność ocen

Wyniki analizy rzetelności punktacji dla wypracowania, arkusz III

22% 29%

49%

Całkowita zmienność ocen

Efekt jakości pracy

Prosty efekt egzaminatora Interakcyjny efekt egzaminatora

Efekt egzaminatora dla przykładowych wypracowań

Lp. Średnia ocena

Rozrzut ocen (SD)

Minimalna Maksymalna

39 60,3 18,9 29 86

48 46,9 18,5 11 67

18 43,4 18,2 24 72

28 57,5 17,1 33 80

06 46,0 16,6 19 77

Co odpowiada za niską rzetelności systemu punktacji arkusza III?

• Zawiodła przede wszystkim kryterialna skala rozwinięcia tematu (rzetelność=54%).

• Zła budowa skal szacunkowych:– skala kompozycji (rzetelność=33%),– skala stylu (rzetelność=31%),– skala poprawności językowej (rzetelność=34%).

• Użyto z założenia subiektywnej skali szczególnych walorów pracy (rzetelność=23%).

Najmniej i najbardziej rzetelne kryterium skali rozwinięcia tematu, arkusz III

• Kryterium 17: 77%– Dostrzeżenie roli puenty w Lekcji łaciny (przeciwstawienie poezji

łacińskiej i wkroczenia barbarzyńców)

• Kryterium 15.1.: 14%– Za pogłębione wnioski

• Ogólna prawidłowość: im wyższy poziom taksonomiczny, tym niższa rzetelność kryterium.

Przykład wadliwie skonstruowanej skali szacunkowej

Skala poprawności językowej wypracowania Na skali wyróżniono 4 punkty: 0, 5, 10 i 21 pkt.

Oto ich opis:• 0 – brak opisu,• 5 – w większości poprawna składnia i frazeologia, zgodna z normą

fleksja, nieliczne usterki leksykalne oraz nieliczne błędy ortograficzne i interpunkcyjne,

• 10 – poprawna, urozmaicona składnia i frazeologia, zgodna z normą fleksja, sporadycznie pojawiają się błędy ortograficzne i interpunkcyjne,

• 21 – poprawna, urozmaicona składnia i frazeologia, zgodna z normą fleksja i ortografia, rzadko pojawiające się błędy interpunkcyjne.

Zestawienie wyników analizy rzetelności systemów punktacji

Arkusz Rzetelność Prosty efekt egzaminatora

Interakcyjny efekt

egzaminatora

Polski, arkusz I 55% 16% 29%Polski, arkusz III 49% 22% 29%

Polski, arkusz II 80% 7% 13%

Historia, arkusz I 95% 2% 3%Historia, arkusz II 58% 29% 13%

Matematyka,

arkusz I99% 1% 0%

Matematyka,

arkusz II97% 1% 2%

Koniec opisu eksperymentu

Zapewnianie rzetelności testu: analiza mocy różnicującej zadań testowych

Krzywe charakterystyczne dla trzech zadań ze Sprawdzianu 2010

Zadanie X

Zadanie Y

Zadanie Z

Metody określania rzetelności wyniku testu

• Dwukrotne testowanie– Korelacja między wynikami dwóch testów

• Metoda połówkowa– Korelacja między wynikami dwóch połówek

• Wewnętrzna spójność testu– Wsp. rzetelności Alfa Cronbacha

Współczynnik rzetelności Alfa Cronbacha

Rzetelność jest to stosunek zróżnicowania wyniku prawdziwegodo zróżnicowania wyniku uzyskanego na podstawie testowania (będącegosumą zróżnicowania wyniku prawdziwego oraz zróżnicowania błędu pomiaru)

Intertretacja ws. Alfa Cronbacha

Wykorzystanie wsp. rzetelności w interpretacji wyniku testu

• Wyznaczanie przedziału ufności dla wyniku indywidualnego

Wyniki Wysokie Niskie

Uczeń

Idea szacowania przedziału ufnościIdea szacowania przedziału ufności

Wynik ucznia w teście

Wyniki Wysokie Niskie

Uczeń

Idea szacowania przedziału ufnościIdea szacowania przedziału ufności

Wyniki Wysokie Niskie

Uczeń

Idea szacowania przedziału ufnościIdea szacowania przedziału ufności

Wyniki Wysokie Niskie

Uczeń

Idea szacowania przedziału ufnościIdea szacowania przedziału ufności

Wyniki Wysokie Niskie

Uczeń

Przedział ufności

Idea szacowania przedziału ufnościIdea szacowania przedziału ufności

Idea szacowania przedziału Idea szacowania przedziału ufnościufności

Wyniki

Wysokie Niskie

Wynik mało prawdopodobny

(2,5%)(2,5%)

Funkcja prawdopodobieństwa

Wynik mało prawdopodobny

(2,5%)(2,5%)

Wynik prawdopodobny (95%)

Rzetelność testu

Przykład

Przykładowa informacja o wyniku ucznia dla rodziców, Massachusets, MCSA 2002 Prawdopodobieństwo, że

wynik ucznia znajduje się w przedziale wyznaczonym przez prostokąt wynosi 95%

Skalowanie wyniku testu

• Jaki rozkład ma wynik testu w populacji docelowej?

• Skale standardowe i pozycyjne

Normalizacja i standaryzacja skala o średniej 100 i odchyleniu standardowym 15

Wyniki pierwotne

Egzamin 1 Egzamin 2 Egzamin 3

Normalizacja i standaryzacja skala o średniej 100 i odchyleniu standardowym 15

Wyniki pierwotne

Wyniki znormalizowane

Egzamin 1 Egzamin 2 Egzamin 3

Wyniki pierwotne

Wyniki znormalizowane

Wyniki po przejściach

Test 1 Test 2 Test 3

Normalizacja i standaryzacja skala o średniej 100 i odchyleniu standardowym 15

Prosta analiza wyników testu

Analiza wyników dla grupy

• Klasa IIIa, 20 uczniówCel edukacyjny Norma

treściowaProcent uzyskanych przez klasę pkt

Procent uczniów, którzy opanowali cel

1. Umie przedstawić geometryczną interpretację mnożenia

60% 55% 40%

2. Potrafi przedstawić mnożenie jako dodawanie i odwrotnie

70% 80% 75%

3. Rozwiązuje zadania tekstowe, jednodziałaniowe na mnożenie

50% 60% 80%

Analiza wyników dla poszczególnych uczniów

• Janek K.Cel edukacyjny Procent

uzyskanych pkt

Czy opanował cel?

Wynik na tle klasy

1. Umie przedstawić geometryczną interpretację mnożenia

40% nie -15pp

2. Potrafi przedstawić mnożenie jako dodawanie i odwrotnie

85% tak +5pp

3. Rozwiązuje zadania tekstowe, jednodziałaniowe na mnożenie

60% tak 0pp

Wprowadzenie do IRT(probabilistyczna teoria odpowiedzi na zadanie testowe)

Pilotaż w

ersji przeznaczonych do danego zastosow

ania

Bank zadań

Badania pilotażow

e – w

ybór zadań do banku i określenie ich param

etrów

Schemat konstrukcyjny testów osiągnięć szkolnych

Item Response Theory

Norm

y wykonania

Wiele m

ożliwych w

ersji testu

Zadania testow

e

Cele kształcen

ia

Skalow

anie

Wynik testu

Podstawowe założenia i cechy IRT

• Wykonanie zadania testowego zależy od poziomu ukrytej (bezpośrednio nieobserwowalnej) dyspozycji umysłowej

• Skala pomiarowa jest kumulatywna

• Poziom ukrytej dyspozycji wyznacza prawdopodobieństwo poradzenia sobie z danym zadaniem testowym (uwzględnienie czynników losowych)

• Jedno- lub wielowymiarowość danego testu

• Model zależności ukryta dyspozycja - radzenie sobie z zadaniem podlega empirycznemu testowi (zgodność modelu z danymi)

• Trudność zadań i poziom ukrytej dyspozycji umysłowej ucznia można lokować na jednej skali

• Jak rozumieć pojęcie ukrytej dyspozycji?

Interpretacja związku między poziomem wykonania dwóch zadań

• Analiza dla zadań 0-1

zadanie 2

wykonał nie wykonał

zadan

ie 1

wykonał a b a+b

nie wykonał

c d c+d

a+c b+d a+b+c+d

Korelacja negatywna między dwoma zadaniami

zad. 2

1 0

zad. 1

1 0 50

0 50 0

zad.1 zad. 2

dysp. x dysp. y

Φ=-1,0

Wykluczające się dyspozycje

Brak korelacji między dwoma zadaniami

zad. 2

1 0

zad. 1

1 25 25

0 25 25

zad.1 zad. 2

dysp. x dysp. y

Φ=0,0

niezależne dyspozycje

Korelacja pozytywna między dwoma zadaniami

zad. 2

1 0

zad. 1

1 50 0

0 0 50

zad.1 zad. 2

dysp. x

Φ=1,0

wspólna dyspozycja

Odkrywanie ukrytych wymiarów

• Analizując empiryczne powiązania między zadaniami odkrywamy ukryte dyspozycje umysłowe mierzone przez dany test

• Do wyjaśnienia radzenia sobie z danym zbiorem zadań może wystarczyć jedna (test jednowymiarowy) lub kilka (wielowymiarowy) ukrytych dyspozycji umysłowych

• W praktyce stosuje się jednowymiarowe modele IRT

• Jak rozumieć kumulatywność skali pomiarowej?

Zależności kierunkowe między zadaniami

zad. 2

1 0

zad. 1

1 50 20

0 0 30

zad.1 zad. 2

wspólna dyspozycja

zad. 1 / zad. 2

zad. 2 zad. 1

Trzy wiązka trzech zadań tworzy kumulatywną skalę?

zad.1 zad. 3

wspólna dyspozycja

zad. 2

Sprawdzanie, czy wiązka trzech zadań spełnia warunek kumulatywności (skalogram Guttmana)

Wzorzec odpowiedzi

Liczba przypadków

Wynik surowy

Wynik skalowy

Wzo

rce zgo

dn

e

000 15 0 0

100 25 1 1

110 30 2 2

111 20 3 3

Wzo

rce niezg

od

ne

101 5 2 3

010 2 1 2

011 2 2 3

001 1 1 3razem 100

Jak uwzględniamy działanie czynników losowych?

Prosty determinizm poziom dyspozycji radzenie sobie z zadaniem

nie radzi sobie z zadaniem

radzi sobie z zadaniem

niski poziom dyspozycji umysłowej wysoki

pra

wd

op

od

ob

ień

stw

o

po

rad

zen

ia s

ob

ie z

za

da

nie

m

1

Związek probabilistyczny – model prostoliniowy

niski poziom dyspozycji umysłowej wysoki

1

pra

wd

op

od

ob

ień

stw

o

po

rad

zen

ia s

ob

ie z

za

da

nie

m

Związek probabilistyczny – model logistyczny

niski poziom dyspozycji umysłowej wysoki

1

pra

wd

op

od

ob

ień

stw

o

po

rad

zen

ia s

ob

ie z

za

da

nie

m

Jak empirycznie testujemy teorię związku poziomu dyspozycji umysłowej

z radzeniem sobie z danym zadaniem?

Przykład modelu dobrze dopasowanego do danych

niski poziom dyspozycji umysłowej wysoki

1

pra

wd

op

od

ob

ień

stw

o

po

rad

zen

ia s

ob

ie z

za

da

nie

m

Przykład modelu źle dopasowanego do danych

niski poziom dyspozycji umysłowej wysoki

1

pra

wd

op

od

ob

ień

stw

o

po

rad

zen

ia s

ob

ie z

za

da

nie

m

Lokowanie zadania na skali

niski poziom dyspozycji umysłowej wysoki

1,0

pra

wd

op

od

ob

ień

stw

o

po

rad

zen

ia s

ob

ie z

za

da

nie

m

-4 -3 -2 -1 0 1 2 3 4

0,5

Zadanie x

Zestaw 5 zadań tworzących skalę

-4 -2 0 2 4

0.0

0.2

0.4

0.6

0.8

1.0

Krzywa charakterystyczna odpowiedzi

Cecha ukryta

Pra

wd

op

od

ob

ień

stw

o p

op

raw

ne

j o

dp

ow

ied

zi

niski poziom dyspozycji umysłowej wysoki

Określanie trudności tych zadań

-4 -2 0 2 4

0.0

0.2

0.4

0.6

0.8

1.0

Krzywa charakterystyczna odpowiedzi

Cecha ukryta

Pra

wd

op

od

ob

ień

stw

o p

op

raw

ne

j o

dp

ow

ied

zi

niski poziom dyspozycji umysłowej wysoki

Lokowanie ucznia na skali Metoda największej wiarygodności

Warunkowe prawdopodobieństwo poradzenia sobie z zadaniem

Jaś:

110--

Małgosia:

--110Zad. 1 Zad. 2 Zad. 3 Zad. 4 Zad. 5

-3 0,15 0,05 0,01 0,01 0,01 0,007 0,001

-2 0,50 0,15 0,05 0,01 0,01 0,070 0,001

-1 0,90 0,50 0,15 0,05 0,01 0,383 0,007

0 0,95 0,90 0,50 0,15 0,01 0,428 0,074

1 0,99 0,95 0,90 0,50 0,15 0,094 0,383

2 0,99 0,99 0,95 0,90 0,50 0,049 0,428

3 0,99 0,99 0,99 0,95 0,90 0,010 0,094

Recommended