Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
A tesztek értékelése
2012.02.24. Tesztelmélet 2
Módszerek: Gépi
Emberi
Kevert
Ellenőrzés, értékelés célja – a visszajelzés (oktatási
folyamat, hallgató, szülő, társadalom).
Tesztek az oktatásban
2012.02.24. Tesztelmélet 3
Értékelés formái:
Kvalitatív vagy minőségi:
Eredmények szóbeli, irásbelielemzése, értékelése. Szubjektív
Kvantitativ:
a teljesítményhez valamilyen számszerű értéket rendelünk. (átmenet: elfogadható/elfogadhatatlan)
Az értékelhető teljesítményt skála alapján minősítjük
Becslés: - gondolatban helyezzük és értékeljük a megfigyelt teljesítményt. (négyesség, ötösség, nem rögzített).
Tudás tesztelése
2012.02.24. Tesztelmélet 4
A tesztek az oktatás különböző szakaszaiban jelennek meg.
Teszt: egy sajátos dolgozat, amely célszerűen válogatott feladatokat tartalmaz. A feladatokat gyorsan, egyszerűen, megbízhatóan lehet értékelni.
Jellemzői:
Nagy létszám
Térben és időben távol eső teljesítmény mérése
Oktatási eljárások hatékonyság vizsgálata
Tudásszintmérés
2012.02.24. Tesztelmélet 5
Tudásszintmérés esetében pontosan körülhatárolható az a tudás, ami 100%-nak tekinthető.
Csoportosítása:
Standartizált
Tanár által készített
Tulajdonság (adottság) tesztek-jövőbe tekintenek: prediktív
Teljesíténytesztek: a múltban elsajátított tudást méri (feladatlap, mérőlap)
Pedagógiai mérés folyamata
2012.02.24. Tesztelmélet 6
A pedagógia mérések eszköze: Teszt
Teszt jelentése – próba
Tesztek: pedagógia (tudás), pszichológiai teszt (személyiségvonás, stb)
Mérőeszköz elkészítése
Skála létrehozása a mérőeszközön
Mérőeszköz hozzáillesztése a megvizsgált tulajdonsághoz, teljesítményhez
Tesztek közreadásának szempontjai
2012.02.24. Tesztelmélet 7
• Mit mér a teszt?
• Miért van rá szükség?
• Honnan vannak a tételek?
• A teszt készítésébe bevont minták jellemzoi
• Leíró statisztikák (tételekre, skálákra)
• Megbízhatósági (reliabilitási) mutatók
• Érvényességi (validitási) mutatók
• Gazdaságossági (utilitási) mutatók
• Maga a teszt (skálák és azok tételei)
A tesztfejlesztés menete (ajánlott lépései)
2012.02.24. Tesztelmélet 8
A teszt írása (előzetes tétel-együttes összeállítása)
pontos leírás a mérendőről
tételek összegyűjtése
tételek ellenőrzése
válaszadó számára arról szóljon, amit mérni akarunk (nem mindig fontos)
egyértelmű fogalmazás, ne "kavarja fel" a kitöltőt
használat előtt kisebb mintán ki kell próbálni
A teszt szükség szerinti módosítása a pszichometriai feldolgozás eredményei alapján
egyes skálák vagy tételek elhagyása
új skálák vagy tételek hozzáadása
Teszt-felvétel
Pszichometriai feldolgozás (az egyes lépések további szükség szerinti ismétlése amíg egy megbízható és érvényes tesztet kapunk)
Tudásszintmérés problémái
2012.02.24. Tesztelmélet 9
1960-as évek végén megválaszolatlan kérdések merültek fel:
Nem feltétlenül normális eloszlású a tudásszintmérő teszt által kapott eredmény
Ha mindenki 100%-t ír, akkor nincs szórása, a klasszikus tesztelmélet képletei használhatatlanokká válnak.
A probabilisztikus_valószínűségelméleti tesztelmélet ezt
feloldja.
Tesztelméleti alapok
2012.02.24. Tesztelmélet 10
Lehetőség:
• képesség- és intelligencia-tesztek, személyiségvizsgáló eljárások,
• az autóvezetési tudást vagy a nyelvtudást mérő skálák, az egyes tantárgyakban elért eredményeket tükröző pontszámok,
• skálázott orvosi leletek,
• a hitelképesség skálázott mutatói,
• a munkahelyi teljesítményt mérő pontszámok, stb.
Tesztelméleti alapok
2012.02.24. Tesztelmélet 11
Azonban mi is gyakran mérjük vagy minosítjük ilyen módon a külvilágunk egyes szereplőit (más embereket),
élményeinket, objektumokat (tárgyakat, termékeket, szolgáltatásokat, társadalmi jelenségeket stb.)
Véleményünket vagy meggyőződésünket gyakran fejezzük ki különböző mások által készített (konstruált) és számunkra felkínált skálákon (pszichológiai és szociológiai felmérések, piackutatások vagy a legkülönbözőbb célú közvélemény kutatások alkalmával).
A pszichológus gyakran maga konstruál skálákat
Tesztelméleti alapok
2012.02.24. Tesztelmélet 12
A tesztek fogalma és típusai
A teszt szisztematikus eljárás két vagy több személy viselkedésének az összehasonlítására.
„A test is a systematic procedure for comparing the behavior of two or more persons” Cronbach (1949, 1960)
A tesztek típusai: intelligencia-tesztek
teljesítmény-tesztek
képesség-tesztek
érdeklődési tesztek
neuropszichológiai tesztek
személyiség-tesztek
viselkedési tesztek, stb.
A tesztek használata szerzői jogok által védett!
Sok teszt felvétele kiképzéshez
Klasszikus tesztelmélet
2012.02.24. Tesztelmélet 13
A tesztelmélet alapjai 1910-es, a kifejlesztett kérdései az 50-es években láttak napvilágot.
A teszt pedagógia/pszichológia mérőeszköz.
Egységei:
a szubteszt (rész-teszt). A szubteszt tekinthető önálló tesztnek is.
A tesztek feladatokból épülnek fel
A feladatok legkisebb, önállóan is értelmezhető része az item.
A klasszikus tesztelmélet alapjai
2012.02.24. Tesztelmélet 14
A tesztek túlnyomó része világszerte még a klasszikus
tesztelmélet alapján készül.
Minden egyes itemre (item: feladat, kérdés, tétel,...) adott válasz egyformán fontos a tesztérték (összpontszám) meghatározásában.
Bizonyos esetekben nem az összpontszámmal, hanem
átlagpontszámmal dolgozunk (pl. ugyanazon célra kifejlesztett
különböző hosszúságú tesztek eredményeinek összevetése)
A klasszikus tesztelmélet alapjai
2012.02.24. Tesztelmélet 15
A tesztelmélet célja: a felmerülő kérdéseket (Mennyire jól mér) matematikai úton fogalmazzuk meg.
A klasszikus tesztelmélet alapegyenlete:
X = t + ε Azaz a megfigyelt (vagy tapasztalati úton mért) érték (X)
egyenlő a valódi érték (t = true score) és a hiba (ε = error) összegével.
A mérés célja a t valódi érték minél jobb közelítése az ε hiba csökkentésével.
Alapvető elvárás a környezeti tényezők figyelembe vétele és a mérés azonos körülmények közötti elvégzése.
A körülmények lényeges változása a hiba nagyságának „szisztematikus” változását eredményezheti.
A klasszikus tesztelmélet alapjai
2012.02.24. Tesztelmélet 16
Az eredményhez hozzátartozik a hiba nagyságának a becslése, ami – a fizikai
mérések mintájára – ismételt mérésekkel történik (a mért érték ingadozásának
nagyságából becsülhető a hiba).
Az ismétlések számának növelésével a véletlenszerű hiba hatása csökkenthető.
Amikor – pl. tanulási hatás, elfáradás stb. miatt – a teszt felvétele nem ismételhető,
akkor az ún. párhuzamos tesztváltozatokat kell alkalmazni.
Két teszt akkor párhuzamos, ha bármely személy esetében az egyik teszttel kapott
valódi érték megegyezik a másik teszthez tartozó valódi értékkel és emellett a két
teszt hibaszórása is egyenlő, azaz ugyanolyan „jól” mérnek (ha a szórások nem
azonosak, akkor a tesztek „ő-ekvivalensek”).
Axiómák
2012.02.24. Tesztelmélet 17
1. Feltételezzük, a hiba átlaga, a várható értéke :
M(ε )= 0
(a valódi értéktől olyan mértékben térnek el a vizsgált személyek ± irányban, azok statisztikusan kiegyenlítik egymást.
2. Statisztikailag: a valódi érték és a hiba közötti korreláció 0. A hiba és a valódi érték között semmilyen kapcsolat nincs
korr(t, ε) = 0
3. Annál jobban méri a tesztünk a mérni kívánt jellemzőt, minél inkább összefügg a valódi érték a mért értékkel. Statisztikailag: M és V erősen korrelál.
Ez a tesztek megbízhatósága, reliabilitása
Reliabilitási koefficiens rt
3. A klasszikus tesztelmélet alapfeltevései (axiómái)
2012.02.24. Tesztelmélet 18
Két párhuzamos teszt hibái közti korrelációs együttható zero,
korr (ε1, ε 2 ) = 0
Ha az egyik teszt hibája a másik – vele párhuzamos – teszt hibájával korrelál, az azt jelenti, hogy az esetleges hibák együtt változnak.
Ha a korreláció pozitív, akkor ha az egyik tesztben egy adott személynél a mérési hiba nagy, akkor várhatóan a másik teszt esetében is nagy lesz a hiba értéke.
Ez arra utal, hogy a tesztek között olyan kapcsolat áll fenn, aminek nincs köze a valódi értékhez, tehát a teszt értelmezését zavarja (szisztematikus hiba).
A tesztek jóságmutatói
2012.02.24. Tesztelmélet 19
Objektivitás: a teszt tárgyilagos, nem szubjektív.
Független attól ki végzi a teszttel a mérést.
Validitás: érvényesség, a teszttel valóban azt mérjük,
amire készítettük
Reliabilitás: megbízhatóság. Mérése a reliabilitás
mutatókkal.
Objektivitás
Az objektív tárgyszerűt, tárgyilagost jelent, nem szubjektív jellemző.
A tesztek objektivitása alatt értendő, hogy hogy az eredmény
kizárólag a vizsgált személy tulajdonságai alapján jöttek létre, a
kutató személyétől függetlenül.
Adatfelvételi objektivitás: tesztelési helyzet pontos meghatározása
Kiértékelési objektivitás: javítókulcs megadása értékelési utasítás, stb.
Értelmezési objektivitás: útmutatóval, referenciafeladatok biztosítása,
érdemjegyre váltás szabályainak megadása
A megbízhatóság _ reliabilitás
2012.02.24. Tesztelmélet 21
A megbízhatóság azt fejezi ki, hogy a teszt mennyire pontosan mér.
Számszerűen jellemezve 0 és 1 közötti érték jellemzi. (akkor lenne a legjobb
azaz 1, ha a teszttel többször egymás után mérve a tanulók eredményei egymáshoz viszonyítva ugyanazt az eredményt adnák).
Ezt sok esetben egyszerűen úgy vizsgálhatjuk meg, hogy a tesztet több alkalommal
felvesszük: minél kisebb az eltérés a mérési eredmények közt, annál megbízhatóbb a
tesztünk.
Ha azonban egy olyan mérőeszközzel dolgozunk, melynek felvétele nem ismételhető,
akkor a párhuzamos tesztváltozatát kell alkalmaznunk: ilyenkor elvárható, hogy
hasonló – de a mérési hiba miatt nem feltétlen azonos – eredményt kapjunk.
A teszt megbízhatóságának mértéke a reliabilitás-együttható, és ezt pl. lehet becsülni a
teszt és annak egy párhuzamos tesztjével számított korrelációjával.
A megbízhatóság
2012.02.24. Tesztelmélet 22
Klasszikus tesztelméletben:
A teszt megbízhatóságának mértéke a teszt és annak egy párhuzamos tesztjével számított korrelációjával egyenlő a valóságos és a mért érték közötti korreláció négyzetével.
A fenti lehetőségek tényleges érték kiszámítására nincs közvetlen lehetőség, becsülni lehet különböző módszerek alkalmazásával. A pedagógiai gyakorlatban a leggyakrabban alkalmazott a Crombach- α meghatározása.
Validitás _ érvényesség
A teszt azon tulajdonsága, hogy valóban azt méri-e amit célul tűztünk ki.
Validitás 0 és 1 közötti értékkel jellemezhető
Validitás képlete egy specialis reliabilitás képlet (Horváth, 1993)
Formái
Előrejelző, prediktív
Tartalmi, összhang a tudományos eredményekkel
Ha a teszt érvényes (valid), akkor megbízható (reliabilis), de fordítva nem igaz.
A megbízhatóság
2012.02.24. Tesztelmélet 24
A megbízhatóság a megfigyelt, a valódi és a hiba értékek varianciájának figyelembevételével adható meg.
A valódi érték és a hiba közötti korrelálatlanságnak és a variancia tulajdonságainak következtében kapjuk, hogy:
Látható, hogy a hiba varianciájának csökkenése, azaz a pontosabb mérés, a megfigyelt érték és a valódi érték közötti „azonosságot” növeli, azaz a valódi értéket így egyre jobban meg tudjuk közelíteni.
)var()var()var( tX
A megbízhatóság_Reliability
2012.02.24. Tesztelmélet 25
1. A megbízhatóságot – Reliability (rel-el jelöljük) úgy értelmezzük (a párhuzamos tesztek korrelációjának bevezetése nélkül), hogy az megegyezik a valódi érték és a megfigyelt érték varianciáinak hányadosával, azaz:
2. Bizonyítható, hogy a megfigyelt megbízhatóság megegyezik a teszt megfigyelt értékének és a valódi értékének négyzetes korrelációjával:
Probléma, hogy a valódi értéket, ill. annak varianciája nem ismert , így a megbízhatóságot csak becsülni lehet (pl. párhuzamos tesztek korrelációjával)
)var(var(t)
tvarXrel
),()( 2 tXkorrXrel
Az érvényesség_Validity
2012.02.24. Tesztelmélet 26
Az érvényesség annak a mértéke, hogy a teszt tartalmilag, szerkezetileg és még más egyéb kritériumoknak és mérési célkitűzéseknek mennyire felel meg.
Meghatározásához egy viszonyítási alapra, – „etalonra” vagy „standardra” – van szükség (fizikai mérések esetében ez kevésbé jelent problémát, mentális mérések esetében bonyolultabb).
Mivel egy teszt „jóságának” több kritériuma is lehet, több szempontból is megítélhető az érvényesség.
Az érvényesség
2012.02.24. Tesztelmélet 27
Igazolható, hogy párhuzamos tesztek validitása a reliabilitással azonos. A megbízhatóság az érvényesség egy speciális esete az ún.
„konkurens–validitás”
(annak vizsgálata, hogy a tesztünk mennyire korrelál egy másik teszttel ill. kritériummal) különösen fontos, mivel megvilágítja a megbízhatósági vizsgálatok jelentőségét.
Belátható, hogy a teszt mért-értéknek egy kritérium változóval (Krit) való korrelációja mindig kisebb vagy egyenlő a teszt mért-értéknek a valódi értékkel vett korrelációjánál, azaz:
),(),( tXkorrKritXkorr
Az érvényesség
2012.02.24. Tesztelmélet 28
így egy tesztnek a konkurens–validitása legfeljebb olyan nagy lehet, mint a megbízhatóságának négyzetgyöke.
Ebből következik, hogy egy teszt validitása lehet ugyan nagyobb, mint a megbízhatósága (mivel 1-nél kisebb pozitív szám négyzetgyöke nagyobb az illető számnál), azonban ha a megbízhatóság értéke kicsi, akkor a négyzetgyöke, azaz a validitása sem lesz lényegesen nagyobb.
Alacsony megbízhatóságú tesztet ezek alapján nem lehet érvényes tesztnek sem tekinteni, ami előrevetíti a tesztek megbízhatóság-becslésének fontosságát.
),()( 2 tXkorrXrel
Mivel:
A klasszikus tesztelmélet korlátai
2012.02.24. Tesztelmélet 29
Feltételezi, hogy:
A létrehozott skála értékei intervallum szintű skálát alkotnak (tehát pl. értelmes a mért értékek átlagáról, szórásáról beszélni, ez azonban empirikusan gyakran nem igazolható)
A teszt- és itemmutatók populáció függőek, értékük függ, hogy milyen jellegű mintából nyerjük az adatokat (egy adott teszt megbízhatósága más lesz, ha mondjuk egyetemisták, vagy ha nyugdíjasok köréből vesszük a mintát, annak ellenére, hogy pl. mindkét esetben az intelligenciát próbáltuk mérni).
vannak olyan mérési hibák, amelyeket nem kiküszöbölhetőek és nem korrigálhatóak. Következmény: a teszt a szélső tartományokban nem mér elég pontosan.
II. Valószínűségi tesztelmélet ún. „modern tesztelmélet”
2012.02.24. Tesztelmélet 30
A teszt-itemek tulajdonságait a valószínűség eszközeivel jellemzi.
Az eset, hogy a tanuló megold egy teszt-itemet, nem determinisztikus, hanem valószínűség alapú.
A megoldás valószínűsége függ a tanuló tudásától.
Az itemek jól kifejezik az itemhez rendelt valószínűségeloszlást.
Az ún. „modern tesztelmélet” (MT) lassan terjed
2012.02.24. Tesztelmélet 31
nem a skálán, hanem az itemeken van a hangsúly
az itemeket véletlen változóknak tekintjük
a „p” valószínűségek egyaránt függnek az item nehézségétől és a személytől
mindkettőt közös dimenzióra hozzuk egy megfelelő kétváltozós függvényben
Item
2012.02.24. Tesztelmélet 33
item differenciáló ereje vagy megkülönböztető képessége azt mutatja meg, hogy az item mennyire érzékeny a tanulók tudására, mennyire élesen tesz különbséget a különböző tudásszintű tanulók között
Itemek jellemzői
Az item nehézsége, nehézségi index: rámutat az itemet
milyen valószínűséggel oldja meg a tanuló.
Item nehézségi index:
Értéke 0 és 1 között van, (minél nagyobb, annál könnyebb az item)
2012.02.24. Tesztelmélet 34
számaulókmegoldófeladatot
számamegoldásjó
_tan__
__
Item karakterisztikus görbe (Paraméterek és jellemzők)
2012.02.24. Tesztelmélet 35
1 – Ta alatt nem tudták megoldani,
az item két csoportra osztja a
tanulókat
2 – Átlagosan a Ta tudásszinttel
rendelkező tanulók oldják meg. A
tanulók tudásszintjének növekedésével
nő annak a valószínűsége, hogy aaz
itemet megoldják, de Ta felett sem
hibátlan a munkájuk.
Az „S” alakú göbék esetében a maximumot csak megközelíteni lehet. Az itemek nagy
differenciáló erővel rendelkeznek, érzékenyen különbséget tesznek a tanulók között.
3 – az itemet csaknem ugyanolyan
valószínűséggel oldják meg a gyenge
tanulók, mint a magas tudásszinttel
rendelkezők. Lapos, nem differenciál a
tanulók között. Ki kell hagyni a
tesztből!.
4 és 5 – két párhuzamosan futó görbe, olyan, mintha a tanulók tudásszintjéta
tengelyen pozitív irányba toltuk volna el. A két item nehézségében van csak
különbség.
Skálák megbízhatósági analízise (Reliability Analysis)
2012.02.24. Tesztelmélet 36
Cronbach-féle alfa _ α korrelációs együttható, ezért
általában 0 és 1 közötti értékeket vesz fel.
Abban az esetben, ha a tételek többsége egymással negatívan korrelál negatív is lehet, ez azonban a gyakorlatban ritkán fordul elő, mert általában már az első skála verzió is valamilyen minimális - esetleg tesztként való használatra még nem elfogadható -mértékben konzisztens.
A kérdés az, hogy elég szoros pozitív kapcsolat van-e a tételek között egy skálán belül, és nem az, hogy egyáltalán pozitív-e a kapcsolat.
Skálák megbízhatósági analízise (Reliability Analysis)
2012.02.24. Tesztelmélet 37
Adott: egy adatbázis, amelyben az egyes változók egy több összetartozó tételből álló skála tételeinek felelnek meg.
Cél: a vizsgált skála belső konzisztenciáját, valamint az egyes tételek ehhez történő hozzájárulását jellemző mutatók számítása.
Az eljárás eredménye a skála egészét és az egyes tételek szerepét megalapozottan jellemző mutatók, amelyek segítségével a skála megbízhatósága megítélhető, ha szükséges - egyes tételek kihagyásával vagy hozzáadásával - javítható.
Skálák megbízhatósági analízise (Reliability Analysis)
2012.02.24. Tesztelmélet 38
Egy tétel megbízhatósága akkor jó, ha ugyanazt méri, mint a teljes skála
összpontszáma.
Mérése:
rx(i),x = ri,t "item-total" korreláció torzít, helyette:
rx(i),x- x(i) = ri,ct „item-összes többi összege" korreláció, vagy
"item-összes többi" többszörös korreláció
Egy tétel szeparációs képessége akkor jó, ha szóródási mutatói
(terjedelem, szórás, stb.) magasak
Skálák megbízhatósági analízise (Reliability Analysis)
2012.02.24. Tesztelmélet 39
Skálák megbízhatóságának intuitív megragadása:
1. Egy skála megbízhatósága akkor jó, ha megismételve ugyanazt adja.
Ennek mérése: teszt-reteszt korreláció: rx,x'
2. Egy megbízható skála tételei mind ugyanazt a dolgot mérik, ezért a skála egy része is hasonló dolgot mér, mint a skála egésze. Ennek mérése: a skála két fele közötti korreláció.
Felezési technikák: első fél - második fél ("split-half"), páratlan és páros tételek, kisorsoljuk a feleket, elvi meggondolással osztjuk el.
Skálák megbízhatósági analízise (Reliability Analysis)
2012.02.24. Tesztelmélet 40
A mátrixból tehát az egyes tételek és a skála egészének a kapcsolatát jellemző Item-total summary statistics gyűjtőnévvel jelölt statisztikák is kiszámíthatók.
A Scale Mean if Item Deleted azt adja meg, hogy mennyi lenne a skálaátlag, ha az adott tételre kapott pontszámokat az összesítésből kihagynánk. Erre akkor van szükség, ha a skála várható konkrét számszerű értékei érdekelnek bennünket: pl. standardok készítése esetén.
A Scale Variance if Item Deleted az előzőnek megfelelő adat a
varianciára, amely szintén fontos adat standardok készítéséhez.
Skálák megbízhatósági analízise (Reliability Analysis)
2012.02.24. Tesztelmélet 41
Corrected Item-Total Correlation az adott tétel pontszámai és az összes többi tételre kapott pontszámok összegeként számított "javított" teljes skála-pontszámok közötti korrelációs együtthatókat tartalmazza.
Ez a tétel megbízhatóságának mértéke és alkalmas a skála egészéhez nem illeszkedő tételek kiszűrésére.
Ha ugyanis ez az érték valamelyik tételre kiugróan kicsi, akkor ez azt jelenti, hogy az a tétel valami mást mér, mint az összes többi és ezért
megfontolandó az átfogalmazása vagy kihagyása.
Skálák megbízhatósági analízise (Reliability Analysis)
2012.02.24. Tesztelmélet 42
A Squared Multiple Correlation az adott tétel pontszáma (mint függő változó) és az összes többi tételek pontszámai (mint független változók) közötti kapcsolatra felírt többszörös regressziós egyenletből számított ún. többszörös korrelációs együttható négyzete (R2).
Ez szintén a tétel megbízhatóságának mértéke: azt adja meg, hogy milyen mértékben jósolható be egy adott személy pontszáma az adott tételben a személy összes többi tételre vonatkozó pontszámainak ismeretében.
Az is bizonyítható, hogy R2 a regressziós kapcsolattal "megmagyarázott" variabilitás mértéke.
Skálák megbízhatósági analízise (Reliability Analysis)
2012.02.24. Tesztelmélet 43
A Cronbach-féle alfa (az ún. megbízhatósági koefficiens):
ahol k a tételek száma a skálában, a tételek közötti átlagos kovariancia, pedig a tételek átlagos varianciája.
Ha a tételeket egységnyi standard deviációjúakra standardizáljuk az előbbi formula a következő alakot ölti:
Ahol a tételek közötti átlagos korrelációs együttható.
rav/voc)1(1
rav/voc
k
k
rrk
rk
)1(1
Skálák megbízhatósági analízise (Reliability Analysis)
2012.02.24. Tesztelmélet 44
A Cronbach-féle alfának a következő két szemléletes interpretációja van.
felfogható úgy, mint az adott konkrét skála és az azzal azonos
számú hasonló tételeket tartalmazó összes lehetséges skála között
páronként várható korrelációs együtthatók átlaga.
Elvben a vizsgált skálánk mellé megkonstruálható a mérni kívánt
tulajdonsághoz kapcsolódó tételek hipotetikus világából az összes
lehetséges azonos számú tételből álló többi skála is, és az ezekkel
való korrelációs együttható várható értéke.
Skálák megbízhatósági analízise (Reliability Analysis)
2012.02.24. Tesztelmélet 45
A Cronbach-féle alfa képlete alapján látható, hogy értéke egyaránt függ a tételek számától és a tételek közötti átlagos korrelációs együtthatótól.
Következtetés, hogy még alacsony tételek közötti korrelációk esetén is kaphatunk viszonylag nagy megbízhatósági koefficienst, ha a tételek száma elég nagy.
Így például ha a tételek közötti átlagos korrelációs együttható 0.2 és a tételek száma 10, az α =0.71.
Ha új - és a korábbiakkal egyező minőségű tételekkel kiegészítve a skálát és a tételek számát 25-re növelve, akkor α =0.86 lesz.
Skálák megbízhatósági analízise (Reliability Analysis)
2012.02.24. Tesztelmélet 46
A két teszt felvétele között eltelt rövidebb idő nagyobb megbízhatóságot eredményez ("test-retest reliability").
Rendszertelenségek csökkentik a skála megbízhatóságát. Ha a teszt felvételének körülményei nem világosan rögzítettek, vagy az egyébként világos és helyes előírásokat nem tartják be, vagy a fizikai feltételek alkalmilag kedvezőtlenek, vagy a személyek motivációja jelentősen eltérő, akkor alacsonyabb lesz a skála megbízhatósága.
Skálák megbízhatósági analízise (Reliability Analysis)
2012.02.24. Tesztelmélet 47
A split-half módszer hátránya, hogy az eredmény függ attól, hogy milyen módon történik a skála kettéosztása.
Ezt a módszert kombinálni szokták a Cronbach-féle alfa számításának módszerével: egyéb mutatók mellett rendszerint az értékét is kiszámolják a két fél skálára és azokat bevonják az értékelésbe.
A főkomponens-analízis is alkalmazható (az ún. Theta megbízhatósági együttható számítása útján) a skála megbízhatóságának meghatározására. Előnye, hogy a tételeket nem azonos súllyal, hanem fontosságuknak megfelelően kezeli.
Skálák megbízhatósági analízise (Reliability Analysis)
2012.02.24. Tesztelmélet 48
A megbízhatóságot a tételek száma (a skála hossza) mellett a következő tényezők is befolyásolják.
A vizsgált minta heterogenitása növeli a megbízhatóságot: ha olyan személyekkel veszünk fel egy skálát, akik között a mért tulajdonságban jelentős különbségek vannak, nagyobb lesz a skála megbízhatósága.
Skálák megbízhatósági analízise (Reliability Analysis)
2012.02.24. Tesztelmélet 49
Másik gyakran alkalmazott megbízhatósági modell az ún.
"kettévágott skála" (Split-half model) módszere.
Míg a Cronbach-féle alfát egyetlen skála tételei konzisztenciájának vizsgálatára használjuk, addig a split-half módszer esetén a vizsgálandó skálát kettévágjuk két azonos - páratlan tételszám esetén közel azonos hosszúságú skálára és ezen két skála közötti korrelációt vizsgáljuk.
Hasonló módszer, amikor két alternatív tesztet, vagy ugyanazon a tesztet kerül felvételre kétszer. Az utóbbi esetben szokásos bizonyos rögzített időt hagyni a két felvétel között ("test-retest reliability").
Skálák érvényességi elemzése
2012.02.24. Tesztelmélet 50
A megbízhatóság csak az egyik szükséges de nem elégséges összetevője a skála "jóságának". Másik tulajdonság az érvényesség (validitás), amely azt jelenti, hogy az adott skála valóban azt méri, amit mérni akarunk. Ha a skála (teszt) legalább minimális mértékben nem érvényes, használhatatlan.
Az érvényesség fajtái
tartalmi érvényesség (content validity): jól megválasztott tételek biztosíthatják
az arculat érvényessége (face validity): azt fejezi ki,hogy a kitöltő számára mennyire világos, hogy mit mér (nem mindig fontos)
Skálák érvényességi elemzése
2012.02.24. Tesztelmélet 51
Skálák érvényességi elemzése
prediktív érvényesség (predictive validity):
kritérium érvényesség (criterion validity): az elorejelzo értékre utal (ellenorzés: pl. korreláció,bizonyos populációkra elvárjuk, hogy más értékeket ANOVA)adjon (ellenorzés: pl. ANOVA)
konstrukciós érvényesség (construction validity):
konkurens érvényesség (concurrent validity) a készítés elméleti kerete határozza meg (ellenőrzés).
Jóságmutatók elemzése számítógéppel
Excel
Spss
Quest (rasch modellel dolgozik)item modell illeszkedését az infinit paraméterrel jellemzi
OPLM program itemek modell-illeszkedésének mélyebb elemzéséhez alkalmazzák.
ConQuest programcsomak a teljesítmények eloszlásvizsgálatára akalmazzák.
Itemanalízis
2012.02.24. Tesztelmélet 53
Analyze
Scale
Reliability analysis
Statistics
Item √
Scale √
Scale if item deleted √
Output _ Cronbach
2012.02.24. Tesztelmélet 56
Cronbach”s alpha teszt belső konzisztenciáját méri -1 től +1-ig
Minél magasabb az alpha értéke annál megbízhatóbb a teszt.
Output
2012.02.24. Tesztelmélet 58
Mean az adott itemre kivetített átlageredmény. Ez az Item hasznossági értéke, mely 100 szorozva megadja, hogy a minta hány %-a oldotta meg helyesen az adott Itemet. Corrected Item-Total correlation: diszkriminációs érték, arról ad információt, hogy a vizsgázók milyen teljesítményt nyújtottak ennél az Itemnél összevetve az egész feladatsorra kivetítve. A diszkrimináció értéke -1 és +1 között mozoghat. Értéke minél nagyobb annál valószínűbb, hogy akinek az adott Item jól sikerült, az egész feladatban jó eredményt ért el. A negatív érték jelzi, hogy azok tudták ezt az Itemet megoldani, akinek összességében gyengébben sikerült a feladat egésze.
Output
2012.02.24. Tesztelmélet 59
Alpha if Item Deleted, arra mutat hogyan változna a feladat összalphája, ha az Itemet kivennénk a feladatsorból. Minél magasabb az alpha értéke, annál megbízhatóbb a teszt. 0,8 kívánatos eredmény: 0,9 ideálisnak tekinthető.
Az Alpha if Item Deleted a tétel, a Standardized Item Alpha pedig a skála egésze megbízhatóságának jellemzésének a mutatója.
Standart Deviation az adott Itemre kivetített szórás. Arra mutat mennyire távolodott el a vizsgált egyén teljesítménye az átlagtól.
Cases a vizsgált esetek száma.
Scale Mean if Item Deleted azt mutatja meg az Itemre kivetítve, hogyan változna meg az átlag, ha a feladatsorból az adott Itemet kivennénk. (akkor lehet erre szükségünk, ha könnyíteni szeretnénk a feladatsort)
Variance of Item- szórásnégyzet, az átlagtól való eltérés négyzete. Arra mutat, hogy ha kivennénk az adott Itemet a feladatsorból, hogyan változna a variancia.
Egységes vizsgáztatási rendszerek
2012.02.24. Tesztelmélet 60
CRT - Criterion Referenced Test képességvizsgáló – előre meghatározott tudásanyagot kérdez vissza
DRT Domain Referenced Test – adottságokat is figyelembe vesz (a várható eredményt előre becsülni kell, mely alátámasztható, cáfolható)
NRT Norm Referenced Test – az egyéneket a népesség többi tagjához hasonlítja. Feladata felmérni a tanuló képességeit: fejlődés vizsgálata, felvételi
PICK – minden helyes válasz pontot ér, nincs büntetés, minden itemre érdemes válaszolni
ACK-n – helyes válasz + pont, helytelen – pont (acknowledgment). Csak arra érdemes válaszolni, amit biztosan tud.
OPC – (objective percent correct)- a kérdéseket súlyozással veszi figyelembe
SCA – a válasz mellett fel kell tüntetni, milyen mértékben biztos a válaszban: félreinformált, bizonytalan
MCW-APM a helytelent, de a helyeseket is választhatja (a hiányos tudást értékeli, a helytelent keményen bünteti)
GIS – a kérdésekre egy helyes válasz van, de még értékelni is kell azokat. (elutasítás, minden, hiány, abszurd)
Irodalomjegyzék
Verhelst, N.D.: Az Item-Válasz-Elmélet, KER szintillesztés. Módszertani segédlet. G fejezet, 2006 http://www.nyak.hu/nyat/doc/modszertani_segedlet.pdf
Horváth György: A modern tesztmodellek alkalmazása. Budapest, Akadémia Kiadó. 1997
Molnár Gyöngyvér: Az ismeretek alkalmazásának vizsgálata modern tesztelméleti (IRT) eszközökkel Magyar Pedagógia 103. évf. 4 szám423-446 (2003)