TESZTELMÉLET - okt.ektf.huokt.ektf.hu/data/lenke/file/TESZTELMÉLET_2012_02.pdf · A teszt megbízhatóságának mértéke a teszt és annak egy párhuzamos tesztjével számított

TESZTELMÉLET

T. Parázsó Lenke

A tesztek értékelése

2012.02.24. Tesztelmélet 2

Módszerek: Gépi

Emberi

Kevert

Ellenőrzés, értékelés célja – a visszajelzés (oktatási

folyamat, hallgató, szülő, társadalom).

Tesztek az oktatásban


Értékelés formái:

Kvalitatív vagy minőségi:

Eredmények szóbeli, irásbelielemzése, értékelése. Szubjektív

Kvantitativ:

a teljesítményhez valamilyen számszerű értéket rendelünk. (átmenet: elfogadható/elfogadhatatlan)

Az értékelhető teljesítményt skála alapján minősítjük

Becslés: - gondolatban helyezzük és értékeljük a megfigyelt teljesítményt. (négyesség, ötösség, nem rögzített).

Tudás tesztelése


A tesztek az oktatás különböző szakaszaiban jelennek meg.

Teszt: egy sajátos dolgozat, amely célszerűen válogatott feladatokat tartalmaz. A feladatokat gyorsan, egyszerűen, megbízhatóan lehet értékelni.

Jellemzői:

Nagy létszám

Térben és időben távol eső teljesítmény mérése

Oktatási eljárások hatékonyság vizsgálata

Tudásszintmérés


Tudásszintmérés esetében pontosan körülhatárolható az a tudás, ami 100%-nak tekinthető.

Csoportosítása:

Standartizált

Tanár által készített

Tulajdonság (adottság) tesztek-jövőbe tekintenek: prediktív

Teljesíténytesztek: a múltban elsajátított tudást méri (feladatlap, mérőlap)

Pedagógiai mérés folyamata


A pedagógia mérések eszköze: Teszt

Teszt jelentése – próba

Tesztek: pedagógia (tudás), pszichológiai teszt (személyiségvonás, stb)

Mérőeszköz elkészítése

Skála létrehozása a mérőeszközön

Mérőeszköz hozzáillesztése a megvizsgált tulajdonsághoz, teljesítményhez

Tesztek közreadásának szempontjai


• Mit mér a teszt?

• Miért van rá szükség?

• Honnan vannak a tételek?

• A teszt készítésébe bevont minták jellemzoi

• Leíró statisztikák (tételekre, skálákra)

• Megbízhatósági (reliabilitási) mutatók

• Érvényességi (validitási) mutatók

• Gazdaságossági (utilitási) mutatók

• Maga a teszt (skálák és azok tételei)

A tesztfejlesztés menete (ajánlott lépései)


A teszt írása (előzetes tétel-együttes összeállítása)

pontos leírás a mérendőről

tételek összegyűjtése

tételek ellenőrzése

válaszadó számára arról szóljon, amit mérni akarunk (nem mindig fontos)

egyértelmű fogalmazás, ne "kavarja fel" a kitöltőt

használat előtt kisebb mintán ki kell próbálni

A teszt szükség szerinti módosítása a pszichometriai feldolgozás eredményei alapján

egyes skálák vagy tételek elhagyása

új skálák vagy tételek hozzáadása

Teszt-felvétel

Pszichometriai feldolgozás (az egyes lépések további szükség szerinti ismétlése amíg egy megbízható és érvényes tesztet kapunk)

Tudásszintmérés problémái


1960-as évek végén megválaszolatlan kérdések merültek fel:

Nem feltétlenül normális eloszlású a tudásszintmérő teszt által kapott eredmény

Ha mindenki 100%-t ír, akkor nincs szórása, a klasszikus tesztelmélet képletei használhatatlanokká válnak.

A probabilisztikus_valószínűségelméleti tesztelmélet ezt

feloldja.

Tesztelméleti alapok


Lehetőség:

• képesség- és intelligencia-tesztek, személyiségvizsgáló eljárások,

• az autóvezetési tudást vagy a nyelvtudást mérő skálák, az egyes tantárgyakban elért eredményeket tükröző pontszámok,

• skálázott orvosi leletek,

• a hitelképesség skálázott mutatói,

• a munkahelyi teljesítményt mérő pontszámok, stb.



Azonban mi is gyakran mérjük vagy minosítjük ilyen módon a külvilágunk egyes szereplőit (más embereket),

élményeinket, objektumokat (tárgyakat, termékeket, szolgáltatásokat, társadalmi jelenségeket stb.)

Véleményünket vagy meggyőződésünket gyakran fejezzük ki különböző mások által készített (konstruált) és számunkra felkínált skálákon (pszichológiai és szociológiai felmérések, piackutatások vagy a legkülönbözőbb célú közvélemény kutatások alkalmával).

A pszichológus gyakran maga konstruál skálákat



A tesztek fogalma és típusai

A teszt szisztematikus eljárás két vagy több személy viselkedésének az összehasonlítására.

„A test is a systematic procedure for comparing the behavior of two or more persons” Cronbach (1949, 1960)

A tesztek típusai: intelligencia-tesztek

teljesítmény-tesztek

képesség-tesztek

érdeklődési tesztek

neuropszichológiai tesztek

személyiség-tesztek

viselkedési tesztek, stb.

A tesztek használata szerzői jogok által védett!

Sok teszt felvétele kiképzéshez

Klasszikus tesztelmélet


A tesztelmélet alapjai 1910-es, a kifejlesztett kérdései az 50-es években láttak napvilágot.

A teszt pedagógia/pszichológia mérőeszköz.

Egységei:

a szubteszt (rész-teszt). A szubteszt tekinthető önálló tesztnek is.

A tesztek feladatokból épülnek fel

A feladatok legkisebb, önállóan is értelmezhető része az item.

A klasszikus tesztelmélet alapjai


A tesztek túlnyomó része világszerte még a klasszikus

tesztelmélet alapján készül.

Minden egyes itemre (item: feladat, kérdés, tétel,...) adott válasz egyformán fontos a tesztérték (összpontszám) meghatározásában.

Bizonyos esetekben nem az összpontszámmal, hanem

átlagpontszámmal dolgozunk (pl. ugyanazon célra kifejlesztett

különböző hosszúságú tesztek eredményeinek összevetése)



A tesztelmélet célja: a felmerülő kérdéseket (Mennyire jól mér) matematikai úton fogalmazzuk meg.

A klasszikus tesztelmélet alapegyenlete:

X = t + ε Azaz a megfigyelt (vagy tapasztalati úton mért) érték (X)

egyenlő a valódi érték (t = true score) és a hiba (ε = error) összegével.

A mérés célja a t valódi érték minél jobb közelítése az ε hiba csökkentésével.

Alapvető elvárás a környezeti tényezők figyelembe vétele és a mérés azonos körülmények közötti elvégzése.

A körülmények lényeges változása a hiba nagyságának „szisztematikus” változását eredményezheti.



Az eredményhez hozzátartozik a hiba nagyságának a becslése, ami – a fizikai

mérések mintájára – ismételt mérésekkel történik (a mért érték ingadozásának

nagyságából becsülhető a hiba).

Az ismétlések számának növelésével a véletlenszerű hiba hatása csökkenthető.

Amikor – pl. tanulási hatás, elfáradás stb. miatt – a teszt felvétele nem ismételhető,

akkor az ún. párhuzamos tesztváltozatokat kell alkalmazni.

Két teszt akkor párhuzamos, ha bármely személy esetében az egyik teszttel kapott

valódi érték megegyezik a másik teszthez tartozó valódi értékkel és emellett a két

teszt hibaszórása is egyenlő, azaz ugyanolyan „jól” mérnek (ha a szórások nem

azonosak, akkor a tesztek „ő-ekvivalensek”).

Axiómák


1. Feltételezzük, a hiba átlaga, a várható értéke :

M(ε )= 0

(a valódi értéktől olyan mértékben térnek el a vizsgált személyek ± irányban, azok statisztikusan kiegyenlítik egymást.

2. Statisztikailag: a valódi érték és a hiba közötti korreláció 0. A hiba és a valódi érték között semmilyen kapcsolat nincs

korr(t, ε) = 0

3. Annál jobban méri a tesztünk a mérni kívánt jellemzőt, minél inkább összefügg a valódi érték a mért értékkel. Statisztikailag: M és V erősen korrelál.

Ez a tesztek megbízhatósága, reliabilitása

Reliabilitási koefficiens rt

3. A klasszikus tesztelmélet alapfeltevései (axiómái)


Két párhuzamos teszt hibái közti korrelációs együttható zero,

korr (ε1, ε 2 ) = 0

Ha az egyik teszt hibája a másik – vele párhuzamos – teszt hibájával korrelál, az azt jelenti, hogy az esetleges hibák együtt változnak.

Ha a korreláció pozitív, akkor ha az egyik tesztben egy adott személynél a mérési hiba nagy, akkor várhatóan a másik teszt esetében is nagy lesz a hiba értéke.

Ez arra utal, hogy a tesztek között olyan kapcsolat áll fenn, aminek nincs köze a valódi értékhez, tehát a teszt értelmezését zavarja (szisztematikus hiba).

A tesztek jóságmutatói


Objektivitás: a teszt tárgyilagos, nem szubjektív.

Független attól ki végzi a teszttel a mérést.

Validitás: érvényesség, a teszttel valóban azt mérjük,

amire készítettük

Reliabilitás: megbízhatóság. Mérése a reliabilitás

mutatókkal.

Objektivitás

Az objektív tárgyszerűt, tárgyilagost jelent, nem szubjektív jellemző.

A tesztek objektivitása alatt értendő, hogy hogy az eredmény

kizárólag a vizsgált személy tulajdonságai alapján jöttek létre, a

kutató személyétől függetlenül.

Adatfelvételi objektivitás: tesztelési helyzet pontos meghatározása

Kiértékelési objektivitás: javítókulcs megadása értékelési utasítás, stb.

Értelmezési objektivitás: útmutatóval, referenciafeladatok biztosítása,

érdemjegyre váltás szabályainak megadása

A megbízhatóság _ reliabilitás


A megbízhatóság azt fejezi ki, hogy a teszt mennyire pontosan mér.

Számszerűen jellemezve 0 és 1 közötti érték jellemzi. (akkor lenne a legjobb

azaz 1, ha a teszttel többször egymás után mérve a tanulók eredményei egymáshoz viszonyítva ugyanazt az eredményt adnák).

Ezt sok esetben egyszerűen úgy vizsgálhatjuk meg, hogy a tesztet több alkalommal

felvesszük: minél kisebb az eltérés a mérési eredmények közt, annál megbízhatóbb a

tesztünk.

Ha azonban egy olyan mérőeszközzel dolgozunk, melynek felvétele nem ismételhető,

akkor a párhuzamos tesztváltozatát kell alkalmaznunk: ilyenkor elvárható, hogy

hasonló – de a mérési hiba miatt nem feltétlen azonos – eredményt kapjunk.

A teszt megbízhatóságának mértéke a reliabilitás-együttható, és ezt pl. lehet becsülni a

teszt és annak egy párhuzamos tesztjével számított korrelációjával.

A megbízhatóság


Klasszikus tesztelméletben:

A teszt megbízhatóságának mértéke a teszt és annak egy párhuzamos tesztjével számított korrelációjával egyenlő a valóságos és a mért érték közötti korreláció négyzetével.

A fenti lehetőségek tényleges érték kiszámítására nincs közvetlen lehetőség, becsülni lehet különböző módszerek alkalmazásával. A pedagógiai gyakorlatban a leggyakrabban alkalmazott a Crombach- α meghatározása.

Validitás _ érvényesség

A teszt azon tulajdonsága, hogy valóban azt méri-e amit célul tűztünk ki.

Validitás 0 és 1 közötti értékkel jellemezhető

Validitás képlete egy specialis reliabilitás képlet (Horváth, 1993)

Formái

Előrejelző, prediktív

Tartalmi, összhang a tudományos eredményekkel

Ha a teszt érvényes (valid), akkor megbízható (reliabilis), de fordítva nem igaz.

A megbízhatóság


A megbízhatóság a megfigyelt, a valódi és a hiba értékek varianciájának figyelembevételével adható meg.

A valódi érték és a hiba közötti korrelálatlanságnak és a variancia tulajdonságainak következtében kapjuk, hogy:

Látható, hogy a hiba varianciájának csökkenése, azaz a pontosabb mérés, a megfigyelt érték és a valódi érték közötti „azonosságot” növeli, azaz a valódi értéket így egyre jobban meg tudjuk közelíteni.

)var()var()var( tX

A megbízhatóság_Reliability


1. A megbízhatóságot – Reliability (rel-el jelöljük) úgy értelmezzük (a párhuzamos tesztek korrelációjának bevezetése nélkül), hogy az megegyezik a valódi érték és a megfigyelt érték varianciáinak hányadosával, azaz:

2. Bizonyítható, hogy a megfigyelt megbízhatóság megegyezik a teszt megfigyelt értékének és a valódi értékének négyzetes korrelációjával:

Probléma, hogy a valódi értéket, ill. annak varianciája nem ismert , így a megbízhatóságot csak becsülni lehet (pl. párhuzamos tesztek korrelációjával)

)var(var(t)

tvarXrel

),()( 2 tXkorrXrel

Az érvényesség_Validity


Az érvényesség annak a mértéke, hogy a teszt tartalmilag, szerkezetileg és még más egyéb kritériumoknak és mérési célkitűzéseknek mennyire felel meg.

Meghatározásához egy viszonyítási alapra, – „etalonra” vagy „standardra” – van szükség (fizikai mérések esetében ez kevésbé jelent problémát, mentális mérések esetében bonyolultabb).

Mivel egy teszt „jóságának” több kritériuma is lehet, több szempontból is megítélhető az érvényesség.

Az érvényesség


Igazolható, hogy párhuzamos tesztek validitása a reliabilitással azonos. A megbízhatóság az érvényesség egy speciális esete az ún.

„konkurens–validitás”

(annak vizsgálata, hogy a tesztünk mennyire korrelál egy másik teszttel ill. kritériummal) különösen fontos, mivel megvilágítja a megbízhatósági vizsgálatok jelentőségét.

Belátható, hogy a teszt mért-értéknek egy kritérium változóval (Krit) való korrelációja mindig kisebb vagy egyenlő a teszt mért-értéknek a valódi értékkel vett korrelációjánál, azaz:

),(),( tXkorrKritXkorr

Az érvényesség


így egy tesztnek a konkurens–validitása legfeljebb olyan nagy lehet, mint a megbízhatóságának négyzetgyöke.

Ebből következik, hogy egy teszt validitása lehet ugyan nagyobb, mint a megbízhatósága (mivel 1-nél kisebb pozitív szám négyzetgyöke nagyobb az illető számnál), azonban ha a megbízhatóság értéke kicsi, akkor a négyzetgyöke, azaz a validitása sem lesz lényegesen nagyobb.

Alacsony megbízhatóságú tesztet ezek alapján nem lehet érvényes tesztnek sem tekinteni, ami előrevetíti a tesztek megbízhatóság-becslésének fontosságát.

),()( 2 tXkorrXrel

Mivel:

A klasszikus tesztelmélet korlátai


Feltételezi, hogy:

A létrehozott skála értékei intervallum szintű skálát alkotnak (tehát pl. értelmes a mért értékek átlagáról, szórásáról beszélni, ez azonban empirikusan gyakran nem igazolható)

A teszt- és itemmutatók populáció függőek, értékük függ, hogy milyen jellegű mintából nyerjük az adatokat (egy adott teszt megbízhatósága más lesz, ha mondjuk egyetemisták, vagy ha nyugdíjasok köréből vesszük a mintát, annak ellenére, hogy pl. mindkét esetben az intelligenciát próbáltuk mérni).

vannak olyan mérési hibák, amelyeket nem kiküszöbölhetőek és nem korrigálhatóak. Következmény: a teszt a szélső tartományokban nem mér elég pontosan.

II. Valószínűségi tesztelmélet ún. „modern tesztelmélet”


A teszt-itemek tulajdonságait a valószínűség eszközeivel jellemzi.

Az eset, hogy a tanuló megold egy teszt-itemet, nem determinisztikus, hanem valószínűség alapú.

A megoldás valószínűsége függ a tanuló tudásától.

Az itemek jól kifejezik az itemhez rendelt valószínűségeloszlást.

Az ún. „modern tesztelmélet” (MT) lassan terjed


nem a skálán, hanem az itemeken van a hangsúly

az itemeket véletlen változóknak tekintjük

a „p” valószínűségek egyaránt függnek az item nehézségétől és a személytől

mindkettőt közös dimenzióra hozzuk egy megfelelő kétváltozós függvényben

Tudásszintmérő tesztek validitása (Csapó Benő alapján)


Item


item differenciáló ereje vagy megkülönböztető képessége azt mutatja meg, hogy az item mennyire érzékeny a tanulók tudására, mennyire élesen tesz különbséget a különböző tudásszintű tanulók között

Itemek jellemzői

Az item nehézsége, nehézségi index: rámutat az itemet

milyen valószínűséggel oldja meg a tanuló.

Item nehézségi index:

Értéke 0 és 1 között van, (minél nagyobb, annál könnyebb az item)


számaulókmegoldófeladatot

számamegoldásjó

_tan__

__

Item karakterisztikus görbe (Paraméterek és jellemzők)


1 – Ta alatt nem tudták megoldani,

az item két csoportra osztja a

tanulókat

2 – Átlagosan a Ta tudásszinttel

rendelkező tanulók oldják meg. A

tanulók tudásszintjének növekedésével

nő annak a valószínűsége, hogy aaz

itemet megoldják, de Ta felett sem

hibátlan a munkájuk.

Az „S” alakú göbék esetében a maximumot csak megközelíteni lehet. Az itemek nagy

differenciáló erővel rendelkeznek, érzékenyen különbséget tesznek a tanulók között.

3 – az itemet csaknem ugyanolyan

valószínűséggel oldják meg a gyenge

tanulók, mint a magas tudásszinttel

rendelkezők. Lapos, nem differenciál a

tanulók között. Ki kell hagyni a

tesztből!.

4 és 5 – két párhuzamosan futó görbe, olyan, mintha a tanulók tudásszintjéta

tengelyen pozitív irányba toltuk volna el. A két item nehézségében van csak

különbség.

Skálák megbízhatósági analízise (Reliability Analysis)


Cronbach-féle alfa _ α korrelációs együttható, ezért

általában 0 és 1 közötti értékeket vesz fel.

Abban az esetben, ha a tételek többsége egymással negatívan korrelál negatív is lehet, ez azonban a gyakorlatban ritkán fordul elő, mert általában már az első skála verzió is valamilyen minimális - esetleg tesztként való használatra még nem elfogadható -mértékben konzisztens.

A kérdés az, hogy elég szoros pozitív kapcsolat van-e a tételek között egy skálán belül, és nem az, hogy egyáltalán pozitív-e a kapcsolat.



Adott: egy adatbázis, amelyben az egyes változók egy több összetartozó tételből álló skála tételeinek felelnek meg.

Cél: a vizsgált skála belső konzisztenciáját, valamint az egyes tételek ehhez történő hozzájárulását jellemző mutatók számítása.

Az eljárás eredménye a skála egészét és az egyes tételek szerepét megalapozottan jellemző mutatók, amelyek segítségével a skála megbízhatósága megítélhető, ha szükséges - egyes tételek kihagyásával vagy hozzáadásával - javítható.



Egy tétel megbízhatósága akkor jó, ha ugyanazt méri, mint a teljes skála

összpontszáma.

Mérése:

rx(i),x = ri,t "item-total" korreláció torzít, helyette:

rx(i),x- x(i) = ri,ct „item-összes többi összege" korreláció, vagy

"item-összes többi" többszörös korreláció

Egy tétel szeparációs képessége akkor jó, ha szóródási mutatói

(terjedelem, szórás, stb.) magasak



Skálák megbízhatóságának intuitív megragadása:

1. Egy skála megbízhatósága akkor jó, ha megismételve ugyanazt adja.

Ennek mérése: teszt-reteszt korreláció: rx,x'

2. Egy megbízható skála tételei mind ugyanazt a dolgot mérik, ezért a skála egy része is hasonló dolgot mér, mint a skála egésze. Ennek mérése: a skála két fele közötti korreláció.

Felezési technikák: első fél - második fél ("split-half"), páratlan és páros tételek, kisorsoljuk a feleket, elvi meggondolással osztjuk el.



A mátrixból tehát az egyes tételek és a skála egészének a kapcsolatát jellemző Item-total summary statistics gyűjtőnévvel jelölt statisztikák is kiszámíthatók.

A Scale Mean if Item Deleted azt adja meg, hogy mennyi lenne a skálaátlag, ha az adott tételre kapott pontszámokat az összesítésből kihagynánk. Erre akkor van szükség, ha a skála várható konkrét számszerű értékei érdekelnek bennünket: pl. standardok készítése esetén.

A Scale Variance if Item Deleted az előzőnek megfelelő adat a

varianciára, amely szintén fontos adat standardok készítéséhez.



Corrected Item-Total Correlation az adott tétel pontszámai és az összes többi tételre kapott pontszámok összegeként számított "javított" teljes skála-pontszámok közötti korrelációs együtthatókat tartalmazza.

Ez a tétel megbízhatóságának mértéke és alkalmas a skála egészéhez nem illeszkedő tételek kiszűrésére.

Ha ugyanis ez az érték valamelyik tételre kiugróan kicsi, akkor ez azt jelenti, hogy az a tétel valami mást mér, mint az összes többi és ezért

megfontolandó az átfogalmazása vagy kihagyása.



A Squared Multiple Correlation az adott tétel pontszáma (mint függő változó) és az összes többi tételek pontszámai (mint független változók) közötti kapcsolatra felírt többszörös regressziós egyenletből számított ún. többszörös korrelációs együttható négyzete (R2).

Ez szintén a tétel megbízhatóságának mértéke: azt adja meg, hogy milyen mértékben jósolható be egy adott személy pontszáma az adott tételben a személy összes többi tételre vonatkozó pontszámainak ismeretében.

Az is bizonyítható, hogy R2 a regressziós kapcsolattal "megmagyarázott" variabilitás mértéke.



A Cronbach-féle alfa (az ún. megbízhatósági koefficiens):

ahol k a tételek száma a skálában, a tételek közötti átlagos kovariancia, pedig a tételek átlagos varianciája.

Ha a tételeket egységnyi standard deviációjúakra standardizáljuk az előbbi formula a következő alakot ölti:

Ahol a tételek közötti átlagos korrelációs együttható.

rav/voc)1(1

rav/voc

k

k

rrk

rk

)1(1



A Cronbach-féle alfának a következő két szemléletes interpretációja van.

felfogható úgy, mint az adott konkrét skála és az azzal azonos

számú hasonló tételeket tartalmazó összes lehetséges skála között

páronként várható korrelációs együtthatók átlaga.

Elvben a vizsgált skálánk mellé megkonstruálható a mérni kívánt

tulajdonsághoz kapcsolódó tételek hipotetikus világából az összes

lehetséges azonos számú tételből álló többi skála is, és az ezekkel

való korrelációs együttható várható értéke.



A Cronbach-féle alfa képlete alapján látható, hogy értéke egyaránt függ a tételek számától és a tételek közötti átlagos korrelációs együtthatótól.

Következtetés, hogy még alacsony tételek közötti korrelációk esetén is kaphatunk viszonylag nagy megbízhatósági koefficienst, ha a tételek száma elég nagy.

Így például ha a tételek közötti átlagos korrelációs együttható 0.2 és a tételek száma 10, az α =0.71.

Ha új - és a korábbiakkal egyező minőségű tételekkel kiegészítve a skálát és a tételek számát 25-re növelve, akkor α =0.86 lesz.



A két teszt felvétele között eltelt rövidebb idő nagyobb megbízhatóságot eredményez ("test-retest reliability").

Rendszertelenségek csökkentik a skála megbízhatóságát. Ha a teszt felvételének körülményei nem világosan rögzítettek, vagy az egyébként világos és helyes előírásokat nem tartják be, vagy a fizikai feltételek alkalmilag kedvezőtlenek, vagy a személyek motivációja jelentősen eltérő, akkor alacsonyabb lesz a skála megbízhatósága.



A split-half módszer hátránya, hogy az eredmény függ attól, hogy milyen módon történik a skála kettéosztása.

Ezt a módszert kombinálni szokták a Cronbach-féle alfa számításának módszerével: egyéb mutatók mellett rendszerint az értékét is kiszámolják a két fél skálára és azokat bevonják az értékelésbe.

A főkomponens-analízis is alkalmazható (az ún. Theta megbízhatósági együttható számítása útján) a skála megbízhatóságának meghatározására. Előnye, hogy a tételeket nem azonos súllyal, hanem fontosságuknak megfelelően kezeli.



A megbízhatóságot a tételek száma (a skála hossza) mellett a következő tényezők is befolyásolják.

A vizsgált minta heterogenitása növeli a megbízhatóságot: ha olyan személyekkel veszünk fel egy skálát, akik között a mért tulajdonságban jelentős különbségek vannak, nagyobb lesz a skála megbízhatósága.



Másik gyakran alkalmazott megbízhatósági modell az ún.

"kettévágott skála" (Split-half model) módszere.

Míg a Cronbach-féle alfát egyetlen skála tételei konzisztenciájának vizsgálatára használjuk, addig a split-half módszer esetén a vizsgálandó skálát kettévágjuk két azonos - páratlan tételszám esetén közel azonos hosszúságú skálára és ezen két skála közötti korrelációt vizsgáljuk.

Hasonló módszer, amikor két alternatív tesztet, vagy ugyanazon a tesztet kerül felvételre kétszer. Az utóbbi esetben szokásos bizonyos rögzített időt hagyni a két felvétel között ("test-retest reliability").

Skálák érvényességi elemzése


A megbízhatóság csak az egyik szükséges de nem elégséges összetevője a skála "jóságának". Másik tulajdonság az érvényesség (validitás), amely azt jelenti, hogy az adott skála valóban azt méri, amit mérni akarunk. Ha a skála (teszt) legalább minimális mértékben nem érvényes, használhatatlan.

Az érvényesség fajtái

tartalmi érvényesség (content validity): jól megválasztott tételek biztosíthatják

az arculat érvényessége (face validity): azt fejezi ki,hogy a kitöltő számára mennyire világos, hogy mit mér (nem mindig fontos)




prediktív érvényesség (predictive validity):

kritérium érvényesség (criterion validity): az elorejelzo értékre utal (ellenorzés: pl. korreláció,bizonyos populációkra elvárjuk, hogy más értékeket ANOVA)adjon (ellenorzés: pl. ANOVA)

konstrukciós érvényesség (construction validity):

konkurens érvényesség (concurrent validity) a készítés elméleti kerete határozza meg (ellenőrzés).

Jóságmutatók elemzése számítógéppel

Excel

Spss

Quest (rasch modellel dolgozik)item modell illeszkedését az infinit paraméterrel jellemzi

OPLM program itemek modell-illeszkedésének mélyebb elemzéséhez alkalmazzák.

ConQuest programcsomak a teljesítmények eloszlásvizsgálatára akalmazzák.

Itemanalízis


Analyze

Scale

Reliability analysis

Statistics

Item √

Scale √

Scale if item deleted √

Itemanalizis SPSS-el


Output file


Összesített táblázat

Output _ Cronbach


Cronbach”s alpha teszt belső konzisztenciáját méri -1 től +1-ig

Minél magasabb az alpha értéke annál megbízhatóbb a teszt.

Output


Output


Mean az adott itemre kivetített átlageredmény. Ez az Item hasznossági értéke, mely 100 szorozva megadja, hogy a minta hány %-a oldotta meg helyesen az adott Itemet. Corrected Item-Total correlation: diszkriminációs érték, arról ad információt, hogy a vizsgázók milyen teljesítményt nyújtottak ennél az Itemnél összevetve az egész feladatsorra kivetítve. A diszkrimináció értéke -1 és +1 között mozoghat. Értéke minél nagyobb annál valószínűbb, hogy akinek az adott Item jól sikerült, az egész feladatban jó eredményt ért el. A negatív érték jelzi, hogy azok tudták ezt az Itemet megoldani, akinek összességében gyengébben sikerült a feladat egésze.

Output


Alpha if Item Deleted, arra mutat hogyan változna a feladat összalphája, ha az Itemet kivennénk a feladatsorból. Minél magasabb az alpha értéke, annál megbízhatóbb a teszt. 0,8 kívánatos eredmény: 0,9 ideálisnak tekinthető.

Az Alpha if Item Deleted a tétel, a Standardized Item Alpha pedig a skála egésze megbízhatóságának jellemzésének a mutatója.

Standart Deviation az adott Itemre kivetített szórás. Arra mutat mennyire távolodott el a vizsgált egyén teljesítménye az átlagtól.

Cases a vizsgált esetek száma.

Scale Mean if Item Deleted azt mutatja meg az Itemre kivetítve, hogyan változna meg az átlag, ha a feladatsorból az adott Itemet kivennénk. (akkor lehet erre szükségünk, ha könnyíteni szeretnénk a feladatsort)

Variance of Item- szórásnégyzet, az átlagtól való eltérés négyzete. Arra mutat, hogy ha kivennénk az adott Itemet a feladatsorból, hogyan változna a variancia.

Egységes vizsgáztatási rendszerek


CRT - Criterion Referenced Test képességvizsgáló – előre meghatározott tudásanyagot kérdez vissza

DRT Domain Referenced Test – adottságokat is figyelembe vesz (a várható eredményt előre becsülni kell, mely alátámasztható, cáfolható)

NRT Norm Referenced Test – az egyéneket a népesség többi tagjához hasonlítja. Feladata felmérni a tanuló képességeit: fejlődés vizsgálata, felvételi

PICK – minden helyes válasz pontot ér, nincs büntetés, minden itemre érdemes válaszolni

ACK-n – helyes válasz + pont, helytelen – pont (acknowledgment). Csak arra érdemes válaszolni, amit biztosan tud.

OPC – (objective percent correct)- a kérdéseket súlyozással veszi figyelembe

SCA – a válasz mellett fel kell tüntetni, milyen mértékben biztos a válaszban: félreinformált, bizonytalan

MCW-APM a helytelent, de a helyeseket is választhatja (a hiányos tudást értékeli, a helytelent keményen bünteti)

GIS – a kérdésekre egy helyes válasz van, de még értékelni is kell azokat. (elutasítás, minden, hiány, abszurd)

Irodalomjegyzék

Verhelst, N.D.: Az Item-Válasz-Elmélet, KER szintillesztés. Módszertani segédlet. G fejezet, 2006 http://www.nyak.hu/nyat/doc/modszertani_segedlet.pdf

Horváth György: A modern tesztmodellek alkalmazása. Budapest, Akadémia Kiadó. 1997

Molnár Gyöngyvér: Az ismeretek alkalmazásának vizsgálata modern tesztelméleti (IRT) eszközökkel Magyar Pedagógia 103. évf. 4 szám423-446 (2003)

http://www.nyak.hu/nyat/doc/modszertani_segedlet.pdf

http://www.nyak.hu/nyat/doc/modszertani_segedlet.pdf

Disztraktor analízis


Folytatás….

Documents

TESZTELMÉLET - okt.ektf.huokt.ektf.hu/data/lenke/file/TESZTELMÉLET_2012_02.pdf · A teszt megbízhatóságának mértéke a teszt és annak egy párhuzamos tesztjével számított