47
Sveuˇ ciliˇ ste J.J. Strossmayera u Osijeku Odjel za matematiku Lucija Luˇ ci´ c Statistiˇ cka analiza pouzdanosti testova u fizici Diplomski rad Osijek, 2011.

Lucija Lu•ci¶cmdjumic/uploads/diplomski/LUč03.pdf6 2. TESTOVI ZNANJA Samo znanje vrijedi onoliko koliko smo ga usvojili i koliko ga svjesno upotrebljavamo u svoju korist. Jedan

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Lucija Lu•ci¶cmdjumic/uploads/diplomski/LUč03.pdf6 2. TESTOVI ZNANJA Samo znanje vrijedi onoliko koliko smo ga usvojili i koliko ga svjesno upotrebljavamo u svoju korist. Jedan

Sveuciliste J.J. Strossmayera u Osijeku

Odjel za matematiku

Lucija Lucic

Statisticka analiza pouzdanosti testova u fizici

Diplomski rad

Osijek, 2011.

Page 2: Lucija Lu•ci¶cmdjumic/uploads/diplomski/LUč03.pdf6 2. TESTOVI ZNANJA Samo znanje vrijedi onoliko koliko smo ga usvojili i koliko ga svjesno upotrebljavamo u svoju korist. Jedan

Sveuciliste J.J. Strossmayera u Osijeku

Odjel za matematiku

Lucija Lucic

Statisticka analiza pouzdanosti testova u fizici

Diplomski rad

Mentor: doc.dr.sc. Vanja Radolic

Osijek, 2011.

Page 3: Lucija Lu•ci¶cmdjumic/uploads/diplomski/LUč03.pdf6 2. TESTOVI ZNANJA Samo znanje vrijedi onoliko koliko smo ga usvojili i koliko ga svjesno upotrebljavamo u svoju korist. Jedan

3

Sadrzaj

1. UVOD 5

2. TESTOVI ZNANJA 6

2.1. Provjera znanja u nastavi fizike . . . . . . . . . . . . . . . . . . . . . . . . 6

2.2. Pisana provjera znanja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

3. MJERENE ZNACAJKE PISMENOG TESTA 11

3.1. Pouzdanost . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

3.1.1. Izvori pogresaka . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

3.1.2. Mjera pouzdanosti . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

3.1.3. Kolika pouzdanost treba biti? . . . . . . . . . . . . . . . . . . . . . 13

3.1.4. Bodovanje . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

3.2. Valjanost . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

3.2.1. Definicija valjanosti . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

3.2.2. Vrste valjanosti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

4. STATISTICKI PARAMETRI U ANALIZI

TESTOVA 17

4.1. Aritmeticka sredina . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

4.2. Medijan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

4.3. Mod . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

4.4. Raspon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

4.5. Varijanca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

4.6. Standardna devijacija . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

5. STATISTICKA ANALIZA TESTOVA VISESTRUKOG IZBORA 22

5.1. KLASICNA TEST TEORIJA . . . . . . . . . . . . . . . . . . . . . . . . . 23

5.1.1. Kuder-Richardsonova metoda (KR-20) . . . . . . . . . . . . . . . . 23

5.1.2. Cronbachova alfa (α) . . . . . . . . . . . . . . . . . . . . . . . . . . 24

5.1.3. Indeks tezine zadatka (P) . . . . . . . . . . . . . . . . . . . . . . . 25

5.1.4. Point - biserijalni koeficijent (rPBK) . . . . . . . . . . . . . . . . . . 26

5.1.5. Indeks diskriminacije zadataka (D) . . . . . . . . . . . . . . . . . . 27

5.1.6. Nedostaci klasicne test teorije . . . . . . . . . . . . . . . . . . . . . 28

5.2. TEORIJA ODGOVORA NA ZADATKE . . . . . . . . . . . . . . . . . . . 28

5.3. FAKTORSKA ANALIZA . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

Page 4: Lucija Lu•ci¶cmdjumic/uploads/diplomski/LUč03.pdf6 2. TESTOVI ZNANJA Samo znanje vrijedi onoliko koliko smo ga usvojili i koliko ga svjesno upotrebljavamo u svoju korist. Jedan

4

5.4. KLASTER ANALIZA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

5.5. ANALIZA MODELA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

6. EKSPERIMENTALNI DIO 32

6.1. TUG- K test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

6.2. DIRECT test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

6.3. CSEM test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

6.4. Pisani ispit iz elektromagnetizma . . . . . . . . . . . . . . . . . . . . . . . 34

7. REZULTATI 35

7.1. TUG-K test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

7.2. DIRECT test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

7.3. CSEM test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

7.4. PISMENI ISPIT IZ ELEKTROMAGNETIZMA . . . . . . . . . . . . . . 38

8. ZAKLJUCAK 40

9. LITERATURA 41

10.SAZETAK 43

11.SUMMARY 44

12.ZIVOTOPIS 45

13.PRILOG 46

Page 5: Lucija Lu•ci¶cmdjumic/uploads/diplomski/LUč03.pdf6 2. TESTOVI ZNANJA Samo znanje vrijedi onoliko koliko smo ga usvojili i koliko ga svjesno upotrebljavamo u svoju korist. Jedan

5

1. UVOD

Od trenutka kada ucenici prvi puta ugledaju nastavnika, vecina njih ce za tridesetak

sekundi procijeniti, kakva je osoba, svida li im se ili ne, a slijedece 2− 3 minute stvorit ce

cvrsto misljenje o njemu. Zbog toga je vjestina prezentiranja gradiva vazna za prenosenje

znanja. Bitna je komunikacija s ucenicima, koja nije urodena, to je vjestina koju ucimo

cijeli zivot. Poznajem nastavnike koji imaju znanje, ali ga ne znaju prenijeti na ucenike.

Postoje razni metodicki prirucnici koji daju upute kako sto kvalitetnije odraditi nastavni

sat i uciniti ga zanimljivim da bi djeca sto vise upamtila. Najveci problem u svemu tome

je provjeriti to znanje ucenika. Ne postoji mehanizam koji bi nastavniku dao povratnu

informaciju o korisnosti njegovih metoda, jesu li njegova predavanja urodila pravim zna-

njem fizike. To je ono sto je i zadaca nastavnika, ucenike nesto nauciti. Ali kako provjeriti

je li ta zadaca kvalitetno odradena? Konkretan odgovor na to pitanje nisam pronasla.

Vazan dio obrazovnog procesa je provjera znanja. Nastavnici moraju stalno usavrsa-

vati svoja znanja, vjestine i stavove kako bi ucenicima olaksali ucenje. Ucenici bi trebali

znati da je cilj obrazovanja stjecanje znanja i vjestina, a da je vrednovanje samo provjera

tog procesa. Uobicajeni nacin izrade ispitnih materijala u nastavi fizike u vecini slucajeva

ne omogucava kvalitetnu analizu rezultata testa, a time i unapredenje nastave. Svima su

poznati nedostaci pisanih testova: neadekvatan odabir pitanja i zadataka, ne mjere vise

(sve) razina znanja itd. Pitanja bi trebala biti kvalitetno odabrana i primjerena ocekivanoj

razini znanja ucenika. Test bi trebao biti konstruiran tako da se od laksih pitanja dolazi

do tezih, da su pitanja jasna i traze konkretne odgovore. Pozeljna bi bila stalna provjera

znanja, koja se i preporucuje, a ona opet zahtjeva veliki angazman nastavnika. Izradom

dobrog testa s pravilno odabranim pitanjima doci ce se do poboljsanja vrednovanja ucenika

i dobit cemo ”stvarnu” povratnu informaciju o usvojenosti znanja fizike. Ovim diplomskim

radom zelim pokazati neke kvantitativne metode provjere pouzdanosti testa. Mozda cu

ovim radom i sebe puno toga nauciti i to iskoristiti kao buduca nastavnica koja ce prenositi

znanje ucenicima i kasnije provjeravati i sebe i njih. Njih koliko su usvojili, a kroz to i

sebe koliko sam im uspjela prenijeti ono sto sam ja naucila od svojih profesora.

Page 6: Lucija Lu•ci¶cmdjumic/uploads/diplomski/LUč03.pdf6 2. TESTOVI ZNANJA Samo znanje vrijedi onoliko koliko smo ga usvojili i koliko ga svjesno upotrebljavamo u svoju korist. Jedan

6

2. TESTOVI ZNANJA

Samo znanje vrijedi onoliko koliko smo ga usvojili i koliko ga svjesno upotrebljavamo

u svoju korist. Jedan od nacina kojim se to znanje moze provjeriti su testovi znanja.

U sirem smislu rijeci test se moze definirati kao standardizirana procedura za dobivanje

uzorka znanja iz specificne domene znanja. Zanimanje za te standardizirane testove znanja

pojavljuje se u SAD-u dok se kod nas to razvija nesto kasnije.

Testiranje je postupak kojima se kod ispitanika izaziva reakcija znanja. Dobiveni

rezultati se procjenjuju i mjere prema vec odredenim normama. Upotrebom testova

znanja iskljucuje se utjecaj svih onih subjektivnih faktora nastavnika ocjenjivaca koji

moze znatno pridonijeti slaboj vrijednosti ocjene kao pokazatelja znanja. Standardizaci-

jom prilika ispitivanja, svi su ucenici stavljeni pred jednake zadatke, s jednakim uputama

i jednako raspolozivim vremenom za rjesavanje testa. Nakon provedenog ispita znanja,

rezultati se procjenjuju prema stalnom i jednakom kriteriju za sve ucenike.

2.1. Provjera znanja u nastavi fizike

Nakon obradene neke metodicke jedinice jednog skolskog sata kao zavrsni dio uzima se

ponavljanje naucenih sadrzaja (definicija, formula i zakona). Vec samim tim ponavljanje

nastavnici dobiju neku povratnu informaciju o usvojenosti obradenih sadrzaja. Tako da

se i to ponavljanje moze uzeti kao vrlo kratka, ali i neocijenjena provjera znanja. Provjera

ocekivane razine znanja ucenika moze se svesti na tri oblika:

• usmena provjera

• provjera prakticnim radovima (pokusi)

• pismena provjera znanja

Prva dva tipa provjere znanja cu kratko obrazloziti, vise cu se bazirati na pisanu provjeru

znanja, tj. testove znanja.

USMENA PROVJERA

Usmena provjera znanja ima velike prednosti. Njome je moguce odjednom provjeriti

vecu kolicinu znanja. Iako se cini kao najlaksi nacin provjere, zapravo iziskuje odredenu

kreativnost i iskustvo profesora. Vazno je da pitanje bude tocno formulirano i da ne

Page 7: Lucija Lu•ci¶cmdjumic/uploads/diplomski/LUč03.pdf6 2. TESTOVI ZNANJA Samo znanje vrijedi onoliko koliko smo ga usvojili i koliko ga svjesno upotrebljavamo u svoju korist. Jedan

7

navodi na ociti odgovor. Usmeno ispitivanje je dobro povezano s prikazivanjem odredene

aparature (ampermetar, voltmetar, strujni krug, itd), shema i crteza. U fizici je to lako

primijeniti ako se vecina vjezbi temelji na eksperimentu. Tada ucenici vec pri odgovaranju

mogu ponoviti pokus u svojim mislima i na taj nacin reproducirati nauceno.

POKUSI

Temeljno sredstvo istrazivanja prirode je eksperiment ili kako se tu u nastavi kaze,

pokus. Uz pomoc njega mozemo izolirano promatrati svaku pojavu za sebe i izvoditi ga

kada god to zelimo bez da se neka pojava dogodi u prirodi. Pokusima ucenici dobivaju

potvrdu ili negaciju svojih pretpostavki. Izvodeci ih samostalno, razvijaju smisao za rad,

preciznost, timski rad, strpljivost i moc opazanja. Uspjeh eksperimenta ce tada biti njihov

osobni uspjeh, a rezultate i zakljucak ce pamtiti.

2.2. Pisana provjera znanja

Domace zadace

Nastavnik ucenicima daje odredenu temu i vremenski rok za predaju. On moze odluciti

hoce li ju ocijeniti svim ucenicima ili tek nekim pojedincima. Ucenicima oko takvih zadaca

cesto treba pomoc tako da se ne mogu uzeti kao pravo mjerilo naucenog i usvojenog znanja.

Pisanje skolske radnje

Ovaj nacin se odnosi na obradu rezultata laboratorijskih vjezbi. Zadaca je opisati

svoja istrazivanja, dati zapazanja i konacni zakljucak. Ako je potrebno obrazlozenja

potkrijepiti skicama, grafovima itd. ovisno o kakvoj se vjezbi radi.

Testovi znanja

Uobicajeni nacin izrade testova znanja i njihovo provodenje u vecini slucajeva ne

omogucava kvalitetnu i svestranu analizu rezultata testa, a time i unapredenje nastave.

Prije same izrade testa znanja potrebno je definirati koji dio gradiva fizike zelimo tim

Page 8: Lucija Lu•ci¶cmdjumic/uploads/diplomski/LUč03.pdf6 2. TESTOVI ZNANJA Samo znanje vrijedi onoliko koliko smo ga usvojili i koliko ga svjesno upotrebljavamo u svoju korist. Jedan

8

testom provjeriti. Ucenicima treba reci sto ce obuhvacati kako bi se kvalitetno mogli

pripremiti. Nastavnik treba odrediti kakav izgled ce imati njegov pismeni primjerak.

Treba odluciti hoce li raditi pismeni primjerak za svakog ucenika ili ce im pitanja dati na

prozirnici/projektoru (ovisi o okruzenju u kojem radi). Ako se radi o klasicnom primjeru

testa za svakog ucenika posebno, treba paziti na njegov izgled. Paziti na izbor pitanja i

dovoljno praznog mjesta za odgovore. Pitanja ne trebaju biti prelagana, ali ni preteska.

Redoslijed pitanja bi trebao biti od laksih prema tezim. Trebaju biti formulirana tako da

zahtijevaju kratke i jednoznacne odgovore. Gdje to nije moguce uceniku treba predloziti

visestruki izbor odgovora pa da on sam odluci koji je tocan. Prije samog pocetka provjere

znanja ucenike treba upoznati o nacinu rjesavanja testa i vremenu trajanja provjere. Ako

test sadrzi i tekstualne i numericke zadatke, dati na uvid nacin bodovanja.

Kako bi se provjerilo znanje razlicitih podrucja fizike, nije uvijek moguce koristiti isti

tip pitanja pa prema tome mozemo testove dijeliti na nekoliko tipova. Testovi u kojima

su:

1. ZADACI KOD KOJIH TREBA REPRODUCIRATI ZNANJE

TIP DOSJECANJA

To se odnosi na pitanja koja zahtijevaju kratak odgovor.

Kako glasi 3. Newtonov zakon?

O cemu ovisi jakost elektricne struje?

TIP DOPUNJAVANJA

Pitanja koja traze nadopunu i gdje se tocno navodi koliko rijeci nedostaje.

Uputa: Dopuni sljedece recenice:

Osnovna mjerna jedinica za snagu je .

Ohmov zakon govori o odnosu , , u stru-

jnom krugu.

2. ZADACI KOD KOJIH UCENIK ODABIRE ISPRAVAN ODGOVOR

MEDU PONUDENIM

TIP PREPOZNAVANJA

Predstavljaju se tvrdnje za koje se trazi procjena tocnosti. Tvrdnje bi trebale biti

nedvosmislene.

Page 9: Lucija Lu•ci¶cmdjumic/uploads/diplomski/LUč03.pdf6 2. TESTOVI ZNANJA Samo znanje vrijedi onoliko koliko smo ga usvojili i koliko ga svjesno upotrebljavamo u svoju korist. Jedan

9

U vakuumu svi predmeti padaju jednakom brzinom. Tocno/ Netocno

Brzina je snaga po jedinici vremena. Tocno/ Netocno

TIP VISESTRUKOG IZBORA

Pitanja ili tvrdnje uz koje je predlozeno vise odgovora i od ucenika se trazi da odabere

onaj koji je tocan. Svi predlozeni odgovori bi trebali biti podjednako prihvatljivi. Mjesto

trazenog odgovora treba varirati.

Zasto se svjetla u vasim kucama upale gotovo trenutno?

a) Naboji se vec nalaze u zici. Kada se strujni krug zatvori, dolazi do

brze preraspodjele povrsinskog naboja u strujnom krugu.

b) Naboji pohranjuju energiju. Kad se strujni krug zatvori, energija se

oslobada.

c) Naboji u zici gibaju se vrlo velikom brzinom.

d) Strujni krugovi u kuci spojeni su paralelno. Zbog toga, struja vec tece.

Uz gore navedene primjere tipova testova znanja mozemo spomenuti i tipove uspore-

divanja i sredivanja koji se rjede koriste u praksi.

Poredaj materijale prema tome koji element najbolje provodi elektricnu

struju.

zeljezo-aluminij-srebro-drvo-porculan-bakar

Kao pitanje u testu moze se pojaviti i numericki zadatak. Njima treba posvetiti veliku

paznju jer njihovim rjesavanjem pojmovi postaju jasniji, a znanje postaje trajnije. To je

jedan od nacina kojim ucenici teorijsko znanje primjenjuju na rjesavanje prakticnih proble-

ma. Razvijaju apstraktno razmisljanje i logicko zakljucivanje te naviku samostalnog rada.

Zeljezni prsten poprecnog presjeka 15cm2 ima srednji promjer 16 cm.

Oko prstena je namotano 1000 namotaja kojima tece struja jakosti 200mA.

Relativna permeabilnost zeljeza je 500. Izracunajte : a) jakost magnetskog

polja b) magnetsku indukciju.

Page 10: Lucija Lu•ci¶cmdjumic/uploads/diplomski/LUč03.pdf6 2. TESTOVI ZNANJA Samo znanje vrijedi onoliko koliko smo ga usvojili i koliko ga svjesno upotrebljavamo u svoju korist. Jedan

10

Koliko god da su testovi znanja objektivan i u neku ruku dobar pokazatelj znanja

ucenika, imaju i svoje nedostatke:

• ispituju se ”staticka” znanja

• nemoguce je postavljati podpitanja

• zahtijevaju veci trud oko analize rezultata

• ubrzo postaju prepoznatljivi

• nekim ucenicima bolje odgovara usmena provjera

• provjerava se dio gradiva

Vazno je sastaviti kvalitetan ispit znanja koji ce biti pravi pokazatelj ucenikova znanja.

Zbog ovih nedostataka pisanih testova vazno je primjenjivati sve oblike provjere znanja

kako bi se ucenici sto kvalitetnije vrednovali. Test prije svega mora biti pouzdan i valjan.

Page 11: Lucija Lu•ci¶cmdjumic/uploads/diplomski/LUč03.pdf6 2. TESTOVI ZNANJA Samo znanje vrijedi onoliko koliko smo ga usvojili i koliko ga svjesno upotrebljavamo u svoju korist. Jedan

11

3. MJERENE ZNACAJKE PISMENOG TESTA

Neovisno o metodi, svako je ispitivanje odgojno-obrazovno mjerenje. Da bi dobiveni

rezultati bili korisni pismeni test treba imati sljedeca dva najvaznija svojstva:

• POUZDANOST (dosljednost)

• VALJANOST (stupanj preciznosti kojom test mjeri ono sto bi trebao mjeriti)

Preostala svojstva :

• relevantnost (stupanj suglasnosti izmedu pitanja u testu i nastavnih ciljeva)

• objektivnost (stupanj suglasnosti medu kompetentnim strucnjacima o znacenju

rezultata)

• ekvivalentnost (koliko pitanja odgovaraju sadrzaju nastave)

• diskriminativnost (stupanj u kojem test razdvaja polaznike po manjem i vecem

znanju)

• izvedivost (jednostavnost i prakticnost za ucenike i nastavnike )

3.1. Pouzdanost

Svaki test sadrzi nekakvu pogresku. To vrijedi kako za testove u prirodnim znanostima

tako i za one u neki drugim podrucjima istrazivanja. Ako mjerimo npr. duzinu stola

ravnalom moze doci do sistematske pogreske. Ona ovisi o tocki na kojoj je ucrtana nula,

o preciznosti mjerne skale, o nasoj vjestini ocitavanja, posebno rezultata koji se nalaze

izmedu ucrtanih oznaka. Problem se javlja kod velicina koje se mijenjaju u vremenu.

Testovi koji se svakodnevno provode u ucionicama je puno lakse kontrolirati. Lakse je

uociti moguce pogreske i u hodu ih tijekom procesa testiranja ispraviti.

Mjerenje je pouzdano, bezobzira na sto se ono odnosilo, ukoliko ono daje dosljedne

rezultate. Ako stojimo na vagi zeleci odrediti tezinu i ocitamo 60 kg, mozemo slobodno

biti sumnjicavi. Sidemo li s vage i ponovimo postupak i ona ponovno pokaze 60 kg mozemo

zakljuciti da ona daje neke dosljedne rezultate. S istrazivackog gledista ta bi vaga bila

pouzdana, a je li to mjerenje zapravo tocno, to je vec neko drugo pitanje. Mozda najbolji

nacin na koji trebamo gledati na pouzdanost je u kojoj mjeri su dobivena mjerenja iz

testa ustvari pokazatelji osobina onoga sto smo mjerili.

Page 12: Lucija Lu•ci¶cmdjumic/uploads/diplomski/LUč03.pdf6 2. TESTOVI ZNANJA Samo znanje vrijedi onoliko koliko smo ga usvojili i koliko ga svjesno upotrebljavamo u svoju korist. Jedan

12

3.1.1. Izvori pogresaka

Postoje tri glavna izvora pogresaka: cimbenici u samom testu, cimbenici povezani

s ispitanikom koji pristupa testu i cimbenici bodovanja. Vecina testova sadrzi razlicita

podrucja ispitivanja kojim se provjeravaju ucenicke vjestine. Ako ucenik odredeni problem

rijesi sedam, osam puta za redom onda to mozemo generalizirati i reci da on ima razvijene

odredene sposobnosti za to podrucje. Rijesi li ucenik zadatke zbrajanja, oduzimanja,

mnozenja i dijeljenja razlomaka, zakljucujemo da ucenik poznaje operacije s razlomcima.

Na osnovi aritmetickih vjestina za ocekivati bi bilo da su svi sadrzaji testova slicni cineci

ga visoko pouzdanim. Kako te vjestine i domene postaju slozenije, dolazi do vecih i broj-

nijih pogresaka. Ostali izvori pogresaka ukljucuju krivi odabir u testovima visestrukog

odabira, testovima gdje je ponudeno vise tocnih odgovora i testova tezih sadrzaja koji

mozda nisu u skladu sa sposobnoscu ucenika. Ispitanici (ucenici, studenti, . . .) nisu uvi-

jek dosljedni i utjecu na pogreske u testu. Zdravlje i kvalitetno spavanje moze utjecati na

njihov napor, a time i na dosljednost u testu. Moze doci do pogresaka koji su posljedi-

ca neopreznosti odnosno nekoncentracije, mogu se pogresno protumaciti upute na testu,

zaboraviti upute testa, nenamjerno izostaviti dijelove odgovora i sl. Bodovanje je treci

potencijalni izvor greske u testu. Oni koji boduju test nisu uvijek dosljedni. Moze doci

do promjene kriterija ili nekakvih predrasuda, percepcije razlike, subjektivnost, blagosti

itd.

3.1.2. Mjera pouzdanosti

Nemoguce je izracunati koeficijent pouzdanosti koji odgovara teorijskoj definiciji. Pod-

sjetimo se, teorijska definicija ovisi o stupnju znanja do kojeg populacija varira u svojem

pravom znaju (ili o bilo cemu sto test mjeri). Za procjenu pouzdanosti nam sluzi nekoliko

statistika:

• test-retest

• split-half

• unutarnja konzistencija

Page 13: Lucija Lu•ci¶cmdjumic/uploads/diplomski/LUč03.pdf6 2. TESTOVI ZNANJA Samo znanje vrijedi onoliko koliko smo ga usvojili i koliko ga svjesno upotrebljavamo u svoju korist. Jedan

13

TEST-RETEST

Pouzdanost se dobiva provodenjem istih testova dva puta u odredenom vremenskom

intervalu kod istih ispitanika. To zna biti skupo i oduzima dosta vremena. Najveci ”trik”

u ovoj metodi je tocno odrediti taj vremenski interval. Ne bi smio biti ni prekratak

niti predug. U slucaju ako je prekratak, ispitanik se moze prisjetiti pitanja i odgovora

s prethodnog ispitivanja pa moze doci do prekomjerne dosljednosti. Ako je vremenski

interval predug, ispitanik u meduvremenu moze napredovati i steci neka nova znanja pa

bi postignuce moglo biti sasvim nesto drugo. Isto tako, ispitanik moze zaboraviti sve

ono sto je znao o predmetu mjerenja sto isto nece rezultirati dobrim rezultatima. Ako su

rezultati u skladu s vremenom, trebali bi biti slicni.

SPLIT-HALF

Kao sto mu samo ime kaze, to je koeficijent koji se dobije dijeljenjem testa na dvije

polovice, a predstavlja korelaciju rezultata u obje polovice. Ta se podjela moze temeljiti na

neparnim, odnosno parnim brojem zadataka u testu ili ”rucnim” balansiranjem sadrzaja

i njegove tezine. Prednost mu je sto zahtjeva samo jednu verziju testa, a nedostatak sto

ovisi o nacinu podjele testa. Nije primjeren u testovima gdje je vazan cimbenik vrijeme,

tj. gdje su studenti pod utjecajem koliko su toga rijesili u zadanom roku. Cesto se koristi

kod dvojakih varijabli koje imaju vrijednosti 0 za netocno i 1 za tocno.

UNUTARNJA KONZISTENCIJA

Unutarnja konzistencija je fokusirana na stupanju kojem su pojedini zadaci u testu

u korelaciji jedan s drugim, stoga se cesto naziva homogenost. U ovu kategoriju spada

nekoliko parametara. Najpoznatije su Cronbachova α i Kuder-Richardson (KR − 20).

Prednost ove statistike je u tome sto zahtjeva samo jedan test i da isti ne ovisi o odredenoj

podjeli zadataka u testu. Nedostatak mu je sto se odnosi na test koji mjeri vjestinu na

samo jednom podrucju. Ovo je najjednostavniji oblik provjere pouzdanost testa.

3.1.3. Kolika pouzdanost treba biti?

Vecina ispitivanja koeficijenta pouzdanosti kazu da on prelazi 0.80, a cesto i 0.90. Ako

se radi o testovima specijaliziranim za velike obrazovne polozaje ili visokoskolske diplome

Page 14: Lucija Lu•ci¶cmdjumic/uploads/diplomski/LUč03.pdf6 2. TESTOVI ZNANJA Samo znanje vrijedi onoliko koliko smo ga usvojili i koliko ga svjesno upotrebljavamo u svoju korist. Jedan

14

ili strucnu potvrdu, svakako je vazno da tu pouzdanost bude sto veca. Trebala bi iznositi

barem 0.90, ali po mogucnosti iznad 0.95. Kada se radi o ucenickim testovima visina

pouzdanosti ne mora biti tolika. Dovoljno je 0.50 ili 0.60. Ako test nije pouzdan ili nije

prikladan za pojedinca, svakako treba napraviti ispravke. Sto je test duzi to je pouzdaniji.

Jednosatni test ce biti pouzdaniji od pet-minutnog kviza.

3.1.4. Bodovanje

Postavlja se pitanje kako bi nastavnici trebali reagirati na pogreske u testu koje su

posljedica ispitanikove neopreznosti. S jedne strane zadaca nastavnika je nauciti ucenike

kako slijediti upute i razmisljati tijekom rada, nauciti ih kako da budu oprezni. S druge

strane, testovi bi trebali biti pokazatelji ucenikova znanja, preciznosti i snalazljivosti,

tocnosti. Nizak rezultat zbog neopreznih pogreske nikako nije isto sto i los rezultat zbog

neznanja.

Vjerujem da takvi testovi koji su lose napisani zbog nepaznje, pogotovo u nizim ra-

zredima ne bi trebali utjecati na ocjenu na polugodistu. Bilo bi pozeljno provoditi barem

dva takva testa iz kojih cemo dobit uvid u ucenikovo znanje ili mozda ipak neznanje.

3.2. Valjanost

3.2.1. Definicija valjanosti

Valjanost moze biti definirana kao suglasnost izmedu rezultata testa i onoga sto taj

test zapravo treba mjeriti. Procjenjujuci valjanost nekog testa mi nastojimo utvrditi mjeri

li on, i u kojoj mjeri, ono sto tim testom zelimo mjeriti. U nasem bi to slucaju to bilo

ucenicko znanje.

3.2.2. Vrste valjanosti

Valjanost je metrijska karakteristika koja vec godinama predstavlja pomutnju po pi-

tanju terminologije. Ne postoji opceprihvacena sistematizacija tipova valjanosti. Spomenut

cu tri najvaznije vrste valjanosti koje se odnose na predmet istrazivanja ovoga diplomskog

rada:

• sadrzajna valjanost

• kriterijska valjanost

• konstruktivna valjanost

Page 15: Lucija Lu•ci¶cmdjumic/uploads/diplomski/LUč03.pdf6 2. TESTOVI ZNANJA Samo znanje vrijedi onoliko koliko smo ga usvojili i koliko ga svjesno upotrebljavamo u svoju korist. Jedan

15

Dijagnosticka, empirijska, teorijska, divergentna i faktorska valjanosti su jos neki tipovi

koji se spominju, ali nisu predmet naseg razmatranja.

SADRZAJANA VALJANOST

Sadrzajna valjanost je nestatisticka vrsta valjanosti koja ukljucuje sistematski pre-

gled sadrzaja testa kako bi se utvrdilo je li zastupljenost pojedinih pitanja odgovarajuca.

Test ce biti valjan u onoj mjeri u kojoj dobro predstavlja domenu pitanja koju zelimo

provjeriti. Pitanja moraju biti dobro odabrana. Procjena stupnja sadrzajne valjanosti je

stvar kvalitativne procjene i teorijskog dokazivanja. Ne postoji neki objektivni brojcani

pokazatelj.

KRITERIJSKA VALJANOST

Kriterijska valjanost ukljucuje korelaciju izmedu testa i kriterijske varijable uzete kao

predstavnika. Drugim rijecima, usporedujemo rezultate testa s rezultatima koji su do-

biveni prije i koji su jos uvijek vazeci. Na primjer, testovi inteligencije (IQ) se cesto

uzimaju kao mjera akademskih uspjeha.

Ako su podaci ispitivanja i kriterija prikupljeni u isto vrijeme, tada imamo istovremeni

dokaz valjanosti. Prediktivna valjanost se odnosi na podatke ispitivanja sakupljene prije

u svrhu predvidanja kriterija podataka.

Kriterijska valjanost se koristi u obrazovanju jer se njome utvrduje prediktivna valja-

nost testova i selekcijskih postupaka.

KONSTRUKTIVNA VALJANOST

Konstruktivna valjanost se odnosi na povezanost rezultata dobivenih na testu za koji

utvrdujemo konstruktivnu valjanost s rezultatima dobivenim drugim testom. Zanima nas

je li odnos rezultata mjerenja u skladu s teorijskim hipotezama koje se odnose na dani

test. Jednostavnije receno, u kojoj mjeri testovi inteligencije mjere ”inteligenciju”?

Osnovnu razliku izmedu pouzdanosti i valjanosti mozemo prikazati na sljedecem fizi-

kalnom primjeru s odredivanjem poznate mase nekog tijela vaganjem (npr. 10 kg) na 4

razlicite vage. Neka su dobiveni rezultati prikazani u Tablici 1. Za mjerenja prvom vagom

mozemo reci da su pouzdana jer su dobiveni rezultati grupirani oko jedne vrijednosti, no

Page 16: Lucija Lu•ci¶cmdjumic/uploads/diplomski/LUč03.pdf6 2. TESTOVI ZNANJA Samo znanje vrijedi onoliko koliko smo ga usvojili i koliko ga svjesno upotrebljavamo u svoju korist. Jedan

16

ta se vrijednost znacajno razlikuje od stvarne mase tijela pa vaga nije valjana. Druga

vaga siroko rasprsuje pojedinacno izmjerene vrijednosti mase (velika slucajna pogreska

u mjerenju) pa se moze reci da nije pouzdana, ali ukupni srednji rezultat mase tijela je

valjan. Mjerenja vage 3 nisu niti pouzdana niti valjana, za razliku od vage 4 koja je i

pouzdana i valjana.

Tablica 1. Ilustracija razlike pouzdanosti i valjanosti na primjeru odredivanja mase tijela vaganjem.

Mjerenje Vaga 1 - m/kg Vaga 2 - m / kg Vaga 3 - m / kg Vaga 4 - m / kg1 8.9 9.6 8.9 10.02 9.0 10.2 10.5 10.03 9.0 10.5 11.2 10.14 8.8 9.5 8.8 10.05 9.0 10.2 10.6 9.96 8.9 10.3 10.3 10.17 8.9 9.7 11.7 9.9

POUZDANOST Visoka Niska Niska VisokaVALJANOST Niska Visoka Niska Visoka

Slicno je i kod testiranja ispitanika. Mala slucajna pogreska testa rezultira njegovom

visokom pouzdanoscu i obratno, dok je valjanost testa unaprijed definirana izborom pi-

tanja koje postavljamo.

Slika 1. Graficki prikaz razlike pojmova valjanosti i pouzdanosti nekog mjerenja testiranjem; oznake su

prilagodene onima u Tablici 1.

Page 17: Lucija Lu•ci¶cmdjumic/uploads/diplomski/LUč03.pdf6 2. TESTOVI ZNANJA Samo znanje vrijedi onoliko koliko smo ga usvojili i koliko ga svjesno upotrebljavamo u svoju korist. Jedan

17

4. STATISTICKI PARAMETRI U ANALIZI

TESTOVA

Statisticku analizu testa provodimo kako bi provjerili kvalitetu testa. Za to nam,

izmedu ostalog, sluze osnovni deskriptivni parametri testova: aritmeticka sredina, medi-

jan, mod, raspon, varijanca i standardna devijacija.

4.1. Aritmeticka sredina

Aritmeticka sredina je najcesce koristena srednja vrijednost. Racuna se za neki skup

brojeva kao kvocijent zbroja clanova i broja clanova skupa. Definira se formulom :

X =X1 + . . . + XN

N=

∑Ni=1 Xi

N(4.1)

Kako bi dobili aritmeticku sredinu moramo sumu vrijednosti numerickog obiljezja osno-

vnog skupa podijeliti s brojem jedinica osnovnog skupa.

SVOJSTVA ARITMETICKE SREDINE:

1◦ Zbroj svih odstupanja podataka od njihova prosjeka jednak je nuli.∑

(xi − x) = 0 (4.2)

2◦ Zbroj kvadrata odstupanja danih podataka od nekog realnog broja c (c ∈ R) jednak

je minimumu. ∑(xi − c)2 = minimum (4.3)

3◦ Aritmeticka sredina se uvijek nalazi izmedu najmanje i najvece vrijednosti nu-

merickog obiljezja varijabli Xi .

Xmin < X < Xmax (4.4)

4◦ Ako je vrijednost numericke varijable Xi jednaka konstanti c, aritmeticka sredina te

varijable jednaka je konstanti c.

X = c, x1 = x2 = . . . = xN = c (4.5)

Primjer 4.1

S={1, 3, 6, 7, 8}Skup S ima 5 clanova ciji je zbroj 25 pa je njegova aritmeticka sredina 5.

Page 18: Lucija Lu•ci¶cmdjumic/uploads/diplomski/LUč03.pdf6 2. TESTOVI ZNANJA Samo znanje vrijedi onoliko koliko smo ga usvojili i koliko ga svjesno upotrebljavamo u svoju korist. Jedan

18

4.2. Medijan

Medijan je numericka vrijednost koja niz dijeli na dva jednaka dijela. Oznacava se

malim slovom ”m”. Za definiciju medijana m cemo pretpostaviti da se radi o podacima

koji su poredani po velicini, tj. da vrijedi x1 ≤ x2 ≤ . . . ≤ xn. Matematicki izraz je:

m =x n

2+x n

2 +1

2, za parno n

m = xn+12

, za neparno n(4.6)

Medijan za negrupirane statisticke nizove :

U ovom slucaju svakako prvo treba podatke u nizu poredati po velicini i tada nam

je sredisnji element medijan. Za to postoji i matematicki izraz kojim isto tako mozemo

odrediti medijan a on glasi :

m =

xr,N26= INT, r = INT (N

2) + 1

xr+xr+1

2, N

2= INT, r = N

2

(4.7)

INT - cjelobrojni dio razlomka

N - broj clanova niza

r = INT(

N2

)+ 1

SVOJSTVA MEDIJANA:

1◦ Zbroj apsolutnih vrijednosti odstupanja danih podatka od nekog broja poprima

minimalnu vrijednost.N∑

i=1

|xi −Me| = minimum (4.8)

Izracunavanje medijana se koristi u slucajevima kada su nepoznate sve vrijednosti

numerickog obiljezja i za distribuciju frekvencija koje imaju otvoren razred.

Medijan je manje osjetljiv na ekstreme u odnosu na aritmeticku sredinu i reprezenta-

tivnost medijana u izrazito asimetricnim distribucijama frekvencije veca je od reprezen-

tativnosti aritmeticke sredine.

Primjer 4.2 (za negrupirani niz elemenata)

Niz : 2,12,3,4,2,5,2,7,8

Poredamo clanove niza 2,2,2,3, 4, 5,7,8,12.

Srednja numericka vrijednost koja niz dijeli na dva jednaka dijela je 4 sto

znaci da je m=4.

Page 19: Lucija Lu•ci¶cmdjumic/uploads/diplomski/LUč03.pdf6 2. TESTOVI ZNANJA Samo znanje vrijedi onoliko koliko smo ga usvojili i koliko ga svjesno upotrebljavamo u svoju korist. Jedan

19

r = INT(

92

)+1 = 5

Medijan nam je 4 sto znaci da polovica elemenata niza ima vrijednost nu-

merickog obiljezja 4 i manju od 4, a druga polovica elemenata niza ima

vrijednost numerickog obiljezja 4 i vecu od 4.

Ako imamo negrupirani niz podataka s parnim brojem elemenata niza i ako

je nas niz jednak:

2,12,3,4,2,5,2,7,8,2,9,2

Ponovno trebamo poredati clanove niza po velicini pa imamo:

2,2,2,2,2,3,4,5,7,8,9,1,2

Pozivajuci se na prethodno definiran izraz (4.7) medijan dobijemo koristeci

formulu :

m=xr+xr+1

2=

3+4

2=3,5.

Dobivena vrijednost 3,5 je upravo nas medijan.

4.3. Mod

Mod je vrijednost od X s najvecom frekvencijom, odnosno broj u nizu X1, X2, . . . , Xn

koji se najcesce pojavljuje i to barem dva puta. Niz elemenata nekog skupa moze imati

jedan ili vise modova. Isto tako, moze se dogoditi da niz nema mod.

Prednost moda nad aritmetickom sredinom kao reprezentantom neke populacije je

u tome sto na njega ne utjece ni broj ni vrijednost rezultata, vec samo frekvencija

(ucestalost) pojavljivanja. Mod je za razliku od aritmeticke sredine, pozicijska mjera

centralne tendencije.

Racunanje moda iz grupiranih podataka tek je aproksimacija jer je mod precizno

moguce odrediti samo iz negrupiranih podataka.

Primjer 4.3

a) jedan mod

niz 2, 3, 5, 7, 7, 7, 8, 9 mod je 7

b) dva moda

niz 2, 3, 3, 3, 5, 7, 7, 7, 8 mod su 3 i 7

c) niti jedan mod

niz 2, 3, 4, 5, 7, 8, 9, 11, 13

Page 20: Lucija Lu•ci¶cmdjumic/uploads/diplomski/LUč03.pdf6 2. TESTOVI ZNANJA Samo znanje vrijedi onoliko koliko smo ga usvojili i koliko ga svjesno upotrebljavamo u svoju korist. Jedan

20

4.4. Raspon

Najjednostavnija (ali i najnetocnija) mjera grupiranja rezultata oko neke srednje vri-

jednosti je tzv. ”raspon”, tj. razlika izmedu najveceg i najmanjeg rezultata.

d = max{x1, . . . xn} −min{x1, . . . xn} = x′n − x′1 (4.9)

Kod mjerenja razlicitih pojava moze se opazati grupiranje rezultata oko jedne srednje

vrijednosti. Jedino pod tom pretpostavkom i imamo pravo racunati neku vrijednost.

Aritmeticka sredina nam nije nikakva garancija da se rezultati grupiraju oko te aritmeticke

sredine i zato je uvijek potrebno znati kako i koliko se oni grupiraju, tj. je li dobivena

aritmeticka sredina dobar ili los reprezentant rezultata.

Glavni nedostatak raspona kao odredene mjere rasipanja podataka je to sto raspon

ovisi samo o ekstremnim vrijednostima u danom nizu statistickih podataka, dok sredisnja

skupina podataka ne utjece na velicinu raspona. Prema tome, razlicite vrste nizova mogu

imati jednaku vrijednost raspona.

Primjer 4.4

Imamo dva niza podataka

Niz 1: 8 8.5 8.5 9 9 9 9 9.5 9.5 10

Niz 2: 1 2 3 5 9 9 13 15 16 17

U oba slucaja suma rezultata = 90, a aritmeticka sredina = 9.0 sto go-

vori da se rezultati bolje grupiraju oko aritmeticke sredine u prvom nizu, a

u drugom ne.

U prvom slucaju raspon 10-8=2, a u drugom 17-1=16. Prema tome, prva

aritmeticka sredina bolje reprezentira rezultate iz kojih je dobivena.

4.5. Varijanca

Varijanca ili disperzija danog niza je parametar koji ”mjeri” rasipanje podataka.

Oznacava se σ2 i definira formulom :

σ2 =

∑Ni=1(xi −X)2

N. (4.10)

Iz formule mozemo iscitati da je varijanca zbroj kvadrata odstupanja pojedinih podataka

Page 21: Lucija Lu•ci¶cmdjumic/uploads/diplomski/LUč03.pdf6 2. TESTOVI ZNANJA Samo znanje vrijedi onoliko koliko smo ga usvojili i koliko ga svjesno upotrebljavamo u svoju korist. Jedan

21

od prosjeka X podijeljen s brojem svih podataka n.

SVOJSTVA VARIJANCE:

1◦ Varijanca je uvijek nenegativna.

2◦ Varijanca poprima vrijednost 0, ako i samo ako je raspon 0, tj. ako su sve vrijednosti

Xi jednake.

za x1 = x2 = . . . = xi vrijedi σ2 = 02

N= 0.

Najcesce se varijanca ne primjenjuje za opis i ocjenu varijabiliteta numerickih svojstava,

vec se koristi za izracunavanje drugih statistickih pokazatelja varijabiliteta kao sto je stan-

dardna devijacija, ili za utvrdivanje znacajnosti razlika izmedu vise aritmetickih sredina.

Varijanca je vazan dio statisticke analize. To je prvi korak u izracunu standardne

devijacije.

4.6. Standardna devijacija

Predstavlja srednje ili prosjecno kvadratno odstupanje vrijednosti numerickog obiljezja

od aritmeticke sredine.

Matematicki izraz :

σ =

√∑x2

N. (4.11)

Ova vrijednost je apsolutna mjera disperzije. Ako je odstupanje maleno to ukazuje

na malu rasprsenost, odnosno disperziju clanova numerickog niza od aritmeticke sredine

iz cega slijedi dobra reprezentativnost aritmeticke sredine. U obrnutom slucaju kada je

disperzija velika, reprezentativnost aritmeticke sredine je slaba.

Standardna devijacija se koristi:

• kad se zeli upotrijebiti najpouzdanija mjera disperzije

• za predvidanje daljnje statisticke obrade, izracunavanje povezanosti medu pojavama,

a osobito prilikom primjene metode uzorka

• kad je distribucija pretezno simetricna

Page 22: Lucija Lu•ci¶cmdjumic/uploads/diplomski/LUč03.pdf6 2. TESTOVI ZNANJA Samo znanje vrijedi onoliko koliko smo ga usvojili i koliko ga svjesno upotrebljavamo u svoju korist. Jedan

22

5. STATISTICKA ANALIZA TESTOVA VISESTRU-

KOG IZBORA

U nastavi fizike sve se vise koriste testovi visestrukog izbora kako bi se procijenilo

ucenicko znanje.

Za analizu testova visestrukog izbora postoji pet pristupa:

• klasicna test teorija

• teorija odgovora na zadatke

• faktorska analiza

• klaster analiza

• analiza modela

Za svaki od pristupa definirani su ciljevi i osnovni algoritmi sto se moze iscitati u

Tablici 2. Kako su klasicna test teorija i teorija odgovora na zadatak dva pristupa koja

se odnose na podrucje istrazivanja ovog diplomskog rada, njih cu detaljnije prouciti.

Tablica 2. Pet pristupa za analizu testova visestrukih izbora

Pristupi analizi testova cilj/namjena osnovni algoritamvisestrukog izbora

Klasicna test teorija Procijeniti pitanje ili pouzdanost Izvodenja analize pitanja i analizatesta i diskriminatorna moc testa

Teorija odgovora na zadatak Procjena karakteristike pitanja i Koristenje logisticnih funkcija zalatentne sposobnosti ucenika formuliranje podataka

Analiza glavne Umanjiti broj varijabli Rjesavanje jednadzbi svojstvenihFaktorska komponente vrijednosti za korelacijske matriceanaliza Analiza Rjesavanje jednadzbi svojstvenih

zajednickih Istraziti temeljne cimbenike vrijednosti za prilagodenefaktora korelacijske matrice

Klaster analiza Faktorska Izracunavanje euklidske udaljenostii spajanje / podjela ucenika

Analiza modela Faktorska razlicitih modela Izraunati gustocu matrice i rijesitisvojstvene vrijednosti jednadzbe

Page 23: Lucija Lu•ci¶cmdjumic/uploads/diplomski/LUč03.pdf6 2. TESTOVI ZNANJA Samo znanje vrijedi onoliko koliko smo ga usvojili i koliko ga svjesno upotrebljavamo u svoju korist. Jedan

23

5.1. KLASICNA TEST TEORIJA

Klasicna test teorija cini temelje moderne teorije mjerenja, a uglavnom se koristi za

procjenu pouzdanosti testova u edukacijskoj fizici, no vrlo se lako moze primijeniti i u

analizi pisanih radova u nastavi fizike. Pretpostavlja se da se ukupni rezultati testa

sastoje od dva dijela: ”pravih” rezultata i slucajnih pogresaka nastalih pri testiranju

(mjerenju). Na temelju ove pretpostavke, klasicna test teorija daje statisticku analizu za

procjenu testa, ukljucujuci analizu svih pitanja i testa kao cjeline.

Svrha ove analize je provjeriti koliko je zapravo test pouzdan i kolika je njegova

diskriminacijska moc. Ako provedemo isti test dva puta u razlicitom vremenskom pe-

riodu, ocekujemo slican ishod. Treba uzeti u obzir i stanje ucenika koji pristupa testu i

uvijete testiranja koji bi trebali biti jednaki.

Klasicna test teorija obuhvaca razlicite metode kojima se provjerava pouzdanost testa.

To su Kuder-Richardsonova metoda, Cronbachova alfa, indeks tezine zadatka, point-

biserijalni koeficijent, indeks diskriminacije zadataka.

5.1.1. Kuder-Richardsonova metoda (KR-20)

Osim ”split-half” tehnike postoje, kako smo vec rekli, razlicite metode za procjenu

unutarnje konzistencije testa. 1937. godine Kuder i Richardson su uvelike unaprijedili

procjenu pouzdanosti ponudivsi metodu za vrednovanje pouzdanosti unutar jednog testa.

Poznato je da je veliki problem kod ”split-half” tehnike upravo ta podjela koja utjece na

rezultat provjere. KR − 20 metodom se upravo izbjegavaju ti problemi jer istovremeno

uzima u obzir sve moguce nacine dijeljenja pitanja u testu.

Kuder-Richardsonova metoda mjeri unutrasnju konzistentnost testa kao cjeline racu-

nanjem parametra r na slijedeci nacin:

rtt =

(L

L−1

)(σ2

t −∑L

i=1 piqi

)

σ2t

(5.12)

gdje je:

L - broj pitanja u testu

pi - postotak tocnih odgovora na i-to pitanje

qi - postotak netocnih odgovora na i-to pitanje

σ2t - varijanca ukupnih rezultata testa∑piqi - suma produkta pq za svako pitanje testa

Page 24: Lucija Lu•ci¶cmdjumic/uploads/diplomski/LUč03.pdf6 2. TESTOVI ZNANJA Samo znanje vrijedi onoliko koliko smo ga usvojili i koliko ga svjesno upotrebljavamo u svoju korist. Jedan

24

Pritom se smatra da je test pouzdan ako je r ≥ 0.70 za odreden broj pitanja (r ovisi

o broju pitanja na testu).

Da bi se sto bolje razumjelo kako ta formula djeluje, treba malo objasniti njene kom-

ponente. Komponenta σ2t predstavlja varijancu ukupnih rezultata testa. Produkt pq je

varijanca za svako pitanje u testu. Razmotrit cemo uvjete u kojima je izraz na desnoj

strani jednadzbe ili veci ili manji. Pretpostavimo da je varijanca jednaka sumi varijanci

za svaku stavku posebno (σ2t =

∑pq). U tom slucaju desna strana jednadzbe jednaka je

0 i pouzdanost bi bila 0. Iz toga zakljucujemo, ukoliko zelimo da nam pouzdanost bude

razlicita od 0, varijanca ukupnih rezultata testa mora biti veca od sume varijanci.

U slucaju kada je suma varijanci manja od ukupne varijance rezultata govorimo o

kovarijanci. Tada su stavke medusobno povezane. Sto je kovarijanca veca, suma varijanci

je manja. Vaznu ulogu ima i sam broj pitanja u testu ”L”. Sto je test kraci, pogreske su

vece.

KR− 20 uvijek premasuje maksimalnu pouzdanost mogucu za mjeru simuliranih po-

dataka. Ovo navodi test-korisnika na krivi trag, uvjeravajuci da test ima bolje mjerne

karakteristike nego sto ih zapravo ima.

5.1.2. Cronbachova alfa (α)

Cronbachova alfa je koeficijent pouzdanosti. Koristi se kao mjera konzistentnosti rezul-

tata testa na odredenom broju uzoraka. Ime je dobio po Lee Cronbachu 1951.g.

Ta velicina se moze uzeti kao prosirenje KR− 20.

Matematicki izraz :

α =L

L− 1

(1−

∑Li=1 σ2

Yi

σ2X

)(5.13)

L - broj pitanja u testu

σ2X - varijanca ukupnog broja bodova

σ2Yi

- varijanca komponente ”i” za odredenog ispitanika

Koeficijent α je pojmovno vezan sa Spearman - Brown formulom.

rtt =krxx

1 + (k − 1)rxx

. (5.14)

Page 25: Lucija Lu•ci¶cmdjumic/uploads/diplomski/LUč03.pdf6 2. TESTOVI ZNANJA Samo znanje vrijedi onoliko koliko smo ga usvojili i koliko ga svjesno upotrebljavamo u svoju korist. Jedan

25

Obje nastaju iz osnovne klasicne teorije testa po kojoj se pouzdanost testa moze

izraziti kao omjer varijanci tocnih odgovora i ukupnih odgovora. Koeficijent α moze uzeti

u obzir bilo koju vrijednost, manju ili jednaku od 1 ukljucujuci i negativne vrijednosti

iako samo pozitivne vrijednosti imaju smisla. Pozeljna je sto veca vrijednost.

5.1.3. Indeks tezine zadatka (P)

Indeks tezine pojedinog zadatka mjeri kolika je tezina pojedinog zadatka. Dobije se iz

sljedeceg omjera:

P =N1

N(5.15)

gdje je N1 broj ucenika koji su tocno rijesili pojedini zadatak, a N ukupan broj ucenika

koji su pristupili pisanju testa. Vrijednost indeksa tezine je izmedu 0 i 1. Ako je P = 1

svi su ucenici tocno rijesili zadatak, a ako su svi taj zadatak rijesili netocno P poprima

vrijednost 0, tj. P = 0. U praksi bi trebalo izbjegavati ove granicne vrijednosti. Sto je in-

deks tezine zadataka veci zadatak je laksi za ucenike koji su pisali test. Iz ove cinjenice bi

se moglo zakljuciti da se tu govori o indeksu ”lakoce” zadatka. Mozda bi bilo bolje uzeti

omjer broja ucenika koji su netocno rijesili pojedini zadatak i ukupnog broja ucenika.

Prihvatljive vrijednosti indeksa tezine zadatka su izmedu 0.3 ≤ P ≤ 0.9 sto ukljucuje i

optimalnu vrijednost 0.5.

Ako imamo test s velikim brojem pitanja tesko je paziti na svako pitanje pa tada

mozemo odrediti slozenost testa koji je pokazatelj srednja vrijednost indeksa tezine svih

zadataka, a racuna se prema relaciji:

P =1

K

K∑i=1

Pi (5.16)

Pi - indeks tezine pojedinog zadatka

K - broj zadataka u testu

Indeks tezine zadatka ovisi o skupini ucenika koji pristupaju ispitu znanja. U slucaju

kada razlicite skupine ucenika pisu isti test, indeks tezine moze biti razlicit za svaku

pojedinu skupinu ucenika.

Page 26: Lucija Lu•ci¶cmdjumic/uploads/diplomski/LUč03.pdf6 2. TESTOVI ZNANJA Samo znanje vrijedi onoliko koliko smo ga usvojili i koliko ga svjesno upotrebljavamo u svoju korist. Jedan

26

Kada se jednom dobiju osnove deskriptivne statistike (ukupni rezultati i broj bodova),

gore navedene analize je lako provesti. Racunanje ovih koeficijenata postaje poprilicno

jednostavno. S rezultatima anlize lako se moze procijeniti test u pogledu njegove pouz-

danosti i diskriminacije.

5.1.4. Point - biserijalni koeficijent (rPBK)

Point biserijalni koeficijent rpbk (indeks pouzdanosti svakog zadatka) predstavlja mjeru

kvalitete svakog pojedinog zadatka u odnosu na cjelokupni ispit znanja, definiran kao

korelacija izmedu uspjeha studenata u rjesavanju pojedinog zadataka i uspjeha na cijelom

testu. Point biserijalni koeficijent je dan ovim matematickim izrazom,

rpbk =X1 −X

σX

√P

1− P, (5.17)

koji predstavlja korelaciju izmedu grupe dihotomnih varijabli (uspjeh rjesavanja pojedinog

zadatka) i grupe kontinuiranih varijabli (ukupan uspjeh na cijelom test). Za bolje razu-

mijevanje izraza treba objasniti svaku varijablu pojedinacno:

X1 - srednja vrijednost ukupnog uspjeha ucenika koji su tocno rijesili zadatak

X - srednja vrijednost ukupnog uspjeha svih studenata

σX - standardna devijacija

P - indeks tezine zadatka

Vrijednost point-biserijalnog koeficijenta mogu biti u podrucju [−1, 1]. Moze se za-

kljuciti da je dobar onaj zadatak na koji su tocno odgovorili ucenici koji su dobro rijesili

cijeli test i obratno. Ako su pritom vrijednosti rpbk za pojedini zadatak u intervalu

0 ≤ rpbk ≤ 0.19 zadatak je nezadovoljavajuci za test; 0.20 ≤ rpbk ≤ 0.39 zadatak je

dobar; 0.40 ≤ rpbk ≤ 0.59 - vrlo dobar; 0.60 ≤ rpbk - odlican. U idealnom slucaju, u-

spjesi pri rjesavanju svakog zadatka u testu trebali bi biti visoko kolerirani s uspjehom

rjesavanja cijelog testa. To je svakako tesko ostvariti u praksi osobito ako imamo test s

velikim brojem zadataka.

Dobar zadatak je onaj kod kojeg su ucenici tocno odgovorili bez obzira na njihovu

uspjesnost cjelokupnog testa.

Page 27: Lucija Lu•ci¶cmdjumic/uploads/diplomski/LUč03.pdf6 2. TESTOVI ZNANJA Samo znanje vrijedi onoliko koliko smo ga usvojili i koliko ga svjesno upotrebljavamo u svoju korist. Jedan

27

5.1.5. Indeks diskriminacije zadataka (D)

Indeks diskriminacije zadatka pokazuje ”sposobnost” pojedinog zadatka da razdvoji

uspjesne od neuspjesnih ucenika. To bi znacilo da ce zadatak s visokim indeksom di-

skriminacije uspjesni ucenici rijesiti tocno, a oni neuspjesni isti zadatak rijesiti pogresno.

Isto tako ako se u testu pojavi nejasan zadatak, uspjesni ucenici mogu ga rijesiti pogresno

dok ce ga oni manje uspjesni mozda rijesiti tocno. Indeks diskriminacije D racuna se

na sljedeci nacin: rangiraju se ucenici prema rezultatu na testu i pritom se odabere 25%

najboljih (gornja grupa, U) i 25% najgorih (donja grupa, L). Za svaki zadatak izracuna se

broj ucenika u gornjoj (U) i donjoj grupi (L) koji su tocno rijesili svaki pojedini zadatak,

a indeks diskriminacije zadatka se izracuna prema relaciji:

D =(U − L)

N. (5.18)

N - broj ucenika u svakoj od grupa

U - uspjesni

L - losi

Dobar test je onaj kod kojeg je D ≥ 0.3.

Ponekad ucenici zadatak mogu rijesiti lose jer nije dobro formuliran sto daje niski in-

deks diskriminacije koji se pojavljuje i kod preteskih odnosno prelaganih zadataka. U tom

slucaju mala je razlika u broju tocnih odgovora ucenika gornje i ucenika donje skupine pa

je zato indeks diskriminacije nizak.

Tablica 3. Moguce i ocekivane vrijednosti statistickih parametara iz klasicne test teorije.

Statisticki parametri Moguce vrijednosti Ciljana vrijednostrtest (KR-20 test) - indeks pouzdanosti testa [0, 1] ≥ 0.7α - Cronbachova alfa [0, 1] ≥ 0.9rpbk - point-biserijalni koeficijent [−1, 1] ≥ 0.2P - indeks tezine pojedinog zadatka [0, 1] ≥ 0.3D - indeks diskriminacije pojedinog zadatka [−1, 1] ≥ 0.3

U ovoj tablici su prikazane moguce vrijednosti za svaki od statistickih parametara (drugi

stupac). U trecem stupcu su pozeljne vrijednosti statistickih parametara. Racunajuci ove

parametre u praksi, na konkretnim primjerima pismenih ispita, mogu se dobiti razliciti

rezultati, ali kako je nas cilj dobiti sto pouzdaniji test svakako da bi bilo idealno dobiti

rezultate koji su sto blize onima koji se odnose na ciljane vrijednosti parametara.

Page 28: Lucija Lu•ci¶cmdjumic/uploads/diplomski/LUč03.pdf6 2. TESTOVI ZNANJA Samo znanje vrijedi onoliko koliko smo ga usvojili i koliko ga svjesno upotrebljavamo u svoju korist. Jedan

28

5.1.6. Nedostaci klasicne test teorije

• Fundamentalan pretpostavka u osnovi koncepta pouzdanosti o istovremenim mjere-

njima tesko je ostvariva u praksi.

• Ovisnost indeksa tezine i indeksa diskriminacije zadataka o uzorku ucenika.

• Procjena pouzdanosti ovisi o uzorku ucenika.

• Usporedivanje ispitanika prema sposobnosti mjerenoj skupom zadataka sadrzanih u

testu ogranicena je na situaciju kada ucenici rjesavaju iste zadatke.

• Varijanca pogreske jednaka je za sve ucenike.

• Vecina testova postignuca i sposobnosti je prilagodena ucenicima prosjecnih sposo-

bnosti pri cemu testovi ne nude preciznu procjenu sposobnost za vrlo uspjesne i vrlo

neuspjesne ucenike.

5.2. TEORIJA ODGOVORA NA ZADATKE

Teorija odgovora na zadatke se u literaturi jos naziva i karakteristicna krivulja za-

datka. To je zapravo graficki prikaz uspjesnosti u nekom zadatku ili zadacima u odnosu

na neku nezavisnu mjeru (mjerna osobina, dob, i sl.), a definiranje krivulje prikladnom

matematickom funkcijom jedan je od temeljnih problema teorije. Prvi graficki prikaz

krivulje dali su Binet i Simone 1913. godine.

Slika 2. Primjer jedne od karakteristicnih krivulja zadatka koja prikazuje odnos vjerojatnosti tocnog

odgovora o odgovarajucoj sposobnosti ispitanika.

Page 29: Lucija Lu•ci¶cmdjumic/uploads/diplomski/LUč03.pdf6 2. TESTOVI ZNANJA Samo znanje vrijedi onoliko koliko smo ga usvojili i koliko ga svjesno upotrebljavamo u svoju korist. Jedan

29

Postoji nekoliko parametara koji opisuju karakteristicnu funkciju odgovora na zadatak,

ovdje cemo spomenuti dva:

- parametar tezine zadatka koji se definira kao sredina funkcije ( na Slici 2. je oznacen

slovom b)

- parametar diskriminativnosti (na slici 2. je oznacen slovom a)

Podrucje koje je oznaceno slovom c se odnosi na vjerojatnost slucajnog pogadanja tocnog

odgovora kod ucenika koji postizu losije rezultate na testu.

Vazan je i sam nagim krivulje i tocka u kojoj je on maksimalan, a time je tu i diskrimi-

nacija zadatka najveca. U tocki u kojoj se krivulja mijenja iz konkavne u konveksnu nagib

je maksimalan i diskriminativnost najveca. U ovom slucaju, diskriminativnost zadatka je

proporcionalna ovom maksimalnom nagibu krivulje.

KKK je potpuno definirana kada je odreden njen opci oblik i kada su poznati njeni

parametri za odredeni zadatak. Obzirom na broj tih parametra koji koriste za opis funkcije

modeli se obicno nazivaju 1−, 2− ili 3− parametarski.

Primjeri modela:

1- parametarski logisticki model

Jednadzba funkcije za 1− PL model

P (θ) =eD(θ−b)

1 + eD(θ−b), (i = 1, 2, . . . , k)

b - parametar tezine

P - kondicionalna vjerojatnost indikativnog odgovora na zadataka tezine b za ucenika s

razinom latentne osobine jednakom θ

2- parametarski logisticki model

Jednadzba funkcije za 2- PL model

Pi(θ) =eDai(θ−bi)

1 + eDai(θ−bi), (i = 1, 2, . . . , k)

a - parametar diskriminativnosti

b - parametar tezine

Page 30: Lucija Lu•ci¶cmdjumic/uploads/diplomski/LUč03.pdf6 2. TESTOVI ZNANJA Samo znanje vrijedi onoliko koliko smo ga usvojili i koliko ga svjesno upotrebljavamo u svoju korist. Jedan

30

3 - parametarski logisticki model

Jednadzba funkcije za 3 - PL model

Pi(θ) = ci + (1− ci)eDai(θ−bi)

1 + eDai(θ−bi), (1, 2, . . . , k)

Pi - vjerojatnost tocnog odgovora na zadatak i ispitanika sa razinom sposobnost θ

bi - parametar tezine

ai - parametar diskriminacije

D = 1.7 (faktor skaliranja)

Glavni problem teorije odgovora na zadatak jest procjena karakteristicne krivulje za-

datka, tj. parametri koji su potrebni za njezino definiranje unutar odabranog modela.

Taj problem je slican regresijskom problemu, ali se ovdje uglavnom radi o nelinearnoj

regresiji. Treba odabrati logisticku krivulju poznatih karakteristika koja najbolje opisuje

podatke.

5.3. FAKTORSKA ANALIZA

Faktorska analiza je metoda kojom se smanjuje veci broj varijabli, koje su medusobno

povezane, u manji broj zajednickih faktora koji ce ih opisivati i objasniti njihovu meduso-

bnu povezanost. Ova analiza ukljucuje analizu glavnih i zajednickih komponenti. Analiza

glavnih komponenti se odnosi na smanjenje broja varijabli, a zajednicka faktorska analiza

pretpostavlja neke nemjerene ”faktore” kao temeljne uzorke promatranih varijabli.

Ako imamo trideset pitanja visestrukog izbora u nekom primjerku pisanog testa, nje-

gova analiza je dugotrajna i obilje rezultata mozda nece dati ukupnu sliku rezultata.

Manji broj moze olaksati interpretaciju podataka, a u tome nam moze pomoci faktorska

analiza.

5.4. KLASTER ANALIZA

Primarni cilj klaster analize je klasificiranje u grupe, tako da je svaka grupa homogena s

obzirom na odredene varijable, tj. da su sva pitanja jedne grupe medusobno slicna, a opet

razlicita u odnosu na pitanja neke druge grupe. Grupna pripadnost nije poznata kao ni

Page 31: Lucija Lu•ci¶cmdjumic/uploads/diplomski/LUč03.pdf6 2. TESTOVI ZNANJA Samo znanje vrijedi onoliko koliko smo ga usvojili i koliko ga svjesno upotrebljavamo u svoju korist. Jedan

31

konacno broj grupa. Ovom analizom je moguce odrediti slicnost odnosno razlicitost medu

ucenickim odgovorima. Osnovni algoritam klaster analize ukljucuje iteraciju predmeta u

razlicite skupine u skladu s njihovom udaljenosti za svaki kalster.

5.5. ANALIZA MODELA

Analiza modela sluzi za procjenu ucenikove dinamike ucenja. Koristan je alat za

istrazivanje o dosljednosti ucenickih odgovora na izomorfna pitanja. Analiza modela

koristi kvantne zapise i svojstvene vrijednosti tehnika analize kako bi ispitala vjerojatnost

ucenika koji koriste razlicite mentalne modele pri odgovaranju na izomorfna pitanja dana

kao pitanja koja su lako dostupna.

Buduci da analiza modela zahtjeva da sva pitanja imaju alternativne izbore koji pokri-

vaju iste mentalne modele, kvalitativna istrazivanja moraju najprije biti provedena kako

bi osigurala da ta pitanja odgovaraju potrebama. Glavni cilj analize modela je predstaviti

vjerojatnost ucenikova koristenja razlicitih modela u odgovaranju na izomorfna pitanja

koja provjeravaju iste temeljne pojmove, ali imaju razlicita povrsinska svojstva.

Page 32: Lucija Lu•ci¶cmdjumic/uploads/diplomski/LUč03.pdf6 2. TESTOVI ZNANJA Samo znanje vrijedi onoliko koliko smo ga usvojili i koliko ga svjesno upotrebljavamo u svoju korist. Jedan

32

6. EKSPERIMENTALNI DIO

Nakon ovog teorijskog dijela, gdje je objasnjeno sto predstavlja svaki od parametara i

koja je njegova zadaca te kako treba racunati pojedine statisticke parametre, prokomen-

tirat cu rezultate dobivene u razlicitim istrazivanjima provedenim u skolama na podrucju

istocne Slavonije. Ovim istrazivanjima su testirana ucenicka razumijevanja temeljnih

fizikalnih koncepata u mehanici odnosno kinematici (TUG-K test), elektromagnetizmu

(CSEM test) i primjeni Ohmovog zakona i Kirchoffovih pravila u jednostavnim strujnim

krugovima (DIRECT test).

6.1. TUG- K test

TUG-K (engl. Test of Understanding Graphs - Kinematics) (Beichner, 1994.) je na-

stao kako bi se iz njegovih rezultata mogle odrediti ucenicke pretkoncepcije u interpretaciji

grafova iz kinematike. U nastavi fizike se pretpostavlja da ucenici znaju ”citati” grafove

i da mogu iz njih dobiti korisne informacije, ali se pokazalo da to nije tako. Naime,

nije vazno znati nacrtati graficki prikaz odnosa kinematickih velicina vec je vazno iz tog

odnosa iscitati vazne informacije potrebne za opis promatranog gibanja. Beichner je pri

izradi TUG-K testa zadatke koncipirao unutar sedam konceptualnih podrucja u kojima

je htio otkriti ucenicke poteskoce u razumijevanju grafova. Svaki od konceptualnih po-

drucja sadrzi tri zadatka sto ukupno daje 21 zadatak u testu visestrukog izbora. Klasicna

test analiza TUG-K testa pokazala da su svi izracunati parametri bili unutar trazenih in-

tervala vrijednosti, a posebno valja istaci izvanredno visoke vrijednosti point-biserijalnih

koeficijentata sto je posljedica cinjenice da su pomno razvijeni te im je domena koja se

testira vrlo dobro definirana.

Istrazivanje konceptualnog razumijevanja grafova u kinematici TUG-K testom u isto-

cnoj Hrvatskoj je provedeno krajem 2007. godine. Ukupno je sudjelovalo 1169 ucenika

prvih razreda od cega je 169 ucenika bilo iz matematicke gimnazije (MG), 587 ucenika

opce i jezicne gimnazije (O/JG) i 414 ucenika strukovnih skola (StS). Testirani ucenici

su prethodno upoznati s nastavnom cjelinom ”Kinematika” i trajanje testiranja je jedan

skolski sat.

6.2. DIRECT test

DIRECT test (Determining and Interpreting Resistive Elektric Circuits Concepts

Test) je test iz konceptualnog razumijevanja jednostavnih strujnih krugova. Test sadrzi 29

pitanja koja se odnose na podrucja vezana za strujne krugove. Za svako pitanje ponudeno

Page 33: Lucija Lu•ci¶cmdjumic/uploads/diplomski/LUč03.pdf6 2. TESTOVI ZNANJA Samo znanje vrijedi onoliko koliko smo ga usvojili i koliko ga svjesno upotrebljavamo u svoju korist. Jedan

33

je vise odgovora od koji je samo jedan tocan, a ostali odgovori se odnose na ucenicke

pretkoncepcije koje ucenici imaju o strujnim krugovima.

Bitni fizikalni pojmovi i cinjenice koje ucenici trebaju znati i razumjeti, a testom su

provjeravani su podijeljeni u nekoliko konceptualnih podrucja:

• Fizikalni aspekti jednostavnih strujnih krugova

a) prepoznavanje potpunog strujnog kruga i potrebe da bude kompletan kako bi

njime protjecala struja

b) spajanje i uloga pojedinih elemenata strujnog kruga

c) primjena pojma otpora

d) shematski prikaz strujnog kruga (paralelan, serijski i mjesoviti spoj )

• Koncept energije

a) snaga je obavljeni rad / pretvorba energije po jedinici vremena

b) ocuvanje energije (Kirchhoffova pravila)

• Koncept struje

a) primjena / ocuvanje struje

b) elektricno polje, razlika potencijala (napon) i elektricna sila

• Koncept napona

a) jakost struje ovisi o naponu baterije i ukupan otpor unutar strujnog kruga

b) ukupan napon svih elemenata u seriji jednak je zbroju svih pojedinacnih ele-

menata dok je napon na svakoj grani u paralelnom spoju jednak

Zanimljivo je napomenuti da se u DIRECT testu mjerni instrumenti ampermetar i

voltmetar ne uzimaju kao elementi strujnog kruga. Istrazivanjem je dobiven zakljucak da

ih ucenici ne dozivljavaju kao dijelove strujnog kruga i da im je tesko razumjeti na koji

nacin oni trebaju biti povezani u strujni krug i koja je zapravo njihova uloga. Nerazumljivo

im je da ampermetar dopusta struji da tece kroz njega i na taj nacin mjeri jakost elektricne

struje.

U istocnoj Hrvatskoj, DIRECT test je proveden u nekoliko srednjih skola na uzorku

od 230 ucenika. Sudjelovalo je 50 ucenika Tehnicke skole Rudera Boskovica iz Vinkovaca,

68 ucenika iz Srednje skole Valpovo, od kojih 54 idu u opcu gimnaziju, a 14 ih se obrazuje

za elektrotehnicare, te 112 ucenika iz III. prirodoslovno-matematicke gimnazije iz Osijeka.

Page 34: Lucija Lu•ci¶cmdjumic/uploads/diplomski/LUč03.pdf6 2. TESTOVI ZNANJA Samo znanje vrijedi onoliko koliko smo ga usvojili i koliko ga svjesno upotrebljavamo u svoju korist. Jedan

34

6.3. CSEM test

CSEM test (Conceptual Survey of Electricity and Magnetism) je test visestrukog

izbora koji je dijagnosticki instrument pomocu kojeg se moze provjeriti razumijevanje

nekih temeljnih fizikalnih koncepata iz elektriciteta i magnetizma te otkriti poteskoce

koje ucenici imaju pri njihovu usvajanju. Prva verzija se sastojala od 36 pitanja i 11

konceptualnih podrucja, a ksnijim poboljsanjem se doslo do 32 pitanja koja se mogu

podijeliti u 6 konceptualnih podrucja : elektricni naboj i sila (ENS), elektricno polje i sila

(EPS), elektricni potencijal i rad (EPR), magnetsko polje i sila (MPS), elektromagnetska

indukcija (EMI) i Newtonovi zakoni u kontekstu elektromagneta i magnetizma (NZ). Ovo

zadnje konceptualno podrucje cini ovaj test zanimljivim jer se odnosi i na Newtonove

zakone. Test je sastavljen tako da moze posluziti kao pre -test (prije) i kao post-test

(poslije) opce fizike.

Testiranje CSEM testom je provedeno krajem prvog semestra akademske godine 2010.-

/11 na uzorku od 490 studenata prve godine preddiplomskih studija Elektrotehnickog

fakulteta i Prehrambeno tehnoloskog fakulteta (kontrolna skupina). Studenti su u analizi

rezultata bili podijeljeni u cetiri skupine: (i) studij elektrotehnike (ETF-E, 88 stude-

nata); (ii) studij racunarstva (ETF-R, 98 studenta); (iii) Strucni studij elektrotehnike i

automatike (ETF-St, 184 studenta); (iv) studij prehrambene tehnologije (PTF, 120 stu-

denata). Studenti su imali 45 minuta vremena uz upozorenje o prepisivanju i obaveznom

odgovaranju na svaki zadatak.

Rezultati testa su usporedeni sa slicnim istrazivanjima koji su provedeni na Prirodo-

slovnom - matematickom fakultetu u Zagrebu (PMF).

6.4. Pisani ispit iz elektromagnetizma

Za usporedbu s testovima razvijenim za potrebe istrazivanja ucestalosti pretkoncepcija

u edukacijskoj fizici uzet je u razmatranje pisani ispit iz elektromagnetizma koji je nacinjen

za ucenike drugog razreda srednje skole ”Matija Mesic” u Slavonskom Brodu. Test je u

skolskoj godini 2010/11 pisalo 70 ucenika, a primjer toga testa je dan u Prilogu na kraju

ovog diplomskog rada.

Page 35: Lucija Lu•ci¶cmdjumic/uploads/diplomski/LUč03.pdf6 2. TESTOVI ZNANJA Samo znanje vrijedi onoliko koliko smo ga usvojili i koliko ga svjesno upotrebljavamo u svoju korist. Jedan

35

7. REZULTATI

7.1. TUG-K test

Ucenici matematickih gimnazija su prosjecno uspjesno rijesili 42.0% testa, opcih/je-

zicnih gimnazija 30.2% testa, a strukovnih skola 20.2% testa. Provedena kvantitativna

analiza pouzdanosti testa je pokazala da je test pouzdan kao cjelina za sva tri nastavna pro-

grama fizike. Naime, vrijednosti parametra KR-20, izracunat pomocu jednadzbe (5.14),

za matematicke gimnazije iznosi r = 0.798, za opce i jezicne gimnazije r = 0.724 dok je

za strukovne skole vrijednost parametra r = 0.728. Usporedujuci dobivene vrijednosti

za sva tri programa fizike, vidimo da su iznad granicne vrijednosti (ri > 0.700). Fergu-

sonova δ je takoder iznad granicnih vrijednosti za sva tri programa fizike (δMG = 0.971;

δO/JG = 0.954; δStS = 0.916) pa mozemo zakljuciti da je potvrdena unutrasnja konzisten-

tnost i uravnotezenost primijenjenog TUG-K testa na ispitanom uzorku.

Korelacija izmedu tocnih odgovora na pojedinacna pitanja i cijelog testa odlicna za MG

(srednja vrijednost svih rpbk = 0.64), dobra za O/JG (rpbk = 0.37) i nezadovoljavajuca

za StS (rpbk = 0.17) ako se uzme u obzir da je granicna vrijednost point-biserijalnog

koeficijenta rpbk > 0.2. Niska srednja vrijednost point-biserijalnih koeficijenta za StS

(mnogi pojedinacni koeficijenti korelacije su negativni!) i cinjenica da je test rjesavan s

20% uspjesnoscu (cesto je to i vjerojatnost slucajnog pogotka!) pokazuje da su ucenici

strukovnih skola na odredena (mnoga) pitanja odgovarali metodom slucajnog odabira.

U Tablici 4. je prikazana usporedba point-biserijalnih koeficijenata za svaki zadatak za

sva tri srednjoskolska programa fizike kao i vrijednosti dobivene u americkom istrazivanju

(Beichner, 1994).

Prosjecan indeks diskriminacije zadatka je redom: DMG = 0.48, DO/JG = 0.39 i

DStS = 0.28. Iz dobivenih rezultata vidimo da je nesto losije za ucenike strukovnih skola.

Najvece vrijednosti diskriminacije su dobivene za zadatke koji su se odnosili na osnovno

znanje o grafickom prikazu kinematickih velicina pri jednolikom i jednoliko ubrzanom

gibanju. Najnize vrijednosti indeksa diskriminacije su dobivene za zadatke koji su na-

jlosije rijeseni. To su svakako i najtezi zadaci koji su se odnosili na odredivanje trenutne

akceleracije u v, t grafu za nejednoliko gibanje, prepoznavanje grafickog prikaza kombi-

nacije jednoliko ubrzanog i jednolikog gibanja te odredivanje promjene brzine iz a, t grafa.

Page 36: Lucija Lu•ci¶cmdjumic/uploads/diplomski/LUč03.pdf6 2. TESTOVI ZNANJA Samo znanje vrijedi onoliko koliko smo ga usvojili i koliko ga svjesno upotrebljavamo u svoju korist. Jedan

36

Tablica 4. Vrijednosti point-biserijalnih koeficijenata po zadacima TUG-K testa za ucenike MG,

O/JG i StS koji su sudjelovali u istrazivanju kao i vrijednosti iz slicnog istrazivanja u SAD-u - preuzeto

iz (Blazevic, 2009.)

7.2. DIRECT test

DIRECT test su, u prosjeku, najbolje rijesili ucenici strukovnih tehnickih skola e-

lektro usmjerenja 46.6%, potom ucenici matematicke gimnazije 36.30% testa, dok su

ucenici opce gimnazije rijesili 35.2% testa. Provedena kvantitativna analiza pouzdanosti

testa kao cjeline je pokazala da je test pouzdan za strukovne skole (rtest = 0.720) dok je

ucenicima gimnazija ocigledno bio ili pretezak ili su ga neozbiljno shvatili pa su nasumicno

zaokruzivali ponudene odgovore (rtest(MG) = 0.513; rtest(OG) = −0.120). Ako se ne

pravi razlika izmedu ucenika prema obrazovnom programu fizike koji slusaju tada za

svih 230 ucenika parametar KR-20 ima vrijednost (rtest(SV I) = 0.589), a Fergusonova

δ = 0.949, pa se moze DIRECT test smatrati pouzdanim evaluacijskim sredstvom za

ispitivanje razumijevanja koncepata jednostavnih strujnih krugova.

Prosjecan indeks diskriminacije zadatka za sve ucenike iznosio je: Dsvi = 0.42, a

najvise odvajaju bolje od losijih ucenika zadaci koji pretpostavljaju upotrebu koncepta

napona u jednostavnom strujnom krugu.

7.3. CSEM test

Uspjesnost rjesavanja CSEM testa za sve ispitivane skupine studenata ETF-a i PTF-a

Sveucilista u Osijeku na kraju prvog semestra ak. god. 2010./11., dana je u Tablici 5.,

a izrazena je u postotcima u obliku aritmeticke srednje vrijednosti, pripadne standardne

Page 37: Lucija Lu•ci¶cmdjumic/uploads/diplomski/LUč03.pdf6 2. TESTOVI ZNANJA Samo znanje vrijedi onoliko koliko smo ga usvojili i koliko ga svjesno upotrebljavamo u svoju korist. Jedan

37

devijacije i rasponom dobivenih rezultata.

Tablica 5. Uspjesnost rjesavanja CSEM testa po skupinama ispitivanih studenata ETF-a i PTF-a

osjeckog sveucilista; preuzeto iz (Miokovic i sur., 2011).

Skupine N Srednja vrijednost, Standardna devijacija, min - max,studenata % % %ETF-E 88 post-test 50.5 19.3 12.5− 87.5ETF-R 98 post-test 59.3 10.8 15.6− 75.0

ETF-StS 184 post-test 62.1 13.3 18.8− 78.1PTF 120 pred-test 21.0 6.3 6.3− 37.5

ukupno 490 49.4 21.1 6.3 - 87.5

Ukupan uspjeh svih ispitivanih studenata osjeckog sveucilista je 49.4% sto je u vrlo

dobrom slaganju s ukupnim uspjehom studenata PMF-a u Zagrebu (48%; Planinic, 2006)

i studenata americkih sveucilista (47%; Maloney i sur., 2001). Medutim, ako se usporede

samo rezultati posttestova tada srednji uspjeh studenata ETF-a u Osijeku iznosi 57% sto

je nesto bolji uspjeh od americkih i hrvatskih studenata PMF-a u Zagrebu. S druge strane,

za studente prehrambene tehnologije uspjeh pri rjesavanju CSEM testa kao predtesta bio

je vrlo slab (21%), odnosno tek nesto visi od granice slucajnog izbora (20%). Ovakav

rezultat predtesta je djelomicno ocekivan buduci da studentima nisu bliske elektroma-

gnetske pojave te fizikalni zakoni i relacije, a postoje i teskoce koje su uzrokovane nera-

zumijevanjem temeljnih mehanickih koncepata koji su izucavani tijekom srednjoskolskog

obrazovanja te u prvom semestru studija u okviru kolegija Tehnicka fizika. Medutim,

uspjeh studenata PTF-a je, priblizno, jednak postignutom uspjehu americkih studenata

na predtestu (25− 31%).

Rezultati statisticke analize testa pokazuju da je CSEM-test pogodan dijagnosticki

instrument za procjenu konceptualnog razumijevanja sadrzaja iz elektromagnetizma kod

studenata Preddiplomskog i Strucnog studija ETF-a. Pouzdanost i diskriminacijska snaga

primijenjenog CSEM-testa potvrdena je prihvatljivim vrijednostima parametara: ETF-E

- rtest = 0.84; δ = 0.97, ETF-R - rtest = 0.75; δ = 0.88, ETF-St - rtest = 0.83; δ = 0.84.

Izracunate vrijednosti parametra pouzdanosti testa, rtest za sve tri istrazivane skupine

studenata ETF-a vece su od granicne vrijednosti (rtest ≥ 0.7 ) i prilicno se dobro slazu s

rezultatima post-testa kod americkih studenata ((rtest)USA ≈ 0.75 ). Za studente prehram-

bene tehnologije PTF-a parametar pouzdanosti testa ((rtest)PTF ≈ −0.19 ) je daleko od

granicne vrijednosti sto ukazuje na nedostatak unutranje kao i vanjske motivacije ovih

studenata za rjesavanje ovakvog testa.

Statisticka analiza zadataka u CSEM-testu ukazala je na problematicne zadatke, a time

i na konceptualna podrucja koja su teza za studente. Postojanje dobre korelacije izmedu

Page 38: Lucija Lu•ci¶cmdjumic/uploads/diplomski/LUč03.pdf6 2. TESTOVI ZNANJA Samo znanje vrijedi onoliko koliko smo ga usvojili i koliko ga svjesno upotrebljavamo u svoju korist. Jedan

38

pojedinacnih zadataka i cijelog testa potvrdena je, kod studenata ETF-a, izracunatim

srednjim vrijednostima point-biserijalnih koeficijenata: ETF-E -rpbk = 0.40, ETF-R -

rpbk = 0.32, ETF-St - rpbk = 0.37, dok je nezadovoljavajuca korelacija uocena kod stu-

denata PTF-a ( rpbk = 0.15). Srednji indeks diskriminacije zadatka, za studente pred-

diplomskog studija ETF-a iznosi 〈D〉 = 0.39 i obuhvaca interval −0.42 ≤ D ≤ 0.56 , a za

studente ETF-St je 〈D〉 = 0.33 uz interval −0.46 ≤ D ≤ 0.90. Za studente PTF-a indeksi

diskriminacije zadataka imaju vrlo niske vrijednosti ( −0.14 ≤ D ≤ 0.38) sto pokazuje da

su za ove studente gotovo svi zadaci u testu bili preteski. Znacajne poteskoce uocene su

kod studenata ETF-a u primjeni Newtonovih zakona u okviru elektromagnetizma. Naime,

najtezi zadatak ( p = 0.05 tj. 95% netocnih odgovora) u testu odnosio se na razumijevanje

superpozicije magnetskih polja te primjene Newtonovih zakona na opis gibanja naboja u

stalnom magnetskom polju. Ovo ukazuje na problem primjene koncepata iz mehanike u

podrucju elektromagnetizma.

7.4. PISMENI ISPIT IZ ELEKTROMAGNETIZMA

Sedamdeset ucenika drugog razreda srednje skole ”Matija Mesic” iz Slavonskog Broda

su pismeni ispit koji je sastavila njihova nastavnica fizike rijesili s prosjecnom uspjesnoscu

od 62.7%, a na Slici 3. je prikazana empirijska distribucija ucenika po postotnim ra-

zredima. Na apscisi su prikazani postotni razredi koji oznacavaju s kojom je tocnoscu

rijesen cijeli test, a ordinata prikazuje broj testiranih ucenika ciji rezultati odgovaraju

odredenom postotnom razredu. Iz ove empirijske distribucije se vidi da je 80% ucenika

test rijesilo s vise od 50% uspjesnosti i bilo bi zanimljivo vidjeti s kojim kriterijem se

pristupilo ocjenjivanju ucenikova znanja.

Slika 3. Empirijska razdioba ucenika drugog razreda srednje skole ”Matija Mesic” u Slavonskom Brodu

po postotnim razredima prema uspjehu u rjesavanju pismenog ispita iz elektromagnetizma.

Page 39: Lucija Lu•ci¶cmdjumic/uploads/diplomski/LUč03.pdf6 2. TESTOVI ZNANJA Samo znanje vrijedi onoliko koliko smo ga usvojili i koliko ga svjesno upotrebljavamo u svoju korist. Jedan

39

Parametri pouzdanosti i diskriminacijske snage primijenjenog pismenog ispita, rtest =

0.681; δ = 0.944 pokazuju da se on, uz minimalne korekcije koje treba uciniti, moze kori-

stiti kao pouzdan alat za mjerenje osnovne razine znanja iz elektromagnetizma propisane

gimnazijskim programom fizike. Ove korekcije se u prvom redu odnose na promjenu nekih

pitanja koja su se pokazala prelaganim ucenicima i koja gotovo uopce ne razlikuju bolje

od losijih ucenika (pitanja 1, 2, i 9., npr.; vidi Tablicu 6.)

Tablica 6. Usporedba point-biserijalnih koeficijenata, tezine zadatka i indeksa diskriminacije zadatka

za svako pojedinacno pitanje u pismenom ispitu iz elektromagnetizma.

ZADATAKParametri

∑1 2 3 4 5 6 7 8 9 10 11

rpbk 0.39 0.46 0.66 0.49 0.50 0.49 0.53 0.45 0.41 0.44 0.53 0.49P 0.94 0.79 0.61 0.56 0.60 0.56 0.69 0.56 0.63 0.61 0.36 0.63D 0.17 0.39 0.83 0.67 0.61 0.61 0.61 0.44 0.39 0.61 0.78 0.56

Page 40: Lucija Lu•ci¶cmdjumic/uploads/diplomski/LUč03.pdf6 2. TESTOVI ZNANJA Samo znanje vrijedi onoliko koliko smo ga usvojili i koliko ga svjesno upotrebljavamo u svoju korist. Jedan

40

8. ZAKLJUCAK

Statisticka analiza rezultata dobivenih TUG-K, DIRECT i CSEM testom kao i a-

naliza rezultata pismenog ispita iz elektromagnetizma provedenih u svrhu ovog diplom-

skog rada, pokazali su nacine statisticke provjere pouzdanosti testova u cjelini i poje-

dinacno po zadacima. Time se pokazalo da je pored vaznosti ”kreiranja” kvalitetnog

ispita znanja nuzno kontinuirano provjeravati opisane parametre iz klasicne test teorije

koji mogu ukazati na odredene slabosti testa (ili nekog zadatka u njemu!).

Ovim diplomskim radom sam htjela ukazati na mogucnost provjere te pouzdanosti

testova znanja statistickim parametrima. Nadam se da ce svi oni koji budu citali ovaj rad

ubuduce temeljitije pripremiti svoj pisani ispit znanja. Uostalom, nastavnikova duznost

je ucenike nauciti propisane obrazovne sadrzaje, a kako bi bili sigurni da su oni ta znanja

i usvojili svakako je pozeljno sto kvalitetnije ih provjeriti.

Page 41: Lucija Lu•ci¶cmdjumic/uploads/diplomski/LUč03.pdf6 2. TESTOVI ZNANJA Samo znanje vrijedi onoliko koliko smo ga usvojili i koliko ga svjesno upotrebljavamo u svoju korist. Jedan

41

9. LITERATURA

[1] M. Blazevic, Testiranje ucenicke interpretacije grafova u kinematici i identifikacija

odgovarajucih pretkoncepcija, Diplomski rad, Osijek 2009.

[2] L. Ding, R. Beichner, Approaches to data analysis of multiple-choice questions, Phys.

Rev. Spec. Topics - Phys. Edu. Res., 5, 020103, 2009.

[3] Z. Miokovic, S. Ganzberger, V. Radolic, Provjera konceptualnog razumijevanja elek-

tromagnetizma CSEM testom kod studenata elektrotehnike, racunarstva i prehrambene

tehnologije na Sveucilistu u Osijeku, Zbornik radova X. Hrvatskog simpozija o nastavi

fizike, Zadar, 2011. (U TISKU)

[4] R. Krsnik, Suvremene ideje u metodici nastave fizikea, Skolska knjiga, Zagreb, 2008.

[5] D. P. Maloney, T. L. O‘Kuma, C. J. Hieggelke, A. Van Heuvelen, Surveying stu-

dents’ conceptual knowledge of electricity and magnetism, Phys. Educ. Res., Am. J.

Phys. 69(7), (2001) S12-S23

[6] Z. Pause, Uvod u matematicku statistiku, Skolska knjiga, Zagreb 1993.

[7] M. Planinic, Assessment of difficulties of some conceptual areas from electricity and

magnetism using the Conceptual Survey of Electricity and Magnetism, Am. J. Phys. 74

(12) (2006)

[8] K. Zivanovic, Ucenicke pretkoncepcije o jednostavnim strujnim krugovima, Diplom-

ski rad, Osijek 2010.

[9] http://www.gifted.uconn.edu/siegle/research/

Instrument%20Reliability%20and%20Validity/Reliability.htm, 10.02.2011.

[10] http://www.ericdigests.org/2002-2/reliability.htm, 10.02.2011.

[11] http://www.scribd.com/doc/3260142/statistikaneto-saeto, 24.04.2011.

[12] http://www.mountainmeasurement.com/blog/?p=148, 24.04.2011.

Page 42: Lucija Lu•ci¶cmdjumic/uploads/diplomski/LUč03.pdf6 2. TESTOVI ZNANJA Samo znanje vrijedi onoliko koliko smo ga usvojili i koliko ga svjesno upotrebljavamo u svoju korist. Jedan

42

[13] http://dokumenti.ncvvo.hr/Nacionalni_ispiti_08/Metrijska/uvod.pdf,

17.05.2011.

Page 43: Lucija Lu•ci¶cmdjumic/uploads/diplomski/LUč03.pdf6 2. TESTOVI ZNANJA Samo znanje vrijedi onoliko koliko smo ga usvojili i koliko ga svjesno upotrebljavamo u svoju korist. Jedan

43

10. SAZETAK

U diplomskom radu su kratko opisani nacini provjere ucenickog znanja s posebnim

naglaskom na pisanoj provjeri znanja - testu. Detaljnije su opisane mjerne znacajke

testova: valjanost i pouzdanost, a narocito statisticki parametri koji se koriste u analizi

pouzdanosti testova (Kuder-Richardsonov parametar KR-20, point-biserijalni koeficijenti,

indeks tezine zadatka te indeks diskriminacije zadataka).

Prikazani su i prokomentirani opisani statisticki parametri dobiveni testiranjem ucenika

u skolama istocne Hrvatske kao i studenata na osjeckom sveucilistu standardiziranim

testovima (TUG-K, DIRECT i CSEM test). Izracunati su i kratko prokomentirani stati-

sticki parametri za pisanu provjeru znanja kojom se ucenici 2. razreda Opce gimnazije u

Slavonskom Brodu ispitivani obrazovnim sadrzajima iz elektromagnetizma.

Page 44: Lucija Lu•ci¶cmdjumic/uploads/diplomski/LUč03.pdf6 2. TESTOVI ZNANJA Samo znanje vrijedi onoliko koliko smo ga usvojili i koliko ga svjesno upotrebljavamo u svoju korist. Jedan

44

11. SUMMARY

In the bachelor thesis, the different ways of examining students’ knowledge are briefly

described with a special emphasis on the written tests. The validity and reliability of

these tests are described in more detail especially statistical parameters used in tests

reliability analysis (Kuder-Richardson’s KR-20 parameter, point biserial-correlation coef-

ficient, difficulty index and discrimination index). These parameters were calculated and

commented for several different testing of student‘s understanding of basic concepts in

kinematics and electromagnetism with standardized tests (TUG-K, DIRECT, CSEM).

The same statistical analysis were performed for a home-made test used in 2nd grade

at one High School in Slavonski Brod which was constructed for measuring student‘s

knowledge in electromagnetism. The obtained results were compared with standardized

tests and some recommendations were suggested.

Page 45: Lucija Lu•ci¶cmdjumic/uploads/diplomski/LUč03.pdf6 2. TESTOVI ZNANJA Samo znanje vrijedi onoliko koliko smo ga usvojili i koliko ga svjesno upotrebljavamo u svoju korist. Jedan

45

12. ZIVOTOPIS

Rodena sam 17. svibnja 1985. u Slavonskom Brodu. Od 1992. pohadam Osnovnu

skolu ”OS Sikirevci” u Sikirevcima. U razdoblju od 2000. do 2004. godine pohadam

Klasicnu gimnaziju fra Marijana Lanosovica u Slavonskom Brodu. Nakon zavrsetka sre-

dnje skole upisana sam na Sveuciliste J.J. Strossmayera u Osijeku, Odjel za matematiku,

smjer Matematika - fizika.

Page 46: Lucija Lu•ci¶cmdjumic/uploads/diplomski/LUč03.pdf6 2. TESTOVI ZNANJA Samo znanje vrijedi onoliko koliko smo ga usvojili i koliko ga svjesno upotrebljavamo u svoju korist. Jedan

46

13. PRILOG

Pisana provjera znanja iz fizike 2 (elektromagnetizam)

1. Kako silnicama magnetskog polja pokazujemo gdje je polje jace, a gdje slabije?

2. Kako se giba ona cestica koja ulijece okomito na magnetsko polje?

3. Kada ce Lorentzova sila biti minimalna?

4. Jedinica magnetske indukcije nije:

a. T

b. Wb

c. H

d. N/Am

e. Tm

f. HA

g. Wb/m

5. Nacrtajte silnice magnetskog polja horizontalnog ravnog vodica ciji je smjer struje

usmjeren desno.

6. Jezgra zavojnice je od visokofrekventnog zeljeza relativne permeabilnosti 1000 pa je

magnetska indukcija u odnosu na zavojnicu bez jezgre:

a. manja

b. veca

c. nije bitno

7. Sto je veca povrsina projekcijske plohe na ravninu, magnetski tok je .

8. Uvlacenjem magneta u zavojnicu povecavamo kroz presjek zavojnice. Time

se i povecava i napon.

9. Ako se broj namotaja udvostruci, induktivitet ce se:

a. povecati 2 puta

b. smanjiti 2 puta

Page 47: Lucija Lu•ci¶cmdjumic/uploads/diplomski/LUč03.pdf6 2. TESTOVI ZNANJA Samo znanje vrijedi onoliko koliko smo ga usvojili i koliko ga svjesno upotrebljavamo u svoju korist. Jedan

47

c. povecati 4 puta

d. smanjiti 4 puta

10. Ako se poveca povrsina poprecnog presjeka zavojnice, induktivitet ce se .

11. O cemu ovisi koeficijent samoindukcije ili induktiviteta?