18
Bab 7: Keutuhan dan Kesahan Kaedah Pentaksiran 129 Kita telah membincangkan berbagai kaedah mentaksir prestasi pelajar menggunakan ujian objektif, ujian esei, projek, amali, senarai semak pemerhatian, ujian lisan dan pentaksiran portfolio. Dalam bab ini kita akan menangani dua isu penting, iaitu; keutuhan dan kesahan kaedah-kaedah pentaksiran tersebut. Bagaimanakah kita memastikan bahawa teknik-teknik yang kita gunakan untuk mentaksir pengetahuan, kenahiran dan nilai pelajar adalah sah dan utuh? Kita membuat keputusan yang penting tentang keupayaan dan kebolehan generasi akan datang dan tentunya kita ingin memastikan bahawa kita membuat keputusan yang betul. B B a a b b 7 7 K K E E U U T T U U H H A AN N D D A A N N K K E E S S A AH H A AN N T T E E K K N N I I K K P P E E N N T T A AK K S S I I R R A AN N Di akhir bab ini, anda harus boleh: Menerangkan konsep markah sebenar Membezakan berbagai teknik-teknik menganggar keutuhan ujian Memberzakan berbagai teknik-teknik menentukan kesahan ujian Membincangkan hubungan di antara keutuhan dan kesahan BAB SEPINTAS LALU 7.1 Apakah itu Kesahan? 7.2 Unit Pekali Keutuhan 7.3 Kaedah menganggar Keutuhan 7.4 Keutuhan Inter dan Intra- pemeriksa 7.5 Jenis Kesahan 7.6 Faktor-faktor Mempengaruhi Keutuhan dan Kesahan 7.7 Hubungan di antara Keutuhan dan Kesahan 7.8 Ringkasan Istilah Penting Rujukan Bab 1: Pengenalan Bab 2: Memutuskan apa yang akan ditaksir Bab 3: Mentaksir Hasil Pembelajaran Menggunakan Ujian Objectif Bab 4: Mentaksir Hasil Pembelajaran Menggunakan Ujian Karangan Bab 5: Mentaksir Hasil Pembelajaran Menggunakan Projek dan Amali Bab 6: Mentaksir Hasil Pembelajaran Menggunakan Pencerapan, Ujian Lisan, dan Portfolio Bab 7: Kebolehpercayaan dan Kesahan Kaedah Pentaksiran Bab 8: Analisis Item Bab 9: Analisis Pemarkahan Ujian dan Melaporkan Pentaksiran Pelajar

Bab 7 Keutuhan Dan Kesahan Teknik Pentaksiran

Embed Size (px)

Citation preview

Page 1: Bab 7 Keutuhan Dan Kesahan Teknik Pentaksiran

Bab 7: Keutuhan dan Kesahan Kaedah Pentaksiran

129

Kita telah membincangkan berbagai kaedah mentaksir prestasi pelajar menggunakan

ujian objektif, ujian esei, projek, amali, senarai semak pemerhatian, ujian lisan dan

pentaksiran portfolio. Dalam bab ini kita akan menangani dua isu penting, iaitu;

keutuhan dan kesahan kaedah-kaedah pentaksiran tersebut. Bagaimanakah kita

memastikan bahawa teknik-teknik yang kita gunakan untuk mentaksir pengetahuan,

kenahiran dan nilai pelajar adalah sah dan utuh? Kita membuat keputusan yang

penting tentang keupayaan dan kebolehan generasi akan datang dan tentunya kita

ingin memastikan bahawa kita membuat keputusan yang betul.

BBBaaabbb 777

KKKEEEUUUTTTUUUHHHAAANNN DDDAAANNN KKKEEESSSAAAHHHAAANNN TTTEEEKKKNNNIIIKKK PPPEEENNNTTTAAAKKKSSSIIIRRRAAANNN

Di akhir bab ini, anda harus boleh:

Menerangkan konsep markah sebenar

Membezakan berbagai teknik-teknik menganggar keutuhan ujian

Memberzakan berbagai teknik-teknik menentukan kesahan ujian

Membincangkan hubungan di antara keutuhan dan kesahan

BAB SEPINTAS LALU

7.1 Apakah itu Kesahan?

7.2 Unit Pekali Keutuhan

7.3 Kaedah menganggar Keutuhan

7.4 Keutuhan Inter dan Intra-

pemeriksa

7.5 Jenis Kesahan

7.6 Faktor-faktor Mempengaruhi

Keutuhan dan Kesahan

7.7 Hubungan di antara Keutuhan

dan Kesahan

7.8 Ringkasan

Istilah Penting

Rujukan

Bab 1: Pengenalan

Bab 2: Memutuskan apa yang akan

ditaksir

Bab 3: Mentaksir Hasil Pembelajaran

Menggunakan Ujian Objectif

Bab 4: Mentaksir Hasil Pembelajaran

Menggunakan Ujian Karangan

Bab 5: Mentaksir Hasil Pembelajaran

Menggunakan Projek dan Amali

Bab 6: Mentaksir Hasil Pembelajaran

Menggunakan Pencerapan, Ujian

Lisan, dan Portfolio

Bab 7: Kebolehpercayaan dan Kesahan

Kaedah Pentaksiran

Bab 8: Analisis Item

Bab 9: Analisis Pemarkahan Ujian dan

Melaporkan Pentaksiran Pelajar

Page 2: Bab 7 Keutuhan Dan Kesahan Teknik Pentaksiran

Bab 7: Keutuhan dan Kesahan Kaedah Pentaksiran

130

7.1 APAKAH ITU KEUTUHAN?

Anda memberikan ujian matematik kepada sekumpulan pelajar Tingkatan IV

dan salah seorang pelajar bernama Keng Yap telah mendapat markah 66% dalam

ujian tersebut. Sejauhmanakah anda pasti bahawa itulah sebenarnya markah yang

Keng Yap harus terima? Adakah itu markah sebenar dia? Apabila anda membina

sebuah ujian dan melaksanakannya kepada pelajar-pelajar anda, anda cuba untuk

mengukur mengukur markah benar pelajar. Markah sebenar merupakan suatu konsep

yang hipotetikal tentang keupayaan sebenar, kecekapan dan kemampuan seorang

individu. Sebuah ujian cuba mengukur markah sebenar seseorang. Apabila mengukur

keupayaan manusia, adalah hampir mustahil untuk membina sebuah ujian yang bebas

kesalahan kerana kesalahan tentu ujud. Walau bagaimanapun, hanya kerana terdapat

kesalahan, ini tidak bermaksud bahawa ujian tersebut tidak bagus. Yang lebih penting

adalah saiz kesalahan itu.

Kesalahan mungkin timbul daripada beberapa sumber seperti daripada dalam

ujian yang diambil oleh pelajar, (e.g. soalan tidak jelas), dalam pentadbiran ujian

ataupun semasa memberi markah (atau menanda). Kepenatan, sakit, nasib baik

semasa meneka, arahan yang lemah, meniru ataupun ternampak jawaban pelajar lain

semuanya menyumbang kepada kesalahan dalam pengambil ujian. Sesetengah

daripada ini akan mengurangkan nilai markah sebenar manakala sesetengah yang lain

akan mempertingkatkannya. Sebagai contoh, kepenatan akan menyebabkan markah

diperhatikan lebih rendah daripada markah sebenar manakala meniru akan

menyebabkan markah diperhatikan menjadi lebih tinggi daripada markah sebenar.

Umumnya, lebih kecil kesalahan, lebih hampir kemungkinan anda mengukur

markah sebenar pelajar. Sekiranya anda yakin bahawa ujian matematik anda (markah

diperhatikan) mempunyai kesalahan yang kecil,

maka anda boleh dengan yakin membuat inferensi

bahawa markah Keng Yap 66% adalah hampir

dengan markah sebenarnya atau keupayaan

sebenarnya dalam menyelesaikan masalah

matematik; i.e. Apa yang dia sebenarnya tahu.

Bagi mengurangkan kesalahan dalam ujian, anda

perlu memastikan bahawa ujian anda adalah utuh

dan sah. Lebih tinggi keutuhan dan kesahan ujian

anda, lebih lagi kemungkinan anda mengukur

markah sebenar pelajar anda. Kita perlu

pertamanya mengukur keutuhan ujian kita. Apakah

itu keutuhan?

Keutuhan merupakan konsistensi ukuran.

Akankah pelajar menerima markah yang sama

sekiranya mereka mengambil ujian yang sama pada

dua ketika yang berbeza? Adakah mereka akan

mendapat markah yang lebih kurang sama

Tentunya, anda tidak

mempercayai sebuah alat

penimbang sekiranya

bacaannya berubah mengikut

suhu atau sekiranya ia

mempunyai spring yang

longgar.

Markah Sebenar = Markah Diperhatikan + Kesalahan

Page 3: Bab 7 Keutuhan Dan Kesahan Teknik Pentaksiran

Bab 7: Keutuhan dan Kesahan Kaedah Pentaksiran

131

sekiranya mereka mengambil dua jenis pentaksiran yang berbeza? Soalan-soalan ini

berkait dengan konsistensi ujian anda dalam mengukur keupayaan, kemahiran dan

sikap atau nilai pelajar anda. Nama generik untuk konsistensi adalah keutuhan.

Keutuhan merupakan pelopor kepada ujian kesahan. Iaitu, sekiranya markah

ujian tidak boleh dijalankan dengan konsisten, mustahil untuk merumuskan bahawa

markah tersebut mengukur domain yang diperhatikan dengan tepat. Kesahan merujuk

kepada sejauhmana inferens yang dibuat daripada ujian dapat dijustifikasi dan tepat.

Sebagai contoh, sekiranya seorang pelajar gagal dalam sebuah ujian, adakah anda

pasti bahawa ia adalah kerana pelajar tidak mengetahui bahan atau adakah kerana

sebab-sebab lain.

Walau bagaimanapun, menentukan kesahan sesebuah ujian secara formal

boleh jadi suatu proses yang memerlukan tenaga dan mengambil masa. Dengan itu,

analisis keutuhan selalunya dianggap sebagai langkah pertama dalam proses ujian

keutuhan (Wells dan Wollack, 2003). Sekiranya sebuah ujian tidak utuh, kita tidak

perlu membuang masa menyiasat samada ia adalah sah kerana ia tentunya tida.

Sekiranya ujian itu mempunyai keutuhan, maka menyiasat kesahan ujian tersebut

boleh dilakukan.

7.2 PEKALI KEUTUHAN

Keutuhan merupakan pekali keutuhan yang diukur. Simbol yang digunakan

untuk menunjukkan pekali keutuhan adalah r dengan dua subskrip yang sama

(sebagai contoh, rxx). Pekali keutuhan umumnya ditakrif sebagai percanggahan

markah sebenar dibahagikan dengan percanggahan markah diperhatikan.

Sekiranya terdapat kesalahan yang agak kecil, nisbah percanggahan markah

sebenar kepada percanggahan markah diperhatikan akan mendekati pekali keutuhan

1.00 iaitu keutuhan sempurna. Sekiranya terdapat kesalahan yang agak besar, nisbah

percanggahan markah sebenar kepada percanggahan markah diperhatikan akan

mendekati 0.00 iaitu sepenuhnya tidak utuh.

Ujian dengan tiada keutuhan Ujian dengan keutuhan sempurna

0.00 1.00

Keutuhan yang tinggi bermaksud soalan-soalan dalam sesebuah ujian “bersatu”.

Pelajar-pelajar yang diberikan soalan dengan betul lebih mungkin menjawab soalan-

soalan lain dengan betul. Sekiranya sebuah ujian yang sama ataupun selaras dibina

6.1 AKTIVITI

a) Apakah yang anda faham dengan “markah sebenar”?

b) Apakah perbezaan di antara keutuhan dan kesahan?

c) Bolehkah sebuah ujian utuh tetapi tidak sah? Jelaskan

dengan contoh-contoh.

Page 4: Bab 7 Keutuhan Dan Kesahan Teknik Pentaksiran

Bab 7: Keutuhan dan Kesahan Kaedah Pentaksiran

132

dengan menggunakan item-item yang sama, markah-markah pelajar akan tidak jauh

berbeza. Keutuhan rendah bermaksud bahawa soalan-soalan tidak berkaitan diantara

satu sama lain daripada segi siapa yang menjawabnya dengan betul. Markah ujian

yang terhasil mencerminkan bahawa sesuatu tidak kena dengan item-item atau situasi

pengujian dan bukannya pengetahuan pelajar dalam mata pelajaran tersebut. Panduan

berikut boleh digunakan untuk menginterpretasi pekali keutuhan untuk ujian dalam

bilik darjah (lihat Jadual 7.1):

Keutuhan Interpretasi

0.90 dan ke atas Keutuhan yang cemerlang (sama seperti ujian

standard yang terbaik)

0.80 – 0.90 Sangat baik untuk ujian dalam bilik darjah

0.70 – 0.80 Baik untuk ujian dalam bilik darjah tetapi

terdapat beberapa item yang boleh diperbaiki

0.60 – 0.70

Agak rendah. Mungkin terdapat item-item

yang perlu dikeluarkan atau diperbaiki

0.50 – 0.60 Ujian perlu dikaji semula

0.50 dan ke bawah Keutuhan yang boleh dipersoalkan dan ujian

harus digantikan ataupun perlukan rombakan

Jadual 7.1 Interpretasi Pekali Keutuhan

7.3 KAEDAH-KAEDAH MENGANGGAR KEUTUHAN SEBUAH

UJIAN

Mari kita bincangkan bagaimana menganggar keutuhan sebuah ujian. Lihat

Gambarajah 7.2 yang menyenaraikan TIGA kaedah yang biasa digunakan untuk

menganggar keutuhan sebuah ujian. Adalah tidak mungkin untuk menghitung

keutuhan dengan tepat dan dengan itu kita terpaksa menganggar keutuhan.

a) Uji-Uji Semula

Menggunakan teknik Uji-Uji Semula, ujian yang sama ditadbir semula kepada

kumpulan pelajar yang sama. Markah yang diterima dalam pentadbiran ujian pertama

dikorelasikan kepada markah diterima dalam pentadbiran kedua ujian tersebut.

Sekiranya korelasi di antara dua markah tersebut adalah tinggi maka ujian tersebut

boleh dikatakan mmempunyai keutuhan yang tinggi. Namun begitu, situasi uji-uji

semula adalah agak sukar dilaksanakan kerana tidak mungkin pelajar bersedia

mengambil ujian yang sama dua kali.

Terdapat juga kesan daripada latihan dan ingatan yang mungkin

mempengaruhi korelasi tersebut. Lebih pendek senggang waktu, lebih tinggi korelasi;

lebih lama senggang waktu, lebih rendah korelasi. Ini kerana kedua-dua pemerhatian

berkait dengan waktu. Oleh kerana korelasi ini adalah anggaran keutuhan melalui uji-

uji semula, akan mungkin mendapat anggaran yang jauh berbeza bergantung kepada

senggang waktu.

Page 5: Bab 7 Keutuhan Dan Kesahan Teknik Pentaksiran

Bab 7: Keutuhan dan Kesahan Kaedah Pentaksiran

133

Apa? Ujian yang

sama lagi! Ujian itu

kita dah buat

minggu lepas. Amboi, senangnya!

Uji-Uji Semula

Bentuk Serupa atau Selaras

Pecah-Separuh

Keutuhan Internal

Alfa Cronbach

Gambarajah 7.2 Kaedah Menganggar Keutuhan

b) Bentuk Serupa atau Selaras

Bagi teknik ini, dua ujian yang serupa (ataupun sama bentuk) ditadbir kepada

kumpulan pelajar yang sama. Kedua-dua ujian tidaklah sama tetapi serupa. Lihat

Gambarajah 7.3 yang menunjukkan ujian harga diri dengan Bentuk X dan Bentuk Y.

Dalam erti kata lain, mereka mempunyai soalan-soalan berbeza tetapi mereka

mengukur pengetahuan, kemahiran atau sikap yang sama. Dengan itu, anda

mempunyai dua set markah yang berkorelasi dan keutuhan dapat ditentukan. Tidak

seperti teknik uji-uji semula, ukuran keutuhan serupa atau selaras tidak dipengaruhi

oleh daya ingatan. Suatu masalah utama dalam pendekatan ini adalah bahawa anda

harus boleh menghasilkan banyak item yang mencerminkan konstruk atau pemboleh

ubah yang sama. Ini selalunya bukan suatu yang mudah.

Kaedah Untuk Menganggar

Keutuhan

Page 6: Bab 7 Keutuhan Dan Kesahan Teknik Pentaksiran

Bab 7: Keutuhan dan Kesahan Kaedah Pentaksiran

134

Ujian Harga Diri

Bentuk X Bentuk Y

Gambarajah 7.3 Bentuk X dan Bentuk Y Ujian Serupa Tetapi Tidak Sama

c) Konsistensi Internal

Konsistensi internal ditentukan menggunakan hanya satu ujian yang ditadburkan

sekali kepada pelajar. Konsistensi internal merujuk kepada perlakuan sebuah item

atau soalan berbanding dengan yang lain dan dengan keseluruhan ujian. Malah kita

menimbangkan keutuhan sesuatu alat ukuran dengan menganggarkan sejauhmana

item-item mencerminkan konstruk yang sama menghasilkan keputusan yang

sama. Kita melihat sejauhmana konsisten keputusan-keputusan adalah berlainan bagi

item-item bagi konstruk yang sama dalam ukuran yang sama. Berikut adalah dua

ukuran konsistensi internal yang biasa digunakan.

(i) Pecah-Separuh

Bagi menyelesaikan masalah terpaksa mentadbir dua ujian yang sama dua

kali, teknik pecah-separuh digunakan. Dalam teknik pecah-separuh,

sebuah ujian ditadbir sekali kepada sekumpulan pelajar. Ujian itu

dibahagikan kepada dua bahagian selepas pelajar selesai mengambil ujian.

Teknik ini paling sesuai untuk ujian yang memasukkan item aneka pilihan,

item betul-salah dan mungkin juga esei jawaban pendek. Item-item dipilih

mengikut kaedah genap-ganjil di mana separuh daripada ujian terdiri

daripada item-item bernombor genap manakala separuh lagi terdiri

daripada item-item bernombor ganjil. Seterusnya, markah yang diterima

untuk kedua-dua bahagian dikorelasi bagi menentukan keutuhan

keseluruhan ujian menggunakan pekali korelasi Spearman-Brown.

SEMAK KENDIRI 7.1

a) Apakah masalah-masalah dengan keutuhan uji-uji semula dan

bentuk serupa?

b) Jelaskan teknik bentuk selaras atau serupa dalam menentukan

keutuhan sesebuah ujian.

c)

Page 7: Bab 7 Keutuhan Dan Kesahan Teknik Pentaksiran

Bab 7: Keutuhan dan Kesahan Kaedah Pentaksiran

135

2rxy

rsb =

(1 + rxy)

Dalam formula ini, rsb adalah pekali keutuhan pecah-separuh, dan rxy

mewakili korelasi di antara kedua-dua bahagian. Misalnya, anda telah

menentukan bahawa pekali korelasi di antara dua bahagian adalah 0.65.

Apakah keutuhan keseluruhan ujian?

2rxy 2 (0.65) 1.3

rsb = = = = 0.78

(1 + rxy) 1 + 0.65 1.65

(ii) Alfa Cronbach

Alfa pekali Cronbach boleh digunakan untuk item-item jenis binari

(1 = betul, 0 = salah atau 1 = benar & 0 = salah) dan juga item-item skala

(1 = sangat setuju, 2 = setuju, 3 = tidak setuju, 4 = sangat tidak setuju).

Keutuhan dianggarkan dengan menghitung korelasi di antara individu

soalan dan sejauhmana individu soalan berkorelasi dengan keseluruhan

ujian. Inilah yang dimaksudkan dengan konsistensi internal. Kuncinya

adalah “internal”. Tidak seperti uji-uji semula dan bentuk serupa atau

selaras yang memerlukan sebuah ujian lain sebagai rujukan eksternal.

Lebih kukuh item-item berkait, lebih tinggi kemungkinan ujian tersebut

konsisten. Lebih tinggi alfa, lebih utuh ujian tersebut. Tidak ada pemisah

yang dipersetujui umum. Selalunya, 0.7 dan ke atas boleh diterima

(Nunnally, 1978). Formula untuk Alfa Cronbach adalah seperti berikut: k

Σ pi (1- pi)

k i =1

Alfa Cronbach (α) = 1 –

k – 1 σ2x

k adalah bilangan item dalam ujian;

pi merujuk kepada item yang payah, iaitu bahagian pelajar yang

menjawab item i dengan betul,

σ2x adalah percanggahan sampel untuk markah keseluruhan.

Contohnya:

Andainya dalam sebuah ujian aneka pilihan yang terdiri daripada 5 item

atau soalan indeks kepayahan berikut untuk setiap item telah diperhatikan:

p1 = 0.4, p2 – 0.5, p3 = 0.6, p4 = 0.75 dan p5 = 0.85. Percanggahan sampel

(σ2x ) = 1.84. Alfa Cronbach dihitung seperti berikut:

5 1.045

Page 8: Bab 7 Keutuhan Dan Kesahan Teknik Pentaksiran

Bab 7: Keutuhan dan Kesahan Kaedah Pentaksiran

136

α = 1 – = 0.54 5 – 1 1.840

Ujian standard yang dibina secara professional harus mempunyai pekali

konsistensi internal sekurang-kurangnya 0.85. Pekali keutuhan yang tinggi

diperlukan untuk ujian standard kerana mereka ditadbir hanya sekali dan

markah untuk ujian itu digunakan untuk membuat rumusan tentang tahap

konstruk yang diukur bagi setiap pelajar. Kemungkinan, yang paling

hampir kepada ujian standard dalam konteks Malaysia adalah ujian-ujian

untuk berbagai mata pelajaran yang dilaksanakan di peringkat

kebangsaaan dalam PMR dan SPM. Menurut Wells dan Wollack (2003),

ujian dalam bilik darjah boleh diterima sekiranya mempunyai keutuhan

0.70 dan ke atas kerana markah seorang pelajar dalam sesebuah ujian tidak

menentukan gred keseluruhan pelajar tersebut dalam mata pelajaran atau

kursus yang diambilnya. Selalunya, gred adalah berdasarkan beberapa

ukuran lain seperti tugasan projek, persembahan lisan, ujian amali,

penyertaan dalam kelas dan sebagainya. Sejauhmanakah ini benar dalam

institusi-institusi pendidikan?

BERHATI-HATI!

Apabila anda mendapat alfa yang rendah, anda harus berhati-hati agar

tidak terus merumuskan bahawa ujian itu adalah sebuah ujian yang lemah.

Anda harus menyemak bagi menentukan samada ujian tersebut mengukur

beberapa ciri-ciri atau dimensi dan bukan hanya satu ciri atau dimensi.

Sekiranya ya, terdapat kemungkinan Alfa Cronbach sememangnya

menjadi rendah. Sebagai contoh, sebuah ujian kecenderungan mungkin

mengukur 3 ciri-ciri atau dimensi seperti keupayaan kuantitatif, keupayaan

bahasa dan keupayaan analitikal. Maka, adalah tidak menghairankan

sekiranya Alfa Cronbach bagi keseluruhan ujian tersebut adalah rendah

kerana soalan-soalan mungkin tidak berkorelasi di antara satu sama lain.

Mengapa? Ini adalah kerana item-item mengukur 3 jenis keupayaan

manusia yang berlainan. Penyelesaiannya adalah untuk menghitung tiga

Alfa Cronbach yang berlainan; satu untuk keupayaan kuantitatif, satu

untuk keupayaan bahasa dan satu untuk keupayaan analitikal yang akan

memberitahu anda lebih tentang konsistensi internal item-item dalam ujian

itu.

SEMAK KENDIRI 7.2

a) Bagaimanakah konsistensi internal berbeza daripada

keutuhan uji-uji semula?

b) Apakah kelebihan utama teknik pecah-separuh berbanding

teknik uji-uji semula dalam menentukan keutuhan sebuah

ujian?

c)

Page 9: Bab 7 Keutuhan Dan Kesahan Teknik Pentaksiran

Bab 7: Keutuhan dan Kesahan Kaedah Pentaksiran

137

7.4 KEUTUHAN INTER-PENANDA DAN INTRA-PENANDA

Dalam bab-bab terdahulu, kita telah membincangkan pentaksiran hasil

pembelajaran menggunakan esei, projek, amali, ujian lisan dan portfolio, yang adalah

sangat subjektif. Sebagai contoh, apabila menggunakan soalan esei untuk mentaksir

hasil pembelajaran anda terpaksa menggunakan tenaga manusia untuk memeriksa

jawaban kepada soalan-soalan tersebut. Apabila anda menggunakan tenaga manusia

sebagai sebahagian daripada prosedur pengukuran anda, anda perlu bimbang tentang

samada keputusan-keputusan yang anda terima adalah konsisten atau utuh. Orang

memang terkenal dengan tidak konsisten. Kita mudah diganggu. Kita menjadi letih

apabila membuat sesuatu tugasan secara berulang. Kita berkhayal. Kita kadang-kala

membuat interpretasi yang salah. Bagaimanakah kita dapat menentukan samada dua

orang membuat pemerhatian atau memberi markah semasa memeriksa kertas

peperiksaan dengan konsisten?

Bagaimanakah kita menentukan bahawa dua pemeriksa memeriksa kertas esei

dengan konsisten?

Bagaimanakah kita menentukan bahawa dua pemeriksa memeriksa sebuah

projek dengan konsisten?

A) Keutuhan Inter-Pemeriksa

Apabila dua atau lebih orang memeriksa sebuah soalan esei, sejauhmana mereka

bersetuju dalam markah yang diperuntukkan dipanggil keutuhan inter-pemeriksa.

Lebih tinggi persetujuan, lebih tinggilah keutuhan inter-pemeriksa.

Pemeriksa A Pemeriksa B

= ? =

Keutuhan inter-pemeriksa mungkin rendah kerana sebab-sebab berikut:

Pemeriksa-pemeriksa tanpa disedari dipengaruhi oleh pengetahuan tentang

pelajar yang diperiksa. Terdapat kemungkinan memberi markah yang lebih

tinggi kepada pelajar yang anda anggap sebagai pelajar ‘bagus’ dan

sebaliknya.

Konsistensi semasa memeriksa mendapat kesan selepas memeriksa satu set

skrip yang sangat bagus atau yang sangat lemah.

Apabila terdapat gangguan semasa memeriksa sekumpulan skrip, standard

yang berbeza mungkin digunapakai selepas senggang itu

Skema pemarkahan yang lemah mungkin menjadikan pemeriksa membuat

interpretasinya sendiri tentang jawaban-jawaban.

Menurut Frith dan Macintosh (1987), keutuhan inter-pemeriksa boleh dipertingkatkan

sekiranya kriteria pemarkahan atau skema pemarkahan:

Page 10: Bab 7 Keutuhan Dan Kesahan Teknik Pentaksiran

Bab 7: Keutuhan dan Kesahan Kaedah Pentaksiran

138

Mengandungi jawaban disyorkan berkaitan soalan

Memperuntukkan jawaban alternatif yang boleh diterima

Memastikan bahawa peruntukan masa sesuai dengan kerja yang diperlukan

Dipecahkan dengan secukupnya bagi membolehkan pemeriksaan menjadi

seobjektif mungkin dan penghitungan markah betul

Memperuntukkan markah mengikut darjat kepayahan soalan

b) Keutuhan Intra-Pemeriksa

Sementara keutuhan inter-pemeriksa melibatkan dua atau lebih orang individu,

keutuhan intra-pemeriksa adalah konsistensi penggredan oleh satu orang pemeriksa.

Markah dalam sebuah ujian diperiksa oleh seorang pemeriksa pada ketika yang

berlainan. Apabila kita menggred sebuah ujian pada waktu yang berbeza, kita

mungkin menjadi tidak konsisten dalam penggredan kita disebabkan berbagai faktor.

Sebagai contoh, sesetengah kertas yang digred pada waktu siang mungkin mendapat

perhatian penuh manakala kertas lain yang digred di penghujung hari mungkin

diimbas dengan cepat. Sama juga keadaannya, perubahan dalam angin kita mungkin

mempengaruhi penggredan kertas. Dalam situasi-situasi ini, kurang konsisten

mungkin mempengaruhi keutuhan intra-pemeriksa dalam penggredan jawaban

pelajar.

Skema

pemarkahan ini

mengelirukan dan

aku dah lambat.

SEMAK KENDIRI 7.2

a) Senaraikan langkah-langkah yang boleh diambil untuk

mempertingkatkan keutuhan inter-pemeriksa dalam

penggredan skrip jawaban esei.

b) Cadangkan langkah-langkah yang anda mungkin ambil untuk

mempertingkatkan keutuhan intra-pemeriksa dalam

penggredan projek.

Page 11: Bab 7 Keutuhan Dan Kesahan Teknik Pentaksiran

Bab 7: Keutuhan dan Kesahan Kaedah Pentaksiran

139

7.5 KESAHAN

APAKAH ITU KESAHAN? Kesahan selalu ditakrifkan sebagai sejauhmana sebuah ujian mengukur apa

yang ia direkabentuk untuk mengukur (Nutall, 1987). Sementara keutuhan berkait

dengan kekonsistenan sebuah ujian, kesahan berkait dengan kerelevanan ujian itu.

Sekiranya ia tidak mengukur apa yang ia patutnya mengukur, maka penggunaannya

adalah mengelirukan dan interpretasi yang dibuat berasaskan ujian tersebut tidak sah

atau relevan. Sebagai contoh, sebuah ujian yang patut mengukur ‘keupayaan mengeja

kanak-kanak 8 tahun’ tidak mengukur ‘keupayaan mengeja’, maka ujian tersebut

bukanlah sebuah ujian yang sah. Kita akan dilanda kemusnahan sekiranya kita

membuat rumusan tentang apa yang pelajar boleh atau tidak boleh buat berdasarkan

ujian yang sebenarnya mengukur perkara lain. Inilah sebabnya ramai pendidik

berhujah bahawa kesahan merupakan suatu aspek yang paling penting sesebuah ujian.

Walau bagaimanapun, kesahan akan berbeza bagi setiap ujian bergantung kepada

kegunaannya. Sebagai contoh, sebuah ujian mungkin mempunyai kesahan yang tinggi

dalam mengingat semula fakta dalam ekonomi tetapi ujian yang sama mungkin

mempunyai kesahan yang rendah dalam aplikasi konsep-konsep dalam ekonomi.

Messick (1989) sangat khuatir tentang inferens yang guru buat daripada

markah ujian, interpretasi yang dibuat oleh guru tentang pelajarnya serta kesan

daripada inferens dan interpretasi itu. Anda boleh bayangkan kuasa yang digenggam

oleh seorang pendidik dalam tangannya semasa mereka bentuk sebuah ujian. Ujian

anda boleh menentukan masa hadapan beribu pelajar. Inferens berdasarkan ujian yang

mempunyai kesahan yang rendah mungkin memberi gambaran yang jauh berlainan

daripada keupayaan dan kecekapan sebenar pelajar.

JENIS-JENIS KESAHAN

Terdapat TIGA jenis kesahan yang dikenal pasti: kesahan konstruk, kesahan

kandungan dan kesahan berkaitan kriteria yang terdiri daripada kesahan meramal dan

bersama (lihat Gambarajah 7.4).

Kesahan konstruk

Kesahan Kandungan

Kesahan Meramal Kesahan Berkaitan

Kriteria

Kesahan Bersama

Gambarajah 7.4 Jenis-jenis Kesahan

Jenis-jenis

Kesahan

Page 12: Bab 7 Keutuhan Dan Kesahan Teknik Pentaksiran

Bab 7: Keutuhan dan Kesahan Kaedah Pentaksiran

140

a) Kesahan Konstruk:

Kesahan konstruk berkait dengan bagaimana sebuah ujian merupakan ukuran

yang sesuai bagi konstruk yang mendasari. Sebuah konstruk mungkin suatu fenomena

seperti pencapaian matematik, kemahiran membaca peta, kefahaman bacaan, sikap

terhadap sekolah, pertimbangan induktif, kesedaran persekitaran, keupayaan mengeja

dan sebagainya. Anda dapat menganggap kesahan konstruk sebagai “melabel”,

adakah anda melabel sesuatu itu dengan betul? Contohnya, semasa anda mengukur

apa yang anda labelkan sebagai ‘pemikiran kritis’, adakah itu yang anda sebenarnya

mengukur?

Dengan itu, bagi memastikan kesahan konstruk yang tinggi, anda mesti jelas

tentang takrif konstruk yang anda ingin ukur. Contohnya, suatu konstruk seperti

kefahaman membaca mungkin termasuk pembinaan kosa kata, membaca untuk

maksud literal dan membaca untuk maksud inferensial. Ada pakar dalam pengukuran

pendidikan berhujah bahawa kesahan konstruk merupakan jenis kesahan yang paling

penting. Anda dapat menentukan kesahan konstruk sesebuah instrument dengan

mengkorelasikannya dengan sebuah ujian yang mengukur konstruk yang sama.

Sebagai contoh, anda boleh membandingkan markah yang diperolehi dalam ujian

kefahaman membaca dengan markah yang diperolehi dalam sebuah lagi ujian

kefahaman membaca yang diketahui, yang diberikan kepada sampel pelajar yang

sama. Sekiranya markah bagi kedua-dua ujian tersebut berkorelasi tinggi, maka anda

bolehlah merumuskan bahawa ujian kefahaman membaca anda mempunyai kesahan

konstruk yang tinggi.

Suatu konstruk ditentukan dengan merujuk kepada teori. Contohnya, sekiranya

anda berminat untuk mengukur konstruk ‘harga diri’, anda perlu jelas apa itu harga

diri. Kemungkinan, anda perlu merujuk pustaka dalam bidang yang menjelaskan ciri-

ciri harga diri. Anda mungkin mendapati secara teori, harga diri terdiri daripada ciri-

ciri berikut; harga diri fizikal, harga diri akademik dan harga diri sosial. Berdasarkan

kepada sudut pandang teori ini, anda dapat membina item-item atau soalan-soalan

bagi mengukur harga diri yang memasukkan ketiga-tiga jenis harga diri tadi. Melalui

proses seperti itu anda lebih meungkin dapat memastikan kesahan konstruk yang

tinggi.

SUKATAN UJIAN MATA PELAJARAN

Domain fakta, konsep, Sampel fakta, konsep,

prinsip dan kemahiran prinsip dan kemahiran tentang

tentang ‘Tenaga dan Daya’ ‘Tenaga dan Daya’

Cahaya

Bunyi

Kepanasan

Magnetisma

Letrik

Cahaya, Bunyi, Kepanasan,

Magnetisma, Letrik

Page 13: Bab 7 Keutuhan Dan Kesahan Teknik Pentaksiran

Bab 7: Keutuhan dan Kesahan Kaedah Pentaksiran

141

Gambarajah 7.5 Sampel Kandungan yang Diuji Bagi Unit Tentang Tenaga

dan Daya

b) Kesahan Kandungan:

Kesahan Kandungan lebih mudah dan mungkin berkait dengan kesahan

konstruk. Ia berkait dengan memasukkan kandungan yang sesuai dan diperlukan i.e.

adakah ujian memasukkan kemahiran-kemahiran yang diperlukan untuk prestasi yang

bagus, ataupun semua aspek mata pelajaran yang diajar? Ia berkaitan dengan

perwakilan populasi sampel; i.e. fakta, konsep dan prinsip yang diliputi oleh item-

item ujian harus mewakili domain yang besar (e.g. sukatan mata pelajaran) daripada

segi fakta, konsep dan prinsip.

Sebagai contoh, unit sains tentang ‘Tenaga dan Daya’ mungkin memasukkan

fakta, konsep, prinsip dan kemahiran tentang cahaya, bunyi, kepanasan, magnetisma

dan letrik. Walau bagaimanapun, adalah sukar, kalaupun tidak mustahil, untuk

mentadbir sebuah ujian selama 2-3 jam untuk meliputi kesemua aspek-aspek dalam

sukatan mata pelajaran tentang ‘Tenaga dan Daya’ (lihat Gambarajah 7.5). Dengan

itu, hanya fakta, konsep, prinsip dan kemahiran terpilih daripada sukatan pelajaran

(atau domain) disampelkan. Kandungan yang dipilih akan ditentukan oleh pakar

bidang yang akan mempertimbangkan keterkaitan kandungan dalam ujian kepada

kandungan dalam sukatan pelajaran atau domain tersebut.

Topik Memahami

Konsep

Aplikasi

Konsep

Jumlah

Cahaya 7 4 11 (22%

Bunyi 7 4 11 (22%)

Kepanasan 7 4 11 (22%)

Magnetisma 3 3 6 (11%)

Letrik 8 3 11 (22%)

JUMLAH

32 (64%)

18 (36%)

50

Jadual 7.1 Jadual Spesifikasi Untuk Unit Tentang Tenaga dan Daya

Kesahan kandungan akan menjadi rendah sekiranya soalan-soalan dalam ujian

termasuk soalan yang menguji kandungan yang tidak berkait dengan domain atau

sukatan pelajaran. Bagi memastikan kesahan kandungan dan cakupan, ramai di antara

guru yang menggunakan Jadual Spesifikasi. Jadual 7.1 adalah suatu contoh jadual

spesifikasi yang mengkhususkan pengetahuan dan kemahiran yang akan diukur dan

topic-topik yang dimasukkan dalam unit tentang Tenaga dan Daya. Anda tidak boleh

mengukur semua kandungan dalam topic dan dengan itu anda terpaksa menumpukan

kepada bahagian-bahagian penting dan memberikannya pemberat yang sesuai kepada

bahagian-bahagian yang penting itu. Sebagai contoh, guru membuat keputusan

bahawa 64% daripada soalan-soalan akan menekankan pemahaman konsep sementara

36% akan menumpukan kepada aplikasi konsep untuk lima topik. Suatu jadual

Page 14: Bab 7 Keutuhan Dan Kesahan Teknik Pentaksiran

Bab 7: Keutuhan dan Kesahan Kaedah Pentaksiran

142

spesifikasi memberi guru bukti bahawa ujian mempunyai kesahan kandungan yang

tinggi, bahawa ia mencakupi apa yang ia harus cakupi.

c) Kesahan Berkaitan Kriteria

Kesahan berkaitan kriteria sesebuah ujian ditentukan dengan mengaitkan markah

yang diperolehi kepada markah yang diperolehi untuk beberapa kriteria lain atau ujian

lain. Terdapat dua jenis kesahan berkaitan kriteria:

Kesahan Ramalan berkait dengan samada sebuah ujian dapat meramal

dengan tepat prestasi atau keupayaan masa hadapan. Adakah STPM suatu

peramal prestasi dalam universiti? Kesukaran dalam menghitung kesahan

ramalan bagi STPM ialah kerana hanya mereka yang lulus peperiksaan itu

yang akan meneruskan pelajaran ke universiti (secara umumnya) dan kita

tidak tahu sejauhmana baik pencapaian pelajar yang gagal (Wood, 1991). Dan

juga, hanya sebahagian kecil populasi yang mengambil STPM dan korelasi di

antara gred STPM dan prestasi di peringkat sarjana muda mungkin akan

tinggi.

Kesahan Bersama berkait dengan samada ujian berkorelasi dengan, atau

memberi keputusan yang sama dengan, sebuah ujian lain berkaitan kemahiran

yang sama. Sebagai contoh, adakah ujian bahasa akhir tahun anda berkorelasi

dengan peperiksaan MUET. Dalam erti kata lain, sekiranya ujian bahasa anda

berkorelasi dengan tinggi dengan MUET, maka ujian bahasa anda mempunyai

kesahan bersama yang tinggi.

7.6 FAKTOR-FAKTOR YANG MEMPENGARUHI KEUTUHAN DAN

KESAHAN

Deale (1975) mencadangkan bahawa untuk membina ujian yang sah dan utuh, faktor-

faktor berikut harus diambil kira:

a) Panjang Ujian

Secara umumnya lebih panjang ujian lebih utuh dan sah ujian tersebut. Sebuah

ujian yang pendek tidak mungkin merangkum kerja selama setahun. Sukatan

pelajaran perlu disampelkan. Ujian tersebut harus terdiri daripada cukup

soalan agar mewakili pengetahuan, kemahiran dan kecekapan dalam sukatan

pelajaran. Walau bagaimanapun, terdapat juga suatu lagi masalah dengan ujian

yang terlalu panjang. Sebuah ujian yang panjang mungkin sah tetapi ia akan

mengambil masa yang terlalu lama dan keletihan akan muncul dan

mempengaruhi prestasi serta keutuhan ujian tersebut.

b) Pemilihan Topik

Topik-topik yang dipilih dan soalan-soalan ujian yang disediakan harus

mencerminkan cara topic-topik diolah semasa pengajaran. Kita harus jelas

tentang hasil pembelajaran dan mereka bentuk item-item yang mengukur hasil

pembelajaran tersebut. Contohnya, dalam pengajaran anda pelajar tidak diberi

peluang berfikir secara kritis dan menyelesai masalah. Sebaliknya, ujian anda

Page 15: Bab 7 Keutuhan Dan Kesahan Teknik Pentaksiran

Bab 7: Keutuhan dan Kesahan Kaedah Pentaksiran

143

terdiri daripada item-item yang memerlukan pelajar berfikir secara kritis dan

menyelesai masalah. Dalam situasi sebegini, keutuhan dan kesahan ujian itu

akan mendapat kesan.

c) Pilihan Teknik Pengujian

Teknik pengujian yang dipilih akan juga membawa kesan kepada kesahan dan

keutuhan ujian tersebut. Contohnya, sekiranya anda memilih untuk

menggunakan soalan esei, kesahan mungkin tinggi tetapi keutuhan mungkin

rendah. Soalan esei selalunya kurang utuh berbanding soalan jawaban pendek.

Esei berstruktur selalunya lebih utuh daripada esei terbuka.

d) Kaedah Mentadbir Ujian

Masa yang mencukupi harus diberi kepada kebanyakan pelajar untuk

menyudahkan ujian. Ini akan mengurangkan pelajar meneka membuta tuli dan

sebaliknya menggalakkan pelajar berfikir dengan teliti tentang jawaban.

Arahan perlu jelas bagi mengurangkan kesan kekeliruan terhadap keutuhan

dan kesahan. Keadaan fizikal dalam mana ujian diambil harus menyenangkan

pelajar. Harus ada cukup ruang, cahaya dan suhu yang bersesuaian. Pelajar

harus boleh kerja dengan berdikari dan kemungkinan gangguan dalam bentuk

pergerakan dan kebisingan mesti dijauhi.

e) Kaedah Memeriksa

Memeriksa haruslah seobjektif mungkin. Memeriksa bergantung kepada

penggunaan pertimbangan manusia seperti dalam esei, pemerhatian aktiviti

dalam bilik darjah dan amali, dan semua itu terbuka kepada kepelbagaian sifat

manusia. [Rujuk kepada keutuhan inter-pemeriksa yang dibincangkan lebih

awal]. Adalah mudah untuk memeriksa item objektif dengan cepat, tetapi

adalah juga mudah untuk membuat kesilapan yang remeh. Ini benar dalam

keadaan memeriksa bilangan skrip yang banyak. Suatu sistem semakan sangat

digalakkan. Satu kaedah ialah dengan mendapatkan komen daripada pelajar itu

sendiri setelah skripnya diperiksa.

7.7 HUBUNGKAIT ANTARA KEUTUHAN DAN KESAHAN

Ada yang menganggap bahawa keutuhan dan kesahan adalah dua konsep yang

berasingan. Hakikatnya, keutuhan dan kesahan adalah saling berkait. Trochim (2005)

menawarkan analogi berikut (lihat Gambarajah 7.6).

Page 16: Bab 7 Keutuhan Dan Kesahan Teknik Pentaksiran

Bab 7: Keutuhan dan Kesahan Kaedah Pentaksiran

144

a) Utuh tetapi b) Sah tetapi c) tidak utuh dan d) Utuh dan sah

tidak sah tidak utuh tidak sah

Gambarajah 7.6 Hubungkait Antara Keutuhan dan Kesahan

[sumber: W.K. Trochim. 2005. Research Methods Knowledge Base

http://www.socialresearchmethods.net/kb/rel&val.htm]

Pusat sasaran merupakan konsep yang kita cuba mengukur. Misalnya, sebagai

contoh, semasa cuba mengukur konsep ‘pertimbangan induktif’, anda

mungkin mengena pusat (atau pusat sasaran) sekiranya ujian Pertimbangan

Induktif anda adalah utuh dan sah, iaitu apa yang semua pembina ujian

sasarkan (lihat Gambarajah 7.6d).

Sebaliknya, ujian Pertimbangan Induktif anda mungkin utuh tetapi tidak sah.

Bagaimana mungkin? Ujian anda mungkin tidak mengukur pertimbangan

induktif tetapi markah yang anda dapat setiap kali anda mentadbir ujian

tersebut lebih kurang sama (lihat Gambarajah 7.6a). Dalam erti kata lain, ujian

tersebut adalah konsisten dan mengukur dengan sistematik konstruk yang

salah (i.e. pertimbangan induktif). Bayangkan kesan daripada membuat

keputusan tentang pertimbangan induktif pelajar menggunakan ujian seperti

itu!

Sama juga, ujian Pertimbangan Induktif anda mungkin mengukur konstruk

pertimbangan induktif (i.e. pelajar mendapat jawaban yang betul) tetapi

apabila anda menguji mereka sekali lagi mereka mendapat markah yang

berlainan yang menunjukkan kurang konsisten bagi pelajar yang diukur (lihat

Gambarajah 7.6b). Dalam erti kata lain, anda mendapat anggaran yang sah

untuk keupayaan pertimbangan induktif pelajar anda tetapi mereka tidak

konsisten.

Senario yang paling buruk adalah apabila ujian anda tidak utuh dan tidak sah

(lihat Gambarajah 7.6c). Dalam senario ini markah yang pelajar terima

tertumpu kepada separuh bahagian atas sasaran dan mereka dengan konsisten

tersasar daripada pusat. Pengukuran anda dalam kes ini tidak utuh dan tidak

sah, dan ujian tersebut harus ditolak atau diperbaiki.

Page 17: Bab 7 Keutuhan Dan Kesahan Teknik Pentaksiran

Bab 7: Keutuhan dan Kesahan Kaedah Pentaksiran

145

RINGKASAN

Markah sebenar merupakan konsep hipotetikal keupayaan, kecekapan dan

kemampuan individu sebenar.

Lebih tinggi keutuhan dan kesahan ujian anda, lebih kemungkinan anda akan

mengukur markah sebenar pelajar anda.

Keutuhan merujuk kepada konsistensi pengukuran. Sebuah ujian dianggap utuh

sekiranya kita mendapat markah yang sama secara berulang.

Dengan menggunakan teknik Uji-Uji Semula, ujian yang sama ditadbir sekali lagi

kepada pelajar yang sama.

Untuk teknik ini, dua ujian yang serupa (atau bentuk serupa) ditadbir kepada

kumpulan pelajar yang sama.

Konsistensi internal ditentukan menggunakan hanya satu ujian yang ditadbir satu

kali kepada pelajar.

Apabila dua atau lebih orang memeriksa soalan esei, sejauhmana terdapat

persetujuan dalam markah yang diperuntukkan dipanggil kutuhan inter-pemeriksa.

Sementara keutuhan inter-pemeriksa melibatkan dua atau lebih individu, keutuhan

intra-pemeriksa adalah konsistensi penggredan oleh seorang pemeriksa.

Kesahan merupakan sejauhmana sebuah ujian mengukur apa yang ia sepatutnya

mengukur. Adalah penting bagi sesebuah ujian itu sah agar keputusan dapat

diaplikasikan dan diinterpretsi dengan tepat.

Kesahan konstruk berkait dengan samada ujian adalah cukup untuk mengukur

konstruk yang mendasari.

Kesahan kandungan adalah lebih terang dan berkemungkinan berkait dengan

keutuhan konstruk; ia berkait dengan kesesuaian dan perlunya kandungan yang

dicakupi.

Ada yang menganggap keutuhan dan kesahan merupakan dua konsep yang

berasingan. Hakikatnya, keutuhan dan kesahan adalah saling berkaitan.

Page 18: Bab 7 Keutuhan Dan Kesahan Teknik Pentaksiran

Bab 7: Keutuhan dan Kesahan Kaedah Pentaksiran

146

RUJUKAN

Deale, R. (1975). Assessment and Testing in the Secondary School. London:

Evans/Methuen Educational.

Jacobs, L. (1991). Test reliability. Educational Testing Centre. Indiana

University: Bloomington.

Macintosh H. and G. Firth (1987). A teacher’s guide to assessment. Nelson

Thornes Ltd.

Wells, C., Wollack, J. (2003). An Instructor’s Guide to Understanding Test

Reliability. Testing & Evaluation Services, University of Wisconsin, Madison.

ISTILAH PENTING

Markah sebenar Kesahan Keutuhan & kesahan

Keutuhan - konstruk hubungkait

- Uji uji semula - kandungan Sah & tidak utuh

- bentuk-selaras - berkaitan kriteria Utuh & tidak sah

- konsistensi internal - meramal