10 Ciri Instrumen Pengukuran Pendidikan yang Baik

10 Ciri Instrumen Pengukuran Pendidikan yang Baik

Tujuan mengukur dalam kerja-kerja berkaitan pendidikan adalah untuk mendapatkan maklumat tentang sejauh mana murid telah menguasai apa yang dipelajari. Maklumat itu pula boleh digunakan oleh pelbagai pihak termasuk guru, ibu bapa dan murid untuk tujuan pengukuran itu diadakan. Maklumat yang diperoleh daripada pengukuran dikutip dalam bentuk data mentah yang perlu difahami, dianalisis, dinilai, diberi makna dan dikomunikasikan kepada pengguna mengikut interpretasi yang betul, sesuai dan munasabah dengan subjek (orang) yang diukur.

Jika ukuran telah dilaksanakan dengan baik, termasuk proses pembinaan, pengendalian, penskoran, penggredan dan pelaporannya, data yang dihasilkan akan berupaya memberikan maklumat yang boleh diguna untuk membuat keputusan tentang apa yang sepatutnya dibuat untuk membantu murid memperbaiki pembelajarannya dan membantu guru memperbaiki pengajaran. Apakah factor yang menyumbang kepada pengukuran yang baik? Berikut adalah sepuluh perkara yang digariskan oleh David Payn (2003) yang mempengaruhi pengukuran pendidikan yang baik.

  1. Relevance. Relevance (kerelevanan) adalah pertalian antara data yang hendak dikutip dalam proses pengukuran dengan tujuan atau objektif mengapa data itu hendak dikumpul. Ia merupakan padanan antara soalan ujian atau tugasan dengan objektif tingkahlaku yang hendak diukur. Ia boleh juga merupakan padanan antara satu siri pemerhatian yang terancang dengan unjuran/jangkaan yang terjadi apabila berlaku interaksi guru-murid atau murid-murid. Dalam pengukuran, relevance merupakan penyumbang utama kepada kesahan atau darjah sejauh mana pengukuran itu betul atau tepat memenuhi apa tujuan asal pengukuran itu diadakan. Kadang-kadang pakar mengaitkan relevance dengan apa yang terkandung dalam ujian mestilah berkaitan dengan kurikulum atau apa yang dipelajari oleh murid sebelum diuji. Ada juga yang mengaitkannya dengan apa yang akan dipelajari kemudiannya. Hal ini menunjukkan bahawa sesuatu ujian atau pengukuran akan mempunyai darjah kesahan yang tinggi jika kandungannya relevance dengan pengetahuan, kemahiran dan nilai yang ada pada diri murid yang diuji atau diukur hasil daripada pembelajaran dan kehidupannya di masa hadapan.

Oleh itu kandungan ujian tidak semestinya tidak terkeluar daripada kandungan sukatan pelajaran atau sukatan peperiksaan. Kita boleh menguji perkara-perkara yang terkeluar sedikit daripada, tetapi hendaklah berkaitan dengan sukatan pelajaran. Dengan itu, kita boleh menguji kemahiran berfikir aras tinggi seperti kemahiran mengaplikasi, menganalisis dan menghasilkan idea baru yang tidak pernah ditemui sebelumnya tetapi pengetahuan dan kemahiran sedia ada atau pengalaman lau boleh digunakannya untuk memberi respons kepada tugasan yang diberi dalam ujian

Dengan ciri ini ujian kita terjamin kesahannya yang tinggi kerana relevance bukan sahaja dengan perkara yang telah dipelajari di masa lepas malahan perkara yang akan dipelajari di peringkat yang lebih tinggi. Pemegang sijil yang layak melanjutkan pelajaran dengan ujian atau peperiksaan ini dijamin kejayaannya dalam pembelajaran atau pengajian seterusnya.

 

  1. Balance atau Representativeness. Mana-mana pentaksiran yang hendak dilaksanakan memerlukan satu kerangka atau pelan atau perancangan untuk membinanya. Kandungan ujian yang dilaksanakan berdasarkan beberapa siri kandungan sukatan pelajaran adalah merupakan sampel perkara-perkara yang penting sahaja yang menunjukkan sejauh mana subjek yang diuji (pelajar) telah menguasai atau mencapai tahap tertentu dalam pembelajarannya. Tidak mungkin dalam ujian itu dimasukkan semua perkara, sama ada yang penting atau tidak penting, yang terdapat dalam sukatan pelajaran, sama ada sempat dipelajari atau tidak. Walaupun secara teori, semakin banyak perkara dimasukkan dalam sesuatu ujian, semakin tinggi darjah kesahan ujian, jika hal tersebut menyebabkan kebolehlaksanaan (manageability) ujian terjejas, kesahan ujian juga turut terjejas. Secara teori juga semakin banyak perkara ditanya, semakin besar ralat yang menyebabkan semakin kecil pula kebolehpercayaan. Sekaligus, ujian yang kecil kebolehpercayaannya, kecil jugalah darjah kesahannya kerana kebolehpercayaan ialah kesahan dalaman (internal validity) sesuatu ujian.

Pada masa yang sama Pembina Ujian perlu juga menjaga standard atau kualiti kandungan ujian dengan memasukkan hanya perkara yang penting, sesuai dengan tahap calon, sesuai dengan keadaan semasa, mencukupi, merangkupi semua perkara yang telah dan sepatutnya dikuasai atau dipelajari serta memadai. Aspek ini dipanggil representativeness (kecukupcakupan).

Apa yang penting ialah balance atau seimbang antara relevance dengan representativeness iaitu menjaga antara apa yang telah dikuasai atau dipelajari calon dengan banyak mana sesuatu perkara itu hendak diukur merangkumi pelbagai perkara atau konstruk yang sepatutnya ada dalam diri calon. Hal ini akan menentukan darjah kesahan konstruk (construct validity) skor atau hasil ujian yang bersesuaian dengan matlamat atau tujuan ujian/pengukuran.

Pembina ujian selalunya merancang ujian dengan menyediakan jadual spesifikasi ujian dan spesifikasi statistic sebelum membina item-item ujian. Di dalam spesifikasi ujian konstruk yang hendak diukur dan aspek yang telah dipelajari (selalunya diambil daripada perkara-perkara penting yang terdapat dalam sukatan pelajaran atau kurikulum) ditentukan dalam satu matriks bilangan dan taburannya. Spesifikasi statistic pula merupakan jadual taburan sejumlah item dengan statistic (selalunya aras kesukaran dan indeks diskriminasi jika teori pengujian klasik atau classical test theory digunakan atau item measure jika teori respons item atau item response theory digunakan).

Spesifikasi ujian dan spesifikasi statistic mestilah sama bagi semua ujian untuk mata pelajaran yang sama setiap tahun ujian itu ditadbirkan. Hal ini samalah seperti membina instrument pengukuran fizikal seperti pembaris meter untuk mengukur panjang, penimbang untuk mengukur berat atau jangkasuhu untuk mengukur suhu yang standard dan sepatutnya sama setiap kali hendak mengukur subjek yang sama jenisnya berulang-ulang kali pada masa berlainan.

  1. Efficiency. Apabila kita melaksanakan pengukuran dalam pendidikan, tidak kurang pentingnya untuk diperhatikan sejauh mana respons calon atau subjek yang diukur untuk satu unit masa memberi makna kepada pengukuran. Sebagai contoh, adakah kebolehan calon Tingkatan Enam Atas aliran Sains menjawab dengan betul kesemua 20 soalan tambah nombor satu digit dalam masa 30 minit memadai untuk mengatakan pelajar itu telah menguasai Sukatan Pelajaran Matematik Tingkatan Enam?. Atau adakah kita perlu menguji semua perkara yang patut dikuasai pelajar termasuk mengeksperimen atau membuktikan satu model matematik secocok atau fit dengan keadaan sebenar seperti kerja-kerja penyelidikan peringkat PhD untuk pelajar Tahun Enam sekolah rendah semata-mata hanya untuk mengumpul data dan maklumat tentang sejauh mana pelajar telah menguasai kurikulum atau sukatan pelajaran.

Mengumpul data memerlukan kos, masa dan tenaga yang besar, sedangkan sumber yang ada selalunya terhad dan memerlukan kita berjimat cermat. Keseimbangan antara masa yang ada untuk mengumpul data, kos yang diperlukan, keperluan penskoran dan summarization serta kerelevanannya dengan tujuan pengukuran perlu dicari. Oleh itu dalam pengukuran dan penilaian pendidikan, bukan aspek pembinaan sahaja perlu diambil kira. Kecekapan mengurus dan mengendalikan pengukuran itu tidak kurang penting untuk diambil perhatian.

 

  1. Objectivity. Adakah pakar bersetuju dengan interpretasi kita terhadap data yang kita kumpul? Sebagai contoh, adakah skor yang diberi oleh seorang pemeriksa sama dengan pemeriksa lain? Adakah skor yang diberi guru terhadap pelajarnya sendiri dalam pengukuran berdasarkan kerja kursus boleh dipercayai? Adakah wajar melaporkan tiada seorangpun calon berjaya memperoleh pencapaian tertinggi iaitu Band 5 dan 6 dalam sesuatu peperiksaan? Interpretasi kita terhadap data yang dikutip dalam pengukuran dan penilaian pendidikan hendaklah selaras keadaan atau situasi atau tingkahlaku sebenar calon yang diukur.

Tanda-tanda keselarasan antaranya adalah calon dan kebanyakan pemegang taruh (stake holder) serta pakar bersetuju dan menerima keputusan yang dikeluarkan oleh badan yang mengendalikan peperiksaan itu. Jumlah calon yang memohon untuk semak semula keputusan dan bilangan yang berubah keputusannya juga menjadi tanda keobjektifan interpretasi data pengukuran. Objectivity adalah satu ciri atau sifat yang berkaitan dengan penskoran atau tugasan memberi makna kepada respons calon dalam bentuk skor atau tahap penguasaan, bukan berkaitan dengan kaedah pengutipan data.

  1. Reliability. Kebolehpercayaan (reliability) adalah satu ciri yang kompleks tetapi selalunya dikaitkan dengan ketekalan (consistency) pengukuran. Ketekalan pengukuran seringkali dikaitkan dengan masa, item, pemeriksa, calon, pengawas dan ketepatan (accuracy) pengelasan. Ketekalan dan ketepatan pengukuran dinilai daripada skor yang dikutip dan interpretasinya. Oleh itu, kebolehpercayaan pengukuran hanya boleh ditentukan setelah skor diperoleh.

Kebolehpercayaan seringkali dipertikai dalam pengukuran dan penilaian pendidikan yang subjektif sifatnya seperti ujian subjektif berulis dan kerja kursus berasaskan sekolah. Pelbagai cara diguna untuk memeriksa bagi tujuan mendapatkan skor daripada ujian subjektif bertulis seperti pemarkahan analytical, global, impression dan rubric. Ada juga yang menggunakan kaedah double atau triple marking. Kesemuanya tidak bebas daripada ralat pengukuran yang menyumbang kepada kebolehpercayaan skor yang terhasil. Pelbagai cara pula diguna untuk mengukur darjah kebolehpercayaan pengukuran seperti test-retest, split half, Crombach Alpha atau Kuder Richardson.

 

  1. Fairness. Keadilan atau fairness adalah satu kriteria yang berkaitan dengan sejauh mana skor yang dikutip dalam sesuatu pengukuran tidak bias terhadap gender, bangsa, atau etnik calon yang diukur. Keadilan juga menyentuh soal pentadbiran dan pengendalian ujian yang memberi peluang yang sama untuk menunjukkan pencapaian pengetahuan, kemahiran dan nilai yang telah dipelajari. Setiap calon hendaklah mematuhi peraturan yang sama dan setiap peraturan hendaklah sama bagi setiap calon.

 

  1. Specificity. If subject-matter experts should receive perfect scores, test-wise but course-naïve students should receive near-chance scores, indicating that course-specific learnings are being measured (Payne, 2003, p. 25). Untuk mencapai hasrat ini, selalunya dalam mesyuarat kajian semula soalan peperiksan oleh panel pakar, semua ahli diminta menjawab atau menyelesaikan dahulu masalah yang dikemukakan oleh penggubal soalan. Kesemua panel pakar seharusnya dapat menjawab dengan betul atau mendapat markah penuh atau perfect score. Kemudian, apabila ujian itu ditadbirkan, calon berkebolehan tinggi (dipanggil test-wise students) seharusnya mendapat skor dalam kumpulan tinggi (rule of tumb antara 80-99% daripada markah penuh) sesuai dengan tahap kebolehan yang dijangkakan. Calon yang rendah kebolehannya (dipanggil course-naïve students) seharusnya mendapat skor dalam kumpulan rendah (antara 1-20%).

Satu lagi indikasi spesifisiti pengukuran ialah calon mendapat skor yang lebih tinggi selepas intervensi atau instruksion atau latihan atau motivasi oleh guru berbanding dengan skor yang diperoleh sebelumnya. Hal ini selaras dengan prinsip skor yang dikutip daripada pengukuran dalam pendidikan mestilah sensitive kepada penambahbaikan dalam pengajaran dan pembelajaran. Sama juga keadaannya dengan pengukuran dalam sains fizikal di mana sesuatu objek yang telah ditambah beratnya apabila ditimbang semula, ukuran yang ditunjukkan oleh penimbang hendaklah juga menunjukkan pertambahan berat.

  1. Difficulty. Soalan-soalan yang dikemukakan dalam sesuatu ujian hendaklah sesuai (appropriate) dari segi aras kesukarannya (difficulty level) dengan pelajar dan kumpulan yang ditaksir. Secara umumnya, bagi ujian rujukan norma, ujian dianggap mempunyai kebolehpercayaan yang maksimum jika separuh daripada item-item dalam ujian itu dapat diskor dengan betul (jumlah skor menghampiri 50%) atau setiap item dijawab betul oleh separuh daripada jumlah calon kebarangkalian menjawab betul setiap item adalah 0.5.

Untuk ujian rujukan kriteria, aras kesukaran boleh ditentukan secara relative dengan peratusan lulus sebelum dan selepas pengajaran. Kesukaran ditentukan berdasarkan peratusan markah atau skor yang diproleh calon merujuk kepada satu set kriteria yang ditetapkan tentang pengetahuan dan kemahiran yang patut dikuasai dan perlu diukur sesuai dengan kebolehan sebenar pelajar.

  1. Discrimination. Untuk ujian rujukan norma, kebolehan sesuatu item atau soalan membezakan (mendiskriminasikan) calon pelbagai kebolehan dilihat daripada skor yang berbeza diperoleh calon-calon. Ujian dianggap mempunyai indeks diskrimnasi tinggi jika calon berkebolehan tinggi mendapat markah tinggi dan calon berkebolehan rendah mendapat markah rendah. Bagi sesuatu soalan atau item dalam ujian itu pula, indeks diskriminasi item itu tinggi jika calon pandai menjawab betul atau mendapat markah tinggi dan calon kurang pandai gagal atau mendapat markah rendah bagi item tersebut.

Bagi ujian rujukan kriteria pula, diskriminasi ditentukan daripada perbezaan skor antara pra dan pasca pengajaran atau perbezaan skor antara calon yang kompeten atau menguasai atau master dengan calon yang tidak atau kurang kompeten atau menguasai atau master perkara yang diukur.

Kombinasi antara indeks kesukaran dan indeks diskriminasi dalam sesuatu ujian menentukan kompleksiti instrument pengukuran. Pada hakikatnya, oleh kerana calon yang diuji atau diukur terdiri daripada pelbagai kebolehan yang mempunyai peluang berbeza untuk memperoleh markah tinggi atau sederhana atau rendah, item-item di dalam sesuatu ujian perlu mempunyai aras kesukaran dan kebolehan membezakan calon yang tidak semestinya sama antara satu sama lain. Di sinilah kebijaksanaan Pembina ujian menentukan item-item dengan aras kesukaran dan indeks diskriminasi supaya akhirnya nanti aras kesukaran dan indeks diskriminasi ujian dapat dipertahankan sama antara satu ujian dengan ujian yang lain bagi mata pelajaran yang sama. Seterusnya hal ini menentukan darjah kesahan dan kebolehpercayaan ujian atau peperiksaan keseluruhannya.

 10. Speededness. Sejauh mana skor sesuatu ujian dipengaruhi oleh kelajuan calon memberi respons kepada sesuatu tugasan dalam ujian juga perlu diambil kira oleh Pembina ujian. Bagi ujian pencapaian yang bertujuan mengukur sejauh mana pelajar telah menguasai apa-apa yang telah dipelajari daripada kurilulum atau sukatan pelajaran atau pengajaran dan pembelajaran dalam bilik darjah, kelajuan merespons tugasan tidak seharusnya diambil kira dalam pemberian skor. Masa yang secukupnya hendaklah diberi kepada calon sesuai dengan kompleksiti dan aras kesukaran tugasan. Namun, untuk tujuan pentadbiran dan logistic, pakar menyarankan masa yang dianggap sesuai untuk sesuatu ujian ialah apabila sekurang-kurangnya 80% daripada jumlah calon yang menduduki ujian itu telah selesai memberi respons kepada semua soalan.

David Payne menyatakan bahawa 10 ciri di atas menjelaskan tentang kesahan sesuatu ujian. Satu persatunya menentukan apa yang diukur dan bagaimana skor harus diinterpretasi untuk menghasilkan inferens tentang sejauh mana pelajar telah menguasai atau mencapai apa yang dipelajari. Sepuluh ciri inilah yang selalunya Pembina dan pengamal ujian perlu periksa sebelum sesuatu ujian dibina, ditadbir, diskor dan diinterpretasi untuk membuat penghakiman terhadap calon yang diuji. “The refinement of a test is a continuous and ongoing process” kata Payne.

 

Jamil Adimin

Majlis Peperiksaan Malaysia

22 April 2014.

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s