evaluasi pendidikan: TEKNIK ANALISIS BUTIR TES

PENDAHULUAN
Pada saat ini terdapat dua pengukuran yang berkembang dan banyak digunakan dalam merancang dan menganalisis alat ukur atau tes. Pertama adalah Teori Tes Klasik yang dikembangkan sejak tahun 1940 dan telah digunakan secara luas, sedang teori yang kedua adalah Teori Respons Butir, yang berkembang setelah teknologi komputer berkembang. Teori yang ke dua ini menggunakan lebih banyak asumsi dibandingkan dengan teori yang bertama, namun dapat menyajikan informasi lebih banyak.
A. TEORI KLASIK ANALISIS BUTIR SOAL
Pengertian “klasik” pada Teori Klasik ini menunjukkan pada ukuran “waktu”. Teori Klasik analisis butir merupakan teori analisis butir yang pertama kali dipergunakan. Meskipun terdapat beberapa kelemahan dalam teori ini, namun dalam praktik pendidikan, teori ini masih banyak dipergunakan, hal ini disebabkan teori klasik memiliki keunggulan pada kemudahan dalam pemahaman konsep dan penggunaannya.
Menurut Teori Tes Klasik, skor tampak (X) terdiri dari skor sebenarnya / true score (T) dan skor kesalahan / error (E), atau formulasi sederhananya adalah
X = T + E
Terdapat dua asumsi dasar yang digunakan pada teori Tes Klasik, yaitu tidak ada korelasi antara skor yang sebenarnya dengan skor kesalahan, dan rerata kesalahan acak pengukuran sama dengan 0 (nol). Berdasarkan asumsi tersebut kemudian dikembangkan sejumlah formula untuk menghitung besarnya indeks kehandalan suatu butir tes. (Mardapi, 1998: 27)
Menurut teori Klasik, ada tiga parameter butir yang diestimasi yaitu tingkat kesukaran, daya beda dan dugaan (guessing). Dengan ketiga parameter tersebut, maka menurut Teori Klasik analisis butir soal dapat dilakukan dengan menghitung tingkat kesukaran, daya beda. Untuk soal yang berbentuk pilihan ganda (multiple choice) dapat diteruskan dengan menghitung proporsi respon testee terhadap option (pilihan) yang disediakan atau dengan istilah lain dengan melakukan analisis terhadap berfungsi tidaknya distraktor / pengecoh.
1. Tingkat Kesukaran
Tingkat kesukaran suatu item (butir soal) dinyatakan dalam bentuk indeks kesukaran (diffculty index) yang disimbulkan dengan huruf P (Aswar, 1996: 134) (Suryabrata, 1997: 12-15) (Arikunto, 1995: 211-215) (Fernandes, 1984: 25-27) (Thoha, 1994: 145-146).
Indeks kesukaran merupakan rasio antara penjawab item dengan benar dan banyaknya penjawab item (testee yang menjawab). Secara teoritik dikatakan bahwa P sebenarnya merupakan probabilitas empirik untuk lulus item tertentu bagi sekelompok siswa tertentu. Indeks kesukaran item tersebut dapat diformulasikan sebagai berikut:

Keterangan:
P = indeks kesukaran item
JSB = jumlah testee yang menjawab item dengan benar
JS = jumlah testee yang menjawab item.
Sebagai contoh, dari 100 siswa yang dikenai suatu tes, ternyata item nomor 1 dapat dijawab benar oleh 65 orang di antara mereka, sedangkan selainnya 35 menjawab salah. Maka item nomor 1 tersebut indeks kesukarannya (p) adalah 65 dibagi 100 = 0,65.
Indeks kesukaran item soal berkisar antara 0,00 hingga 1,00. Semakin mendekati angka 1,00 menunjukkan item soal tersebut semakin mudah. Dengan demikian nilai indeks kesukaran item berlawanan arah dengan tingkat kesukaran, sehingga indeks tersebut lebih tepat dikatakan sebagai indeks kemudahan dari pada indeks kesukaran. Namun sudah menjadi kesepakatan (salah kaprah), meskipun nilai indeks berlawanan arah dengan tingkat kesukaran tetap dikenal dengan istilah indeks kesukaran.

0,00 1,00
sukar / sulit mudah
Untuk menentukan taraf kesukaran yang ideal tergantung pada beberapa faktor, antara lain: sifat hal yang diukur, interkorelasi antara item, tujuan khusus si perancang tes dan sesebagainya. Apabila tujuab pengukuran itu adalah untuk pengukuran penguasaan (mastery testing), maka indeks yang diinginkan adalah 1,00. Namun jika tujuan tes hendak menyeleksi secara ketat terhadap sejumlah testee, maka diperlukan indeks kesukaran yang rendah (mendekati nol).
Namun demikian, mengingat pada umumnya tes juga bertujuan untuk mengetahui tingkat perbedaan kemampuan (competence testing) testee, kebanyakan ahli berpendapat bahwa tes yang terbaik adalah tes yang terdiri atas item-item soal yang mempunyai taraf kesukaran sedang (cukup) dan rentang distribusi kesukarannya kecil, yakni item tes dengan indeks kesukaran antara 0,30 sampai 0,70 (Mehren, 1973: 329) (Fernandes, 1984: 29) (Sudijono, 1996: 372).
Item soal yang terlalu sulit dengan indeks kesukaran terlalu rendah (mendekati 0,00) dan item soal yang terlalu mudah dengan indeks kesukaran tinggi (mendekati 1,00) secara umum tidak banyak memberikan kontribusi keefektifan suatu tes. Hal ini disebabkan butir soal tersebut tidak memiliki kemampuan untuk membedakan testee yang berkemampuan tinggi dengan testee yang berkemampuan rendah. Item soal yang terlalu mudah akan mampu dijawab benar oleh siswa yang memiliki kemampuan tinggi dan rendah. Sebaliknya item soal yang terlalu sulit, kedua kelompok testee menjawab salah. Dengan demikian daya diskrimansi item tersebut rendah atau tidak baik.
Perlu diingat bahwa besarnya harga P yang dihitung merupakan indeks kesukaran item soal bagi seluruh kelompok testee, buka indeks kesukaran bagi masing-masing testee secara individual. Taraf kesukaran bagi masing-masing testee adalah berbeda-beda dan kita tidak tahu seberapa sulit atau seberapa mudah suatu item soal bagi siswa. Harga P yang dihitung dalam kelompok hanya merupakan rata-rata indeks kesukaran bagi seluruh siswa dalam kelompok itu. Apa yang kita ketahui adalah apabila testee mampu menjawab benar suatu item soal berarti taraf kesukaran item tersebut lebih rendah dari pada taraf kemampuannya dalam menjawab. Sebaliknya, apabila testee salah menjawab suatu item soal berarti bahwa tingkat kemampuannya lebih rendah dari pada taraf kesukaran item yang bersangkutan.
2. Daya Beda Item
Terdapat dua konsep “daya beda”, yang pertama adalah kemampuan suatu item soal dalam membedakan antara siswa yang memiliki kemampuan tinggi / baik / good student dengan siswa yang memiliki kemampuan rendah / poor student (Fernandes, 1984: 27). Sementara konsep yang kedua, daya beda item adalah tingkat kesesuaian antara item soal dengan keseluruhan soal dalam membedakan antara mereka yang tinggi kemampuannya dan mereka yang rendah kemampuannya dalam hal yang diukur oleh tes yang bersangkutan. (Suryabrata, 1997: 100).
Kedua konsep tersebut didasarkan atas asumsi bahwa dalam suatu kelompok testee terdapat Kelompok Tinggi dan Kelompok Rendah. Suatu item soal yang baik adalah item soal yang hanya mampu dijawab benar oleh testee yang memang memiliki kemampuan (Kelompok Tinggi). Kalau proporsi penjawab benar dari dua kelompok tersebut sama, berarti item soal tersebut tidak mampu membedakan antara mereka yang berkemampuan tinggi dan mereka yang kemampuan rendah. Apalagi bila suatu item soal ternyata justru dapat dijawab benar oleh sebagian besar subyek Kelompok Rendah, sedangkan sebagian besar subyek Kelompok Tinggi tidak banyak yang mampu menjawab dengan benar, maka hal itu menunjukkan bahwa item soal tersebut menyesatkan karena daya diskriminasinya terbalik (minus).
Untuk menghitung Daya Beda antara testee Kelompok Tinggi dengan testee Kelompok Rendah, pada konsep daya beda yang pertama menggunakan formula sebagai berikut:

Keterangan:
D = indeks diskriminasi item
BT = jumlah kelompok tinggi yang menjawab benar
JT = jumlah kelompok tinggi
BR = jumlah kelompok renah yang menjawab benar
JR = jumlah kelompok rendah.
Untuk penghitungan indeks daya beda terlebih dahulu testee dipisahkan ke dalam Kelompok Tinggi dan Kelompok Rendah. Pembagian kelompok ini didasarkan atas hasil jawaban benar oleh testee terhadap keseluruhan tes. Testee diurutkan dari yang jumlah jawaban benar tertinggi hingga jumlah jawaban benar terendah. Apabila jumlah seluruh testee kurang dari 100, pengelompokan dapat dilakukan dengan membagi seluruh testee menjadi dua (masing-masing kelompok 50 % = 50 testee). Sedangkan jika testee berjumlah lebih dari 100, untuk memilih Kelompok Atas dapat diambil 27 % testee teratas (rankingnya), dan untuk Kelompok Bawah diambil 27 % testee terbawah (ranking dari bawah), masing-masing kelompok tersebut mewakili Kelompok Atas dan Bawah.
Besarnya indeks diskriminasi item soal merentang antara -1,00 hingga 1,00. Klasifikasi tingkat diskriminasi soal serta interpretasinya, menurut Suharsimi Arikunto (1995: 223) dengan sedikit modofikasi dari penulis, adalah sebagai berikut:

Tabel.1 Indeks Daya Beda dan Interpretasinya

Indeks Daya Beda

Interpretasi
Negatif
Sangat jelek
0,00 - 0,20
Jelek (poor)
0,21 - 0.40
Cukup (satisfactory)
0,41 - 0,70
Baik (good)
0,71 - 1,00
Baik sekali (excellent)

Sementara itu, untuk menghitung daya beda butir soal pada konsep yang kedua, yakni kesesuaian item dengan keseluruhan tes dalam membedakan antara mereka yang tinggi kemampuannya dan mereka yang rendah kemampuannya, teknik yang dipergunakan adalah dengan menggunakan teknik Korelasi Biserial dan teknik Korelasi Point Biserial. Rumus Korelasi Biserial yang dipergunakan adalah sebagai berikut:
Keterangan:
Xb : rata-rata skor kriteria subyek yang menjawab benar
Xs : rata-rata skor kriteria subyek yang menjawab salah
St : simpangan baku skor kriteria semua subyek
P : proporsi subyek yang menjawab benar terhadap semua subyek
Y : Ordinat dalam kurve normal yang membagi menjadi P dan 1-P
Bagian esensial dalam rumus di atas adalah perbedaan antara kedua rata-rata dalam perbandingan dengan simpangan baku. Makin besar perbedaan kedua rata-rata (Xb – Xs) itu akan semakin tinggi korelasi biserial, dan berarti makin tinggi daya beda soal.
Teknik lain yang biasa digunakan untuk menghitung indeks diskriminasi adalah teknik Korelasi Point-Biserial (biserial titik), yang formulasinya sebagai berikut:

Keterangan:
Xb = rata-rata skor kriteria yang menjawab benar
Xs = rata-rata skor kriteria yang menjawab salah
St = simpangan baku skor kriteria total
p = proporsi jawaban benar terhadap semua jawaban
q = 1 – p

Mana di antara kedua teknik tersebut yang hendak dipergunakan, tergantung kepada pertimbangan yang mendasari pemilihan tersebut. Sementara ahli lebih menyukai r pbis karena koefisen ini memberikan informasi yang lebih dari pada yang diberikan r bis. Nilai r pbis terpengaruh oleh p yang harga maksimumnya akan diperoleh kalau p = 0,50. Ini berarti bahwa koefisien ini cenderung mengutamakan soal-soal yang mempunyai taraf kesukaran rata-rata. Dengan istilah lain korelasi Point-Biserial merupakan kombinasi antara hubungan soal dengan kriteria serta taraf kesukaran. Sementara kelompok ahli lain lebih menyukai menggunakan korelasi Biserial karena ingin memperlakukan korelasi antara soal dengan kriteria bebas dari taraf kesukaran.
Hubungan antara Tingkat Kesukaran dan Daya Beda
Tingkat Daya Beda yang “tinggi” pada umumnya berada pada Tingkat Kesukaran “sedang” ke atas. Sementara itu Tingkat Kesukaran yang “tinggi” tidak selalu menunjukkan Daya Beda yang tinggi. Dapat terjadi Tingkat Kesukaran menunjukkan “baik” atau “cukup” sementara Daya bedanya 0 (nol), jika proporsi jawaban benar Kelompok Atas (tinggi) sama dengan proporsi jawaban benar Kelompok Rendah (bawah). Bahkan dapat terjadi Tingkat Kesukaran “baik” , sementara Daya Bedanya “negatif” (minus), jika ternyata proporsi jawaban benar Kelompok Rendah lebih besar dari pada proporsi jawaban benar Kelompok Tinggi.
3. Berfungsi Tidaknya Distraktor / Pengecoh
Analisis butir ini, sebagaimana telah dikemukakan penulis di awal bagian ini, hanya berlaku untuk soal berbentuk pilihan ganda (multiplr choice). Dalam soal bentuk ini alternatif jawaban (option) yang disediakan (kadang 3, 4 atau 5 pilihan) satu di antaranya merupakan kunci jawaban sedangkan yang lainnya merupakan distraktor.
Konsep dasar dalam analisis ini adalah bahwa distraktor yang baik adalah distraktor yang mampu mengecoh testee untuk memilihnya, sehingga manakala tidak ada satu pun di antara testee yang memilihnya, maka dapat dikatakan distraktor atau pengecoh tersebut tidak berfungsi.
Berapa ukuran suatu distraktor telah berfungsi. Menurut Suharsimi Arikunto (1995: 226) secara umum suatu distraktor dikatakan telah berfungsi dengan baik manakala distraktor tersebut dipilih minimal 5 % dari seluruh testee. Sementara Fernandes (1984: 29) mensyaratkan lebih kecil lagi, yakni minimum 2 %.
Keterbatasan Teori Klasik Analisis Butir
Meskipun teori Klasik analisis butir soal telah banyak dipergunakan, namun ternyata memiliki kelemahan. Kelemahan utama adalah bahwa hasil analisis tergantung pada kelompok peserta tes (testee) dan kelompok soal yang diteskan (Hambleton, 1991: 2-3).
Suatu butir soal dapat memiliki indeks kesukaran tinggi (soal mudah) jika diujikan pada sekelompok testee yang memiliki kemampuan tinggi. Sebaliknya butir soal tersebut akan memiliki indeks kesukaran rendah (soal sulit) manakala diujikan pada sekelompok siswa / testee yang memiliki kemampuan rendah.
Begitu juga dengan skor yang diperoleh testee akan tergantung pada tingkat kesukaran suatu soal. Seorang siswa akan memiliki tingkat skor tinggi manakala kepadanya diberikan soal yang mudah (indeks kesukaran tinggi). Sebaliknya siswa yang sama akan memiliki skor rendah manakala kepadanya diberikan soal yang sulit (indeks kesukaran rendah).
B. TEORI RESPON BUTIR
Teori Respon Butir merupakan teori analisis butir soal yang berkembang setelah berkembangnya teknologi komputer. Hal ini disebabkan dalam Teori Respon Butir memerlukan perhitungan yang lebih rumit, sehingga akan menjadi kurang efisien dan praktis untuk dilakukan penghitungan secara manual.
Teori Respon Butir memiliki tiga model, yaitu model satu parameter, dua parameter dan tiga parameter (Hambleton & Swaminathan, 1991). Model satu parameter dikenal dengan Model Rasch. Dalam model ini terdapat dua asumsi, yaitu:
1. Semua butir memiliki daya pembeda yang sama
2. Peluang menjawab butir benar bagi mereka yang memiliki kemampuan rendah sama dengan 0 (nol).
Dengan kata lain semua kurve karakteristik butir-butir model ini adalah sejajar atau mendekati sejajar. Oleh karena itu parameter butir pada model Rasch adalah hanya tingkat kesulitan butir, sedangkan parameter daya pembeda dianggap sama, dan dugaan pseudo dianggap sama dengan nol.
Persamaan model satu parameter yang dikenal dengan model Rash dapat ditulis sebagai berikut:

Pi (q) adalah peluang menjawab benar butir I, D = 1,7 dan q adalah kemampuan, serta b adalah tingkat kesukaran butir. Model dua parameter menggunakan asumsi bahwa peluang menjawab benar bagi mereka yang memiliki kemampuan rendah adalah 0 (nol), sehingga hanya ada dua parameter yang ditaksir, yaitu tingkat kesukaran dan daya pembeda. Pada tiga parameter tidak menggunakan asumsi tentang parameter butir, sehingga tiga parameter butir, yaitu tingkat kesukaran, daya pembeda dan faktor dugaan, ketiganya ditaksir besarnya.
Dilihat dari kesederhanaannya, model satu parameter tampak paling sederhana, namun menggunakan asumsi yang lebih banyak. Sifat ini yang menjadi pertimbangan bagi Balitbang depdikbud untuk menggunakan model satu parameter, yang dikenal dengan Model Rasch, dalam mengembangkan jaringan pengujian di Indonesia.
Untuk model 2 parameter, parameter yang digunakan adalah taraf kesukaran butir bj dan daya pembedaan butir aj. Model logistik Teori respon Butir dengan 2 parameter adalah sebagai berikut:
Dalam model logistik untuk Teori Respon Butir dengan 3 parameter, dengan menambahkan parameter cj yakni parameter kebetulan menjawab dengan benar ke dalam model logistik 2 parameter, sehingga diperoleh model logistik 3 parameter sebagai berikut:
Dengan model tiga parameter, maka tingkat kemungkinan tebakan tergantung pada jumlah option yang disediakan. Jika option yang disediakan berjumlah 5 (lima), maka tingkat kemungkinan menebak benar ( c ) secara teori untuk masing-masing butir adalah 0,20, dalam prakteknya tidak mesti masing-masing option memiliki peluang yang sama. Dalam teori Respon Butir parameter peluang tebakan butir soal yang baik berkisar antara 0 sampai dengan +0,35. Harga parameter lebih dari 0,35 berarti soal tersebut harus diganti.
Sementara untuk analisis daya beda soal (a), Hambleton et al (1991) menjelaskan apabila suatu butir soal memiliki daya pembeda bernilai negatif, berarti butir soal tersebut harus diganti atau dibuang, sedangkan daya pembeda > +2 jarang terjadi. Sehingga daya beda yang berkisar antara 0 sampai dengan +2 menunjukkan bahwa butir soal tersebut dapat membedakan antara peserta yang tinggi kemampuannya dengan yang rendah kemampuannya.
Kriteria untuk tingkat kesukaran (b), butir-butir soal yang memiliki nilai lebi dari +2 atau b > +2 adalah butir-butit soal yang dianggap terlalu sukar. (Hambleton, te al, 1991). Butir yang terlalu sukar tidak dapat melakukan fungsi ukurnya dengan baik, karena peserta tes akan cenderung menjawab dengan menggunakan tebakan. Harga parameter tingkat kesukaran yang baik berkisar antara 0 sampai dengan +2. Butir soal yang memiliki harga parameter lebih kecil dari -2 adalah butir soal yang terlalu mudah harus diganti. Butir soal yang memiliki harga parameter antara –2 sampai dengan 0 adalah butir soal yang harus direvisi.
Dibandingkan dengan teori Tes Klasik, teori Respon Butir memiliki kelemahan yakni pada penghitungan yang kompleks serta membutuhkan ukuran cuplikan yang besar. Namun karena penghitungan Teori respon Butir menggunakan paket program komputer, maka kelemahan tersebut dapat diatasi.

DAFTAR PUSTAKA
Arikunto, Suharsimi (1995), Dasar-dasar Evaluasi Pendidikan, Jakarta: Bumi Aksara.
Cronbach,L.J (1971), Test Validation, Dalam R.L. Thorndike (Ed) Educatioanal Measurement. (2nd ed) Washington DC: American Council on Education.
Fernandes, H.J.X (1984), Testing and Measurement, Jakarta: Nasional Education Planing Evaluation and Curriculum Development.
Hambleton, Ronald K.H Swaminathan and H. Jane Rogers (1991), Fundamentals of Item Response Theory, New Bury Park, London, New Delhi: Sage Publications.
Linn R L (1989), Educational Measurement, New York: Mac Millan Publishing.
Mardapi, Djemari, (1998), “Analisis Butir dengan Teori Klasik dan teori Respon Butir” dalam Jurnal kependidikan, edisi khusus Dies, tahun XXVIII, Yogyakarta: IKIP Yogyakarta.
Mehren, W.A & Lehmann, I.J (1984), Measurement and Evaluation in Educational and Psychology, New York: Holt, Rinehart, Winston.
Naga, Dali,S (1992), Pengantar Teori Sekor, Jakarta: PT Gunadarma.
Suryabrata, Sumadi (1997), Pengembangan Tes Hasil Belajar, Jakarta: Rajawali.

[i] Penulis lahir di Karanganyar 22 Desember 1966, menyelesaikan S-1 Fakultas Tarbiyah IAIN Sunan Kalijaga Yogyakarta Juli 1989. S-2 Prodi Pnelitian dan Evaluasi Pendidikan Universitas Negeri Yogyakarta Maret 2001. Semenjak 1991 menjadi dosen tetap di STAIN Purwokerto. Pada saat ini (2007) Lektor Kepala mata kuliah Evaluasi Pendidikan di STAIN Purwokerto.

evaluasi pendidikan

Selasa, 10 November 2009

TEKNIK ANALISIS BUTIR TES

1 komentar:

Mengenai Saya

Pengikut

Arsip Blog