Rabu, 11 November 2009

PENGEMBANGAN INSTRUMEN EVALUASI DOMAIN AFEKTIF

A. PENDAHULUAN
Pembelajaran merupakan perubahan dalam diri seseorang yang merupakan hasil pengalaman. Perubahan pada seseorang tersebut dapat dilihat pada aspek behavioral dan kognitif. Para ahli psikologi behavioral seperti: J.B. Watson, E.L. Thorndike dan B.F. Skinner menegaskan bahwa pembelajaran merupakan perubahan perilaku, yang dengannya seseorang bertindak dalam satu situasi tertentu. Sebaliknya, para psikolog kognitif seperti Jean Piaget, Robert Claser, John Anderson, dan David Ausumbel mengatakan bahwa pembelajaran merupakan proses internal yang tidak dapat diobservasi secara langsung. Menurut pandangan kognitif pembelajaran merupakan perubahan dalam kemampuan seseorang untuk merespons satu situasi tertentu[2].
Terdapat bermacam-macam model disain pembelajaran, misalnya model yang dikembangkan oleh Winarno Surakhmad, Winkel, Hisyam Zaini dkk., Briggs dan Wager, Gerlach dan Ely, Kemp[3]. Dari model-model disain tersebut komponen dan polanya antara yang satu dengan lainnya terdapat perbedaan. Meskipun demikian dari berbagai disain pembelajaran tersebut terdapat komponen-komponen yang termasuk komponen pokok yaitu: tujuan, materi, strategi, media dan evaluasi. Tujuan[4] adalah sesuatu yang ingin dicapai, materi adalah bahan yang dipelajari siswa atau diajarkan guru kepada siswa, strategi adalah langkah-langkah yang ditempuh siswa dan / atau guru dalam mempelajari (guru = mengajarkan) materi pelajaran untuk mencapai tujuan, media adalah sarana untuk memudahkan pencapaian tujuan, dan evaluasi adalah proses untuk mengetahui pencapaian hasil dan efektivitas pembelajaran. Dengan demikian evaluasi merupakan salah satu komponen pokok yang selalu ada dalam pembelajaran. Dengan kata lain. sebuah pembelajaran tidak dapat dipisahkan dengan kegiatan evaluasi.
Secara umum evaluasi memiliki dua fungsi utama yaitu untuk mengetahui pencapaian hasil belajar siswa dan hasil mengajar guru[5]. Pengetahuan tentang hasil belajar siswa terkait dengan sejauh mana siswa telah mencapai tujuan pembelajaran atau kompetensi-kompetensi yang telah ditetapkan. Sedangkan hasil mengajar guru terkait dengan sejauh mana guru sebagai manajer belajar siswa[6] dalam hal merencanakan, mengelola, memimpin dan mengevaluasi.
Pencapaian hasil belajar dan mengajar terkait erat dengan pencapaian tujuan pembelajaran, dan pencapaian tujuan pembelajaran tidak terlepas dengan pencapaian tujuan pendidikan. Undang – undang RI nomor 20 tahun 2003 tentang Sistem Pendidikan Nasional mengamanatkan bahwa pendidikan nasional bertujuan untuk mengembangkan potensi peserta didik agar menjadi manusia yang beriman dan bertakwa kepada Tuhan Yang Maha Esa, berakhlak mulia, sehat, berilmu, cakap, kreatif, mandiri, dan menjadi warga negara yang demokratis serta bertanggung jawab[7]. Dengan mencermati tujuan tersebut maka pendidikan yang diselenggarakan di Indonesia, baik yang dikelola oleh pemerintah (berstatus negeri) maupun yang dikelola oleh masyarakat (berstatus swasta) mencakup tiga domain (ranah) yakni kognitif, afektif dan psikomotor. Domain kognitif ditunjukkan dengan kata berilmu, afektif ditunjukkan dengan kata beriman dan bertakwa, berakhlak mulia, mandiri, demokratis, bertanggungjawab, dan psikomotor ditunjukkan dengan kata sehat, cakap, dan kreatif. Dari segi klasifikasinya maka domain afektif memiliki cakupan yang lebih banyak (lima unsur) dibanding domain lainnya (cognitif dan psikomotor).
Dalam khasanah pendidikan Islam, M. Athiyah Al Abrosyi[8] mengatakan bahwa tujuan pendidikan Islam adalah membentuk manusia yang berpribadi manusia, serasi dan seimbang; tidak saja bidang keagamaan dan keilmuan melainkan juga bidang keterampilan. Namun demikian Al Abrosyi menekankan aspek pendidikan akhlak sebagai awal tujuan pendidikan Islam, hal ini disebabkan karena menurutnya akhlak merupakan kunci utama bagi keberhasilan manusia dalam menjalankan tugas kehidupan. Bahkan misi utama diutusnya Muhammad sebagai Rasul adalah untuk menyempurnakan akhlak ( Innama bu’isttu liutammima makaarima al-akhlaq ).
Dengan kutipan tujuan pendidikan di atas, maka tujuan pendidikan mencakup domain kognitif, afektif dan psikomotor. Ketiganya perlu dicapai secara komprehensif dan seimbang. Pencapaian tujuan domain kognitif akan menjadikan seseorang menjadi cerdas. Pencapaian tujuan domain afektif akan menjadikan seseorang menjadi berakhlak mulia, dan pencapaian tujuan psikomor akan menjadikan seseorang menjadi terampil.
Di sekolah-sekolah tingkat dasar (sekolah dasar dan madrasah ibtidaiyah) banyak dijumpai tiga kata yang ditulis secara besar yang merupakan cerminan ringkas dari ketiga domain / ranah tersebut yaitu: CERDAS, TAQWA dan TERAMPIL[9].
Dalam khazanah pendidikan, pembagian cakupan tujuan pendidikan menjadi tiga domain tersebut dipelopori dan dipopulerkan oleh Bloom dan kawan-kawan dengan mengistilahkan taxonomy tujuan pendidikan[10]. Oleh Bloom dan kawan-kawan taxonomy tersebut kemudian dijabarkan lagi ke dalam tingkatan-tingkatan / level pada masing-masing domain. Domain kognitif terdiri dari 6 level, ke enam level tersebut secara berturut (dari level terbawah); knowledge, comprehension, application, analysis, synthesis dan evaluation. Domain afektif terdiri dari 5 level yakni; receiving (attending), responding, valuing, organization, dan characterization by a value or value complex. Sementara domain psikomotor terdiri dari; persepsi, kesiapan, gerakan terbimbing, gerakan terbiasa, gerakan kompleks, penyesuaian pola gerakan, dan kreatifitas.
Dengan mengacu kepada klasifikasi tujuan pendidikan menjadi tiga domain tersebut (kognitif, afektif dan psikomotor) maka evaluasi pendidikan yang ideal (seharusnya) mencakup ketiga domain tersebut secara komprehensif. Realitas menunjukkan bahwa evaluasi belum dilaksanakan secara komprehensif karena masih didominasi pada evaluasi pada domain kognitif. Pengembangan secara parsial berakibat pada pencapaian tujuan yang parsial pula. Kesenjangan / gap antara evaluasi yang ideal dan realitas evaluasi dapat divisualisasikan sebagai berikut:
Realitas menunjukkan bahwa masih banyak yang mereduksi evaluasi sebagai kegiatan tes, hal ini dibuktikan dengan kegiatan evaluasi yang menonjol di lembaga dan satuan pendidikan adalah pelaksanaan tes yang dilaksanakan setelah penyelesaikan pokok bahasan tertentu (kompetensi dasar tertentu) sebagai tes formatif dan tes akhir semester yang dikenal dengan tes sumatif[11] serta tes yang diselenggarakan di akhir jenjang pendidikan tertentu dalam bentuk ujian akhir sekolah dan ujian nasional. Dari tes formatif, sumatif, hingga ujian akhir sekolah dan ujian nasional sebagian besar dalam bentuk tes, dan tes tersebut sebagian besar dalam bentuk tes tertulis. Padahal tes tertulis hanyalah salah satu bentuk tes (di samping tes lisan dan tindakan), dan tes hanyalah salah satu dari teknik evaluasi (di samping teknik non tes / alternative test).
Menggunakan teknis tes tertulis untuk mengukur pencapaian hasil belajar peserta didik yang mencakup berbagai domain / ranah ( kognitif, afektif dan psikomotor) sudah barang tentu tidak dapat memberikan informasi yang valid dan reliabel serta tidak selaras dengan prinsip kontinuitas, objektivitas, keseimbangan dan komprehensifitas sebuah evaluasi[12]. Tes tepat dipakai untuk mengukur pencapaian domain kognitif, tetapi tidak tepat untuk mengukur pencapaian ranah afektif. Padahal cakupan tujuan pendidikan, baik skala nasional, jenjang pendidikan, satuan pendidikan, bahkan hingga tujuan mata pelajaran (standar kompetensi mata pelajaran) meliputi domain kognitif, afektif dan psikomotor. Sehingga ironis memang sebuah proses pembelajaran yang panjang (3 sampai dengan 6 tahun), terkadang ditentukan oleh hasil tes tertulis yang dilaksanakan beberapa jam pada mata pelajaran tertentu[13]. Kesenjangan teknik evaluasi yang ideal dengan realitas teknik evaluasi tersebut dapat divisualisasikan sebagai berikut:
Pengembangan teknik evaluasi dengan tes telah banyak dilakukan oleh para ahli, hal ini dibuktikan dengan khazanah kepustakan evaluasi pendidikan didominasi dengan buku-buku yang mengupas pengembangan intrumen tes, seperti: Sumadi Suryabrata, Saifudin Azwar, Fernandes[14]. Bahkan buku-buku yang berjudul “evaluasi” ternyata sebagian besar membahas tentang pengembangan tes, dan hanya sebagian kecil saja membahas pengembangan non tes, seperti: Issac dan Michael dalam bukunya Handbook in Research and Evaluation[15], Mehren dan Lehmann dalam bukunya Measurement and Evaluation in Education and Psychology[16], Hopkin dan Antes dalam bukunya Classroom Measurement and Evaluation[17], Anas Sudijono, Nana Sudjana dan Ibrahim, Suharsimi Arikunto[18] dan masih banyak lagi (yang dapat dilihat dalam daftar pustaka). Sebagian besar buku-buku tersebut membahas tentang pengembangan tes, mulai dari perancangan, penyusunan, hingga analisis intrumen tes tersebut, meskipun judul dari buku-buku tersebut adalah evaluasi.
B. KONSEP DASAR EVALUASI
Istilah evaluasi berasal dari bahasa Inggris evaluation, yang berarti penilaian atau penaksiran. Penggunaan istilah evaluasi dalam dunia pendidikan sebenarnya dapat dikatakan masih relatif baru. Rice, tokoh yang dianggap sebagai pemula kegiatan evaluasi di Amerika Serikat pada awal abad ini, belum menggunakan istilah evaluasi, meskipun pekerjaannya dapat dikategorikan sebagai pekerjaan evaluasi. Tyler baru mempergunakan istilah evaluasi dalam buku kecilnya yang terkenal berjudul : Basic Principles of Curriculum and Instruction yang ditulis pada tahun 1949.
Tyler sebagaimana dikutip oleh Guba (1982) mendefinisikan evaluasi sebagai proses pembanding data empiris kinerja pembelajar dengan tujuan yang ditetapkan secara jelas/proses untuk menentukan sejauhmana tujuan telah direalisasikan. Sementara itu Morrison sebagaimana dikutip oleh Oemar Hamalik merumuskan pengertian evaluasi sebagai perbuatan pertimbangan berdasarkan seperangkat kriteria yang disepakati dan dapat dipertanggungjawabkan. Dari rumusan Morrison tersebut, terdapat tiga faktor utama dalam evaluasi, yaitu (1) pertimbangan (judgment), (2) deskripsi obyek penilaian dan (3) kritria yang dapat dipertanggungjawabkan[19].
Pertimbangan adalah pangkal dalam membuat keputusan. Membuat keputusan berarti menentukan derajad tertentu yang berkenaan dengan hasil evaluasi itu. Untuk membuat suatu keputusan tepat diperlukan informasi yang akurat dan relevan serta dapat dipercaya.
Deskripsi objek penilaian adalah penggambaran objek penilaian dengan seksama berdasarkan fakta dan data yang diperoleh dari penelitian. Untuk memperoleh deskripsi yang tepat diperlukan metode pengumpulan data yang tepat (valid). Sedangkan kriteria yang dapat dipertanggungjawabkan ialah ukuran-ukuran yang dibuat dan digunakan dalam menilai suatu objek.
Blaine R. Worhen dan James R. Sanders mendefinisikan evaluasi sebagai berikut; evaluation is the process of delineating obtaining, and providing useful information for judging decision alternatives[20]. Dari pengertian tersebut, dapat diketahui bahwa pada dasarnya tujuan akhir evaluasi adalah untuk memberikan bahan-bahan pertimbangan untuk menentukan/membuat kebijakan tertentu, yang diawali dengan suatu proses pengumpulan data yang sistematis. Pembuatan suatu keputusan berkaitan dengan berbagai bidang, seperti bidang pendidikan, psikologi, penelitian, program, kebijakan, dan sebagainya. Luasnya ruang lingkup pembuatan keputusan tersebut membawa perkembangan pada bidang-bidang kajian evaluasi. Dalam berbagai literature yang penulis peroleh, hingga saat ini bidang kajian evaluasi antara lain meliputi:
a) Evaluasi di bidang pendidikan, antara lain dapat dilihat dalam tulisan yang berjudul: Education Evaluation: theory and practice dan buku Education Evaluation : alternative approaches and practical guidelines karya Worthen & Sanders[21], Handbook of curriculum evaluation karya Lewy[22]. Tujuan utama evaluasi dalam bidang kependidikan adalah untuk menyediakan informasi yang berhubungan dengan masalah-masalah kependidikan, antara lain: tujuan pendidikan, metode pendidikan, lingkungan pendidikan dan sebagainya. Dalam literature juga ditemukan kajian evaluasi dan kurikulum, seperti buku yang berjudul Curriculum and Evaluation, karya Arno A. Bellack dan Herbert M Kliebard[23].
b) Evaluasi dibidang psikologi, antara laian dala tulisan yang brjudul measurement and evaluation in educational and psychology karya Mehrens dan Lehmann[24].
c) Evaluasi dibidang penelitian, antara lain dapat dilihat dala tulisan yang berjudul : Handbook in research and evaluation karya Isaac & Michael[25].
d) Evaluasi dibidang program, antara lain dapat dilihat dalam tulisan yang berjudul : Evaluation of educational programs karya Fernandes[26].
e) Evaluasi di bidang kebijakan, antara lain dapat dilihat dalam tulisan yang berjudul : The practice of policy evaluation karya Nachmias[27].
Dari beberapa referensi di atas, penulis berpendapat bahwa evaluasi tidak identik dengan tes hasil belajar, melainkan memiliki cakupan yang sangat luas. Prinsip dasar evaluasi adalah suatu proses penilaian terhadap sesuatu yang diawali dengan kegiatan pengumpulan data yang sistematis. Tujuan akhir evaluasi adalah penyediaan informasi bagi pembuatan suatu keputusan tertentu. Keputusan tertentu tersebut dapat berkaitan dengan sesorang atau sekelompok orang, program, kebijakan dan sebagainya.
Visualisasi evaluasi sebagai sebuah proses yang diawali penentuan tujuan dan diakhiri dengan pembuatan keputusan tertentu, dapat dilihat pada bagan / gambar berikut:
C. TUJUAN DAN FUNGSI EVALUASI
Evaluasi atau penilaian memiliki beberapa tujuan, Nana Sudjana[28] mengemukakan ada empat tujuan evaluasi, yaitu:
a. mendeskripsikan kecakapan belajar siswa
b. mengetahui keberhasilan proses pendidikan dan pengajaran
c. menentukan tindak lanjut hasil penilaian
d. memberikan pertanggungjawaban (accountability) dari pihak sekolah kepada pihak-pihak yang berkepentingan.
Suharsimi Arikunto menyamakan tujuan dan fungsi evaluasi, menurutnya tujuan atau fungsi tersebut adalah:
a. fungsi selektif
b. fungsi diagnostik, untuk mengetahui kelemahan atau kegagalan dan menemukan sebab-sebabnya.
c. fungsi penempatan, untuk dapat menentukan dengan pasti di kelompok mana seorang siswa harus ditempatkan.
d. fungsi pengukur keberhasilan, untuk mengetahui sejauh mana suatu program berhasil diterapkan[29].
Sedangkan Anas Sudijono[30] membedakan antara fungsi, tujuan dan kegunaan evaluasi. Fungsi evaluasi diklasifikasi menjadi dua, yakni fungsi secara umum dan secara khusus. Secara umum evaluasi berfungsi untuk: (1) mengukur kemajuan, (2) menunjang penyusunan rencana, dan (3) memperbaiki atau melakukan penyempurnaan. Sedangkan secara khusus evaluasi pendidikan memiliki fungsi yang dapat ditilik dari tiga segi, yaitu: (1) segi psikologis, (2) segi didaktik, dan (3) segi administratif. Adapun tujuan evaluasi, secara umum untuk (1) menghimpun data sebagai bukti taraf perkembangan peserta didik, (2) mengetahui tingkat efektivitas dari metode pengajaran yang dipergunakan. Secara khusus evaluasi bertujuan untuk: (1) merangsang kegiatan peserta didik dalam menempuh program pendidikan, (2) mencari dan menemukan faktor-faktor penyebab keberhasilan dan ketidakberhasilan peserta didik.
Dengan mencermati berbagai pendapat tersebut, dapat disimpulkan bahwa dalam pendidikan dan pembelajaran evaluasi memiliki beberapa fungsi yaitu: (1) seleksi, (2) penempatan, (3) diagnosis dan remidial, (4) motivatif / dorongan belajar, (5) pengembangan dan perbaikan strategi pembelajaran, (6) pengembangan dan perbaikan kurikulum dan (7) pengembangan ilmu.

D. KLASIFIKASI EVALUASI
Untuk membuat sebuah “keputusan” yang merupakan tujuan muara dari proses evaluasi diperlukan data yang akurat. Untuk memperoleh data yang akurat diperlukan teknik dan instrumen yang valid dan reliabel.
Secara garis besar evaluasi dapat dilakukan dengan menggunakan teknik tes dan teknik non tes (sebagian khazanah menggunakan istilah alternative test). Dari kedua teknik tersebut, realitas di lapangan teknik tes lebih masyhur (populer) dibandingkan teknik non tes. Realitas ini tampaknya tidak terlepas atau terkait dengan “tradisi” yang sudah turun-temurun, di mana evaluasi direduksi pada kegiatan ujian-ujian atau ulangan-ulangan yang dalam prakteknya menggunakan teknik tes. Mulai dari ulangan (ujian) harian yang dikenal dengan formatif, ulangan (ujian) akhir semester yang dikenal dengan sumatif, ulangan (ujian) akhir sekolah hingga ujian nasional, sebagian besar mengambil bentuk tes dan hanya sebagian kecil menggunakan non tes. Realitas inilah yang diduga peneliti sebagai salah satu penyebab munculnya anggapan yang salah bahwa evaluasi identik dengan tes.
Dari segi respon yang dikehendaki atau dituntut kepada peserta tes, teknik tes dapat diklasifikasi menjadi teknik tes tertulis, tes lisan dan tes perbuatan. Dari ketiga klasifikasi tersebut realitas di lapangan teknik tes tertulis lebih banyak dipergunakan dibandingkan kedua teknik tes yang lain. Hal ini disebabkan teknis tes tertulis memungkinkan untuk dapat diselenggarakan secara massal, di mana dalam waktu yang sama dapat dilaksanakan tes secara serempak dengan materi tes yang sama kepada sejumlah peserta tes (hingga jutaan peserta sebagaimana ujian nasional). Sementara teknik tes lisan dan perbuatan memerlukan biaya, waktu, tenaga yang lebih besar, dan dalam prakteknya sulit untuk membuat materi tes yang sama.
Apakah dengan demikian berarti tes tertulis lebih unggul dibandingkan dengan tes lisan dan perbuatan ?. Tentu saja tidak, karena klasifikasi tes tidak berhubungan baik atau tidaknya teknis dan unggul atau tidaknya. Hal ini disebabkan teknik dan jenis tes, masing-masing memiliki keunggulan dan keterbatasan. Pertimbangan yang diperlukan dalam memilih dan mengembangkan teknik dan jenis tes sudah barang tentu didasarkan pada ”ketepatan” teknik dan jenis tersebut tersebut terkait dengan kompetensi, tujuan dan hasil belajar yang diinginkan. Jika kompetensi yang diinginkan agar peserta didik mampu mengucapkan secara tepat kosa kata atau kalimat tertentu, maka tes lisan lebih tepat dipergunakan. Tetapi seandainya hasil belajar yang diharapkan peserta didik dapat memeragakan tata cara berwudlu misalnya, maka tes perbuatan lebih tepat dipergunakan.
Hisyam Zaini , dkk[31] mengelompokkan tes menjadi:
a. Menurut bentuknya, secara umum terdapat dua bentuk tes, yaitu tes objektif dan tes subjektif. Tes Objektif adalah bentuk tes yang diskor secara objektif. Disebut objektif karena kebenaran jawaban tes tidak berdasarkan pada penilaian (judgement) dari korektor tes. Tes bentuk ini menyediakan beberapa option untuk dipilih peserta tes, yang setiap butir hanya memiliki satu jawaban benar. Tes subjektif adalah tes yang diskor dengan memasukkan penilaian (judgement) dari korektor tes. Jenis tes ini antara lain: tes esai, lisan.
b. Menurut ragamnya, tes esai dapat diklasifikasi menjadi tes esai terbatas (restricted essay) dan tes esai bebas (extended essay). Butir tes objektif menurut ragamnya dapat dibagi menjadi tiga, yaitu: tes ben ar salah (true-false), tes menjodohkan (matching) dan tes pilihan ganda (multiple choice).
Teknik non tes dalam evaluasi banyak macamnya, beberapa diantaranya adalah: angket (questionair), wawancara (interview), pengamatan (observation), skala bertingkat (rating scale), sosiometri, paper, portofolio, kehadiran (presence), penyajian (presentation), partisipasi (participation), riwayat hidup, dsb. Klasifikasi tersebut dapat divisualisasaikan sebagai berikut:
E. PENGUKURAN DOMAIN / RANAH AFEKTIF
Mengacu klasifikasi domain tujuan pendidikan menjadi domain kognitif, afektif dan psikomotor, maka untuk mencapai tujuan ketiga domain tersebut diperlukan instrumen yang valid untuk mengukur pencapaian ketiga domain tersebut. Jika dibuat bagan klasifikasi tersebut sebagai berikut:
Pengukuran domain afektif tidak semudah mengukur domain kognitif. Pengukuran domain afektif tidak dapat dilakukan setiap saat (dalam arti pengukuran formal) karena perubahan tingkah laku peserta didik dapat berubah sewaktu-waktu. Pembentukan sikap seseorang memerlukan waktu yang relatif lama.
Di bagian awal proposal ini telah penulis kemukakan bahwa dalam skala nasional (dengan mengacu kepada tujuan pendidikan nasional) domain atau ranah afektif memiliki cakupan lebih banyak dibandingkan dengan domain atau ranah kognitif dan psikomotor. Penjabaran tujuan pendidikan nasional ke dalam tujuan jenjang dan satuan pendidikan, kelompok mata pelajaran hingga tujuan mata pelajaran, tidak terlepas dengan tujuan pendidikan nasional, hanya proporsi dari masing-masing domain tersebut tidak sama untuk masing-masing mata pelajaran[32]. Sudah barang tentu kelompok mata pelajaran pendidikan agama dan akhlak mulia memiliki porsi lebih banyak domain afektifnya dibanding kelompok mata pelajaran yang lainnya.
Domain atau ranah afektif dijabarkan menjadi 5 level, yaitu: penerimaan, partisipasi, penentuan sikap, organisasi, dan pembentukan pola hidup. Untuk memudahkan dalam memilah kata kerja yang cocok untuk masing-masing level tersebut dapat dilihat pada table berikut[33]:
Tabel.1
Level Domain Afektif dan Klasifikasi Kata Kerja yang sesuai

Level
Kemampuan Umum
Kata Kerja Operasional
Penerimaan
Mendengarkan dengan perhatian, menunjukkan kesadaran tentang pentingnya belajar, menunjukkan sensitifitas pada problem social, menerima perbedaan ras dan kultur, mengikuti aktivitas belajar
Bertanya, memilih, menggambarkan, mengikuti, memberikan, menempatkan, menjawab, menunjukkan, duduk dengan tegak, menggunakan, memilah, memberi nama, mengidentifikasi, memegangg.
Partisipasi
Mematuhi peraturan sekolah, menyelesaikan tugas rumah, berpartisipasi pada diskusi, melakukan secara suka rela, menunjukkan minat, menolong orang lain dengan senang
Menjawab, menolong, mendiskusikan, memberi salam, membantu, menyelenggarakan, melakukan pelatihan, membaca, menceritakan, memilih, menampilkan.
Penentuan sikap
Mendemonstrasikan, keyakinan dalam proses demokrasi, menghargai literature yang baik, menghargai peran sains dalam kehidupan, menunjukkan perhatian terhadap kesejahteraan orang lain, mendemonstrasikan sikap problem solving, mendemonstrasikan komitmen terhadap perbaikan social.
Menyempurnakan, menggambarkan, menjelaskan, mengikuti, mengambil inisiatif, membentuk, mengundang, bergabung, menyampaikan usul, membedakan, melaporkan, berbagi rasa, belajar, bekerja.
Organisasi
Mengakui perlunya keseimbangan antara kebebasan dan tanggung jawab, mengakui peran perencana yang sistematis dalam problrm solving, bertanggung jawab terhadap tindakan, memformulasikan perencanaan hidup sesuai dengan kemampuan, minat dan keyakinan
Menganut, mengatur, mengubah (berubah), mengkombinasikan, membandingkan, menyempurnakan, mempertahankan, menjelaskan, mengidentifikasi, menghubungkan, menyiapkan, mensintesiskan, mengorganisasikan, mengintegrasikan.
Pembentukan pola hidup
Menunjukkan kesadaran diri, mendemonstrasikan kerja mandiri, menggunakan pendekatan objektif dalam problem solving, memelihara kebiasaan hidup sehat, menerapkan pola kerjasama dalam kegiatan kelompok
Bertindak, membedakan, menunjukkan, mempengaruhi, memodifikasi, melakukan, berlatih, menanyakan, merevisi, melayani, menyelesaikan (problem), menggunakan, memeriksa, mengusulkan

Menurut Suharsimi[34], terdapat beberapa skala sikap yang dapat dipergunakan untuk mengukur domain afektif, di antaranya:
b. Skala Likert; skala ini disusun dalam bentuk suatu pernyataan dan diikuti oleh lima respon yang menunjukkan tingkatan. Misalnya: SS (sangat setuju), S (setuju), TB (tidak berpendapat / abstain), TS (tidak setuju), STS (sangat tidak setuju).
c. Skala Pilihan Ganda, skala ini dikembangkan oleh Inkels, seorang ahli penilaian di Stanford University. Skala ini bentuknya seperti soal bentuk pilihan ganda yaitu terdiri dari sejumlah pertanyaan yang diikuti oleh sejumlah alternative / option jawaban.
d. Skala Thurstone; skala ini mirip dengan skala Likert karena merupakan suatu instrument yang pilihan jawabannya menunjukkan tingkatan. Perbedaan skala Thurstone dengan skala Likert, pada skala Thurstone rentang skala yang disediakan lebih dari lima pilihan dan disarankan sekitar sepuluh pilihan jawaban (misalnya dengan rentang angka 1 s/d 11 atau a s/d k). Jawaban di tengah adalah netral, semakin ke kiri semakin tidak setuju, sebaliknya semakin ke kanan semakin setuju.
1
2
3
4
5
6
7
8
9
10
11
Tidak setuju setuju
e. Skala Guttman, skala ini sama dengan yang disusun oleh Bogardus, yaitu berupa tiga atau empat buah pertanyaan yang masing-masing harus dijawab “ya” atau “tidak”. Pernyataan-pernyataan tersebut menunjukkan tingkatan yang berurutan sehingga bila responden setuju pernyataan nomor 2, diasumsikan setuju nomor 1, selanjutnya jika responden setuju dengan pernyataan nomor 3, berarti setuju penyataan nomor 1 dan 2.
Contoh:
1). Saya mengizinkan anak saya bermain ke tetangga
2). Saya mengizinkan anak saya pergi ke mana saja ia mau
3). Saya mengizinkan anak saya pergi kapan saja dan ke mana saja
4). Anak saya bebas pergi ke mana saja tanpa minta izin terlebih dahulu.
f. Semantic Differensial, instrument ini disusun oleh Osgood dan kawan-kawan dipergunakan untuk mengukur konsep-konsep untuk tiga dimensi. Dimensi-dimensi yang ada diukur dalam kategori: baik-tidak baik, kuat-lemah, dan cepat-lambat atau aktif-pasif, atau dapat juga berguna-tidak berguna.
Contoh:
Main Musik
Baik 1 2 3 4 5 6 7 Tidak Baik
Berguna 1 2 3 4 5 6 7 Tidak berguna
Aktif 1 2 3 4 5 6 7 Pasif

Dengan mengacu pada pembagian skala data menjadi empat, yaitu skala data nominal, ordinal, interval dan rasio[35], Augusty Ferdinand[36] mengemukan teknik pengukuran untuk masing-masing skala data tersebut:
1. Pengukuran Data Nominal
Untuk mengukur data nominal dapat menggunakan pertanyaan dengan sejumlah pilihan tertentu atau pertanyaan dengan di akhiri titik-titik kosong responden diminta untuk menulis jawaban yang sesuai dengan keadaannya. Pemberian angka pada kategori jawaban respon semata-mata sebagai identitas atau tanda tertentu.
2. Pengukuran Data Ordinal
1) Forced Ranking. Dalam teknik ini seseorang (responden) diminta untuk memberikan ranking pada sejumlah pilihan tertentu yang disediakan.
Contoh:
Mohon saudara memberikan ranking preferensi terhadap 5 perguruan tinggi agama Islam berikut. Berikan angka 1 untuk yang paling diminati, 2 untuk yang paling diminati berikutnya hingga angka 5 untuk yang paling tidak diminati:
Universitas Islam Negeri Sunan Kalijaga Yogyakarta ...............
Universitas Islam Negeri Syarif Hidayatullah Jakarta................
Universitas Islam Negeri Malang ..............................................
Institut Agama Islam Negeri Walisongo Semarang ..................
Institut Agama Islam Sunan Ampel Surabaya ..........................

2) Semantic Scale. Teknik ini dipergunakan untuk menghasilkan respon terhadap sebuah stimuli yang disajikan dalam kategori semantik yang menyatakan sebuah tingkatan sifat atau keterangan tertentu.
Contoh:
Apakah saudara suka minuman kopi ?
............... ................ ............... ................ ..................
sangat tidak netral suka sangat
tidak suka suka suka
(=1) (=2) (=3) (=4) (=5)

3) Summated (Likert) Scale. Skala Likert adalah sebuah ekstensi dari skala semantik Perbedaan utamanya adalah: pertama, skala ini menggunakan lebih dari 1 item pertanyaan, di mana beberapa pertanyaan digunakan untuk menjelaskan sebuah konstruk, lalu jawabannya dijumlahkan, oleh karenanya disebut summated scala. Kedua, skala ini dikalibrasi dengan cara jawaban yang netral diberi kode ”0”.
Contoh:
1. Apakah saudara suka minum kopi ?
............... ................ ......X......... ................ ..................
sangat tidak netral suka sangat
tidak suka suka suka
(-2) (-1) (0) (1) (2)



2. Apakah kopi termasuk minuman yang menyehatkan ?
............... ................ ............... .......X......... ................
sangat tidak netral sehat sangat
tidak sehat sehat sehat
(-2) (-1) (0) (1) (2)

3. Apakah saudara pikir, orang-orang sebaya saudara suka minuman kopi ?
............... ................ ............... ................ .........X.......
sangat tidak netral suka sangat
tidak suka suka suka
(-2) (-1) (0) (1) (2)


Jawaban dari skala di atas bila dijumlahkan = 0 + 1 + 2 = +3, yang mengindikasikan sikap yang positif terhadap kopi.
3. Pengukuran Data Interval
1) Bipolar Adjective. Skala ini merupakan penyempurnaan dari semantic scale dengan harapan agar respons yang dihasilkan dapat merupakan intervally scaled data. Caranya adalah dengan memberikan hanya dua kategori ekstrim.
Contoh:

Apakah audara suka minuman kopi ?
Sangat tidak suka 1 2 3 4 5 6 7 8 9 10 sangat suka
Jelaskan bagaimana kesukaan saudara pada kopi: .........................................


2) Agree-Disagree Scale. Skala ini merupakan salah satu bentuk lain dari Bipolar adjective, dengan mengembangkan pertanyaan yang menghasilkan jawaban setuju – tidak setuju dalam berbagai rentang nilai.
Contoh:

Kopi adalah minuman alamiah yang menyehatkan tubuh.
Sangat tidak setuju 1 2 3 4 5 6 7 8 9 10 sangat setuju
Jelaskan bagaimana ia menyehatkan tubuh dan rasa apa yang saudara rasakan waktu minum kopi .................................................. .........................................

3) Continous Scale. Skala ini merupakan salah satu teknik pengukur data untuk menghasilkan data interval di mana responden diminta untuk memberikan jawaban pada garis yang ditentukan dan setelah itu peneliti pengukur posisi yang dipilih oleh responden untuk menghasil skore tertentu.

Kopi adalah minuman alamiah yang menyehatkan tubuh.
Sangat tidak setuju _________________________________ sangat setuju
Jelaskan bagaimana ia menyehatkan tubuh dan rasa apa yang saudara rasakan waktu minum kopi .................................................. .........................................

4) Equal With Interval. Teknik ini dipergunakan dengan menanyakan responden termasuk ke dalam kategori mana pandangan mereka dapat diletakkan. Bila rentang yang digunakan tidak equal, maka data yang dihasilkan cenderung merupakan data ordinal.
Contoh:
Berapa jumlah buku agama yang saudara miliki di rumah ?
................ .................. ................... .................. ...................
1 – 2 3 – 4 5 – 6 7 – 9 10 ke atas

4. Pengukuran Data Rasio
1) Direct Quantification (Kuantifikasi Langsung). Teknik ini dilakukan dengan menanyakan secara langsung nilai dari sebuah konstruk.
Contoh:
Berapa uang saku yang diberikan kepada saudara setiap hari ? Rp. .................
Berapa uang saku saudara ditabung dalam satu minggu ?. Rp. .........................

2) Constant Sum Scale (Skala Berjumlah Konstan). Skala ini dapat dipergunakan untuk mengetahui preferensi konsumen atas beberapa jenis sesuai dengan konstruk tertentu.
Contoh:
Alokasikan angka 100 ke dalam empat jenis bacaan berikut sesuai dengan tingkat kesenangan saudara !
1. buku cerita = ....................
2. buku ilmiah = ....................
3. buku agama = ....................
4. koran = ....................
Total = 100
3) Reference Alternative (Alternatif Rujukan), yaitu dengan menentukan sebuah acuan rujukan dan penilaian diberikan dengan membandingkan pada acuan yang dirujuk tersebut. Teknik ini disebut juga dengan magnitude scaling.
Bila buku agama dinilai 100, berapa nilai yang saudara berikan pada alternatif berikut:
1. buku cerita = ....................
2. buku ilmiah = ....................
3. majalah = ....................
4. koran = ....................

F. PENUTUP.
Dari uraian ringkas di atas penulis dapat menyimpulkan bahwa untuk melakukan evaluasi secara komprehensif diperlukan intrumen yang tepat sesuai sesuai dengan domain / ranah yang hendak dievaluasi. Pengembangan instrument evaluasi dengan menggunakan tes telah banyak dilakukan oleh para ahli. Instrumen ini hanya cocok untuk mengukur domain kognitif dan sebagian psikomotor.
Untuk mengukur domain afektif dan sebagian psikomotor diperlukan pengembangan instrument evaluasi non tes (alternative test). Pengembangan instrument ini relative lebih sulit dibandingkan dengan pengembangan instrumen evaluasi tes. Untuk itu diperlukan kajian yang seksama dalam menurunkan serta menjabarkan domain afektif ke dalam aspek-aspek yang spesifik untuk dapat mengembangkan instrumen yang valid dan reliabel.
[1] Penulis lahir di Karanganyar, 22 Desember 1966. Menyelesaikan S-1 di IAIN Sunan Kalijaga Fakultas Tarbiyah Juli 1989, S-2 Universitas Negeri Yogyakarta April 2001. Semenjak Oktober 2003 menduduki jabatan Lektor Kepala di STAIN Purwokerto. Sekarang sedang mengikuti Program Doktor By Research di UIN Yogyakarta.
[2] Woofolk, Anita E. dan Lorraine McCune-Nicolich (2004), Mengembangkan Kepribadian & Kecerdasan Anak-anak (Psikologi Pembelajaran I), Penerjemah: M.Khairul Anam, Depok: Inisiasi Press, hlm. 206-207.
[3] Surakhmad, Winarno (1986), Pengantar Interaksi Mengajar Belajar: Dasar dan teknik metodologi pengajaran, edisi IV, Bandung: Tarsito. Dapat dilihat pula di Zaini, Hisyam, dkk (2002), Desain Pembelajaran di Perguruan Tinggi, Yogyakarta: CTSD IAIN Sunan Kalijaga. Lihat juga Soenarwan (1991) Pendekatan system dalam Pendidikan, Surakarta: UNS Press.
[4] Terdapat beberapa istilah tentang sesuatu yang ingin dicapai dalam pembelajaran. Semenjak Kurikulum 1975 dikenal istilah tujuan yang dalam implementasi operasionalnya dikenal Tujuan Instruksional Umum (TIU) dan Tujuan Instruksional Khusus (TIK). Kemudian Tujuan Pembelajaran Umum (TPU), Tujuan Pembelajaran Khusus (TPK). Dalam Kurikulum Berbasis Kompetensi dikenal istilah Kompetensi Dasar (KD), Standar Kompetensi (SK), hasil belajar, dan indikator pencapaian. Apapun istilah yang dipakai pada prinsipnya adalah rumusan tentang sesuatu yang ingin dicapai dalam proses tersebut.
[5] Winkel (1989), Psikologi Pengajaran, Jakarta: Gramedia. Dapat dilihat juga di Sudijono, Anas (1996), Pengantar Evaluasi Pendidikan, Jakarta: Raja Grafindo Persada lihat juga Arikonto, Suharsimi (2002), Dasar-dasar Evaluasi Pendidikan (edisi revisi), Jakarta: Bumi Aksara.
[6] Guru sebagai manajer memiliki empat fungsi yaitu: merencanakan, mengorganisasikan, memimpin dan mengawasi. Lihat Davis. Ivor K.(1987), Pengelolaan Belajar, penerjemah; Sudarsono Sudirdjo, Lily Rompas, Koyo Kartasurya, Jakarta: CV Rajawali bekerja sama demngan Pusat Antar Universitas di Universitas Terbuka, hlm. 29-39. Sementara ahli mengemukan bahwa guru memiliki beberapa peran, yaitu sebagai ahli instruksional, motivator, manager, pemimpin, konselor, “Insinyur lingkungan”, model (teladan), Lihat Woolfolk, Ibid, hlm. 3-9.
[7] UU RI no. 20 tahun 2003 Bab II pasal 3. Lihat Undang-undang dan Peraturan Pemerintah RI tentang Pendidikan (2006), Jakarta: Direktorat Jendral Pendidikan Islam Departemen Agama RI
[8] Al Albrasyi, M. Athiyah (1987), Dasar-dasar Pokok Pendidikan Islam, Alih bahasa: Bustami A. Gani dan Djohar Bahry L.I.S., Jakarta: Bulan Bintang, hlm. 1-4.
[9] Ketiga kata tersebur CERDAS, TAQWA dan TERAMPIL banyak ditulis dengan huruf-huruf besar di tembok-tembok depan sekolah dasar sehingga mudah dibaca setiap orang yang ada di depan sekolah tersebut.
[10] Bloom, Bejamin S (ed.) (1956), Taxonomy of Educational Objectives: The Classification of Educational Goals, London : Longman Group Ltd. Lihat juga Zaini dkk, Op Cit., hlm. 88-92.
[11] Michael Sriven seorang ahli dalam penelitian evaluasi melihat pembagian evaluasi secara formatif dan sumatif dari segi fungsi. Formatif difungsikan sebagai pengumpulan data pada waktu pendidikan masih berlangsung. Sedangkan evaluasi sumatif dilaksanakabn jika program kegiatan sudah betul-betul dilaksanakan. Sementara ahli memandang formatif dan sumatif menunjuk pada lingkup atau luasnya yang dinilai. Sasaran evaluasi sumatif merupakan gabungan dari sasaran evaluasi formatif. Lihat Suharsimi Arikunto (2000), Manajemen Penelitian, Jakarta: Rineka Cipta, hlm. 283
[12] Terdapat beberapa prinsip dasar evaluasi antara lain: validitas, reliabilitas, objektivitas, praktikabilitas, ekonomis. Lihat Suharsimi Arikunto, Dasar-dasar…OpCit., hlm. 58-63.
[13] Mata pelajaran yang diujikan dalam Ujian Nasional adalah: Matematika, Bahasa Indonesia dan Bahasa Inggris. Penentuan tiga mata pelajaran ini yang mengundang polemik antara pro dan kontra. Yang kontra mempertanyakan apakah ketiga mata pelajaran tersebut dapat mewakili (representative) seluruh mata pelajaran yang ada ?. Bagaimana dengan kedudukan mata pelajaran-mata pelajaran yang lain seperti Pendidikan Agama, IPS, PKn dan sebagainya.
[14] Suryabrata, Sumadi (1997), Pengembangan Tes Hasil Belajar, Jakarta: Rajawali Press. Lihat juga Saifuddin Azwar, (2002), Tes Prestasi: Fungsi dan Pengembangan Pengukuran Prestasi Belajar, Yogyakarta: Pustaka Pelajar. Dan Fernandes, H.J.X. ((1984), Testing and measurement, Jakarta: National Education Planning, Evaluation and Curriculum Development.
[15] Isaac, Stephen & William B. Michael (1984), Handbook in research and evaluation, second edition, San Diego, California: Edits Publishers.
[16] Mehrens, William A. & Irvin J Lehmann (1973), Measurement and Evaluation in education and Psychology, New York: Holt, Rinehart and Winston, Inc.
[17] Hopkins, Charles D., Richard L. Antes (1990), Classroom Measurement and Evaluation, third edition, Itasca Illinois: F.E. Peacock Publishers, Inc.
[18] Anas Sudijono, Loc. Cit., Suharsimi Arikunto, Loc. Cit., dan Sudjana, Nana (2001), Penilaian Hasil Belajar Proses Belajar Mengajar, Bandung: PT Remaja Rosdakarya. Lihat juga Sudjana, Nana dan Ibrahim (2001), Penelitian dan Penilaian Pendidikan, Bandung: Sinar Baru Algesindo.
[19] Hamalik, Oemar (2003), Perencanaan Pengajaran Berdasarkan Pendekatan Sistem, Jakarta: Bumi Aksara, hlm. 2.
[20] Worthen, Blaine R and James R. Sanders (1973), Educational Evaluation: theory and practice, New York & London: Longman, hlm. 129
[21] Ibid. dan Worthen, Blaine R and James R. Sanders (1988), Educational Evaluation: Alternative Approach and Practical Guidelines, New York & London: Longman.
[22] Lewy, Arieh., (1977), Handbook of curriculum evaluatio, New York: Longman Inc.
[23] Bellack, Arno A. and Herbert M. Kliebard (1977) Curriculum and Evaluation, Berkeley, California: Mr Cutrhan Pblishing Corporation.
[24] Mehrens, William A. & Irvin J Lehmann (1973), Measurement and Evaluation in education and Psychology, New York: Holt, Rinehart and Winston, Inc.
[25] Isaac, Stephen & William B. Michael (1984), Handbook in research and evaluation, second edition, San Diego, California: Edits Publishers.
[26] Fernandes, H.J.X. ((1984), Evaluation of educational programs, Jakarta: National Education Planning, Evaluation and Curriculum Development.
[27] Nachmias, David (1980), The practice of policy evaluatio, New York: St. Martin’s Press.
[28] Sudjana, Nana (2001), Penilaian Hasil Belajar Proses Belajar Mengajar, Bandung: PT Remaja Rosdakarya, hlm. 4.
[29] Suharsimi Arikunto, Op Cit., hlm. 10-11.
[30] Anas Sudijono, Op Cit., hlm. 7-17.
[31] Hisyam Zaini dkk, Op Cit., 164-166.
[32] Mulyasa, E (2005), Kurikulum Berbasis Kompetensi: Konsep, Karakteristik dan Implementasi, Bandung: PT Remaja Rosdakarya, hlm. 89-144.
[33] Hisyam Zaini dkk, Op Cit.,., hlm. 88-92
[34] Suharsimi Arikunto, Op Cit., hlm. 177-182.
[35] Keterangan tentang klasifikasi skala data menjadi nominal, ordinal, interval dan rasio banyak ditulis dalam buku-buku statistika. Antara lain lihat: Glass, Gene V. and Kenneth D. Hopkons (1984), Statistical Methods in Education and Psychology, second edition, London: Prentice –Hall International Inc., hlm 6 – 8.
[36] Ferdinand, Augusty (2006), Structural Equation Modeling dalam Penelitian Manajemen: Aplikasi Model-model Rumit dalam Penelitian untuk Tesis Magister dan Disertasi Doktor, edisi 4, Semarang: BP Universitas Diponegoro. hlm. 144-149.

Selasa, 10 November 2009

TEKNIK ANALISIS BUTIR TES

PENDAHULUAN
Pada saat ini terdapat dua pengukuran yang berkembang dan banyak digunakan dalam merancang dan menganalisis alat ukur atau tes. Pertama adalah Teori Tes Klasik yang dikembangkan sejak tahun 1940 dan telah digunakan secara luas, sedang teori yang kedua adalah Teori Respons Butir, yang berkembang setelah teknologi komputer berkembang. Teori yang ke dua ini menggunakan lebih banyak asumsi dibandingkan dengan teori yang bertama, namun dapat menyajikan informasi lebih banyak.
A. TEORI KLASIK ANALISIS BUTIR SOAL
Pengertian “klasik” pada Teori Klasik ini menunjukkan pada ukuran “waktu”. Teori Klasik analisis butir merupakan teori analisis butir yang pertama kali dipergunakan. Meskipun terdapat beberapa kelemahan dalam teori ini, namun dalam praktik pendidikan, teori ini masih banyak dipergunakan, hal ini disebabkan teori klasik memiliki keunggulan pada kemudahan dalam pemahaman konsep dan penggunaannya.
Menurut Teori Tes Klasik, skor tampak (X) terdiri dari skor sebenarnya / true score (T) dan skor kesalahan / error (E), atau formulasi sederhananya adalah
X = T + E
Terdapat dua asumsi dasar yang digunakan pada teori Tes Klasik, yaitu tidak ada korelasi antara skor yang sebenarnya dengan skor kesalahan, dan rerata kesalahan acak pengukuran sama dengan 0 (nol). Berdasarkan asumsi tersebut kemudian dikembangkan sejumlah formula untuk menghitung besarnya indeks kehandalan suatu butir tes. (Mardapi, 1998: 27)
Menurut teori Klasik, ada tiga parameter butir yang diestimasi yaitu tingkat kesukaran, daya beda dan dugaan (guessing). Dengan ketiga parameter tersebut, maka menurut Teori Klasik analisis butir soal dapat dilakukan dengan menghitung tingkat kesukaran, daya beda. Untuk soal yang berbentuk pilihan ganda (multiple choice) dapat diteruskan dengan menghitung proporsi respon testee terhadap option (pilihan) yang disediakan atau dengan istilah lain dengan melakukan analisis terhadap berfungsi tidaknya distraktor / pengecoh.
1. Tingkat Kesukaran
Tingkat kesukaran suatu item (butir soal) dinyatakan dalam bentuk indeks kesukaran (diffculty index) yang disimbulkan dengan huruf P (Aswar, 1996: 134) (Suryabrata, 1997: 12-15) (Arikunto, 1995: 211-215) (Fernandes, 1984: 25-27) (Thoha, 1994: 145-146).
Indeks kesukaran merupakan rasio antara penjawab item dengan benar dan banyaknya penjawab item (testee yang menjawab). Secara teoritik dikatakan bahwa P sebenarnya merupakan probabilitas empirik untuk lulus item tertentu bagi sekelompok siswa tertentu. Indeks kesukaran item tersebut dapat diformulasikan sebagai berikut:

Keterangan:
P = indeks kesukaran item
JSB = jumlah testee yang menjawab item dengan benar
JS = jumlah testee yang menjawab item.
Sebagai contoh, dari 100 siswa yang dikenai suatu tes, ternyata item nomor 1 dapat dijawab benar oleh 65 orang di antara mereka, sedangkan selainnya 35 menjawab salah. Maka item nomor 1 tersebut indeks kesukarannya (p) adalah 65 dibagi 100 = 0,65.
Indeks kesukaran item soal berkisar antara 0,00 hingga 1,00. Semakin mendekati angka 1,00 menunjukkan item soal tersebut semakin mudah. Dengan demikian nilai indeks kesukaran item berlawanan arah dengan tingkat kesukaran, sehingga indeks tersebut lebih tepat dikatakan sebagai indeks kemudahan dari pada indeks kesukaran. Namun sudah menjadi kesepakatan (salah kaprah), meskipun nilai indeks berlawanan arah dengan tingkat kesukaran tetap dikenal dengan istilah indeks kesukaran.

0,00 1,00
sukar / sulit mudah
Untuk menentukan taraf kesukaran yang ideal tergantung pada beberapa faktor, antara lain: sifat hal yang diukur, interkorelasi antara item, tujuan khusus si perancang tes dan sesebagainya. Apabila tujuab pengukuran itu adalah untuk pengukuran penguasaan (mastery testing), maka indeks yang diinginkan adalah 1,00. Namun jika tujuan tes hendak menyeleksi secara ketat terhadap sejumlah testee, maka diperlukan indeks kesukaran yang rendah (mendekati nol).
Namun demikian, mengingat pada umumnya tes juga bertujuan untuk mengetahui tingkat perbedaan kemampuan (competence testing) testee, kebanyakan ahli berpendapat bahwa tes yang terbaik adalah tes yang terdiri atas item-item soal yang mempunyai taraf kesukaran sedang (cukup) dan rentang distribusi kesukarannya kecil, yakni item tes dengan indeks kesukaran antara 0,30 sampai 0,70 (Mehren, 1973: 329) (Fernandes, 1984: 29) (Sudijono, 1996: 372).
Item soal yang terlalu sulit dengan indeks kesukaran terlalu rendah (mendekati 0,00) dan item soal yang terlalu mudah dengan indeks kesukaran tinggi (mendekati 1,00) secara umum tidak banyak memberikan kontribusi keefektifan suatu tes. Hal ini disebabkan butir soal tersebut tidak memiliki kemampuan untuk membedakan testee yang berkemampuan tinggi dengan testee yang berkemampuan rendah. Item soal yang terlalu mudah akan mampu dijawab benar oleh siswa yang memiliki kemampuan tinggi dan rendah. Sebaliknya item soal yang terlalu sulit, kedua kelompok testee menjawab salah. Dengan demikian daya diskrimansi item tersebut rendah atau tidak baik.
Perlu diingat bahwa besarnya harga P yang dihitung merupakan indeks kesukaran item soal bagi seluruh kelompok testee, buka indeks kesukaran bagi masing-masing testee secara individual. Taraf kesukaran bagi masing-masing testee adalah berbeda-beda dan kita tidak tahu seberapa sulit atau seberapa mudah suatu item soal bagi siswa. Harga P yang dihitung dalam kelompok hanya merupakan rata-rata indeks kesukaran bagi seluruh siswa dalam kelompok itu. Apa yang kita ketahui adalah apabila testee mampu menjawab benar suatu item soal berarti taraf kesukaran item tersebut lebih rendah dari pada taraf kemampuannya dalam menjawab. Sebaliknya, apabila testee salah menjawab suatu item soal berarti bahwa tingkat kemampuannya lebih rendah dari pada taraf kesukaran item yang bersangkutan.
2. Daya Beda Item
Terdapat dua konsep “daya beda”, yang pertama adalah kemampuan suatu item soal dalam membedakan antara siswa yang memiliki kemampuan tinggi / baik / good student dengan siswa yang memiliki kemampuan rendah / poor student (Fernandes, 1984: 27). Sementara konsep yang kedua, daya beda item adalah tingkat kesesuaian antara item soal dengan keseluruhan soal dalam membedakan antara mereka yang tinggi kemampuannya dan mereka yang rendah kemampuannya dalam hal yang diukur oleh tes yang bersangkutan. (Suryabrata, 1997: 100).
Kedua konsep tersebut didasarkan atas asumsi bahwa dalam suatu kelompok testee terdapat Kelompok Tinggi dan Kelompok Rendah. Suatu item soal yang baik adalah item soal yang hanya mampu dijawab benar oleh testee yang memang memiliki kemampuan (Kelompok Tinggi). Kalau proporsi penjawab benar dari dua kelompok tersebut sama, berarti item soal tersebut tidak mampu membedakan antara mereka yang berkemampuan tinggi dan mereka yang kemampuan rendah. Apalagi bila suatu item soal ternyata justru dapat dijawab benar oleh sebagian besar subyek Kelompok Rendah, sedangkan sebagian besar subyek Kelompok Tinggi tidak banyak yang mampu menjawab dengan benar, maka hal itu menunjukkan bahwa item soal tersebut menyesatkan karena daya diskriminasinya terbalik (minus).
Untuk menghitung Daya Beda antara testee Kelompok Tinggi dengan testee Kelompok Rendah, pada konsep daya beda yang pertama menggunakan formula sebagai berikut:

Keterangan:
D = indeks diskriminasi item
BT = jumlah kelompok tinggi yang menjawab benar
JT = jumlah kelompok tinggi
BR = jumlah kelompok renah yang menjawab benar
JR = jumlah kelompok rendah.
Untuk penghitungan indeks daya beda terlebih dahulu testee dipisahkan ke dalam Kelompok Tinggi dan Kelompok Rendah. Pembagian kelompok ini didasarkan atas hasil jawaban benar oleh testee terhadap keseluruhan tes. Testee diurutkan dari yang jumlah jawaban benar tertinggi hingga jumlah jawaban benar terendah. Apabila jumlah seluruh testee kurang dari 100, pengelompokan dapat dilakukan dengan membagi seluruh testee menjadi dua (masing-masing kelompok 50 % = 50 testee). Sedangkan jika testee berjumlah lebih dari 100, untuk memilih Kelompok Atas dapat diambil 27 % testee teratas (rankingnya), dan untuk Kelompok Bawah diambil 27 % testee terbawah (ranking dari bawah), masing-masing kelompok tersebut mewakili Kelompok Atas dan Bawah.
Besarnya indeks diskriminasi item soal merentang antara -1,00 hingga 1,00. Klasifikasi tingkat diskriminasi soal serta interpretasinya, menurut Suharsimi Arikunto (1995: 223) dengan sedikit modofikasi dari penulis, adalah sebagai berikut:

Tabel.1 Indeks Daya Beda dan Interpretasinya

Indeks Daya Beda


Interpretasi
Negatif
Sangat jelek
0,00 - 0,20
Jelek (poor)
0,21 - 0.40
Cukup (satisfactory)
0,41 - 0,70
Baik (good)
0,71 - 1,00
Baik sekali (excellent)

Sementara itu, untuk menghitung daya beda butir soal pada konsep yang kedua, yakni kesesuaian item dengan keseluruhan tes dalam membedakan antara mereka yang tinggi kemampuannya dan mereka yang rendah kemampuannya, teknik yang dipergunakan adalah dengan menggunakan teknik Korelasi Biserial dan teknik Korelasi Point Biserial. Rumus Korelasi Biserial yang dipergunakan adalah sebagai berikut:
Keterangan:
Xb : rata-rata skor kriteria subyek yang menjawab benar
Xs : rata-rata skor kriteria subyek yang menjawab salah
St : simpangan baku skor kriteria semua subyek
P : proporsi subyek yang menjawab benar terhadap semua subyek
Y : Ordinat dalam kurve normal yang membagi menjadi P dan 1-P
Bagian esensial dalam rumus di atas adalah perbedaan antara kedua rata-rata dalam perbandingan dengan simpangan baku. Makin besar perbedaan kedua rata-rata (Xb – Xs) itu akan semakin tinggi korelasi biserial, dan berarti makin tinggi daya beda soal.
Teknik lain yang biasa digunakan untuk menghitung indeks diskriminasi adalah teknik Korelasi Point-Biserial (biserial titik), yang formulasinya sebagai berikut:

Keterangan:
Xb = rata-rata skor kriteria yang menjawab benar
Xs = rata-rata skor kriteria yang menjawab salah
St = simpangan baku skor kriteria total
p = proporsi jawaban benar terhadap semua jawaban
q = 1 – p

Mana di antara kedua teknik tersebut yang hendak dipergunakan, tergantung kepada pertimbangan yang mendasari pemilihan tersebut. Sementara ahli lebih menyukai r pbis karena koefisen ini memberikan informasi yang lebih dari pada yang diberikan r bis. Nilai r pbis terpengaruh oleh p yang harga maksimumnya akan diperoleh kalau p = 0,50. Ini berarti bahwa koefisien ini cenderung mengutamakan soal-soal yang mempunyai taraf kesukaran rata-rata. Dengan istilah lain korelasi Point-Biserial merupakan kombinasi antara hubungan soal dengan kriteria serta taraf kesukaran. Sementara kelompok ahli lain lebih menyukai menggunakan korelasi Biserial karena ingin memperlakukan korelasi antara soal dengan kriteria bebas dari taraf kesukaran.
Hubungan antara Tingkat Kesukaran dan Daya Beda
Tingkat Daya Beda yang “tinggi” pada umumnya berada pada Tingkat Kesukaran “sedang” ke atas. Sementara itu Tingkat Kesukaran yang “tinggi” tidak selalu menunjukkan Daya Beda yang tinggi. Dapat terjadi Tingkat Kesukaran menunjukkan “baik” atau “cukup” sementara Daya bedanya 0 (nol), jika proporsi jawaban benar Kelompok Atas (tinggi) sama dengan proporsi jawaban benar Kelompok Rendah (bawah). Bahkan dapat terjadi Tingkat Kesukaran “baik” , sementara Daya Bedanya “negatif” (minus), jika ternyata proporsi jawaban benar Kelompok Rendah lebih besar dari pada proporsi jawaban benar Kelompok Tinggi.
3. Berfungsi Tidaknya Distraktor / Pengecoh
Analisis butir ini, sebagaimana telah dikemukakan penulis di awal bagian ini, hanya berlaku untuk soal berbentuk pilihan ganda (multiplr choice). Dalam soal bentuk ini alternatif jawaban (option) yang disediakan (kadang 3, 4 atau 5 pilihan) satu di antaranya merupakan kunci jawaban sedangkan yang lainnya merupakan distraktor.
Konsep dasar dalam analisis ini adalah bahwa distraktor yang baik adalah distraktor yang mampu mengecoh testee untuk memilihnya, sehingga manakala tidak ada satu pun di antara testee yang memilihnya, maka dapat dikatakan distraktor atau pengecoh tersebut tidak berfungsi.
Berapa ukuran suatu distraktor telah berfungsi. Menurut Suharsimi Arikunto (1995: 226) secara umum suatu distraktor dikatakan telah berfungsi dengan baik manakala distraktor tersebut dipilih minimal 5 % dari seluruh testee. Sementara Fernandes (1984: 29) mensyaratkan lebih kecil lagi, yakni minimum 2 %.
Keterbatasan Teori Klasik Analisis Butir
Meskipun teori Klasik analisis butir soal telah banyak dipergunakan, namun ternyata memiliki kelemahan. Kelemahan utama adalah bahwa hasil analisis tergantung pada kelompok peserta tes (testee) dan kelompok soal yang diteskan (Hambleton, 1991: 2-3).
Suatu butir soal dapat memiliki indeks kesukaran tinggi (soal mudah) jika diujikan pada sekelompok testee yang memiliki kemampuan tinggi. Sebaliknya butir soal tersebut akan memiliki indeks kesukaran rendah (soal sulit) manakala diujikan pada sekelompok siswa / testee yang memiliki kemampuan rendah.
Begitu juga dengan skor yang diperoleh testee akan tergantung pada tingkat kesukaran suatu soal. Seorang siswa akan memiliki tingkat skor tinggi manakala kepadanya diberikan soal yang mudah (indeks kesukaran tinggi). Sebaliknya siswa yang sama akan memiliki skor rendah manakala kepadanya diberikan soal yang sulit (indeks kesukaran rendah).
B. TEORI RESPON BUTIR
Teori Respon Butir merupakan teori analisis butir soal yang berkembang setelah berkembangnya teknologi komputer. Hal ini disebabkan dalam Teori Respon Butir memerlukan perhitungan yang lebih rumit, sehingga akan menjadi kurang efisien dan praktis untuk dilakukan penghitungan secara manual.
Teori Respon Butir memiliki tiga model, yaitu model satu parameter, dua parameter dan tiga parameter (Hambleton & Swaminathan, 1991). Model satu parameter dikenal dengan Model Rasch. Dalam model ini terdapat dua asumsi, yaitu:
1. Semua butir memiliki daya pembeda yang sama
2. Peluang menjawab butir benar bagi mereka yang memiliki kemampuan rendah sama dengan 0 (nol).
Dengan kata lain semua kurve karakteristik butir-butir model ini adalah sejajar atau mendekati sejajar. Oleh karena itu parameter butir pada model Rasch adalah hanya tingkat kesulitan butir, sedangkan parameter daya pembeda dianggap sama, dan dugaan pseudo dianggap sama dengan nol.
Persamaan model satu parameter yang dikenal dengan model Rash dapat ditulis sebagai berikut:


Pi (q) adalah peluang menjawab benar butir I, D = 1,7 dan q adalah kemampuan, serta b adalah tingkat kesukaran butir. Model dua parameter menggunakan asumsi bahwa peluang menjawab benar bagi mereka yang memiliki kemampuan rendah adalah 0 (nol), sehingga hanya ada dua parameter yang ditaksir, yaitu tingkat kesukaran dan daya pembeda. Pada tiga parameter tidak menggunakan asumsi tentang parameter butir, sehingga tiga parameter butir, yaitu tingkat kesukaran, daya pembeda dan faktor dugaan, ketiganya ditaksir besarnya.
Dilihat dari kesederhanaannya, model satu parameter tampak paling sederhana, namun menggunakan asumsi yang lebih banyak. Sifat ini yang menjadi pertimbangan bagi Balitbang depdikbud untuk menggunakan model satu parameter, yang dikenal dengan Model Rasch, dalam mengembangkan jaringan pengujian di Indonesia.
Untuk model 2 parameter, parameter yang digunakan adalah taraf kesukaran butir bj dan daya pembedaan butir aj. Model logistik Teori respon Butir dengan 2 parameter adalah sebagai berikut:
Dalam model logistik untuk Teori Respon Butir dengan 3 parameter, dengan menambahkan parameter cj yakni parameter kebetulan menjawab dengan benar ke dalam model logistik 2 parameter, sehingga diperoleh model logistik 3 parameter sebagai berikut:
Dengan model tiga parameter, maka tingkat kemungkinan tebakan tergantung pada jumlah option yang disediakan. Jika option yang disediakan berjumlah 5 (lima), maka tingkat kemungkinan menebak benar ( c ) secara teori untuk masing-masing butir adalah 0,20, dalam prakteknya tidak mesti masing-masing option memiliki peluang yang sama. Dalam teori Respon Butir parameter peluang tebakan butir soal yang baik berkisar antara 0 sampai dengan +0,35. Harga parameter lebih dari 0,35 berarti soal tersebut harus diganti.
Sementara untuk analisis daya beda soal (a), Hambleton et al (1991) menjelaskan apabila suatu butir soal memiliki daya pembeda bernilai negatif, berarti butir soal tersebut harus diganti atau dibuang, sedangkan daya pembeda > +2 jarang terjadi. Sehingga daya beda yang berkisar antara 0 sampai dengan +2 menunjukkan bahwa butir soal tersebut dapat membedakan antara peserta yang tinggi kemampuannya dengan yang rendah kemampuannya.
Kriteria untuk tingkat kesukaran (b), butir-butir soal yang memiliki nilai lebi dari +2 atau b > +2 adalah butir-butit soal yang dianggap terlalu sukar. (Hambleton, te al, 1991). Butir yang terlalu sukar tidak dapat melakukan fungsi ukurnya dengan baik, karena peserta tes akan cenderung menjawab dengan menggunakan tebakan. Harga parameter tingkat kesukaran yang baik berkisar antara 0 sampai dengan +2. Butir soal yang memiliki harga parameter lebih kecil dari -2 adalah butir soal yang terlalu mudah harus diganti. Butir soal yang memiliki harga parameter antara –2 sampai dengan 0 adalah butir soal yang harus direvisi.
Dibandingkan dengan teori Tes Klasik, teori Respon Butir memiliki kelemahan yakni pada penghitungan yang kompleks serta membutuhkan ukuran cuplikan yang besar. Namun karena penghitungan Teori respon Butir menggunakan paket program komputer, maka kelemahan tersebut dapat diatasi.

DAFTAR PUSTAKA
Arikunto, Suharsimi (1995), Dasar-dasar Evaluasi Pendidikan, Jakarta: Bumi Aksara.
Cronbach,L.J (1971), Test Validation, Dalam R.L. Thorndike (Ed) Educatioanal Measurement. (2nd ed) Washington DC: American Council on Education.
Fernandes, H.J.X (1984), Testing and Measurement, Jakarta: Nasional Education Planing Evaluation and Curriculum Development.
Hambleton, Ronald K.H Swaminathan and H. Jane Rogers (1991), Fundamentals of Item Response Theory, New Bury Park, London, New Delhi: Sage Publications.
Linn R L (1989), Educational Measurement, New York: Mac Millan Publishing.
Mardapi, Djemari, (1998), “Analisis Butir dengan Teori Klasik dan teori Respon Butir” dalam Jurnal kependidikan, edisi khusus Dies, tahun XXVIII, Yogyakarta: IKIP Yogyakarta.
Mehren, W.A & Lehmann, I.J (1984), Measurement and Evaluation in Educational and Psychology, New York: Holt, Rinehart, Winston.
Naga, Dali,S (1992), Pengantar Teori Sekor, Jakarta: PT Gunadarma.
Suryabrata, Sumadi (1997), Pengembangan Tes Hasil Belajar, Jakarta: Rajawali.

[i] Penulis lahir di Karanganyar 22 Desember 1966, menyelesaikan S-1 Fakultas Tarbiyah IAIN Sunan Kalijaga Yogyakarta Juli 1989. S-2 Prodi Pnelitian dan Evaluasi Pendidikan Universitas Negeri Yogyakarta Maret 2001. Semenjak 1991 menjadi dosen tetap di STAIN Purwokerto. Pada saat ini (2007) Lektor Kepala mata kuliah Evaluasi Pendidikan di STAIN Purwokerto.

MODEL-MODEL EVALUASI PENDIDIKAN

A. PENDAHULUAN
Dalam khazanah pembelajaran terdapat bermacam-macam model disain pembelajaran, misalnya model yang dikembangkan oleh Winarno Surakhmad, Winkel, Hisyam Zaini dkk., Briggs dan Wager, Gerlach dan Ely, Kemp[1]. Dari model-model disain tersebut komponen dan polanya antara yang satu dengan lainnya terdapat perbedaan. Meskipun demikian dari berbagai disain pembelajaran tersebut terdapat komponen-komponen yang termasuk komponen pokok yaitu: tujuan[2], materi, strategi, media dan evaluasi. Tujuan adalah sesuatu yang ingin dicapai, materi adalah bahan yang dipelajari siswa atau diajarkan guru kepada siswa, strategi adalah langkah-langkah yang ditempuh siswa dan / atau guru dalam mempelajari (guru = mengajarkan) materi pelajaran untuk mencapai tujuan, media adalah sarana untuk memudahkan pencapaian tujuan, dan evaluasi adalah proses untuk mengetahui pencapaian hasil dan efektivitas pembelajaran. Dengan demikian evaluasi merupakan salah satu komponen pokok yang selalu ada dalam pembelajaran. Dengan kata lain. sebuah pembelajaran tidak dapat dipisahkan dengan kegiatan evaluasi.
Secara umum evaluasi memiliki dua fungsi utama yaitu untuk mengetahui pencapaian hasil belajar siswa dan hasil mengajar guru[3]. Pengetahuan tentang hasil belajar siswa terkait dengan sejauh mana siswa telah mencapai tujuan pembelajaran atau kompetensi-kompetensi yang telah ditetapkan. Sedangkan hasil mengajar guru terkait dengan sejauh mana guru sebagai manajer belajar siswa[4] dalam hal merencanakan, mengelola, memimpin dan mengevaluasi.
Realitas menunjukkan bahwa masih banyak yang mereduksi evaluasi sebagai kegiatan tes, hal ini dibuktikan dengan kegiatan evaluasi yang menonjol di lembaga dan satuan pendidikan adalah pelaksanaan tes yang dilaksanakan setelah penyelesaikan pokok bahasan tertentu (kompetensi dasar tertentu) sebagai tes formatif dan tes akhir semester yang dikenal dengan tes sumatif serta tes yang diselenggarakan di akhir jenjang pendidikan tertentu dalam bentuk ujian akhir sekolah dan ujian nasional. Dari tes formatif, sumatif[5], hingga ujian akhir sekolah dan ujian nasional, sebagian besar dalam bentuk tes, dan tes tersebut sebagian besar dalam bentuk tes tertulis. Padahal tes tertulis hanyalah salah satu bentuk tes (di samping tes lisan dan tindakan), dan tes hanyalah salah satu dari teknik evaluasi (di samping teknik non tes / alternative test).
Menggunakan teknik tes tertulis untuk mengukur pencapaian hasil belajar peserta didik yang mencakup berbagai domain / ranah ( kognitif, afektif dan psikomotor) sudah barang tentu tidak dapat memberikan informasi yang valid dan reliabel serta tidak selaras dengan prinsip kontinuitas, objektivitas, keseimbangan dan komprehensifitas sebuah evaluasi[6]. Tes tepat dipakai untuk mengukur pencapaian domain kognitif, tetapi tidak tepat untuk mengukur pencapaian ranah afektif. Padahal cakupan tujuan pendidikan, baik pada tingkat nasional, tingkat jenjang pendidikan, satuan pendidikan, bahkan hingga tujuan mata pelajaran (standar kompetensi mata pelajaran) momot domain kognitif, afektif dan psikomotor. Sehingga ironis memang sebuah proses pembelajaran yang panjang (3 sampai dengan 6 tahun), terkadang ditentukan oleh hasil tes tertulis yang dilaksanakan beberapa jam pada mata pelajaran tertentu[7].
Dalam tulisan ini akan dideskripsikan secara ringkas perkembangan studi tentang evaluasi yang telah melahirkan berbagai model evaluasi. Dengan mengetahui ragam model evaluasi diharapkan akan menambah khasanah informasi kepada para pelaku pendidikan khususnya tenaga pengajar, bahwa untuk mengetahui pencapaian hasil belajar siswa dan efektifitas proses pembelajaran dapat dilakukan dengan memilih salah satu model evaluasi atau menggabungkan dua model evaluasi atau lebih.
B. MODEL-MODEL EVALUASI
Dalam beberapa literatur evaluasi terdapat berbagai model evaluasi. Di antara literatur yang penulis temukan sekaligus menjadi referensi utama tulisan ini, yakni tulisan dari: Hasan, Said Hamid, (1988)[8], Issac, Stephen and William B Michael (1984)[9], Mehren, William M and Irvin J. Lehman (1973)[10], Sudjana, Nana dan Ibrahim (2001)[11], Tayibnapis. Farida Yusuf (2000)[12], Worthen, Blaine R. and James R. Sanders (1987)[13], yang selengkapnya dapat dilihat pada daftar pustaka.
Dengan acuan referensi di atas penulis mengklasifikasi model evaluasi menjadi: model pengukuran (measurement model), model kesesuaian (congruence model), model sistem (system model), dan model illuminatif (illuminative model).
1. Measurement Model[14]
Measurement Model merupakan model yang tertua dibanding model-model evaluasi yang lain, tokoh-tokoh pengembang model ini antara lain: R. Thorndike dan R.L. Ebel.
R. Thorndike misalnya, berkeyakinan: if anything exists, it exists in quantity, and if it exists in quantity it can be measured[15]. Menurut model ini penilaian pendidikan pada dasarnya tidak lain adalah “pengukuran” terhadap berbagai aspek tingkah laku dengan tujuan untuk melihat perbedaan-perbedaan individu atau kelompok, yang hasilnya diperlukan dalam rangka seleksi, bimbingan, dan perencanaan pendidikan bagi para siswa di sekolah
Ruang lingkup evaluasi menurut model ini adalah tingkah laku, terutama tingkah laku siswa, yang mencakup kemampuan hasil belajar, kemampuan pembawaan (intelegensi, bakat), minat, sikap dan juga aspek-aspek kepribadian siswa. Dengan kata lain, objek penilaian mencakup aspek kognitif maupun afektif dari tingkah laku siswa.
Alat penilaian yang lazim digunakan dalam model ini adalah tes tertulis atau paper and pencil test. Untuk mendapatkan hasil pengukuran yang setepat mungkin ada kecenderungan untuk mengembangkan alat-alat penilaian (tes) yang baku atau standardized. Tes yang belum dibakukan dipandang kurang dapat mencapai tujuan dari pengukuran. Diperlukan uji coba berkali-kali terhadap instrument yang dikembangkan. Setelah suatu tes diujicobakan kepada sampel yang cukup besar, kemudian berdasarkan data yang diperoleh, dilakukan analisis untuk mengetahui validitas dan reliabilitas tes secara keseluruhan maupun setiap soal (analisis butir tes)[16] yang terdapat di dalamnya.
Untuk mengungkapkan hasil yang telah dicapai kelompok maupun masing-masing individu di dalam penilaian mengenai suatu bidang pelajaran tertentu, dikembangkan suatu norma kelompok berdasarkan angka-angka nyata yang diperoleh siswa di dalam tes yang telah dilaksanakan. Atas dasar norma kelompok inilah kemudian nilai untuk masing-masing siswa ditentukan. Dengan kata lain nilai yang dicapai seoramng siswa lebih menggambarkan ”kedudukan” siswa tersebut di dalam kelompoknya (relative norm) penilaian acuan norma (PAN).
Pendekatan lainnya dalam model ini adalah membandingkan hasil belajar antara dua atau lebih kelompok yang menggunakan cara pengajaran yang berbeda sebagai variabel bebas. Analisis perbedaan skor dilakukan dengan menggunakan cara-cara statistik tertentu untuk dapat menyimpulkan cara pengajaran mana yang lebih efektif di antara cara-cara yang dinilai.
Keterbatasan Measurement Model
Keterbatasan dari model ini terletak pada penekanannya yang berlebihan pada aspek pengukuran dalam kegiatan penilaian pendidikan. Konsekuensinya penilaian cenderung dibatasi pada dimensi tertentu dari system pendidikan yang “dapat diukur” dalam hal ini adalah hasil belajar yang bersifat kognitif. Yang menjadi persoalan adalah bahwa hasil belajar yang bersifat kognitif tersebut bukan merupakan satu-satunya indikator bagi keberhasilan suatu kurikulum. Kurikulum sebagai suatu “alat” untuk mencapai tujuan-tujuan pendidikan diharapkan dapat mengembangkan berbagai potensi yang ada pada diri siswa, tidak terbatas hanya pada potensi kognitif saja.
Adanya beberapa ketidak serasian dengan peranan penilaian dalam proses pengembangan kurikulum / system pendidikan, antara lain:
1) Dalam pengembangan alat penilaian, model ini banyak dipengaruhi oleh prosedur yang ditempuh dalam pengembangan tes psikologis, antara lain tes intelegensi dan tes bakat. Untuk mengembangkan tes tersebut berlaku ketentuan bahwa soal tes yang memiliki daya pembeda rendah perlu direvisi atau diganti dengan tes lain yang mempunyai daya pembeda yang tinggi. Prosedur semacam ini ini kurang cocok untuk diterapkan dalam penilaian hasil belajar dalam rangka / pengembangan pendidikan, karena dalam penilaian pendidikan yang penting adalah bahwa soal-soal tes yang dibuat betul-betul konsisten dengan tujuan pendidikan yang ingin dinilai pencapaiannya[17].
2) Dalam pengolahan hasil tes, modelini dipengaruhi oleh prosedur dalam pengolahan hasil tes psikologis dan nilai yang dicapai oleh masing-masing siswa lebih mencerminkan “kedudukannya”dalam kelompok. Dalam proses pengembangan pendidikan, nilai semacam ini kurang mempunyai arti karena sifatnya relative. Yang lebih berarti dalam proses pengembangan pendidikan adalah nilai-nilai yang menunjukkan sejauh mana tujuan-tujuan pendidikan telah dicapai oleh siswa, secara individual maupun kelompok, bukan nilai relative yang mencerminkan posisi siswa dalam kelompoknya.
3) Informasi yang disajikan menurut modelini lebih berbentuk skor keseluruhan (total score) yang dicapai setiap siswa, yang dilengkapi dengan data mengenai nilai rata-rata dan standar deviasi yang dicapai kelompok. Informasi semacam ini pun kurang relevan dengan kebutuhan yang dirasakan dalam proses pengembangan pendidikan, karena skor keseluruhan lebih banyak “menyembunyikan” dari pada mengungkapkan informasi yang diperlukan untuk kepentingan penyempurnaan system. Yang lebih diperlukan dalam proses pengembangan pendidikan adalah bentuk penyajian hasil tes yang dapat memberikan petunjuk tentang bagian-bagian mana dari system pendidikan yang masih lemahdan karenanya memerlukan perbaikan.
Keunggulan Measurement Model
Keunggulan dari model ini adalah sumbangannya yang sangat berarti dalam hal penekannya terhadap pentingnya objektivitas dalam proses penilaian. Aspek objektivitas yang ditekankan oleh model ini perlu dijadikan landasan yang terus-menerus dalam rangka mengembangkan sistem penilaian pendidikan. Di samping itu evaluasi dalam model ini memungkinkan untuk melakukan analisis intrumen dan hasil evaluasi secara statistic.
2. Congruence Model
Model ini dapat dipandang sebagai reaksi terhadap model yang pertama, sekalipun dalam beberapa hal masih menunjukkan adanya persamaan dengan model yang pertama. Tokoh model ini: Raph W. Tyler, John B. Carrol, and Lee J. Cronbach
Menurut Tyler, sebagai proses pendidikan berisi tiga komponen yang saling terkait yaitu: tujuan pendidikan, pengalaman belajar dan penilaian hasil belajar. Penilaian merupakan kegiatan untuk mengetahui sejauh mana tujuan-tujuan pendidikan telah dapat dicapai oleh siswa dalam bentuk hasil belajar yang mereka perlihatkan pada akhir kegiatan pendidikan.
Mengingat tujuan-tujuan pendidikan mencerminkan perubahan-perubahan tingkah laku yang diinginkan pada peserta didik, maka yang penting dalam proses penilaian adalah memeriksa sejauh mana perubahan-perubahan tingkah laku yang diinginkan tersebut telah dicapai peserta didik. Tindak lanjut dari penilaian ini adalah sebagai bahan bimbingan lebih lanjut kepada peserta didik serta memberikan informasi kepada pihak luar yang terkait dengan hasil belajar peserta didik.
Penilaian tidak lain adalah usaha untuk memeriksa persesuaian (congruence) antara tujuan-tujuan pendidikan yang diinginkan dan hasil belajar yang telah dicapai. Karena tujuan pendidikan menyangkut tentang perubahan perilaku yang diinginkan pada peserta didik, maka penilaian dimaksudkan untuk memeriksa sejauh mana perubahan-perubahan yang diinginkan tersebut telah dicapai.
Ruang lingkup evaluasi menurut model ini adalah memeriksa persesuaian (congruence) antara tujuan dan hasil belajar, maka yang dijadikan objek penilaian adalah tingkah laku siswa. Secara lebih khusus, yang dinilai adalah perubahan tingkah laku yang diinginkan (intended behavior) yang diperlihatkan oleh siswa pada akhir kegiatan pendidikan. Ruang lingkup perilaku meliputi; pengetahuan, keterampilan, nilai / sikap.
Congruence model tidak membatasi alat penilaian hanya pada tes tertulis atau paper and pencil test saja. Carroll misalnya menyebutkan perlunya digunakan alat-alat penilaian lain seperti tes perbuatan dan observasi[18].
Ringkasnya, dalam menilai hasil belajar yang mencakup berbagai jenis (pengetahuan, keterampilan, nilai / sikap) berbagai kemungkinan alat penilaian perlu digunakan
Karena penilaian dipergunakan sebagai alat ukur pencapaian hasil belajar setelah menempuh proses pendidikan maka diperlukan prosedur pre and post test.
Model ini tidak menyarankan dilaksanakannya penilaian perbandingan untuk melihat sejauh mana kurikulum yang baru lebih efektif dari kurikulum yang ada. Tyler dan Cronbach lebih mengarahkan peranan penilaian pada tujuan untuk memperbaiki kurikulum atau system pendidikan.
Langkah-langkah penilaian:
1) merumuskan atau mempertegas tujuan
2) menetapkan test situation yang diperlukan
3) menyusun alat penilaian
4) menggunakan hasil penilaian.
Berhubung setiap system pendidikan memiliki berbagai tujuan yang ingin dicapainya, akan lebih tepat bila hasil penilaian tidak dinyatakan dalam bentuk hasil keseluruhan tes melainkan dalam bentuk hasil bagian- demi bagian dari tes yang bersangkutan, sehingga terlihat jelas bagian-bagian mana dari system pendidikan yang masih perlu disempurnakan berhubung belum berhasil mencapai tujuannya.
Kontribusi Congruence Model
Sumbangan yang cukup berarti congruence model adalah:
1) menghubungkan hasil belajar dengan tujuan pendidikan sebagai criteria perbandingan
2) Memperkenalkan system pengolahan hasil penilaian secara bagian demi bagian, yang ternyata lebih relevan dengan kebutuhan pengembangan system
Keterbatasan:
Tidak menjadikan input dan proses pelaksanaan sebagai objek penilaian secara langsung. Dengan model pre da pos tes informasi yang dihasilkan hanya dapat menjawab pertanyaan tentang tujuan-tujuan mana yang telah dan belum dicapai. Pertanyaan tentang mengapa tujuan-tujuan tertentu belum dapat dicapai belum dapat dijawab. Pendekatan ini membantu pengembang kurikulum dalam menentukan bagian-bagian mana dari sistem yang masih lemah, tetapi kurang membantu di dalam mencari jawaban tentang segi-segi apa yang masih lemah dan bagaimana kemungkinan mengatasi kelemahan-kelemahan tersebut[19].
3. System Model
Hakekat evaluasi menurut system model adalah untuk membandingkan performance dari berbagai dimensi sistem yang sedang dikembangkan dengan sejumlah kriteria tertentu, untuk akhirnya sampai pada suatu deskripsi dan judgment mengenai sistem yang dinilai tersebut
Prinsip-prinsip model ini adalah:
1) menekankan pentingnya sistem sebagai suatu keseluruhan yang dijadikan objek penilaian, tanpa membatasi pada aspek hasil yang dicapai saja. Dikatakan Gene V. Class bahwa the complete and detailed description of what constitutes the educational program is a concern of the educational system evaluation model[20].
2) Perbandingan antara performance dan criteria juga merupakan salah satu inti yang penting. Menurut Daniel L. Stufflebeam salah satu kelemahan dari penilaian yang ada sekarang adalah kurang jelasnya criteria yang digunakan sebagai dasar dalam penilaian tersebut.
3) Kegiatan penilaian tidak hanya berakhir pada suatu deskripsi tentang keadaan dari system yang telah dinilainya, melainkan harus sampai pada suatu judgment mengenai baik-buruknya, efektif tidaknya, system pendidikan tersebut.
4) Informasi yang diperoleh dari hasil penilaian berfungsi sebagai bahan atau input bagi pengambilan keputusan mengenai system yang bersangkutan dalam rangka:
a) penyempurnaan system selama system tersebut masih dalam tahap pengembangan
b) penyimpulan mengenai kebaikan (merit, worth) dari system pendidikan yang bersangkutan dibandingkan dengan system yang lain.
Dari uraian di atas dapat disimpulan bahwa hakekat evaluasi menurut system model adalah:
1) penilaian ditujukan kepada berbagai dimensi system
2) perbandingan antara performance dan criteria
3) tidak hanya berakhir dengan deskripsi tetapi juga judgment sebagai kesimpulan dari penilaian
4) hasil penilaian digunakan sebagai bahan atau input bagi pengampilan keputusan, dalam rangka penyempurnaan system maupun penyimpulan mengenai kebaikan system yang bersangkutan secara menyeluruh.
Ruang lingkup evaluasi menurut model ini berdasarkan pendapat tokohnya adalah sebagai berikut:
1) Stake membagi objek penilaian atas tiga kategori: antecendent, transactions dan outcomes[21].
2) Stufflebeam menggolongkan system pendidikan atas 4 dimensi yaitu: context, input, process dan product (CIPP)[22].
3) Scriven mencakup: sarana / bahan, proses dan hasilyang dicapai
4) Provus mencakup empat dimensi yaitu: design, operation program, interim products dan terminal product[23].
Dari kutipan di atas dapat disimpulkan bahwa ruang lingkup evaluasi dalam model ini adalah:
1) Objek sekurang-kurangnya: peralatan / sarana, proses dan hasil yang dicapai.
2) Mencakup data objektif maupun data subjektif
Keunggulan System Model
Model ini mengemukan perlunya penilaian dilakukan terhadap berbagai dimensi system, tidak hanya hasil yang dicapai saja, melainkan juga input dan proses yang dilakukan tahap demi tahap. Hal ini penting agar penyempurnaan system dapat dilakukan pada setiap tahap sehingga kelemahan yang masih terlihat pada suatu tahap tertentu tidak dibawa ke tahap berikutnya.
4. Illuminative Model[24]
Nama Illuminative, oleh pengembangnya didasarkan atas alas an bahwa penggunaan berbagai cara evaluasi di dalam model ini bila dikombinasikan akan help illuminative problems, issues, and significant program features. Model ini dikembangkan terutama di Inggris dan banyak dikaitkan dengan pendekatan di bidang antropologi[25]. Salah satu tokoh yang paling menonjol dalam pengembangan model ini adalahh Malcolm Parlett[26].
Tujuan penilaian menurut model ini adalah mengadakan studi yang cermt terhadap system yang bersangkutan. Studi difukuskan pada permasalahan bagaimana implementasi suatu system dipengaruhi oleh situasi sekolah tempat system tersebut dikembangkan, keunggulan dan kelemahan serta pengaruhnya terhadap proses belajar siswa. Hasil evaluasi ditekankan pada deskripsi dan interpretasi, bukan pengukuran dan prediksi sebagaimana model sebelumnya. Dalam pelaksanaan evaluasi, model ini lebih menekankan penggunaan judgment, selaras dengan semboyannya the judgment is the evaluation[27].
Objek evaluasi yang diajukan dalam model ini mencakup; latar belakang dan perkembangan yang dialami oleh system yang bersangkutan, proses implementasi (pelaksanaan) system, hasil belajar yang diperlihatkan oleh siswa serta kesukaran-kesukaran yang dialami dari tahap perencanaan hingga implementasinya di lapangan. Di samping itu juga dampak yang ditimbulkan dari suatu system seperti; kebosanan yang terlihat pada siswa dan guru, ketergantungan secara intelektual, hambatan terhadap perkembangan sikap social, dan sebagainya. Ringkasnya objek evaluasi dalam model ini meliputi kurikulum yang terlihat maupun yang tersembunyi (hidden curriculum)[28].
Tahapan evaluasi dalam Illuminative model terdiri dari 3 fase yaitu:
1) Tahap pertama observe. Pada tahap ini evaluator mengunjungi sekolah atau lembaga yang sedang mengembangkan system tertentu. Evaluator mendengarkan dan melihat berbagai peristiwa, persoalan serta reaksi dari guru maupun siswa terhadap pelaksanaan system tersebut.
2) Tahap kedua Inquiry further. Pada tahap ini berbagai persoalan yang terlihat atau terdengar dalam tahap pertama diseleksi untuk mendapatkan perhatian dan penelitian lebih lanjut.
3) Tahap ketiga Seek to explain. Pada tahap ini evaluator mulai meneliti sebab akibat dari masing-masing persoalan. Pada tahap ini factor-faktor yang menyebabkan timbulnya persoalan dicoba untuk ditelusuri. Data semula terpisah satu dengan lainnya mulai disusun dan dihubungkan dalam kesatuan situasi. Langkah selanjutnya dilakukan interpretasi data yang diharapkan dapat dijadikan bahan dalam pengambilan keputusan[29].
Dari langkah-langkah tersebut, faktor penting dalam evaluasi model ini adalah perlunya kontak langsung antara evaluator dengan pihak yang dievaluasi. Hal ini disebabkan model ini menggunakan pendekatan kualitatif yang menekankan pentingnya menjalin kedekatan dengan orang dan situasi yang sedang dievaluasi agar dapat memahami secara personal realitas dan hal-hal rinci tentang program atau system yang sedang dikembangkan[30]. Di samping itu, factor lainnya adalah pandangannya yang holistic dalam evaluasi, yang berasumsi bahwa keseluruhan adalah lebih besar daripada sejumlah bagian-bagian[31].
Keunggulan Illuminative Model
Menekankan pentingnya dilakukan penilian yang kontinu selama proses pelaksanaan pendidikan sedang berlangsung. Jarak antara pengumpulan data dan laporan hasil penilaian cukup pendek sehingga informasi yang dihasilkan dapat digunakan pada waktunya.
Keterbatasan Illuminative Model
Kelemahan terutama terletak pada segi teknis pelaksanaannya:
1) Kegiatan penilaian tidak didahului oleh adanya perumusan kriteria secara eksplisit
2) Objektivitas penilaian yang dilakukan perlu dipersoalkan
3) Adanya kecenderungan untuk menggunakan alat penilaian yang ”terbuka” dalam arti kurang spesifik dan berstruktur.
4) Tidak menekankan pentingnya penilaian terhadap programbahan-bahan kurikulum selama bahan-bahan tersebut disusun dalam tahap perencanaan.
Kontribusi Illuminative Model[32]
Sumbangan terbesar Illuminative Model adalah kritikannya terhadap penggunaan model scientific experiment dalam penilaian pendidikan yang dirasakan kurang tepat. Pendidikan sebagai upaya ”memanusiakan manusia” tidak dapat dideskripsikan secara matematis. Aspek-aspek kemanusiaan tidak semuanya dapat dilakukan pengukuran secara mudah dan tepat, seperti: perasaan, sikap, motivasi, semangat, dan sebagainya.
C. PENUTUP
Dari uraian ringkas di atas dapat disimpulkan bahwa evaluasi dalam dunia pendidikan memiliki banyak model dan pendekatan, mulai model yang dominasi pengukuran secara kuantitatif seperti pada measurement model hingga model yang menggunakan pendekatan kualitatif seperti Illuminative model.
Dengan mempelajari berbagai model akan memperluas cakrawala serta wawasan sehingga terpancang pengunaan satu model saja, melainkan dapat menggabungkan (merger) dua model atau lebih atau bahkan mengembangkan model tersendiri. Pada prinsipnya, evaluasi yang baik adalah yang memenuhi prinsip-prinsip validitas, reliabilitas, objektivitas, kontinuitas, serta komprehensif. Sehingga informasi yang dihasilkan dapat dijadikan bahan dalam pembuatan keputusan benar dan bijak.
[1] Penulis lahir di Karanganyar, 22 Desember 1966. Menyelesaikan S-1 Fakultas Tarbiyah IAIN Sunan Kalijaga Yogyakarta tahun 1989. Menyelesaikan S-2 Pascasarjana UNY Prodi Penelitian dan Evaluasi Pendidikan tahun 2001. Mulai tahun 2007 mengambil S-3 By Research di UIN Sunan Kalijaga Yogyakarta. Menjadi Dosen Tetap STAIN Purwokerto semenjak 1991.
[1] Surakhmad, Winarno (1986), Pengantar Interaksi Mengajar Belajar: Dasar dan teknik metodologi pengajaran, edisi IV, Bandung: Tarsito. Dapat dilihat pula di Zaini, Hisyam, dkk (2002), Desain Pembelajaran di Perguruan Tinggi, Yogyakarta: CTSD IAIN Sunan Kalijaga. Lihat juga Soenarwan (1991) Pendekatan sistem dalam Pendidikan, Surakarta: UNS Press.
[2] Terdapat beberapa istilah tentang sesuatu yang ingin dicapai dalam pembelajaran. Semenjak Kurikulum 1975 dikenal istilah tujuan yang dalam implementasi operasionalnya dikenal Tujuan Instruksional Umum (TIU) dan Tujuan Instruksional Khusus (TIK) lihat Winkel, W.S. (2007), Psikologi Pengajaran, Yogyakarta: Media Abadi, hlm. 266-303. Kemudian Tujuan Pembelajaran Umum (TPU), Tujuan Pembelajaran Khusus (TPK). Dalam Kurikulum Berbasis Kompetensi dikenal istilah Standar Kompetensi (SK),Kompetensi Dasar (KD), hasil belajar, dan indikator pencapaian lihat Peraturan Menteri Pendidikan Nasional Republik Indonesia nomor 23 tahun 2006 tentang Standar Kompetensi Lulusan untuk Satuan Pendidikan Dasar dan Menengah. Lihat juga Mulyasa E. (2006), Kurikulum Tingkat Satuan Pendidikan: Sebuah Panduan Praktis, Bandung: PT Remaja Rosdakarya. Lihat pula tulisan Khaeruddin dan Mahfud Junaedi (2007), Kurikulum Tingkat Satuan Pendidikan: Konsep dan Implementasinya di Madrasah, Jogjakarta: Kerjasama Madrasah Development Center (MDC) Jateng dan Pilar Media. Apapun istilah yang dipakai pada prinsipnya adalah rumusan tentang sesuatu yang ingin dicapai dalam proses tersebut.

[3] Winkel, W.S. Op. Cit. hlm. 304 dan 531-532. Dapat dilihat juga di Sudijono, Anas (1996), Pengantar Evaluasi Pendidikan, Jakarta: Raja Grafindo Persada lihat juga Arikunto, Suharsimi (2002), Dasar-dasar Evaluasi Pendidikan (edisi revisi), Jakarta: Bumi Aksara.
[4] Guru sebagai manajer memiliki empat fungsi yaitu: merencanakan, mengorganisasikan, memimpin dan mengawasi. Lihat Davis. Ivor K.(1987), Pengelolaan Belajar, penerjemah; Sudarsono Sudirdjo, Lily Rompas, Koyo Kartasurya, Jakarta: CV Rajawali bekerja sama demngan Pusat Antar Universitas di Universitas Terbuka, hlm. 29-39. Sementara ahli mengemukan bahwa guru memiliki beberapa peran, yaitu sebagai ahli instruksional, motivator, manager, pemimpin, konselor, “Insinyur lingkungan”, model (teladan), Lihat Woolfolk, Ibid, hlm. 3-9.
[5] Michael Sriven seorang ahli dalam penelitian evaluasi melihat pembagian evaluasi secara formatif dan sumatif dari segi fungsi. Formatif difungsikan sebagai pengumpulan data pada waktu pendidikan masih berlangsung. Sedangkan evaluasi sumatif dilaksanakabn jika program kegiatan sudah betul-betul dilaksanakan. Sementara ahli memandang formatif dan sumatif menunjuk pada lingkup atau luasnya yang dinilai. Sasaran evaluasi sumatif merupakan gabungan dari sasaran evaluasi formatif. Lihat Suharsimi Arikunto (2000), Manajemen Penelitian, Jakarta: Rineka Cipta, hlm. 283.
[6] Terdapat beberapa prinsip dasar evaluasi antara lain: validitas, reliabilitas, objektivitas, praktikabilitas, ekonomis. Lihat Suharsimi Arikunto, Dasar-dasar…OpCit., hlm. 58-63.
[7] Mata pelajaran yang diujikan dalam Ujian Nasional adalah: Matematika, Bahasa Indonesia dan Bahasa Inggris. Penentuan tiga mata pelajaran ini yang mengundang polemik antara pro dan kontra. Yang kontra mempertanyakan apakah ketiga mata pelajaran tersebut dapat mewakili (representative) seluruh mata pelajaran PKn dan sebagainya.

[8] Hasan, Said Hamid, (1988), Evaluasi Kurikulum, Jakarta: Departemen Pendidikan dan Kebudayaan, Direktorat Jendral Pendidikan Tinggi; Proyek Pengembangan Lembaga Pendidikan Tenaga Kependidikan.
[9] Issac Issac, Stephen and William B Michael (1984), Handbook in research and evaluation, second edition, San Diego, California: Edits Publisher. Dalam buku ini model evaluasi diklasifikasi menjadi 6 yaitu: Goal-oriented evaluation, decision-oriented evaluation, transactional-oriented evaluation, evaluation research, goal-free evaluation, dan adversary evaluation., hlm. 7.
[10] Mehren, William M and Irvin J. Lehman (1973), Measurement and Evaluation in Education and Psychology, New York, Chicago, San Francisco, Atlanta, Dallas, Montreal, Toronto, London, Sydney: Holt, Rinehart and Winston, Inc.
[11] Sudjana, Nana dan Ibrahim (2001), Penelitian dan Penilaian Pendidikan, cetakan kedua, Bandung: Sinar Baru Algensindo, hlm. 234-260. Dalam tulisan ini model evaluasi diklasifikasi menjadi 4, yakni: Measurement model, congruence model, educational model dan illuminative model. Klasifikasi model evaluasi yang penulis sajikan dalam tulisan mengikuti model dari Sudjana dengan beberapa modifikasi dan tambahan. Seperti educational system model menurut Sudjana, penulis lebih cocok dengan system model.
[12] Tayibnapis. Farida Yusuf (2000), Evaluasi Program, Jakarta: Rineka Cipta. Hlm. 13-35. Dalam buku ini dibedakan pendekatan dengan model evaluasi. Model evaluasi diklasifikasi menjadi: Model CIPP, Model UCLA, Model Brinkerhoff dan Model Stake atau model Countenance. Sedangkan pendekatan evaluasi diklasifikasi menjadi: pendekatan eksperimental, Pendekatan berorientasi pada tujuan, pendekatan yang berfokus pada tujuan, pendekatan berorientasi kepada pemakai, pendekatan yang Responsif dan pendekatan Goal Free evaluation. Klasifikasi pendekatan evaluasi ini hamper mirip dengan pembagian menurut Worthen & Sanders.
[13] Worthen, Blaine R. and James R. Sanders (1987), Educational Evaluation: Alternative Approaches and Practical Guidelines, White Plains, New York: Longman, hlm. 41-160. Dalam buku ini Worthen & Sanders mengistilahkan dengan pendekatan evaluasi (evaluation approach). Menurutnya ada 6 pendekatan evaluasi, yaitu: objectives oriented, management oriented, consumer oriented, expertise oriented, adversary oriented dan naturalistic and participant oriented.
[14] Referensi model ini cukup banyak antara lain Allen, Mary J. & Yen, Wendy M. (1979), Inroduction to Measurement Theory, Monterey, California: Brooks/Cole Publishing Company. Lihat juga William M and Irvin J. Lehman Loc. Cit. lihat juga Hopkins, Charles D. and Richard L. Antes (1990), Classroom Measurement and Evaluation, third edition, Itasca, Illionis: F.E. Peacock Publisher, Inc. Lihat juga Suryabrata, Sumadi (1997), Pengembangan Tes Hasil Belajar, Jakarta: PT Raja Grafindo Persada. Lihat juga Azwas Saifuddin (1996), Tes Prestasi: Fungsi dan Pengembangan Pengukuran Prestasi Belajar, Yogyakarta: Pustaka Pelajar.
[15] Sudjana, Nana dan Ibrahim, Op. Cit., hlm. 235
[16] Referensi Analisis Butir Tes antara lain dapat dilihat tulisan Hambleton, Ronald K., Swaminathan, H., Jane Rogers (1991), Fundamentals of Item Response Theory, Newbury Park, London, New Delhi: Sage Publications.
[17] Ibid, hlm. 256
[18] Ibid, hlm. 241
[19] Ibid, 258 – 259.
[20] Ibid, 244
[21] Tayibnapis, Op. Cit., hlm. 21-22. Lihat juga Worthen & Sanders, Op. Cit., hlm. 130-132.
[22] Worthen & Sanders, Op. Cit., hlm. 78. Lihat juga Issac & Michael, Op. Cit., hlm. 7-12.
[23] Worthen & Sanders, Op. Cit., hlm. 68-70.
[24]Ibid. , hlm. 132-133.
[25] Untuk referensi model ini dapat juga dilihat tulisan Fetterman, David M. editor (1988), Qualitative Approaches to Evaluation in Education: The Silent Scientific Revolution, New York, Westport, Connecticut, London: Praeger.
[26] Sudjana & Ibrahim, Op. Cit., hlm. 250.
[27] Ibid, 251.
[28] Ibid, 252.
[29] Ibid, hlm. 253-253.
[30] Patton, Michael Quinn (2006), Metode Evaluasi Kualitatif, Judul asli: How to use Qualitative Methods in Evaluation, Penerjemah: Budi Puspo Priyadi, Yogyakarta: Pustaka Pelajar, hlm. 18.
[31] Ibid, hlm. 20
[32] Sudjana & Ibrahim, Op. Cit., hlm. 260