Item Response Theory Model Empat Parameter Logistik Pada Computerized Adaptive Test

Download as pdf or txt
Download as pdf or txt
You are on page 1of 9

Jurnal Sistem Informasi Bisnis 02(2014) On-line : http://ejournal.undip.ac.id/index.

php/jsinbis 121

Item Response Theory Model Empat Parameter Logistik Pada


Computerized Adaptive Test
Aslam Fatkhudina*, Bayu Surarsob, Agus Subagioc
a
Politeknik Pratama Mulia, Tegal
b
Jurusan Matematika, Fakultas Sains dan Matematika, Universitas Diponegoro
c
Jurusan Fisika, Fakultas Sains dan Matematika, Universitas Diponegoro

Naskah Diterima : 10 Januari 2014; Diterima Publikasi : 30 Maret 2014

Abstract

One of the computer-based testing is the Computerized Adaptive Test (CAT), which is a computer-based testing system
where the items were given to the participants adapted to test the ability of the participants. Assessment methods are usually
applied in CAT is Item Response Theory (IRT). IRT models are most commonly used today is the model 3 Parameter
Logistic (3PL), which is about the discrimination, difficulty and guessing. However 3PL IRT models have not provided
information more objectively test the ability of participants. The opinion of the test participants were tested items were also to
be considered. In this study using CAT in combination with IRT model of 4PL. In this research, the development of CAT
which uses about 4 parameters, namely the discrimination, difficulty, guessing and questionnaires. The questions used were
about UAS 1 English subjects. Samples were taken from 30 students answer with the best value of the total 172 students
spread across 6 classes to measure the parameter estimation problem. Further testing using CAT application 4PL IRT models
compared to CAT 3PL IRT models. From research done shows that the CAT application combined with IRT models 4PL can
measure the ability of the test taker shorter or faster and also opportunities participants correctly answered the test items was
done tend to be better than the 3PL IRT models.

Keywords: Ability; CAT; IRT; 3PL; 4PL; Probability; Test

Abstrak

Salah satu pengujian berbasis komputer adalah Computerized Adaptive Test (CAT), yaitu sistem pengujian berbasis komputer
dimana butir soal yang diberikan kepada peserta tes disesuaikan dengan kemampuan peserta.Metode penilaian yang biasanya
diterapkan dalam CAT adalah Item Response Theory (IRT). Model IRT yang palingumum digunakan saat ini adalah model 3
Parameter Logistik (3PL), yaitu daya beda soal, tingkat kesukaran soal dan pengecoh. Namun IRT model 3PL belum
memberikan informasi kemampuan peserta tes lebih objektif. Pendapat peserta tes terhadap butir soal yang diujikan juga
perlu dipertimbangkan. Pada penelitian ini menggunakan CAT yang dikombinasikan dengan IRT model 4PL. Pada penelitian
ini dilakukan pengembangan CAT yang menggunakan 4 parameter soal, yaitu daya beda, tingkat kesulitan, pengecoh dan
kuesioner. Soal-soal yang digunakan adalah soal UAS 1 mata pelajaran Bahasa Inggris. Sampel diambil dari jawaban 30
siswa dengan nilai terbaik dari total 172 siswa yang tersebar di 6 kelas untuk mengukur estimasi parameter soal. Selanjutnya
dilakukan pengujian dengan menggunakan aplikasi CAT model IRT 4PL dibandingkan dengan CAT model IRT 3PL. Dari
penelitian yang dilakukan diperoleh hasil bahwa aplikasi CAT yang dikombinasikan dengan IRT model 4PL dapat mengukur
kemampuan peserta tes lebih singkat atau cepat dan juga peluang peserta tes menjawab benar butir soal yang dikerjakan
cenderung lebih baik dibanding IRT model 3PL.

Kata Kunci : Tingkat kemampuan; CAT, IRT,3PL, 4PL,Probabilitas, Tes

1. Pendahuluan diberikan kepada peserta tes disesuaikan dengan


kemampuan peserta tes (Ozyurt et al., 2013).
Tes adalah salah satu alat yang paling banyak Metode penilaian yang biasanya diterapkan
digunakan dalam pendidikan untuk mengukur tingkat dalam CAT adalah Item Response Theory (IRT)
kemampuan siswa (Triantafillou et al., 2008). Kemajuan atau Teori Respon Butir (Baker, 2001). IRT
terbaru dalamteknologi komputerdan teoripengujian telah merupakan model matematika yang
mempercepatperubahanformat ujiandarikonvensional memperhitungkan kemungkinan orang
(ujian menggunakanpensil dan kertas)kepengujian berbasis memberikan jawaban dengan benar untuk setiap
komputer.Salah satu pengujian berbasis komputer adalah item (Huang, Lin dan Cheng, 2009).
Computerized Adaptive Test (CAT). CAT adalah Skor yang diperoleh pada akhir dari tes ini
pengujian berbasis komputer dimana butir soal yang adalah bukan nilai ujian tetapi estimasi
kemampuan yang dikenal sebagai theta (θ) yang
*) Penulis korespondensi: fatkhudin@gmail.com
122 Jurnal Sistem Informasi Bisnis 02(2014) On-line : http://ejournal.undip.ac.id/index.php/jsinbis

memiliki nilai variasi antara +3 sampai -3.Pada skala θ, peserta didik sesuai dengan tingkat kemampuan
nilai 0 merupakan tingkat kemampuan rata-rata, nilai mereka (Ozyurt et al., 2012).
negatif merupakan tingkat kemampuan yang lebih rendah Penelitian lain yang mengkombinasikan
dari nilai rata-rata dan positif merupakan tingkat antara CAT dengan IRT misalnyamenganalisa
kemampuan lebih tinggi dari rata-rata (Huang, 2009). multi faktor DIF (Differential Item Functioning)
Ada berbagai model yang digunakan dalam IRT. Di dalam memberikan ujian nasional mata
antara model IRT yang ada, Model Tiga Parameter pelajaran matematika sekolah dasar di Brasil.
Logistik (3PL) adalah salah satu model yang paling umum Hasil analisis data menunjukkan bahwa soal
digunakan. Ketiga parameter tersebut adalah daya beda berdasarkan faktor jenis sekolah lebih
soal, tingkat kesulitan soal dan tebakan. (Huang, 2009). memuaskan dan konsisten dalam
Namun IRT model 3PL belum memberikan informasi mendistribusikan kemampuan peserta didik
kemampuan peserta tes lebih objektif. Pendapat peserta tes dibandingkan dengan soal yang berdasarkan
terhadap butir soal yang diujikan juga perlu faktor geografis (Goncalves et al., 2013).
dipertimbangkan. Untuk itu diperlukan IRT model 4PL
dengan kuisioner sebagai parameter keempatnya dari 2.2. Dasar Teori
peserta tes dalam memberi penilaianya terhadap butir soal Computerized Adaptive Test adalah sistem
yang diujikan. pengujian berbasis komputer dimana butir soal
Dari hal inilah yang melatarbelakangi penulis untuk yang diberikan kepada peserta tes disesuaikan
melakukan penelitian dengan menerapkan Item Response dengan kemampuan peserta tes (Ozyurt et al.,
Theory Model 4 Parameter Logistik pada Computerized 2013). Dalam CAT, peserta tes mengerjakan
Adaptive Tests (CAT). sejumlah butir soal sesuai dengan
kemampuannya secara berulang kali sampai
2. Kerangka Teori diperoleh kesalahan baku pengukuran SE(θ)
yang semakin konstan serta harga mutlak selisih
2.1. Pustaka Rujukan SE(θ) antar perulangan penyajian soal yang
Ada sejumlah studi dimana CAT dikombinasikan semakin kecil. Jika nilai SE(θ) sudah diperoleh,
dengan IRT telah diterapkan. Penelitian pada implementasi maka proses pengerjaan soal dapat dihentikan.
modul penilaian individu dalam sistem e-learning yang Cara penghentian penyajian soal ini disebut
berkaitan dengan proses desain dan pengembangan CAT dengan stopping rule (Samsul Hadi, 2013).
yang diintegrasikan dengan UZWEBMAT (Turkish Untuk mendapatkan nilai kesalahan baku
abbreviation of Adaptive and INtelligent WEB based pengukuran SE(θ) dan nilai selisih SE(θ) adalah
MAThematics teaching–learning system). UZWEBMAT dengan menggunakan rumus persamaan sebagai
adalah sistem pakar pembelajaran elektronik (e-learning) berikut :
yang mendukung kemampuan dan kecerdasan indivdu. Hal
ini ditujukan untuk mengajar tingkat probabilitas subjek. ( )=
Pertama, sebuah bank soal dibuat dalam penelitian ini. ∑ ( )
Bank soal ini diberikan kepada peserta didik dalam bentuk Keterangan :
lembaran kerja. Tes ini dianalisis sesuai dengan IRT (Item SE(θ) = nilai kesalahan baku pengukuran
Response Theory) atau Teori Respon Butir. Model-Data Ii(θ) = nilai fungsi informasi butir
kemampuan beradaptasi diuji pada akhir analisis. N = jumlah butir yang ada
Disimpulkan bahwa data dapat disesuaikan dengan IRT
model 3PL. Pada akhir operasi ini, bank soal akhir yang Item Response Theory (IRT) atau yang biasa
berisi 752 pertanyaan secara total diperoleh. Peserta didik disebut Teori Tes Modern yaitu penelaahan
diajarkan dengan UZWEBMAT untuk menyelesaikan butir soal dengan menggunakan teori jawaban
semua mata pelajaran dengan mengambil bagian terakhir butir soal. Teori ini merupakan suatu teori yang
dari tes yang berisi 30 pertanyaan/soal secara acak. menggunakan fungsi matematika untuk
Item/soal dalam tes ini secara dinamis dipilih dari bank menghubungkan antara peluang menjawab
soal sesuai dengan penilaian adaptif. Dari hasil tersebut benar suatu skala dengan kemampuan siswa.
diperoleh perkiraan tingkat kemampuan peserta ujian serta Nama lain IRT adalah Latent Trait Theory
informasi tingkat kesulitan tiap pertanyaan untuk (LTT), atau Characteristics Curve Theory
selanjutnya disampaikan kepada peserta ujian berikutnya. (ICC). Asal mula IRT adalah kombinasi suatu
Tingkat kemampuan peserta ujian itu kembali diperkirakan versi hukum phi-gamma dengan suatu analisis
dan diperbarui sesuai dengan jawaban dari setiap faktor butir soal (item factor analisis) kemudian
pertanyaan. Berkat modul ini, peserta didik secara bernama Teori Trait Latent (Latent Trait
individual diajarkan dengan UZWEBMAT disediakan Theory), sekarang secara umum dikenal
dengan penilaian adaptif sesuai dengan kualifikasi dan menjadi teori jawaban butir soal (Item Response
kapasitas mereka sendiri. Berbeda dengan tes klasik, Theory) (McDonald, 1999).
penilaian individu menjadi kenyataan melalui penilaian IRT terdiri atas 4 model (Hambleton, 1993),
adaptif yang memberikan kesempatan untuk mengetahui yaitu :
Jurnal Sistem Informasi Bisnis 02(2014) On-line : http://ejournal.undip.ac.id/index.php/jsinbis 123

a. Model 1 Paramater Logistik (1PL) Kurva pada gambar 1. diperoleh dari


Difficulty(tingkat kesulitan), perhitungan pada tabel 1. Tabel probabilitas
b. Model 2 Paramater Logistik (2PL) model IRT 1PL. Pada tabel 1, angka 0,05; 0,12
Difficulty(tingkat kesulitan)&Discrimination (daya dan seterusnya didapatkan dengan memasukkan
beda), persamaan 2.
c. Model 3 Paramater Logistik (3PL)
Difficulty(tingkat kesulitan), Discrimination (daya
beda) & guessing (pengecoh)
d. Model 4 Paramater Logistik (4PL)
Difficulty(tingkat kesulitan), Discrimination (daya
beda), guessing (pengecoh)& carelessness

Persamaan Model 4 Parameter Logistik dirumuskan


dengan :

( ) ( )
( )= + ( ) (2)

Keterangan : Gambar 1. Contoh Item Characteristic Curve


( ) = Probabilitas peserta ujian menjawab dengan (Sumber : Ozyurt et al., 2012)
benar
θ = estimasi kemampuan peserta ujian Tabel 1. Tabel probabilitas model IRT 3PL
menjawab dengan benar Theta
a = nilai parameter discrimination / daya beda -3 -2 -1 0 1 2 3
b = nilai parameter difficulty/ tingkat kesulitan Soal 0,05 0,12 0,27 0,50 0,73 0,88 0,95
c = nilai parameter guessing / pengecoh dari
d = nilai parameter carelessness dari soal 3. Metodologi
e = nilai eksponensial bernilai 2,718
D = faktor penskalaan harganya 1,7 3.1. Bahan Penelitian
Sumber bahan yang dipergunakan dalam
Untuk mendapatkan nilai d (parameter carelessness) penelitian ini ada 3 (tiga), yaitu soal yang
pada penelitian ini kami menggunakan data kuisioner didapat dari guru pengampu mata pelajaran,
untuk menilai masing-masing butir soal yang diujikan. jawaban dari siswa/peserta ujian dan kuisioner
Soal yang digunakan dalam penilaian hasil belajar penelaahan soal dari siswa/peserta ujian. Tujuan
haruslah valid. Soal-soal yang dibuat masih mungkin adanya kuesioner penelaahan soal dari
terjadi kekurangan atau kekeliruan yang menyangkut siswa/peserta ujian supaya penilaian lebih
aspek kemampuan spesifik yang diukur, bahasa yang objektif karena bisa jadi soal yang diberikan
digunakan, kesalahan ketik dan sebagainya. Oleh karena oleh guru pengampu mata pelajaran,
itu soal terlebih dahulu harus ditelaah. menyimpang atau tidak sesuai dengan materi
Dalam teori IRT terdapat kurva utama disebut Kurva soal yang telah diajarkannya.
Karakteristik Butir Soal (Item Characteristic Curve). Soal yang didapat dari guru pengampu
Kurva ini mewakili karakteristik suatu soal yang kemudian diinputkan ke dalam sistem untuk
menunjukkan kemungkinan seorang peserta tes dengan selanjutnya menjadi data bank soal. Penginput
kemampuan tertentu (θ) dapat menjawab dengan benar. soal bisa dari administrator sistem atau guru
Kurva ini juga disebut Item Response Function (IRF) yang bersangkutan, dalam hal ini berarti harus
yang dinotasikan dengan P(θ). terdapat data guru yang didapat dari pihak
Pada Gambar 1 menunjukkan contoh ICC dari item sekolah yang sudah diinputkan ke dalam sistem
sesuai dengan model 3 Parameter Logistik (3PL). Ketiga oleh admin. Agar siswa/peserta ujian bisa mulai
paramater itu masing-masing yaitu : a adalah indeks mengerjakan soal, siswa harus login terlebih
diskriminasi butir dengan nilai pada gambar tersebut dahulu ke dalam sistem. Karenanya perlu
sebesar 1,16, b adalah tingkat kesulitan butir soal dengan diinputkan juga data siswa oleh admin.
nilai -0,037 dan c adalah parameter estimasi dengan nilai Kuisioner yang sudah didapat, kemudian diolah
0,032, θ adalah tingkat kemampuan seseorang; e adalah agar menghasilkan nilai d sebagai parameter ke-
2,718; Pi (θ) adalah probabilitas seseorang memberikan empat dari metode IRT untuk selanjutnya
jawaban yang tepat untuk setiap i pertanyaan dengan melekat pada masing-masing butir dari bank
tingkat kemampuan θ. Model 2PL dapat diturunkan dari soal yang sudah diinputkan ke dalam sistem.
3PL dengan menetapkan c = 0 dan model 1PL dapat
diperoleh dengan menetapkan c = 0 dan a = 1.
124 Jurnal Sistem Informasi Bisnis 02(2014) On-line : http://ejournal.undip.ac.id/index.php/jsinbis

2.3. Alat Penelitian Gambaran flowchart programnya adalah


Alat penelitian yang berkaitan dengan hardware yang peserta tes diberi soal dengan nilai parameter
dipergunakan adalah laptop sebagai alat utama penelitian difficulty dari soal awal sedang (b awal = 0)
sekaligus servernya dengan spesifikasi processor core-i3 karena dianggap semua peserta tes mempunyai
2,4 GHz; RAM DDR3 dengan kapasitas 4 Gbyte; tingkat kemampuan (θ) sedang (θ awal = 0).
HardDisk 500 Gbyte; VGA onboard, Monitor dengan Jika soal awal tersebut dapat dijawab dengan
ukuran 14 inchi; DVD+RW, LAN; WLAN serta benar, diberikan soal berikutnya yang lebih
Bluetooth. Sedangkan siswa/peserta ujian dalam sulit, tetapi jika soal awal tersebut dijawab salah
mengerjakan soal dengan menggunakan komputer yang maka berikutnya diberi soal yang lebih mudah.
ada di laboratorium komputer sekolah mereka. Spesifikasi Proses tersebut dilakukan berulang-ulang
komputernya adalah processor dual core 1,75 GHz; RAM sampai stopping rule tercapai. Kemudian
DDR2 dengan kapasitas 2 Gbyte, HardDisk 120 Gbyte, tingkat kemampuan akhir (θ) peserta tes dan
VGA onboard, LED Monitor dengan ukuran 15 inch serta probabilitas yang menggunakan IRT model 4PL
DVD+RW. Karena sistem yang dibuat berbasis localhost, dihitung. Berikutnya menghitung nilai total tes.
maka dibutuhkan alat tambahan berupa switch dan kabel Terakhir, sistem menampilkan informasi berupa
UTP yang sudah diinstalasi konektor RJ-45 untuk diagram dan keterangan dari hasil perhitungan
menghubungkan semua komputer dalam laboratorium tersebut. Gambar 3 menunjukkan flowchart
tersebut. program Computerized Adaptive Test yang
dikombinasikan dengan IRT model 4PL.
2.4. Prosedur Penelitian Sedangkan Data Flow Diagram (DFD)-nya
Pada tahap ini kami mencari dan mempelajari literatur adalah siswa dan guru memberikan datanya ke
pustaka dari sejumlah jurnal atau penelitian serta buku- dalam sistem. Data diterima oleh administrator
buku referensi yang terkait dengan metode yang untuk dikonfirmasi kemudian dimasukkan ke
digunakan, yaitu Item Response Theory dan Computerized dalam sistem sebagai data yang valid. Guru
Adaptive Test. Selanjutnya dilakukan observasi untuk menginputkan soal ke dalam sistem. Soal yang
mengambil data dari tempat penelitian di SMA sudah dimasukkan ke sistem kemudian akan
Muhammadiyah 1 Pekajangan. Data yang dibutuhkan dikerjakan oleh siswa. Siswa dan guru otomatis
adalah data soal beserta kunci jawaban dan kisi-kisinya, akan menerima skor dan hasil tes dari sistem.
data guru dan data siswa serta kuisioner butir soal yang Alur tersebut bisa digambarkan dengan
didapat dari siswa. Tahap Perancangan ini dibuat arsitektur Diagram Konteks sebagai ditunjukkan pada
sistem informasi dan flowchart programnya untuk gambar 4.
kemudian dirancang DFD dan tabel. Arsitektur
sistemterdiri dari dua bagian, yaitu sisi guru dan sisi siswa
(Gambar 2). Disisi guru, dengan menggunakan desktop
atau laptop, guru mengakses halaman untuk guru. Di
halaman atau interface tersebut, guru bisa menginputkan
soal beserta kunci jawabannya. Setelah soal tersebut
dikerjakan oleh peserta ujian/siswa, sistem akan
melaksanakan sebuah penilaian ujian akhir semesteruntuk
ujiadaptif dari soal. Pada sisi siswa, dengan menggunakan
desktop atau laptop seorang siswa mengerjakan ujian
adaptif. Untuk mengembangkan sistem, diperlukan sebuah
bank soal. Sistem akan menerapkan metode IRT model 4
parameter logistik untuk memperkirakan kemampuan
siswa setelah ia menjawab soal tes.

Gambar 3. Flowchart CAT dikombinasikan


dengan IRT Model 4PL

Gambar 2. Arsitektur CAT dikombinasikan dengan IRT


Model 4PL
Jurnal Sistem Informasi Bisnis 02(2014) On-line : http://ejournal.undip.ac.id/index.php/jsinbis 125

Jawaban Soal, Kunci, TK Tabel 6. Struktur Tabel Soal


Peserta tes /
Siswa Soal
CAT Guru Tipe dan
Hasil Tes
Skor No. Nama Field Panjang Keterangan
Field
1 Kd_Soal Int (10) Kode soal
2 Isi_Soal Text Isi soal
3 Kunci_Soal char (1) Kunci soal
Admin Nilai
4 Tingkat_kesulitan float tingkat
kesulitan
Gambar 4. Konteks Diagram Pengecoh
5 Pengecoh Char (1)
jawaban
Dari DFD di atas, dihasilkan beberapa tabel sebagai
berikut: Tabel 7. Struktur Tabel Daftar_Tes
Tabel 2. Struktur Tabel Peserta Tipe dan
Tipe dan No. Nama Field Panjang Keterangan
No. Nama Field Panjang Keterangan Field
Field Kode judul
1 Kd_judul_tes Int (10)
Kode siswa tes
1 Kd_peserta Int (10)
/ peserta tes 2 Judul Varchar (50) Judul tes
Nama
2 Nama_peserta Varchar (50) lengkap Tabel 8. Struktur Tabel Tes
siswa Tipe dan
Nomor No. Nama Field Panjang Keterangan
Nomor_pesert Induk Field
3 Varchar (40)
a Peserta 1 Kd_Tes Int (10) Kode test
Didik 2 Kd_judul_tes Int (10) Kode judul tes
4 Password Varchar (10) Password Waktu
5 Kelas Varchar (10) Kelas 3 Waktu_test Timestamp
mengerjakan test
Nomor Induk
4 Kd_peserta Int (10)
Tabel 3. Struktur Tabel Kelas Peserta Didik
Tipe dan
No. Nama Field Keterangan
Panjang Field Tabel 9. Struktur Tabel Detail_Tes
1 Kd_kelas Int (10) Kode kelas Tipe dan
2 Kelas Varchar (50) Kelas No. Nama Field Panjang Keterangan
Field
Tabel 4. Struktur Tabel Mapel 1 Kd_DetailTes Int (20) Kode detail tes
Tipe dan 2 Kd_tes Int (10) Kode tes
No. Nama Field Keterangan
Panjang Field 3 Kd_Soal Int (10) Kode soal
Kode mata 4 b float Tingkat kesulitan
1 Kd_mapel Int (10)
pelajaran 5 Jawaban Char (1) Jawaban butir soal
Nama mata 6 Skor_Jawaban Int (4) Skor jawaban
2 Mapel Varchar (100)
pelajaran 7 Teta_awal float Nilai teta awal
8 Teta_akhir float Nilai teta akhir
Tabel 5. Struktur Tabel Guru 9 d float Kuisioner
Nama Tipe dan Probabilitas
No. Keterangan 10 P float
Field Panjang Field menjawab benar
1 Kd_Guru Int (5) Nomor urut Probabilitas
11 Q float
2 Kode Varchar (30) Kode guru menjawab salah
Nama 12 I float Informasi butir
3 Nama Varchar (50) 13 SE float Kesalahan baku
lengkap guru
Mata Selisih kesalahan
14 Selisih_SE float
4 Mapel Varchar (50) pelajaran baku
yang diampu
5 Password Varchar (50) Password 4. Hasil dan Pembahasan

4.1. Hasil
Penelitian ini mengambil subjek siswa/siswi
peserta Ujian Akhir Semester (UAS) 1 mata
126 Jurnal Sistem Informasi Bisnis 02(2014) On-line : http://ejournal.undip.ac.id/index.php/jsinbis

pelajaran Bahasa Inggris Tahun Pelajaran 2013/2014 di 4. 0,19 - 0,00 soal tidak dipakai/dibuang
SMA Muhammadiyah 1 Pekajangan Pekalongan. Objek Tingkat kesulitan soal berfungsi untuk
yang dipilih adalah butir soal objektif pilihan ganda dan mengetahui peluang menjawab benar suatu soal
respons butir peserta UAS 1 Bahasa Inggris. Data pada tingkat kemampuan tertentu yang biasanya
penelitian berupa butir soal pilihan ganda sejumlah 45 dinyatakan dalam bentuk indeks. Indeks tingkat
butir dan respons butir peserta UAS 1 Bahasa Inggris yang kesulitan ini pada umumnya dinyatakan dalam
dikumpulkan dengan teknik dokumentasi dan kuisioner. bentuk proporsi yang besarnya berkisar 0,00 -
Populasi penelitian ini adalah peserta UAS 1 Bahasa 1,00 (Aiken, 1994). Semakin besar indeks
Inggris meliputi 6 kelas atau 172 peserta. Dari 172 peserta tingkat kesulitan yang diperoleh dari hasil
tersebut, sebagai sampel diambil 30 peserta yang memilih hitungan, berarti semakin mudah soal itu. Suatu
jawaban benar dengan rentang lebih dari 28 soal (± soal memiliki TK= 0,00 artinya bahwa tidak
17,44%). Berdasarkan sampel yang diperoleh, selanjutnya ada siswa yang menjawab benar dan bila
dilakukan penskoran dan analisa butir soal dengan metode memiliki TK=1,00 artinya bahwa siswa
Item Response Theory (IRT) model 4 Parameter Logistik menjawab benar. Perhitungan indeks tingkat
(PL) dan kemudian dibuatkan sistem Computerized kesulitan ini dilakukan untuk setiap nomor soal.
Adaptive Test (CAT).
Hasil Analisis Butir Soal dengan metode IRT model 4 Tabel 10. Tabel hasil sebaran kelompok nilai
PL diketahui dengan langkah pertama adalah membuat No Kelompok Nilai Jumlah Siswa
tabel masukan yang berisi kunci jawaban dan pengecoh 1 82 2
dari masing-masing butir soal serta respon butir atau 2 78 1
jawaban dari masing-masing peserta. Dari tabel masukan 3 76 2
kemudian dibuat tabel penskoran. Jika jawaban sesuai 4 71 4
kunci jawaban (benar), maka akan bernilai 1, sebaliknya 5 67 1
jika jawaban tidak sesuai kunci jawaban (salah), maka 6 69 3
akan bernilai 0. Dari tabel penskoran akan didapatkan 7 67 3
skor/nilai dengan menjumlah semua jawaban benar untuk 8 64 5
masing-masing peserta ujian kemudian dikalikan 100 dan 9 62 9
dibagi jumlah soal yaitu 45 butir soal. Dari proses Jumlah 30
pemasukan dan penskoran, didapatkan hasil sebaran 9
(sembilan) kelompok nilai seperti yang ditampilkan pada Tabel 11. Tabel keterangan kualitas soal
Tabel 10. No. Parameter Keterangan Jumlah
Selanjutnya tabel penskoran tersebut diurutkan secara Soal baik
descending atau dari nilai terbesar ke nilai terkecil. Dari 2
sekali
tabel pengurutan bisa diketahui ranking, nilai terbesar Soal baik 1
yaitu 82 dan nilai terkecilnya yaitu 62. Nilai tersebut 1 Daya Beda Soal
dipakai untuk menghitung proportion correct (proporsi 13
diperbaiki
jawaban benar peserta ujian) dan nilai estimasi Soal dibuang 29
kemampuan peserta ujian (theta (θ)). Nilai theta (θ) ini Jumlah 45
nantinya akan digunakan untuk menghitung probablitas Soal sukar 6
peserta ujian ( ( )). Tingkat Soal sedang 14
Langkah berikutnya setelah tabel pengurutan terbentuk 2
Kesulitan Soal mudah 25
adalah membaginya dalam dua kelompok, yaitu 50% Jumlah 45
kelompok atas (kelompok nilai besar) dan 50% kelompok Fungsi 35
bawah (kelompok nilai kecil). Tujuannya untuk 3 Pengecoh Tidak Fungsi 10
mendapatkan nilai daya beda (a), nilai tingkat kesulitan (b) Jumlah 45
dan nilai pengecoh (c). Tabel 11. menunjukkan keterangan
kualitas soal hasil dari ketiga nilai paramater logistik Adapun klasifikasinya adalah seperti berikut
tersebut. ini :
Daya beda berfungsi untuk menghitung tingkat 1. 0,00 - 0,30 soal tergolong sukar
validitas dan menggambarkan tingkat kemampuan soal 2. 0,31 - 0,70 soal tergolong sedang
dalam membedakan antar peserta didik yang sudah 3. 0,71 - 1,00 soal tergolong mudah
memahami materi yang diujikan dengan peserta didik yang Faktor pengecoh berfungsi untuk mengetahui
belum/tidak memahami materi yang diujikan.Adapun berfungsi tidaknya jawaban yang tersedia. Butir
klasifikasinya adalah seperti berikut ini (Crocker dan soal yang baik, pengecohnya akan dipilih secara
Algina, 1986) : merata oleh siswa/siswi yang menjawab salah
1. 0,40 - 1,00 soal diterima baik (baik sekali) (5%).
2. 0,30 - 0,39 soal diterima tetapi perlu diperbaiki Sedangkan parameter ke-4 (parameter
(baik) carelessness) atau nilai d diambilkan dari
3. 0,20 - 0,29 soal diperbaiki kuisioner peserta ujian untuk menilai sendiri
Jurnal Sistem Informasi Bisnis 02(2014) On-line : http://ejournal.undip.ac.id/index.php/jsinbis 127

butir soal. Hal ini dimaksudkan agar penilaian terhadap Sedangkan Q(θ) menunjukkan nilai
butir soal lebih objektif. Setelah semua nilai parameter probabilitas/peluang peserta tes menjawab
diketahui, berikutnya memasukkan nilai-nilai tersebut salah. Kolom selisih SE menunjukkan nilai
dalam program CAT. mutlak selisih kesalahan baku pengukuran.
Computerized Adaptive Test dilakukan dengan Nilai pada kolom SE inilah yang menjadi acuan
mengambil sebuah contoh seorang siswa yang penghentian penyajian soal. Bila selisih SE
mengerjakan computerized adaptive test didapatkan hasil sudah 0,01 maka tes akan berhenti. Di kolom
seperti tertera pada tabel 12. Detail Hasil Tes. selisih SE tabel 9 di atas nilainya yang terakhir
Tabel 12 menggambarkan jumlah soal yang dijawab belum 0,01 tetapi penyajian soal tetap berhenti
oleh peserta tes. Dari total jumlah soal 45 butir, dengan di soal ke-10, itu terjadi karena kemungkinan
pola jawaban yang diinputkan, peserta tes hanya bila penyajian soal dilanjutkan, selisih SE
menjawab 10 butir soal secara acak seperti yang berikutnya akan bernilai dibawah 0,01 yaitu
ditunjukkan pada kolom i. Kolom i merupakan kode soal. 0,00.
Kolom b adalah bobot atau nilai tingkat kesukaran butir Dari data pada tabel 12 dapat diperoleh
soal. Pada kolom skor menampilkan nilai dari jawaban grafik hubungan probabilitas dengan tingkat
peserta tes. kemampuan setiap kali peserta ujian menjawab
soal yang diberikan oleh sistem. Dengan
Tabel 12. Tabel detail hasil tes mengambil contoh soal terakhir yang dikerjakan
θ
θ
Selisih
oleh peserta tes yaitu soal ke-10 didapatkan
i b Skor Stl d Pi(θ) Q(θ) grafik probabilitas yang naik seiring perubahan
Awal SE
Jwb nilai kemampuan peserta ujian, seperti
138 0 1 0 0 1,00 0,50 0,50 2,00 ditampilkan pada Gambar 5 di atas. Artinya
131 0,07 0 0 0 0,67 0,69 0,31 0,53 peluang peserta tes untuk menjawab benar butir
-
105 -0,02 1 0
0,02
0,33 0,17 0,83 0,18 soal meningkat, ekuivalen dengan kemampuan
144 0,18 1 -0,02 0,18 0,33 0,17 0,83 0,13 peserta tes.
113 0,2 1 0,18 0,2 0,33 0,17 0,83 0,10
140 0,38 0 0,2 0,2 0,67 0,72 0,28 0,10 4.2. Pembahasan
141 -0,11 0 0,2 0,2 1,00 0,37 0,63 0,09 Membandingkan CAT sebelumnya yang
- menggunakan metode IRT model 3PL tanpa
130 -0,16 1 0,2 1,00 0,50 0,50 0,07
0,16 menggunakan nilai d (nilai kuisioner dari
- peserta tes di tiap butir soal) sebagai parameter
132 0,41 0 -0,16 0,67 0,82 0,18 0,04
0,16 ke empatnya, dengan CAT pada penelitian ini
-
119 -0,39 1 -0,16 0,33 0,17 0,83 0,03 yang menggunakan metode IRT model 4PL
0,39
(menggunakan nilai d), menggunakan data dari
hasil penelitian seperti pada tabel 12 dan
1 gambar 5 grafik probabilitas, diperoleh hasil
Probabilitas

0.8 seperti ditampilkan pada tabel 13.


0.6 Tabel 13 menunjukkan peserta tes
0.4 menjawab soal sebanyak 13 butir secara acak
0.2 dari sejumlah butir soal yang ada yaitu 45 butir.
0 Ditunjukkan pada nilai terakhir di kolom selisih
-4 -2 0 2 4 SE (kesalahan baku pengukuran) yaitu 0,01
yang menjadi batas acuan untuk menghentikan
Abilitas penyajian soal.

Gambar 5. Grafik Probabilitas IRT model 4PL Tabel 13. Tabel detail hasil tes CAT yang
menggunakan metodel IRT model 3PL
Kolom skor ini berkorelasi dengan kolom θ setelah θ θ Stl Selisih
i b Skor Pi(θ) Q(θ)
Awal Jwb SE
menjawab. Jika peserta tes menjawab dengan benar, maka 138 0 1 0 0 0,50 0,50 2,00
akan bernilai 1 dan nilai pada kolom θ setelah menjawab 131 0,07 0 0 0 0,53 0,47 0,58
akan berubah positif yang menunjukkan bahwa 105 -0,02 1 0 -0,02 0,50 0,50 0,26
kemampuan peserta tes meningkat, sebaliknya jika 144 0,18 1 -0,02 0,18 0,50 0,50 0,15
113 0,2 1 0,18 0,2 0,50 0,50 0,11
jawaban peserta tes salah, maka akan bernilai 0 dan nilai 140 0,38 0 0,2 0,2 0,58 0,42 0,08
pada kolom θ setelah menjawab akan berubah negatif, 141 -0,11 0 0,2 0,2 0,37 0,63 0,06
menunjukkan kemampuan peserta tes menurun. Nilai 130 -0,16 1 0,2 -0,16 0,50 0,50 0,05
0merupakantingkat kemampuanrata-rata. Kolom d adalah 132 0,41 0 -0,16 -0,16 0,72 0,28 0,03
119 -0,39 1 -0,16 -0,39 0,50 0,50 0,04
nilai kuisioner yang diberikan oleh peserta tes ditiap butir 115 0,8 1 -0,39 0,8 0,50 0,50 0,03
soal yang dikerjakan. Kolom Pi(θ) menunjukkan nilai 137 1,4 0 0,8 0,8 0,73 0,27 0,02
probabilitas/peluang peserta tes menjawab dengan benar. 110 -0,73 0 0,8 0,8 0,07 0,93 0,01
128 Jurnal Sistem Informasi Bisnis 02(2014) On-line : http://ejournal.undip.ac.id/index.php/jsinbis

yang menggunakan metode IRT model 4PL.


Semakin banyak parameter logistik yang
1
digunakan, maka kurva probabilitasnya akan
Probabilitas 0.8
semakain meningkat.
0.6
0.4 Ucapan Terima Kasih
4PL
0.2
0 3PL Penulis mengucapkan terimakasih kepada
-5 0 5 Kepala Sekolah dan Guru Bahasa Inggris kelas
X SMA Muhammadiyah 1 Pekalonganyang
Abilitas telah mengijinkan penulis melakukan penelitian
pada institusinya.
Gambar 6. Grafik perbandingan probabilitas IRT model
3PL dengan IRT model 4PL Daftar Pustaka

Berbeda dengan CAT yang menggunakan metode IRT Aiken and Lewis R., 1994. Psychological
model 4PL seperti ditunjukkan pada tabel 9 di atas, Testing and Assessment, (Eight Edition),
dimana peserta tes hanya menjawab soal sebanyak 10 butir Boston : Allyn and Bacon.
saja. Hal ini menjelaskan kelebihan dan konstribusi dari Baker, F., 2001. The basics of item response
penelitian ini. Aplikasi CAT dengan menggunakan metode theory. ERIC clearinghouse on assessment
IRT model 4PL dapat mengukur kemampuan peserta tes and evaluation. College Park,MD:
lebih singkat atau cepat. Apabila data di tabel 13 dibuat University of Maryland.
grafik, dengan mengambil contoh soal terakhir yang Crocker, L. and Algina, J., 1986. Introduction to
dikerjakan oleh peserta tes yaitu soal ke-13 kemudian Classical and Modern Test, Theory_. New
dibandingkan dengan grafik probabilitas IRT model 4PL York : Holt, Rinehart and Winston, Inc.
yang terdapat pada gambar 5di atas, akan diperoleh grafik Goncalves, F.B., Gamerman, D., Soares T.M.,
perbandingan seperti gambar 6 di atas. Pada grafik 2013. Simultaneous multifactor DIF
ditunjukkan bahwa peluang (probabilitas) peserta tes analysis and detection in Item Response
menjawab benar pada IRT model 4PL lebih baik Theory, Computational Statistics and Data
dibandingkan peluang (probabilitas) peserta tes menjawab Analysis 59, 144 – 160.
benar pada IRT model 3PL. Grafik tersebut juga Hambleton, R.K., 1993. Principles and Selected
menjelaskan makin banyak parameter logistik yang Applications of Item Response Theory. In
digunakan, maka kurva probabilitasnya akan semakain Linn, Robert L. (Editor). Educational
meningkat. Sekali lagi ini menjelaskan kelebihan dari Measurement. Third Edition. Phoenix:
sistem pada penelitian, yaitu probabilitas/peluang peserta American Council on Education, Series on
tes menjawab benar cenderung naik. Higher Education Oryx Press.
Huang Y.M., Lin, Y.T. and Cheng S.C., 2009.
3. Kesimpulan An adaptive testing system for supporting
versatile educational assessment, Journal of
Setelah melakukan pengujian terhadap metode IRT Computers & Education 52, 53–67.
model 4PL yang dikombinasikan dengan Computerized McDonald R.P., 1999. Test Theory: A Unified
Adaptive Tes (CAT) maka didapatkan kesimpulan bahwa Treatment, Larvrence Erbaum Associates
estimasi terhadap parameter soal dapat dilakukan secara Publishers, New Jersey.
otomatis oleh sistem. Dengan menggunakan algoritma Ozyurt H., Ozyurt O., Baki A. and Guven B.,
Computerized Adaptive Test (CAT) dengan Item Response 2012. Integrating computerized adaptive
Theory model4PL, pembuat soal dapat mengestimasi testing into UZEWEBMAT :
parameter soal tanpa harus bergantung kepada para ahli. Implementation of individualized
Parameter soal yang diperoleh dari estimasi parameter assessment module in an e-learning system,
secara otomatis tersebut dapat digunakan untuk adaptive Journal Expert System with Application, 39,
online test. Dari data hasil penilitian yang terdapat pada 9837 – 9847.
pembahasan, menunjukkan bahwa aplikasi CAT yang Ozyurt H., Ozyurt O. and Baki A., 2013. Design
menggunakan metode IRT model 4PL dapat mengukur and development of an innovative
tingkat kemampuan dan probabilitas/peluang peserta tes individualized adaptive and intelligent e-
menjawab benar butir soal dengan dengan lebih baik. learning system for teaching–learning of
Kelebihan dari aplikasi CAT yang menggunakan metode probability unit: Details of UZWEBMAT,
IRT model 4PL adalah dapat mengukur kemampuan Journal Expert System with Application, 40,
peserta tes lebih singkat atau cepat dan juga peluang 2914 – 2940.
peserta tes menjawab benar butir soal yang dikerjakan
cenderung lebih baik dibandingkan dengan aplikasi CAT
Jurnal Sistem Informasi Bisnis 02(2014) On-line : http://ejournal.undip.ac.id/index.php/jsinbis 129

Samsul, H., 2013. Pengembangan Computerized Adaptive Triantafillou E., Georgiadou E. and Economides
Test Berbasis Web, Yogyakarta : Aswaja Pressindo. A.A., 2008. The design and evaluation of a
Sharkness J. and DeAngelo L., 2011. Measuring Student computerized adaptive tes on mobile
Involvement: A Comparison of Classical Test Theory devices, Journal of Computers & Education
and Item Response Theory in the Construction of 50, 1319–1330.
Scales from Student Surveys, Journal Springer Res
High Educ 52, 480–507.

You might also like

pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy