Download pengelompokan mahasiswa berdasarkan nilai ujian nasional dan

Survey
yes no Was this document useful for you?
   Thank you for your participation!

* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project

Document related concepts
no text concepts found
Transcript
Seminar Nasional Informatika 2014
PENGELOMPOKAN MAHASISWA BERDASARKAN NILAI UJIAN
NASIONAL DAN IPK MENGGUNAKAN METODE K-MEANS
Hartatik
STMIK Amikom
Manajemen Informatika STMIK AMIKOM Yogyakarta
Jl. Ringroad Utara, Condong Catur, Depok, Sleman, Yogyakarta
E-mail : [email protected]
Abstrak
Seleksi mahasiswa baru di STMIK AMIKOM Yogyakarta dilakukan lewat 2 cara yaitu seleksi penerimaan
mahasiswa baru dengan ujian tertulis dan seleksi penerimaan mahasiswa baru berprestasi (PJ2AB). Pembeda
antara tes tertulis dan tes PJ2AB adalah nilai UN calon mahasiswa. Mahasiswa yang memiliki nilai ujian
nasional (UN) lebih dari 7,5 akan mengikuti tes PJ2AB yang berupa wawancara langsung. Namun bagi calon
mahasiswa yang memiliki nilai ujian nasional kurang dari 7,5 wajib mengikuti tes tertulis. Diharapkan calon
mahasiswa yang mengikuti seleksi PJ2AB akan memiliki prestasi dan nilai akademik yang lebih baik
dibandingkan mahasiswa yang mengikuti ujian tertulis. Namun pada kenyataannya, didapatkan beberapa
mahasiswa yang mengikuti tes seleksi masuk melalui jalur PJ2AB tidak memiliki IPK yang lebih baik
dibandingkan dengan mahasiswa yang mengikuti tes seleksi masuk melalui tes tertulis. K-Means merupakan
salah satu algoritma dalam data mining yang bisa digunakan untuk melakukan pengelompokan/clustering
suatu data. Parameter yang digunakan sebagai inputan pada kasus ini ada 2 yaitu tes seleksi masuk dan nilai
ujian nasional mahasiswa. Metode K-Means akan membagi mahasiswa STMIK AMIKOM Yogyakarta
kedalam n cluster sehingga akan didapatkan pola pengelompokan yang diharapkan dapat memperlihatkan
asosiasi antara tes masuk dan IPK mahasiswa STMIK AMIKOM Yogyakarta.
Kata Kunci : Tes seleksi masuk, IPK, clustering, K-Means
1.
Pendahuluan
STMIK AMIKOM Yogyakarta adalah
salah satu perguruan tinggi swasta di kota
Yogyakarta. Setiap tahunnya, STMIK AMIKOM
Yogyakarta menerima kurang lebih 2500
mahasiswa. Seleksi yang diterapkan oleh STMIK
AMIKOM Yogyakarta untuk dapat menyeleksi
kandidat mahasiswa baru yang potensial
dilakukan lewat 2 cara yaitu tes tertulis dan tes
seleksi penerimaan mahasiswa baru lewat
wawancara yang sering disebut jalur PJ2AB
(Jalur Penelusuran Prestasi Akademik dan Bakat).
Tes tertulis adalah seleksi masuk yang
diikuti oleh calon mahasiswa yang memiliki nilai
UN (Ujian Nasional) kurang dari 2,75. Tes ini
terdiri
dari
pertanyaan-pertanyaan
umum
(psikotes dan tes akademik) yang harus dijawab
oleh peserta atau calon mahasiswa dengan waktu
maksimal 100 menit. Peserta tes akan dinyatakan
lulus jika mampu menjawab pertanyaan dengan
benar lebih dari 50% dari jumlah soal yang
tersedia.
JP2AB (Jalur Penelusuran Prestasi
Akademik dan Bakat) adalah ujian masuk yang
diselenggarakan
untuk
menyaring
calon
mahasiswa yang memiliki prestasi akademik
(dibuktikan dengan nilai UN lebih dari 2,75) dan
bakat (seni, olahraga dan IPTEK). Mahasiswa
yang mengikuti jalur ini akan mengikuti tes
berupa wawancara langsung.
Secara sekilas, yang menjadi pembeda
antara tes tertulis dan tes jalur PJ2AB adalah nilai
UN. Diharapkan calon mahasiswa yang mengikuti
seleksi PJ2AB akan memiliki prestasi dan nilai
akademik yang lebih baik dibandingkan
mahasiswa yang mengikuti ujian tertulis.
Menurut penelitian yang dilakukan oleh
Suparyoko (1997), dilihat dari dimensi prediksi,
proses seleksi masuk menggunakan nilai UN agak
sullit dipertanggungjawabkan. Alasannya, nilai
UN lebih mengacu pada kurikulum SMU, bukan
mengacu pada kurikulum perguruan tinggi. Ada
kesangsian pada dimensi efektivitas prediksi yang
menjadikan nilai UN sebagai penentu utama
kelulusan tes masuk perguruan tinggi. Untuk
melihat asosiasi antara nilai UN (Ujian Nasional)
dan IPK (indeks prestasi kumulatif) mahasiswa
digunakanlah algoritma K-Means. Dengan
algoritma K-Means diharapkan dapat diketahui
pola
pengelompokan
mahasiswa
STMIK
AMIKOM Yogyakarta berdasarkan kedua
parameter tersebut.
Data, informasi dan pengetahuan memiliki
peranan dan nilai yang penting dalam berbagai
aktivitas manusia. Data mining adalah proses
penemuan
suatu
pengetahuan
dengan
menganalisis sejumlah besar data dari berbagai
35
Seminar Nasional Informatika 2014
perspektif dan meringkasnya menjadi suatu
informasi.
Pentingnya
pencarian
pengetahuan/informasi dari suatu data yang
berukuran besar membuat data mining menjadi
komponen yang penting dalam mengekstrak suatu
pengetahuan yang dapat berguna dalam suatu
sistem. Pada penelitian yang dilakukan oleh
Chuchra (2012), disebutkan bahwa data mining
dapat digunakan untuk mengevaluasi kinerja
siswa. Dengan menggunakan algoritma yang ada
dalam data mining, dicoba untuk mengekstrak
pengetahuan yang bisa menggambarkan kinerja
siswa pada akhir semester. Hasil ekstraksi ini
dapat digunakan untuk membantu dalam
mengidentifikasi siswa yang mungkin akan putus
sekolah dan membantu siswa yang membutuhkan
perhatian khusus serta mengantisipasi keadaan
tersebut dengan memberikan seorang profesor
yang tepat untuk membantu menasehati dan
membimbing para siswa.
Penelitian yang dilakukan oleh Tiwari,
Singh dan Vimal (2013), menyebutkan bahwa
institusi pendidikan adalah bagian penting dalam
masyarakat dan memainkan peranan yang penting
dalam pertumbuhan dan pembangunan suatu
bangsa. Selain itu institusi pendidikan juga
berperan untuk mengontrol dan melakukan
evaluasi serta prediksi prestasi akademik
siswanya. Prestasi akademik siswa dapat
didasarkan pada berbagai faktor seperti
kepribadian, lingkungan sosial serta psikologi dari
siswa tersebut. Educational data mining
mengimplementasikan algoritma data mining
untuk menemukan pengetahuan dari data yang
berasal dari domain pendidikan. Hasil penelitian
ini menyebutkan bahwa data mining dapat
digunakan sebagai tool pengambilan suatu
keputusan yang dapat menemukan suatu
pengetahuan dari sejumlah besar data yang bisa
digunakan dalam menilai prestasi siswa.
2.
Metode Penelitian
Penelitian
yang
diusulkan
ini
menggunakan data primer, dengan respondennya
adalah mahasiswa jurusan S1. Teknik Informatika
STMIK AMIKOM Yogyakarta angkatan 2011
dan 2012. Pengumpulan data dilakukan melalui
kuisioner yang dibagikan langsung kepada
mahasiswa. Dalam kuisioner ini, mahasiswa
diminta untuk mengisikan nim, nama, asal
SLTA/sederajat, tes seleksi yang pernah diikuti
ketika hendak mendaftar menjadi calon
mahasiswa STMIK AMIKOM Yogyakarta dan
IPK terakhir yang diperoleh.
Parameter yang digunakan untuk
melakukan pengelompokan mahasiswa terdiri dari
2 yaitu :
1. IPK
36
IPK dihitung dengan menjumlahkan indeks
prestasi (IP) yang didapat pada tiap semester
dibagi dengan jumlah semester yang telah
dilewati.
2. Tes seleksi masuk
Setelah
data
dikumpulkan,
tahapan
selanjutnya adalah studi literatur. Pada tahap
ini dipelajari berbagai macam referensi
tentang data mining dan metode K-Means
baik melalui jurnal penelitian, buku-buku
teori, tutorial, dan sumber-sumber lain
termasuk internet. Berdasarkan beberapa
literatur,
untuk
melakukan
clustering
menggunakan metode k-means ada beberapa
langkah yang harus dilakukan :
Berdasarkan beberapa buku Witten, Ian
dan Frank (2005), untuk melakukan clustering
menggunakan metode k-means ada beberapa
langkah yang harus dilakukan :
1. Langkah pertama yang dilakukan adalah
menentukan jumlah k cluster yang diinginkan
sebagai centroid awal. Algoritma k-means
membutuhkan parameter input sebanyak k
dan membagi sekumpulan n objek kedalam
k cluster sehingga tingkat kemiripan antar
anggota dalam satu cluster tinggi sedangkan
tingkat
kemiripan dengan anggota pada
cluster lain sangat rendah. Kemiripan anggota
terhadap cluster diukur dengan kedekatan
objek terhadap nilai mean pada cluster
atau dapat disebut sebagai centroid cluster
atau pusat massa. Rumus pengukuran jarak
dapat dihitung menggunakan rumus 1
(Santosa, 2007) :
(1)
2. Langkah yang kedua adalah melakukan
clustering obyek dengan memasukkan setiap
obyek ke dalam cluster (grup) berdasarkan
jarak minimumnya. Suatu data akan menjadi
anggota dari suatu cluster (C1, C2 maupun
C3) bila memiliki jarak terkecil dari pusat
cluster-nya.
3. Langkah ketiga adalah menghitung pusat
cluster baru. Pusat cluster yang baru
ditentukan
berdasarkan
pengelompokan
anggota masing-masing cluster. Pusat cluster
baru diperoleh dari rata – rata semua
data/objek dalam cluster.
4. Langkah yang keempat dilakukan dengan
mengulangi iterasi yang dimulai dari langkah
1, sehingga cluster yang baru memiliki angka
yang tetap (tidak mengalami perubahan).
3. Hasil Dan Pembahasan
orang
Sample yang digunakan berjumlah 40
dari berbagai angkatan. Tabel 1
Seminar Nasional Informatika 2014
menunjukkan data mahasiswa yang dijadikan
sample data.
Tabel 1. Data sampling
NIM
IP
UN
Data sampling pada tabel 1 dilakukan
pengelompokan menggunakan algoritma KMeans. Langkah-langkah yang dilakukan untuk
melakukan pengelompokan adalah :
Iterasi pertama
Menentukan jumlah k kluster yang
diinginkan sebagai centroid awal. Pada penelitian
ini kluster yang dibuat sebanyak 3 buah seperti
yang ditunjukkan pada tabel 2.
06.11.1009
3
7.6
11.11.5115
3.83
7
11.11.5076
3.75
6.5
11.11.5100
3
6.25
11.11.5101
1.92
7
11.11.5099
3.6
7.05
11.11.5081
1.5
6.75
11.11.5121
2.98
6.8
1.5
5
2.5
6
11.11.5090
3.33
7
11.11.5113
3.75
7.1
11.11.5108
3.75
7.5
11.11.5126
3
8
12.11.6403
2
8.5
06.11.1010
3
7
11.11.5093
3.54
6.5
11.11.5085
3.67
6.4
11.11.5117
3.45
6
11.11.5080
3
6.8
11.11.5131
2.48
6.9
11.11.5071
3.71
5.5
12.11.5749
2
12.11.5851
Tabel 2. Centroid Awal
Pusat Kluster
3.5
7
Mengukur kedekatan objek terhadap
nilai mean pada kluster atau dapat disebut
sebagai centroid kluster atau pusat massa dengan
menggunakan rumus 1. Hasil pengukuran ini
dapat dilihat pada tabel 3.
Tabel 3. Centroid Kluster pada iterasi
yang pertama
Kluster 1
Kluster 2
Kluster 3
3.001666204
1.676305461
0.781024968
3.070651397
1.664001202
0.33
2.704163457
1.346291202
0.559016994
6
1.952562419
0.559016994
0.901387819
2
6.5
2.043624232
1.156027681
1.58
11.11.5079
3.25
6.7
2.934706118
1.520690633
0.111803399
11.11.5256
3.54
6.4
1.75
1.25
2.015564437
11.11.5266
3.75
7.8
2.330321866
0.932952303
0.557135531
11.11.5213
3.58
7.9
2.710885464
1.299576854
0.17
11.11.5129
3
7.5
3.077742679
1.665082581
0.26925824
11.11.5114
3.75
7
3.363406012
1.952562419
0.559016994
12.02.8188
4
6.5
3.354101966
2.061552813
1.118033989
11.11.5123
3.5
6.8
3.535533906
2.549509757
2.121320344
11.11.5126
3.5
6.4
2.5
1.118033989
0.5
11.11.5130
3.3
6.2
2.532113742
1.153949739
0.501597448
11.11.5112
3.67
7.9
2.582421344
1.236486959
0.623618473
11.11.5180
11.11.5065
3.5
2.75
8
6.7
2.1914607
0.95
1.00124922
2.343074903
0.943398113
0.538516481
11.11.5072
11.11.5092
11.11.5110
11.11.5125
11.11.5270
3.67
3.46
3.6
3.55
3.79
6.6
7.5
7
6.6
6.5
2.137849387
0.900222195
1.024890238
2.265855247
1.309236419
1.514628667
1.118033989
0.5
1.802775638
1.58113883
0.707106781
1.58113883
2.43977458
1.025914226
0.390512484
37
Seminar Nasional Informatika 2014
2.474186735
1.114271062
0.601331855
6.932712312
0.410147534
0.926723217
3.592005011
2.1914607
0.838152731
7.258539798
0.928375463
1.520470996
3.568809325
2.185497655
0.90354856
7.915964881
1.194579842
0.161773792
2.915475947
1.58113883
0.707106781
6.914658343
1.17099146
1.964633213
3.010398645
1.600781059
0.25
7.424311416
0.559071552
0.530598978
2.915475947
1.58113883
0.707106781
7.751703039
0.949400337
0.127518948
2.690724809
1.280624847
0.2
8.029476944
1.34748692
0.312806936
2.441311123
1.077032961
0.6
8.385254916
1.597410717
0.533802354
2.163330765
0.824621125
0.824621125
8.544003745
1.666049519
1.031922627
3.622002209
2.231344886
0.915914843
8.732124598
2.206291232
2.031452631
3.605551275
2.236067977
1
7.615773106
0.731929641
0.443984653
2.110094785
0.743303437
0.807774721
7.401459316
0.936718207
0.575062228
2.696089761
1.31487642
0.434626276
7.377594459
1.059188841
0.705034741
3.176727876
1.78089865
0.501597448
6.921163197
0.92104343
1.066185446
2.9
1.486606875
0.1
7.43236167
0.572469213
0.513394571
2.600480725
1.209338662
0.403112887
7.332148389
0.536247145
0.973314814
2.737535388 1.383510029 0.578013841
Langkah selanjutnya adalah melakukan
clustering objek sehingga didapatkan data
clustering yang baru. Hasil clustering pada iterasi
yang pertama dapat dilihat dengan tabel 4.
Tabel 4. Data clustering baru pada iterasi yang
pertama
Pusat Cluster Baru
0
0
2.611
6.38
3.439032
7.066129
Langkah selanjutnya adalah mengulangi
iterasi yang dimulai dari langkah 1, sehingga
cluster yang baru memiliki angka yang tetap
(tidak mengalami perubahan).
Iterasi Kedua
Langkah pertama pada iterasi kedua adalah
menentukan jumlah k cluster berdasarkan hasil
pada iterasi yang pertama. Cluster awal pada
iterasi yang kedua sama dengan tabel 4.
Langkah kedua mengukur kedekatan
objek terhadap nilai mean. Hasil pengukuran ini
dapat dilihat pada tabel 5.
Tabel 5. Centroid Cluster pada iterasi yang
kedua
Cluster 1
38
Cluster 2
Cluster 3
8.170679286
1.280515912
0.691207302
7.979279416
1.367611421
0.3965209
7.50416551
1.14530389
0.645912546
6.634312323
1.407906602
1.589397264
6.32455532
0.719528318
1.790934101
6.800735254
0.622672466
1.546388024
7.446643539
0.714647466
0.412048132
7.313795184
0.92921526
0.673737614
8.654623042
1.820362876
0.79703672
8.673315398
1.802598402
0.845702486
8.077747211
1.185631056
0.61724658
7.941190087
1.29681186
0.317921351
7.632168761
1.394173949
0.796986128
7.647875522
0.983219711
0.273023309
7.29451849
0.889224943
0.668913263
7.023531875
0.712124287
0.877216888
8.710849557
1.85253367
0.865266946
8.732124598
1.847896372
0.93585899
7.24240982
0.348885368
0.78026657
7.551748142
1.081610373
0.520213776
8.259636796
1.405418443
0.434377328
7.871467462
1.167270748
0.174022018
7.494164396
0.96442781
0.479155627
7.52423418
1.185091136
0.666093415
Langkah selanjutnya adalah melakukan
clustering objek sehingga didapatkan data
clustering yang baru. Hasil clustering pada iterasi
yang pertama dapat dilihat dengan tabel 6.
Seminar Nasional Informatika 2014
Tabel 6. Data clustering baru pada iterasi yang
kedua
Pusat Cluster Baru
0
0
2.611
6.38
3.443667
7.095
Langkah keempat adalah membandingkan
hasil pengelompokan/cluster pada iterasi yang
pertama dan iterasi yang kedua. Jika hasil
clustering sama maka kita sudah mendapatkan
cluster yang benar. Jika tidak dilanjutkan ke
iterasi yang ketiga.
Iterasi ketiga
Langkah pertama pada iterasi ketiga
adalah menentukan jumlah k cluster berdasarkan
hasil pada iterasi yang kedua. Cluster awal pada
iterasi yang tiga sama dengan tabel 6.
Langkah kedua mengukur kedekatan
objek terhadap nilai mean. Hasil pengukuran ini
dapat dilihat pada tabel 7.
Tabel 7. Centroid Cluster pada iterasi yang
ketiga
Cluster 1
Cluster 2
Cluster 3
8.170679
1.280516
0.672209
7.979279
1.367611
0.397842
7.504166
1.145304
0.669227
6.932712
0.410148
0.954393
7.25854
0.928375
1.526625
7.915965
1.19458
0.162681
6.914658
1.170991
1.974048
7.424311
0.559072
0.549556
7.751703
0.9494
0.148139
8.029477
1.347487
0.306374
8.385255
1.597411
0.507804
8.544004
1.66605
1.007901
8.732125
2.206291
2.014497
7.615773
0.73193
0.453724
7.401459
0.936718
0.602748
7.377594
1.059189
0.730925
6.921163
0.921043
1.095018
7.432362
0.572469
0.53279
7.332148
0.536247
0.983198
6.634312
1.407907
1.617083
6.324555
0.719528
1.81196
6.800735
0.622672
1.561473
7.446644
0.714647
0.439922
7.313795
0.929215
0.701645
8.654623
1.820363
0.768678
8.673315
1.802598
0.816463
8.077747
1.185631
0.60072
7.94119
1.296812
0.320726
7.632169
1.394174
0.814575
7.647876
0.98322
0.300331
7.294518
0.889225
0.697279
7.023532
0.712124
0.906457
8.71085
1.852534
0.836213
8.732125
1.847896
0.906752
7.24241
0.348885
0.798247
7.551748
1.08161
0.54429
8.259637
1.405418
0.405329
7.871467
1.167271
0.182935
7.494164
0.964428
0.506292
7.524234
1.185091
0.688456
Langkah selanjutnya adalah melakukan
clustering objek sehingga didapatkan data
clustering yang baru. Hasil clustering pada iterasi
yang pertama dapat dilihat dengan tabel 8.
Tabel 8. Data clustering baru pada iterasi yang
ketiga
Pusat Cluster
0
2.611
3.443667
0
6.38
7.095
Langkah
keempat
adalah
membandingkan hasil pengelompokan/cluster
pada iterasi yang pertama dan iterasi yang kedua.
Hasil cluster kedua dan ketiga sama, sehingga kita
sudah mendapat nilai cluster yang tetap/stabil.
Kebutuhan Fungsional
Perangkat lunak yang dibangun memiliki
kebutuhan fungsional sebagai berikut :
1. Sistem dapat memasukkan data mahasiswa
yang akan di cluster
2. Sistem dapat memasukkan parameterparameter
3. Sistem dapat memasukkan nilai IPK dan UN
untuk masing-masing mahasiswa
4. Sistem dapat melakukan pengelompokan
data mahasiswa yang telah diinputkan.
Use Case Diagram
Kebutuhan fungsional tersebut lalu
dituangkan ke dalam diagram use case. Diagram
use case dapat dilihat pada gambar 1.
39
Seminar Nasional Informatika 2014
5. Saran
Untuk mendapatkan hasil yang lebih
akurat, sample yang digunakan perlu ditambahkan
setidaknya 10% dari jumlah mahasiswa STMIK
Amikom Yogyakarta agar didapatkan nilai cluster
yang benar-benar bisa mewakili kondisi
sebenarnya.
Daftar Pustaka
Gambar 1. Diagram use case clustering
4. Kesimpulan
Kesimpulan dari penelitian ini adalah
bahwa metode K-Means dapat digunakan untuk
melakukan pengelompokan atau peng-cluster-an
mahasiswa berdasarkan dua parameter yaitu IPK
dan nilai UN mahasiswa tersebut ketika lulus
SMU. Namun berdasarkan hasil yang didapatkan
dengan sample 40 orang mahasiswa belum
didapatkan nilai cluster yang bisa mewakili
pengelompokan mahasiswa STMIK Amikom
Yogyakarta secara keseluruhan. Hasil cluster
sementara yang didapatkan adalah {0 ; 0} untuk
cluster yang pertama, {2,611 ; 6,38} untuk cluster
yang kedua dan {3,44 ; 7,095} untuk cluster yang
ketiga. Jarak antara cluster yang pertama dan
kedua terlalu jauh sedangkan jarak antara cluster
yang kedua dan ketiga relatif terlalu dekat. Dari
nilai cluster yang didapatkan, bisa disimpulkan
bahwa nilai UN tidak menjamin seseorang akan
mempunyai nilai IPK yang relatif tinggi.
40
[1]. Chuchra, Rimmy., 2012, Use of Data
Mining Techniques for The Evaluation of
Student Performance : A Case Study,
International Journal of Computer Science
and Management Research, Vol 1.
[2]. Santosa, Budi., 2007, Data Mining Teknik
Pemanfaatan Data untuk Keperluan Bisnis,
Graha Ilmu.
[3]. Supriyoko, Ki., 23 Juni 1997, Sistem Seleksi
Masuk Perguruan Tinggi 1 dan 2, Surat
Kabar Pikiran Rakyat.
[4]. Tiwari, M., Singh, R., Vimal, N., 2013, An
Empirical Study of Data Mining Techniques
for Predicting Student Performance in
Higher Education, IJCSMC, Vol. 2, Issue 2.
[5]. Witten, Ian H., Frank, Eibe., 2005, Data
Mining Practical Machine Learning Tools
and Techniques, Second Edition, Morgan
Kaufmann, San Francisco.