Download PERANCANGAN APLIKASI K-MEANS UNTUK PENGELOMPOKAN

Survey
yes no Was this document useful for you?
   Thank you for your participation!

* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project

Document related concepts
no text concepts found
Transcript
PERANCANGAN APLIKASI K-MEANS UNTUK PENGELOMPOKAN
MAHASISWA STMIK ELRAHMA YOGYAKARTA BERDASARKAN
FREKUENSI KUNJUNGAN KE PERPUSTAKAAN DAN IPK
Andri Syafrianto
STMIK EL RAHMA
[email protected]
Abstract
Cluster analysis is a data mining technique that aims to identify a group of objects that have a certain
characteristic similarities. The number of groups that can be identified depends on a lot of data and a variety
of objects. K-Means is one of data clustering methods which attempt to partition the data into the form of
one or more clusters / groups of data with similar characteristics. By utilizing the method of K-Means
clustering of students will be based on GPA and frequency of visits to the library in one week. The results of
this study can be obtained a conclusion that students often go to the library will have a GPA (grade point
average) is quite high.
Keywords: Clustering, K-Means, GPA, library
PENDAHULUAN
Minat baca masyarakat Indonesia pada saat sekarang ini masih tergolong sangat rendah
dikarenakan masyarakat Indonesia belum menempatkan buku sebagai kebutuhan setelah
pangan , sandang, papan. Masyarakat Indonesia masih dalam budaya melihat bukan budaya
baca. Dengan membaca buku, wawasan pengetahuan menjadi bertambah. Banyak informasi
dan pengetahuan yang akan didapatkan dari membaca buku.
Keberhasilan mahasiswa dalam pendidikannya bisa diukur dari nilai yang diperoleh
atau bisa disebut dengan index prestasi kumulatif (IPK). Tinggi rendahnya IPK mahasiswa
dapat dipengaruhi oleh beberapa faktor. Faktor-faktor tersebut antara lain faktor aktivitas
akademik, faktor fasilitas penunjang dan faktor lingkungan. Faktor aktifitas akademik
meliputi alokasi waktu belajar, waktu aktifitas ekstrakurikuler, jumlah buku pegangan yang
dimiliki, jumlah matakuliah yang telah ditempuh, dan jumlah semester aktif yang telah
dilalui. Faktor penunjang akademik meliputi frekuensi kedatangan ke perpustakaan. Faktor
lingkungan tempat tinggal meliputi jarak tempat tinggal ke kampus dan lama perjalanan dari
lokasi tempat tinggal ke kampus.
Di Lingkungan perguruan tinggi, perpustakaan merupakan salah satu unsur penunjang
bagi mahasiswa dalam mencari ilmu, sehingga perpustakaan dalam sistem pendidikan
mempunyai peranan yang strategis, yaitu mencerdaskan kehidupan bangsa.
Dalam beberapa penelitian, disebutkan ada korelasi antara IPK mahasiswa dengan
frekuensi berkunjung ke perpustakaan. Penelitian yang dilakukan oleh Berthiana dkk
disebutkan bahwa dengan menggunakan metode korelasi Pearson didapatkan korelasi
positif yang cukup tinggi antara frekuensi kunjungan mahasiswa ke perpustakaan dengan
Indeks Prestasi Komulatif (IPK) mahasiswa.
K-Means merupakan salah satu metode data clustering non hirarki yang berusaha
mempartisi data yang ada ke dalam bentuk satu atau lebih cluster/kelompok. Metode ini
mempartisi data ke dalam cluster/kelompok sehingga data yang memiliki karakteristik sama
dikelompokkan ke dalam satu cluster yang sama [1]. Dengan metode K-Means akan
dilakukan pengelompokan mahasiswa berdasarkan IPK dan frekuensi kunjungan ke
perpustakaan. Tujuan dari penelitian ini adalah merancang suatu aplikasi untuk
mengelompokkan mahasiswa STMIK ELRAHMA Yogyakarta berdasarkan frekuensi
kunjungan ke perpustakaan dan IPK menggunakan metode klasifikasi K-Means.
METODE PENELITIAN
Data yang digunakan pada penelitian ini diperoleh dengan cara mengambil langsung
data sampel dari beberapa mahasiswa. Data yang diambil dari beberapa mahasiswa tersebut
adalah IPK yang didapat dan frekuensi berkunjung ke perpustakaan STMIK EL-RAHMA
Yogyakarta dalam satu minggu. Jumlah sampel yang diambil sebanyak 75 orang mahasiswa
yang tercatat sebagai mahasiswa S1 Teknik Informatika semester 3 STMIK ELRAHMA
Yogyakarta. Analisis data dilakukan untuk mengetahui pengelompokan mahasiswa
berdasarkan parameter IPK dan frekuensi kunjungan ke perpustakaan dengan metode KNearest dengan alat bantu perangkat lunak (software) Microsoft Excel.
Secara umum, langkah-langkah yang dilakukan dalam penelitian ini adalah menyusun
data-data yang akan diolah termasuk parameter dan alternatif yang akan dirangking,
mempelajari metode K-Means yang akan digunakan untuk melakukan klasifikasi, dan yang
terakhir merancang serta melakukan proses perhitungan menggunakan metode K-Means
untuk mendapatkan nilai pengelompokan mahasiswa berdasarkan IPK dan frekuensi
kunjungan ke perpustakaan.
Tinjauan singkat K-Means
Data mining adalah suatu istilah yang digunakan untuk menguraikan penemuan
pengetahuan di dalam database. Data mining adalah proses yang menggunakan statistik,
matematika, kecerdasan buatan, dan machine learning untuk mengekstraksi dan
mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terkait dari berbagai
database besar [2].
Model dalam data mining dibuat berdasarkan salah satu dari dua jenis pembelajaran
supervised dan unsupervised. Fungsi pembelajaran supervised digunakan untuk memprediksi
suatu nilai. Fungsi pembelajaran unsupervised digunakan untuk mencari struktur instrinsik,
relasi dalam suatu data yang tidak memerlukan kelas atau label sebelum dilakukan proses
pembelajaran. Contoh dari algoritma pembelajaran unsupervised, diantaranya k-means
clustering dan apriori association rules. Contoh dari algoritma pembelajaran supervised yaitu Naïve
Bayes untuk klasifikasi.
Metode data mining dapat diklasifikasikan berdasarkan fungsi yang dilakukan atau
berdasarkan jenis aplikasi yang menggunakannya :
1. Klasifikasi (supervised)
2. Clustering (unsupervised)
3. Association rules (unsupervised)
4. Attribute Importance (supervised)
K-Means
Salah satu kemampuan yang dimiliki oleh data mining adalah kemampuannya untuk
melakukan proses pengklusteran pada suatu data. Analisis cluster merupakan salah satu
teknik data mining yang bertujuan untuk mengidentifikasi sekelompok obyek yang
mempunyai kemiripan karakteristik tertentu yang dapat dipisahkan dengan kelompok
obyek lainnya, sehingga obyek yang berada dalam kelompok yang sama relatif lebih
homogen daripada obyek yang berada pada kelompok yang berbeda. Jumlah
kelompok yang dapat diidentifikasi tergantung pada banyak dan variasi data obyek.
Tujuan dari pengelompokan sekumpulan data obyek ke dalam beberapa kelompok
yang mempunyai karakteristik tertentu dan dapat dibedakan satu sama lainnya adalah
untuk analisis dan interpretasi lebih lanjut sesuai dengan tujuan penelitian yang
dilakukan. Model yang diambil diasumsikan bahwa data yang dapat digunakan adalah
data yang berupa data interval, frekuensi dan biner. Set data obyek harus mempunyai
peubah dengan tipe yang sejenis tidak campur antara tipe yang satu dengan lainnya.
Salah satu metode clustering yang paling dasar, yaitu K-means Clustering. Means berarti
nilai rata-rata dari suatu grup data (cluster). K-Means adalah suatu metode penganalisaan
data. Metode k-means berusaha mengelompokkan data yang ada ke dalam beberapa
kelompok, dimana data dalam satu kelompok mempunyai karakteristik yang sama satu
sama lainnya dan mempunyai karakteristik yang berbeda dengan data yang ada di dalam
kelompok yang lain. Dengan kata lain, metode ini berusaha untuk meminimalkan variasi
antar data yang ada di dalam suatu cluster dan memaksimalkan variasi dengan data yang ada
di cluster lainnya.
William membagi algoritma clustering ke dalam kelompok besar seperti berikut [1] :
1. Partitioning algorithms: algoritma dalam kelompok ini membentuk bermacam partisi
dan kemudian mengevaluasinya dengan berdasarkan beberapa kriteria.
2. Hierarchy algorithms: pembentukan dekomposisi hirarki dari sekumpulan data
menggunakan beberapa kriteria.
3. Density‐based: pembentukan cluster berdasarkan pada koneksi dan fungsi densitas.
4. Grid‐based: pembentukan cluster berdasarkan pada struktur multiple level granularity
5. Model‐based: sebuah model dianggap sebagai hipotesa untuk masing‐masing cluster dan
model yang baik dipilih diantara model hipotesa tersebut.
HASIL DAN PEMBAHASAN
Data Pengujian
Data awal yang digunakan dalam perhitungan ini berjumlah 75. Data mahasiswa
sebelum dilakukan perhitungan menggunakan metode K-Means dapat dilihat pada tabel 1.
Mhs ke-
IPK
1
2
3
4
5
3
3,83
3,75
3
1,92
6
7
8
9
10
11
12
13
14
15
16
17
3,6
1,5
2,98
3,33
3,75
3,75
3
2
3
3,54
3,67
3,45
Tabel 1. Data awal
Kunjungan ke
Mhs kePerpustakaan
2
39
3
40
3
41
1
42
1
43
2
1
1
2
1
3
1
3
2
2
2
2
44
45
46
47
48
49
50
51
52
53
54
55
3,55
3,79
3,6
3,7
3,75
Kunjungan ke
Perpustakaan
3
3
3
3
3
3,57
3,57
3,42
3,33
3,45
3,58
3,67
3,42
3,33
4
0
3,71
3
2
4
4
3
3
5
3
3
4
1
2
IPK
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
3
2,48
3,71
2
2
3,25
3,54
3,75
3,58
3
3,75
4
3,5
3,5
3,3
3,67
3,5
2,75
3,67
3,46
3,6
2
8
2
2
2
2
2
2
2
3
3
5
4
2
3
3
4
1
2
2
2
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
2,91
3,5
3,58
3,6
3,67
3,8
3
3,17
3,58
3,5
3,82
3,13
3,38
2,92
3,21
3,25
3,17
3,17
3,43
3,43
1
3
2
2
2
3
1
1
2
3
4
4
4
1
1
1
1
1
3
2
Algoritma K-Means
Algoritma ini disusun atas dasar ide yang sederhana. Pada awalnya ditentukan berapa
cluster yang akan dibentuk. Sebarang obyek atau elemen pertama dalam cluster dapat dipilih
untuk dijadikan sebagai titik tengah (centroid point) cluster. Algoritma metode K-Means
selanjutnya akan melakukan pengulangan langkah-langkah berikut sampai terjadi
kestabilan (tidak ada obyek yang dapat dipindahkan) [3]:
1. menentukan koordinat titik tengah setiap cluster,
2. menentukan jarak setiap obyek terhadap koordinat titik tengah,
3. mengelompokkan obyek‐obyek tersebut berdasarkan pada jarak minimumnya.
Flowchart dari algoritma metode K-Means dapat dilihat pada gambar 1.
Gambar 1. Flowchart algoritma metode K-Means
Berdasarkan gambar 1, langkah-langkah yang dilakukan oleh algoritma metode K-Means
adalah sebagai berikut :
1. Pengesetan nilai awal titik tengah.
Langkah pertama, menentukan pusat cluster secara acak pada data awal yang ada di tabel
1. Cluster pertama yang akan digunakan dalam perhitungan adalah C1 (1,5;1) yang artinya
IPK pada pengelompokan pertama adalah 1,5 dan frekuensi kunjungan perpustakaan
ada 1 kali dalam 1 minggu. Cluster kedua C2 (2,5;2) dan cluster ketiga yang akan
digunakan adalah C3(3,5;3).
2. Menghitung jarak obyek ke centroid dengan menggunakan rumus jarakEuclid.
Perhitungan jarak mahasiswa pertama dengan pusat cluster pertama adalah:
d11 =
(3-1,5)2 + (2-1)2 = 1,802775638
Perhitungan jarak mahasiswa pertama dengan pusat cluster kedua adalah :
d12 =
(3-2,5)2 + (2-2)2 = 0,5
Perhitungan jarak mahasiswa pertama dengan pusat cluster ketiga adalah :
d13 =
(3-3,5)2 + (2-3)2 = 1,118033989
Perhitungan jarak mahasiswa kedua dengan pusat cluster pertama adalah:
d11 =
(3,83-1,5)2 + (3-1)2 = 3,070651397
Perhitungan jarak mahasiswa kedua dengan pusat cluster kedua adalah :
d12 =
(3,83-2,5)2 + (3-2)2 = 1,664001202
Perhitungan jarak mahasiswa kedua dengan pusat cluster ketiga adalah :
d13 =
(3,83-3,5)2 + (3-3)2 = 0,33
Perhitungan yang sama dilakukan untuk data ketiga hingga ke tujuh puluh lima. Hasil
perhitungan jarak mahasiswa dengan ketiga pusat cluster dapat dilihat pada tabel 2.
Mhs
Ke1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
Tabel 2. Jarak setiap data mahasiswa pada iterasi yang ke-1
C1
1.802775638
3.070651397
3.010398645
1.5
0.42
2.32594067
0
1.48
2.08540164
2.25
3.010398645
1.5
2.061552813
1.802775638
2.271915491
2.38933045
2.1914607
1.802775638
7.068267114
2.425716389
1.118033989
1.118033989
2.015564437
2.271915491
2.46221445
2.307899478
2.5
3.010398645
4.716990566
3.605551275
2.828427125
2.690724809
2.951084546
3.605551275
1.25
2.38933045
2.200363606
Cluster
C2
0.5
1.664001202
1.600781059
1.118033989
1.156027681
1.1
1.414213562
1.10923397
0.83
1.600781059
1.600781059
1.118033989
1.118033989
0.5
1.04
1.17
0.95
0.5
6.000033333
1.21
0.5
0.5
0.75
1.04
1.25
1.08
1.118033989
1.600781059
3.354101966
2.236067977
1.414213562
1.280624847
1.539123127
2.236067977
1.030776406
1.17
0.96
C3
1.118033989
0.33
0.25
2.061552813
2.548803641
1.004987562
2.828427125
2.066494616
2.015564437
0.25
2.061552813
1.5
1.118033989
1.00079968
1.014347081
1.00124922
1.118033989
5.102979522
1.021812116
1.802775638
1.802775638
1.030776406
1.00079968
1.030776406
1.003194896
0.5
0.25
2.061552813
1
0
0.2
0.17
1
2.136000936
1.014347081
1.00079968
1.004987562
Mhs
Ke39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
C1
2.864000698
3.040411156
2.9
2.973213749
3.010398645
2.878350222
2.298891037
3.561797299
3.514100169
2.793295545
2.885550207
4.550703242
2.772435752
2.710885464
3.905124838
1.5
2.425716389
1.41
2.828427125
2.307899478
2.32594067
2.38933045
3.047950131
1.5
1.67
2.307899478
2.828427125
3.79241348
3.414220262
3.540395458
1.42
1.71
1.75
1.67
1.67
2.779370432
2.17368351
Cluster
C2
1.45
1.632207095
1.486606875
1.562049935
1.600781059
1.464547712
1.07
2.201454065
2.165386801
1.379311422
1.471869559
3.220077639
1.35882302
1.299576854
2.5
2.692582404
1.21
1.08078675
1.414213562
1.08
1.1
1.17
1.640121947
1.118033989
1.203702621
1.08
1.414213562
2.396330528
2.096878633
2.185040045
1.084619749
1.226417547
1.25
1.203702621
1.203702621
1.365613415
0.93
C3
0.29
0.1
0.2
0.25
0.07
1.002447006
1.003194896
1.014347081
0.05
0.08
2.007211997
0.08
0.17
1.118033989
4.031128874
1.021812116
2.085209822
0
1.003194896
1.004987562
1.014347081
0.3
2.061552813
2.02704218
1.003194896
0
1.04995238
1.066255129
1.007174265
2.082402459
2.020915634
2.015564437
2.015564437
2.02704218
2.02704218
0.07
1.002447006
38
2.32594067
1.1
0.05
3. Melakukan clustering obyek dengan memasukkan setiap obyek ke dalam cluster
(grup) berdasarkan jarak minimumnya. Suatu data akan menjadi anggota dari suatu
cluster (C1, C2 maupun C3) yang memiliki jarak terkecil dari pusat cluster-nya [4]. Misalkan
untuk data pertama, jarak terkecil ada pada cluster yang ke-2 yaitu 0,5. Ini berarti
mahasiswa pertama akan menjadi anggota pada kelompok cluster yang ke-3. Demikian
juga untuk data yang kedua, jarak terkecil ada pada cluster yang ke-3 yaitu 0,33. Ini
berarti mahasiswa kedua akan menjadi anggota pada kelompok cluster yang ke-3. Posisi
cluster setiap mahasiswa dapat dilihat pada tabel 3.
Tabel 3. Posisi cluster setiap mahasiswa pada iterasi yang ke-1
Mhs Ke1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
Kelompok Cluster
C2
C3
C3
C2
C1
C3
C1
C2
C2
C2
C3
C2
C2
C2
C3
C3
C2
C2
C3
C3
C2
C2
C2
C3
C3
C3
C3
C3
C3
C3
C3
C3
C3
Mhs Ke39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
Kelompok Cluster
C3
C3
C3
C3
C3
C3
C3
C3
C3
C3
C3
C3
C3
C3
C3
C1
C3
C2
C3
C3
C3
C3
C3
C2
C2
C3
C3
C3
C3
C3
C2
C2
C2
34
35
36
37
38
C3
C3
C3
C2
C3
72
73
74
75
C2
C2
C3
C2
4. Langkah selanjutnya menghitung pusat cluster baru.
Pusat cluster yang baru ditentukan berdasarkan pengelompokan anggota masing-masing
cluster. Berdasarkan tabel 3, cluster yang pertama untuk parameter IPK mahasiswa
memiliki 3 anggota yaitu mahasiswa ke-5, ke-7 dan ke-54.
Pusat cluster baru untuk cluster yang pertama dihitung berdasarkan rata‐rata koordinat
ketiga anggota tersebut adalah:
C1IPK(baru) = (1,92 + 1,5 + 0)/3 = 1,14
Cluster yang kedua untuk parameter IPK mahasiswa memiliki 24 anggota yaitu
mahasiswa ke- 1, 8, 9, 10, 12, 13, 14, 17, 18, 21, 22, 23, 35, 37, 56, 62, 63, 69, 70, 71, 72,
73 dan 75.
Pusat cluster baru untuk cluster yang kedua dihitung berdasarkan rata‐rata koordinat
kedua puluh empat anggota tersebut adalah :
C2IPK(baru) = (3+2,98+3,33+3,75+3+2+3+3,45+3+2+2+3,25+2,75+
3,46+2,91+3,17+2,92+3,21+3,25+3,17+3,17+3,43)/24
= 3,0083
Cluster yang ketiga untuk parameter IPK mahasiswa memiliki 48 anggota.
Pusat cluster baru untuk cluster yang ketiga dihitung berdasarkan rata‐rata koordinat ke
empat puluh delapan anggota tersebut adalah :
C3IPK(baru) = (171,12/48) = 3,565
Pusat cluster baru untuk parameter frekuensi kunjungan ke perpustakaan adalah :
C1kunjungan_perpustakaan (baru) = 3/3
=1
C2kunjungan_perpustakaan (baru) = 36/24 = 1,5
C3kunjungan_perpustakaan (baru) = 146/36 = 3,0416
5. Mengulangi iterasi dengan dimulai dari langkah 2, sehingga cluster yang baru memiliki
angka yang tetap (tidak mengalami perubahan).
6. Iterasi ke-2 :
a. Menghitung jarak obyek ke centroid dengan menggunakan rumus jarak Euclid.
Hasil perhitungan jarak mahasiswa dengan ketiga pusat cluster pada iterasi yang ke-2
dapat dilihat pada tabel 4.
Mhs
Ke1
2
3
4
Tabel 4. Jarak setiap data mahasiswa pada iterasi yang ke-2
C1
2.111776503
3.352029236
3.288175786
1.86
Cluster
C2
0.50009999
1.709502852
1.672602762
0.50009999
C3
1.185959527
0.263058929
0.184390889
2.118135973
Mhs
Ke39
40
41
42
C1
3.131788626
3.32001506
3.170425839
3.248630481
Cluster
C2
1.594239631
1.690680336
1.611862277
1.651090549
C3
0.04472136
0.223606798
0.05
0.136014705
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
0.78
2.65548489
0.36
1.84
2.407509086
2.61
3.288175786
1.86
2.177062241
2.111776503
2.6
2.72045952
2.517161099
2.111776503
7.127103198
2.757698316
1.318938968
1.318938968
2.334973233
2.6
2.795013417
2.636967956
2.731226831
3.288175786
4.917275668
3.81701454
3.093477008
2.943739119
3.225042635
3.81701454
1.61
2.72045952
2.526341228
2.65548489
1.199208072
0.773369252
1.590628806
0.500899191
0.593632883
0.893084542
1.672602762
0.50009999
1.808341782
0.50009999
0.728628849
0.828009662
0.666033032
0.50009999
6.521571896
0.860232527
1.126987134
1.126987134
0.554616985
0.728628849
0.893084542
0.758221603
1.500033333
1.672602762
3.637320442
2.547567467
1.57800507
1.527776162
1.638780034
2.547567467
0.563560112
0.828009662
0.672681202
0.773369252
2.623756848
1.040432602
2.90628629
2.123605425
1.067333125
2.04792578
0.184390889
2.118135973
1.570509471
1.185959527
1.040432602
1.044796631
1.046900186
1.185959527
5.078356033
1.04938077
1.883215336
1.883215336
1.088117641
1.040432602
1.055461984
1.040048076
0.571401785
0.184390889
2.006614064
0.9625487
0.080622577
0.272946881
0.107703296
0.9625487
2.198635941
1.044796631
1.045801128
1.040432602
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
63
64
66
67
68
69
70
71
72
73
74
75
3.288175786
3.147205109
2.627717641
3.768076432
3.714310165
3.055503232
3.154932646
4.732958905
3.032886414
2.965821977
4.144828103
1.14
2.757698316
1.77
3.093477008
2.636967956
2.65548489
2.72045952
3.328002404
1.86
2.03
2.636967956
3.093477008
4.022735388
3.600013889
3.744008547
1.78
2.07
2.11
2.03
2.03
3.040411156
2.498819721
1.672602762
1.601124605
0.750732975
2.533396929
2.520396794
1.563201842
1.604649494
3.561684994
1.555024116
1.533753566
2.688884527
3.051245647
0.860232527
0.509901951
1.57800507
0.758221603
0.773369252
0.828009662
1.695317079
0.50009999
0.52497619
0.758221603
1.57800507
2.627945966
2.502878343
2.527231687
0.508035432
0.538516481
0.554616985
0.52497619
0.52497619
1.557690598
0.652993109
0.184390889
0.04
1.04
0.971648084
0.98954535
0.126491106
0.041231056
1.962549362
0.155241747
0.243310501
1.051903037
4.111751452
1.04938077
2.144108206
0.080622577
1.040048076
1.040432602
1.044796631
0.233452351
2.118135973
2.078845834
1.040048076
0.080622577
0.992018145
1.056030303
0.978621479
2.141051144
2.07152118
2.06494552
2.078845834
2.078845834
0.145602198
1.04938077
b. Melakukan clustering obyek dengan memasukkan setiap obyek ke dalam cluster
(grup) berdasarkan jarak minimumnya. Posisi cluster setiap mahasiswa pada iterasi
ke-2 dapat dilihat pada tabel 5.
Tabel 5. Posisi cluster setiap mahasiswa pada iterasi yang ke-2
Mhs
Ke1
2
3
4
5
6
7
Kelompok
Cluster
C2
C3
C3
C2
C1
C2
C1
Mhs
Ke39
40
41
42
43
44
45
Kelompok
Cluster
C3
C3
C3
C3
C3
C3
C2
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
C2
C2
C2
C3
C2
C3
C2
C2
C2
C2
C2
C3
C2
C2
C2
C2
C2
C2
C2
C3
C3
C3
C3
C3
C3
C3
C3
C2
C2
C2
C2
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
C3
C3
C3
C3
C3
C3
C3
C3
C1
C2
C2
C3
C2
C2
C2
C3
C2
C2
C2
C3
C3
C3
C3
C2
C2
C2
C2
C2
C3
C2
c. Menghitung pusat cluster baru. Pusat cluster baru berdasarkan iterasi hitungan iterasi
ke-2 untuk parameter IPK dan frekuensi kunjungan ke perpustakaan dapat dilihat
pada tabel 6.
Tabel 6. Pusat cluster pada iterasi ke-2
Cluster Ke- IPK
Frekuensi Kunjungan Perpustakaan
1
1.14
1
2
3.28
1.66
3
3.49
3.5
7. Iterasi ke-3 :
a. Menghitung jarak obyek ke centroid dengan menggunakan rumus jarak Euclid.
Hasil perhitungan jarak mahasiswa dengan ketiga pusat cluster pada iterasi yang ke-3
dapat dilihat pada tabel 7.
Mhs
Ke1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
Tabel 7. Jarak setiap data mahasiswa pada iterasi yang ke-3
C1
2.111776503
3.352029236
3.288175786
1.86
0.78
2.65548489
0.36
1.84
2.407509086
2.61
3.288175786
1.86
2.177062241
2.111776503
2.6
2.72045952
2.517161099
2.111776503
7.127103198
2.757698316
1.318938968
1.318938968
2.334973233
2.6
2.795013417
2.636967956
2.731226831
3.288175786
4.917275668
3.81701454
3.093477008
2.943739119
3.225042635
3.81701454
1.61
2.72045952
2.526341228
2.65548489
Cluster
C2
0.440454311
1.448481964
1.420035211
0.716937933
1.511687798
0.466904701
1.898420396
0.724982758
0.343656806
0.810246876
1.420035211
0.716937933
1.853105502
0.440454311
0.428018691
0.517397333
0.380131556
0.440454311
6.39027386
0.548178803
1.32438665
1.32438665
0.341320963
0.428018691
0.5800862
0.453431362
1.368941197
1.420035211
3.416723577
2.350319127
1.357939616
1.340149245
1.395600229
2.350319127
0.84646323
0.517397333
0.384707681
0.466904701
C3
1.57800507
0.604648658
0.563560112
2.547567467
2.952100947
1.504027925
3.19532471
2.551489761
1.508509198
2.513483638
0.563560112
2.547567467
1.571655178
1.57800507
1.500833102
1.510761397
1.500533239
1.57800507
4.611951864
1.516047493
2.1142611
2.1142611
1.519078668
1.500833102
1.522366579
1.502697574
0.700071425
0.563560112
1.584329511
0.50009999
0.50009999
0.534883165
0.53141321
0.50009999
2.607220742
1.510761397
1.50029997
1.504027925
Mhs
Ke39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
C1
3.131788626
3.32001506
3.170425839
3.248630481
3.288175786
3.147205109
2.627717641
3.768076432
3.714310165
3.055503232
3.154932646
4.732958905
3.032886414
2.965821977
4.144828103
1.14
2.757698316
1.77
3.093477008
2.636967956
2.65548489
2.72045952
3.328002404
1.86
2.03
2.636967956
3.093477008
4.022735388
3.600013889
3.744008547
1.78
2.07
2.11
2.03
2.03
3.040411156
2.498819721
Cluster
C2
1.366930869
1.433771251
1.377679208
1.404279175
1.420035211
1.371021517
0.446878059
2.344184293
2.340534127
1.350740538
1.373171512
3.362692374
1.347293583
1.340932511
2.448264692
3.345743565
0.548178803
0.756637298
1.357939616
0.453431362
0.466904701
0.517397333
1.437358689
0.716937933
0.669103878
0.453431362
1.357939616
2.401499532
2.344802764
2.342135777
0.751797845
0.66370174
0.660681466
0.669103878
0.669103878
1.348369386
0.371618084
C3
0.503587132
0.583095189
0.511957029
0.542309875
0.563560112
0.506359556
1.502131818
0.504876222
0.52497619
0.501597448
0.508035432
1.510761397
0.504876222
0.52497619
0.714212853
4.293029234
1.516047493
2.566398254
0.50009999
1.502697574
1.504027925
1.510761397
0.588302643
2.547567467
2.520396794
1.502697574
0.50009999
0.599082632
0.616116872
0.511957029
2.564156781
2.515631134
2.51149358
2.520396794
2.520396794
0.503587132
1.50119952
b. Melakukan clustering obyek dengan memasukkan setiap obyek ke dalam cluster
(grup) berdasarkan jarak minimumnya. Posisi cluster setiap mahasiswa pada iterasi
ke-3 dapat dilihat pada tabel 8.
Tabel 8. Posisi cluster setiap mahasiswa pada iterasi yang ke-3
Mhs
Ke1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
Kelompok
Cluster
C2
C3
C3
C2
C1
C2
C1
C2
C2
C2
C3
C2
C3
C2
C2
C2
C2
C2
C3
C2
C1
C1
C2
C2
C2
C2
C3
C3
C3
C3
C3
C3
C33
C3
C2
C2
C2
C2
Mhs
Ke39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
Kelompok
Cluster
C3
C3
C3
C3
C3
C3
C3
C3
C3
C3
C3
C3
C3
C3
C3
C1
C2
C2
C3
C2
C2
C2
C3
C2
C2
C2
C3
C3
C3
C3
C2
C2
C2
C2
C2
C3
C2
c. Menghitung pusat cluster baru. Pusat cluster baru berdasarkan iterasi hitungan iterasi
ke-3 untuk parameter IPK dan frekuensi kunjungan ke perpustakaan dapat dilihat
pada tabel 9.
Tabel 9. Pusat cluster pada iterasi ke-3
Cluster Ke1
2
3
IPK
1,48
3,35
3,49
Frekuensi Kunjungan Perpustakaan
1,4
1,64
3,5
8. Iterasi ke-4
a. Menghitung jarak obyek ke centroid dengan menggunakan rumus jarak Euclid. Hasil
perhitungan jarak mahasiswa dengan ketiga pusat cluster pada iterasi yang ke-4 dapat
dilihat pada tabel 10.
Mhs
Ke1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
Tabel 10. Jarak setiap data mahasiswa pada iterasi ke-4
C1
1.634135857
2.842973795
2.777210831
1.571750616
0.59464275
2.203270297
0.400499688
1.55241747
1.944865034
2.304972885
2.777210831
1.571750616
1.682379268
1.634135857
2.145600149
2.270704736
2.059344556
1.634135857
6.675327707
2.309307255
0.79397733
0.79397733
1.868930175
2.145600149
2.347956558
2.184032967
2.206898276
2.777210831
4.394360022
3.292476272
2.576897359
2.42330353
2.712213118
3.292476272
1.33150291
2.270704736
2.068912758
2.203270297
Cluster
C2
0.502095608
1.44222051
1.417603612
0.729451849
1.566684397
0.43829214
1.95757503
0.739256383
0.360555128
0.754718491
1.417603612
0.729451849
1.916272423
0.502095608
0.407062649
0.481663783
0.373630834
0.502095608
6.419228926
0.509116882
1.397175723
1.397175723
0.373630834
0.407062649
0.538144962
0.427200187
1.40431478
1.417603612
3.422294552
2.364762144
1.368247054
1.360918807
1.397139936
2.364762144
0.877268488
0.481663783
0.376430604
0.43829214
C3
1.57800507
0.604648658
0.563560112
2.547567467
2.952100947
1.504027925
3.19532471
2.551489761
1.508509198
2.513483638
0.563560112
2.547567467
1.571655178
1.57800507
1.500833102
1.510761397
1.500533239
1.57800507
4.611951864
1.516047493
2.1142611
2.1142611
1.519078668
1.500833102
1.522366579
1.502697574
0.700071425
0.563560112
1.584329511
0.50009999
0.50009999
0.534883165
0.53141321
0.50009999
2.607220742
1.510761397
1.50029997
1.504027925
Mhs
Ke39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
C1
2.616275979
2.81
2.656012048
2.736494107
2.777210831
2.632128416
2.174419463
3.244009864
3.191002977
2.537892827
2.640075756
4.213798761
2.514676918
2.445914962
3.620828634
1.533101432
2.309307255
1.484890568
2.576897359
2.184032967
2.203270297
2.270704736
2.818226393
1.571750616
1.736692258
2.184032967
2.576897359
3.497942252
3.079366818
3.220248438
1.494523335
1.775640729
1.81463495
1.736692258
1.736692258
2.522399651
2.040220576
Cluster
C2
1.374627222
1.429405471
1.382787041
1.40431478
1.417603612
1.377679208
0.421900462
2.361037907
2.360084744
1.363671515
1.379311422
3.375203698
1.361800279
1.360147051
2.447876631
3.41058646
0.509116882
0.776659514
1.368247054
0.427200187
0.43829214
0.481663783
1.43251527
0.729451849
0.664830806
0.427200187
1.368247054
2.406345777
2.370232056
2.36019067
0.771038261
0.655133574
0.64776539
0.664830806
0.664830806
1.362350909
0.368781778
C3
0.503587132
0.583095189
0.511957029
0.542309875
0.563560112
0.506359556
1.502131818
0.504876222
0.52497619
0.501597448
0.508035432
1.510761397
0.504876222
0.52497619
0.714212853
4.293029234
1.516047493
2.566398254
0.50009999
1.502697574
1.504027925
1.510761397
0.588302643
2.547567467
2.520396794
1.502697574
0.50009999
0.599082632
0.616116872
0.511957029
2.564156781
2.515631134
2.51149358
2.520396794
2.520396794
0.503587132
1.50119952
b. Melakukan clustering obyek dengan memasukkan setiap obyek ke dalam cluster
(grup) berdasarkan jarak minimumnya. Posisi cluster setiap mahasiswa pada iterasi
ke-4 dapat dilihat pada tabel 11.
Tabel 11. Posisi cluster setiap mahasiswa pada iterasi yang ke-4
Mhs
Ke1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
Kelompok
Cluster
C2
C3
C3
C2
C1
C2
C1
C2
C2
C2
C3
C2
C3
C2
C2
C2
C2
C2
C3
C2
C1
C1
C2
C2
C2
C2
C3
C3
C3
C3
C3
C3
C3
C3
C2
C2
C2
Mhs
Ke38
39
40
41
42
43
44
45
46
47
48
49
50
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
Kelompok
Cluster
C2
C3
C3
C3
C3
C3
C3
C3
C3
C3
C3
C3
C3
C3
C3
C1
C2
C2
C3
C2
C2
C2
C3
C2
C2
C2
C3
C3
C3
C3
C2
C2
C2
C2
C2
C3
C2
c. Menghitung pusat cluster baru. Pusat cluster baru berdasarkan iterasi hitungan iterasi
ke-4 untuk parameter IPK dan frekuensi kunjungan ke perpustakaan dapat dilihat
pada tabel 12.
Tabel 12. Pusat cluster pada iterasi ke-4
Cluster Ke1
2
3
IPK
1,48
3,35
3,49
Frekuensi Kunjungan Perpustakaan
1,4
1,64
3,5
9. Pengulangan dihentikan karena hasil perhitungan menunjukkan adanya angka pusat
cluster yang sama pada iterasi ke-3 dan ke-4. Dari hasil perhitungan didapatkan 3
kelompok cluster yaitu :
 Cluster yang pertama memiliki pusat cluster (1,48 ; 1,4) yang dapat diartikan bahwa
kelompok pertama adalah mahasiswa dengan IPK 1,48 dan frekuensi berkunjung ke
perpustakaan selama 1 minggu sebanyak 0-2 kali seminggu.
 Cluster yang kedua memiliki pusat cluster (3,35 ; 1,64 ) yang dapat diartikan bahwa
kelompok kedua adalah mahasiswa dengan IPK 3,35 dan frekuensi berkunjung ke
perpustakaan sebanyak 2-3 kali dalam satu minggu.
 Cluster yang ketiga memiliki pusat cluster (3,49 ; 3,5) yang dapat diartikan bahwa
kelompok ketiga adalah mahasiswa dengan IPK 3,49 dan frekeunsi berkunjung ke
perpustakaan sebanyak 3-4 kali dalam satu minggu.
KESIMPULAN
Berdasarkan penelitian yang dilakukan, dapat disimpulkan bahwa algoritma K-Means
bisa digunakan untuk mengelompokkan mahasiswa berdasarkan IPK dan frekuensi
berkunjung ke perpustakaan dalam satu minggu. Dari data yang dilatih, didapatkan 3
kelompok yaitu :
1. Mahasiswa dengan IPK rendah dan jarang ke perpustakaan, dengan pusat cluster (1,48 ;
1,4)
2. Mahasiswa dengan IPK cukup tinggi dan cukup sering pergi ke perpustakaan, dengan
pusat cluster (3,35 ; 1,64 )
3. Mahasiswa dengan IPK tinggi dan sering pergi ke perpustakaan, dengan pusat cluster
(3,49 ; 3,5)
DAFTAR PUSTAKA
[1] Andayani, Sri., 2007, Pembentukan Cluster dalam Knowledge Discovery in database
dengan Algoritma K-Means, Semnas Matematika dan Pendidikan Matematika.
[2] Efraim, T., dkk, 2005, Decision Support Systems and Intelligent Systems, Edisi ke-7, Dwi
Prabantini, Andi, Yogyakarta.
[3] Oyelade, Oladipupo, Obagbuwa, 2010, Application of K-Menas Clustering Algorithm
for Prediction of Students’ Acaddemic Performance, International Journal of Computer
Science and Information Security, Volume 7.
[4] Rismawan, Tedy., Kusumadewi, Sri., 2008, Aplikasi K-Means Untuk Pengelompokan
Mahasiswa Berdasarkan Nilai Body Mass Index (BMI) dan Ukuran Kerangka, SNATI.