Download Unduh file PDF ini - UNSIKA Journal Systems

Survey
yes no Was this document useful for you?
   Thank you for your participation!

* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project

Document related concepts
no text concepts found
Transcript
ALGORITMA K-MEANS UNTUK MENANGANI DATA TIDAK SEIMBANG
ALGORITMA K-MEANS UNTUK MENANGANI DATA TIDAK
SEIMBANG
Castaka Agus Sugianto
Program Studi Teknik Informatika
Politeknik TEDC Bandung, 40513 Indonesia
[email protected]
Abstrak
Untuk mendapatkan hasil yang maksimal didalam proses kelasifikasi data harus memiliki distribusi yang
sama dengan data pelatihan. Namun, kenyataanya data seperti ini, tidak selalu di jumpai banyak juga
data yang distribusinya tidak sama, di mana satu kelas mungkin diwakili oleh data dengan jumlah yang
besar, sementara kelas yang lain diwakili oleh hanya beberapa. Dari permasalahan diatas penelitian ini
mengusulkan algoritma K-Means untuk menangani dataset tidak seimbang. Data diambil dari Machine
Learning Repository Dataset di University of California Irvine (UCI). Dataset terdiri dari dua kombinasi,
yang terdiri dari variabel meteorologi dan fire weather index (FWI) untuk memprediksi ukuran
kebakaran hutan. Variabel meteorologi meliputi suhu, kelembaban relatif, kecepatan angin dan curah
hujan dan variabel fire weather index (FWI) terdiri dari Fine Fuel Moisture Code, Duff Moisture Code,
Drought Code dan Initial Spread Index. Hasil penelitian menunjukkan bahwa algoritma K-Means + C4.5
menghasilkan kinerja yang lebih baik dengan Recall 83.96%, Precision 82,76% dan F-measure 83.36%.
Kata Kunci: Algoritma C4.5, K-Means, Data tidak seimbang.
1. PENDAHULUAN
Data mining adalah kegiatan yang meliputi pengumpulan, pemakaian data historis untuk
menemukan keteraturan, pola dan hubungan dalam set data berukuran besar (Santoso, 2007). Algoritma
10 terartas didalam data mining yaitu : C4.5, K-Means, SVM, Apriori, EM, PageRenk, AdaBoost, kNN,
Naive bayes, and CART (Wu et al., 2008). Algoritma tersebut sudah banyak diterapkan diberbagai
domain dan berhasil serta tujuanya dari algoritma tersebut memaksimalkan akurasi. Kelasifikasi
merupakan bagian penting dari data mining, kelasifikasi akan beroprasi pada data yang diambil dari
distribusi yang sama dengan data pelatihan. Namun, kenyataanya data seperti ini tidak selalu ada dalam
dunia nyata, di mana satu kelas mungkin diwakili oleh data dengan jumlah yang besar, sementara kelas
yang lain diwakili oleh hanya beberapa. Data yang memiliki jumlah kelas yang tidak seimbang antar
kelas yang satu dengan yang lainya disebut “imbalaced data sets”. Di dalam mesin learning jika
mengunakan pendekatan kelasifikasi yang setandar, data tidak seimbang menghasilkan performace yang
kurang bagus (Sheng & Xiuyu, 2010). Kinerjanya yang kurang bagus karena kelasifikasi standar mungkin
mengabaikan pentingnya kelas minoritas karena perwakilannya dalam dataset tidak cukup kuat (García &
Herrera, 2009)(KrishnaVeni & Rani, 2011).
Saat ini, decision tree merupakan teknik kelasifikasi rule base, sedangakan algoritma C4.5 adalah
salah satu algoritma yang paling popular (Liu, Chawla, & Cieslak, 2010). Algoritma C4.5 memiliki
beberapa kelemahan dalam kaitannya dengan proses variabel kontinu, Mengkonsumsi terlalu banyak
waktu, C4.5 tidak memiliki kemampuan belajar tambahan yang baik, dan beberapa atribut yang tidak
relevan menyebabkan efek buruk pada pembangunan pohon keputusan, seperti "kurangnya kemampuan
belajar dari dataset tidak seimbang", dan rawan kesalahan dengan terlalu banyak kelas juga. Dataset tidak
seimbang adalah situasi di mana satu kelas berisi penanganan secara signifikan lebih tepat sampel dari
yang lain (Khalilia, Chakraborty, & Popescu, 2011). Oleh karena itu, keberhasilan pohon keputusan
tergantung pada asumsi bahwa ada jumlah yang sama dari informasi untuk setiap kelas yang terkandung
dalam data pelatihan yang ditetapkan. Namun dalam kasus-kasus di mana satu set data training cenderung
memiliki distribusi kelas tidak seimbang, hal itu menyebabkan C4.5 untuk memiliki bias terhadap kelas
mayoritas. prediksi yang akurat biasanya berhubungan dengan kelas minoritas, kelas minoritas biasanya
memiliki hal penting yang lebih besar (Liu et al., 2010). Salah satu cara menyelesaikan permasalahan
ketidak seimbangan kelas yaitu dengan memodifikasi data trening dengan metode oversampling untuk
kelas minoritas atau under-sampling untuk kelas mayoritas (Liu et al., 2010).
Berdasarkan permasalahan tersebut berarti algoritma C4.5 memerlukan algoritma lain untuk
menangani dataset yang tidak seimbang, peneliti coba menggunakan teknik pengelompokan dengan
algoritma K-Means untuk menangani dataset tidak seimbang. Kombinasi ini sebagai bagian dari
ISSN 2302-156X
Syntax Vol. 4 Ed. 1 Tahun 2015 | 7
ALGORITMA K-MEANS UNTUK MENANGANI DATA TIDAK SEIMBANG
kontribusi penelitian. Tujuan dari penelitian ini adalah untuk menangani dataset tidak seimbang
menggunakan K-Means.
2. METODOLOGI PENELITIAN
2.1. Tipe Metode Penelitian
Penelitian ini merupakan penelitian eksperimen, karena responden ditugaskan untuk berkelompok
berdasarkan beberapa kriteria, yang sering disebut perlakuan variabel atau perlakuan kondisi (Salkind,
2009).
2.2. Metode yang diusulkan
Skema dan pemodelan penelitian disajikan pada Gambar 1. Seluruh tahapan sebagai berikut:
dimulai dengan pemilihan dataset. Pada tahap kedua, data dilakukan pre processing . Pada tahap ketiga
data yang diolah di cluster menggunakan algoritma K-Means. Terakhir data hasil clustering di
gabungkan dengan kelas minoritas, dan diklasifikasikan dengan menggunakan algoritma C4.5.
Gambar 1. Metode yang di usulkan.
Seleksi data: Proses memilih data yang akan digunakan dalam proses prediksi, dataset ini dari
UCI dataset repositori.
Dataset pra-diproses: Setelah data dipilih dan kemudian dibagi menjadi tiga kategori dengan
menggunakan aturan yang diperoleh kategori berikut: kecil, menengah dan besar yang mengacu pada
nilai normalisasi.
Tabel 1. Area kebakaran dan kelas kebakaran hutan.
No
Area
Kelas kebakaran hutan
Kebakaran
1
0– 0.99
Small
2
1 – 1.99
Medium
3
≥2
Large
Aturan kategorisasi diadopsi dari aturan penelitian yang di tulis oleh Harrison dan kawan kawan.
(Yu, Omar, Harrison, Sammathuria, & Nik, 2011):
If normalized (x) <1 Then it is small
If 1 ≤ normalized (x) < 2 Then it is medium
If normalized (x) ≥ 2 Then it is large
ISSN 2302-156X
Syntax Vol. 4 Ed. 1 Tahun 2015 | 8
ALGORITMA K-MEANS UNTUK MENANGANI DATA TIDAK SEIMBANG
Rumus untuk menghitung normalisasi bisa dilihat pada rumus di bawah ini.
Normalized(xi) =
𝑥𝑖 − 𝑥̅
𝛿
Clustering: Untuk mengatasi masalah dataset tidak seimbang antara data kecil, menengah dan besar yang
pertama dilakukan untuk mengurangi ukuran dataset kategori kecil tanpa kehilangan karakter penting dari
sebuah data. Banyak metode untuk clustering tetapi Penelitian ini mengusulkan metode, algoritma kmeans untuk memecahkan masalah ini.
Klasifikasi: Sampel diklasifikasikan ke dalam 15 kelompok yang berbeda. Hasil klaster kemudian
digunakan sebagai masukan bagi Classifier tersebut. Klasifikasi merupakan salah satu teknik data mining,
yang digunakan untuk memisahkan data menjadi segmen yang tidak tumpang tindih. Dalam penelitian ini
diusulkan algoritma C4.5 untuk klasifikasi data tersebut.
Hasil Prediksi: Adalah output setelah proses klasifikasi.
Validasi: Pengujian dilakukan dengan menggunakan k-fold teknik validasi silang (cross
validation). Metode cross-validation digunakan untuk menghindari tumpang tindih dalam data pengujian.
Prosedur k-fold validasi silang dapat dilihat pada ilustrasi gambar 2 data di bagi menjadi 10 kelompok, 9
kelompok digunakan sebagai data training dan 1 kelompok data digunakan sebagai testing. 10 fold
validasi silang testing dilakukan berulang sebanyak 10 kali dan hasil pengukuranya didapat dari rata –
rata hasil testing.
Gambar 2. Ilustrasi 10 fold validasi silang
Penelitian ini untuk melakukan komparasi hasil pengujian kelasifikasi menggunakan confusion
matrix. Confusion matrix adalah visualisasi untuk mengevaluasi model kelasifikasi (Imas & Mohd, 2010).
Confusion matriks berisi informasi tentang kelas yang sebenarnya dan kelas diprediksi. Bagian kolom
mewakili kelas prediksi dan baris mewakili kelas yang sebenarnya. Confusion matrix dapat di lihat pada
tabel 2 diabawah ini(Gorunescu, 2011).
Tabel 2. Confusion Matrix dua kelas
Predicted Class
Class=Small Class=Large
A (True
B (False
Class=Small
Positive)
Negative)
Actual
Class
C (False
D (True
Class=Large
Positive)
Negative)
ISSN 2302-156X
Syntax Vol. 4 Ed. 1 Tahun 2015 | 9
ALGORITMA K-MEANS UNTUK MENANGANI DATA TIDAK SEIMBANG
2.3. Data Sample
Data kebakaran hutan dikumpulkan dari studi Cortez dan Morais ( 2007) yang dapat di download
di
UCI
Machine
Learning
Repository:
Data
Sets
(http://archive.ics.uci.edu/ml/datasets/Forest+Fires). Dataset berisi kebakaran hutan, forest fire weather
index
(FWI) komponen dalam Montesinho Natural Park, daerah sebelah timur laut dari
Portugal. Pengamatan cuaca dikumpulkan oleh Braganca Polytechnic Institute dan terintegrasi dengan
dataset kebakaran hutan. Taman ini dibagi menjadi 81 lokasi yang berbeda dengan ukuran peta 9 × 9
kotak. Dataset memiliki total 517 sampel, dari tahun 2000 sampai tahun 2007. Adapun atribut –
atributnya dapat dilihat pada tabel 3 dibawah ini.
Tabel 3. Atribut Dataset
Atribut
X
Y
Month
Day
FFMC
DMC
DC
ISI
Temperature
Relative Humidity
Wind
Rain
Area
Normalized Burnt Area
Burnt
Deskripsi
X - axis coordinate (from 1 to 9)
Y - axis coordinate (from 1 to 9)
Month of the year (January to December)
Day (of the week (Monday to Sunday)
Fine Fuel Moisture Code
Duff Moisture Code
Drought Code
Initial Spread Index
Outside temperature (in oC)
Outside relative humidity (in %)
Outside wind speed (in km/h)
Outside rain (in mm/m2)
Total burned area (in ha)
Total burned area after normalized (in ha)
Transformation from normalized burnt area (Small, Medium, and Large).
3. HASIL DAN PEMBAHASAN
3.1. Proses data sebelum digunakan
Dataset memiliki total 517 sampel, dari tahun 2000 sampai tahun 2007. Pertama dataset, variabel
area yang terbakar dirubah dari nilai kontinyu jadi variabel kategori. Setelah transformasi dari nilai
kontinyu ke bentuk kategori, ditemukan bahwa sampel untuk kategori kecil adalah 502, sementara ada 6
sampel menengah dan 9 sampel besar. Dari distribusi tersebut sampel kecil lebih banyak dari kategori
lainnya, data yang tidak seimbang memiliki efek pada kinerja metode kelasifikasi terutama pada
algoritma C4.5. Oleh karena itu, teknik clustering adalah solusi untuk mengatasi efek dari data tidak
seimbang.
Pada penelitian ini penulis menggunakan algoritma K-Means untuk mengatasi data yang tidak
seimbang. Dalam proses clustering, hasil percobaan menunjukkan bahwa jumlah cluster terbaik adalah
13, dimana 13 jadi kelompok kecil yaitu small_0 - small_12. Dan kemudian cluster digabungkan dengan
cluster menengah dan besar. Hasil gabungan cluster akan dijadikan sebagai masukan dalam proses
klasifikasi mengunakan algoritma C4.5.
3.2
Proses Normalisasi data
Normalisasi dilakukan dalam penelitian ini menggunakan rumus normalisasi, hasilnya dengan
rata-rata 12,84729 dan standar deviasi 63,65582 diperoleh dari data keseluruhan, Perhitungan normalisasi
data adalah sebagai berikut.
Normalisasi (x i) =
Normalisasi(x1)=
Normalisasi(x2)=
ISSN 2302-156X
64.1−12.84729
63.65582
71.3−12.84729
63.65582
=
=
𝑥𝑖 − 𝑥̅
(1)
𝛿
51.25271
63.65582
58.45271
63.65582
=0.805154
=0.918262
Syntax Vol. 4 Ed. 1 Tahun 2015 | 10
ALGORITMA K-MEANS UNTUK MENANGANI DATA TIDAK SEIMBANG
88.49−12.84729
Normalisasi(x3)=
63.65582
95.18−12.84729
Normalisasi(x4)=
Normalisasi(x5)=
63.65582
103.39−12.84729
Normalisasi(x517)=
63.65582
10.13−12.84729
63.65582
=
=
=
=
75.64271
63.65582
82.33271
63.65582
=1.188308
=1.293404
90.54271
63.65582
−2.71729
63.65582
=1.422379
= -0.04269
3.3
Data kategori
Daerah kebakaran dirubah dari nilai continuous ke bentuk kategori, dimana variabel kategori
terdiri dari kategori kecil, menengah, dan besar. Data kategori didapat dari data hasil perhitungan
normalisasi. Setelah dilakukan kategori data dapat ditunjukkan pada Tabel 4. di bawah ini.
Tabel 4. Data Kebakaran Hutan Setelah Kategori.
No
Normal
Burnt
1
0.805154
small
2
0.918262
small
3
1.188308
medium
4
1.293404
medium
5
1.422379
medium
6
1.45804
medium
7
2.23126
large
8
2.884775
large
9
2.954839
large
10
3.14241
large
…
…
-0.04269
…
517
small
3.4
Hasil Perbandingan
Penelitian ini membandingkan akurasi, recall, precision dan F-Measure dari hasil percobaan.
Percobaan pada data tidak seimbang dalam penelitian ini membandingkan beberapa teknik clustering
seperti yang ditunjukkan pada Tabel 5 di bawah ini.:
Tabel 5. Hasil Perbandingan Akurasi, Recall, Precision dan F-Measure
Algoritma
K-Means + C4.5
K-Medoids + C4.5
SimpleKMeans + C4.5
Akurasi
94.01%
93.04%
84.35%
Recall
83.96%
83.02%
75.72%
Precision
82.76%
82.87%
75.35%
F-Measure
83.36%
82.94%
75.54%
Selain membandingkan dengan teknik clustering yang lain penelitian ini juga membandingkan
dengan algoritma C4.5 tidak menggunakan proses clustering hasil percobaanya dapat dilihat pada tabel 6
di bawah ini.
Tabel 6. Hasil Perbandingan Akurasi, Recall, Precision dan F-Measure
Algoritma
K-Means + C4.5
C4.5
ISSN 2302-156X
Akurasi
94.01%
97.10%
Recall
83.96%
33.33%
Precision
82.76%
32.37%
F-Measure
83.36%
32.84%
Syntax Vol. 4 Ed. 1 Tahun 2015 | 11
ALGORITMA K-MEANS UNTUK MENANGANI DATA TIDAK SEIMBANG
4. SIMPULAN
Penelitian ini menggunakan metode K-Means + algoritma C4.5 untuk menangani data tidak
seimbang.
Dari hasil percobaan terakhir terbukti bahwa proses clustering menggunakan algoritma K-Means
menunjukan hasil pengujian Recall 83,96% dan Precision 82,76%. Adapun hasil sebelum menggunakan
teknik clustering Recall 33,33% dan Precision 32,37%. Hasil pengujian menunjukan bahwa Algoritma KMeans + C4.5 dapat menangani dataset tidak seimbang. Hal ini dapat dilihat bahwa nilai recall dan
precison lebih tinggi dari nilai recall dan precision sebelum proses clustering. Teknik clustering mampu
menangani dataset tidak seimbang dengan membagi kelas mayoritas menjadi beberapa kelas yang lebih
kecil.
5.
DAFTAR PUSTAKA
Cortez, P. (2007). A data mining approach to predict forest fires using meteorological data. Information
Systems, 1 – 12.
García, S., & Herrera, F. (2009). Evolutionary undersampling for classification with imbalanced datasets:
proposals and taxonomy. Evolutionary computation, 17(3), 275–306.
Gorunescu, F. (2011). Data Mining Concept Model Technique. Soft Computing (pp. 1–370). Springer.
Imas, S. S., & Mohd, H. ismail. (2010). Hotspot Occurrences Classification using Decision Tree Method.
ICT and Knowledge Engineering (pp. 46–50).
Khalilia, M., Chakraborty, S., & Popescu, M. (2011). Predicting disease risks from highly imbalanced
data using random forest. BMC medical informatics and decision making, 11, 1–13.
KrishnaVeni, C. ., & Rani, T. S. (2011). On the Classification of Imbalanced Datasets. Computer
Sciences and Technology, 2, 145–148.
Liu, W., Chawla, S., & Cieslak, D. (2010). A robust decision tree algorithm for imbalanced data sets.
Conference on Data Mining, 1–12.
Salkind, N. J. (2009). Exploring Research (7th ed., pp. 225–230). New Jersey: Pearson International
Edition.
Santoso, B. (2007). Data Mining, Teknik pemanfaatan Data untuk Keperluan Bisnis. Jogjakarta: Geraha
Ilmu.
Sheng, Z., & Xiuyu, S. (2010). Optimizing the Classification Accuracy of Imbalanced Dataset Based on
SVM. Computer Application and System Modeling (Vol. 0, pp. 338–341). IEEE.
Wu, X., Kumar, V., Ross Quinlan, J., Ghosh, J., Yang, Q., Motoda, H., McLachlan, G. J., et al. (2008).
Top 10 algorithms in data mining. Knowledge and Information Systems, 14(1), 1–37.
Yu, Y. P., Omar, R., Harrison, R. D., Sammathuria, M. K., & Nik, A. R. (2011). Pattern clustering of
forest fires based on meteorological variables and its classification using hybrid data mining
methods. Computational Biology and Bioinformatics Research, 3(July), 47–52.
6.
BIODATA PENULIS
Castaka Agus Sugianto meraih gelar Sarjana dari Prodi Teknik Informatika, Politeknik TEDC Bandung
pada tahun 2010 dan kemudian mendapat gelar Master dari Prodi Teknik Informatika, Universitas Dian
Nuswantoro - Semarang dan Master Computer Science di Universiti Teknikal Malaysia Melaka (UTeM)
pada tahun 2012. Saat ini ia adalah seorang dosen di Teknik Informatika – Politeknik TEDC Bandung dan
dapat dihubungi melalui email: [email protected] atau [email protected]
ISSN 2302-156X
Syntax Vol. 4 Ed. 1 Tahun 2015 | 12