Download Klasifikasi - Informatika Unsyiah

Survey
yes no Was this document useful for you?
   Thank you for your participation!

* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project

Document related concepts
no text concepts found
Transcript
Metode Klasifikasi
(SVM Light dan K-NN)
Dr. Taufik Fuadi Abidin, S.Si., M.Tech
Jurusan Informatika
FMIPA Universitas Syiah Kuala
www.informatika.unsyiah.ac.id/tfa
Alur dan Proses
Cleaning
Process
Dokumen
Berkategori
Kamus
(Dictionaries)
dari setiap
klas
Penentuan
Fitur
(Feature
Generation)
Training
Sets
SVM
Hasil: Dokumen
Baru dengan
Kategori
Models
Testing
Sets
Penentuan Fitur
Topik minggu sebelumnya telah memaparkan dan
mendiskusikan salah satu alternatif membangun
tektual fitur dari halaman Web (jika objek berupa
halaman Web), contoh fitur:
tropical_d 1:0.777777777777778 2:0.333333333333333 3:0.111111111111111 4:0
5:0.111111111111111 6:0 7:0.2875 8:0.1125 9:0.0375 10:0 11:0.0125 12:0
13:0.178947368421053 14:0.0421052631578947 15:0.0210526315789474 16:0
17:0.0210526315789474 18:0 19:0.1 20:0.024 21:0.008 22:0 23:0.004 24:0
tropical_d 1:0.833333333333333 2:0.166666666666667 3:0 4:0 5:0 6:0
7:0.298507462686567 8:0.0970149253731343 9:0.0447761194029851 10:0
11:0.0298507462686567 12:0 13:0.137349397590361 14:0.0397590361445783
15:0.0036144578313253 16:0 17:0.0108433734939759 18:0 19:0.106666666666667
20:0.0155555555555556 21:0.00222222222222222 22:0 23:0.0155555555555556
24:0.00222222222222222
Tahapan Klasifikasi
Learning (training): Pembelajaran menggunakan
data training (untuk Naïve Bayesian Classifier, nilai
probabilitas dihitung dalam proses pembelajaran)
Testing: Menguji model menggunakan data testing
Sumber: Bing Liu, Web Data Mining
Training Set
Klasifikasi adalah proses pembelajaran secara
terbimbing (supervised learning). Terbimbing karena
kategori (class label) dari setiap training sampel
diketahui
Untuk melakukan klasifikasi, training set sebagai data
pembelajaran harus ada
Attribut dari sampel baru (unclassified sample) sama
dengan atribut dari setiap sampel dalam training set
hanya saja class label-nya belum diketahui
Metode Klasifikasi
Naïve Bayesian Classifier (Probabilistics-Based
Classification)
Adalah metode classifier yang berdasarkan probabilitas dan Teorema
Bayesian dengan asumsi bahwa setiap variabel X bersifat bebas
(independence)
Dengan kata lain, Naïve Bayesian Classifier mengansumsikan bahwa
keberadaan sebuah atribut (variabel) tidak ada kaitannya dengan beradaan
atribut (variabel) yang lain
Karena asumsi atribut tidak saling terkait (conditionally independent), maka:
n
P( X | C i) = ∏ P( xk | C i)
k =1
Kategori dari sampel X (new sample) adalah class label yang memiliki
P(X|Ci)*P(Ci) maksimum
Metode Klasifikasi
K-Nearest Neighbor (K-NN) Classification
Adalah metode classifier yang menentukan kategori dari sampel baru
berdasarkan k-tetangga terdekat. k-sampel terdekat itu dihitung
berdasarkan perhitungan jarak (euclidian atau manhattan distance
K-NN juga disebut lazy classifier
K-NN adalah distance-based classification
Sumber: http://en.wikipedia.org/wiki/K-nearest_neighbor_algorithm
Metode Klasifikasi
Support Vector Machine (SVM)
Dikembangkan oleh Boser, Guyon, Vapnik,
dan pertama kali dipresentasikan pada
tahun 1992 di Annual Workshop on
Computational Learning Theory
SVM memperkenalkan strategi baru dengan
menemukan hyperplane terbaik pada ruang
input (input space). Prinsip SVM adalah
linear classifier, tetapi SVM kemudian
dikembangkan agar mampu bekerja pada
masalah non-linear dengan memasukkan
kernel
SVM Light
Leaning Step:
svm-classify
file_test file_model prediction
file_training adalah file fitur yang telah disusun dalam format SVM light
file_model adalah model yang telah dibangkitkan sebelumnya saat proses
learning dilakukan
file prediction menyimpan hasil prediksi dari SVM
1 101:0.2 205:4 209:0.2 304:0.2…
-1 202:0.1 203:0.1 208:0.1 209:0.3…
…
…
1.045
-0.987
…
…
1.045
0.987
…
…
SVM Light
Situs resmi: http://svmlight.joachims.org/
Diimplementasi menggunakan bahasa pemrograman C
Testing Step:
svm-learn
[-option]
file_training
file_model
file_training adalah file fitur yang telah disusun dalam format SVM light
file_model adalah model yang dibangkitkan oleh proses learning
svm-classify
file_test_fitur
file_model
Confusion Matriks
TP
.
p=
TP + FP
Sumber: Bing Liu, Web Data Mining
TP
.
r=
TP + FN
Precision (p) = jumlah sampel berkategori positif diklasifikasi benar dibagi
dengan total sampel yang diklasifikasi sebagai sample positif
Recall (r) = jumlah sampel diklasifikasi positif dibagi total sampel dalam
testing set berkategori positif
F-Measure (F1-Score)
F-Measure (F1) adalah harmonic mean dari precision dan recall
Range dari nilai F-Measure adalah 0 sd 1.
Contoh
Sumber: Bing Liu, Web Data Mining
precision p = 100%
recall r = 1%
Mengapa? Karena kita hanya berhasil
mengklasifikasi satu sampel positif secara benar
dan semua sampel negatif benar
SVM Light Demo