Download KLASIFIKASI PENGUKURAN OPINI PUBLIK DALAM SITUS BERITA

Survey
yes no Was this document useful for you?
   Thank you for your participation!

* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project

Document related concepts
no text concepts found
Transcript
KLASIFIKASI PENGUKURAN OPINI PUBLIK DALAM SITUS BERITA
DENGAN MENGGUNAKAN
METODE NAÏVE BAYES
Oleh : Arini Rizki Faradita
Pembimbing : Aryo Nugroho, S.T., S.Kom., M.T
ABSTRAK
Perkembangan teknologi yang semakin pesat memunculkan kebutuhan terhadap
teknik yang dilakukan untuk proses pengolahan data dalam memperoleh
kebutuhan informasi. Kumpulan data dalam jumlah besar akan lebih mudah
terorganisir dengan adanya metode klasifikasi teks menggunakan text mining. Hal
itu dapat mempermudah dan mempercepat pencarian informasi yang dibutuhkan.
Penelitian ini menggunakan metode Naïve Bayes untuk klasifikasi pengukuran
opini publik dalam situs berita dalam menentukan sentiment positif, negatif, dan
netral. Data yang diambil berasal dari data pada situs berita dan jejaring sosial
yang dikumpulkan dalam kurun waktu tertentu.
Penelitian ini menghasilkan 0,87% yang mengatakan data positif dan 0,63%
mengatakan negatif serta 0, 25% mengatakan netral mengenai data berita tentang
kasus kontroversi hukuman mati dari percobaan data training dan data test.
Kata Kunci : Data, Sentiment, Klasifikasi teks, Text Mining, Metode Naïve Bayes
1.
yang begitu besar. Data-data yang
terkumpul merupakan suatu tambang
emas yang dapat dijadikan sebagai
informasi dalam dunia bisnis. Namun
hal itu menyebabkan munculnya
kebutuhan terhadap teknik yang
dilakukan untuk proses pengolahan
data sehingga data-data yang ada
dapat diperoleh informasi penting
yang nantinya dapat digunakan untuk
Pendahuluan
Dengan perkembangan teknologi
yang semakin pesat, penyebaran
informasi dalam bentuk dokumen
digital dan kemampuan dalam
mengumpulkan serta mengolah data
juga semakin berkembang. Tidak
hanya itu, penggunaaan sistem
komputerisasi dalam berbagai bidang
telah menghasilkan kumpulan data
1
perkembangan dari tiap-tiap bidang
tersebut.
Kumpulan data dalam jumlah
besar akan lebih mudah terorganisir
dengan adanya metode klasifikasi
teks menggunakan text mining. Hal
itu dapat mempermudah dan
mempercepat pencarian informasi
yang dibutuhkan. Pada penelitian ini,
data yang diperoleh berasal dari
kumpulan
opini
masyarakat
mengenai berita yang menjadi
trending topic saat ini. Data tersebut
dikumpulkan selama periode yang
telah ditentukan kemudian dianalisa
dan diolah agar menjadi sebuah
informasi yang berguna. Dengan
banyaknya sebuah data yang
diperoleh, maka digunakan data
mining dalam proses analisa data.
Tujuan dari penelitian ini adalah
untuk mengklasifikasikan dokumen
teks berbahasa Indonesia dan
mengkategorikan opini masyarakat
mengenai sebuah berita kedalam
kategori yang berbeda yaitu positif
dan negatif sehingga pengguna dapat
membaca informasi yang terdapat
pada berita tersebut.
Berbagai metode telah dilakukan
dan terus dikembangkan oleh para
peneliti di seluruh dunia. Metode
yang diterapkan dalam penelitian ini
untuk melakukan pengkategorian
teks dengan metode klasifikasi yaitu
menggunakan Naïve Bayes karena
lebih efektif dalam klasifikasi teks[2].
Uji
coba
dilakukan
dengan
menggunakan sampel dokumen teks
yang diambil dari sebuah situs berita
dan salah satu jejaring sosial. Selain
itu juga menggunakan sebuah
machine learning for text analysis
with naive bayes yang telah dibuat
sebelumnya sebagai sarana untuk
memudahkan proses klasifikasi
dalam penentuan sentiment positif,
negatif, dan netral dari sebuah berita
yang ada pada berita sosial.
2. Landasan Teori
Penelitian sebelumnya menjelaskan
beberapa metode yang dilakukan
untuk proses klasifikasi. Selain itu
juga menggunakan sudut pandang
penelitian yang berbeda serta
menghasilkan beberapa kesimpulan
baik kelebihan maupun kekurangan
dari tiap-tiap metode. Pada penelitian
ini, dilakukan proses klasifikasi
dengan menggunakan metode Naïve
Bayes dengan menggunakan sebuah
machine learning yang telah dibuat
sebelumnya sebagai sarana untuk
memudahkan proses
klasifikasi
dalam penentuan sentiment positif
maupun negatif dari sebuah berita
yang ada pada media sosial.
2.1 Text Mining
Definisi
text
mining
adalah
menambang data yang berupa teks
dimana sumber data biasanya
didapatkan dari dokumen dan
bertujuan mencari kata-kata yang
dapat mewakili isi dari dokumen
sehingga dapat dilakukan analisa
antar dokumen. Data teks pada
dokumen akan diproses menjadi data
numerik agar dapat dilakukan proses
lebih lanjut. Sehingga dalam text
mining ada istilah pre-processing
data, yaitu proses pendahulu yang
diterapkan terhadap data teks yang
bertujuan untuk menghasilkan data
numerik. Pada proses preprosesing
merupakan tahap dimana deskripsi
ditangani untuk dapat siap diproses
memasuki tahap text mining. Tahaptahap tersebut adalah sebagai
berikut:
1. Parsing/ Tokenizing
2
dan model yang digunakan adalah
model fitur independensi . Yang
dimaksud dengan independensi yang
kuat adalah sebuah fitur pada sebuah
data tidak berkaitan dengan ada atau
tidaknya fitur lain pada sebuah data
yang sama[2].
2. Stopwords Removal/ Filtering
3. Stemming
4. Tagging
5. Anayizing
2.2 Klasifikasi Text Mining
Klasifikasi
dilakukan
berdasar
pembelajaran
dari
kumpulan
dokumen untuk mendapatkan suatu
pola tiap class. Pola dapat berupa
suatu rule.
Pembelajaran untuk
mendapatkan pola atau kriteria
keputusan suatu class oleh komputer
dilakukan
dengan
cara
“mempelajari” secara otomatis dari
data pelatihan (training data). Jika
menggunakan
metode
statisik,
disebut statistical text classification.
Diperlukan
sejumlah
dokumen
(training document) yang sangat baik
untuk tiap class. Harus dilakukan
dengan
cara
manual
terkait
pemberian label class tiap training
document. Aktifitas ini disebut
labeling. Semua algoritma klasifikasi
dalam
text
mining
mewakili
dokumen dalam suatu ruang dimensi
yang tinggi[1].
b. Klasifikasi Bayes
Klasifikasi Naïve Bayes bekerja
berdasarkan teori probabilitas yang
memandang semua fitur data sebagai
bukti dalam probabilitas [10].
Beberapa karakteristik Naïve Bayes
yaitu :
1. Metode Naïve Bayes teguh
(robust) terhadap data-data yang
terisolasi
yang
biasanya
merupakan
data
dengan
karakteristik berbeda (outlier).
Naïve Bayes juga menangani
nilai atribut yang salah dengan
mengabaikan data latih selama
proses pembangunan model dan
prediksi.
2. Dapat menghadapi atribut yang
tidak relevan.
3. Atribut
yang
mempunyai
korelasi bisa mendegradasi
kinerja klasifikasi Naïve Bayes
karena asumsi independensi
sudah tidak ada.
2.4 Opini
Opini ada salah satu alat yang
menggambarkan ekspresi seseorang.
Opini
saat
ini
sangat
dibutuhkanuntuk
menentukan
kualitas produk perusahaan terhadap
konsumen. Berdasarkan hal tersebut,
Orientation Detection yaitu cara
menentukan opini tersebut positif
atau negatif menjadi sangat penting
bagi perusahaan. Saat ini blog
merupakan salah satu media jejaring
sosial,
dimana
orang
biasa
Gambar 2.6 Proses Klasifikasi[9].
2.3 Klasifikasi Multinomial Naïve
Bayes
a. Teorema Bayes
Bayes merupakan teknik prediksi
perbasis probabilistik sederhana yang
bedasarkan pada penerapan teorema
Bayes dengan asumsi independensi
atau ketidaktergantungan yang kuat
1
http:lecturer.ukdw
3
mengekspresikan
pendapatnya.
Klasifikasi opini menjadi tidak
mudah karena opini memiliki gaya
bahasa yang bermacam-macam [2].
menjadikan jejaring sosial tersebut
sebagai kumpulan data yang berasal
dari opini-opini masyarakat[16].
3. Pembahasan Hasil
3.1 Data Penelitian
2.5 Data Mining
a. Data Mining
Tan (2006) mendefinisikan data
mining sebagai proses untuk
mendapatkan
informasi
yang
berguna dari gudang basis data yang
besar. Data mining juga dapat
diartikan sebagai pengekstrakan
informasi baru yang diambil dari
bongkahan
data
besar
yang
membantu
dalam
pengambilan
keputusan. Istilah data mining biasa
disebut juga dengan knowledge
discovery[10].
Tujuan adanya data mining yaitu
untuk menelusuri sebuah data
kemudian membangun sebuah model
dan menggunakan model tersebut
untuk dapat mengenali pola data
yang lain, yang tidak berada dalam
cakupan basis data yang tersimpan.
Selain itu, perlu dilakukan data
mining dengan tujuan untuk dapat
mengetahui pola umum data-data
yang ada.
1. Data Primer
Data yang digunakan pada penelitian
ini adalah data yang berasal dari
sebuah situs berita dan salah satu
jejaring
sosial
Twitter
yang
membahas
kasus
kontroversi
hukuman mati.
Data tersebut
dikumpulkan selama periode yang
sudah
ditentukan
kemudian
dilakukan analisa data dan dilakukan
penyimpulan hasil.
2. Data Sekunder
Data
yang diperoleh
dengan
membaca dan mempelajari referensi
mengenai
klasifikasi
berita,
klasifikasi jejaring sosial, text
mining, metode naïve bayes, dan
referensi lainnya yang berkaitan
dengan penelitian yang dilakukan.
3. Teknik Pengumpulan Data
Tujuan dari pengumpulan data yakni
untuk mendapatkan materi-materi
yang terkait dengan topic penelitian
yang dibahas. Pengumpulan data
dimaksudkan untuk memperoleh
bahan-bahan yang sesuai, akurat, dan
bias untuk diolah. Maka teknik yang
digunakan dalam penelitian ini
adalah dengan metode Studi
Literatur dan pengembangan dari
penelitian sebelumnya.
2.6 Twitter
Twitter merupakan sebuah situs
jejaring sosial yang memungkinkan
bagi para pengguna untuk berbagi
informasi dalam bentuk teks pendek
yaitu 140 karakter. Twitter juga
praktis digunakan karena tidak
menyimpan banyak gambar tetapi
lebih ketulisan dengan beberapa fitur
yang ada seperti hashtag, retweet,
mention, dan url yang memudahkan
pengguna dalam mengemukakan
sebuah informasi singkat. Twitter
juga semakin marak digunakan dari
berbagai kalangan dan hal ini
3.2 Diagram Alir Penelitian
Pada penelitian ini dilakukan
beberapa
tahapan
mulai
pengumpulan data sampai dengan
penyimpulan hasil yang diperoleh
4
setelah
dilakukannya
analisa.
Selanjutnya dapat digambarkan pada
bagan alir penelitian pada Gambar
3.1.
B. Pre-Processing
Pada tahapan ini, dilakukan tiga
proses, yaitu case folding, tokenizing,
dan filtering atau stopword removal.
1. Case Folding : mengubah semua
huruf dalam dokumen menjadi
huruf kecil. Hanya huruf ‘a’
sampai dengan ‘z’
yang
diterima. Karakter selain huruf
dihilangkan
dan
dianggap
delimiter.
2. Tokenizing : tahap penghapusan
kata yang sama dalam setiap
kalimat.
3. Filtering / Stopword Removal :
tahap penghapusan setiap tanda
baca yang ada pada kalimat.
Setiap stopword yang muncul
akan dihapus. Penghapusan
emoticon
juga
dilakukan
terhadap setiap teks dan tweet
yang ada. Dilakukan dengan
memeriksa secara manual dan
belum menggunakan kamus
stopword.
Mulai
1.
Pemilihan Penelitian
Penentuan Topik
2.
Penentuan Judul
Studi Literatur
Literatur Penelitian
Terdahulu
Literatur Text Mining
3.
Analisa Data Tahap 1
B. Pre-Processing
1. Case Folding
A. Pengumpulan Data Pada
Situs Berita dan Twitter
2. Tokenizing
3. Filtering/Stopword
Removal
4.
Analisa Data Tahap 2
A. Pembersihan Data
5.
B. Pelebelan Manual
Analisa Data Tahap 3
A. Term Wighting
6.
B. Visualisasi
Interpretasi
C. Pembersihan Data
Mulai dari pemisahan sumber,
waktu, judul, dan isi berita untuk
data dalam situs berita dan
pemisahan akun, waktu, dan isi tweet
untuk data dalam Twitter.
Selanjutnya dilakukan pembersihan
data dari kata yang sering muncul
dengan menggunakan finds most
frequents
word.
Selanjutnya
dilakukan proses untuk mendapatkan
frasa yang berulang dan diurutkan
berdasarkan ranking tertinggi dengan
menggunakan text analyzer.
Pengklasteran
7.
Penyimpulan Hasil
Selesai
Gambar 3.1 Diagram Alir Penelitian
A. Pengambilan Data
Pada
tahapan
ini,
dilakukan
pengambilan data yakni melakukan
pengambilan data dari situs berita di
www.merdeka.com dan di Twitter
selama periode 2013 sampai dengan
minggu keempat pada bulan Januari
2015 dengan menggunakan hashtag
(#kontroversi hukuman mati).
D. Pelabelan Manual
Dilakukan proses pelabelan secara
manual dengan cara memberikan
nilai angka 1 dan untuk data setuju
5
dan nilai 0 untuk data tidak setuju
dalam penentuan sentiment positif
atau negatif. Dan untuk data yang
netral dalam kasus penelitian ini
tidak diberi nilai melainkan diberi
tanda x karena dianggap tidak
memihak manapun. Sebelumnya,
dibuatlah tabel untuk menentukan
kategori data tersebut bernilai positif,
negatif dan netral. Kemudian baru
dilakukan
pelabelan
dengan
memberikan nilai pada data yang ada
sesuai dengan kategori yang sudah
ditentukan.
F. Visualisasi
Setelah itu dilakukan visualisasi
untuk mengetahui seberapa sering
kata tersebut muncul. Proses ini
dilakukan dengan memasukkan data
yang sudah diperoleh ke dalam
aplikasi
yang
sudah
ada
menggunakan tools visualisasi.
Gambar 3.2 Visualisasi Kata
E. Term Wighting
Pada tahapan ini, dilakukan proses
pembobotan kumpulan kata atau
term dari suatu teks. Nilai bobot
sebuah term menyatakan tingkat
kepentingan term tersebut dalam
mempresentasikan sebuah dokumen
teks. Pada penelitian ini, proses
pembobotan kata menggunakan
metode Term Frequency-Inverse
Document Frequency (TF-IDF).
Metode ini digunakan karena metode
ini paling baik dalam perolehan
informasi (Khodra, L.M., dan
Wibisono, Y., 2005) Rumus TF-IDF
dapat dilihat pada persamaan (1)
(Shalton, M., 1993).
Persamaan (1) :
G. Pengklasteran
Pada tahapan selanjutnya yaitu
proses
pengklasteran.
Setelah
dilakukan proses penghitungan term,
maka
dilakukan
perhitungan
menggunakan metode Naïve Bayes.
Sebelum itu, banyaknya data jenisjenis kategori yang saling beririsan
dan akan membuat jumlah kesalahan
klasifikasi pada kategori berita yang
memiliki data yang sama sangat
besar. Berikut rumus persamaan
probabilitas :
Dimana,
adalah nilai kemunculan
Dimana tf(i, j) adalah frekuensi
kemunculan term j pada dokumen
teks di D* dimana I = 1, 2, 3, …,
N, df(j) adalah frekuensi dokumen
yang mengandung term j dari semua
koleksi dokumen, dan N adalah
jumlah seluruh dokumen yang ada
dikoleksi dokumen.
kategori jenis
pada kategori jenis
;
adalah nilai dari kemunculan
jenis di satu kategori;
adalah kategori;
adalah jumlah keseluruhan jenis
yang muncul pada kategori ;
6
negatif, dan netral. Hal ini terlihat
dari hasil percobaan, yaitu dengan
porsi melakukan percobaan data
training sebesar 30% dan data test
sebesar 70% dari jumlah data yang
sudah didapatkan dalam skala 0
sampai dengan 1. Dan hasil yang
diperoleh dari percobaan data yaitu
menunjukkan
bahwa
0,87%
mengatakan data positif dan 0,63%
mengatakan negatif serta 0, 25%
mengatakan netral mengenai data
berita tentang kasus kontroversi
hukuman mati. Dari penelitian ini
dapat digunakan sebagai acuan untuk
penelitian selanjutnya yang serupa
mengangkat tentang klasifikasi data.
adalah jumlah keseluruhan kata
yang digunakan;
Lalu,
adalah nilai kemunculan
kategori jenis;
adalah jumlah jenis yang
memiliki kategori ;
adalah jumlah seluruh training
jenis;
Kemudian
dilakukan
tahap
berikutnya guna untuk mendapatkan
pengklasifikasian dari jenis berita
selanjutnya. Berikut rumus yang
digunakan :
5. Pustaka
[1] Nurdianto, Kurnati, Gozali.
Klasifikasi
Emosi
Pada
Twitter
Menggunakan
Metode Multiclass Support
Vector Machine. Bandung:
Universitas Telkom, 2012
[2] Vidya, Maharani, Yulita. Opinion
Mining
Dengan
Menggunakan Naïve Bayes
Classifier
Pada
Blog.
Bandung: Institut Teknoligi
Telkom, 2012
[3] Ramadhan, Maharani, Kurniati.
Analisis
Perbandingan
Opinion Mining Berbahasa
Indonesia
Menggunakan
Support Vector Machine
Dengan Kernel Linear Dan
Radial
Basic
Funcion.
Bandung: Institut Teknologi
Telkom, 2007
[4] Santoso, Budi. Tutorial Support
Vector Machine. Surabaya:
Teknik Industri, ITS
[5] Raymond J. Mooney. CS391L:
Machine
Learning
Text
Hasil pencarian probabilitas setiap
jenis dan kategori sudah didapat
kemudian dijadikan acuan untuk
mencari
kategori
dari
berita
berikutnya dengan jenis yang sudah
diketahui. Pada proses ini, data yang
sudah dihitung dan diolah kemudian
dimasukkan ke dalam machine
learning
yang
sudah
dibuat
sebelumnya. Dengan melakukan
percobaan data training sebesar 30%
dan data test sebesar 70% dari
jumlah data yang sudah didapatkan.
Hal ini dilakukan untuk memperoleh
hasil muncul angka statistik dalam
sentiment positif dan negatif dari
sebuah data.
4. Kesimpulan
Dari penelitian yang telah dilakukan,
maka dapat disimpulkan dari hasil
percobaan menunjukkan bahwa
metode Naive Bayes dapat digunakan
secara
efektif
untuk
mengklasifikasikan dokumen teks
berbahasa
Indonesia
dalam
menentukan
sentiment
positif,
7
Categorization. University of
Texas at Austin, 2006
[6] Diaz, Ryan. Pengetian Data
Mining, Teks Mining, dan
web Mining. 2013
http://yosephoriolryandiaz.blogspot.c
om/2013/03/pengertian-dataminingteks-miningdan.html
diakses tanggal 26 Desember
2014
[12]
[13]
[7] Tujuan Text Mining. Diakses di
http://www.pps.unud.ac.id
tanggal 31 Januari 2015
[8] Wikipedia, Ensiklopedi Bebas.
Pengertian
Klasifikasi.
Diakses
di
http://id.wikipedia.org/wiki/K
lasifikasi pada tanggal 9
Januari 1015
[9] Susanto, Budi. Text Dan Web
Mining. Yogyakarta: Teknik
Informatika, UKDW
[10] Prasetyo, Eko. Data Mining –
Konsep
dan
Aplikasi
Menggunakan
MATLAB.
Yogyakarta:
C.V
ANDI
OFFSET, 2012
[11] Wikipedia, Ensiklopedi Bebas.
Pengertian Berita. Diakses di
[14]
[15]
[16]
[17]
8
http://Id.wikipedia.org/wiki/B
erita tanggal 31 Januari 2015
Pukul 17.59
Romli, Syamsul. Jurnalistik
Online : Panduan Mengelola
Media Online. Bandung:
Nuansa, 2012
Nugroho, Adi. Perancangan
dan Implementasi Sistem
Basis Data. Yogyakarta : C.V
ANDI OFFSET, 2011
Wikipedia, Ensiklopedi Bebas.
Pengertian Jejaring Sosial.
Diakses
di
http://id.wikipedia.org/wiki/J
ejaring_sosial tanggal 31
Januari 2015
Pengertian Ahli. Pengertian
Jejaring Sosial. Diakses di
http://www.pengertianahli.co
m/2014/01/pengertianjejaring-sosial-social.html
tanggal 31 Januari 2015
ELCOM. Buku Belajar Kilat
Twitter. Yogyakarta: C.V
ANDI OFFSET, 2010
Modul-8-Jenis-Penelitian di
http://dosen.narotama.ac.id
diakses tanggal 31 Januari
2015