Survey
* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project
* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project
KLASIFIKASI PENGUKURAN OPINI PUBLIK DALAM SITUS BERITA DENGAN MENGGUNAKAN METODE NAÏVE BAYES Oleh : Arini Rizki Faradita Pembimbing : Aryo Nugroho, S.T., S.Kom., M.T ABSTRAK Perkembangan teknologi yang semakin pesat memunculkan kebutuhan terhadap teknik yang dilakukan untuk proses pengolahan data dalam memperoleh kebutuhan informasi. Kumpulan data dalam jumlah besar akan lebih mudah terorganisir dengan adanya metode klasifikasi teks menggunakan text mining. Hal itu dapat mempermudah dan mempercepat pencarian informasi yang dibutuhkan. Penelitian ini menggunakan metode Naïve Bayes untuk klasifikasi pengukuran opini publik dalam situs berita dalam menentukan sentiment positif, negatif, dan netral. Data yang diambil berasal dari data pada situs berita dan jejaring sosial yang dikumpulkan dalam kurun waktu tertentu. Penelitian ini menghasilkan 0,87% yang mengatakan data positif dan 0,63% mengatakan negatif serta 0, 25% mengatakan netral mengenai data berita tentang kasus kontroversi hukuman mati dari percobaan data training dan data test. Kata Kunci : Data, Sentiment, Klasifikasi teks, Text Mining, Metode Naïve Bayes 1. yang begitu besar. Data-data yang terkumpul merupakan suatu tambang emas yang dapat dijadikan sebagai informasi dalam dunia bisnis. Namun hal itu menyebabkan munculnya kebutuhan terhadap teknik yang dilakukan untuk proses pengolahan data sehingga data-data yang ada dapat diperoleh informasi penting yang nantinya dapat digunakan untuk Pendahuluan Dengan perkembangan teknologi yang semakin pesat, penyebaran informasi dalam bentuk dokumen digital dan kemampuan dalam mengumpulkan serta mengolah data juga semakin berkembang. Tidak hanya itu, penggunaaan sistem komputerisasi dalam berbagai bidang telah menghasilkan kumpulan data 1 perkembangan dari tiap-tiap bidang tersebut. Kumpulan data dalam jumlah besar akan lebih mudah terorganisir dengan adanya metode klasifikasi teks menggunakan text mining. Hal itu dapat mempermudah dan mempercepat pencarian informasi yang dibutuhkan. Pada penelitian ini, data yang diperoleh berasal dari kumpulan opini masyarakat mengenai berita yang menjadi trending topic saat ini. Data tersebut dikumpulkan selama periode yang telah ditentukan kemudian dianalisa dan diolah agar menjadi sebuah informasi yang berguna. Dengan banyaknya sebuah data yang diperoleh, maka digunakan data mining dalam proses analisa data. Tujuan dari penelitian ini adalah untuk mengklasifikasikan dokumen teks berbahasa Indonesia dan mengkategorikan opini masyarakat mengenai sebuah berita kedalam kategori yang berbeda yaitu positif dan negatif sehingga pengguna dapat membaca informasi yang terdapat pada berita tersebut. Berbagai metode telah dilakukan dan terus dikembangkan oleh para peneliti di seluruh dunia. Metode yang diterapkan dalam penelitian ini untuk melakukan pengkategorian teks dengan metode klasifikasi yaitu menggunakan Naïve Bayes karena lebih efektif dalam klasifikasi teks[2]. Uji coba dilakukan dengan menggunakan sampel dokumen teks yang diambil dari sebuah situs berita dan salah satu jejaring sosial. Selain itu juga menggunakan sebuah machine learning for text analysis with naive bayes yang telah dibuat sebelumnya sebagai sarana untuk memudahkan proses klasifikasi dalam penentuan sentiment positif, negatif, dan netral dari sebuah berita yang ada pada berita sosial. 2. Landasan Teori Penelitian sebelumnya menjelaskan beberapa metode yang dilakukan untuk proses klasifikasi. Selain itu juga menggunakan sudut pandang penelitian yang berbeda serta menghasilkan beberapa kesimpulan baik kelebihan maupun kekurangan dari tiap-tiap metode. Pada penelitian ini, dilakukan proses klasifikasi dengan menggunakan metode Naïve Bayes dengan menggunakan sebuah machine learning yang telah dibuat sebelumnya sebagai sarana untuk memudahkan proses klasifikasi dalam penentuan sentiment positif maupun negatif dari sebuah berita yang ada pada media sosial. 2.1 Text Mining Definisi text mining adalah menambang data yang berupa teks dimana sumber data biasanya didapatkan dari dokumen dan bertujuan mencari kata-kata yang dapat mewakili isi dari dokumen sehingga dapat dilakukan analisa antar dokumen. Data teks pada dokumen akan diproses menjadi data numerik agar dapat dilakukan proses lebih lanjut. Sehingga dalam text mining ada istilah pre-processing data, yaitu proses pendahulu yang diterapkan terhadap data teks yang bertujuan untuk menghasilkan data numerik. Pada proses preprosesing merupakan tahap dimana deskripsi ditangani untuk dapat siap diproses memasuki tahap text mining. Tahaptahap tersebut adalah sebagai berikut: 1. Parsing/ Tokenizing 2 dan model yang digunakan adalah model fitur independensi . Yang dimaksud dengan independensi yang kuat adalah sebuah fitur pada sebuah data tidak berkaitan dengan ada atau tidaknya fitur lain pada sebuah data yang sama[2]. 2. Stopwords Removal/ Filtering 3. Stemming 4. Tagging 5. Anayizing 2.2 Klasifikasi Text Mining Klasifikasi dilakukan berdasar pembelajaran dari kumpulan dokumen untuk mendapatkan suatu pola tiap class. Pola dapat berupa suatu rule. Pembelajaran untuk mendapatkan pola atau kriteria keputusan suatu class oleh komputer dilakukan dengan cara “mempelajari” secara otomatis dari data pelatihan (training data). Jika menggunakan metode statisik, disebut statistical text classification. Diperlukan sejumlah dokumen (training document) yang sangat baik untuk tiap class. Harus dilakukan dengan cara manual terkait pemberian label class tiap training document. Aktifitas ini disebut labeling. Semua algoritma klasifikasi dalam text mining mewakili dokumen dalam suatu ruang dimensi yang tinggi[1]. b. Klasifikasi Bayes Klasifikasi Naïve Bayes bekerja berdasarkan teori probabilitas yang memandang semua fitur data sebagai bukti dalam probabilitas [10]. Beberapa karakteristik Naïve Bayes yaitu : 1. Metode Naïve Bayes teguh (robust) terhadap data-data yang terisolasi yang biasanya merupakan data dengan karakteristik berbeda (outlier). Naïve Bayes juga menangani nilai atribut yang salah dengan mengabaikan data latih selama proses pembangunan model dan prediksi. 2. Dapat menghadapi atribut yang tidak relevan. 3. Atribut yang mempunyai korelasi bisa mendegradasi kinerja klasifikasi Naïve Bayes karena asumsi independensi sudah tidak ada. 2.4 Opini Opini ada salah satu alat yang menggambarkan ekspresi seseorang. Opini saat ini sangat dibutuhkanuntuk menentukan kualitas produk perusahaan terhadap konsumen. Berdasarkan hal tersebut, Orientation Detection yaitu cara menentukan opini tersebut positif atau negatif menjadi sangat penting bagi perusahaan. Saat ini blog merupakan salah satu media jejaring sosial, dimana orang biasa Gambar 2.6 Proses Klasifikasi[9]. 2.3 Klasifikasi Multinomial Naïve Bayes a. Teorema Bayes Bayes merupakan teknik prediksi perbasis probabilistik sederhana yang bedasarkan pada penerapan teorema Bayes dengan asumsi independensi atau ketidaktergantungan yang kuat 1 http:lecturer.ukdw 3 mengekspresikan pendapatnya. Klasifikasi opini menjadi tidak mudah karena opini memiliki gaya bahasa yang bermacam-macam [2]. menjadikan jejaring sosial tersebut sebagai kumpulan data yang berasal dari opini-opini masyarakat[16]. 3. Pembahasan Hasil 3.1 Data Penelitian 2.5 Data Mining a. Data Mining Tan (2006) mendefinisikan data mining sebagai proses untuk mendapatkan informasi yang berguna dari gudang basis data yang besar. Data mining juga dapat diartikan sebagai pengekstrakan informasi baru yang diambil dari bongkahan data besar yang membantu dalam pengambilan keputusan. Istilah data mining biasa disebut juga dengan knowledge discovery[10]. Tujuan adanya data mining yaitu untuk menelusuri sebuah data kemudian membangun sebuah model dan menggunakan model tersebut untuk dapat mengenali pola data yang lain, yang tidak berada dalam cakupan basis data yang tersimpan. Selain itu, perlu dilakukan data mining dengan tujuan untuk dapat mengetahui pola umum data-data yang ada. 1. Data Primer Data yang digunakan pada penelitian ini adalah data yang berasal dari sebuah situs berita dan salah satu jejaring sosial Twitter yang membahas kasus kontroversi hukuman mati. Data tersebut dikumpulkan selama periode yang sudah ditentukan kemudian dilakukan analisa data dan dilakukan penyimpulan hasil. 2. Data Sekunder Data yang diperoleh dengan membaca dan mempelajari referensi mengenai klasifikasi berita, klasifikasi jejaring sosial, text mining, metode naïve bayes, dan referensi lainnya yang berkaitan dengan penelitian yang dilakukan. 3. Teknik Pengumpulan Data Tujuan dari pengumpulan data yakni untuk mendapatkan materi-materi yang terkait dengan topic penelitian yang dibahas. Pengumpulan data dimaksudkan untuk memperoleh bahan-bahan yang sesuai, akurat, dan bias untuk diolah. Maka teknik yang digunakan dalam penelitian ini adalah dengan metode Studi Literatur dan pengembangan dari penelitian sebelumnya. 2.6 Twitter Twitter merupakan sebuah situs jejaring sosial yang memungkinkan bagi para pengguna untuk berbagi informasi dalam bentuk teks pendek yaitu 140 karakter. Twitter juga praktis digunakan karena tidak menyimpan banyak gambar tetapi lebih ketulisan dengan beberapa fitur yang ada seperti hashtag, retweet, mention, dan url yang memudahkan pengguna dalam mengemukakan sebuah informasi singkat. Twitter juga semakin marak digunakan dari berbagai kalangan dan hal ini 3.2 Diagram Alir Penelitian Pada penelitian ini dilakukan beberapa tahapan mulai pengumpulan data sampai dengan penyimpulan hasil yang diperoleh 4 setelah dilakukannya analisa. Selanjutnya dapat digambarkan pada bagan alir penelitian pada Gambar 3.1. B. Pre-Processing Pada tahapan ini, dilakukan tiga proses, yaitu case folding, tokenizing, dan filtering atau stopword removal. 1. Case Folding : mengubah semua huruf dalam dokumen menjadi huruf kecil. Hanya huruf ‘a’ sampai dengan ‘z’ yang diterima. Karakter selain huruf dihilangkan dan dianggap delimiter. 2. Tokenizing : tahap penghapusan kata yang sama dalam setiap kalimat. 3. Filtering / Stopword Removal : tahap penghapusan setiap tanda baca yang ada pada kalimat. Setiap stopword yang muncul akan dihapus. Penghapusan emoticon juga dilakukan terhadap setiap teks dan tweet yang ada. Dilakukan dengan memeriksa secara manual dan belum menggunakan kamus stopword. Mulai 1. Pemilihan Penelitian Penentuan Topik 2. Penentuan Judul Studi Literatur Literatur Penelitian Terdahulu Literatur Text Mining 3. Analisa Data Tahap 1 B. Pre-Processing 1. Case Folding A. Pengumpulan Data Pada Situs Berita dan Twitter 2. Tokenizing 3. Filtering/Stopword Removal 4. Analisa Data Tahap 2 A. Pembersihan Data 5. B. Pelebelan Manual Analisa Data Tahap 3 A. Term Wighting 6. B. Visualisasi Interpretasi C. Pembersihan Data Mulai dari pemisahan sumber, waktu, judul, dan isi berita untuk data dalam situs berita dan pemisahan akun, waktu, dan isi tweet untuk data dalam Twitter. Selanjutnya dilakukan pembersihan data dari kata yang sering muncul dengan menggunakan finds most frequents word. Selanjutnya dilakukan proses untuk mendapatkan frasa yang berulang dan diurutkan berdasarkan ranking tertinggi dengan menggunakan text analyzer. Pengklasteran 7. Penyimpulan Hasil Selesai Gambar 3.1 Diagram Alir Penelitian A. Pengambilan Data Pada tahapan ini, dilakukan pengambilan data yakni melakukan pengambilan data dari situs berita di www.merdeka.com dan di Twitter selama periode 2013 sampai dengan minggu keempat pada bulan Januari 2015 dengan menggunakan hashtag (#kontroversi hukuman mati). D. Pelabelan Manual Dilakukan proses pelabelan secara manual dengan cara memberikan nilai angka 1 dan untuk data setuju 5 dan nilai 0 untuk data tidak setuju dalam penentuan sentiment positif atau negatif. Dan untuk data yang netral dalam kasus penelitian ini tidak diberi nilai melainkan diberi tanda x karena dianggap tidak memihak manapun. Sebelumnya, dibuatlah tabel untuk menentukan kategori data tersebut bernilai positif, negatif dan netral. Kemudian baru dilakukan pelabelan dengan memberikan nilai pada data yang ada sesuai dengan kategori yang sudah ditentukan. F. Visualisasi Setelah itu dilakukan visualisasi untuk mengetahui seberapa sering kata tersebut muncul. Proses ini dilakukan dengan memasukkan data yang sudah diperoleh ke dalam aplikasi yang sudah ada menggunakan tools visualisasi. Gambar 3.2 Visualisasi Kata E. Term Wighting Pada tahapan ini, dilakukan proses pembobotan kumpulan kata atau term dari suatu teks. Nilai bobot sebuah term menyatakan tingkat kepentingan term tersebut dalam mempresentasikan sebuah dokumen teks. Pada penelitian ini, proses pembobotan kata menggunakan metode Term Frequency-Inverse Document Frequency (TF-IDF). Metode ini digunakan karena metode ini paling baik dalam perolehan informasi (Khodra, L.M., dan Wibisono, Y., 2005) Rumus TF-IDF dapat dilihat pada persamaan (1) (Shalton, M., 1993). Persamaan (1) : G. Pengklasteran Pada tahapan selanjutnya yaitu proses pengklasteran. Setelah dilakukan proses penghitungan term, maka dilakukan perhitungan menggunakan metode Naïve Bayes. Sebelum itu, banyaknya data jenisjenis kategori yang saling beririsan dan akan membuat jumlah kesalahan klasifikasi pada kategori berita yang memiliki data yang sama sangat besar. Berikut rumus persamaan probabilitas : Dimana, adalah nilai kemunculan Dimana tf(i, j) adalah frekuensi kemunculan term j pada dokumen teks di D* dimana I = 1, 2, 3, …, N, df(j) adalah frekuensi dokumen yang mengandung term j dari semua koleksi dokumen, dan N adalah jumlah seluruh dokumen yang ada dikoleksi dokumen. kategori jenis pada kategori jenis ; adalah nilai dari kemunculan jenis di satu kategori; adalah kategori; adalah jumlah keseluruhan jenis yang muncul pada kategori ; 6 negatif, dan netral. Hal ini terlihat dari hasil percobaan, yaitu dengan porsi melakukan percobaan data training sebesar 30% dan data test sebesar 70% dari jumlah data yang sudah didapatkan dalam skala 0 sampai dengan 1. Dan hasil yang diperoleh dari percobaan data yaitu menunjukkan bahwa 0,87% mengatakan data positif dan 0,63% mengatakan negatif serta 0, 25% mengatakan netral mengenai data berita tentang kasus kontroversi hukuman mati. Dari penelitian ini dapat digunakan sebagai acuan untuk penelitian selanjutnya yang serupa mengangkat tentang klasifikasi data. adalah jumlah keseluruhan kata yang digunakan; Lalu, adalah nilai kemunculan kategori jenis; adalah jumlah jenis yang memiliki kategori ; adalah jumlah seluruh training jenis; Kemudian dilakukan tahap berikutnya guna untuk mendapatkan pengklasifikasian dari jenis berita selanjutnya. Berikut rumus yang digunakan : 5. Pustaka [1] Nurdianto, Kurnati, Gozali. Klasifikasi Emosi Pada Twitter Menggunakan Metode Multiclass Support Vector Machine. Bandung: Universitas Telkom, 2012 [2] Vidya, Maharani, Yulita. Opinion Mining Dengan Menggunakan Naïve Bayes Classifier Pada Blog. Bandung: Institut Teknoligi Telkom, 2012 [3] Ramadhan, Maharani, Kurniati. Analisis Perbandingan Opinion Mining Berbahasa Indonesia Menggunakan Support Vector Machine Dengan Kernel Linear Dan Radial Basic Funcion. Bandung: Institut Teknologi Telkom, 2007 [4] Santoso, Budi. Tutorial Support Vector Machine. Surabaya: Teknik Industri, ITS [5] Raymond J. Mooney. CS391L: Machine Learning Text Hasil pencarian probabilitas setiap jenis dan kategori sudah didapat kemudian dijadikan acuan untuk mencari kategori dari berita berikutnya dengan jenis yang sudah diketahui. Pada proses ini, data yang sudah dihitung dan diolah kemudian dimasukkan ke dalam machine learning yang sudah dibuat sebelumnya. Dengan melakukan percobaan data training sebesar 30% dan data test sebesar 70% dari jumlah data yang sudah didapatkan. Hal ini dilakukan untuk memperoleh hasil muncul angka statistik dalam sentiment positif dan negatif dari sebuah data. 4. Kesimpulan Dari penelitian yang telah dilakukan, maka dapat disimpulkan dari hasil percobaan menunjukkan bahwa metode Naive Bayes dapat digunakan secara efektif untuk mengklasifikasikan dokumen teks berbahasa Indonesia dalam menentukan sentiment positif, 7 Categorization. University of Texas at Austin, 2006 [6] Diaz, Ryan. Pengetian Data Mining, Teks Mining, dan web Mining. 2013 http://yosephoriolryandiaz.blogspot.c om/2013/03/pengertian-dataminingteks-miningdan.html diakses tanggal 26 Desember 2014 [12] [13] [7] Tujuan Text Mining. Diakses di http://www.pps.unud.ac.id tanggal 31 Januari 2015 [8] Wikipedia, Ensiklopedi Bebas. Pengertian Klasifikasi. Diakses di http://id.wikipedia.org/wiki/K lasifikasi pada tanggal 9 Januari 1015 [9] Susanto, Budi. Text Dan Web Mining. Yogyakarta: Teknik Informatika, UKDW [10] Prasetyo, Eko. Data Mining – Konsep dan Aplikasi Menggunakan MATLAB. Yogyakarta: C.V ANDI OFFSET, 2012 [11] Wikipedia, Ensiklopedi Bebas. Pengertian Berita. Diakses di [14] [15] [16] [17] 8 http://Id.wikipedia.org/wiki/B erita tanggal 31 Januari 2015 Pukul 17.59 Romli, Syamsul. Jurnalistik Online : Panduan Mengelola Media Online. Bandung: Nuansa, 2012 Nugroho, Adi. Perancangan dan Implementasi Sistem Basis Data. Yogyakarta : C.V ANDI OFFSET, 2011 Wikipedia, Ensiklopedi Bebas. Pengertian Jejaring Sosial. Diakses di http://id.wikipedia.org/wiki/J ejaring_sosial tanggal 31 Januari 2015 Pengertian Ahli. Pengertian Jejaring Sosial. Diakses di http://www.pengertianahli.co m/2014/01/pengertianjejaring-sosial-social.html tanggal 31 Januari 2015 ELCOM. Buku Belajar Kilat Twitter. Yogyakarta: C.V ANDI OFFSET, 2010 Modul-8-Jenis-Penelitian di http://dosen.narotama.ac.id diakses tanggal 31 Januari 2015