Survey
* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project
* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project
Implementasi Metode K-Nearest Neighbour untuk Identifikasi Penyakit Tanaman Jeruk Keprok berdasarkan Citra Daun Apiladosi Priambodo1, Candra Dewi, S.Kom., M.sc2, Dr. Ir. Anang Triwiratno, M.P3 Program Studi Informatika/Ilmu Komputer Program Teknologi Informasi dan Ilmu Komputer Universitas Brawijaya, Malang 65145, Indonesia E-mail : [email protected], [email protected], [email protected] Abstract Tangerine (Citrus reticulate) disease identification is done to anticipate the spreading of more severe disease. In this case, implementation of information technology can be done in form of tangerine identification application through leaves image. Identification application uses input in form of leaves image with white background. Identification process begin with preprocessing process by increase brightness of image. After preprocessing process, feature extraction is done to get average value of red, green, blue (RGB) from leave. After feature extraction is done, next is classification of testing data with K-Nearest Neighbor (K-NN) method. K-NN method begin with determine the value of K. After value of K is determined, next is calculate distance of training data with testing data with Euclidean distance. Next, calculate the value of nearest neighbor according to K value. This application can identify three tangerine diseases, they are sooty fungus, CVPD, and mildew. From testing process, the best accuracy is 96.67% that can classified 29 of 30 testing data. Keyword : Tangerine disease, Digital Image Processing, Data Mining, K-Nearest Neighbor. Abstrak Pengenalan penyakit jeruk keprok (Citrus reticulata) dilakukan untuk mengantisipasi penyebaran penyakit yang lebih parah. Penerapan teknologi informasi dalam hal ini, dapat dilakukan dalam bentuk pembuatan aplikasi pengenalan penyakit jeruk keprok melalui citra daun. Aplikasi pengenalan menggunakan data masukan berupa citra daun dengan latar belakang putih. Proses pengenalan penyakit diawali dengan proses preprocessing dengan menambahkan kecerahan pada citra. Hal ini berguna untuk memisahkan latar dengan objek daun. Setelah dilakukan proses preprocessing, dilakukan ekstraksi ciri dengan mengambil nilai rata-rata red, green, blue (RGB) dari objek daun. Setelah ekstraksi ciri dilakukan, dilakukan klasifikasi data uji yang diujikan dengan menggunakan metode K-Nearest Neighbor (K-NN). Metode K-NN diawali dengan menentukan nilai K. Setelah nilai K ditentukan, dilakukan perhitungan jarak nilai RGB antara data latih dengan data uji menggunakan perhitungan jarak Euclidean. Kemudian dilakukan perhitungan tetangga terdekat sesuai dengan nilai K yang telah ditentukan. Aplikasi ini dapat mengenali tiga penyakit jeruk, yaitu cendawan jelaga, CVPD, dan mildew. Dari proses pengujian yang telah ditentukan, didapatkan akurasi terbaik mencapai 96.67% dengan dapat mengklasifikasikan 29 dari 30 data yang disediakan untuk pengujian. Kata kunci : Penyakit Jeruk Keprok, Pengolahan Citra Digital, Data Mining, K-Nearest Neighbor. 1. PENDAHULUAN Saat ini Indonesia merupakan negara pengimpor jeruk terbesar kedua di ASEAN setelah Malaysia, dengan volume impor khususnya jeruk manis sebesar 127.041 ton selama kurun waktu 2005 – 2009 dengan rata – rata per tahun mencapai 25.408 ton atau setara dengan US $ 17.464.186 per tahun. Sedangkan untuk jenis keprok (Citrus reticulata), selama kurun waktu 2005 – 2009 mencapai 504.063 ton atau sekitar 100.813 ton per tahun dengan nilai mencapai US $ 80.569.300 berdasarkan Badan Pusat Statistik tahun 2010. Meningkatnya impor jeruk menandakan adanya permintaan konsumen akan jenis dan mutu buah jeruk prima yang belum bisa dipenuhi oleh produsen dari dalam negeri [HAD-10]. Sampai saat ini, identifikasi penyakit pada tanaman jeruk yang dilakukan oleh petani jeruk sebatas menggunakan mata telanjang. Dengan cara tersebut, tidak bisa diperoleh hasil identifikasi yang akurat karena terbatas pada tampilan luar [TRI15]. Oleh karena itu, identifikasi penyakit tanaman jeruk yang tepat dan akurat sangatlah dibutuhkan. Hal tersebut berguna untuk penentuan tindakan penanganan dan pencegahan guna menghindari serangan penyakit yang berkelanjutan. Dewasa ini, perkembangan teknologi informasi sudah berkembang pesat dan dapat diterapkan dalam berbagai bidang. Salah satu penerapan teknologi informasi adalah dalam bidang pertanian. Dalam penerapannya di bidang pertanian, teknologi informasi dapat digunakan sebagai alat bantu identifikasi penyakit tanaman jeruk yang tepat dan akurat. Algoritma K-Nearest Neighbor adalah sebuah metode untuk melakukan klasifikasi terhadap objek berdasarkan data pembelajaran yang jaraknya paling dekat dengan objek tersebut. K-Nearest Neighbor merupakan pendekatan untuk mencari kasus dengan menghitung kedekatan antara kasus baru dan kasus lama berdasarkan pada pencocokan bobot dari sejumlah fitur yang ada [KUS-09]. 2. DASAR TEORI 2.1 Pengolahan Citra Digital Pengolahan citra digital merupakan teknologi penerapan sejumlah algoritma komputer untuk memproses citra digital. Hasil dari proses ini dapat berupa citra digital, kumpulan representasi karakteristik, ataupun dapat berupa properti dari citra tersebut. Pengaplikasian pengolahan citra digital biasanya ditemukan pada sistem kecerdasan robotika, pencitraan medis, fotografi, dan forensik [ZHO-10]. 2.2 Citra Digital Secara umum, citra digital merupakan gambar dua dimensi. Citra digital merupakan sebauh array yang memiliki nilai yang direpresentasikan dengan deretan bit tertentu. Penulisan citra digital dalam bentuk matrik sebagai berikut [PUT-10]: 𝑓(𝑥, 𝑦) 𝑓(0,0) 𝑓(0,1) … 𝑓(0, 𝑁 − 1) 𝑓(1,0) 𝑓(1,1) … 𝑓(1, 𝑁 − 1) = [ ] ⋮ ⋮ ⋮ ⋮ 𝑓(𝑀 − 1,0) 𝑓(𝑀 − 1,1) … 𝑓(𝑀 − 1, 𝑁 − 1) 2.3 Rescaling Rescaling adalah cara yang singkat untuk mengatur kecerahan dari suaatu citra menggunakan sebuah operator rescaling. Proses dari rescaling adalah mengalikan setiap nilai warna pada setia piksel dengan scale factor kemudian menambahnya dengan nilai offset [KNU-99]. Proses rescaling ditunjukkan pada berikut. 𝑐 = 𝑠𝑐𝑎𝑙𝑒𝐹𝑎𝑐𝑡𝑜𝑟. 𝑐𝑜 + 𝑜𝑓𝑓𝑠𝑒𝑡 2.4 Data Mining Data Mining merupakan proses ekstraksi informasi, sebelumnya belum diketahui dan kemungkinan berguna dari database yang besar. Data mining juga menyediakan kita informasi berguna yang query tidak bisa dapatkan secara efisien. Informasi yang bisa didapatkan dengan data mining tidak tersedia secara jelas di database sedangkan aplikasi database hanya memproyeksikan informasi yang terdapat pada bank informasi dengan kapasitas manipulasi yang terbatas [AGA-13]. 2.5 K-Nearest Neighbor Konsep dari K-Nearest Neighbor (KNN) adalah objek yang ada pada data uji diklasifikan pada kelas dengan ketetanggan terdekat [ISM-13]. KNN dapat memberikan keputusan yang bagus untuk pengklasifikasian dari data latih dan lebih efektif jika data latih memiliki ukuran yang besar [WIB-10]. Tahap-tahap pada algoritma K-Nearest Neighbor adalah sebagai berikut [WIB-10] : 1. Definisikan nilai ‘K’. 2. Perhitungan jarak antara input dengan semua data uji. 3. Buat kelompok berdasarkan perhitungan jarak. 4. Buat kelompok berdasarkan nilai ketetanggan terdekat. 5. Pilih nilai yang paling sering muncul dari tetangga terdekat sebagai prediksi untuk data yang selanjutnya. Euclidean Distance merupakan metrika yang sering digunakan untuk menghitung kesamaan antara dua vektor [PUT-10]. Berikut rumus Euclidean distance [WIB-10] : 𝑑𝑖𝑗 = √∑𝑛𝑘=1(𝑃𝑖 − 𝑄𝑖 )2 2.6 Jeruk Keprok Jeruk keprok memiliki nama latin Citrus reticulata. Jeruk ini cocok untuk ditanam di daerah yang memiliki ketinggian antara 500-1.200 meter di atas permukaan laut yang memiliki musim kering cukup panjang. Buah jeruk keprok berukuran agak besar dan bertangkai pendek menggantung. Proses pembungaan tanaman ini dipengaruhi oleh iklim. Bila terjadi waktu kering selama 2-3 minggu yang diikuti hujan agak lebat sedikit, dan tanah menjadi basah sampai agak dalam, hal ini cukup mendorong jenis jeruk ini untuk berbunga [AAK-94]. 2.7 Penyakit Jeruk Keprok Cendawan Jelaga Penyakit Cendawan Jelaga juga biasa disebut juga dengan Kapang Jelaga. Ciriciri dari penyakit ini adalah terdapat lapisan berwarna hitam, kering, dan tipis serta merata pada permukaan atas daun. Penyakit ini tidak memarasit daun, sehingga daun yang terdapat di bawah lapisan hitam tadi tetap berwarna hijau [SEM-04]. CVPD Gejala yang khas dari penyakit CVPD adalah terjadinya degenerasi pada floem tulang daun. Gejala luar atau gejala yang nampak dari penyakit ini adalah daun menjadi kuning pada sebagian atau seluruh tajuk. Daun yang terkena penyakit ini kelihatan lebih kaku dan sering berdiri tegak. Gejala ini mirip dengan gejala tanaman yang kekurangan unsur Zn. Pada daun dewasa yang sedang mengalami pertumbuhan pesat, tulang daun berwarna lebih gelap sehingga kontras dengan daging daun yang berwarna kuning [SEM04]. Mildew Mildew dikenal juga dengan penyakit tepung. Penyakit ini juga sering disebut sebagai embun tepung. Gejala yang nampak jelas dari penyakit ini yaitu terdapatnya lapisan bertepung putih pada daun. Lapisan tesebut terdiri dari miselium, konidiofor, dan konidium jamur. Lapisan bertepung terdapat pada daun terutama di sisis atas. Daun yang terserang berat selanjutnya akan menjadi pucat dan segera rontok, sedangkan daun yang terserang ringan akan mengalami malformasi [SEM04]. 3. PERANCANGAN Perancangan diagram alir sistem menggambarkan alur proses bagaimana sistem akan bekerja. Dalam sistem pengenalan penyakit jeruk ini alur yang digunakan yaitu input data citra daun jeruk, preprocessing citra, ekstraksi ciri, KNN, dan hasil klasifikasi. Gambar 1 menunjukkan diagram alir sistem. Gambar 1. Diagram Alir Sistem Data masukan berupa citra daun jeruk, setelah itu dilakukan preprocessing terlebih dahulu sebelum diambil cirinya pada tahap ekstraksi ciri. Proses pelatihan harus dilakukan terlebih dahulu sebelum sistem dapat melakukan tahap pengujian. Setelah semua proses selesai, dilakukan penghitungan akurasi. Hasil dari sistem ini adalah akurasi dari penggunaan metode K-NN untuk pengenalan penyakit jeruk juga hasil klasifikasi daun jeruk. 4. 5.1 Pengujian Terhadap Nilai Scale Factor Pengujian terhadap nilai Scale Factor bertujuan untuk mencari nilai Scale Factor yang paling optimal untuk proses preprocessing. Nilai yang digunakan untuk pengujian nilai Scale Factor antara lain 1.2, 1.4, 1.6, 1.8, dan 1.10. Perhitungan dilakukan mengunakan metode K-NN dengan nilai K=1. Perhitungan jarak dilakukan dengan menggunakan perhitungan jarak Euclidean. Grafik hasil pengujian ditunjukkan pada gambar 3. 40 150.00% 100.00% 20 50.00% 0 Akurasi Jumlah Klasifikasi Benar IMPLEMENTASI Pada gambar 2 menunjukkan proses training dari aplikasi pengenalan penyakit jeruk keprok. Masukan berupa citra yang kemudian dilakukan proses preprocessing. Nilai rata-rata RGB dari masing-masing data latih ditunjukkan dalam sebuah form dan disimpan dalam sebuah tabel. Info dari file, seperti nama file, panjang dan lebar file juga ditampilkan dalam sebuah form. dilakukan dengan menggunakan 30 data latih dan sepuluh data uji untuk setiap kelas. Data uji diambil secara acak dari citra yang tersedia. Citra yang terpilih secara acak sebagai data uji, dilakukan proses cropping sehingga citra memiliki ukuran 275x150 piksel. 0.00% 1.2 1.4 1.6 1.8 2 Nilai Rescale Factor Gambar 2. Antarmuka Pelatihan Jumlah Klasifikasi Benar Gambar 3 menunjukkan citra yang diuji dan hasil klasifikasi. Ditunjukkan pula nilai rata-rata RGB dari citra dan info dari file dalam sebuah form. Gambar 3. Antarmuka Pengujian 5. PENGUJIAN DAN ANALISIS Proses pengujian dilakukan untuk mengetahui akurasi penggunaan metode K-NN dalam pengenalan penyakit jeruk. Terdapat beberapa skenario untuk pengujian, antara lain pengujian terhadap nilai rescale factor, pengujian terhadap nilai K, pengujian terhadap perhitungan jarak, dan pengujian terhadap jumlah data latih. Pengujian Akurasi Gambar 3. Grafik Hasil Pengujian Nilai Scale Factor Penggunaan nilai Scale Factor dengan akurasi tertinggi didapatkan pada penggunaan nilai Scale Factor 1.4. Akurasi didapat berdasarkan jumlah data uji yang benar dibandingkan jumlah total data uji, yaitu 30, lalu dikalikan dengan 100%. Akurasi dengan menggunakan nilai Scale Factor 1.4 mencapai 96.67%. 5.2 Pengujian Terhadap Perhitungan Jarak Pada pengujian terhadap perhitungan jarak, akan dilakukan perbandingan akurasi dengan menggunakan perhitungan jarak Euclidean dan perhitungan jarak Manhattan. Hal ini berguna untuk menemukan perhitungan jarak yang memiliki akurasi paling tinggi. Pengujian terhadap perhitungan jarak dilakukan menggunakan metode K-NN dengan nilai K=1. Grafik hasil pengujian ditunjukkan pada gambar 4. Manhattan Distance Perhitungan Jarak Jumlah Klasifikasi Benar Akurasi Gambar 4. Grafik Hasil Pengujian Perhitungan Jarak 30 100.00% 95.00% 28 90.00% 26 85.00% 24 Akurasi Jumlah Klasifikasi Benar Perhitungan jarak yang memiliki akurasi tertinggi, yaitu Euclidean Distance. Akurasi dengan menggunakan perhitungan jarak Euclidean mencapai 96.67%, sedangkan dengan menggunakan perhitungan jarak Manhattan akurasi hanya mencapai 93.33%. 5.3 Pengujian Terhadap Nilai K Pada pengujian terhadap nilai K digunakan untuk mencari nilai K yang memiliki akurasi paling tinggi. Nilai K yang akan diuji, antara lain 1, 2, 3, 4, dan 5. Pengujian terhadap nilai K dilakukan dengan menggunakan nilai Rescale Factor 1.4 dan perhitungan jarak Euclidean. Grafik hasil pengujian ditunjukkan pada gambar 5. 80.00% 1 2 3 4 5 Nilai K Jumlah Klasifikasi Benar Akurasi Gambar 5. Grafik Hasil Pengujian Nilai K Dari tabel tersebut didapatkan nilai K dengan akurasi tertinggi yaitu nilai K=1 atau K=2 dengan akurasi mencapai 96.67%. 5.4 Pengujian Terhadap Jumlah Data Latih Pengujian terhadap jumlah data latih bertujuan untuk menemukan jumlah data latih yang memiliki akurasi tertinggi. Jumlah data latih yang diuji, yaitu 10, 15, 20, 25, dan 30. Pengujian terhadap jumlah data latih dilakukan dengan menggunakan nilai Rescale Factor 1.4 dan perhitungan jarak Euclidean. Nilai K yang 30 100.00% 29 95.00% 28 90.00% 27 26 Akurasi Euclidean Distance digunakan, yaitu K=2. Grafik hasil pengujian ditunjukkan pada gambar 6. Jumlah Klasifikasi Benar 98.00% 96.00% 94.00% 92.00% 90.00% Akurasi Jumlah Klasifikasi Benar 29.5 29 28.5 28 27.5 85.00% 10 15 20 25 30 Jumlah Data Latih Jumlah Klasifikasi Benar Akurasi Gambar 6. Grafik Hasil Pengujian Jumlah Data Latih Dari tabel tersebut diketahui bahwa jumlah data latih terbanyak, yaitu 30 memiliki akurasi tertinggi yang mencapai 96.67%. 6. KESIMPULAN DAN SARAN Beberapa hal yang dapat disimpulkan setelah pengujian aplikasi pengenalan penyakit jeruk keprok, antara lain : 1. Metode K-Nearest Neighbor bisa diterapkan untuk pengenalan penyakit jeruk berdasarkan citra daun dengan melewati beberapa tahap, yaitu preprocessing citra dan ekstraksi ciri. Pada tahap preprocessing citra digunakan penambahan kecerahan. Pengambilan ratarata nilai RGB digunakan untuk tahap ekstraksi ciri. 2. Pada pengujian terhadap nilai rescale factor didapatkan akurasi maksimal terdapat pada nilai 1.4 dari rentang nilai yang disediakan, yaitu 1.2, 1.4, 1.6, 1.8, dan 2. Semakin Nilai rescale factor yang kecil tidak bisa membedakan antara latar dengan objek daun, sehingga latar citra juga dimasukkan dalam perhitungan yang menyebabkan akurasi berkurang. Begitu juga dengan nilai rescale factor yang terlalu besar. Nilai rescale factor yang besar akan terlalu merubah kecerahan citra yang juga menyebabkan akurasi berkurang. 3. Pada pengujian terhadap perhitungan jarak, didapatkan bahwa perhitungan jarak Euclidean menghasilkan akurasi yang lebih tinggi daripada perhitungan jarak Manhattan. Sehingga dapat disimpulkan bahwa perhitungan jarak Euclidean lebih efektif untuk pengenalan penyakit jeruk berdasarkan citra daripada perhitungan jarak Manhattan. 4. Pada pengujian terhadap nilai K, didapatkan nilai akurasi tertinggi terdapat pada nilai K=1 atau nilai K=2. Nilai K yang tinggi, menyebabkan variasi tetangga terdekat yang besar. Variasi tetangga terdekat yang besar dapat menyebabkan akurasi menurun saat mayoritas tetangga terdekat bukanlah kelas yang seharusnya. Hal ini dapat menyebabkan akurasi menurun. Berbeda dengan nilai K=1 atau K=2. Nilai K yang kecil dapat meminimalisir hal tersebut. Nilai K yang kecil memiliki variasi tetangga yang sedikit. Sehingga kemungkinan besar, tetangga yang terdekat merupakan kelas yang seharusnya. 5. Pada pengujian terhadap jumlah data latih didapatkan bahwa jumlah data latih tertinggi, yaitu 30 untuk setiap kelas memberikan akurasi yang tertinggi daripada jumlah data latih yang kurang dari 30. Hal ini terjadi karena variasi data latih yang dikenali oleh aplikasi untuk proses pengujian sudah cukup banyak untuk dapat mengklasifikasikan dengan benar. Sehingga dapat disimpulkan jumlah data latih berpengaruh untuk keberhasilan metode K-NN. Jumlah data latih yang besar, akan menghasilkan akurasi klasifikasi yang tinggi. Begitu juga sebaliknya, jumlah data latih yang tidak cukup besar, akan menghasilkan akurasi klasifikasi yang rendah. Skripsi tentang implementasi metode KNN untuk pengenalan penyakit jeruk ini tentunya masih banyak kekurangan dan jauh dari kesempurnaan. Oleh karena itu, beberapa saran yang dapat diberikan untuk penelitian selanjutnya, antara lain : 1. Peningkatan variasi pengambilan citra untuk data latih dan data uji. Variasi pengambilan citra ditingkatkan dengan tingkat sebaran dan keparahan penyakit dengan rentang kurang dari 20% sampai dengan lebih dari 80%. 2. Ekstraksi ciri dilakukan tidak sebatas rata-rata nilai RGB dari keseluruhan citra daun. Ekstraksi ciri dapat dilakukan dengan melibatkan posisi daun di pohon, usia daun, maupun tekstur daun. 3. Pengembangan aplikasi pengenalan penyakit jeruk berdasarkan citra daun dapat dilakukan pada platform lain, misal Android dengan memanfaatkan fitur kamera sehingga dapat memudahkan dalam mobilitas dan tidak terpaku pada desktop. DAFTAR REFERENSI