Download generalisasi data menggunakan pendekatan

Risalah Lokakarya Komputasi dalam Sains dan Teknologi Nuklir XVI, Agustus 2005 (253-271) APLIKASI TEKNIK INDUKSI BERORIENTASI ATRIBUT PADA DATA SIRKULASI BUKU DI PERPUSTAKAAN (Studi Kasus Data Sirkulasi Perpustakaan Pusat IPB) Imas S. Sitanggang, Hari Agung* ABSTRAK APLIKASI TEKNIK INDUKSI BERORIENTASI ATRIBUT PADA DATA SIRKULASI BUKU DI PERPUSTAKAAN (Studi Kasus Data Sirkulasi Perpustakaan Pusat IPB) Data sirkulasi buku di perpustakaan khususnya di Perpustakaan Pusat IPB dicatat setiap harinya sehingga menghasilkan kumpulan data berukuran besar. Data tersebut meliputi data peminjaman dan pengembalian buku dari mahasiswa setiap fakultas termasuk Fakultas Pascasarjana. Untuk melihat karakteristik peminjam buku antar fakultas, kumpulan data transaksi buku dapat analisis dengan menggunakan pendekatan Induksi Berorientasi Atribut. Informasi yang diperoleh diharapkan dapat berguna bagi pengelola perpustakaan untuk meningkatkan penyalanan kepada pengguna. Induksi Berorientasi Atribut merupakan metode yang digunakan untuk mengekstrak data tergeneralisasi dari data aktual dalam basis data. Hasil percobaan menunjukkan bahwa atribut yang paling relevan untuk menggambarkan kelas peminjam buku antar fakultas adalah Kelas Buku pada pengelompokan paling umum dalam format UDC, dengan nilai Information Gain yaitu 0.066224. Berdasarkan tabulasi silang dan aturan yang diturunkan dapat dinyatakan bahwa Kelas Buku yang memiliki kemungkinan yang besar dipinjam oleh semua mahasiswa IPB adalah kelas buku 500 (Mathematics and Natural Science). Kelas buku yang memiliki kemungkinan kecil dipinjam oleh mahasiswa IPB adalah 000 (Generalities), 100 (Philosophy), 200 (Religion. Theology), 400 (Philology. Linguistics. Languanges), 700 (The Arts. Recreation. Entertainment. Sport, Etc), 800 (Literature), 900 (Geography. Biography. History). Kata-kata kunci: pendekatan Induksi Berorientasi Atribut ABSTRACT APPLICATIONS OF INDUCTION TECHNIQUE USING ATTRIBUTE-ORIENTED FOR THE BOOK CIRCULATION DATA AT LIBRARIES (CASE STUDY: DATA CIRCULATION OF IPB CENTER LIBRARY). The book circulation data at libraries, especially at IPB Center Library, are being recorded everyday creating a collection of big-sized data. The data include book loans and returns for every student from all the faculty, including the Faculty of Post-Graduate School. To see the different characteristics of book loaners from every faculty, the book loans data collection can be analyzed using the Attribute-Oriented Induction approach. The information gained hopefully could be useful for the library manager to improve the services offered to the visitors. Attribute-Oriented Induction is a method used to extract generalized data from the actual data in a database. The result of the experiment showed that the most relevant attribute to describe book loaners class between faculties is the Book Class on the most general classification in UDC format, with the value of Information Gain of * Departemen Ilmu Komputer, FMIPA-IPB, email: [email protected], [email protected] 253 Risalah Lokakarya Komputasi dalam Sains dan Teknologi Nuklir XVI, Agustus 2005 (253-271) 0.066224. Based on the cross-tabulation and the rules derived, it is concluded that the Book Class which has the highest possibility of being loaned by all IPB students is the book class 500 (Mathematics and Natural Sciences). The book classes that have the lowest possibilities of being loaned by IPB students are the book class 000 (Generalities), 100 (Philosophy), 200 (Religion), 400 (Phylogogy of Linguistic Languanges), 700 (The Arts. Recreation. Entertainment. Sport, Etc), 800 (Literature), and 900 (Geography. Biography. History). Keywords: Attribute-Oriented approach PENDAHULUAN Perkembangan teknologi informasi telah memberikan kontribusi pada cepatnya pertumbuhan jumlah data yang dikumpulkan dan disimpan dalam basis data berukuran besar (gunung data). Seringkali data tersebut tidak digunakan lagi dalam membuat suatu keputusan karena tidak ada alat yang dapat digunakan untuk mengekstrak informasi yang bernilai yang terkandung dalam gunung data tersebut. Hal ini terjadi pula pada data sirkulasi bahan pustaka khususnya buku yang ada di Perpustakaan Pusat IPB. Data sirkulasi bahan pustaka yang meliputi peminjaman dan pengembalian buku dicatat setiap hari sehingga menghasilkan kumpulan data sirkulasi buku dalam ukuran besar. Sebagai contoh, terdapat 17668 record menyatakan data transaksi buku mulai bulan Januari tahun 2003 sampai dengan bulan Juni tahun 2004. Dari sejumlah besar record transaksi buku dapat diperoleh informasi-informasi yang berguna untuk pengembangan lebih lanjut layanan di Perputakaan Pusat IPB. Informasi tersebut dapat berupa deskripsi ringkas dari kumpulan data sirkulasi atau berupa perbandingan suatu kelompok data dengan kelompok data lain dalam himpunan data sirkulasi. Data mining merupakan proses untuk menemukan pengetahuan dari kumpulan data berukuran besar. Data mining merupakan sebuah proses utama dalam tahapan knowledge discovery dalam basis data. Dalam tulisan ini, teknik data mining akan diaplikasikan untuk memperoleh pengetahuan yang berguna dari kumpulan data sirkulasi di Perpustakaan Pusat IPB. Teknik data mining yang digunakan adalah pendekatan Induksi Berorientasi Atribut. Pendekatan ini akan digunakan untuk mendapatkan deskripsi ringkas dari data sirkulasi. Diharapkan pengetahuan yang diperoleh dapat berguna dalam peningkatan layanan di Perpustakaan Pusat IPB. 254 Risalah Lokakarya Komputasi dalam Sains dan Teknologi Nuklir XVI, Agustus 2005 (253-271) TAHAPAN DALAM KNOWLEDGE DISCOVERY IN DATABASES Knowledge Discovery in Databases (KDD) merupakan proses ekstraksi informasi atau pola yang menarik dari data dalam basis data berukuran besar. Data mining adalah sebuah proses dalam Knowledge Discovery in Databases (KDD). Tahapan-tahapan dalam KDD dapat dilihat pada Gambar 1. KDD terdiri dari tiga proses utama yaitu preprocessing, data mining dan postprocessing. Preprocessing dilakukan terhadap data sebelum algoritme data mining diaplikasikan. Proses ini meliputi data cleaning, integrasi, seleksi dan transformasi. Proses utama dalam KDD adalah proses data mining, dalam proses ini algoritme-algoritme data mining diaplikasikan untuk mendapatkan pengetahuan dari sumber data. Hasil yang diperoleh dari proses data mining selanjutnya akan dievaluasi pada postprocessing. Berdasarkan hasil evaluasi, pengetahuan dapat direpresentasikan jika hasil tersebut memuaskan, jika hasilnya tidak memuaskan maka proses-proses sebelumnya akan diulang kembali sampai diperoleh hasil yang memuaskan. Pattern Evaluation Data mining Task-relevant Data Data Warehouse Selection Data Cleaning Data Integration Databases Gambar 1. Tahapan dalam KDD (Han dan Micheline, 2001) Terdapat beberapa bentuk teknik-teknik data mining seperti deskripsi konsep, analisis asosiasi, klasifikasi dan prediksi serta analisis cluster. Teknik-teknik tersebut dapat diaplikasikan pada berbagai tipe sumber data seperti basis data relasional, data 255 Risalah Lokakarya Komputasi dalam Sains dan Teknologi Nuklir XVI, Agustus 2005 (253-271) warehouse, basis data transaksional, basis data spasial, basis data multimedia, basis data teks dan web. Dari sudut pandang analisis data, data mining dapat diklasifikasikan ke dalam dua kategori, yaitu descriptive data mining dan predictive data mining. Descriptive data mining menjelaskan himpunan data dalam cara yang yang lebih ringkas. Ringkasan tersebut menyatakan sifat-sifat umum yang menarik dari data. Predictive data mining menganalisis data dengan tujuan untuk membangun satu atau sekumpulan model dan melakukan prediksi perilaku dari kumpulan data yang baru. Dalam descriptive data mining, himpunan data dikemas dalam bentuk yang lebih ringkas dan menghasilkan deksripsi dari data tersebut. Deskripsi demikian dinamakan deskripsi konsep yang memberikan gambaran menyeluruh dari kelas data atau membedakan kelas data tersebut dengan kelas-kelas pembeda. Gambaran menyeluruh dari kelas data diberikan melalui proses karakterisasi dari data, sedangkan deskripsi-deskripsi yang membandingkan dua atau lebih koleksi dari data diberikan melalui perbandingan (atau sering dinamakan diskriminasi) data. INDUKSI BERORIENTASI ATRIBUT Induksi Berorientasi Atribut merupakan metode yang digunakan untuk mengekstrak data tergeneralisasi dari data aktual dalam basis data. Metode ini mengintegrasikan paradigma machine learning dengan operasi basis data (Han et. al, 1992). Teknik induksi berorientasi atribut diaplikasikan dalam task relevant data. Dalam proses pembelajaran tertentu biasanya tidak seluruh data dalam basis data digunakan, tetapi hanya porsi tertentu saja. Sebagai contoh, untuk menentukan karakteristik dari mahasiswa program sarjana ilmu komputer, hanya diperlukan data yang relevan dengan data mahasiswa pada jenjang sarjana ilmu komputer saja. Kumpulan data tersebut dinyatakan sebagai task relevant data. Query dapat digunakan untuk membentuk task relevant data. Proses induksi menghasilkan pengetahuan yang dapat direpresentasikan dalam beberapa bentuk seperti aturan logika, tabulasi silang atau grafik. Terdapat banyak aturan logika yang dapat ditentukan diantaranya aturan karakteristik dan aturan diskriminasi. Aturan karakteristik menyatakan karakteristik konsep yang dipenuhi oleh semua atau sejumlah besar contoh dalam kelas target. Aturan diskriminasi menyatakan perbedaan antara konsep dari kelas target dari kelas lainnya yang dinamakan kelas pembeda (constrasting class). Dalam penentuan aturan karakteristik, task relevant data dikumpulkan ke dalam sebuah kelas target. Sedangkan dalam penentuan aturan diskriminasi, data dikelompokkan ke dalam dua kelas yaitu kelas target dan kelas-kelas pembeda. 256 Risalah Lokakarya Komputasi dalam Sains dan Teknologi Nuklir XVI, Agustus 2005 (253-271) Deskripsi konsep erat kaitannya dengan generalisasi data. Sebuah konsep biasanya merujuk kepada koleksi data seperti koleksi mahasiswa program sarjana. Generalisasi data adalah sebuah proses yang menentukan abstraksi sebuah himpunan yang berukuran besar dari task-relevant data dalam sebuah basis data dari level konseptual yang relatif rendah ke level konseptual yang lebih tinggi. Level konsep yang berbeda seringkali diorganisasikan ke dalam taksonomi dari konsep. Taksonomi konsep secara parsial dapat diurutkan berdasarkan pengurutan dari konsep general ke konsep yang lebih spesifik. Dengan menggunakan hirarki konsep, aturan dapat direpresentasikan dalam bentuk konsep tergeneralisasi. Sebagai contoh, hirarki konsep dari basis data mahasiswa adalah {Fisika, Biologi, Kimia, Ilmu Komputer, Matematika, Statistika} ⊂ FMIPA {Bogor, Cianjur, Sukabumi, ..., Sumedang} ⊂ Jawa Barat {0 – 1.49} ⊂ DO {1.5 – 1.99} ⊂ Mengulang {2.00 – 4.00} ⊂ Naik {DO, Mengulang, Naik} ⊂ ANY(status) Nilai “ANY” dapat digunakan pada relasi untuk mendapatkan generalisasi lebih jauh (Heinonen dan Heikki, 1996). Dalam hirarki konsep tersebut, A ⊂ B menyatakan bahwa B adalah generalisasi dari A. Hirarki konsep dapat ditentukan oleh knowledge engineer atau domain expert. Algoritme dasar Induksi Berorientasi Atribut: Input: (i) Basis data relasional, (ii) learning task, (iii) hirarki konsep (opsional) (iv) nilai threshold generalisasi (opsional) Ouput: Aturan karakteristik yang diperoleh dari basis data Metode: Proses Induksi Berorientasi Atribut terdiri dari empat tahap berikut: Langkah 1: Kumpulkan task-relevant data, Langkah 2: Lakukan Induksi Berorientasi Atribut, Langkah 3: Sederhanakan relasi tergeneralisasi, dan Langkah 4: Tranformasikan relasi akhir ke dalam aturan logika, tabulasi silang atau grafik. Langkah 2 dilakukan sebagai berikut: begin {Induksi Berorientasi Atribut dasar} for each atribut Ai (1≤i≤n, dimana n adalah banyaknya atribut) dalam relasi tergeneralisasi GR do while banyaknya nilai yang berbeda dari atribut Ai > threshold do { if tidak ada konsep level hirarki yang lebih tinggi dalam tabel hirarki konsep untuk Ai then buang Ai 257 Risalah Lokakarya Komputasi dalam Sains dan Teknologi Nuklir XVI, Agustus 2005 (253-271) else substitusi nilai-nilai Ai dengan konsep tergeneraliasi nimimal yang sesuai; gabungkan tuple-tuple identik} while banyaknya tuple dalam GR > threshold do { generalisasi atribut secara selektif; gabungkan tuple-tuple identik} end. Analisis relevansi atribut dilakukan untuk mengidentifikasi atribut yang tidak relevan atau yang kurang relevan. Secara intuitif, atribut dianggap relevan terhadap kelas yang diberikan jika nilai-nilai atribut tersebut dapat digunakan untuk membedakan kelas dengan kelas lainnya. Atribut yang kurang relevan selanjutnya dapat dikeluarkan dari proses deskripsi konsep. Analisis relevansi atribut dilakukan dengan menghitung ukuran yang digunakan untuk mengukur relevansi sebuah atribut terhadap kelas atau konsep yang diberikan. Salah satu ukuran tersebut adalah information gain (Han dan Micheline, 2001). Kalkulasi information gain dilakukan sebagai berikut: S adalah sebuah himpunan dari training samples, dimana label kelas dari setiap sample diketahui. Satu atribut digunakan untuk menentukan kelas dari training sample. Anggap bahwa terdapat m kelas. Misalkan S mengandung si sample dari kelas Ci , untuk i = 1, 2, ..., m. Sebuah sample sembarang anggota kelas Ci dengan probabilitas si / s , dimana s adalah banyaknya total sample dalam himpunan S. Expected information diperlukan untuk mengklasifikasikan sebuah sample yang diberikan. Nilai tersebut dihitung dengan formula (Han dan Micheline, 2001): m I ( s1 , s2 ,..., sm ) = −∑ i =1 si s log 2 i s s Sebuah atribut A dengan nilai {a1 , a2 ,..., av } dapat digunakan untuk mempartisi S ke dalam sub set {S1 , S 2 ,..., S v }, dimana S j mengandung sample-sample dalam S yang memiliki nilai a j dari A. Misalkan S j mengandung sij sample dari kelas Ci . Expected information yang didasarkan pada proses partisi ini oleh A dikenal sebagai entropy dari A. Besarannya dihitung sebagai berikut (Han dan Micheline, 2001): v s1 j + ... + smj j =1 s E ( A) = ∑ I ( s1 j ,..., smj ) Information gain diperoleh dengan proses partisi pada A didefinisikan oleh Gain( A) = I ( s1 , s 2 ,..., sm ) − E ( A) Atribut dengan nilai information gain paling tinggi dianggap atribut yang paling relevan untuk membedakan kelas dengan kelas lainnya. 258 Risalah Lokakarya Komputasi dalam Sains dan Teknologi Nuklir XVI, Agustus 2005 (253-271) STUDI KASUS UNTUK APLIKASI INDUKSI BERORIENTASI ATRIBUT Basis Data Data yang digunakan adalah data sirkulasi buku Perpustakaan Pusat IPB yang selanjutnya disimpan dalam sebuah tabel Sirkulasi. Tabel ini terdiri dari 17668 record menyatakan data transaksi buku mulai bulan Januari tahun 2003 sampai dengan bulan Juni tahun 2004. Data sirkulasi buku Perpustakaan Pusat IPB yang diperoleh disimpan dalam basis data menggunakan perangkat lunak CDS/ISIS. Atribut-atribut dalam tabel Peminjam adalah No. Identitas Peminjam, Kategori Peminjam (menyatakan fakultas), No. Registrasi Buku, Judul Buku, Kelas Buku Yang Dipinjam (terdiri dari 3 sub atribut), Kondisi Buku Yang Dipinjam, Kode Tanggal Peminjaman (terdiri dari 3 sub atribut), Tanggal Peminjaman, Tanggal Buku Harus Kembali, Tanggal Buku Dikembalikan, Jenis Pinjaman, Operator Transaksi Buku, Nama Peminjam dan Jenis Koleksi. Metodologi Proses Induksi Berorientasi Atribut ini dilakukan melalui tiga tahapan utama yaitu data cleaning, penggunaan pendekatan Induksi Berorientasi Atribut, dan presentasi hasil. Data Cleaning Dalam tahap ini dilakukan konversi data sirkulasi dan data buku dari format file CDS/ISIS menjadi format file dbf dengan menggunakan perangkat lunak winIDIS dan winIDAMS. Proses konversi menghasilkan basis data Pustaka yang terdiri dari satu tabel, yaitu tabel Peminjam. Basis data yang dihasilkan selanjutnya akan diolah dengan menggunakan perangkat lunak SQL Server 7.0. Deskripsi atribut-atribut dalam tabel Peminjam dapat dilihat pada Tabel 1. 259 Risalah Lokakarya Komputasi dalam Sains dan Teknologi Nuklir XVI, Agustus 2005 (253-271) Tabel 1. Deskripsi atribut-atribut dalam tabel Peminjam Nama Atribut No. Registrasi Buku KelasBukuK KelasBukuL KelasBukuM TglPinjam Kode TglPinjamA Kode TglPinjamB Kode TglPinjamA TglHrsKembali TglDikembalika n Jenis Pinjaman Jenis Koleksi Keterangan Banyaknya nilai yang berbeda 7253 Kelas Buku K sesuai dengan format UDC Kelas Buku L sesuai dengan format UDC Kelas Buku M: pengelompokan paling umum dalam kelas buku sesuai dengan format UDC Tanggal Peminjaman Buku, dengan format mm/dd/yy Tanggal Peminjaman Buku 254 Bulan Peminjaman Buku 12, yaitu kode bulan (1, 2, ..., 12) 2, yaitu tahun 2003 dan 2004 64 Tahun Peminjaman Buku Tanggal buku harus dikembalikan, dengan format mm/dd/yy Tanggal buku dikembalikan, dengan format mm/dd/yy Terdapat dua jenis peminjaman buku: 1 (satu malam), 2 (satu minggu) Dalam tabel ini berisi nilai yang sama untuk setiap tuple, yaitu “BUKU” 66 10, yaitu 000, 100, 200, 300, 400, 500, 600, 700, 800, 900 73 31 29 2, yaitu: 1 (satu malam), 2 (satu minggu) 1, yaitu “BUKU” Nilai atribut KelasBukuM ditetapkan berdasarkan Universal Decimal Classification (UDC) adalah 000 (Generalities), 100 (Philosophy), 200 (Religion. Theology), 300 (Social Sciences), 400 (Philology. Linguistics. Languanges), 500 (Mathematics and Natural Science), 600 (Applied Sciences. Medicine. Technology), 260 Risalah Lokakarya Komputasi dalam Sains dan Teknologi Nuklir XVI, Agustus 2005 (253-271) 700 (The Arts. Recreation. Entertainment. Sport, Etc), 800 (Literature), 900 (Geography. Biography. History). Setelah proses konversi dilakukan, tahap selanjutnya menentukan tuple-tuple yang dinyatakan invalid. Dengan menggunakan bahasa query, dapat diperoleh 1. 5544 tuple yang memiliki nilai NULL pada atribut TglDikembalikan. Selanjutnya tuple-tuple tersebut dibuang agar tidak ikut diproses pada langkah berikutnya. 2. 11 tuple yang memiliki nilai invalid pada atribut KelasBukuK, KelasBukuL, KelasBukuM. Nilai tersebut adalah : “F” dan “F00”. Selanjutnya tuple-tuple tersebut dibuang agar tidak ikut diproses pada langkah berikutnya. 3. 151 tuple yang memiliki nilai invalid pada atribut KelasBukuK, KelasBukuL, KelasBukuM. Nilai tersebut adalah : 515, 591, 658 (11 tuple), 0, 3, 5, 6, 7, 8 (140 tuple). Selanjutnya nilai atribut tersebut diperbaharui dengan nilai baru sebagai berikut: 515 dan 591 menjadi 500; 658 menjadi 600; 0 menjadi 000, 3 menjadi 300, 5 menjadi 500, 6 menjadi 600; 7 menjadi 700 dan 8 menjadi 800. Dengan menghilangkan dan memperbarui tuple yang memiliki nilai atribut yang invalid, diperoleh banyaknya tuple yang tersisa dalam tabel Peminjam sebanyak 12113. Penggunaan Pendekatan Induksi Berorientasi Atribut Pendekatan Induksi Berorientasi Atribut diaplikasikan pada data yang telah dinyatakan bersih, dalam arti data tersebut valid dan tidak memiliki noise. Dalam tahap ini pendekatan Induksi Berorientasi Atribut digunakan untuk mendapatkan karakeristik umum dari data peminjam buku di Perpustakaan Pusat IPB. Algoritme penentuan karakteristik umum dari data peminjam buku adalah Input : (i) basis data Pustaka; (ii) query data mining; (iii) daftar atribut dalam tabel Peminjam; (iv) kumpulan hirarki konsep atau operator generalisasi pada atribut; (v) threshold generalisasi untuk setiap atribut. Output : Aturan logika dan tabulasi silang Metode: 1. Menentukan task relevant data atau initial working relation. Penentuan task relevant data dilakukan untuk kelas peminjam buku yang dipilih dibedakan berdasarkan asal fakultas, yaitu A (Fakultas Pertanian), B (Fakultas Kedokteran Hewan), C (Fakultas Perikanan), D (Fakultas Peternakan), E (Fakultas Kehutanan), F (Fakultas Teknologi Pertanian), G (Fakultas Matematikan dan Ilmu Pengetahuan Alam) dan H (Fakultas Ekonomi dan Manajemen). Task relevant data untuk kelas-kelas tersebut diperoleh dengan mengaplikasikan query data mining. Sebagai contoh, task relevant data untuk kelas peminjam buku dari kalangan mahasiswa S1 diperoleh dari query data mining berikut: use Basis data Pustaka 261 Risalah Lokakarya Komputasi dalam Sains dan Teknologi Nuklir XVI, Agustus 2005 (253-271) mine characteristic as “Kategori Peminjam” in relevance to No. Identitas Peminjam, No. Registrasi Buku, Judul Buku, Kelas Buku Yang Dipinjam, Kondisi Buku Yang Dipinjam, Kode Tanggal Peminjaman, Tanggal Peminjaman, Tanggal Buku Harus Kembali, Tanggal Buku Dikembalikan, Jenis Pinjaman, Operator Transaksi Buku, Nama Peminjam, Jenis Koleksi from tabel Sirkulasi where Kategori Peminjam in “mahasiswa S1” Selanjutnya query data mining yang diperoleh ditransformasikan ke query relasional berikut: use Basis data Pustaka select No. Identitas Peminjam, No. Registrasi Buku, Judul Buku, Kelas Buku Yang Dipinjam, Kondisi Buku Yang Dipinjam, Kode Tanggal Peminjaman, Tanggal Peminjaman, Tanggal Buku Harus Kembali, Tanggal Buku Dikembalikan, Jenis Pinjaman, Operator Transaksi Buku, Nama Peminjam, Jenis Koleksi from tabel Sirkulasi where kategori peminjam in {“A”, “B”, “C”, “D”, “E”, “F”, “G”, “H”} 2. Menentukan nilai-nilai tergeneralisasi untuk setiap atribut pada task relevant data untuk setiap kelas. Langkah ini diimplementasikan sebagai berikut a. Scan task relevant data dan kumpulkan semua nilai yang berbeda untuk setiap atribut dalam task relevant data. b. Untuk setiap atribut dalam task relevant data, tentukan apakah atribut tersebut harus dibuang, jika tidak, hitung level minimal yang diinginkan, Li, untuk setiap atribut berdasarkan pada threshold atribut yang diberikan. Selanjutnya tentukan pasangan-pasangan pemetaan ( v , v ' ) , dimana v adalah nilai yang berbeda dari suatu atribut dalam task relevant data, dan v’ adalah nilai tergeneralisasi yang sesuai pada level Li. Langkah 2 menghasilkan relasi kandidat untuk setiap kelas. Atribut-atribut dalam relasi kandidat ini selanjutnya akan dianalisis untuk menentukan atribut-atribut mana yang dikategorikan atribut yang tidak relevan dan atribut mana yang kurang relevan. Atribut-atribut tersebut selajutnya dibuang sebelum generalisasi dilakukan. Dalam tahap ini ditentukan semua nilai yang berbeda untuk setiap atribut dalam task relevant data. Dengan bahasa query, diperoleh banyaknya nilai-nilai yang berbeda untuk setiap atribut dalam tabel Peminjam, seperti diberikan dalam Tabel 1. Dengan berdasarkan pada banyaknya nilai yang berbeda untuk atribut dalam tabel Peminjam serta karakteristik data dalam atribut tersebut, dilakukan penghilangan beberapa atribut tabel Peminjam. Beberapa atribut yang dibuang dapat dilihat dalam Tabel 2. Threshold generalisasi untuk setiap atribut ditetapkan 262 Risalah Lokakarya Komputasi dalam Sains dan Teknologi Nuklir XVI, Agustus 2005 (253-271) sebanyak 10. Jika banyaknya nilai yang berbeda untuk atribut lebih besar dari threshold, maka atribut tersebut dibuang dari relasi. Tabel 2. Atribut-atribut yang dibuang dan tetap dalam tabel Peminjam Nama Atribut No. Identitas Peminjam, No. Registrasi Buku, KelasBukuK, KelasBukuL Dibuang / Tetap Penjelasan dibuang Banyaknya nilai yang berbeda lebih besar dari threshold Judul Buku, TglPinjam, Operator Transaksi Buku, Nama Peminjam dibuang Banyaknya nilai yang berbeda lebih besar dari threshold dan tidak ada operasi generalisasi yang didefinisikan pada atribut tersebut. Kode TglPinjamA, Kode TglPinjamB, Kode TglPinjamC dibuang Nilai atribut telah dijelaskan dalam atribut lain TglPinjam Jenis Koleksi dibuang Kategori Peminjam tetap KelasBukuM tetap TglHrsKembali, TglDikembalikan tetap Jenis Pinjaman tetap Memiliki nilai yang sama untuk setiap atribut Hanya memiliki 11 nilai yang berbeda, dan digunakan untuk menentukan task_relevant_data. Memiliki 10 nilai yang berbeda. Digeneralisasi untuk menentukan lama keterlambatan peminjaman buku dalam satuan hari. Memiliki 2 nilai yang berbeda. Generalisasi dilakukan untuk menentukan lama keterlambatan peminjaman buku dalam satuan hari. Nilai keterlambatan tersebut disimpan dalam atribut baru yang diberi nama HariTerlambat, dengan tipe data: integer dan panjang: 4. Nilai keterlambatan peminjaman buku diperoleh dari nilai atribut TglHarusKembali dan TglDikembalikan. Terdapat 60 nilai yang berbeda untuk atribut HariTerlambat, yaitu: 0, 1, ...,43, 46, 47, 53, 58, 59, 62, 63, 64, 67, 76, 78, 83, 140, 149, 212, 394. Karena pada atribut tersebut terdapat operasi generalisasi dan banyaknya nilai yang berbeda untuk atribut HariTerlambat lebih besar dari threshold, maka dilakukan generalisasi level selanjutnya untuk mendapatkan lama keterlambatan dalam satuan minggu. Nilai lama keterlambatan dalam minggu disimpan dalam atribut baru yang diberi nama MingguTerlambat, dengan tipe data: integer dan panjang: 4. Nilai keterlambatan peminjaman buku diberikan dalam Tabel 3. 263 Risalah Lokakarya Komputasi dalam Sains dan Teknologi Nuklir XVI, Agustus 2005 (253-271) Tabel 3. Nilai atribut MingguTerlambat Nilai atribut 0 1 2 3 4 5 6 99 Keterangan Pengembalian Buku tidak terlambat (tepat waktu) 1 ≤ HariTerlambat ≤ 7 8 ≤ HariTerlambat ≤ 14 15 ≤ HariTerlambat ≤ 21 22 ≤ HariTerlambat ≤ 28 29 ≤ HariTerlambat ≤ 35 36 ≤ HariTerlambat ≤ 42 HariTerlambat ≥ 43 Relasi kandidat yang dihasilkan terdiri dari beberapa atribut yaitu KelasBukuM, MingguTerlambat dan Jenis Pinjaman. 3. Menentukan relevansi atribut Dalam langkah ini, atribut-atribut dalam relasi kandidat dievaluasi menggunakan ukuran analisis relevansi atribut yaitu information gain. Information gain dari setiap atribut dalam relasi kandidat dihitung dan diurutkan dalam urutan menaik. Selajutnya nilai tersebut dibandingkan dengan nilai threshold relevansi atribut untuk mengidentifikasi atribut-atribut yang kurang relevan. Nilai threshold yang digunakan adalah 0.01. Jika nilai information gain dari suatu atribut lebih kecil dari nilai threshold, maka atribut tersebut dinyatakan kurang relevan dan selanjutnya dibuang dari relasi kandidat. Relasi yang dihasilkan dalam langkah ini adalah initial target class working relation. Untuk kelas peminjam buku berdasarkan asal fakultas, nilai expected information (I(A,B,C,D,E,F,G,H,PPS)) diperoleh sebesar 2.777272739. Sedangkan nilai entropy dan information gain untuk setiap atribut dalam setiap kelas diberikan dalam Tabel 4. Tabel 4. Nilai entropy dan information gain untuk setiap atribut dalam kelas peminjam berdasarkan asal fakultas Atribut KelasBukuM MingguTerlambat Jenis Pinjaman Entropy 2.711049 2.771339 2.768648 Information gain 0.066224 0.005934 0.008625 Berdasarkan hasil yang diperoleh dalam Tabel 4 dapat dinyatakan bahwa atribut KelasBukuM paling relevan digunakan untuk mendeskripsikan data peminjam buku baik berdasarkan asal fakultas maupun berdasarkan jenjang studi. 264 Risalah Lokakarya Komputasi dalam Sains dan Teknologi Nuklir XVI, Agustus 2005 (253-271) Sedangkan atribut yang paling kurang relevan adalah MingguTerlambat. Karena semua atribut MingguTerlambat dan Jenis Pinjaman memiliki nilai information gain di bawah threshold, maka kedua atribut yang dibuang dalam relasi kandidat. 4. Menentukan relasi tergeneralisasi utama P. Relasi tergeneralisasi utama, P ditentukan dengan mengganti setiap nilai v dalam relasi yang dihasilkan dari langkah 3 dengan nilai v’ yang sesuai dalam pemetaan. Pada saat yang bersamaan, dilakukan perhitungan nilai agregat yaitu count. Langkah ini diimplementasikan dengan menggunakan dua variasi berikut: a. Untuk setiap tuple ter-generalisasi, insert tuple ke dalam P yang telah diurutkan dengan menggunakan algoritme pencarian biner. Jika tuple telah ada dalam P, naikkan nilai count atau nilai agregat lainnya, selainnya insert tuple tersebut ke dalam P. b. Karena dalam banyak kasus, banyaknya nilai yang berbeda pada level P cukup kecil, P dapat dikodekan sebagai array dimensi m dimana m adalah banyaknya atribut dalam P, dan setiap dimensi berisi nilai atribut ter-generalisasi yang sesuai. Setiap elemen array memiliki nilai count atau nilai agregat lainnya. Penyisipan sebuah tuple ter-generalisasi dilakukan oleh ukuran agregasi dalam elemen array yang sesuai. Presentasi Hasil Pendekatan Induksi Berorientasi Atribut menghasilkan kumpulan deskripsi tergeneralisasi dari data peminjam buku. Deskripsi tersebut akan dipresentasikan dalam bentuk tabulasi silang dan bentuk aturan-aturan logika. Tabulasi silang dan aturan logika diasosiasikan dengan aturan kuantitatif. Informasi kuantitatif yang digunakan dalam aturan karakteristik adalah t-weight (Han dan Micheline, 2001). Besaran ini dihitung berdasarkan formula berikut t-weight = count (q a ) n ∑ count (qi ) i =1 dengan − n adalah banyaknya tuple dalam kelas target dalam relasi tergeneralisasi. − q1 , q 2 ,..., q n adalah tuple-tuple untuk kelas target dalam relasi tergeneralisasi. − q a dalam q1 , q 2 ,..., q n . q a adalah sebuah tuple tergeneralisasi yang menjelaskan kelas target. Tabulasi silang untuk menentukan total peminjam buku berdasarkan asal fakultas untuk setiap nilai KelasBukuM dapat dilihat pada Tabel 5. 265 Risalah Lokakarya Komputasi dalam Sains dan Teknologi Nuklir XVI, Agustus 2005 (253-271) Tabel 5. Tabulasi silang untuk menentukan total peminjam buku berdasarkan asal fakultas untuk setiap nilai KelasBukuM A Atribut 000 100 200 300 400 500 600 700 800 900 count 16 10 10 531 0 559 2137 62 16 9 B tweight 0.48% 0.30% 0.30% 15.85% 0.00% 16.69% 63.79% 1.85% 0.48% 0.27% count 0 0 3 12 1 169 344 0 1 1 C tweight 0.00% 0.00% 0.56% 2.26% 0.19% 31.83% 64.78% 0.00% 0.19% 0.19% count 5 1 6 85 0 376 668 4 8 3 D tweight 0.43% 0.09% 0.52% 7.35% 0.00% 32.53% 57.79% 0.35% 0.69% 0.26% count 15 2 16 145 0 405 1589 0 5 0 E tweight 0.69% 0.09% 0.73% 6.66% 0.00% 18.60% 72.99% 0.00% 0.23% 0.00% count 11 3 13 100 0 396 967 16 4 6 tweight 0.73% 0.20% 0.86% 6.60% 0.00% 26.12% 63.79% 1.06% 0.26% 0.40% Tabel 5a. Lanjutan F Atribut 000 100 200 300 400 500 600 700 800 900 count 4 4 31 52 0 272 1222 2 5 2 G tweight 0.25% 0.25% 1.94% 3.26% 0.00% 17.06% 76.66% 0.13% 0.31% 0.13% count 7 1 1 9 0 157 142 0 1 4 tweight 2.17% 0.31% 0.31% 2.80% 0.00% 48.76% 44.10% 0.00% 0.31% 1.24% H count 0 0 0 39 0 3 23 1 0 0 tweight 0.00% 0.00% 0.00% 59.09% 0.00% 4.55% 34.85% 1.52% 0.00% 0.00% PPS count 23 1 11 144 0 479 662 9 2 0 tweight 1.73% 0.08% 0.83% 10.82% 0.00% 35.99% 49.74% 0.68% 0.15% 0.00% Deskripsi tergeneralisasi dari data peminjam buku juga dipresentasikan dalam bentuk aturan-aturan logika. Deskripsi data peminjam buku berdasarkan asal fakultas untuk setiap nilai KelasBukuM dapat dituliskan dalam bentuk aturan logika sebagai berikut ∀X,KelasPeminjam(X) =”KelasPeminjam”⇒(KelasBukuM(X) = ” KelasBukuM”)[t:t_weight] Dengan demikian berdasarkan Tabel 5 dapat disusun aturan logika yang mendeskripsikan peminjam buku berdasarkan fakultas dengan nilai pembulatan dan nilai threshold 10%: 266 Risalah Lokakarya Komputasi dalam Sains dan Teknologi Nuklir XVI, Agustus 2005 (253-271) ∀X, KelasPeminjam(X) =”A” ⇒ (KelasBukuM (X) = ”300”) [t:16%] ∨ (KelasBukuM(X) = ”500”) [t:17%] ∨ (KelasBukuM (X) = ”600”) [t:64%] ∀X, KelasPeminjam(X) =”B” ⇒ (KelasBukuM(X) = ”500”) [t:32%] ∨ (KelasBukuM(X) = ”600”) [t:65%] ∀X, KelasPeminjam(X)=”C” ⇒ (KelasBukuM(X) = ”500”) [t:33%] (KelasBukuM(X) = ”600”) [t:58%] ∀X, KelasPeminjam(X)=”D” ⇒ (KelasBukuM(X) = ”500”) [t:19%] (KelasBukuM(X) = ”600”) [t:73%] ∀X, KelasPeminjam(X) =”E” ⇒ (KelasBukuM(X) = ”500”) [t:26%] (KelasBukuM(X) = ”600”) [t:64%] ∀X, KelasPeminjam(X) =”F” ⇒ (KelasBukuM(X) = ”500”) [t:17%] (KelasBukuM(X) = ”600”) [t:77%] ∀X, KelasPeminjam(X) =”G” ⇒(KelasBukuM(X) = ”500”) [t:49%] (KelasBukuM(X) = ”600”) [t:44%] ∀X, KelasPeminjam(X) =”H” ⇒(KelasBukuM(X) = ”300”) [t:59%] (KelasBukuM(X) = ”600”) [t:35%] ∀X, KelasPeminjam(X) =”PPS” ⇒ (KelasBukuM (X) = ”300”) [t:11%] (KelasBukuM (X) = ”500”) [t:36%] ∨ (KelasBukuM (X) = ”600”) [t:50%] ∨ ∨ ∨ ∨ ∨ ∨ ∨ Dari aturan pertama dapat dinyatakan bahwa jika X adalah mahasiswa fakultas pertanian, maka terdapat kemungkinan 16% bahwa X akan meminjam buku dengan kelas 300 (Social Sciences), 17% bahwa X akan meminjam buku dengan kelas 500 (Mathematics and Natural Science) dan 64% bahwa X akan meminjam buku dengan kelas 600 (Applied Sciences. Medicine. Technology). Kelas buku 600 memiliki kemungkinan terbesar untuk dipinjam oleh mahasiswa Fakultas Pertanian. Hal ini dikarenakan kelas buku tersebut mencakup buku yang berkaitan dengan pertanian sesuai dengan kompetensi mahasiswa tersebut. Dengan cara yang sama karakteristik peminjam dari fakultas lain dapat ditentukan dari aturan yang sesuai. Dari Tabel 5 dan aturan yang diperoleh dapat dinyatakan bahwa kelas buku 500 (Mathematics and Natural Science) memiliki kemungkinan yang tinggi untuk dipinjam oleh mahasiswa dari fakultas manapun. Hal ini sesuai dengan kenyataan bahwa semua program studi di IPB memberikan mata kuliah dasar yang berkaitan dengan Matematika dan IPB kepada mahasiswanya. 267 Risalah Lokakarya Komputasi dalam Sains dan Teknologi Nuklir XVI, Agustus 2005 (253-271) KESIMPULAN Pendekatan Induksi Beorientasi Atribut digunakan untuk menentukan deskrispi dari kelas peminjam buku di Perpustakaan Pusat IPB. Dari hasil percobaan dapat diperoleh bahwa berdasarkan nilai Information Gain, atribut yang paling relevan untuk menggambarkan kelas peminjam buku antar fakultas adalah Kelas Buku pada pengelompokan paling umum dalam format UDC (KelasBukuM), dengan nilai nilai Information Gain yang besar, yaitu 0.066224. Berdasarkan tabulasi silang dan aturan yang diturunkan dapat dinyatakan bahwa Kelas buku yang memiliki kemungkinan yang tinggi dipinjam oleh semua mahasiswa IPB adalah kelas buku 500 (Mathematics and Natural Science). Kelas buku yang memiliki kemungkinan kecil dipinjam oleh mahasiswa IPB adalah 000 (Generalities), 100 (Philosophy), 200 (Religion. Theology), 400 (Philology. Linguistics. Languanges), 700 (The Arts. Recreation. Entertainment. Sport, Etc), 800 (Literature. Belles-Lettres), 900 (Geography. Biography. History). Informasi ini diharapkan dapat berguna bagi pengelola perpustakaan untuk meninjau kembali kualitas dan kuantitas buku untuk setiap kelas sehingga penyalanan kepada pengguna dapat ditingkatkan. 268 Risalah Lokakarya Komputasi dalam Sains dan Teknologi Nuklir XVI, Agustus 2005 (253-271) DAFTAR PUSTAKA 1. HAN J. dan MICHELINE K., Data mining Concepts and Techniques, Morgan Kaufmann Publishers, 2001. 2. HAN J., YANDONG C. dan NICK C., Knowledge Discovery in Databases: An Attribute-Oriented Approach. School of Computing Science. Simon Fraser University, 1992. 3. HEINONEN O dan HEIKKI M.. Attribute-Oriented Induction and Conceptual Clustering. Departement of Computer Science, University of Helsinki, Finland, 1996. 269 Risalah Lokakarya Komputasi dalam Sains dan Teknologi Nuklir XVI, Agustus 2005 (253-271) DISKUSI BETRIANIS Secara sederhana hasil/kesimpulan penelitian sesuai dengan keadaan (kurikulum) bahwa semua (hampir semua mahasiswa) mendapatkan Mata Kuliah Math, Physics, Chemistry, Biology. Apakah memang diperlukan metode khusus untuk melakukan itu, kalau secara sederhana kurikulum sudah menyatakan demikian IMAS SUKAESIH SITANGGANG Salah satu informasi yang diperoleh adalah kelas buku 500 yang dipinjam oleh mahasiswa dari semua fakultas. Teknik yang diaplikasikan tidak hanya menggambarkan peminjaman kelas buku 500 saja tetapi secara umum karakteristik peminjam buku antar fakultas. 270 Risalah Lokakarya Komputasi dalam Sains dan Teknologi Nuklir XVI, Agustus 2005 (253-271) DAFTAR RIWAYAT HIDUP 1. Nama : Imas Sukaesih Sitanggang 2. Tempat/Tanggal Lahir : Bandung, 30 Januari 1975 3. Instansi : IPB 4. Pekerjaan / Jabatan : Staf Pengajar Depart Ilmu Komputer FMIPA-IPB 5. Riwayat Pendidikan : • S1 Matematika -IPB • S2 Ilmu Komputer- UGM 6. Pengalaman Kerja : • Staf Pengajar Depart Ilmu Komputer FMIPA-IPB 7. Publikasi (Makalah)l : • Sistem Berbasis Pengetahuan untuk evaluasi kesesuaian lahan • Informasi fuzzy untuk menentukan kesesuaian iklim pada tanaman hortikultura 271

Top subcategories

Top subcategories

Top subcategories

Top subcategories

Top subcategories

Top subcategories

Top subcategories

Top subcategories

Download generalisasi data menggunakan pendekatan