Survey
* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project
* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project
Manajemen Data Dosen Nama NIM : Dr. Yan Rianto Rini Wijayanti, M.Kom : Yoga Prihastomo : 1011601026 MAGISTER ILMU KOMPUTER UNIVERSITAS BUDI LUHUR 2011 DIT TI / DJHKI SKPL-DJHKI-01.04.2011.xx Halaman 0 dari 33 Dokumen ini dan informasi yang dimilikinya adalah milik Direktorat TI untuk DJHKI dan bersifat rahasia. Dilarang mereproduksi dokumen ini tanpa diketahui Direktorat TI DJHKI. Sebagian data pada dokumen ini merupakan asumsi. 1. Apa yang dimaksud dengan data mining dan jelaskan peran data mining dalam proses pengambilan keputusan? Jawab: Data mining didefinisikan sebagai satu set teknik yang digunakan secara otomatis untuk mengeksplorasi secara menyeluruh dan membawa ke permukaan relasi-relasi yang kompleks pada set data yang sangat besar. Set data yang dimaksud di sini adalah set data yang berbentuk tabulasi, seperti yang banyak diimplementasi-kan dalam teknologi manajemen basis data relasional. Akan tetapi, teknik-teknik data mining dapat juga diaplikasikan pada representasi data yang lain, seperti domain data spatial, berbasis teks, dan multimedia (citra). Data mining menggunakan pendekatan discovery-based dimana pencocokan pola (pattern-matching) dan algoritma-algoritma yang lain digunakan untuk menentukan relasi-relasi kunci di dalam data yang diekplorasi. Data mining merupakan komponen baru pada arsitektur sistem pendukung keputusan (DSS-Decision Support System) di perusahaan. Data mining (penambangan data), sesuai dengan namanya, berkonotasi sebagai pencarian informasi bisnis yang berharga dari basis data yang sangat besar. Usaha pencarian yang dilakukan dapat dianalogikan dengan penambangan logam mulia dari lahan sumbernya. Pada dasarnya penggalian data dibedakan menjadi dua fungsionalitas, yaitu deskripsi dan prediksi. Berikut ini beberapa fungsionalitas penggalian data yang sering digunakan: Karakterisasi dan Diskriminasi Penggalian pola berulang Klasifikasi Prediksi Penggugusan/Cluster analysis Analisis outlier Analisis trend dan evolusi Jika ditinjau dari fungsionalitas di atas, maka data mining dapat membantu penggunanya dalam proses pengambilan keputusan. Jika dua saja digunakan fungsionalitas di atas yakni prediksi dan analisis trend, maka data mining dengan teknik tertentu akan mengolah berbagai informasi menjadi sebuah hasil yang signifikan untuk membantu proses pengambilan keputusan. 1 2. Proses data mining umumnya didahului dengan preprocessing. Jelaskan minimal 3 tahapan dalam preprocessing tersebut? Jawab: Tahapan tersebut nampak pada gambar berikut: Ekstraksi. Data-data yang dikumpulkan dalam proses transaksi sering kali ditempatkan pada lokasi yang berbeda-beda. Maka dari itu dibutuhkan kemampuan dari sistem utuk dapat mengumpulkan data dengan cepat. Jika data tersebut disimpan dalam kantor regional, sering kali data tersebut diupload ke sebuah server yang lebih terpusat. Hal ini dapat dilakukan secara harian, mingguan, atau bulanan tergantung jumlah data, keamanan dan biaya. Data dapat diringkas dulu sebelum dikirimkan ke tempat penyimpanan pusat. Seleksi & Pembersihan. Proses pembersihan data, dimana informasi yg tidak dibutuhkan dibuang. Data dikonfigurasi ulang untuk memastikan format yg konsisten krn berasal dari berbagai sumber. Data-data yang telah terkumpul selanjutnya akan mengalami proses pembersihan. Proses pembersihan data dilakukan untuk membuang record yang keliru, menstandarkan attributattribut, merasionalisasi struktur data, dan mengendalikan data yang hilang. Data yang tidak konsisten dan banyak kekeliruan membuat hasil data mining tidak akurat. Adalah sangat penting untuk membuat data konsisten dan seiagam. Pembersihan data juga dapat membantu perusahaan untuk mengkonsolidasikan record. Hal ini sangat berguna ketika sebuah perusahaan mempunyai banyak record untuk seorang pelanggan. Setiap record atau file 2 pelanggan mempunyai nomor pelanggan yang sama, tetapi informasi dalam tiap filenya berbeda. Transformasi. Transformasi data adalah melakukan peringkasan data dengan mengasumsikan bahwa data telah tersimpan dalam tempat penyimpanan tunggal. Pada langkah terakhir, data telah diekstrak dari banyak basis data ke dalam basis data tunggal. Tipe peringkasan yang dikerjakan dalam langkah ini mirip dengan peringkasan yang dikerjakan selama tahap ekstraksi. Beberapa perusahaan memilih untuk menngkas data dalam sebuah tempat penyimpanan tunggal. Fungsi-fungsi agregate yang sering digunakan antara lain: summarizations, averages, minimum, maximum, dan count. 3. Dalam transaksi pembelian tercatat beberapa transaksi berikut ini: Trans_ID Customer_ID Date 111 111 111 112 112 112 113 113 113 114 114 114 114 114 201 201 201 105 105 105 106 106 106 201 201 201 201 201 05/01/2002 05/01/2002 05/01/2002 06/03/2002 06/03/2002 06/03/2002 05/10/2002 05/10/2002 05/10/2002 06/01/2002 06/01/2002 06/01/2002 06/01/2002 06/01/2002 Item Ink Milk Juice Pen Ink Water Pen Water Milk Pen Ink Juice Water Milk Berdasarkan data tersebut, carilah aturan asosiasi yang terbentuk jika diberikan minimum support 60% dan minimum confidence 90% Jawab: Rumus confidence adalah sebagai berikut: Confidence = Support (X U Y) Support (X) 3 Trans_ID Customer_ID Date 111 112 113 114 201 105 106 201 Item 05/01/2002 06/03/2002 05/10/2002 06/01/2002 Ink, Milk, Juice Pen, Ink, Water Pen, Water, Milk Pen, Ink, Juice, Water, Milk L-1 Candidate -1 Item Jumlah Support 3 3 1 3 3 3/4 3/4 1/4 3/4 3/4 Ink Milk Juice Pen Water Keterangan Memenuhi Memenuhi Tdk Memenuhi Memenuhi Memenuhi L-2 {Ink, Milk, Pen, Water} Candidate -2 Item {Ink, Milk} {Ink, Pen} {Ink, Water} {Milk, Pen} {Milk, Water} {Pen, Water} Jumlah Support 2 2 2 2 2 3 2/4 2/4 2/4 2/4 2/4 3/4 Keterangan Tdk Memenuhi Tdk Memenuhi Tdk Memenuhi Tdk Memenuhi Tdk Memenuhi Memenuhi L-3 Candidate - 3 Item = L-3 = Ǿ ITEM PERSENTASE Keterangan L = {Pen, Water} L = {Water, Pen} (3/4) : (3/4) = 1 = 100 % (3/4) : (3/4) = 1 = 100% Memenuhi Memenuhi Kesimpulan Confidence >= 90 % Pen Water Water Pen 4 4. Dengan menggunakan rapidminer, buatlah 3 cluster untuk data dibawah ini dan jelaskan hasilnya (setiap cluster ada berapa item dan item-item tersebut masuk ke cluster mana) X1 X2 10 20 30 30 5 15 10 30 20 5 20 10 15 10 20 20 20 5 Jawab: Spesifikasi: Rapidminer : 5.1 External data : Excel Clustering : k-Means Cluster (k) : 3 Hasil yang didapatkan setelah me-run rapid miner adalah: 5 Cluster Model: Cluster 0: 3 items Cluster 1: 3 items Cluster 2: 3 items Total number of items: 9 6 5. Buatlah tree untuk mendeteksi penyakit jantung berdasarkan data dibawah ini: Usia Jenis Kelamin Merokok Olah Raga Jantung Tua Tua Muda Tua Muda Muda Tua Muda Tua Muda Tua Muda Tua Muda Pria Pria Pria Pria Wanita Pria Wanita Pria Pria Pria Pria Pria Pria Pria Tidak Ya Ya Tidak Tidak Tidak Tidak Ya Ya Ya Ya Tidak Tidak Ya Ya Ya Tidak Tidak Tidak Ya Tidak Tidak Tidak Ya Tidak Tidak Ya Tidak Tidak Tidak Tidak Tidak Ya Tidak Ya Tidak Tidak Ya Tidak Tidak Tidak Tidak Jawab: Usia Tua Tua Muda Muda Jantung Jumlah Ya Tidak Ya Tidak Total 1 6 2 5 14 Usia = Tua Q1= –1/7 Log2(1/7) – 6/7 Log2(6/7) = 0.59 Usia = Muda Q2= –2/7 Log2(2/7) – 5/7 Log2(5/7) = 0.86 Entropy untuk Usia E= 7/14(0.59) + 7/14(0.86) = 0.73 Jenis Kelamin Jantung Pria Pria Wanita Wanita Ya Tidak Ya Tidak Total Jumlah 1 11 2 0 14 7 Jenis Kelamin = Pria Q1= –1/12 Log2(1/12) – 11/12 Log2(11/12) = 0.41 Jenis Kelamin = Wanita Q2= –2/2 Log2(2/2) – 0/2 Log2(0/2) = 0 Entropy untuk Jenis Kelamin E= 12/14(0.41) + 2/14(0) = 0.50 Merokok Jantung Ya Ya Tidak Tidak Ya Tidak Ya Tidak Total Jumlah 1 6 2 5 14 Merokok = YA Q1= –1/7 Log2(1/7) – 6/7 Log2(6/7) = 0.59 Merokok = TIDAK Q2= –2/7 Log2(2/7) – 5/7 Log2(5/7) = 0.86 Entropy untuk Merokok E= 7/14(0.59) + 7/14(0.86) = 0.73 Olah Raga Jantung Ya Ya Tidak Tidak Ya Tidak Ya Tidak Total Jumlah 1 4 2 7 14 Olah Raga = YA Q1= –1/5 Log2(1/5) – 4/5 Log2(4/5) = 0.72 Olah Raga = TIDAK Q2= –2/9 Log2(2/9) – 7/9 Log2(7/9) = 0.76 Entropy untuk Olah Raga E= 5/14(0.72) + 9/14(0.76) = 0.75 8 Penentuan leaf node untuk jenis kelamin Pria Usia Jenis Kelamin Merokok Olah Raga Jantung Tua Tua Muda Tua Muda Muda Tua Muda Tua Muda Tua Muda Pria Pria Pria Pria Pria Pria Pria Pria Pria Pria Pria Pria Tidak Ya Ya Tidak Tidak Ya Ya Ya Ya Tidak Tidak Ya Ya Ya Tidak Tidak Ya Tidak Tidak Ya Tidak Tidak Ya Tidak Tidak Tidak Tidak Tidak Tidak Tidak Tidak Ya Tidak Tidak Tidak Tidak Usia Jantung Tua Tua Muda Muda Ya Tidak Ya Tidak Total Jumlah 1 6 0 5 12 Usia = Tua Q1= –1/7 Log2(1/7) – 6/7 Log2(6/7) = 0.59 Usia = Muda Q2= –0/5 Log2(0/5) – 5/5 Log2(5/5) = 0 Entropy untuk Usia E= 7/12(0.59) + 5/12(0) = 0.35 Merokok Jantung Ya Ya Tidak Tidak Ya Tidak Ya Tidak Total Jumlah 1 6 0 5 12 Merokok = YA Q1= –1/7 Log2(1/7) – 6/7 Log2(6/7) = 0.59 9 Merokok = TIDAK Q2= –0/5 Log2(0/5) – 5/5 Log2(5/5) = 0 Entropy untuk Merokok E= 7/12(0.59) + 7/12(0) = 0.35 Merokok Jantung Ya Ya Tidak Tidak Ya Tidak Ya Tidak Jumlah 1 4 0 7 12 Total Olah Raga = YA Q1= –1/5 Log2(1/5) – 4/5 Log2(4/5) = 0.72 Olah Raga = TIDAK Q2= –0/7 Log2(0/7) – 7/7 Log2(7/7) = 0 Entropy untuk Olah Raga E= 5/12(0.72) + 7/12(0) = 0.30 Penentuan leaf node untuk olah raga Ya Usia Jenis Kelamin Merokok Olah Raga Jantung Tua Tua Muda Muda Tua Pria Pria Pria Pria Pria Tidak Ya Tidak Ya Tidak Ya Ya Ya Ya Ya Tidak Tidak Tidak Ya Tidak Usia Jantung Tua Tua Muda Muda Ya Tidak Ya Tidak Total Jumlah 0 3 1 1 5 Usia = Tua Q1= –0/3 Log2(0/3) – 3/3 Log2(3/3) = 0 10 Usia = Muda Q2= –1/2 Log2(1/2) – 1/2 Log2(1/2) = 1 Entropy untuk Usia E= 3/5(0) + 2/5(1) = 0.40 Merokok Jantung Ya Ya Tidak Tidak Ya Tidak Ya Tidak Jumlah Total 1 1 0 3 5 Merokok = YA Q1= –1/2 Log2(1/2) – 1/2 Log2(1/2) = 1 Merokok = TIDAK Q2= –0/3 Log2(0/3) – 3/3 Log2(3/3) = 0 Entropy untuk Merokok E= 2/5(1) + 3/5(0) = 0.40 Pada kondisi merokok terdapat 1 data menyatakan YA R1= IF Jenis Kelamin = Wanita THEN Jantung = YA R2 = IF Jenis Kelamin = Pria ^ Olah Raga = Tidak THEN Jantung = TIDAK R3 = IF Jenis Kelamin = Pria ^ Olah Raga = YA ^ Usia = Tua THEN Jantung = Tidak R4 = IF Jenis Kelamin = Pria ^ Olah Raga = YA ^ Usia = Muda ^ Merokok = TIDAK THEN Jantung = Tidak R5 = IF Jenis Kelamin = Pria ^ Olah Raga = YA ^ Usia = Muda ^ Merokok = YA THEN Jantung = YA 11 Tree yang dihasilkan adalah sebagai berikut: Jenis Kelamin Pria Wanita Olah Raga Ya Ya Tidak Usia Muda Tidak Tua Merokok Ya Tidak Tidak 12