Download UAS Manajemen Data

Survey
yes no Was this document useful for you?
   Thank you for your participation!

* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project

Document related concepts
no text concepts found
Transcript
 Manajemen Data
Dosen
Nama
NIM
: Dr. Yan Rianto
Rini Wijayanti, M.Kom
: Yoga Prihastomo
: 1011601026
MAGISTER ILMU KOMPUTER
UNIVERSITAS BUDI LUHUR
2011
DIT TI / DJHKI SKPL-DJHKI-01.04.2011.xx
Halaman 0 dari 33
Dokumen ini dan informasi yang dimilikinya adalah milik Direktorat TI untuk DJHKI dan bersifat rahasia. Dilarang mereproduksi dokumen ini tanpa diketahui Direktorat TI DJHKI. Sebagian data pada dokumen ini merupakan asumsi.
1. Apa yang dimaksud dengan data mining dan jelaskan peran data mining dalam
proses pengambilan keputusan?
Jawab:
Data mining didefinisikan sebagai satu set teknik yang digunakan secara
otomatis untuk mengeksplorasi secara menyeluruh dan membawa ke permukaan
relasi-relasi yang kompleks pada set data yang sangat besar. Set data yang
dimaksud di sini adalah set data yang berbentuk tabulasi, seperti yang banyak
diimplementasi-kan dalam teknologi manajemen basis data relasional. Akan
tetapi, teknik-teknik data mining dapat juga diaplikasikan pada representasi data
yang lain, seperti domain data spatial, berbasis teks, dan multimedia (citra). Data
mining menggunakan pendekatan discovery-based dimana pencocokan pola
(pattern-matching) dan algoritma-algoritma yang lain digunakan untuk menentukan relasi-relasi kunci di dalam data yang diekplorasi. Data mining merupakan
komponen baru pada arsitektur sistem pendukung keputusan (DSS-Decision
Support System) di perusahaan. Data mining (penambangan data), sesuai dengan
namanya, berkonotasi sebagai pencarian informasi bisnis yang berharga dari basis
data yang sangat besar. Usaha pencarian yang dilakukan dapat dianalogikan
dengan penambangan logam mulia dari lahan sumbernya.
Pada dasarnya penggalian data dibedakan menjadi dua fungsionalitas, yaitu
deskripsi dan prediksi. Berikut ini beberapa fungsionalitas penggalian data
yang sering digunakan:
 Karakterisasi dan Diskriminasi
 Penggalian pola berulang
 Klasifikasi
 Prediksi
 Penggugusan/Cluster analysis
 Analisis outlier
 Analisis trend dan evolusi
Jika ditinjau dari fungsionalitas di atas, maka data mining dapat membantu
penggunanya dalam proses pengambilan keputusan. Jika dua saja digunakan
fungsionalitas di atas yakni prediksi dan analisis trend, maka data mining dengan
teknik tertentu akan mengolah berbagai informasi menjadi sebuah hasil yang
signifikan untuk membantu proses pengambilan keputusan.
1
2. Proses data mining umumnya didahului dengan preprocessing. Jelaskan minimal
3 tahapan dalam preprocessing tersebut?
Jawab:
Tahapan tersebut nampak pada gambar berikut:
 Ekstraksi. Data-data yang dikumpulkan dalam proses transaksi sering kali
ditempatkan pada lokasi yang berbeda-beda. Maka dari itu dibutuhkan
kemampuan dari sistem utuk dapat mengumpulkan data dengan cepat. Jika
data tersebut disimpan dalam kantor regional, sering kali data tersebut
diupload ke sebuah server yang lebih terpusat. Hal ini dapat dilakukan secara
harian, mingguan, atau bulanan tergantung jumlah data, keamanan dan biaya.
Data dapat diringkas dulu sebelum dikirimkan ke tempat penyimpanan pusat.
 Seleksi & Pembersihan. Proses pembersihan data, dimana informasi yg
tidak dibutuhkan dibuang. Data dikonfigurasi ulang untuk memastikan format
yg konsisten krn berasal dari berbagai sumber. Data-data yang telah terkumpul
selanjutnya akan mengalami proses pembersihan. Proses pembersihan data
dilakukan untuk membuang record yang keliru, menstandarkan attributattribut, merasionalisasi struktur data, dan mengendalikan data yang hilang.
Data yang tidak konsisten dan banyak kekeliruan membuat hasil data mining
tidak akurat. Adalah sangat penting untuk membuat data konsisten dan
seiagam. Pembersihan data juga dapat membantu perusahaan untuk
mengkonsolidasikan record. Hal ini sangat berguna ketika sebuah perusahaan
mempunyai banyak record untuk seorang pelanggan. Setiap record atau file
2
pelanggan mempunyai nomor pelanggan yang sama, tetapi informasi dalam
tiap filenya berbeda.
 Transformasi. Transformasi data adalah melakukan peringkasan data dengan
mengasumsikan bahwa data telah tersimpan dalam tempat penyimpanan
tunggal. Pada langkah terakhir, data telah diekstrak dari banyak basis data ke
dalam basis data tunggal. Tipe peringkasan yang dikerjakan dalam langkah ini
mirip dengan peringkasan yang dikerjakan selama tahap ekstraksi. Beberapa
perusahaan memilih untuk menngkas data dalam sebuah tempat penyimpanan
tunggal. Fungsi-fungsi agregate yang sering digunakan antara lain: summarizations, averages, minimum, maximum, dan count.
3. Dalam transaksi pembelian tercatat beberapa transaksi berikut ini:
Trans_ID
Customer_ID
Date
111
111
111
112
112
112
113
113
113
114
114
114
114
114
201
201
201
105
105
105
106
106
106
201
201
201
201
201
05/01/2002
05/01/2002
05/01/2002
06/03/2002
06/03/2002
06/03/2002
05/10/2002
05/10/2002
05/10/2002
06/01/2002
06/01/2002
06/01/2002
06/01/2002
06/01/2002
Item
Ink
Milk
Juice
Pen
Ink
Water
Pen
Water
Milk
Pen
Ink
Juice
Water
Milk
Berdasarkan data tersebut, carilah aturan asosiasi yang terbentuk jika diberikan
minimum support 60% dan minimum confidence 90%
Jawab:
Rumus confidence adalah sebagai berikut:
Confidence = Support (X U Y)
Support (X)
3
Trans_ID
Customer_ID Date
111
112
113
114
201
105
106
201
Item
05/01/2002
06/03/2002
05/10/2002
06/01/2002
Ink, Milk, Juice
Pen, Ink, Water
Pen, Water, Milk
Pen, Ink, Juice, Water, Milk
L-1
Candidate -1
Item
Jumlah
Support
3
3
1
3
3
3/4
3/4
1/4
3/4
3/4
Ink
Milk
Juice
Pen
Water
Keterangan
Memenuhi
Memenuhi
Tdk Memenuhi
Memenuhi
Memenuhi
L-2 {Ink, Milk, Pen, Water}
Candidate -2
Item
{Ink, Milk}
{Ink, Pen}
{Ink, Water}
{Milk, Pen}
{Milk, Water}
{Pen, Water}
Jumlah
Support
2
2
2
2
2
3
2/4
2/4
2/4
2/4
2/4
3/4
Keterangan
Tdk Memenuhi
Tdk Memenuhi
Tdk Memenuhi
Tdk Memenuhi
Tdk Memenuhi
Memenuhi
L-3
Candidate - 3 Item = L-3 = Ǿ
ITEM
PERSENTASE
Keterangan
L = {Pen, Water}
L = {Water, Pen}
(3/4) : (3/4) = 1 = 100 %
(3/4) : (3/4) = 1 = 100%
Memenuhi
Memenuhi
Kesimpulan Confidence >= 90 %
Pen
 Water
Water
 Pen
4
4. Dengan menggunakan rapidminer, buatlah 3 cluster untuk data dibawah ini dan
jelaskan hasilnya (setiap cluster ada berapa item dan item-item tersebut masuk ke
cluster mana)
X1
X2
10
20
30
30
5
15
10
30
20
5
20
10
15
10
20
20
20
5
Jawab:
Spesifikasi:
 Rapidminer
: 5.1
 External data
: Excel
 Clustering
: k-Means
 Cluster (k)
: 3
Hasil yang didapatkan setelah me-run rapid miner adalah:
5
Cluster Model:
 Cluster 0: 3 items
 Cluster 1: 3 items
 Cluster 2: 3 items
Total number of items: 9
6
5. Buatlah tree untuk mendeteksi penyakit jantung berdasarkan data dibawah ini:
Usia
Jenis Kelamin
Merokok
Olah Raga
Jantung
Tua
Tua
Muda
Tua
Muda
Muda
Tua
Muda
Tua
Muda
Tua
Muda
Tua
Muda
Pria
Pria
Pria
Pria
Wanita
Pria
Wanita
Pria
Pria
Pria
Pria
Pria
Pria
Pria
Tidak
Ya
Ya
Tidak
Tidak
Tidak
Tidak
Ya
Ya
Ya
Ya
Tidak
Tidak
Ya
Ya
Ya
Tidak
Tidak
Tidak
Ya
Tidak
Tidak
Tidak
Ya
Tidak
Tidak
Ya
Tidak
Tidak
Tidak
Tidak
Tidak
Ya
Tidak
Ya
Tidak
Tidak
Ya
Tidak
Tidak
Tidak
Tidak
Jawab:
Usia
Tua
Tua
Muda
Muda
Jantung
Jumlah
Ya
Tidak
Ya
Tidak
Total
1
6
2
5
14
Usia = Tua
 Q1= –1/7 Log2(1/7) – 6/7 Log2(6/7) = 0.59
Usia = Muda
 Q2= –2/7 Log2(2/7) – 5/7 Log2(5/7) = 0.86
Entropy untuk Usia
 E= 7/14(0.59) + 7/14(0.86) = 0.73
Jenis Kelamin
Jantung
Pria
Pria
Wanita
Wanita
Ya
Tidak
Ya
Tidak
Total
Jumlah
1
11
2
0
14
7
Jenis Kelamin = Pria
 Q1= –1/12 Log2(1/12) – 11/12 Log2(11/12) = 0.41
Jenis Kelamin = Wanita
 Q2= –2/2 Log2(2/2) – 0/2 Log2(0/2) = 0
Entropy untuk Jenis Kelamin
 E= 12/14(0.41) + 2/14(0) = 0.50
Merokok
Jantung
Ya
Ya
Tidak
Tidak
Ya
Tidak
Ya
Tidak
Total
Jumlah
1
6
2
5
14
Merokok = YA
 Q1= –1/7 Log2(1/7) – 6/7 Log2(6/7) = 0.59
Merokok = TIDAK
 Q2= –2/7 Log2(2/7) – 5/7 Log2(5/7) = 0.86
Entropy untuk Merokok
 E= 7/14(0.59) + 7/14(0.86) = 0.73
Olah Raga
Jantung
Ya
Ya
Tidak
Tidak
Ya
Tidak
Ya
Tidak
Total
Jumlah
1
4
2
7
14
Olah Raga = YA
 Q1= –1/5 Log2(1/5) – 4/5 Log2(4/5) = 0.72
Olah Raga = TIDAK
 Q2= –2/9 Log2(2/9) – 7/9 Log2(7/9) = 0.76
Entropy untuk Olah Raga
 E= 5/14(0.72) + 9/14(0.76) = 0.75
8
Penentuan leaf node untuk jenis kelamin Pria
Usia
Jenis Kelamin
Merokok
Olah Raga
Jantung
Tua
Tua
Muda
Tua
Muda
Muda
Tua
Muda
Tua
Muda
Tua
Muda
Pria
Pria
Pria
Pria
Pria
Pria
Pria
Pria
Pria
Pria
Pria
Pria
Tidak
Ya
Ya
Tidak
Tidak
Ya
Ya
Ya
Ya
Tidak
Tidak
Ya
Ya
Ya
Tidak
Tidak
Ya
Tidak
Tidak
Ya
Tidak
Tidak
Ya
Tidak
Tidak
Tidak
Tidak
Tidak
Tidak
Tidak
Tidak
Ya
Tidak
Tidak
Tidak
Tidak
Usia
Jantung
Tua
Tua
Muda
Muda
Ya
Tidak
Ya
Tidak
Total
Jumlah
1
6
0
5
12
Usia = Tua
 Q1= –1/7 Log2(1/7) – 6/7 Log2(6/7) = 0.59
Usia = Muda
 Q2= –0/5 Log2(0/5) – 5/5 Log2(5/5) = 0
Entropy untuk Usia
 E= 7/12(0.59) + 5/12(0) = 0.35
Merokok
Jantung
Ya
Ya
Tidak
Tidak
Ya
Tidak
Ya
Tidak
Total
Jumlah
1
6
0
5
12
Merokok = YA
 Q1= –1/7 Log2(1/7) – 6/7 Log2(6/7) = 0.59
9
Merokok = TIDAK
 Q2= –0/5 Log2(0/5) – 5/5 Log2(5/5) = 0
Entropy untuk Merokok
 E= 7/12(0.59) + 7/12(0) = 0.35
Merokok
Jantung
Ya
Ya
Tidak
Tidak
Ya
Tidak
Ya
Tidak
Jumlah
1
4
0
7
12
Total
Olah Raga = YA
 Q1= –1/5 Log2(1/5) – 4/5 Log2(4/5) = 0.72
Olah Raga = TIDAK
 Q2= –0/7 Log2(0/7) – 7/7 Log2(7/7) = 0
Entropy untuk Olah Raga
 E= 5/12(0.72) + 7/12(0) = 0.30
Penentuan leaf node untuk olah raga Ya
Usia
Jenis Kelamin
Merokok
Olah Raga
Jantung
Tua
Tua
Muda
Muda
Tua
Pria
Pria
Pria
Pria
Pria
Tidak
Ya
Tidak
Ya
Tidak
Ya
Ya
Ya
Ya
Ya
Tidak
Tidak
Tidak
Ya
Tidak
Usia
Jantung
Tua
Tua
Muda
Muda
Ya
Tidak
Ya
Tidak
Total
Jumlah
0
3
1
1
5
Usia = Tua
 Q1= –0/3 Log2(0/3) – 3/3 Log2(3/3) = 0
 10 
Usia = Muda
 Q2= –1/2 Log2(1/2) – 1/2 Log2(1/2) = 1
Entropy untuk Usia
 E= 3/5(0) + 2/5(1) = 0.40
Merokok
Jantung
Ya
Ya
Tidak
Tidak
Ya
Tidak
Ya
Tidak
Jumlah
Total
1
1
0
3
5
Merokok = YA
 Q1= –1/2 Log2(1/2) – 1/2 Log2(1/2) = 1
Merokok = TIDAK
 Q2= –0/3 Log2(0/3) – 3/3 Log2(3/3) = 0
Entropy untuk Merokok
 E= 2/5(1) + 3/5(0) = 0.40
Pada kondisi merokok terdapat 1 data menyatakan YA
R1= IF Jenis Kelamin = Wanita THEN Jantung = YA
R2 = IF Jenis Kelamin = Pria ^ Olah Raga = Tidak
THEN Jantung = TIDAK
R3 = IF Jenis Kelamin = Pria ^ Olah Raga = YA ^ Usia = Tua
THEN Jantung = Tidak
R4 = IF Jenis Kelamin = Pria ^ Olah Raga = YA ^ Usia = Muda ^
Merokok = TIDAK THEN Jantung = Tidak
R5 = IF Jenis Kelamin = Pria ^ Olah Raga = YA ^ Usia = Muda ^
Merokok = YA THEN Jantung = YA
 11 
Tree yang dihasilkan adalah sebagai berikut:
Jenis Kelamin
Pria
Wanita
Olah Raga
Ya
Ya
Tidak
Usia
Muda
Tidak
Tua
Merokok
Ya
Tidak
Tidak
 12 