Survey
* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project
* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project
BAB 3 EKSPLORASI DATA Pendahuluan Eksplorasi data dilakukan sebagai langkah awal untuk mengetahui karakteristik dari data. Tahapan ini bertujuan untuk menyeleksi teknik pemrosesan dan analisis data yang sesuai. Bagian ini membahas tiga topik utama dalam eksplorasi data yaitu statistika ringkasan, visualisasi, dan On-Line Analytical Processing (OLAP). Statistika ringkasan. Seperti rataan dan deviasi standar dari sekumpulan nilai, dan teknik visualisasi, seperti histogram, dan scatter plot, merupakan metode standar yang banyak digunakan dalam mengeksplorasi data. OLAP, yang baru-baru ini dikembangkan, terdiri dari sekumpulan teknik untuk mengeksplorasi array multidimensi. Fungsi analisis yang berkaitan dengan OLAP memfokuskan pada berbagai cara untuk membuat tabel data ringkasan dari array data multidimensi. Teknik ini melibatkan penentuan agregasi data melalui berbagai dimensi dan berbagai nilai atribut. Sebagai contoh, teknik OLAP dapat digunakan untuk membuat sebuah ringkasan yang menjelaskan aktivitas penjualan pada berbagai lokasi berdasarkan bulan dan katerogi produk. 3.1 Data Set Iris Dalam pembahasan berikutnya data set yang banyak digunakan adalah data set Iris yang teresedia dari Universitas California pada Irvine (UCI) Machine Learning Repository. Data set ini mengandung informasi dari 150 bunga Iris, sebanyak 50 bunga masing-masing berasal dari spesies: Setosa, Versicolour, dan Virginica. Setiap bunga dicirikan oleh 5 atribut, yaitu: Panjang sepal dalam cm. Lebar sepal dalam cm. Panjang petal dalam cm. Lebar petal dalam cm. Kelas (Setosa, Versicolour, dan Virginica). Sepal dari bunga adalah struktur terluar yang menjaga bagian bunga yang paling mudah rusak seperti petal. Dalam kebanyakan bunga, sepal berwarna hijau dan hanya petal yang berwarna-warni. Untuk Iris, sepal juga berwarna-warni. 3.2 Statistika Ringkasan Statsitika ringkasan adalah kuantitas seperti rataan dan simpangan baku yang menyatakan berbagai karakteristik dari kumpulan nilai data berukuran besar dengan sebuah bilangan atau sekumpulan kecil bilangan. Modul Kuliah Data Mining 38 a. Frekuensi dan Modus Diberikan himpunan nilai kategori yang tidak terurut, kuantitas yang dapat dihitung untuk menentukan karakteristik dari data adalah frekuensi. Diberikan atribut kategori x, nilai-nilai {v1, v2, …, vi, …, vk} dan himpunan dari m objek, frekuensi dari nilai vi didefinisikan sebagai: frekuensi( vi) = banyaknya objek dengan nilai atribut vi m (3.1) Modus dari atribut kategori adalah nilai yang memiliki frekuensi tertinggi. Contoh 3.1: Diberikan himpunan mahasiswa yang memiliki sebuah atribut kelas, yang dapat memiliki nilai salah satu dari himpunan {freshman, sophomore, junior, senior}. Tabel 3.1 menunjukkan banyaknya mahasiswa untuk setiap nilai dari atribut kelas. Modus dari atribut kelas adalah freshman, dengan frekuensi 0.33. Tabel 3.1 Ukuran kelas untuk mahasiswa Kelas freshman sophomore junior senior Ukuran 140 160 130 170 Frekuensi 0.33 0.27 0.22 0.18 Atribut kategori umumnya memiliki sejumlah kecil nilai, sehingga modus dan frekuensi dari nilai-nilai tersebut dapat menarik dan berguna. Untuk data Iris dan atribut kelas, ketiga bentuk dari bunga semuanya memiliki frekuensi yang sama, dengan demikian modus tidak menarik lagi. Untuk data kontinu, modus seringkali tidak berguna karena sebuah nilai mungkin tidak muncul lebih dari satu kali. Meskipun demikian, dalam banyak kasus, modus dapat memberikan informasi yang penting tentang sifat dasar nilai atau tentang adanya nilai-nilai yang hilang. Sebagai contoh, tinggi badan dari 20 orang diukur ke milimeter terdekat nilainya tidak akan berulang. Tapi jika tinggi tersebut diukur ke persepuluh dari meter terdekat, maka beberapa orang dapat memiliki tinggi yang sama. Demikian halnya jika sebuah nilai digunakan untuk menunjukkan nilai yang hilang, maka nilai-nilai ini sering kali muncul sebagai modus. b. Persentil Untuk data yang terurut, persentil dari sebuah data set sering digunakan. Misalkan diberikan atribut x, x dapat berupa atribut kontinu atau ordinal, dan misalkan pula sebuah nilai p diantara 0 sampai dengan 100, persentil ke-p, xp, adalah nilai dari x sedemikian sehingga p% dari nilai-nilai observasi dari x lebih kecil dari xp. Sebagai contoh, persentil ke-50 adalah nilai x50% sedemikian sehingga 50% dari semua nilai-nilai dari x lebih kecil dari x50%. Tabel 3.2 menunjukkan persentil untuk keempat atribut kuantitatif dari data set Iris. Modul Kuliah Data Mining 39 Tabel 3.2 Persentil untuk panjang sepal, lebar sepal, panjang petal, dan lebar petal (dalam cm). Persentil 0 10 20 30 40 50 60 70 80 90 100 panjang sepal 4.3 4.8 5.0 5.2 5.6 5.8 6.1 6.3 6.6 6.9 7.9 lebar sepal 2.0 2.5 2.7 2.8 3.0 3.0 3.1 3.2 3.4 3.6 4.4 panjang petal 1.0 1.4 1.5 1.7 3.9 4.4 4.6 5.0 5.4 5.8 6.9 lebar petal 0.1 0.2 0.2 0.4 1.2 1.3 1.5 1.8 1.9 2.2 2.5 Contoh 3.2: Persentil x0%, x10%, ... , x90% dari integer dari 1 sampai 10, beturut-turut adalah 1.0, 1.5, 2.5, 3.5, 4.5, 5.5, 6.5, 7.5, 8.5, 9.5, 10.0. Min(x) = x0%, dan max(x) = x100%. c. Ukuran lokasi: rata-rata dan median Untuk data kontinu, statistika ringkasan yang banyak digunakan adalah rataan dan median. Keduanya mengukur lokasi dari himpunan nilai. Perhatikan sebuah himpunan dari m objek dan sebuah nilai atribut x. Misalkan {x1, x2, ..., xm} adalah nilai-nilai atribut dari x untuk objek-objek tersebut. Misalkan nilainilai ini adalah tinggi badan m siswa. Misalkan {x(1), x(2), ..., x(m)} menyatakan nilai-nilai dari x setelah diurut dalam urutan tidak menurun. Dengan demikian, x(1) = min(x) dan x(m) = max(x). Maka rataan dan median didefinisikan sebagai berikut: rataan( x ) = x = 1 m ∑ xi m i =1 (3.2) ⎧⎪ x ( r +1), jika m adalah ganjil, yaitu m = 2r + 1 median( x ) = ⎨ 1 (3.3) ⎪⎩ 2 ( x ( r ) + x ( r +1) ), jika m adalah genap, yaitu m = 2r Median adalah nilai tengah jika jumlah nilai adalah ganjil dan rata-rata dari dua nilai tengah jika jumlah nilai adalah genap. Untuk tujuh nilai, median adalah x(4), sedangkan untuk sepuluh nilai, median adalah 12 ( x (5) + x (6) ) . Walaupun rataan sering diinterpretasikan sebagai nilai tengah dari sekumpulan nilai, interpretasi ini adalah benar jika nilai terdistribusi secara simetris. Jika distribusi nilai adalah tidak simetris, maka median adalah indikator yang lebih baik. Di samping itu, rataan bersifat sensitif terhadap adanya outlier. Untuk data yang mengandung outlier, median merupakan dugaan yang baik untuk nilai tengah dari sekumpulan nilai. Modul Kuliah Data Mining 40 Untuk mengatasi masalah yang muncul dari definisi rataan, notasi trimmed mean sering digunakan. Ditentukan persentase p di antara 0 sampai dengan 100, sebagai (p/2)% dari data bagian atas dan bagian bawah dibuang, dan selanjutnya rataan dihitung dengan cara yang sama menggunakan persamaan (3.2). Median adalah trimmed mean dengan p = 100%, sedangkan pada rataan biaya nilai p = 0%. Contoh 3.3: Perhatikan himpunan nilai {1, 2, 3, 4, 5, 90}. Rataan dari nilai-nilai ini adalah 17.5, sedangkan mediannya adalah 3.5. Nilai trimmed mean dengan p = 40% adalah 3.5. Contoh 3.4: Nilai rataan, median dan trimmed mean (p = 20%) dari keempat atribut kuantitatif dari data set Iris diberikan dalam Tabel 3.3. Ketiga ukuran lokasi tersebut memiliki nilai yang mirip, kecuali untuk atribut panjang petal. Tabel 3.3 Nilai rataan dan median untuk panjang sepal, lebar sepal, panjang petal, dan lebar petal (dalam cm) Ukuran Rataan Median Trimmed mean (20%) Panjang sepal 5.84 5.80 5.79 Lebar sepal 3.05 3.00 3.02 Panjang petal 3.76 4.35 3.72 Lebar petal 1.20 1.30 1.12 d. Ukuran Penyebaran: Range dan Variance Statistik ringkasan lain yang digunakan pada data kontinu adalah ukuran penyebaran dari sekumpulan nilai. Ukuran demikian menunjukkan jika nilai atribut menyebar secara luas atau jika nilai-nilai tersebut secara relatif terkonsentrasi pada sebuah titik seperti rataan. Ukuran paling sederhana dari penyebaran adalah range. Diberikan sebuah atribut x dengan sekumpulan m nilai {x1, x2, ..., xm}, range didefinisikan sebagai range(x) = max(x) − min(x) = x(m) − x(1) (3.4) Walaupun range menunjukkan sebaran maksimum, nilai ini dapat menimbulkan kesalahan jika kebanyakan data terkonsentrasi dalam sebuah pita data yang sempit, tetapi juga terdapat sejumlah kecil nilai-nilai ekstrim. Dengan demikian digunakan variance sebagai ukuran penyebaran. Variance dari nilai atribut x dituliskan s 2x dan didefinisikan sebagai berikut. var iance( x ) = s 2x = 1 m (xi − x)2 ∑ m − 1 i =1 (3.5) Standard deviation, yang merupakan akar kuadrat dari variance, ditulis sx dan memiliki unit yang sama seperti x. Nilai rataan dapat menyimpang karena adanya outlier, dan karena variance dihitung dengan menggunakan rataan, maka variance juga sensitif terhadap Modul Kuliah Data Mining 41 outlier. Untuk itu seringkali digunakan ukuran sebaran yang lain, yaitu absolute average deviation (AAD), median absolute deviation (MAD) dan interquartile range (IQR). Formula untuk ukuran-ukuran tersebut adalah AAD(x) = 1 m ∑ xi − x m i =1 (3.6) MAD(x) = median ({ x1 − x ,..., x m − x }) (3.7) interquartile range(x) = x75% − x25% (3.8) Tabel 3.4 menunjukkan nilai-nilai ukuran ini untuk data set Iris. Tabel 3.4 Nilai Range, Standard Deviation (std), AAD, MAD dan IQR untuk panjang sepal, lebar sepal, panjang petal, dan lebar petal (dalam cm) Panjang sepal 3.6 0.8 0.7 0.7 1.3 Ukuran Range Std AAD MAD IQR e. Lebar sepal 2.4 0.4 0.3 0.3 0.5 Panjang petal 5.9 1.8 1.6 1.2 3.5 Lebar petal 2.4 0.8 0.6 0.7 1.5 Statistik Ringkasan Multivariate Ukuran lokasi untuk data yang mengandung beberapa atribut (data multivariabel) dapat diperoleh dengan menghitung nilai rataan dan median secara terpisah untuk setiap atribut. Dengan demikian, untuk data set yang diberikan, rataan dari objek-objek data, x , diberikan oleh ( x = x1,.., x n ) (3.9) dimana x i adalah nilai rataan dari atribut ke-i, xi. Untuk data multivariabel, sebaran dari setiap atribut dapat dihitung secara bebas dari atribut-atribut lain dengan menggunakan pendekatan yang diberikan pada bagian d. Walaupun demikian, untuk data dengan variabel kontinu, sebaran dari data umumnya ditentukan oleh matriks covariance S, yang memiliki entri keij, sij, adalah covariance dari nilai atribut ke-i dan nilai atribut ke-j. Dengan demikian, jika xi dan xj berturut-turut adalah atribut ke-i dan ke-j, maka sij = covariance(xi, xj) (3.10) Nilai covariance(xi, xj) diberikan oleh covariance(xi, xj) = 1 m ∑ ( x ki − x i )( x kj − x j ) m − 1 k =1 (3.11) dimana nilai x ki dan x kj adalah nilai-nilai dari atribut ke-i dan ke-j untuk objek ke-k. Perhatikan bahwa covariance(xi, xi) = variance(xi). Dengan demikian, matrik covariance memiliki variance-variance dari atribut sepanjang diagonalnya. Modul Kuliah Data Mining 42 Covariance dari dua atribut adalah ukuran dari derajat dimana dua atribut berbeda dan tergantung pada besaran dari variabel. Nilai covariance yang dekat ke 0 menunjukkan bahwa dua atribut tidak memiliki hubungan linier, tetapi tidak mungkin menentukan derajat hubungan antara dua variabel dengan hanya melihat nilai dari covariance. Korelasi antar dua atribut memberikan secara langsung indikasi seberapa kuat dua atribut tersebut berhubungan secara linier. Entri ke-ij dari matriks korelasi (correlation), R, adalah korelasi antara atribut ke-i dan atribut ke-j. Jika xi dan xj adalah nilai-nilai dari atribut ke-i dan ke-j, maka rij = correlation(xi, xj) = cov ariance( x i , x j ) sis j (3.12) dimana si dan sj berturut-turut adalah variance dari xi dan xj. Entri diagonal dari R adalah correlation(xi, xi) = 1, sedangkan untuk nilai untuk entri lainnya berada antara −1 sampai dengan 1. 3.3 Visualisasi Visualisasi data adalah menampilkan informasi dalam format grafik atau tabular. Visualisasi yang baik memerlukan data (informasi) dikonversi ke dalam format visual sedemikian sehingga karakteristik dari data dan hubungan diantara item data atau atribut dapat dianalisa. Teknik visualisasi dalam data mining dinyatakan sebagai visual data mining. 3.3.1 Motivasi untuk Visualisasi Motivasi untuk menggunaan visualisasi adalah bahwa pengguna dapat dengan cepat menyerap sejumlah besar informasi visual dan menemukan pola dalam informasi tersebut. Perhatikan Gambar 3.2, yang menunjukkan Sea Surface Termperature (SST) dalam derajat Celcius untuk Juli 1982. Gambar 3.1 Sea Surface Termperature (SST) untuk Juli 1982 Gambar tersebut meringkas infromasi dari sekitar 250.000 angka dan dapat dengan mudah diinterpretasikan dalam beberapa detik. Sebagai contoh, dapat dilihat dengan mudah temperatur laut adalah paling tinggi pada garis katulistiwa dan paling rendah di kutub. Modul Kuliah Data Mining 43 Motivasi lainnya untuk visualisasi adalah membuat penggunaan domain knowledge. Walaupun penggunaan domain knowledge adalah pekerjaan yang penting dalam data mining, seringkali sulit dan tidak mungkin mengunakan seluruh pengetahuan tersebut dalam alat statistik atau algoritmik. Dalam beberapa kasus, analisa dapat dilakukan dengan menggunakan alat non-visual dan kemudian hasilnya dipresentasikan secara visual untuk dievaluasi oleh domain expert. Dalam kasus lain, setelah menemukan pola yang diinginkan, karena dengan menggunakan domain knowledge, pengguna dapat dengan cepat membuang beberapa pola yang tidak menarik dan langsung terfokus pada pola yang penting. 3.3.2 Konsep Umum Berikut adalah pendekatan-pendekatan yang umum untuk visualisasi data dan atributnya. a. Representasi: Pemetaan Data ke Elemen Grafik Langkah pertama dalam visualisasi adalah pemetaan informasi ke format visual; yaitu pemetaan objek, atribut, dan hubungan antar objek dalam sekumpulan informasi ke objek, atribut dan hubungan visual. Bahwa objek data, atributnya, dan hubungan antar objek data dinyatakan dalam elemen-elemen grafis seperti titik, garis, bentuk dan warna. Objek biasanya direpresentasikan dalam salah satu dari tiga cara berikut. Pertama, jika hanya sebuah atribut kategori dari objek yang diperhatikan, maka objek seringkali disatukan ke dalam kategori-kategori berdasarkan pada nilai atribut tersebut, dan kategori-kategori ini ditampilkan sebagai sebuah entri dalam tabel atau area di layar. Kedua, jika sebuah objek memiliki banyak atribut, maka objek dapat ditampilkan sebagai baris (atau kolom) dari sebuah tabel atau sebuah garis pada sebuah grafik. Ketiga, sebuah objek serngkali diinterpretasikan sebagai sebuah titik dalam ruang 2 atau 3 dimensi, dimana secara grafis, titik dapat direpresentasikan oleh gambar geometri seperti lingkaran dan kotak. Untuk atribut, representasi tergantung pada tipe atribut, apakah nominal, ordinal, atau kontinu (interval atau ratio). Atribut ordinal dan kontinu dapat dipetakan ke dalam fitur grafis terurut dan kontinu seperti lokasi sepanjang sumbu x, y dan z; intensitas; warna; atau ukuran (diameter, tinggi dan lain-lain). Untuk atribut kategori, setiap kategori dapat dipetakan ke dalam posisi, warna, bentuk, orientasi yang berbeda atau kolom dalam tabel. Untuk atribut nominal, yang memiliki nilai terurut, penggunaan fitur-fitur grafik, seperti warna dan posisi yang memiliki urutan terkait dengan nilai-nilainya, harus dilakukan secara hati-hati. Representasi hubungan melalui elemen-elemen grafis terjadi baik secara eksplisit maupun implisit. Untuk data graf, digunakan representasi graf biasa, sekumpulan node dengan link diantara node. Jika node (objek data) atau link (hubungan) memiliki atribut atau karakteristik dari dirinya sendiri, maka atribut dan karakteristik tersebut direpresentasikan secara grafis. Sebagai ilustrasi, jika node adalah kota dan link adalah jalan raya, maka diameter dari node dapat menyatakan populasi, sedangkan lebar dari link dapat merepresentasikan volume lalu lintas. Dalam banyak kasus, pemetaan objek dan atribut ke elemen grafis secara implisit memetakan hubungan dalam data ke hubungan antara elemen-elemen grafis. Modul Kuliah Data Mining 44 Sebagai ilustrasi, jika objek data merepresentasikan objek fisik yang memiliki lokasi, seperti kota, maka posisi relatif dari objek grafis yang berhubungan dengan objek data cenderung mempertahankan posisi relatif aktual dari data. b. Penyusunan Pemilihan yang tepat dari representasi visual dari objek dan atribut adalah penting untuk visualisasi yang baik. Penyusuan kembali item dalam penampilan visual juga merupakan hal yang penting. Contoh 3.5: Tabel 3.5 menunjukkan sembilan objek dengan enam atribut biner. Dari tabel tersebut dapat dilihat bahwa hubungan antara objek dan atribut tidak jelas. Jika baris dan kolom dipermutasikan seperti dalam Tabel 3.6, makan kita dapat dengan jelas melihat dua tipe objek dalam tabel, tipe yang pertama adalah objek-objek yang memiliki nilai 1 untuk tiga atribut pertama, dan tipe yang kedua adalah objek-objek yang memiliki nilai 1 untuk tiga atribut terakhir. Tabel 3.5 Tabel yang terdiri dari 9 objek (baris) dan 6 atribut biner (kolom) Tabel 3.6 Tabel yang terdiri dari 9 objek (baris) dan 6 atribut (kolom) yang dipermutasikan sedemikian sehingga hubungan antara baris dan kolom telihat jelas. c. Seleksi Konsep penting lainnya dalam visualisasi adalah seleksi, yang mengeliminasi objek atau atribut tertentu. Jika terlalu banyak objek data, maka Modul Kuliah Data Mining 45 memvisualisasikan semua objek akan menghasilkan tampilan yang penuh sesak. Pendekatan yang paling umum untuk menangani atribut yang banyak adalah dengan memilih sebuah subset dari atribut. Jika dimensi terlalu tinggi, matriks plot untuk dua atribut dapat dibuat untuk menggambarkan objek data secara simultan. Teknik memilih sepasang (atau sejumlah kecil) atribut adalah bentuk dari reduksi dimensionalitas, dan terdapat banyak teknik yang dapat digunakan, salah satunya adalah PCA (Principal Components Analysis). 3.3.3. Metode Teknik visualisasi seringkali ditentukan berdasarkan tipe dari data yang sedang dianalisis, berdasarkan banyaknya atribut yang terlibat, berdasarkan tipe atribut atau berdasarkan karakteristik khusus dari data seperti struktur hirarki atau graf. a. Visualisasi Sejumlah Kecil Atribut Terdapat beberapa teknik yang dapat digunakan untuk visualisasi data dengan jumlah atribut yang sedikit. Beberapa teknik tersebut, seperti histogram, memberikan distribusi nilai yang diobservasi untuk satu atribut. Sedangkan teknik yang lain seperti scatter plot digunakan untuk menampilkan hubungan antara nilai dari dua atribut. Stem and Leaf Plot. Stem and leaf plot dapat digunakan untuk mendapatkan distribusi dari data integer atau kontinu satu dimensi. Untuk bentuk sederhana dari stem and leaf plot, kita bagi nilai-nilai ke dalam dua grup, dimana setiap grup mengandung nilai-nilai yang sama kecuali untuk digit terakhirnya. Dengan demikian, jika nilai-nilai tersebut adalah integer dua digit, contoh 35, 36, 42, dan 51, maka stem adalah digit pada ordo tertinggi, yaitu 3, 4, 5, sedangkan leaf adalah digit dengan ordo rendah, yaitu 1, 2, 5, dan 6. Dengan memplotkan stem secara vertikal dan leaf secara horizontal, maka dapat diperoleh representasi visual dari distribusi data. Histogram. Stem and leaf adalah salah satu bentuk dari histogram, sebuah plot yang menampilkan distribusi dari niai untuk atribut-atribut dengan membagi nilainilai yang mungkin ke dalam bin dan menunjukkan banyaknya objek yang masuk ke dalam setiap bin. Untuk data kategori, setiap nilai adalah bin. Jika nilai atribut kategori terlalu banyak, maka nilai tersebut dikombinasikan dengan mengunakan cara-cara tertentu. Untuk atribut kontinu, range dari nilai dibagi ke dalam bin, lebar range tidak harus sama, dan nilai-nilai dalam setiap bin dihitung. Bar plot dikonstruksi sedemikian sehingga setiap bin direpresentasikan oleh satu bar, dan area dari setiap bar adalah proposional dengan banyaknya nilai (objek) yang masuk ke dalam range yang sesuai. Jika semua interval memiliki lebar yang sama, maka semua bar memiliki lebar yang sama dan tinggi bar adalah proposional ke banyaknya nilai yang sesuai dengan bin. Contoh 3.6: Gambar 3.2 menunjukkan histogram dengan 10 bin untuk lebar petal. Bentuk dari histogram dapat tergantung pada banyaknya bin. Histogram untuk data yang sama, tetapi dengan 20 bin ditunjukkan pada Gambar 3.3. Modul Kuliah Data Mining 46 Gambar 3.2 Histogram untuk lebar petal dengan 10 bin Gambar 3.3 Histogram untuk lebar petal dengan 20 bin Terdapat variasi dari plot histogram. Histogram (frekuensi) relatif menggantikan count dengan frekuensi relatif. Dalam histogram ini skala dalam sumbu y berubah, dan bentuk dari histogram tidak berubah. Variasi lainnya, khususnya untuk data kategori yang tidak terurut, adalah histogram Pareto. Histogram Pareto sama seperti histogram biasa, hanya saja dalam histogram Pareto kategori diurut oleh count sedemikian sehingga count menurun dari kiri ke kanan. Histogram Dua-dimensi. Dalam histogram dua-dimensi, setiap atribut dibagi ke dalam interval dan dua himpunan interval mendefinisikan persegi empat duadimensi dari nilai-nilai. Contoh 3.7: Gambar 3.4 menunjukkan histogram dua-dimensi dari panjang petal dan lebar petal. Karena setiap atribut dibagi ke dalam 3 bin, terdapat 9 bin persegi empat dua-dimensi. Tinggi dari setiap bar persegi empat menunjukkan banyaknya objek (dalam hal ini adalah bunga) yang masuk ke dalam setiap bin. Kebanyakan bunga berada dalam 3 bin di sepanjang diagonal. Gambar 3.4 Histogram dua-dimensi dari panjang petal dan lebar petal Box Plot. Metode lain untuk menunjukkan distribusi nilai dari sebuah atribut numerik adalah box plot. Gambar 3.5 menunjukkan sebuah box plot berlabel Modul Kuliah Data Mining 47 untuk panjang sepal. Ujung paling bawah dan paling atas berturut-turut menunjukkan persentil ke 25 dan ke 75, sedangkan garis di dalam kotak menunjukkan nilai persentil ke 50. Garis bawah dan atas dari ekor menunjukkan persentil ke 10 dan ke 90. Outlier ditunjukkan dengan tanda ”+”. outlier th 90 percentile th 75 percentile th 50 percentile th 25 percentile th 10 percentile Gambar 3.5 Deskripsi box plot untuk panjang sepal Gambar 3.6 Box plot untuk atributatribut data set Iris Contoh 3.8: Box plot untuk empat atribut dari data set Iris ditunjukkan dalam Gambar 3.6. Pie Chart. Pie chart mirip dengan histogram, tapi pie chart khususnya digunakan untuk atribut kategori yang memiliki nilai yang relatif kecil. Pie chart menggunakan area relatif dari lingkaran untuk menujukkan frekuensi relatif. Scatter Plot. Dalam scatter plot, setiap objek data diplot sebagai titik dalam bidang dengan menggunakan nilai-nilai dari dua atribut sebagai koordinat x dan y. Diasumsikan bahwa atribut adalah bernilai integer atau real. Contoh 3.9: Gambar 3.7 menunjukkan scatter plot untuk setiap pasang atribut dari data set Iris. Spesies yang berbeda dari Iris ditunjukkan dengan tanda yang berbeda. Penyusunan scatter plot dari pasangan atribut dalam format tabular ini, yang dikenal sebagai scatter plot matrix, memberikan cara yang teroganisasi untuk mengevaluasi sejumlah scatter plot secara simultan. Modul Kuliah Data Mining 48 Gambar 3.7 Matriks dari scatter plot untuk data set Iris Terdapat dua cara menggunakan scatter plot. Pertama, secara grafis scatter plot menunjukkan hubungan antara dua atribut. Scatter plot juga dapat digunakan untuk mendeteksi hubungan non-linier. Kedua, ketika label dari kelas tersedia, scatter plot dapat digunakan untuk menyelidiki derajat dimana kedua atribut memisahkan kelas. Contour Plot. Untuk data 3-dimensi, dua atribut menentukan sebuah posisi dalam bidang, sedangkan atribut yang ketiga memiliki nilai kontinu, seperti temperatur atau elevasi. Visualisasi untuk data demikian adalah contour plot yang memecah bidang ke dalam daerah yang terpisah dimana nilai dari atribut ketiga (temperatur, elevasi) kira-kira sama. Contoh umum dari contour plot adalah contour map yang menunjukkan elevasi dari lokasi lahan. Contoh 3.10: Gambar 3.8 menunjukkan contour plot dari temperatur rataan permukaan laut (STT) untuk bulan Desember 1998. Temperatur daratan di-set ke 0°C. Dalam kebanyakan contour map, seperti dalam Gambar 3.8, contour line yang memisahkan dua daerah dapat diberi label dengan nilai yang digunakan untuk memisahkan daerah. Modul Kuliah Data Mining 49 Celsius Gambar 3.8 Contour plot dari SST untuk bulan Desember 1998 3.3.4 Visualisasi Data Berdimensi Tinggi Teknik yang akan dijelaskan berikut dapat menampilkan data dengan dimensi yang lebih tinggi dibandingkan dengan teknik-teknik yang dibahas sebelumnya. Teknik-teknik ini keterbatasan karena hanya menampilkan beberapa aspek dari data. Matriks. Sebuah citra dapat dipandang sebagai array persegi empat dari pixel, dimana setiap pixel ditentukan oleh warnanya dan kecerahannya. Matriks data adalah sebuah array persegi empat dari nilai. Dengan demikian, matriks data dapat divisualisasikan sebagai sebuah citra dengan mengasosiasikan setiap entri dari matris data dengan sebuah pixel dalam citra. Kecerahan atau warna dari pixel ditentukan oleh nilai dari entri matriks yang sesuai. Jika label kelas diketahui, maka pengurutan kembali matriks data dapat dilakukan sedemikian sehingga semua objek dari sebuah kelas dikelompokan bersama-sama. Hal ini dapat memberikan kemudahan dalam mendeteksi jika semua objek dalam sebuah kelas memiliki nilai-nilai atribut yang mirip untuk beberapa atribut. Jika atribut yang berbeda memiliki range yang berbeda, maka atribut seringkali distandarkan sehingga memiliki rataan adalah 0 dan standard deviation adalah 1. Hal ini dilakukan agar atribut yang memiliki nilai yang besar tidak mendominasi plot secara visual. Contoh 3.11: Gambar 3.9 menunjukkan matriks data dari data set Iris yang telah distandarisasi. 50 puluh baris yang pertama merepresentasikan spesies Setosa dari bunga Iris, 50 baris selanjutnya merepresentasikan spesies Versicolour, dan 50 baris terakhir merepresentasikan spesies Virginica. Spesies Setosa memiliki lebar dan panjang petal di bawah rata-rata, sedangkan Versicolour memiliki lebar dan panjang petal di sekitar rata-rata. Virginica memiliki lebar dan panjang petal di atas rata-rata. Modul Kuliah Data Mining 50 standard deviation Gambar 3.9 Plot dari matriks data Iris dimana kolom-kolom telah distandarisasi, sehingga rataan adalah 0 dan standard deviation adalah 1. Data objek juga dapat divisualisasikan dalam plot matriks poximity. Baris dan kolom dari matriks kemiripan (ketika label kelas diketahui) diurutkan sedemikian sehingga semua objek dari sebuah kelas dikelompokan bersama-sama. Visualisasi ini memungkinkan kita untuk melihat kepaduan dari setiap kelas dan keterpisahannya dari kelas yang lain. Contoh 3.12: Gambar 3.10 menunjukkan matriks korelasi untuk data set Iris. Baris dan kolom diorganisasikan sedemikian sehingga semua bunga dengan spesies tertentu dikelompokkan bersama-sama. Gambar 3.10 Plot dari matriks korelasi dari data set Iris Modul Kuliah Data Mining 51 Jika label kelas tidak diketahui, beberapa teknik (matrix reordering dan seriation) dapat digunakan untuk menyusun ulang baris dan kolom dari matriks kemiripan sedemikian sehingga objek dan atribut dengan paling mirip dikelompokan bersama-sama dan dapat diidentifikasi secara visual. Koordinat Paralel. Koordinat paralel memiliki satu sumbu koordinat untuk setiap atribut, tetapi sumbu-sumbu yang berbeda adalah paralel ke sumbu lainnya (bukan tegak lurus). Sebuah objek direpresentasikan sebagai sebuah baris (bukan sebuah titik). Secara khusus, nilai dari setiap atribut dari sebuah objek dipetakan ke sebuah titik pada sumbu koordinat yang sesuai dengan atribut tersebut, dan titik-titik ini kemudian dihubungkan untuk membentuk garis yang merepresentasikan objek. Dalam banyak kasus, objek-objek berada dalam sejumlah kecil grup, dimana titiktitik dalam setiap grup memiliki nilai yang mirip untuk atribut-atributnya. Jika demikian, dan jika banyaknya objek data tida terlalu besar, maka hasil plot koordinat paralel dapat mengungkapkan pola yang menarik. Contoh 3.13: Gambar 3.11 menunjukkan plot koordinat paralel dari keempat atribut numerik dari data set Iris. Garis yang merepresentasikan objek dari kelas yang berbeda dibedakan dengan menggunakan tiga bentuk garis yang berbeda yaitu solid, dot, dash. Plot koordinat paralel menunjukkan bahwa kelas terpisah dengan baik untuk panjang dan lebar petal, tetapi kurang terpisah dengan baik untuk panjang dan lebar sepal. Gambar 3.14 menunjukkan plot koordinat paralel lain untuk data yang sama, tetapi dengan pengurutan sumbu yang berbeda. Gambar 3.11 Plot koordinat paralel dari keempat atribut Iris Gambar 3.12 Plot koordinat paralel dari keempat atribut Iris dimana atribut diurutkan untuk menunjukkan kemiripan dan ketakmiripan grup. Salah satu kekurangan dari plot koordinat paralel adalah bahwa deteksi dari pola dapat tergantung pada urutan. Sebagai contoh, jika garis bersilangan terlalu banyak, plot yang dihasilkan akan membingungkan, dan dengan demikian pengurutan sumbu koordinat perlu dipertimbangkan untuk mendapatkan urutan sumbu dengan persilangan paling sedikit. Bandingkan Gambar 3.12 dengan lebar Modul Kuliah Data Mining 52 sepal pada bagian kiri gambar dengan Gambar 3.11. dengan lebar sepal berada di tengah-tengah. Koordinat Bintang dan Chernoff Face Pendekatan lain untuk menampilkan data berdimensi banyak adalah dengan mengkodekan objek sebagai simbol glyph atau ikon, yaitu simbol yang memberikan informasi secara non-verbal. Setiap atribut dari objek dipetakan ke fitur tertentu dari glyph, sedemikian sehingga nilai dari atribut menentukan sifat eksak dari fitur. Dengan demikian, kita dapat melihat bagaimana dua objek berbeda. Koordinat bintang adalah salah satu dari pendekatan ini. Teknik ini menggunakan satu sumbu untuk setiap atributnya. Semua sumbu ini terpancar dari titik pusat, seperti jari-jari dari sebuah roda. Secara khusus, semua nilai atribut dipetakan ke dalam range [0, 1]. Sebuah objek dipetakan ke dalam kumpulan sumbu berbentuk bintang dengan menggunakan proses berikut: setiap nilai atribut dari objek dikonversikan ke sebuah fraksi yang merepresentasikan jaraknya antara nilai atribut yang minimum dan maksimum. Fraksi ini dipetakan ke sebuah titik pada sumbu yang sesuai dengan atribut ini. Setiap titik dihubungkan dengan sebuah segmen garis ke titik pada sumbu sebelumnya atau yang mengikuti sumbu tersebut, sehingga terbentuklah sebuah poligon. Ukuran dan bentuk dari poligon memberikan deskripsi visual dari nilai atribut. Untuk kemudahan interpretasi, himpunan sumbu yang terpisah digunakan untuk setiap objek. Dengan kata lain, setiap objek dipetakan ke sebuah poligon. Sebuah contoh plot koordinat bintang untuk Iris 150 diberikan dalam Gambar 3.13. Gambar 3.13 Grafik star dari Iris 150 Gambar 3.14 Chernoff face dari Iris 150 Nilai-nilai fitur juga dapat dipetakan ke objek lain seperti wajah. Teknik ini dinamakan Chernoff face (pembuatnya bernama Herman Chernoff). Dalam teknik ini, setiap atribut diasosiasikan dengan fitur wajah yang spesifik, dan nilai atribut digunakan untuk menentukan cara bagaimana fitur wajah diekspresikan. Dengan demikian, bentuk dari wajah dapat lebih memanjang sebagaimana nilai dari fitur data yang sesuai meningkat. Sebagai contoh, Chernoff face untuk Iris 150 diberikan dalam Gambar 3.14. Bentuk wajah dari Chernoff face ditentukan sebagai berikut: Modul Kuliah Data Mining 53 Fitur Data Panjang sepal Lebar sepal Panjang petal Lebar petal Fitur Wajah Ukuran wajah Dahi/ panjang busur relatif dari rahang Bentuk dahi Bentuk rahang Fitur wajah yang lain, seperti lebar antar mata dan panjang mulut diberikan nilai default. Contoh 3.14: Ilustrasi dari kedua pendekatan ini dalam merepresentasikan data multidimensional diberikan dalam Gambar 3.15 dan 3 16. Kedua gambar tersebut menunjukkan plot star dan wajah untuk 15 bunga dari data set Iris. Dari ke-15 bunga tersebut, 5 bunga termasuk spesies Setosa, 5 bunga termasuk spesies Versicolour dan 5 bunga termasuk spesies Virginica. Setosa Versicolour Virginica Gambar 3.15 Plot 15 bunga Iris menggunakan koordinat star Setosa Versicolour Virginica Gambar 3.16 Plot 15 bunga Iris menggunakan Chernoff face 3.4 OLAP dan Analisis Data Multidimensi Sistem On-Line Analytical Processing (OLAP) terdiri dari sejumlah sistem basis data. Sistem OLAP memiliki fokus pada analisis interaktif dari data dan menyediakan kemampuan visualisasi data dan membangun statistik ringkasan. Modul Kuliah Data Mining 54 Oleh karena itu dalam pembahasan ini, analisis data multidimensi akan berdasarkan pada terminologi dan konsep untuk sistem OLAP. 3.4.1 Representasi Data Set Iris sebagai Array Multidimensi Dalam banyak kasus, data tidak hanya dinyatakan dalam bentuk tabel tetapi sebagai array multidimensi. Tabel 3.7 dibuat dengan cara mendiskretkan atribut panjang petal dan lebar petal ke dalam nilai low, medium, dan high dan kemudian menghitung banyaknya bunga Iris yang memiliki kombinasi lebar petal, panjang petal dan tipe spesies. Untuk panjang petal, kategori low, medium, dan high berturut-turut berkaitan dengan interval [0, 0.75), [0.75, 1.75), [1.75, ∝). Sedangkan untuk panjang petal, kategori low, medium, dan high berturut-turut berkaitan dengan interval [0, 2.5), [2.5, 5), [5, ∝). Tabel 3.7 Banyaknya bunga Iris yang memiliki kombinasi dari lebar petal, panjang petal dan spesies. Kombinasi yang kosong, yaitu kombinasi yang tidak terkait dengan satu bungapun, tidak ditunjukkan. Data dapat diorganisasikan sebagai array tiga dimensi. Dimensi-dimensi tersebut menyatakan lebar petal, panjang petal, dan tipe spesies, seperti diilustrasikan dalam Gambar 3.17. Untuk memperjelas, potongan dari array ditunjukkan sebagai himpunan tabel dua dimensi, masing-masing untuk setiap spesies-lihat Tabel 3.8 sampai dengan 3.10. Informasi yang terkandung dalam Tabel 3.7 dan Gambar 3.17 adalah sama. Dalam representasi multidimesi seperti ditunjukkan dalam Gambar 3.17, nilai atribut (lebar petal, panjang petal dan tipe spesies) adalah indeks dari array. Gambar 3.17 Representasi data multidimensi untuk data set Iris Modul Kuliah Data Mining 55 Tabel 3.8 Tabulasi silang dari data bunga berdasarkan panjang dan lebar petal untuk spesies Setosa Tabel 3.9 Tabulasi silang dari data bunga berdasarkan panjang dan lebar petal untuk spesies Versicolour Tabel 3.10 Tabulasi silang dari data bunga berdasarkan panjang dan lebar petal untuk spesies Virginica Tabel 3.8, 3.9 dan 3.10 menunjukkan bahwa setiap spesies Iris ditentukan oleh kombinasi yang berbeda dari nilai panjang dan lebar petal. Bunga Setosa memiliki panjang dan lebar petal yang rendah (low), bunga Versicolour memiliki panjang dan lebar petal medium, dan bunga Virginica memiliki panjang dan lebar petal yang tinggi (high). 3.4.2 Data Multidimensi: Kasus Umum Representasi tabular dari data seperti diberikan dalam Tabel 3.7 dinamakan tabel fakta. Terdapat dua langkah yang dapat dilakukan dalam merepresentasikan data sebagai array multidimensi, yaitu identifikasi dimensi dan identifikasi sebuah atribut yang merupakan fokus dari analisis. Dimensi adalah atribut kategori atau seperti dalam contoh sebelumnya atribut kontinu yang telah dikonversi ke dalam atribut kategori. Nilai dari atribut memberikan indeks pada array untuk dimensi yang sesuai dengan atribut tersebut, dan banyaknya nilai atribut merupakan ukuran dari dimensi tersebut. Dalam contoh sebelumnya, setiap atribut memiliki tiga kemungkinan nilai dan dengan demikian setiap dimensi memiliki ukuran tiga dan dapat diberi indeks oleh ketiga nilai tersebut. Sehingga dihasilkan array multidimensi 3×3×3. Setiap kombinasi dari nilai atribut (satu nilai untuk setiap atribut yang berbeda) mendefinisikan sebuah sel dari array multidimensi. Sebagai ilustrasi, jika panjang petal = low, lebar petal = medium dan spesies = Setosa, sel yang mengandung nilai 2 diidentifikasi. Bahwa terdapat dua bunga dalam data set yang memiliki nilai atribut demikian. Perhatikan bahwa setiap baris (objek) dari data set dalam Tabel 3.7 berkaitan dengan sebuah sel dalam array multidimensi. Isi dari setiap sel menyatakan nilai dari kuantitas target (variabel target atau atribut) yang menarik dalam analisis. Dalam contoh Iris, kuantitas target adalah banyaknya bunga yang memiliki panjang dan lebar petal dalam batas tertentu. Atribut target adalah kuantitatif karena tujuan utama dari analisis data multidimensi adalah untuk melihat kuantitas agregat seperti total atau rataan. Berikut adalah ringkasan prosedur untuk membuat representasi data multidimensi dari data set yang dinyatakan dalam bentuk tabular. Pertama, Modul Kuliah Data Mining 56 identifikasi atribut kategori yang akan digunakan sebagai dimensi dan atribut kuantitatif yang akan digunakan sebagai target analisis. Setiap baris (objek) dalam tabel dipetakan ke sebuah sel dalam array multidimensi. Indeks dari sel ditentukan oleh nilai dari atribut yang dipilih sebagai dimensi, sedangkan nilai dari sel adalah nilai dari atribut target. Sel yang tidak didefinisikan oleh data disumsikan memiliki nilai 0. Contoh 3.15: Diberikan contoh penjualan produk. Tabel fakta untuk contoh ini diberikan dalam Tabel 3.11. Tabel 3.11 Hasil penjualan produk (dalam Dollar) untuk berbagai lokasi dan waktu. Product ID … 1 1 … 1 … 27 27 … 27 … Location … Minneapolis Chicago … Paris … Minneapolis Chicago … Paris … Date … Oct. 18, 2004 Oct. 18, 2004 … Oct. 18, 2004 … Oct. 18 Oct. 18 … Oct. 18, 2004 … Revenue … $250 $79 … $301 … $2,321 $3,278 … $1,325 … Dimensi dari representasi multidimensi ini adalah atribut product ID, location dan date, sedangkan atribut target adalah revenue. Gambar 3.18 menunjukkan representasi multidimensi dari data set ini. Gambar 3.18 Representasi data multidimensi untuk data penjualan Modul Kuliah Data Mining 57 3.4.3 Analisis Data Multidimensi Terdapat bebebara teknik dalam analisis multidimensi. Teknik tersebut diantaranya pembuatan kubus data dan operasinya seperti slicing, dicing, reduksi dimensi, roll-up dan drill down. Kubus Data: Komputasi Kuantitas Agregat Motivasi utama untuk menentukan data multidimensi adalah pentingnya membuat agregasi data dalam berbagai cara. Dalam contoh penjualan, kita dapat menemukan pendapatan penjualan total untuk tahun tertentu dan untuk produk tertentu. Atau mungkin ingin dilihat pendapatan penjualan tahunan untuk setiap lokasi untuk semua produk. Perhitungan agregasi total melibatkan penetapan nilai tertentu untuk beberapa atribut yang digunakan sebagai dimensi dan menjumlahkannya semua nilai yang mungkin untuk atribut-atribut yang membentuk dimensi-dimensi sisanya. Tabel 3.13 menunjukkan total marginal dari Tabel 3.12. Product ID Tabel 3.12 Total yang dihasilkan dari penjumlahan semua lokasi untuk waktu dan produk tertentu 1 … Jan 1, 2004 $1,001 … Date Jan 2, 2004 $987 … 27 … $10,265 … $10,225 … … … … Dec 31, 2004 $891 … … $9,325 … Product ID Tabel 3.13 Tabel 3.12 dengan total marginal 1 … 27 … Total Jan 1, 2004 $1,001 … $10,265 … $527,362 Date Jan 2, 2004 … $987 … … … $10,225 … $532,953 … … Dec 31, 2004 Total $891 $370,000 … … $9,325 $3,800,020 … … $631,221 $227,352,127 Untuk penyederhanaan, diasumsikan bahwa semua tanggal dalam tahun yang sama. Jika terdapat 365 hari dalam satu tahun dan 1000 produk, maka Tabel 3.12 memiliki entri sebanyak 365,000 (nilai total), untuk setiap pasangan data produk. Kita juga dapat menentukan lokasi toko dan tanggal dan menjumlahkan nilai pada semua produk, atau menentukan lokasi dan produk dan menjumlahan nilai pada seluruh tanggal. Tabel 3.13 menunjukkan total marginal dari Tabel 3.12. Nilai-nilai total ini dihasilkan dari penjumlahan pada tanggal dan produk. Dalam Tabel 3.13, pendapatan penjualan total untuk produk 1, yang diperoleh dengan menjumlahkan seluruh nilai pada baris 1 (seluruh tanggal), adalah $370,000. Pendapatan penjualan total pada 1 Januari 2004, yang diperoleh dengan menjumlahkan seluruh nilai pada kolom 1 (seluruh produk), adalah $527,362. Pendapatan Modul Kuliah Data Mining 58 penjualan total, yang diperoleh dengan menjumlahkan semua baris dan semua kolom (semua tanggal dan produk) adalah $227,352,127. Hal yang penting dalam contoh ini adalah bahwa terdapat sejumlah total-total (agregat) yang berbeda yang dapat dihitung untuk sebuah array multidimensi, tergantung kepada berapa banyak atribut yang kita jumlahkan. Diasumsikan bahwa terdapat n dimensi dan bahwa dimensi (atribut) ke-i memiliki si nilai yang mungkin. Terdapat n cara yang berbeda untuk menjumlahkan hanya pada sebuah atribut. Jika kita menjumlahkan pada dimensi j, maka diperoleh s1*...* sj1*sj+1*...* sn total, masing-masing untuk setiap kombinasi nilai atribut yang mungkin dari n−1 atribut (dimensi) lainnya. Total yang dihasilkan dari penjumlahan satu atribut dari array multidimensi dengan n−1 dimensi dan terdapat n array dari total. Dalam contoh penjualan, terdapat tiga himpunan total yang dihasilkan dari pejumlahan hanya pada satu atribut dan masing-masing total dapat ditampilkan sebagai tabel dua dimensi. Jika kita menjumlahkan pada dua dimensi (mungkin dimulai dengan salah satu dari array total yang diperoleh dengan penjumlahan pada satu dimensi), maka kita akan memperoleh sebuah array multidimensi total dengan n−2 dimensi. Terdapat ⎛n⎞ ⎛ 3⎞ ⎜⎜ ⎟⎟ array yang berbeda untuk total. Untuk contoh penjualan, terdapat ⎜⎜ ⎟⎟ = 3 ⎝ 2⎠ ⎝ 2⎠ array total yang dihasilkan dari penjumlahan pada lokasi dan produk, lokasi dan waktu, atau produk dan waktu. Secara umum, penjumlahan pada k dimensi ⎛n⎞ menghasilkan ⎜⎜ ⎟⎟ array total, masing-masing dengan n−k dimensi. ⎝k⎠ Representasi data multidimensi, bersama dengan semua total (agregat) yang mungkin, dikenal sebagai kubus data. Selain nama, ukuran dari setiap dimensi, yaitu banyaknya nilai atribut, tidak harus sama. Di samping itu, sebuah kubus data dapat memiliki dimensi kurang atau lebih dari 3. Sebuah kubus data adalah generalisasi dari tabulasi silang yang dikenal dalam statistika. Jika marginal total ditambahkan, Tabel 3.8, 3.9, dan 3.10 merupakan contoh dari tabulasi silang. Reduksi Dimensionalitas dan Pivoting Agregasi yang dijelaskan sebelumnya dapat dipandang sebagai bentuk reduksi dimensionalitas. Secara khusus, dimensi ke-j dieliminasi dengan penjumlahan pada dimensi tersebut. Secara konseptual, hal ini meringkas setiap kolom dari sel dalam dimensi ke-j ke dalam sebuah sel. Untuk contoh data penjualan dan data Iris, agregasi pada satu dimensi mengurangi dimensi data dari 3 ke 2. Jika sj adalah banyaknya nilai yang mungkin dari dimensi ke-j, banyaknya sel direduksi oleh faktor dari sj. Pivoting merujuk kepada agregasi pada semua dimensi kecuali 2. Hasilnya adalah tabulasi silang dua dimensi dengan dua dimensi yang ditentukan sebagai dimensidimensi sisanya. Tabel 3.13 adalah contoh pivoting pada tanggal (date) dan produk. Modul Kuliah Data Mining 59 Slicing dan Dicing Slicing adalah pemilihan sekelompok sel dari seluruh array multidimensi dengan menentukan nilai tertentu untuk satu atau lebih dimensi. Tabel 3.8, 3.9 dan 3.10 adalah tiga slice dari data set Iris yang diperoleh dengan menentukan tiga nilai terpisah untuk dimensi spesies. Dicing merupakan pemilihan sebuah subset dari Hal ini ekuivalen dengan sel dengan menentukan range nilai atribut. mendefinisikan sebuah subarray dari array yang lengkap. Dalam praktis, kedua operasi ini dapat disertai oleh agregasi pada beberapa dimensi. Roll-up dan Drill-down Nilai atribut seperti tanggal memiliki nilai yang menyatakan tahun, bulan dan minggu. Sebuah lokasi juga dapat memiliki beberapa ciri seperti country, state (province) dan city. Product dapat dibagi ke dalam berbagai kategori seperti elektronik dan furniture. Seringkali kategori ini dapat diorganisasikan sebagai pohon hirarki atau lattice. Sebagai contoh, tahun berisi bulan dan minggu, keduanya berisi hari. Lokasi dapat dibagi ke dalam negara, yang terdiri dari negara bagian, dan negara bagian terdiri dari kota. Contoh lain adalah kategori produk, furniture, dapat dibagi ke dalam sub kategori kursi, meja, sofa dan lain-lain. Struktur hirarki memunculkan operasi roll-up dan drill-down. Sebagai ilustrasi, pada data penjualan, yang merupakan data multidimensi dengan entri-entri untuk setiap tanggal, kita dapat menentukan agregat (roll-up) penjualan untuk semua tanggal dalam satu bulan. Sebaliknya, diberikan representasi data dimana dimensi waktu dipecah ke dalam bulan, kita ingin memisahkan total penjualan bulanan (drill down) ke dalam total penjualan harian. Dengan demikian operasi roll-up dan drill-down berkaitan dengan agregasi. Akan tetapi kedua ini berbeda dengan operasi agregasi yang telah dibahas, bahwa operasi roll-up dan drill-down mengagregasi sel dalam sebuah dimensi, bukan pada seluruh dimensi. Gambar 3.19 menunjukkan ilustrasi untuk operasi-operasi pada data multidimensi. Modul Kuliah Data Mining 60 Waktu Sukabumi Bogor Lokasi Kuartal-1 Kuartal-2 Waktu A B Varitas Dice for (Lokasi = Sukabumi atau Bogor) dan (Waktu = Kuartal-1 atau Kuartal-2) dan (Varitas) = A atau B Lokasi Wilayah-2 Wilayah-1 Kuartal-1 Kuartal-2 Kuartal-3 A B C D Varitas Roll-up On Lokasi Lokasi Waktu Karawang Subang Sukabumi Bogor Kuartal-1 Kuartal-2 Kuartal-3 A Drill-down on Waktu Slice for Waktu =Kuartal1 Karawang Subang Sukabumi B C D Varitas Pivot Lokasi Karawang Subang Sukabumi Bogor Januari Februari Maret Waktu Lokasi Bogor A B C D Varitas Varitas Oktober November Desember Lokasi A B C D Varitas Gambar 3.19 Ilustrasi untuk operasi-operasi pada data multidimensi. Penutup – Soal Latihan Tugas Individu Jawablah pertanyaan berikut secara singkat dan jelas. 1. Jelaskan keuntungan dan kerugian steam and plot dan histogram. Modul Kuliah Data Mining 61 2. Jelaskan secara singkat bagaimana visualisasi dibuat untuk menampilkan informasi yang menjelaskan bentuk sistem berikut: a. Jaringan komputer, meliputi aspek statis konektivitas, dan aspek dinamik seperti traffic. b. Distribusi spesies tanaman dan binatang di seluruh dunia untuk kurun waktu tertentu. c. Penggunaan resource komputer seperti processor time, main memory, dan disk, untuk sebuah program basisdata. dari jaringan seperti Tugas Kelompok Diskusikan dengan kelompok anda penyelesaian atas permasalahan berikut. 1. Carilah sebuah contoh data set dan aplikasikan teknik-teknik visualisasi yang telah dijelaskan dalam bab ini. 2. Diberikan data hasil tangkapan ikan dan produk lainnya tahun 2000 dalam ton. NO. KABUPATEN/ KOTA Tanggal Penangkapan KELOMPOK JENIS IKAN Tongkol Cucut Demesal KRUSTASE RUMPU T LAUT 1 Kab.Sukabumi 12/1/2000 10,0 8,0 2.5 1,0 1,0 2 Kab.Cianjur 13/1/2000 5,0 4,0 2,0 0.5 2,0 3 Kab.Garut 16/01/2000 7.5 3,0 4,0 1,0 2,0 4 Kab. Kulon Progo 25/01/2000 2.5 3,0 6,0 1.5 3,0 5 Kab. Bantul 27/01/2000 4.5 2,0 3,0 3,0 4,0 6 Kab.Sukabumi 25/2/2000 12,0 10,0 7,0 2,0 1,0 7 Kab.Cianjur 1/2/2000 15,0 14,0 8,0 3,0 2,0 8 Kab.Garut 5/2/2000 10,0 9,0 2,0 1,0 5,0 9 Kab.Sukabumi 4/3/2000 0,0 2,0 3,0 4,0 2,0 10 Kab.Cianjur 5/3/2000 0,0 3,0 4,0 2,0 1,0 11 Kab.Garut 12/3/2000 3,0 2,0 5,0 1,0 3,0 12 Kab. Trenggalek 7/3/2000 3,0 2,0 8,0 1.5 2,0 13 Kab. Blitar 8/3/2000 2,0 2.5 1,0 3,0 4,0 9/3/2000 6,0 5,0 1,0 2,0 1,0 10/3/2000 9,0 8,0 1,0 1,0 1,0 75,0 75,0 55,0 24,0 34,0 14 Kab. Tulungagung 15 Kab. Malang JUMLAH a. Buatlah tabel fakta dari data tersebut. Lakukan diskretisasi data jika diperlukan. b. Tentukan representasi data multidimensi untuk data tersebut. c. Berilah contoh operasi slicing, dicing, reduksi dimensi, roll-up dan drill down dengan menggunakan kubus data yang dihasilkan dari soal nomor b. Modul Kuliah Data Mining 62