Download Data Mining- Bab 3 Eksplorasi Data

Survey
yes no Was this document useful for you?
   Thank you for your participation!

* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project

Document related concepts
no text concepts found
Transcript
BAB 3 EKSPLORASI DATA
Pendahuluan
Eksplorasi data dilakukan sebagai langkah awal untuk mengetahui
karakteristik dari data.
Tahapan ini bertujuan untuk menyeleksi teknik
pemrosesan dan analisis data yang sesuai.
Bagian ini membahas tiga topik utama dalam eksplorasi data yaitu
statistika ringkasan, visualisasi, dan On-Line Analytical Processing (OLAP).
Statistika ringkasan. Seperti rataan dan deviasi standar dari sekumpulan nilai, dan
teknik visualisasi, seperti histogram, dan scatter plot, merupakan metode standar
yang banyak digunakan dalam mengeksplorasi data. OLAP, yang baru-baru ini
dikembangkan, terdiri dari sekumpulan teknik untuk mengeksplorasi array
multidimensi. Fungsi analisis yang berkaitan dengan OLAP memfokuskan pada
berbagai cara untuk membuat tabel data ringkasan dari array data multidimensi.
Teknik ini melibatkan penentuan agregasi data melalui berbagai dimensi dan
berbagai nilai atribut. Sebagai contoh, teknik OLAP dapat digunakan untuk
membuat sebuah ringkasan yang menjelaskan aktivitas penjualan pada berbagai
lokasi berdasarkan bulan dan katerogi produk.
3.1 Data Set Iris
Dalam pembahasan berikutnya data set yang banyak digunakan adalah
data set Iris yang teresedia dari Universitas California pada Irvine (UCI) Machine
Learning Repository. Data set ini mengandung informasi dari 150 bunga Iris,
sebanyak 50 bunga masing-masing berasal dari spesies: Setosa, Versicolour, dan
Virginica. Setiap bunga dicirikan oleh 5 atribut, yaitu:
Panjang sepal dalam cm.
Lebar sepal dalam cm.
Panjang petal dalam cm.
Lebar petal dalam cm.
Kelas (Setosa, Versicolour, dan Virginica).
Sepal dari bunga adalah struktur terluar yang menjaga bagian bunga yang
paling mudah rusak seperti petal. Dalam kebanyakan bunga, sepal berwarna hijau
dan hanya petal yang berwarna-warni. Untuk Iris, sepal juga berwarna-warni.
3.2 Statistika Ringkasan
Statsitika ringkasan adalah kuantitas seperti rataan dan simpangan baku
yang menyatakan berbagai karakteristik dari kumpulan nilai data berukuran besar
dengan sebuah bilangan atau sekumpulan kecil bilangan.
Modul Kuliah Data Mining
38
a. Frekuensi dan Modus
Diberikan himpunan nilai kategori yang tidak terurut, kuantitas yang dapat
dihitung untuk menentukan karakteristik dari data adalah frekuensi. Diberikan
atribut kategori x, nilai-nilai {v1, v2, …, vi, …, vk} dan himpunan dari m objek,
frekuensi dari nilai vi didefinisikan sebagai:
frekuensi( vi) =
banyaknya objek dengan nilai atribut vi
m
(3.1)
Modus dari atribut kategori adalah nilai yang memiliki frekuensi tertinggi.
Contoh 3.1:
Diberikan himpunan mahasiswa yang memiliki sebuah atribut kelas, yang dapat
memiliki nilai salah satu dari himpunan {freshman, sophomore, junior, senior}.
Tabel 3.1 menunjukkan banyaknya mahasiswa untuk setiap nilai dari atribut kelas.
Modus dari atribut kelas adalah freshman, dengan frekuensi 0.33.
Tabel 3.1 Ukuran kelas untuk mahasiswa
Kelas
freshman
sophomore
junior
senior
Ukuran
140
160
130
170
Frekuensi
0.33
0.27
0.22
0.18
Atribut kategori umumnya memiliki sejumlah kecil nilai, sehingga modus dan
frekuensi dari nilai-nilai tersebut dapat menarik dan berguna. Untuk data Iris dan
atribut kelas, ketiga bentuk dari bunga semuanya memiliki frekuensi yang sama,
dengan demikian modus tidak menarik lagi.
Untuk data kontinu, modus seringkali tidak berguna karena sebuah nilai mungkin
tidak muncul lebih dari satu kali. Meskipun demikian, dalam banyak kasus,
modus dapat memberikan informasi yang penting tentang sifat dasar nilai atau
tentang adanya nilai-nilai yang hilang. Sebagai contoh, tinggi badan dari 20 orang
diukur ke milimeter terdekat nilainya tidak akan berulang. Tapi jika tinggi
tersebut diukur ke persepuluh dari meter terdekat, maka beberapa orang dapat
memiliki tinggi yang sama. Demikian halnya jika sebuah nilai digunakan untuk
menunjukkan nilai yang hilang, maka nilai-nilai ini sering kali muncul sebagai
modus.
b. Persentil
Untuk data yang terurut, persentil dari sebuah data set sering digunakan.
Misalkan diberikan atribut x, x dapat berupa atribut kontinu atau ordinal, dan
misalkan pula sebuah nilai p diantara 0 sampai dengan 100, persentil ke-p, xp,
adalah nilai dari x sedemikian sehingga p% dari nilai-nilai observasi dari x lebih
kecil dari xp. Sebagai contoh, persentil ke-50 adalah nilai x50% sedemikian
sehingga 50% dari semua nilai-nilai dari x lebih kecil dari x50%. Tabel 3.2
menunjukkan persentil untuk keempat atribut kuantitatif dari data set Iris.
Modul Kuliah Data Mining
39
Tabel 3.2 Persentil untuk panjang sepal, lebar sepal, panjang petal,
dan lebar petal (dalam cm).
Persentil
0
10
20
30
40
50
60
70
80
90
100
panjang sepal
4.3
4.8
5.0
5.2
5.6
5.8
6.1
6.3
6.6
6.9
7.9
lebar sepal
2.0
2.5
2.7
2.8
3.0
3.0
3.1
3.2
3.4
3.6
4.4
panjang petal
1.0
1.4
1.5
1.7
3.9
4.4
4.6
5.0
5.4
5.8
6.9
lebar petal
0.1
0.2
0.2
0.4
1.2
1.3
1.5
1.8
1.9
2.2
2.5
Contoh 3.2:
Persentil x0%, x10%, ... , x90% dari integer dari 1 sampai 10, beturut-turut adalah 1.0,
1.5, 2.5, 3.5, 4.5, 5.5, 6.5, 7.5, 8.5, 9.5, 10.0. Min(x) = x0%, dan max(x) = x100%.
c. Ukuran lokasi: rata-rata dan median
Untuk data kontinu, statistika ringkasan yang banyak digunakan adalah
rataan dan median. Keduanya mengukur lokasi dari himpunan nilai. Perhatikan
sebuah himpunan dari m objek dan sebuah nilai atribut x. Misalkan {x1, x2, ...,
xm} adalah nilai-nilai atribut dari x untuk objek-objek tersebut. Misalkan nilainilai ini adalah tinggi badan m siswa. Misalkan {x(1), x(2), ..., x(m)} menyatakan
nilai-nilai dari x setelah diurut dalam urutan tidak menurun. Dengan demikian,
x(1) = min(x) dan x(m) = max(x). Maka rataan dan median didefinisikan sebagai
berikut:
rataan( x ) = x =
1 m
∑ xi
m i =1
(3.2)
⎧⎪ x ( r +1), jika m adalah ganjil, yaitu m = 2r + 1
median( x ) = ⎨ 1
(3.3)
⎪⎩ 2 ( x ( r ) + x ( r +1) ), jika m adalah genap, yaitu m = 2r
Median adalah nilai tengah jika jumlah nilai adalah ganjil dan rata-rata
dari dua nilai tengah jika jumlah nilai adalah genap. Untuk tujuh nilai, median
adalah x(4), sedangkan untuk sepuluh nilai, median adalah 12 ( x (5) + x (6) ) .
Walaupun rataan sering diinterpretasikan sebagai nilai tengah dari
sekumpulan nilai, interpretasi ini adalah benar jika nilai terdistribusi secara
simetris. Jika distribusi nilai adalah tidak simetris, maka median adalah indikator
yang lebih baik. Di samping itu, rataan bersifat sensitif terhadap adanya outlier.
Untuk data yang mengandung outlier, median merupakan dugaan yang baik untuk
nilai tengah dari sekumpulan nilai.
Modul Kuliah Data Mining
40
Untuk mengatasi masalah yang muncul dari definisi rataan, notasi trimmed
mean sering digunakan. Ditentukan persentase p di antara 0 sampai dengan 100,
sebagai (p/2)% dari data bagian atas dan bagian bawah dibuang, dan selanjutnya
rataan dihitung dengan cara yang sama menggunakan persamaan (3.2). Median
adalah trimmed mean dengan p = 100%, sedangkan pada rataan biaya nilai p =
0%.
Contoh 3.3:
Perhatikan himpunan nilai {1, 2, 3, 4, 5, 90}. Rataan dari nilai-nilai ini adalah
17.5, sedangkan mediannya adalah 3.5. Nilai trimmed mean dengan p = 40%
adalah 3.5.
Contoh 3.4:
Nilai rataan, median dan trimmed mean (p = 20%) dari keempat atribut kuantitatif
dari data set Iris diberikan dalam Tabel 3.3. Ketiga ukuran lokasi tersebut
memiliki nilai yang mirip, kecuali untuk atribut panjang petal.
Tabel 3.3 Nilai rataan dan median untuk panjang sepal, lebar sepal,
panjang petal, dan lebar petal (dalam cm)
Ukuran
Rataan
Median
Trimmed mean (20%)
Panjang
sepal
5.84
5.80
5.79
Lebar
sepal
3.05
3.00
3.02
Panjang
petal
3.76
4.35
3.72
Lebar
petal
1.20
1.30
1.12
d. Ukuran Penyebaran: Range dan Variance
Statistik ringkasan lain yang digunakan pada data kontinu adalah ukuran
penyebaran dari sekumpulan nilai. Ukuran demikian menunjukkan jika nilai
atribut menyebar secara luas atau jika nilai-nilai tersebut secara relatif
terkonsentrasi pada sebuah titik seperti rataan.
Ukuran paling sederhana dari penyebaran adalah range. Diberikan sebuah
atribut x dengan sekumpulan m nilai {x1, x2, ..., xm}, range didefinisikan sebagai
range(x) = max(x) − min(x) = x(m) − x(1)
(3.4)
Walaupun range menunjukkan sebaran maksimum, nilai ini dapat menimbulkan
kesalahan jika kebanyakan data terkonsentrasi dalam sebuah pita data yang
sempit, tetapi juga terdapat sejumlah kecil nilai-nilai ekstrim. Dengan demikian
digunakan variance sebagai ukuran penyebaran. Variance dari nilai atribut x
dituliskan s 2x dan didefinisikan sebagai berikut.
var iance( x ) = s 2x =
1 m
(xi − x)2
∑
m − 1 i =1
(3.5)
Standard deviation, yang merupakan akar kuadrat dari variance, ditulis sx dan
memiliki unit yang sama seperti x.
Nilai rataan dapat menyimpang karena adanya outlier, dan karena variance
dihitung dengan menggunakan rataan, maka variance juga sensitif terhadap
Modul Kuliah Data Mining
41
outlier. Untuk itu seringkali digunakan ukuran sebaran yang lain, yaitu absolute
average deviation (AAD), median absolute deviation (MAD) dan interquartile
range (IQR). Formula untuk ukuran-ukuran tersebut adalah
AAD(x) =
1 m
∑ xi − x
m i =1
(3.6)
MAD(x) = median ({ x1 − x ,..., x m − x })
(3.7)
interquartile range(x) = x75% − x25%
(3.8)
Tabel 3.4 menunjukkan nilai-nilai ukuran ini untuk data set Iris.
Tabel 3.4 Nilai Range, Standard Deviation (std), AAD, MAD dan IQR
untuk panjang sepal, lebar sepal, panjang petal,
dan lebar petal (dalam cm)
Panjang
sepal
3.6
0.8
0.7
0.7
1.3
Ukuran
Range
Std
AAD
MAD
IQR
e.
Lebar
sepal
2.4
0.4
0.3
0.3
0.5
Panjang
petal
5.9
1.8
1.6
1.2
3.5
Lebar
petal
2.4
0.8
0.6
0.7
1.5
Statistik Ringkasan Multivariate
Ukuran lokasi untuk data yang mengandung beberapa atribut (data
multivariabel) dapat diperoleh dengan menghitung nilai rataan dan median secara
terpisah untuk setiap atribut. Dengan demikian, untuk data set yang diberikan,
rataan dari objek-objek data, x , diberikan oleh
(
x = x1,.., x n
)
(3.9)
dimana x i adalah nilai rataan dari atribut ke-i, xi.
Untuk data multivariabel, sebaran dari setiap atribut dapat dihitung secara
bebas dari atribut-atribut lain dengan menggunakan pendekatan yang diberikan
pada bagian d. Walaupun demikian, untuk data dengan variabel kontinu, sebaran
dari data umumnya ditentukan oleh matriks covariance S, yang memiliki entri keij, sij, adalah covariance dari nilai atribut ke-i dan nilai atribut ke-j. Dengan
demikian, jika xi dan xj berturut-turut adalah atribut ke-i dan ke-j, maka
sij = covariance(xi, xj)
(3.10)
Nilai covariance(xi, xj) diberikan oleh
covariance(xi, xj) =
1 m
∑ ( x ki − x i )( x kj − x j )
m − 1 k =1
(3.11)
dimana nilai x ki dan x kj adalah nilai-nilai dari atribut ke-i dan ke-j untuk objek
ke-k. Perhatikan bahwa covariance(xi, xi) = variance(xi). Dengan demikian,
matrik covariance memiliki variance-variance dari atribut sepanjang diagonalnya.
Modul Kuliah Data Mining
42
Covariance dari dua atribut adalah ukuran dari derajat dimana dua atribut
berbeda dan tergantung pada besaran dari variabel. Nilai covariance yang dekat
ke 0 menunjukkan bahwa dua atribut tidak memiliki hubungan linier, tetapi tidak
mungkin menentukan derajat hubungan antara dua variabel dengan hanya melihat
nilai dari covariance. Korelasi antar dua atribut memberikan secara langsung
indikasi seberapa kuat dua atribut tersebut berhubungan secara linier. Entri ke-ij
dari matriks korelasi (correlation), R, adalah korelasi antara atribut ke-i dan atribut
ke-j. Jika xi dan xj adalah nilai-nilai dari atribut ke-i dan ke-j, maka
rij = correlation(xi, xj) =
cov ariance( x i , x j )
sis j
(3.12)
dimana si dan sj berturut-turut adalah variance dari xi dan xj. Entri diagonal dari R
adalah correlation(xi, xi) = 1, sedangkan untuk nilai untuk entri lainnya berada
antara −1 sampai dengan 1.
3.3 Visualisasi
Visualisasi data adalah menampilkan informasi dalam format grafik atau
tabular. Visualisasi yang baik memerlukan data (informasi) dikonversi ke dalam
format visual sedemikian sehingga karakteristik dari data dan hubungan diantara
item data atau atribut dapat dianalisa. Teknik visualisasi dalam data mining
dinyatakan sebagai visual data mining.
3.3.1
Motivasi untuk Visualisasi
Motivasi untuk menggunaan visualisasi adalah bahwa pengguna dapat
dengan cepat menyerap sejumlah besar informasi visual dan menemukan pola
dalam informasi tersebut. Perhatikan Gambar 3.2, yang menunjukkan Sea Surface
Termperature (SST) dalam derajat Celcius untuk Juli 1982.
Gambar 3.1 Sea Surface Termperature (SST) untuk Juli 1982
Gambar tersebut meringkas infromasi dari sekitar 250.000 angka dan dapat
dengan mudah diinterpretasikan dalam beberapa detik. Sebagai contoh, dapat
dilihat dengan mudah temperatur laut adalah paling tinggi pada garis katulistiwa
dan paling rendah di kutub.
Modul Kuliah Data Mining
43
Motivasi lainnya untuk visualisasi adalah membuat penggunaan domain
knowledge. Walaupun penggunaan domain knowledge adalah pekerjaan yang
penting dalam data mining, seringkali sulit dan tidak mungkin mengunakan
seluruh pengetahuan tersebut dalam alat statistik atau algoritmik. Dalam beberapa
kasus, analisa dapat dilakukan dengan menggunakan alat non-visual dan
kemudian hasilnya dipresentasikan secara visual untuk dievaluasi oleh domain
expert. Dalam kasus lain, setelah menemukan pola yang diinginkan, karena
dengan menggunakan domain knowledge, pengguna dapat dengan cepat
membuang beberapa pola yang tidak menarik dan langsung terfokus pada pola
yang penting.
3.3.2
Konsep Umum
Berikut adalah pendekatan-pendekatan yang umum untuk visualisasi data
dan atributnya.
a. Representasi: Pemetaan Data ke Elemen Grafik
Langkah pertama dalam visualisasi adalah pemetaan informasi ke format visual;
yaitu pemetaan objek, atribut, dan hubungan antar objek dalam sekumpulan
informasi ke objek, atribut dan hubungan visual. Bahwa objek data, atributnya,
dan hubungan antar objek data dinyatakan dalam elemen-elemen grafis seperti
titik, garis, bentuk dan warna.
Objek biasanya direpresentasikan dalam salah satu dari tiga cara berikut.
Pertama, jika hanya sebuah atribut kategori dari objek yang diperhatikan, maka
objek seringkali disatukan ke dalam kategori-kategori berdasarkan pada nilai
atribut tersebut, dan kategori-kategori ini ditampilkan sebagai sebuah entri dalam
tabel atau area di layar. Kedua, jika sebuah objek memiliki banyak atribut, maka
objek dapat ditampilkan sebagai baris (atau kolom) dari sebuah tabel atau sebuah
garis pada sebuah grafik. Ketiga, sebuah objek serngkali diinterpretasikan sebagai
sebuah titik dalam ruang 2 atau 3 dimensi, dimana secara grafis, titik dapat
direpresentasikan oleh gambar geometri seperti lingkaran dan kotak.
Untuk atribut, representasi tergantung pada tipe atribut, apakah nominal, ordinal,
atau kontinu (interval atau ratio). Atribut ordinal dan kontinu dapat dipetakan ke
dalam fitur grafis terurut dan kontinu seperti lokasi sepanjang sumbu x, y dan z;
intensitas; warna; atau ukuran (diameter, tinggi dan lain-lain). Untuk atribut
kategori, setiap kategori dapat dipetakan ke dalam posisi, warna, bentuk, orientasi
yang berbeda atau kolom dalam tabel. Untuk atribut nominal, yang memiliki nilai
terurut, penggunaan fitur-fitur grafik, seperti warna dan posisi yang memiliki
urutan terkait dengan nilai-nilainya, harus dilakukan secara hati-hati.
Representasi hubungan melalui elemen-elemen grafis terjadi baik secara eksplisit
maupun implisit. Untuk data graf, digunakan representasi graf biasa, sekumpulan
node dengan link diantara node. Jika node (objek data) atau link (hubungan)
memiliki atribut atau karakteristik dari dirinya sendiri, maka atribut dan
karakteristik tersebut direpresentasikan secara grafis. Sebagai ilustrasi, jika node
adalah kota dan link adalah jalan raya, maka diameter dari node dapat menyatakan
populasi, sedangkan lebar dari link dapat merepresentasikan volume lalu lintas.
Dalam banyak kasus, pemetaan objek dan atribut ke elemen grafis secara implisit
memetakan hubungan dalam data ke hubungan antara elemen-elemen grafis.
Modul Kuliah Data Mining
44
Sebagai ilustrasi, jika objek data merepresentasikan objek fisik yang memiliki
lokasi, seperti kota, maka posisi relatif dari objek grafis yang berhubungan dengan
objek data cenderung mempertahankan posisi relatif aktual dari data.
b. Penyusunan
Pemilihan yang tepat dari representasi visual dari objek dan atribut adalah penting
untuk visualisasi yang baik. Penyusuan kembali item dalam penampilan visual
juga merupakan hal yang penting.
Contoh 3.5:
Tabel 3.5 menunjukkan sembilan objek dengan enam atribut biner. Dari tabel
tersebut dapat dilihat bahwa hubungan antara objek dan atribut tidak jelas. Jika
baris dan kolom dipermutasikan seperti dalam Tabel 3.6, makan kita dapat dengan
jelas melihat dua tipe objek dalam tabel, tipe yang pertama adalah objek-objek
yang memiliki nilai 1 untuk tiga atribut pertama, dan tipe yang kedua adalah
objek-objek yang memiliki nilai 1 untuk tiga atribut terakhir.
Tabel 3.5 Tabel yang terdiri dari 9 objek (baris) dan 6 atribut biner (kolom)
Tabel 3.6 Tabel yang terdiri dari 9 objek (baris) dan 6 atribut (kolom) yang
dipermutasikan sedemikian sehingga hubungan antara baris dan kolom telihat
jelas.
c. Seleksi
Konsep penting lainnya dalam visualisasi adalah seleksi, yang
mengeliminasi objek atau atribut tertentu. Jika terlalu banyak objek data, maka
Modul Kuliah Data Mining
45
memvisualisasikan semua objek akan menghasilkan tampilan yang penuh sesak.
Pendekatan yang paling umum untuk menangani atribut yang banyak adalah
dengan memilih sebuah subset dari atribut. Jika dimensi terlalu tinggi, matriks
plot untuk dua atribut dapat dibuat untuk menggambarkan objek data secara
simultan.
Teknik memilih sepasang (atau sejumlah kecil) atribut adalah bentuk dari
reduksi dimensionalitas, dan terdapat banyak teknik yang dapat digunakan, salah
satunya adalah PCA (Principal Components Analysis).
3.3.3. Metode
Teknik visualisasi seringkali ditentukan berdasarkan tipe dari data yang
sedang dianalisis, berdasarkan banyaknya atribut yang terlibat, berdasarkan tipe
atribut atau berdasarkan karakteristik khusus dari data seperti struktur hirarki atau
graf.
a. Visualisasi Sejumlah Kecil Atribut
Terdapat beberapa teknik yang dapat digunakan untuk visualisasi data dengan
jumlah atribut yang sedikit. Beberapa teknik tersebut, seperti histogram,
memberikan distribusi nilai yang diobservasi untuk satu atribut. Sedangkan
teknik yang lain seperti scatter plot digunakan untuk menampilkan hubungan
antara nilai dari dua atribut.
Stem and Leaf Plot. Stem and leaf plot dapat digunakan untuk mendapatkan
distribusi dari data integer atau kontinu satu dimensi. Untuk bentuk sederhana
dari stem and leaf plot, kita bagi nilai-nilai ke dalam dua grup, dimana setiap grup
mengandung nilai-nilai yang sama kecuali untuk digit terakhirnya. Dengan
demikian, jika nilai-nilai tersebut adalah integer dua digit, contoh 35, 36, 42, dan
51, maka stem adalah digit pada ordo tertinggi, yaitu 3, 4, 5, sedangkan leaf
adalah digit dengan ordo rendah, yaitu 1, 2, 5, dan 6. Dengan memplotkan stem
secara vertikal dan leaf secara horizontal, maka dapat diperoleh representasi visual
dari distribusi data.
Histogram. Stem and leaf adalah salah satu bentuk dari histogram, sebuah plot
yang menampilkan distribusi dari niai untuk atribut-atribut dengan membagi nilainilai yang mungkin ke dalam bin dan menunjukkan banyaknya objek yang masuk
ke dalam setiap bin. Untuk data kategori, setiap nilai adalah bin. Jika nilai atribut
kategori terlalu banyak, maka nilai tersebut dikombinasikan dengan mengunakan
cara-cara tertentu. Untuk atribut kontinu, range dari nilai dibagi ke dalam bin,
lebar range tidak harus sama, dan nilai-nilai dalam setiap bin dihitung.
Bar plot dikonstruksi sedemikian sehingga setiap bin direpresentasikan oleh satu
bar, dan area dari setiap bar adalah proposional dengan banyaknya nilai (objek)
yang masuk ke dalam range yang sesuai. Jika semua interval memiliki lebar yang
sama, maka semua bar memiliki lebar yang sama dan tinggi bar adalah
proposional ke banyaknya nilai yang sesuai dengan bin.
Contoh 3.6:
Gambar 3.2 menunjukkan histogram dengan 10 bin untuk lebar petal. Bentuk
dari histogram dapat tergantung pada banyaknya bin. Histogram untuk data yang
sama, tetapi dengan 20 bin ditunjukkan pada Gambar 3.3.
Modul Kuliah Data Mining
46
Gambar 3.2 Histogram untuk lebar
petal dengan 10 bin
Gambar 3.3 Histogram untuk lebar
petal dengan 20 bin
Terdapat variasi dari plot histogram. Histogram (frekuensi) relatif
menggantikan count dengan frekuensi relatif. Dalam histogram ini skala dalam
sumbu y berubah, dan bentuk dari histogram tidak berubah. Variasi lainnya,
khususnya untuk data kategori yang tidak terurut, adalah histogram Pareto.
Histogram Pareto sama seperti histogram biasa, hanya saja dalam histogram
Pareto kategori diurut oleh count sedemikian sehingga count menurun dari kiri ke
kanan.
Histogram Dua-dimensi. Dalam histogram dua-dimensi, setiap atribut dibagi ke
dalam interval dan dua himpunan interval mendefinisikan persegi empat duadimensi dari nilai-nilai.
Contoh 3.7:
Gambar 3.4 menunjukkan histogram dua-dimensi dari panjang petal dan lebar
petal. Karena setiap atribut dibagi ke dalam 3 bin, terdapat 9 bin persegi empat
dua-dimensi. Tinggi dari setiap bar persegi empat menunjukkan banyaknya objek
(dalam hal ini adalah bunga) yang masuk ke dalam setiap bin. Kebanyakan bunga
berada dalam 3 bin di sepanjang diagonal.
Gambar 3.4 Histogram dua-dimensi dari panjang
petal dan lebar petal
Box Plot. Metode lain untuk menunjukkan distribusi nilai dari sebuah atribut
numerik adalah box plot. Gambar 3.5 menunjukkan sebuah box plot berlabel
Modul Kuliah Data Mining
47
untuk panjang sepal. Ujung paling bawah dan paling atas berturut-turut
menunjukkan persentil ke 25 dan ke 75, sedangkan garis di dalam kotak
menunjukkan nilai persentil ke 50. Garis bawah dan atas dari ekor menunjukkan
persentil ke 10 dan ke 90. Outlier ditunjukkan dengan tanda ”+”.
outlier
th
90 percentile
th
75 percentile
th
50 percentile
th
25 percentile
th
10 percentile
Gambar 3.5 Deskripsi box
plot untuk panjang sepal
Gambar 3.6 Box plot untuk atributatribut data set Iris
Contoh 3.8:
Box plot untuk empat atribut dari data set Iris ditunjukkan dalam Gambar 3.6.
Pie Chart. Pie chart mirip dengan histogram, tapi pie chart khususnya digunakan
untuk atribut kategori yang memiliki nilai yang relatif kecil. Pie chart
menggunakan area relatif dari lingkaran untuk menujukkan frekuensi relatif.
Scatter Plot. Dalam scatter plot, setiap objek data diplot sebagai titik dalam
bidang dengan menggunakan nilai-nilai dari dua atribut sebagai koordinat x dan y.
Diasumsikan bahwa atribut adalah bernilai integer atau real.
Contoh 3.9:
Gambar 3.7 menunjukkan scatter plot untuk setiap pasang atribut dari data set
Iris. Spesies yang berbeda dari Iris ditunjukkan dengan tanda yang berbeda.
Penyusunan scatter plot dari pasangan atribut dalam format tabular ini, yang
dikenal sebagai scatter plot matrix, memberikan cara yang teroganisasi untuk
mengevaluasi sejumlah scatter plot secara simultan.
Modul Kuliah Data Mining
48
Gambar 3.7 Matriks dari scatter plot untuk data set Iris
Terdapat dua cara menggunakan scatter plot. Pertama, secara grafis
scatter plot menunjukkan hubungan antara dua atribut. Scatter plot juga dapat
digunakan untuk mendeteksi hubungan non-linier. Kedua, ketika label dari kelas
tersedia, scatter plot dapat digunakan untuk menyelidiki derajat dimana kedua
atribut memisahkan kelas.
Contour Plot. Untuk data 3-dimensi, dua atribut menentukan sebuah posisi dalam
bidang, sedangkan atribut yang ketiga memiliki nilai kontinu, seperti temperatur
atau elevasi. Visualisasi untuk data demikian adalah contour plot yang memecah
bidang ke dalam daerah yang terpisah dimana nilai dari atribut ketiga (temperatur,
elevasi) kira-kira sama. Contoh umum dari contour plot adalah contour map yang
menunjukkan elevasi dari lokasi lahan.
Contoh 3.10:
Gambar 3.8 menunjukkan contour plot dari temperatur rataan permukaan laut
(STT) untuk bulan Desember 1998. Temperatur daratan di-set ke 0°C. Dalam
kebanyakan contour map, seperti dalam Gambar 3.8, contour line yang
memisahkan dua daerah dapat diberi label dengan nilai yang digunakan untuk
memisahkan daerah.
Modul Kuliah Data Mining
49
Celsius
Gambar 3.8 Contour plot dari SST untuk bulan Desember 1998
3.3.4 Visualisasi Data Berdimensi Tinggi
Teknik yang akan dijelaskan berikut dapat menampilkan data dengan
dimensi yang lebih tinggi dibandingkan dengan teknik-teknik yang dibahas
sebelumnya. Teknik-teknik ini keterbatasan karena hanya menampilkan beberapa
aspek dari data.
Matriks. Sebuah citra dapat dipandang sebagai array persegi empat dari pixel,
dimana setiap pixel ditentukan oleh warnanya dan kecerahannya. Matriks data
adalah sebuah array persegi empat dari nilai. Dengan demikian, matriks data
dapat divisualisasikan sebagai sebuah citra dengan mengasosiasikan setiap entri
dari matris data dengan sebuah pixel dalam citra. Kecerahan atau warna dari pixel
ditentukan oleh nilai dari entri matriks yang sesuai.
Jika label kelas diketahui, maka pengurutan kembali matriks data dapat dilakukan
sedemikian sehingga semua objek dari sebuah kelas dikelompokan bersama-sama.
Hal ini dapat memberikan kemudahan dalam mendeteksi jika semua objek dalam
sebuah kelas memiliki nilai-nilai atribut yang mirip untuk beberapa atribut. Jika
atribut yang berbeda memiliki range yang berbeda, maka atribut seringkali
distandarkan sehingga memiliki rataan adalah 0 dan standard deviation adalah 1.
Hal ini dilakukan agar atribut yang memiliki nilai yang besar tidak mendominasi
plot secara visual.
Contoh 3.11:
Gambar 3.9 menunjukkan matriks data dari data set Iris yang telah distandarisasi.
50 puluh baris yang pertama merepresentasikan spesies Setosa dari bunga Iris, 50
baris selanjutnya merepresentasikan spesies Versicolour, dan 50 baris terakhir
merepresentasikan spesies Virginica. Spesies Setosa memiliki lebar dan panjang
petal di bawah rata-rata, sedangkan Versicolour memiliki lebar dan panjang petal
di sekitar rata-rata. Virginica memiliki lebar dan panjang petal di atas rata-rata.
Modul Kuliah Data Mining
50
standard
deviation
Gambar 3.9 Plot dari matriks data Iris dimana kolom-kolom telah
distandarisasi, sehingga rataan adalah 0 dan standard
deviation adalah 1.
Data objek juga dapat divisualisasikan dalam plot matriks poximity. Baris
dan kolom dari matriks kemiripan (ketika label kelas diketahui) diurutkan
sedemikian sehingga semua objek dari sebuah kelas dikelompokan bersama-sama.
Visualisasi ini memungkinkan kita untuk melihat kepaduan dari setiap kelas dan
keterpisahannya dari kelas yang lain.
Contoh 3.12:
Gambar 3.10 menunjukkan matriks korelasi untuk data set Iris. Baris dan kolom
diorganisasikan sedemikian sehingga semua bunga dengan spesies tertentu
dikelompokkan bersama-sama.
Gambar 3.10 Plot dari matriks korelasi dari data set Iris
Modul Kuliah Data Mining
51
Jika label kelas tidak diketahui, beberapa teknik (matrix reordering dan
seriation) dapat digunakan untuk menyusun ulang baris dan kolom dari matriks
kemiripan sedemikian sehingga objek dan atribut dengan paling mirip
dikelompokan bersama-sama dan dapat diidentifikasi secara visual.
Koordinat Paralel. Koordinat paralel memiliki satu sumbu koordinat untuk
setiap atribut, tetapi sumbu-sumbu yang berbeda adalah paralel ke sumbu lainnya
(bukan tegak lurus). Sebuah objek direpresentasikan sebagai sebuah baris (bukan
sebuah titik). Secara khusus, nilai dari setiap atribut dari sebuah objek dipetakan
ke sebuah titik pada sumbu koordinat yang sesuai dengan atribut tersebut, dan
titik-titik ini kemudian dihubungkan untuk membentuk garis yang
merepresentasikan objek.
Dalam banyak kasus, objek-objek berada dalam sejumlah kecil grup, dimana titiktitik dalam setiap grup memiliki nilai yang mirip untuk atribut-atributnya. Jika
demikian, dan jika banyaknya objek data tida terlalu besar, maka hasil plot
koordinat paralel dapat mengungkapkan pola yang menarik.
Contoh 3.13:
Gambar 3.11 menunjukkan plot koordinat paralel dari keempat atribut numerik
dari data set Iris. Garis yang merepresentasikan objek dari kelas yang berbeda
dibedakan dengan menggunakan tiga bentuk garis yang berbeda yaitu solid, dot,
dash. Plot koordinat paralel menunjukkan bahwa kelas terpisah dengan baik
untuk panjang dan lebar petal, tetapi kurang terpisah dengan baik untuk panjang
dan lebar sepal. Gambar 3.14 menunjukkan plot koordinat paralel lain untuk data
yang sama, tetapi dengan pengurutan sumbu yang berbeda.
Gambar 3.11 Plot koordinat paralel
dari keempat atribut Iris
Gambar 3.12 Plot koordinat paralel
dari keempat atribut Iris dimana atribut
diurutkan untuk menunjukkan
kemiripan dan ketakmiripan grup.
Salah satu kekurangan dari plot koordinat paralel adalah bahwa deteksi
dari pola dapat tergantung pada urutan. Sebagai contoh, jika garis bersilangan
terlalu banyak, plot yang dihasilkan akan membingungkan, dan dengan demikian
pengurutan sumbu koordinat perlu dipertimbangkan untuk mendapatkan urutan
sumbu dengan persilangan paling sedikit. Bandingkan Gambar 3.12 dengan lebar
Modul Kuliah Data Mining
52
sepal pada bagian kiri gambar dengan Gambar 3.11. dengan lebar sepal berada di
tengah-tengah.
Koordinat Bintang dan Chernoff Face
Pendekatan lain untuk menampilkan data berdimensi banyak adalah dengan
mengkodekan objek sebagai simbol glyph atau ikon, yaitu simbol yang
memberikan informasi secara non-verbal. Setiap atribut dari objek dipetakan ke
fitur tertentu dari glyph, sedemikian sehingga nilai dari atribut menentukan sifat
eksak dari fitur. Dengan demikian, kita dapat melihat bagaimana dua objek
berbeda.
Koordinat bintang adalah salah satu dari pendekatan ini. Teknik ini menggunakan
satu sumbu untuk setiap atributnya. Semua sumbu ini terpancar dari titik pusat,
seperti jari-jari dari sebuah roda. Secara khusus, semua nilai atribut dipetakan ke
dalam range [0, 1].
Sebuah objek dipetakan ke dalam kumpulan sumbu berbentuk bintang dengan
menggunakan proses berikut: setiap nilai atribut dari objek dikonversikan ke
sebuah fraksi yang merepresentasikan jaraknya antara nilai atribut yang minimum
dan maksimum. Fraksi ini dipetakan ke sebuah titik pada sumbu yang sesuai
dengan atribut ini. Setiap titik dihubungkan dengan sebuah segmen garis ke titik
pada sumbu sebelumnya atau yang mengikuti sumbu tersebut, sehingga
terbentuklah sebuah poligon. Ukuran dan bentuk dari poligon memberikan
deskripsi visual dari nilai atribut. Untuk kemudahan interpretasi, himpunan
sumbu yang terpisah digunakan untuk setiap objek. Dengan kata lain, setiap
objek dipetakan ke sebuah poligon. Sebuah contoh plot koordinat bintang untuk
Iris 150 diberikan dalam Gambar 3.13.
Gambar 3.13 Grafik star dari Iris 150
Gambar 3.14 Chernoff face dari Iris 150
Nilai-nilai fitur juga dapat dipetakan ke objek lain seperti wajah. Teknik
ini dinamakan Chernoff face (pembuatnya bernama Herman Chernoff). Dalam
teknik ini, setiap atribut diasosiasikan dengan fitur wajah yang spesifik, dan nilai
atribut digunakan untuk menentukan cara bagaimana fitur wajah diekspresikan.
Dengan demikian, bentuk dari wajah dapat lebih memanjang sebagaimana nilai
dari fitur data yang sesuai meningkat. Sebagai contoh, Chernoff face untuk Iris
150 diberikan dalam Gambar 3.14.
Bentuk wajah dari Chernoff face ditentukan sebagai berikut:
Modul Kuliah Data Mining
53
Fitur Data
Panjang sepal
Lebar sepal
Panjang petal
Lebar petal
Fitur Wajah
Ukuran wajah
Dahi/ panjang busur relatif dari rahang
Bentuk dahi
Bentuk rahang
Fitur wajah yang lain, seperti lebar antar mata dan panjang mulut diberikan nilai
default.
Contoh 3.14:
Ilustrasi dari kedua pendekatan ini dalam merepresentasikan data
multidimensional diberikan dalam Gambar 3.15 dan 3 16. Kedua gambar tersebut
menunjukkan plot star dan wajah untuk 15 bunga dari data set Iris. Dari ke-15
bunga tersebut, 5 bunga termasuk spesies Setosa, 5 bunga termasuk spesies
Versicolour dan 5 bunga termasuk spesies Virginica.
Setosa
Versicolour
Virginica
Gambar 3.15 Plot 15 bunga Iris menggunakan koordinat star
Setosa
Versicolour
Virginica
Gambar 3.16 Plot 15 bunga Iris menggunakan Chernoff face
3.4 OLAP dan Analisis Data Multidimensi
Sistem On-Line Analytical Processing (OLAP) terdiri dari sejumlah sistem
basis data. Sistem OLAP memiliki fokus pada analisis interaktif dari data dan
menyediakan kemampuan visualisasi data dan membangun statistik ringkasan.
Modul Kuliah Data Mining
54
Oleh karena itu dalam pembahasan ini, analisis data multidimensi akan
berdasarkan pada terminologi dan konsep untuk sistem OLAP.
3.4.1
Representasi Data Set Iris sebagai Array Multidimensi
Dalam banyak kasus, data tidak hanya dinyatakan dalam bentuk tabel
tetapi sebagai array multidimensi. Tabel 3.7 dibuat dengan cara mendiskretkan
atribut panjang petal dan lebar petal ke dalam nilai low, medium, dan high dan
kemudian menghitung banyaknya bunga Iris yang memiliki kombinasi lebar petal,
panjang petal dan tipe spesies. Untuk panjang petal, kategori low, medium, dan
high berturut-turut berkaitan dengan interval [0, 0.75), [0.75, 1.75), [1.75, ∝).
Sedangkan untuk panjang petal, kategori low, medium, dan high berturut-turut
berkaitan dengan interval [0, 2.5), [2.5, 5), [5, ∝).
Tabel 3.7 Banyaknya bunga Iris yang memiliki kombinasi
dari lebar petal, panjang petal dan spesies.
Kombinasi yang kosong, yaitu kombinasi yang tidak terkait dengan satu
bungapun, tidak ditunjukkan.
Data dapat diorganisasikan sebagai array tiga dimensi. Dimensi-dimensi
tersebut menyatakan lebar petal, panjang petal, dan tipe spesies, seperti
diilustrasikan dalam Gambar 3.17.
Untuk memperjelas, potongan dari array
ditunjukkan sebagai himpunan tabel dua
dimensi, masing-masing untuk setiap
spesies-lihat Tabel 3.8 sampai dengan
3.10. Informasi yang terkandung dalam
Tabel 3.7 dan Gambar 3.17 adalah sama.
Dalam representasi multidimesi seperti
ditunjukkan dalam Gambar 3.17, nilai
atribut (lebar petal, panjang petal dan
tipe spesies) adalah indeks dari array.
Gambar 3.17 Representasi data
multidimensi untuk data set Iris
Modul Kuliah Data Mining
55
Tabel 3.8 Tabulasi silang dari data
bunga berdasarkan panjang dan
lebar petal untuk spesies Setosa
Tabel 3.9 Tabulasi silang dari data
bunga berdasarkan panjang dan lebar
petal untuk spesies Versicolour
Tabel 3.10 Tabulasi silang dari data bunga berdasarkan
panjang dan lebar petal untuk spesies Virginica
Tabel 3.8, 3.9 dan 3.10 menunjukkan bahwa setiap spesies Iris ditentukan oleh
kombinasi yang berbeda dari nilai panjang dan lebar petal. Bunga Setosa
memiliki panjang dan lebar petal yang rendah (low), bunga Versicolour memiliki
panjang dan lebar petal medium, dan bunga Virginica memiliki panjang dan lebar
petal yang tinggi (high).
3.4.2
Data Multidimensi: Kasus Umum
Representasi tabular dari data seperti diberikan dalam Tabel 3.7
dinamakan tabel fakta. Terdapat dua langkah yang dapat dilakukan dalam
merepresentasikan data sebagai array multidimensi, yaitu identifikasi dimensi dan
identifikasi sebuah atribut yang merupakan fokus dari analisis. Dimensi adalah
atribut kategori atau seperti dalam contoh sebelumnya atribut kontinu yang telah
dikonversi ke dalam atribut kategori. Nilai dari atribut memberikan indeks pada
array untuk dimensi yang sesuai dengan atribut tersebut, dan banyaknya nilai
atribut merupakan ukuran dari dimensi tersebut. Dalam contoh sebelumnya,
setiap atribut memiliki tiga kemungkinan nilai dan dengan demikian setiap
dimensi memiliki ukuran tiga dan dapat diberi indeks oleh ketiga nilai tersebut.
Sehingga dihasilkan array multidimensi 3×3×3.
Setiap kombinasi dari nilai atribut (satu nilai untuk setiap atribut yang
berbeda) mendefinisikan sebuah sel dari array multidimensi. Sebagai ilustrasi,
jika panjang petal = low, lebar petal = medium dan spesies = Setosa, sel yang
mengandung nilai 2 diidentifikasi. Bahwa terdapat dua bunga dalam data set yang
memiliki nilai atribut demikian. Perhatikan bahwa setiap baris (objek) dari data
set dalam Tabel 3.7 berkaitan dengan sebuah sel dalam array multidimensi.
Isi dari setiap sel menyatakan nilai dari kuantitas target (variabel target
atau atribut) yang menarik dalam analisis. Dalam contoh Iris, kuantitas target
adalah banyaknya bunga yang memiliki panjang dan lebar petal dalam batas
tertentu. Atribut target adalah kuantitatif karena tujuan utama dari analisis data
multidimensi adalah untuk melihat kuantitas agregat seperti total atau rataan.
Berikut adalah ringkasan prosedur untuk membuat representasi data
multidimensi dari data set yang dinyatakan dalam bentuk tabular. Pertama,
Modul Kuliah Data Mining
56
identifikasi atribut kategori yang akan digunakan sebagai dimensi dan atribut
kuantitatif yang akan digunakan sebagai target analisis. Setiap baris (objek)
dalam tabel dipetakan ke sebuah sel dalam array multidimensi. Indeks dari sel
ditentukan oleh nilai dari atribut yang dipilih sebagai dimensi, sedangkan nilai
dari sel adalah nilai dari atribut target. Sel yang tidak didefinisikan oleh data
disumsikan memiliki nilai 0.
Contoh 3.15:
Diberikan contoh penjualan produk. Tabel fakta untuk contoh ini diberikan dalam
Tabel 3.11.
Tabel 3.11 Hasil penjualan produk (dalam Dollar) untuk
berbagai lokasi dan waktu.
Product ID
…
1
1
…
1
…
27
27
…
27
…
Location
…
Minneapolis
Chicago
…
Paris
…
Minneapolis
Chicago
…
Paris
…
Date
…
Oct. 18, 2004
Oct. 18, 2004
…
Oct. 18, 2004
…
Oct. 18
Oct. 18
…
Oct. 18, 2004
…
Revenue
…
$250
$79
…
$301
…
$2,321
$3,278
…
$1,325
…
Dimensi dari representasi multidimensi ini adalah atribut product ID,
location dan date, sedangkan atribut target adalah revenue. Gambar 3.18
menunjukkan representasi multidimensi dari data set ini.
Gambar 3.18 Representasi data multidimensi untuk data penjualan
Modul Kuliah Data Mining
57
3.4.3 Analisis Data Multidimensi
Terdapat bebebara teknik dalam analisis multidimensi. Teknik tersebut
diantaranya pembuatan kubus data dan operasinya seperti slicing, dicing, reduksi
dimensi, roll-up dan drill down.
Kubus Data: Komputasi Kuantitas Agregat
Motivasi utama untuk menentukan data multidimensi adalah pentingnya membuat
agregasi data dalam berbagai cara. Dalam contoh penjualan, kita dapat
menemukan pendapatan penjualan total untuk tahun tertentu dan untuk produk
tertentu. Atau mungkin ingin dilihat pendapatan penjualan tahunan untuk setiap
lokasi untuk semua produk. Perhitungan agregasi total melibatkan penetapan nilai
tertentu untuk beberapa atribut yang digunakan sebagai dimensi dan
menjumlahkannya semua nilai yang mungkin untuk atribut-atribut yang
membentuk dimensi-dimensi sisanya. Tabel 3.13 menunjukkan total marginal
dari Tabel 3.12.
Product ID
Tabel 3.12 Total yang dihasilkan dari penjumlahan semua lokasi untuk
waktu dan produk tertentu
1
…
Jan 1, 2004
$1,001
…
Date
Jan 2, 2004
$987
…
27
…
$10,265
…
$10,225
…
…
…
…
Dec 31, 2004
$891
…
…
$9,325
…
Product ID
Tabel 3.13 Tabel 3.12 dengan total marginal
1
…
27
…
Total
Jan 1, 2004
$1,001
…
$10,265
…
$527,362
Date
Jan 2, 2004
…
$987
…
…
…
$10,225
…
$532,953
…
…
Dec 31, 2004 Total
$891 $370,000
… …
$9,325 $3,800,020
… …
$631,221 $227,352,127
Untuk penyederhanaan, diasumsikan bahwa semua tanggal dalam tahun yang
sama. Jika terdapat 365 hari dalam satu tahun dan 1000 produk, maka Tabel 3.12
memiliki entri sebanyak 365,000 (nilai total), untuk setiap pasangan data produk.
Kita juga dapat menentukan lokasi toko dan tanggal dan menjumlahkan nilai pada
semua produk, atau menentukan lokasi dan produk dan menjumlahan nilai pada
seluruh tanggal.
Tabel 3.13 menunjukkan total marginal dari Tabel 3.12. Nilai-nilai total ini
dihasilkan dari penjumlahan pada tanggal dan produk. Dalam Tabel 3.13,
pendapatan penjualan total untuk produk 1, yang diperoleh dengan menjumlahkan
seluruh nilai pada baris 1 (seluruh tanggal), adalah $370,000. Pendapatan
penjualan total pada 1 Januari 2004, yang diperoleh dengan menjumlahkan
seluruh nilai pada kolom 1 (seluruh produk), adalah $527,362. Pendapatan
Modul Kuliah Data Mining
58
penjualan total, yang diperoleh dengan menjumlahkan semua baris dan semua
kolom (semua tanggal dan produk) adalah $227,352,127.
Hal yang penting dalam contoh ini adalah bahwa terdapat sejumlah total-total
(agregat) yang berbeda yang dapat dihitung untuk sebuah array multidimensi,
tergantung kepada berapa banyak atribut yang kita jumlahkan. Diasumsikan
bahwa terdapat n dimensi dan bahwa dimensi (atribut) ke-i memiliki si nilai yang
mungkin. Terdapat n cara yang berbeda untuk menjumlahkan hanya pada sebuah
atribut. Jika kita menjumlahkan pada dimensi j, maka diperoleh s1*...* sj1*sj+1*...* sn total, masing-masing untuk setiap kombinasi nilai atribut yang
mungkin dari n−1 atribut (dimensi) lainnya. Total yang dihasilkan dari
penjumlahan satu atribut dari array multidimensi dengan n−1 dimensi dan terdapat
n array dari total. Dalam contoh penjualan, terdapat tiga himpunan total yang
dihasilkan dari pejumlahan hanya pada satu atribut dan masing-masing total dapat
ditampilkan sebagai tabel dua dimensi.
Jika kita menjumlahkan pada dua dimensi (mungkin dimulai dengan salah satu
dari array total yang diperoleh dengan penjumlahan pada satu dimensi), maka kita
akan memperoleh sebuah array multidimensi total dengan n−2 dimensi. Terdapat
⎛n⎞
⎛ 3⎞
⎜⎜ ⎟⎟ array yang berbeda untuk total. Untuk contoh penjualan, terdapat ⎜⎜ ⎟⎟ = 3
⎝ 2⎠
⎝ 2⎠
array total yang dihasilkan dari penjumlahan pada lokasi dan produk, lokasi dan
waktu, atau produk dan waktu. Secara umum, penjumlahan pada k dimensi
⎛n⎞
menghasilkan ⎜⎜ ⎟⎟ array total, masing-masing dengan n−k dimensi.
⎝k⎠
Representasi data multidimensi, bersama dengan semua total (agregat) yang
mungkin, dikenal sebagai kubus data. Selain nama, ukuran dari setiap dimensi,
yaitu banyaknya nilai atribut, tidak harus sama. Di samping itu, sebuah kubus
data dapat memiliki dimensi kurang atau lebih dari 3. Sebuah kubus data adalah
generalisasi dari tabulasi silang yang dikenal dalam statistika. Jika marginal total
ditambahkan, Tabel 3.8, 3.9, dan 3.10 merupakan contoh dari tabulasi silang.
Reduksi Dimensionalitas dan Pivoting
Agregasi yang dijelaskan sebelumnya dapat dipandang sebagai bentuk reduksi
dimensionalitas. Secara khusus, dimensi ke-j dieliminasi dengan penjumlahan
pada dimensi tersebut. Secara konseptual, hal ini meringkas setiap kolom dari sel
dalam dimensi ke-j ke dalam sebuah sel. Untuk contoh data penjualan dan data
Iris, agregasi pada satu dimensi mengurangi dimensi data dari 3 ke 2. Jika sj
adalah banyaknya nilai yang mungkin dari dimensi ke-j, banyaknya sel direduksi
oleh faktor dari sj.
Pivoting merujuk kepada agregasi pada semua dimensi kecuali 2. Hasilnya adalah
tabulasi silang dua dimensi dengan dua dimensi yang ditentukan sebagai dimensidimensi sisanya. Tabel 3.13 adalah contoh pivoting pada tanggal (date) dan
produk.
Modul Kuliah Data Mining
59
Slicing dan Dicing
Slicing adalah pemilihan sekelompok sel dari seluruh array multidimensi dengan
menentukan nilai tertentu untuk satu atau lebih dimensi. Tabel 3.8, 3.9 dan 3.10
adalah tiga slice dari data set Iris yang diperoleh dengan menentukan tiga nilai
terpisah untuk dimensi spesies. Dicing merupakan pemilihan sebuah subset dari
Hal ini ekuivalen dengan
sel dengan menentukan range nilai atribut.
mendefinisikan sebuah subarray dari array yang lengkap. Dalam praktis, kedua
operasi ini dapat disertai oleh agregasi pada beberapa dimensi.
Roll-up dan Drill-down
Nilai atribut seperti tanggal memiliki nilai yang menyatakan tahun, bulan dan
minggu. Sebuah lokasi juga dapat memiliki beberapa ciri seperti country, state
(province) dan city. Product dapat dibagi ke dalam berbagai kategori seperti
elektronik dan furniture.
Seringkali kategori ini dapat diorganisasikan sebagai pohon hirarki atau lattice.
Sebagai contoh, tahun berisi bulan dan minggu, keduanya berisi hari. Lokasi
dapat dibagi ke dalam negara, yang terdiri dari negara bagian, dan negara bagian
terdiri dari kota. Contoh lain adalah kategori produk, furniture, dapat dibagi ke
dalam sub kategori kursi, meja, sofa dan lain-lain.
Struktur hirarki memunculkan operasi roll-up dan drill-down. Sebagai ilustrasi,
pada data penjualan, yang merupakan data multidimensi dengan entri-entri untuk
setiap tanggal, kita dapat menentukan agregat (roll-up) penjualan untuk semua
tanggal dalam satu bulan. Sebaliknya, diberikan representasi data dimana dimensi
waktu dipecah ke dalam bulan, kita ingin memisahkan total penjualan bulanan
(drill down) ke dalam total penjualan harian.
Dengan demikian operasi roll-up dan drill-down berkaitan dengan agregasi. Akan
tetapi kedua ini berbeda dengan operasi agregasi yang telah dibahas, bahwa
operasi roll-up dan drill-down mengagregasi sel dalam sebuah dimensi, bukan
pada seluruh dimensi.
Gambar 3.19 menunjukkan ilustrasi untuk operasi-operasi pada data multidimensi.
Modul Kuliah Data Mining
60
Waktu
Sukabumi
Bogor
Lokasi
Kuartal-1
Kuartal-2
Waktu
A
B
Varitas
Dice for
(Lokasi = Sukabumi atau Bogor) dan
(Waktu = Kuartal-1 atau Kuartal-2) dan
(Varitas) = A atau B
Lokasi
Wilayah-2
Wilayah-1
Kuartal-1
Kuartal-2
Kuartal-3
A
B C D
Varitas
Roll-up
On
Lokasi
Lokasi
Waktu
Karawang
Subang
Sukabumi
Bogor
Kuartal-1
Kuartal-2
Kuartal-3
A
Drill-down
on Waktu
Slice for
Waktu
=Kuartal1
Karawang
Subang
Sukabumi
B C D
Varitas
Pivot
Lokasi
Karawang
Subang
Sukabumi
Bogor
Januari
Februari
Maret
Waktu
Lokasi
Bogor
A
B C D
Varitas
Varitas
Oktober
November
Desember
Lokasi
A
B C D
Varitas
Gambar 3.19 Ilustrasi untuk operasi-operasi
pada data multidimensi.
Penutup – Soal Latihan
Tugas Individu
Jawablah pertanyaan berikut secara singkat dan jelas.
1. Jelaskan keuntungan dan kerugian steam and plot dan histogram.
Modul Kuliah Data Mining
61
2. Jelaskan secara singkat bagaimana visualisasi dibuat untuk menampilkan
informasi yang menjelaskan bentuk sistem berikut:
a.
Jaringan komputer, meliputi aspek statis
konektivitas, dan aspek dinamik seperti traffic.
b.
Distribusi spesies tanaman dan binatang di seluruh dunia untuk kurun
waktu tertentu.
c.
Penggunaan resource komputer seperti processor time, main memory,
dan disk, untuk sebuah program basisdata.
dari
jaringan
seperti
Tugas Kelompok
Diskusikan dengan kelompok anda penyelesaian atas permasalahan berikut.
1. Carilah sebuah contoh data set dan aplikasikan teknik-teknik visualisasi yang
telah dijelaskan dalam bab ini.
2. Diberikan data hasil tangkapan ikan dan produk lainnya tahun 2000 dalam ton.
NO.
KABUPATEN/
KOTA
Tanggal
Penangkapan
KELOMPOK JENIS IKAN
Tongkol
Cucut
Demesal
KRUSTASE
RUMPU
T LAUT
1
Kab.Sukabumi
12/1/2000
10,0
8,0
2.5
1,0
1,0
2
Kab.Cianjur
13/1/2000
5,0
4,0
2,0
0.5
2,0
3
Kab.Garut
16/01/2000
7.5
3,0
4,0
1,0
2,0
4
Kab. Kulon Progo
25/01/2000
2.5
3,0
6,0
1.5
3,0
5
Kab. Bantul
27/01/2000
4.5
2,0
3,0
3,0
4,0
6
Kab.Sukabumi
25/2/2000
12,0
10,0
7,0
2,0
1,0
7
Kab.Cianjur
1/2/2000
15,0
14,0
8,0
3,0
2,0
8
Kab.Garut
5/2/2000
10,0
9,0
2,0
1,0
5,0
9
Kab.Sukabumi
4/3/2000
0,0
2,0
3,0
4,0
2,0
10
Kab.Cianjur
5/3/2000
0,0
3,0
4,0
2,0
1,0
11
Kab.Garut
12/3/2000
3,0
2,0
5,0
1,0
3,0
12
Kab. Trenggalek
7/3/2000
3,0
2,0
8,0
1.5
2,0
13
Kab. Blitar
8/3/2000
2,0
2.5
1,0
3,0
4,0
9/3/2000
6,0
5,0
1,0
2,0
1,0
10/3/2000
9,0
8,0
1,0
1,0
1,0
75,0
75,0
55,0
24,0
34,0
14
Kab. Tulungagung
15
Kab. Malang
JUMLAH
a. Buatlah tabel fakta dari data tersebut. Lakukan diskretisasi data jika
diperlukan.
b. Tentukan representasi data multidimensi untuk data tersebut.
c. Berilah contoh operasi slicing, dicing, reduksi dimensi, roll-up dan drill
down dengan menggunakan kubus data yang dihasilkan dari soal nomor b.
Modul Kuliah Data Mining
62