Download this PDF file - IndoMS Journal on Statistics

Survey
yes no Was this document useful for you?
   Thank you for your participation!

* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project

Document related concepts
no text concepts found
Transcript
IndoMS Journal on Statistics
Vol.1, No. 1, (2013), Page 63-82
SPASIAL DATA MINING MENGGUNAKAN MODEL SPATIAL
AUTOREGRESSIVE (SAR) DAN EKSPANSI SAR UNTUK PEMETAAN MUTU
PENDIDIKAN DI PROVINSI BANTEN
Atje Setiawan Abdullah
Staf pengajar Jurusan Matematika, FMIPA Unpad
Jl. Raya Bandung-Sumedang Km. 21 Jatinangor
E-mail: [email protected]
Abstract
Spatial data mining is used to extract regular knowledge from a large spatial database in
many applications, such as remote sensing, geography information system, cartography
computer, environment planning, etc. The step of spatial data mining can be done through
preparation of the Base National Survey for Education at year 2003 (SDPN 2003) data,
cleaning data, variable selection for input, process and output, transformation process from
variables to be a ratio indicator using query and spatial variables based on coordinate, and
then processing indicator data mining using SAR model and Expansion SAR to get a
knowledge for prediction a quality of education. The result of processing data using SAR
and Expansion SAR model describes a classification of quality education for elementary
school at Banten Province based on indicators education. In this paper, we apply SAR and
Expansion SAR or Casetti model to predict the quality of elementary education as an
implementation of spatial data mining. For case study we choose the elementary school data
at Banten Province based on SDPN 2003.
Keywords: SAR, Expansion SAR, Casetti model, spatial data mining, elementary education
Abstrak
Spasial data mining digunakan untuk mengekstrak pengetahuan dari database spasial yang
besar dalam banyak aplikasi, seperti penginderaan jauh, sistem informasi geografi, komputer
kartografi, perencanaan lingkungan, dan lain-lain. Tahapan spasial data mining dilakukan
melalui penyusunan data Survey Dasar Pendidikan Nasional 2003 (SDPN 2003),
pembersihan data, pemilihan variabel untuk input, proses dan output, proses transformasi
dari variabel menjadi indikator rasio menggunakan variabel query dan spasial berdasarkan
koordinat, dan kemudian memproses data mining menggunakan variabel indikator dengan
model SAR dan Ekspansi SAR untuk mendapatkan pengetahuan bagi prediksi kualitas
pendidikan.Hasil analisis data menggunakan model SAR dan Ekspansi SAR
menggambarkan klasifikasi kualitas pendidikan di sekolah dasar Propinsi Banten
berdasarkan beberapaindikator pendidikan. Dalam makalah ini, kami menerapkan model
SAR dan ekspansi SAR dari Casetti untuk memprediksi kualitas pendidikan dasar sebagai
2010 Mathematics Subject Classification: 62M10, 62M30, 62P25.
63
64
Atje Setiawan Abdullah
implementasi dari spasial data mining. Untuk studi kasus dipilih data sekolah dasar di
Provinsi Banten berdasarkan SDPN 2003.
Kata kunci: SAR, Ekspansi SAR, model Casetti, spasial data mining, pendidikan dasar
1. Pendahuluan
1.1 Latar Belakang Penelitian
Survei Dasar Pendidikan Nasional 2003 (SDPN 2003) merupakan realisasi dari pendataan
pendidikan, baik persekolahan, perguruan tinggi, maupun Pendidikan Luar Sekolah (PLS). Hasil
SDPN 2003 merupakan data yang sangat besar, karena menjaring data persekolahan secara
nasional sebanyak 203.590 record dan 569 indikator [3]. Luasnya sebaran wilayah pendidikan
di Indonesia dengan kondisi sosial, ekonomi, serta budaya, mutu pendidikan di persekolahan
pada berbagai lokasi di Indonesia merupakan kajian menarik untuk diteliti melalui metode
spasial data mining.
1.2 Permasalahan
Salah satu model spasial data mining yang dapat digunakan untuk deskripsi dan prediksi
adalah model Spatial AutoRegressive (SAR), dan model Ekspansi SAR. Model SAR digunakan
untuk prediksi observasi di lokasi-lokasi tersampel, dalam mengukur heterogenitas didasarkan
pada koordinat lokasi spasial. Selain itu diperlukan suatu metode untuk mengklasifikasikan hasil
SAR yang dapat memetakan mutu pendidikan ke dalam peta lokasi. Untuk memudahkan dalam
penafsiran, model Ekspansi SAR dinyatakan dalam suatu grafik korelasi spasial, γ x dan γ y diplot untuk perluasan x-y, dan γ d untuk perluasan jarak. Grafik tersebut memberikan informasi
pengaruh total (pengaruh non spasial dan spasial) variabel bebas ke-i terhadap variabel
dependen. Jika grafik menunjukkan kecenderungan turun, maka dapat diinterpretasikan semakin
jauh dari koordinat pusat, semakin kecil pengaruh suatu variabel independen terhadap variabel
dependen. Oleh karena itu permasalahan dalam penelitian ini adalah bagaimana melakukan
deskripsi dan prediksi mutu pendidikan menggunakan model SAR dan model Expansi SAR,
khususnya untuk jenjang SD di wilayah Provinsi Banten. Dalam penelitian ini dikaji penerapan
model SAR dan Ekspansi SAR menggunakan spasial data mining untuk pemetaan mutu
pendidikan di lokasi tersampel berdasarkan data hasil UAS itu sendiri dan faktor-faktor
eksternal, serta unsur error.
1.3 Tujuan Penelitian
Penelitian ini bertujuan untuk:
Mengkaji konsep spasial data mining untuk memodelkan prediksi mutu pendidikan jenjang
SD, di provinsi Banten, melalui pendekatan model Spatial Auto Regressive (SAR) dan
Ekspansi SAR.
2) Menerapkan konsep spasial data mining untuk mendeskripsikan korelasi spasial
menggunakan korelasi Moran, untuk klasifikasi data spasial pada indikator mutu pendidikan
jenjang SD di provinsi Banten.
1)
Spasial Data Mining Menggunakan Model Spatial Autoregressive (SAR) ...
3)
65
Menerapkan konsep spasial data mining, yang dinyatakan dalam suatu grafik korelasi
spasial, untuk memberikan informasi pengaruh total (pengaruh non spasial dan spasial)
variabel bebas ke-i terhadap variabel dependen, untuk klasifikasi data spasial pada indikator
mutu pendidikan jenjang SD di provinsi Banten.
2. Metode Penelitian
2.1 Model Proses Input Output Pendidikan
Mutu pendidikan didefinisikan sebagai prestasi dicapai siswa dan diukur berdasarkan nilai
Ujian Akhir Nasional (UAN) pada jenjang SD [11]. Pada tingkat pendidikan dasar dan
menengah proses pembelajaran dilakukan melalui sekolah, dikenakan kepada siswa agar
mempunyai tingkat mutu/kompetensi tertentu secara kognitif, psikomotorik, dan afektif, sesuai
kurikulum yang ditetapkan.
2.2 Variabel Penelitian
Variabel yang digunakan, adalah variabel dasar dan variabel indikator. Variabel dasar
merupakan variabel di dalam “raw data individual sekolah”. Variabel indikator adalah variabel
yang diperoleh berdasarkan variabel dasar. Variabel dasar meliputi identitas sekolah, indikator
siswa, indikator sarana, indikator guru, dan total nilai UAN. Dari indikator tersebut dibangun
sistem input dan output mutu pendidikan, yang digambarkan pada Gambar 2.1 [1].
Berdasarkan Gambar 2.1 diperoleh hasil reduksi indikator yang berpengaruh terhadap mutu
pendidikan, menggunakan analisis faktor dan SEM meliputi: input 3 indikator, rasio siswa
terhadap rombongan belajar (RSTRB), rasio siswa baru asal TK terhadap jumlah siswa tingkat 1
(RSB), dan rasio jumlah siswa umur 7 tahun terhadap siswa tk1(RSB7). Proses terdiri atas 2
indikator yaitu rasio ruang baik terhadap seluruh ruang (RSB) dan rasio guru layak terhadap
seluruh guru (RSGLY). Output terdiri atas 2 indikator, total nilai UAS, dan tingkat kelulusan [1].
Gambar 2.1. Hasil Reduksi Variabel
66
Atje Setiawan Abdullah
2.3 Data Mining
Sejalan dengan pertumbuhan teknologi informasi, data mining merupakan salah satu bidang
yang berkembang pesat karena besarnya kebutuhan akan nilai tambah dari database skala besar
yang makin banyak terakumulasi. Beberapa definisi umum data mining adalah sebagai berikut :
Data mining merupakan serangkaian proses untuk menggali nilai tambah berupa pengetahuan
yang selama ini tidak diketahui secara manual dari suatu kumpulan data. Proses KDD terdiri dari
3 tahap: data preprocessing, data mining dan postprocessing. Proses data mining dan
Knowledge Discovery in Databases (KDD) secara garis besar dijelaskan sebagai berikut: data
selection, pre-processing/ cleaning,transformation, data mining,interpretation/ evaluation.
Tugas data mining secara umum terdiri dari dua kategori prediksi (predictive tasks) dan deskripsi
(descriptive tasks). Metodologi data mining secara ringkas dapat dibagi menjadi beberapa tahap:
data cleaning, integrasi data, transformasi data, aplikasi teknik data mining, evaluasi pola yang
ditemukan, dan presentasi pengetahuan [6].
Proses data mining terdiri dari tujuh langkah, yaitu: (a) definisi tujuan analisis, (b) seleksi dan
organisasi data, (c) analisis eksplorasi dan transformasi data, (d) spesifikasi metode statistika
yang akan digunakan pada tahap analisis, (e) analisis data berdasarkan metode yang dipilih, (f)
evaluasi dan perbandingan metode, dan (g) interpretasi model untuk pengambilan keputusan [5].
Metodologi data mining mengikuti proses tingkat tinggi dari siklus yang mengikuti empat
proses bisnis secara umum terdiri dari: identifikasi masalah bisnis meliputi permasalahanpermasalahan dan areanya dimana analisis data dapat memberikan nilai, transformasi data ke
dalam informasi hasil tindakan menggunakan teknik data mining, aktivitas dalam informasi
tindakan, dan ukuran-ukuran tindakan dari usaha untuk memberikan pengetahuan bagaimana
memanfaatkan data [10].
Cross-Industry Standard Process for Data Mining (CRISP-DM), adalah suatu set fase yang
dapat digunakan dalam studi data mining, terdiri dari: pertama memahami bisnis khususnya
menentukan tujuan penelitian data mining; kedua memahami data melalui seleksi data yang
berhubungan dengan tujuan dari database; ketiga menyiapkan data melalui membersihkan data
hasil seleksi untuk mendapatkan kualitas data yang baik;
keempat memodelkan,
mengembangkan software data mining yang akan digunakan untuk analisis;
kelima
mengevaluasi, membuat interpretasi dari hasil analisis disesuaikan dengan tujuan penelitian, dan
mengembangkan data mining dengan menyimpulkan hasil penelitian data mining untuk
mendapatkan pengetahuan baru, sesuai dengan tujuan [12].
2.4 Spasial Data Mining
Database spasial menyimpan objek-objek spasial yang direpresentasikan oleh tipe data spasial
dan hubungan spasial di antara objek-objek. Data spasial membawa topologi atau informasi
jarak dan seringkali disusun oleh struktur indeks spasial yang dapat diakses oleh metode-metode
spasial. Pengembangan database spasial seperti struktur data spasial dan komputasional
geometri, memberikan jalan untuk mengkaji spasial data mining. Spasial data mining adalah
suatu proses mengekstrak pengetahuan yang diinginkan dari relasi spasial atau berbagai pola
yang secara eksplisit tidak ditemukan dalam database [6].
Spasial Data Mining Menggunakan Model Spatial Autoregressive (SAR) ...
67
Metode spasial data mining dapat digunakan untuk mengekstrak pengetahuan regular dan
menarik dari database spasial yang besar. Masing-masing bagian, dapat digunakan untuk
memahami data spasial, menemukan hubungan antara data spasial dan non spasial, membangun
base pengetahuan spasial, optimisasi query, reorganisasi database spasial, menjelaskan
karakteristik umum melalui cara yang sederhana. Salah satu teknik klasifikasi adalah
pengembangan teknik penambangan data klasik untuk menggabungkan autokorelasi spasial,
yang menjadi kunci untuk membedakan properti data spasial. Dengan menggunakan regresi
linier sebagai prototype, metode-metode klasifikasi dapat dikembangkan untuk model
autokorelasi spasial. Salah satu teknik regresi yang menjelaskan autokorelasi spasial paling
sederhana adalah dengan memodifikasi model regresi melalui bantuan matriks bobot spasial W
berupa model SAR dan Ekspansi SAR [7].
Analisis data berupa penaksiran parameter model SAR dan Ekspansi SAR serta output lainnya
dapat dilakukan secara komputerisasi, misalnya menggunakan perangkat lunak MATLAB.
MATLAB merupakan suatu perangkat lunak yang terkenal untuk kalkulasi data dan representasi
grafik. Struktur dalam MATLAB memungkinkan user memanggil fungsi-fungsi yang berkaitan
dengan analisis data spasial, melakukan komputasi dengan matriks sparse (unsur-unsur bernilai
nol yang banyak) seperti matriks bobot spasial, penaksiran parameter model spasial dan
sebagainya. Desain dan implementasi spasial data mining menggunakan MATLAB untuk disain
fungsi brain image dalam pemetaan parameter-parameter secara statistika (Statistical
Parameters Mapping/SPM). SPM adalah salah satu contoh keberhasilan MATLAB dalam
analisis data dan penggunaan GUI (Graphical User Interface). Kombinasi MATLAB, GIS dan
spasial data mining membangun perangkat lunak kerangka sistem spasial data mining dalam
flatform MATLAB yang diintegrasikan dalam algoritma-algoritma seperti: aturan asosiasi
spasial, analisis pengelompokan spasial, analisis keputusan pohon (decision tree) dan
penggunaan sistem untuk database spasial dalam penggunaan daratan, pemrosesan data vektor
spasial dan berbagai aspek lainnya [9].
2.5 Model Spatial Autoregressive
Model spatial autoregressive (SAR) secara umum dirumuskan [8] sebagai berikut:
y = ρ W1y + Xβ + u
u = λ W2u + ε
(2.1)
y adalah vektor n ×1 dari variabel dependen, X adalah matriks variabel bebas n × k . W adalah
matriks bobot spasial n × n , berisi relasi contiguity atau fungsi jarak.
Jika X = 0 dan W2 = 0, maka model spasial autoregressive disebut model spatial
autoregressive order pertama dinyatakan:
(2.2)
y = ρ Wy + ε.
Matriks W perlu dibakukan sehingga jumlah unsur setiap baris dari matriks adalah satu dan
vektor y unsurnya merupakan penyimpangan dari rata-ratanya.
68
Atje Setiawan Abdullah
Untuk keperluan pengujian hipotesis perlu diasumsikan bahwa ε ∼ N (0, σ 2 I n ) . Taksiran
kuadrat terkecil (OLS) ρ dinyatakan [2] dan [8]:
ρˆ = ( y'W'Wy ) y'W'y.
−1
(2.3)
2.6 Korelasi Moran dan Plot Moran
Otokorelasi spasial sebagai suatu pola peta, juga memberikan berbagai interpretasi. Diukur
melalui perluasan koefisien korelasi product moment dari Pearson dengan menggunakan bobot
matriks spasial biner C, dengan cij = 1 menunjukkan pengamatan j relatif dekat lokasi ke i.
Perluasan koefisien korelasi dikenal koefisien Moran [8]:
MC =
n
∑ ∑
n
n
i =1
j =1 ij
c
∑ ∑ c ( x − x )( x
∑ (x − x)
n
n
i =1
j =1 ij
i
2
n
i =1
j
− x)
.
(2.4)
i
Interpretasi otokorelasi spasial merupakan trend atau pola umum dalam peta, nilai MC
mendekati 1 jika nilai pengamatan similar mengelompok dalam suatu peta, otokorelasi spasial
positif. MC mendekati -1 jika nilai dissimilar mengelompok dalam suatu peta. Pola acak nilainilai suatu variabel dalam peta
mengakibatkan nilai MC mendekati nol jika banyaknya
pengamatan relatif besar. Nilai MC tidak dibatasi dalam rentang [-1,1] , tetapi rentangnya
ditentukan oleh minimum dan maksimum dari Eigenvalue matriks C.
Koefisien korelasi Moran dapat dibuat dalam suatu scatter plot antara vektor ( y − y ) dan
lag spasial dari variabel W ( y − y ) , dengan W adalah matriks bobot spasial. Salah satu cara
membuat plot yaitu hubungan outoregresif pertama:
( y − y ) = ρW( y − y ) + ε
(2.5)
dengan є menyatakan error yang diasumsikan berdistribusi normal dengan rata-rata nol dan
varians σ ε2 I n .
Persamaan koefisien kemiringan sebesar ρ , untuk nilai mendekati 1
menunjukkan tingkat otokorelasi spasial positif tinggi, plot Moran menyatakan terdapat banyak
pengamatan dominan berada di kuadran I, nilai tinggi ( y − y ) berhubungan nilai tinggi
W ( y − y ) , kuadran III menggambarkan banyak pengamatan dominan nilai rendah
(y − y)
berhubungan nilai rendah W ( y − y ) .
Scatter plot menunjukkan pola acak, tidak ada ketergantungan antara pengamatan
( y − y ) dan W ( y − y ) . Nilai negatif ρ mengindikasikan banyak pengamatan di kuadran II,
dan IV.
2.6 Model Ekspansi SAR
Pada model SAR dalam mengukur heterogenitas spasial didasarkan kepada neighborhood.
Model spasial linear secara lokal dalam hal mengukur heterogenitas didasarkan pada koordinat
Spasial Data Mining Menggunakan Model Spatial Autoregressive (SAR) ...
69
lokasi spasial atau suatu koordinat. Model spatial seperti ini pertama kali diperkenalkan oleh
Casetti (1972) dalam [2] dan [7]. Perhatikan model regresi berikut ini:
y = β0 + β1x + ε
(2.6)
dengan βo dan β1 masing-masing menyatakan koefisien regresi, dan x adalah vektor
pengamatan dari variabel bebas. Koefisien-koefisien regresi dalam persamaan tersebut
menunjukkan heterogenitas spasial dalam unit pengamatan. Untuk itu, dalam persamaan tersebut
perlu dilibatkan sejumlah variabel perluasan, misalnya z1 dan z2 sedemikian hingga berlaku:
β1 = γ 0 + γ 1 z1 + γ 2 z2 .
(2.7)
Jika persamaan (2.2) tersebut disubstitusikan ke dalam persamaan (2.1) diperoleh:
y = β 0 + γ 0 x + γ 1 ( z 1 x) + γ 2 ( z 2 x) + ε .
(2.8)
Persamaan (2.3) dinamakan model Casetti dan secara umum dalam bentuk vektor dinyatakan:
y = Xβ + ε
β = ZJβ0 .
Parameter model ekspansi SAR β x dan β y pada persamaan (2.4)
(2.9)
ditaksir dengan
menggunakan metode kuadrat terkecil. Alternatif lain model ini didasarkan kepada vektor jarak.
Jarak dari pusat pengamatan dirumuskan:
di =
(z xi − z xc )2 + (z yi − z y )2
(2.10)
dengan z xi , z yi adalah koordinat pengamatan ke-i dan z xc , z yc adalah koordinat titik pusat
lokasi.
Model ekspansi jarak secara umum dirumuskan:
y = Xβ + ε
β = DJβ 0
(2.11)
dengan D = diag (d1 , d 2 , …, d n ) adalah jarak pengamatan dari pusat pengamatan dan β 0
menunjukkan vektor pengamatan yang berukuran k × 1 untuk pusat pengamatan. Matriks J
dalam model tersebut adalah J = ( I k , I k ,…, I k ) .
Casetti dalam [2] menyatakan bahwa persamaan (2.11) dapat ditulis:
(2.12)
y = α + Xβ + XZ x β x + XZ y β y + ε .
Jika persamaan tersebut melibatkan jarak, persamaan tersebut menjadi:
y = α + Xβ + XDβ0 + ε .
Penafsiran koefisien model perluasan spasial melalui persamaan berikut:
( 2.13)
70
Atje Setiawan Abdullah
γ xi = βi + Z x β xi
γ yi = βi + Z y β yi
γ di = βi + Dβ oi .
(2.14)
Persamaam (2.14) menunjukkan koefisien dari variabel individual, yang menggambarkan
pengaruh total terhadap variabel dependen karena variabel bebas. Untuk memudahkan dalam
penafsiran dinyatakan dalam suatu grafik, γ x dan γ y di-plot untuk perluasan x-y, dan γ d untuk
perluasan jarak. Grafik tersebut memberikan informasi pengaruh total (pengaruh non spasial dan
spasial) variabel bebas ke-i terhadap variabel dependen y.
2.7 Penyiapan Data
Penyiapan data berupa tabel dan relasi antar tabel dari SDPN 2003 disimpan dalam database
terdiri dari tabel berikut : SD-ID dengan primary key ID dan jumlah field 15, SD_SISWA
dengan primary key ID dan jumlah filed 73, SD_GURU dengan primary key ID dan 58 field,
SD_SARANA dengan primary key ID dan jumlah field 47, KAB dengan prymary key KODE
jumlah field 2, KEC dengan primary key KODE jumlah field 3. Serta tabel KEC_Line Capital
dengan primary key KODE_KEC jumlah field 3. Relasi antar tabel digambarkan sebagai berikut
[1]:
Gambar 2.2. Relasi Antar Tabel
1). Select Data
Data yang diambil meliputi nomor ID, kode kecamatan, nilai rata-rata UAS/UAN, guru per
pendidikan, ruangan berdasarkan kondisi. Data referensi seperti data kecamatan, kabupaten
dan koordinat spasial kecamatan.
2). Clean Data
Cleaning data untuk membersihkan: Tuples tidak memiliki nilai untuk atribut. Duplicate
records dan incomplete data sehingga pembersihan pada data dilakukan agar data yang
dipakai terbebas dari error.
3). Transformasi data
Spasial Data Mining Menggunakan Model Spatial Autoregressive (SAR) ...
71
Pembuatan agregat data, menghitung rasio guru layak ≥ D2 terhadap guru, rasio ruang baik
terhadap ruang, total UAS/UAN, mengunakan query :
SELECTkdkec,(sum(RTUAS_MAT)/
Count(*)+sum(RTUAS_indo)/count(*)+sum(RTUAS_ipa)/count(*)+
sum(RTUAS_ips)/count(*))AS TOTUAS FROM SD GROUP BY kdkec;
4). Integrate data
Semua data yang telah dibersihkan dan diperlukan disimpan dalam suatu database.
5). Menyiapkan Format Data untuk MATLAB
Data agregat dalam database dikonversi kedalam bentuk teks file akan dibaca oleh software
MATLAB. sebagai berikut :
1. Data yang telah diagregate direlasikan dengan data koordinat spasial kecamatan.
2. Kelompokan, 1 file teks mewakili 1 provinsi.
3. Hilangkan kode kecamatan, yang dikonversi fieldnya mulai dari rasio siswa terhadap
rombel
4. Konversi format teks space delimited, simpan file sesuai nama provinsi tambah nama
jenjang di akhir nama ProvBantenSD. Teks file hasil konversi seperti Gambar 2.3.
5. Data siap digunakan
Gambar 2.3. Data Teks Provinsi Banten SD
2.9 Aplikasi Spasial Data Mining
Menu utama dari aplikasi spasial data mining menggunakan model SAR, dimulai dengan
pemilihan data lokasi provinsi kemudian lokasi kabupaten dan jenjang persekolahan dengan
pilihan SD/SMP/SMA. Kemudian dilanjutkan dengan pemilihan model SAR. Ketiga menu
tersebut diperlihatkan pada Gambar 2.4.
72
Atje Setiawan Abdullah
Gambar 2.4. Data Teks Provinsi Banten
Output dari taksiran Model SAR orde 1 dan indeks plot Moran disajikan pada Gambar 2.5
sebagai berikut. Selanjutnya digambarkan plot Moran untuk memetakan masing-masing
variabel indikator terhadap variasi mutu pendidikan jenjang SD di Provinsi Banten.
Spasial Data Mining Menggunakan Model Spatial Autoregressive (SAR) ...
73
Gambar 2.5. Hasil Model SAR dan Indeks Moran SD Provinsi Banten
3. Hasil dan Pembahasan
3.1 Analisis Data menggunakan Model SAR
Tabel 3.1 menunjukkan hasil analisis data mutu pendidikan provinsi Banten menggunakan
model SAR. Koefisien determinasi, R 2 dikelompokkan ke dalam tiga kategori: 0.00-0.35, 0.360.65, dan > = 0.65, masing-masing menunjukkan hubungan ‘lemah’, ‘sedang’, dan ‘kuat’.
Tabel 3.1. Rekapitulasi Hasil Analisis Model SAR Banten
NO
1
2
3
4
5
6
NAMA
INDIKATOR
RSTRB
RSB
RSBR7
RSRB
RSGLTG
TOTUAS
RSQUARE
0.52
0.60
0.28
0.35
0.08
0.33
KOEF
RHO
0.74
0.84
0.60
0.65
0.35
0.68
MODEL
SAR
Y=0,74WY
Y=0,84WY
Y=0,60WY
Y=0,65WY
Y=0,35WY
Y=0,68WY
RELASI
SEDANG
SEDANG
LEMAH
SEDANG
LEMAH
LEMAH
74
Atje Setiawan Abdullah
1. Rasio Siswa Terhadap Rombel (RSTRB)
Berdasarkan hasil analisis data dengan model SAR, diperoleh koefisien regresi sebesar 0.74.
Persamaan taksiran SAR diperoleh y=0,74Wy. Hal ini menunjukkan bahwa pengaruh spasial
terhadap RSTRB adalah sedang (p < 10%). Pergeseran wilayah untuk setiap satu satuan akan
meningkatkan rata-rata variabel RSTRB sebesar 0.74. Koefisien determinasi sedang,
menjelaskan bahwa 52% model spasial RSTRB dipengaruhi oleh spasial, sedangkan sisanya
sebesar 48% dipengaruhi unsur lain yang tercakup dalam error.
2. Rasio Siswa Baru Terhadap Seluruh Siswa (RSB)
Berdasarkan hasil analisis data dengan model SAR, diperoleh taksiran model SAR
y=0,84Wy. Hal ini menunjukkan bahwa pengaruh spasial terhadap RSB sedang (p < 10%).
Pergeseran wilayah untuk setiap satu satuan akan meningkatkan rata-rata variabel RSB
sebesar 0.84. Koefisien determinasi sedang, menjelaskan bahwa 60% model spasial RSB
dipengaruhi oleh spasial, sedangkan sisanya 40% dipengaruhi oleh unsur lain yang tercakup
dalam error.
3. Rasio Siswa Usia 7 Tahun terhadap Siswa Baru (RSBR7)
Berdasarkan hasil analisis data dengan model SAR, diperoleh koefisien regresi sebesar 0.60.
Persamaan SAR diperoleh y=0,60Wy. Hal ini menunjukkan bahwa pengaruh spasial terhadap
RSB adalah sedang (p < 10%). Pergeseran wilayah untuk setiap satu satuan akan
meningkatkan rata-rata variabel RSBR7 sebesar 0.60. Koefisien determinasi lemah
menjelaskan bahwa 28% model spasial RSB dipengaruhi oleh spasial, sedangkan sisanya
sebesar 72% dipengaruhi oleh unsur lain yang tercakup dalam error.
4. Rasio Ruang Baik Terhadap Seluruh Ruang (RSRB)
Berdasarkan hasil analisis data dengan model SAR, diperoleh koefisien regresi sebesar 0.65.
Persamaan SAR diperoleh y=0,65Wy. Hal ini menunjukkan bahwa pengaruh spasial
terhadap RSRB adalah sedang (p < 10%). Pergeseran wilayah untuk setiap satu satuan akan
meningkatkan rata-rata variabel RSRB sebesar 0.65. Koefisien determinasi sedang
menjelaskan bahwa 35% model spasial RSRB dipengaruhi oleh spasial, sedangkan sisanya
sebesar 65% dipengaruhi oleh unsur lain yang tercakup dalam error.
5. Rasio Guru Layak Terhadap Seluruh Guru (RSGLTG)
Berdasarkan hasil analisis data dengan model SAR, diperoleh koefisien regresi sebesar 0.35.
Persamaan SAR diperoleh y=0,35Wy. Hal ini menunjukkan bahwa pengaruh spasial
terhadap RSDAFTS adalah sedang (p < 10%). Pergeseran wilayah untuk setiap satu satuan
akan meningkatkan rata-rata variabel RSRB sebesar 0.08. Koefisien determinasi lemah
menjelaskan bahwa 8% model spasial RSDAFTS dipengaruhi oleh spasial, sedangkan
sisanya sebesar 82% dipengaruhi unsur lain yang tercakup dalam error.
6. Total UAS (TOTUAS)
Berdasarkan hasil analisis data dengan model SAR, diperoleh koefisien regresi (rho) sebesar
0.68. Persamaan SAR diperoleh y=0,68Wy. Hal ini menunjukkan bahwa pengaruh spasial
Spasial Data Mining Menggunakan Model Spatial Autoregressive (SAR) ...
75
terhadap RSLABTS adalah sedang (p < 10%). Pergeseran wilayah untuk setiap satu satuan
akan meningkatkan rata-rata variabel RSRB sebesar 0.33. Koefisien determinasi lemah
menjelaskan bahwa 33% model spasial RSGLTG dipengaruhi oleh spasial, sedangkan
sisanya sebesar 67% dipengaruhi unsur lain yang tercakup dalam error.
3.2 Analisis Data menggunakan Indeks Moran
Tabel 3.2 menunjukkan hasil analisis data menggunakan Indeks Moran.
Tabel 3.2. Rekapitulasi Hasil Analisis Indeks Moran Provinsi Banten
NO
NAMA INDIKATOR
INDEKS MORAN
1
RSTRB
0.31
2
RSB
0.34
3
RSB7
0.25
4
RSRB
0.37
5
RSGLTG
0.28
Interpretasi autokorelasi spasial dari output di atas menunjukkan bahwa untuk kelima
variabel tersebut indeks Moran mendekati +1, artinya nilai pengamatan cenderung mengelompok
dalam suatu peta, dengan otokorelasi spasial bernilai positif.
3.3 Pemetaan Moran Scatter Plot menggunakan Peta Spasial Kecamatan di Provinsi Banten
dengan format ArcView (*.shp)
Dengan format ArcView dapat digambarkan korelasi spasial melalui Plot Moran untuk
setiap variabel penelitian tentang mutu pendidikan jenjang SD di Provinsi Banten [1] sebagai
berikut:
76
Atje Setiawan Abdullah
Gambar 3.1. Rasio Siswa Usia 7 Tahun terhadap Siswa Baru (RSBR7)
Gambar 3.3 menunjukkan indikator rasio siswa baru usia 7 tahun terhadap jumlah tingkat 1
(RSBR7) berada di kuadran III, nilai koefisien kemiringan rho positif yaitu 0,31. Artinya rasio
siswa baru usia 7 tahun terhadap siswa kelas 1 SD mempunyai tingkat otokorelasi spasial
positif. Hal ini menunjukkan banyak pengamatan dominan nilai-nilai tinggi (y − y )
berhubungan dengan nilai tinggi W(y − y ) . Dari peta dapat dilihat untuk sekolah yang berada
di kecamatan-kecamatan berlokasi di wilayah Provinsi Banten Utara, rasio siswa baru umur 7
tahun terhadap jumlah siswa tingkat 1, rendah. Sebaliknya untuk sekolah yang berada di
kecamatan-kecamatan wilayah Provinsi Banten Selatan masih memiliki budaya menyekolahkan
anak 7 tahun atau lebih. Hal ini menunjukkan rata-rata menyekolahkan siswa 7 tahun ke atas,
atau kesadaran menyekolahkan anak relatif rendah.
Spasial Data Mining Menggunakan Model Spatial Autoregressive (SAR) ...
77
Tabel 3.3. Rekapitulasi Hasil Analisis Model Expansi SAR
Jenjang SD Provinsi Banten
NO
RSTRB
RSB
RSBR7
RSRB
RSGL
TOTUAN
Banten Utara
T
T
R
T
T
T
2
Banten Selatan
R
R
T
R
R
R
3
Banten Timur
R
T
R
R
R
R
4
Banten Barat
R
R
R
R
T
T
1
LOKASI
Berdasarkan Tabel 3.3 diperoleh sebagai berikut:
a. Untuk lokasi Banten Utara, RSTRB, RSB, RSRB, RSGL, dan TotUAS adalah tinggi. Hal
ini menunjukkan bahwa untuk sekolah-sekolah yang berada di kecamatan-kecamatan di
Banten Utara memiliki rombel tinggi, rata-rata siswa baru berasal dari TK tinggi, rasio
ruang baik terhadap ruang tinggi, rasio guru layak tinggi dan total UAS relatif tinggi.
Sedangkan untuk rasio siswa baru berusia tujuh tahun rendah, artinya rata-rata
menyekolahkan siswa di bawah 7 tahun.
b. Untuk lokasi Banten Selatan, RSTRB, RSB, RSRB, RSGL, dan TotUAS adalah rendah.
Hal ini menunjukkan bahwa untuk sekolah-sekolah yang berada di kecamatan-kecamatan
di Banten Selatan memiliki rombel rendah, rata-rata siswa baru berasal dari TK rendah,
rasio ruang baik terhadap ruang rendah, rasio guru layak rendah dan total UAS relatif
rendah. Sedangkan untuk rasio siswa baru berusia tujuh tahun tinggi, artinya rata-rata
menyekolahkan siswa di atas 7 tahun relatif tinggi.
c. Untuk lokasi Banten Timur, RSTRB, RSBR7, RSRB, RSGL, dan TotUAS adalah rendah.
Hal ini menunjukkan bahwa untuk sekolah-sekolah yang berada di kecamatan-kecamatan
di Banten Timur memiliki rombel rendah, rata-rata siswa baru berasal dari TK rendah,
rasio ruang baik terhadap ruang rendah, rasio guru layak rendah dan total UAS relatif
rendah. Sedangkan untuk rasio siswa baru asal TK tinggi,
artinya rata-rata
menyekolahkan siswa asal TK relatif tinggi.
d. Untuk lokasi Banten Barat, RSTRB, RSB, RSBR7, RSRB, dan TotUAS adalah rendah.
Hal ini menunjukkan bahwa untuk sekolah-sekolah yang berada di kecamatan-kecamatan
di Banten Barat memiliki rombel rendah, rata-rata siswa baru berasal dari TK rendah,
rasio siswa baru 7 tahun rendah, dan rasio ruang baik terhadap ruang rendah. Sedangkan
untuk rasio Guru layak relatif tinggi, dan total UAS relatif tinggi, artinya rata-rata guru
sudah layak mengajar relatif tinggi, dan rata-rata nilai UAS relatif tinggi.
78
Atje Setiawan Abdullah
3.4 Hasil Analisis Data Model Ekspansi SAR
Gambar 3.2. Hasil Model Expansi SAR SD Provinsi Banten
Gambar 3.2 merupakan hasil analisis model Ekspansi SAR. Hasil di atas menunjukkan bahwa
mutu pendidikan jenjang SD di provinsi Banten dipengaruhi oleh faktor non spasial dan faktor
spasial yang diukur berdasarkan jarak antara 2 lokasi (kecamatan). Koefisien determinasi
menjelaskan variasi mutu pendidikan dipengaruhi oleh faktor spasial dan non spasial sebesar
44%. Model taksiran mutu pendidikan tersebut dapat digunakan untuk memprediksi mutu di
suatu kecamatan di wilayah Provinsi Banten, apabila delapan indikatornya diketahui dan
koordinat dari kecamatan tersebut juga diketahui.
Taksiran MUTU = 25.45 - 0.01 RSRBL + 11.61 RSB + 0.85 RSB7 - 12.35 RSRB - 0.44 RSGLY +
0.44 DRSRBL - 16.00 DRSB - 23.08 DRSBR7 - 3.87 DRSRB + 2.36 DRSGLYK
3.5 Grafik Hasil Analisis Menggunakan Model Ekspansi SAR
Untuk memudahkan dalam penafsiran hasil analisis ekspansi SAR dinyatakan dalam suatu
grafik, γ x dan γ y di-plot untuk perluasan x-y, dan γ d untuk perluasan jarak. Grafik tersebut
memberikan informasi pengaruh total (pengaruh non spasial dan spasial) variabel bebas ke-i
terhadap variabel dependen.
Aturan pengelompokan besarnya koefisien determinasi, yaitu R 2 dikelompokkan ke dalam
tiga kategori: 0.00-0.35, 0.36-0.65, dan > = 0.65 berturut-turut menyatakan kekuatan hubungan
‘lemah’, ‘sedang’, dan ‘kuat’. Untuk Provinsi Banten, berdasarkan perhitungan diperoleh
koefisien determinasi 48% yang berarti mempunyai hubungan sedang antara pengaruh non
spasial dan spasial terhadap mutu pendidikan jenjang SD di Banten.
Spasial Data Mining Menggunakan Model Spatial Autoregressive (SAR) ...
79
Gambar 3.3. RSTRB SD dan RSB Provinsi Banten
Gambar 3.3 bagian kiri Grafik korelasi spasial pada menunjukkan kecenderungan naik,
dapat diinterpretasikan semakin jauh dari koordinat pusat, semakin besar pengaruh suatu
variabel independen terhadap variabel mutu pendidikan. Sedangkan Gamabar 3.3 bagian kanan
Grafik korelasi spasial pada menunjukkan kecenderungan turun, dapat diinterpretasikan semakin
jauh dari koordinat pusat, semakin kecil pengaruh suatu variabel independen terhadap variabel
mutu pendidikan.
Secara detail Gambar 3.3 sebelah kiri menggambarkan Rasio Siswa terhadap Rombel,
semakin jauh dari pusat, pengaruh RSTRB semakin besar terhadap mutu pendidikan. Hal ini
menjelaskan bahwa semakin jauh dari pusat kota, pengaruh rasio siswa terhadap rombel semakin
besar, mengingat jumlah rombel di pedesaan relative kecil, umumnya kelas di pedesaan
merupakan kelas besar, jarang adanya kelas paralel, mengingat jumlah guru terbatas. Sedangkan
untuk perkotaan yang jaraknya relatif dekat dengan pusat, pengaruh rasio siswa terhadap rombel
semakin kecil. Hal ini menunjukkan di lokasi yang jaraknya dekat dengan pusat rata-rata
memiliki rombel, dan kesadaran untuk memberikan pelajaran secara optimal dilakukan,
mengingat jumlah siswa banyak dengan guru yang banyak.
Sedangkan Gambar 3.3 sebelah kanan menunjukkan korelasi spasial variabel Rasio Siswa Baru
asal TK terhadap Siswa kelas 1 kecenderungan turun. Artinya semakin jauh dari pusat kota,
pengaruh rasio siswa baru asal TK semakin kecil terhadap mutu pendidikan, mengingat di
kecamatan-kecamatan yang jauh dari pusat pemerintahan jumlah TK relatif kecil. Sedangkan
untuk perkotaan yang jaraknya relatif dekat dengan pusat kota pengaruh siswa baru asal TK
terhadap mutu pendidikan semakin besar, mengingat hampir semua siswa kelas 1 berasal dari
TK, sehingga pengaruhnya terhadap mutu pendidikan juga semakin besar.
80
Atje Setiawan Abdullah
Tabel 3.4. Rekapitulasi Hasil Analisis Data
Menggunakan Indeks Moran
NO
1
INDIKATOR
GRAFIK EKSPANSI SAR
RSTRB
NAIK
2
RSB
TURUN
3
RSBR7
TURUN
4
RSRB
TURUN
5
RSGL
NAIK
Tabel 3.4 menjelaskan untuk indikator RSB, RSB7, dan RSRB grafik cenderung turun.
Artinya semakin jauh dari pusat, pengaruh rasio siswa asal TK, rasio siswa baru umur 7 tahun,
dan rasio ruang baik terhadap seluruh ruang terhadap mutu pendidikan semakin kecil. Sedangkan
untuk indikator RSTRB dan RSGL grafik cenderung naik. Artinya semakin jauh dari pusat,
pengaruh RSTRB dan RSGL terhadap mutu pendidikan semakin tinggi.
Gambar 3.4. Perbandingan Aktual dengan Prediksi Provinsi Banten
Gambar 3.4 memperlihatkan pola data aktual hampir mirip dengan pola model prediksi,
ini berarti model ekspansi Ekspansi SAR dapat menggambarkan keadaan yang sebenarnya. Pola
residual juga memperlihatkan pola yang sama dengan model ekspansi SAR. Artinya secara garis
besar model ekspansi SAR cocok untuk digunakan dalam menganalisis indikator-indikator mutu
pendidikan di Sekolah Dasar Provinsi Banten.
4. Kesimpulan
1. Model SAR, menunjukkan bahwa pengaruh spasial terhadap indikator-indikator RSRB, RSB,
RSBR7, RSRB, RSGLY, dan R_UAN sangat signifikan (p < 10%). Interpretasi untuk setiap
indikator dapat diklasifikasikan sebagai berikut: Pergeseran wilayah untuk setiap satu satuan
akan meningkatkan rata-rata indikator-indikator dan RSRB (74%) , RSB (84%), dan RSB
Spasial Data Mining Menggunakan Model Spatial Autoregressive (SAR) ...
81
(60%) mempunyai koefisien determinasi sedang, untuk indikator-indikator RSBR7 (65%),
RGLYK (35%) dan R_UAN (68%), mempunyai koefisien determinasi lemah.
2. Indeks Moran, menunjukkan otokorelasi spasial untuk kelima variabel tersebut mendekati +1,
artinya nilai pengamatan similar cenderung mengelompok dalam suatu peta, dimana
otokorelasi spasial bernilai positif. Grafik menunjukkan indikator-indikator RSRB, RSB,
RSBR7, RSRB, dan RGLYK ada di kuadran III, nilai koefisien kemiringan rho positif.
Artinya rasio RSRB (0,31), RSB (0,34), RSBR7 (0,25), RSRB (0,37), RGLY (0,28), secara
kewilayahan mempunyai tingkat autokorelasi spasial positif. Hal ini menunjukkan banyak
pengamatan dominan pada nilai-nilai rendah ( y − y ) berhubungan dengan nilai rendah
W( y − y) .
3. Prediksi mutu pendidikan di provinsi Banten, dapat diperoleh dengan menggunakan
persamaan
Taksiran MUTU = 25.45 - 0.01 RSRBL + 11.61 RSB + 0.85 RSB7 - 12.35 RSRB - 0.44 RSGLY +
0.44 DRSRBL - 16.00 DRSB - 23.08 DRSBR7 -3.87 DRSRB + 2.36 DRSGLYK
4. Pola data aktual hampir mirip dengan pola model prediksi model ekspansi SAR. Artinya
secara garis besar model ekspansi SAR cocok untuk digunakan dalam menganalisis
indikator-indikator mutu pendidikan pada jenjang Sekolah Dasar di provinsi Banten.
5. Mutu sekolah yang berada di kecamatan-kecamatan yang berlokasi di wilayah Utara Provinsi
Banten, relatif lebih baik dibanding lokasi lainnya, sedangkan sekolah yang berada di
kecamatan-kecamatan wilayah Banten Selatan mutu pendidikannya relatif rendah.
6. Untuk meningkatkan mutu indikator RSB, RSBR7, dan RSRB, pembinaan sebaiknya dimulai
dari sekolah-sekolah yang berada di kecamatan-kecamatan yang lokasinya jauh dari pusat
pemerintahan. Sedangkan untuk meningkatkan mutu indikator RSTRB, dan RSGL ,
pembinaan sebaiknya dimulai dari sekolah-sekolah yang berada di kecamatan-kecamatan
yang dekat dengan pusat pemerintahan.
5. Saran
Perlu pengembangan lebih lanjut dari sisi model spasial dalam spasial data mining, aplikasi,
dan pemutakhiran data. Karena model Ekspansi SAR hanya dapat digunakan untuk prediksi
mutu pendidikan di lokasi-lokasi yang tersampel, maka diperlukan model untuk dapat
memprediksi di lokasi-lokasi yang tidak tersampel, salah satunya menggunakan model SARKriging.
82
Atje Setiawan Abdullah
Ucapan Terimakasih
Penulis mengucapkan terima kasih kepada Prof. Drs. Subanar, Ph.D, Drs. Retantyo
Wardhoyo, M.Sc, Ph.D, Dra. Sri Hartati, M.Sc, Ph.D, Drs. Agus Harjoko, M.Sc, Ph.D yang telah
memberi dukungan terhadap penelitian ini.
Daftar Pustaka
[1] Abdullah, A. S. 2009. Implementasi Spasial Data Mining menggunakan Model Spatial
Autoregressive-Kriging (SAR-Kriging). Disertasi tidak dipublikasikan. Program Doktor
Ilmu Komputer, PPs UGM. Yogyakarta.
[2] Anselin, L. 1988, Spatial Econometrics: Method and Models,London: Kluwer Academic
publisher..
[3] Balitbang Depdiknas. 2003. Survei Dasar Pendidikan Nasional Tahun 2003. Jakarta.
[4] Giannotti Fosca, Pedreschi, 2008, Mobility, Data mining and privacy, Geographic
Knowledge Discovery, Springer-VerlagBerlinHeidelberg.
[5] Giudici, P. 2003. Applied Data Mining Statistical Methods for Business and Industry.
England: John Wiley & Sons Ltd.
[6] Han, J. and Kamber, M. 2006. Data Mining, Concept and Techniques. Academic Press,
USA.
[7] Koperski, K., Han, J., and Adhikary, J. 1997. Spatial Data Mining:
Progress and
Challenges. School of CS, Canada.
[8] LeSage P. J. 1999. The Theory and Practice of SpatialEconometrics. Department of
Economics, University Toledo.
[9] Lu, Z., Xinqi, Z., and Shuqing, W. 2008. Design and Implementation of Spatial Data
Mining System (M-SDM) based on MATLAB. Journal of Computer. Vol. 3. No. 10.
China University of Geosciences, Beijing.
[10] Michael, J.A. Berry,Gordon S. Linoff, 2000, Mastering Data Mining the Art and Science of
Customer Relationship Management”, John Wiley & Soon, Inc.
[11] Nababan, H., 2003, Indikator Mutu Pendidikan di Lingkungan Pendidikan. Balitbang
Depdiknas, Jakarta.
[12] Olson, D., dan Shi, Y., 2007, Introduction to Business Data Mining, McGraw-Hill
International Edition, Singapore.
[13] Soukup, T. and Davidson, I. 2002, Visual Data Mining, Techniques and Tools for Data
Visualization and Minning. John Willey & Sons, Inc., Canada.