Download IMPLEMENTASI DATA MINING UNTUK MENEMUKAN POLA

Survey
yes no Was this document useful for you?
   Thank you for your participation!

* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project

Document related concepts
no text concepts found
Transcript
IMPLEMENTASI DATA MINING UNTUK MENEMUKAN POLA HUBUNGAN
TINGKAT KELULUSAN MAHASISWA DENGAN DATA INDUK MAHASISWA
Beta Noranita1, Nurdin Bahtiar2
1,2
Program Studi Teknik Informatika FMIPA UNDIP
[email protected], [email protected]
1
Abstrak
Pemanfatan teknologi informasi memungkinkan terjadinya akumulasi data dalam jumlah yang besar.
Universitas Diponegoro merupakan organisasi yang memanfaatkan teknologi informasi, khususnya basis
data, akan mengalami akumulasi data mahasiswa dalam jumlah besar tiap tahunnya. Basis data
mahasiswa di UNDIP berisi data dalam jumlah besar dengan banyak variasi, tetapi belum dimanfaatkan
secara optimal. Diperlukan suatu sistem yang bisa memanfaatkan gunungan data menjadi informasi yang
bernilai strategis. Dalam makalah ini dibahas suatu sistem pendukung bagi perguruan tinggi yang
menggambarkan hubungan data induk mahasiswa, khususnya jalur masuk calon mahasiswa baru dengan
tingkat kelulusan mahasiswa, dilihat dari IPK dan lama studi. Sistem yang dibangun menggunakan
teknik data mining bertujuan untuk menggali dan menemukan pola-pola yang tersembunyi antara data
induk mahasiswa dengan tingkat kelulusan mahasiswa. Untuk memperoleh kaidah asosiasi yang
menggambarkan hubungan antar item pada database digunakan metode apriori. Hasil dari proses mining
ini dapat membantu untuk mengetahui sejauh mana tingkat keberhasilan PSSB dan SPMB terhadap
tingkat kelulusan mahasiswa.Informasi yang dihasilkan dapat digunakan sebagai dasar analisis dalam
pengambilan keputusan.
Kata Kunci: data mining, tingkat kelulusan mahasiswa, data induk mahasiswa, metode apriori.
Data induk mahasiswa yang akan dicari
1. Pendahuluan
hubungannya meliputi proses masuk, asal sekolah,
Ketersediaan data sudah bukan hal yang sulit
kota asal sekolah, dan program studi. Adapun yang
diperoleh lagi dewasa ini apalagi ditunjang dengan
akan diproses mining adalah hubungan tingkat
banyaknya kegiatan yang sudah dilakukan secara
kelulusan dengan proses masuk calon mahasiswa
komputerisasi. Namun data ini seringkali
baru. Tingkat kelulusan mahasiswa dapat dilihat
diperlakukan hanya sebagai rekaman tanpa
dari lama studi dan IPK (Indeks Prestasi
pengolahan lebih lanjut sehingga tidak mempunyai
Kumulatif).
nilai guna lebih untuk keperluan masa mendatang.
Perguruan tinggi saat ini dituntut untuk
2. Data Mining
memiliki keunggulan
bersaing
dengan
memanfaatkan semua sumber daya yang dimiliki.
Data mining adalah penambangan atau
Perguruan tinggi harus mampu melakukan proses
penemuan informasi baru dengan mencari pola atau
evaluasi, perencanaan dan pengelolaan secara baik
aturan tertentu dari sejumlah data yang sangat
untuk dapat memenangkan persaingan di era
besar [2]. Data mining juga disebut sebagai
globalisasi ini. Selain sumber daya sarana,
serangkaian proses untuk menggali nilai tambah
prasarana, dan manusia, sistem informasi adalah
berupa pengetahuan yang selama ini tidak diketahui
salah satu sumber daya yang dapat digunakan
secara manual dari suatu kumpulan data [5]. Data
untuk meningkatkan keunggulan bersaing. Sistem
mining, sering juga disebut sebagai knowledge
informasi dapat digunakan untuk mendapatkan,
discovery in database (KDD). KDD adalah
mengolah dan menyebarkan informasi untuk
kegiatan yang meliputi pengumpulan, pemakaian
menunjang
kegiatan operasional
sehari-hari
data, historis untuk menemukan keteraturan, pola
sekaligus
menunjang
kegiatan pengambilan
atau hubungan dalam set data berukuran besar [6].
keputusan strategis. Dalam makalah ini akan di
Karakteristik Data mining sebagai berikut [2]:
bahas bagaimana suatu aplikasi dapat menghasilkan
Data mining berhubungan dengan penemuan
informasi yang berguna tentang hubungan tingkat
sesuatau yang tersembunyi dan pola data
kelulusan dengan data induk mahasiswa dengan
tertentu yang tidak diketahui sebelumnya.
teknik data mining. Tidak semua data induk siswa
Data mining biasa menggunakan data yang
akan dicari hubungannya dengan data kelulusan,
sangat besar. Biasanya data yang besar
hanya beberapa atribut yang kira-kira berguna dan
digunakan untuk membuat hasil lebih
sebarannya tidak terlalu acak. Karena data yang
dipercaya.
terlalu acak akan membuat proses mining memakan
waktu lama dan tingkat hubungannya pun rendah.
156
untuk memperoleh
pengetahuan yang
diperoleh pengguna. Tahap terakhir dari
proses data mining adalah bagaimana
memformulasikan keputusan atau aksi dari
hasil analisa yang didapat.
Data mining berguna untuk membuat
keputusan yang kritis, terutama dalam strategi.
Sebagai suatu rangkaian proses, data mining dapat
dibagi menjadi beberapa tahap yang diilustrasikan
di Gambar 1.
3.
Gambar 1. Proses Data Mining
Tahap-tahap data mining yaitu [3] :
1. Pembersihan data (data cleaning)
Pembersihan
data
merupakan
proses
menghilangkan noise dan data yang tidak
konsisten atau data tidak relevan.
2. Integrasi data (data integration)
Integrasi data merupakan penggabungan data
dari
berbagai database ke dalam satu
database baru.
3. Seleksi Data (Data Selection)
Data yang ada didalam database seringkali
tidak semuanya dipakai, oleh karena itu hanya
data yang sesuai untuk dianalisis yang akan
diambil dari database. Sebagai
4. Transformasi data (Data Transformation)
Data diubah atau digabung ke dalam format
yang sesuai untuk diproses dalam data mining.
5. Aplikasi teknik Data mining,
Merupakan suatu proses utama di mana
metode diterapkan untuk menemukan
pengetahuan berharga dan tersembunyi dari
data.
6. Evaluasi pola (pattern evaluation),
Untuk mengidentifikasi pola-pola menarik
untuk di representasikan kedalam knowledge
based yang ditemukan. Dalam tahap ini hasil
dari teknik data mining berupa pola-pola yang
khas maupun model prediksi dievaluasi untuk
menilai apakah hipotesa yang ada memang
tercapai.
7. Presentasi
pengetahuan
(knowledge
presentation),
Merupakan visualisasi
dan
penyajian
pengetahuan mengenai teknik yang digunakan
Association rules
Association rules (aturan asosiasi) atau affinity
analysis (analisis afinitas) berkenaan dengan studi
tentang “apa bersama apa”. Aturan asosiasi ingin
memberikan informasi tersebut dalam bentuk
hubungan “if-then” atau “jika-maka”. Aturan ini
dihitung dari data yang sifatnya probabilistik [6].
Penting tidaknya suatu aturan assosiatif dapat
diketahui dengan dua parameter, support (nilai
penunjang) yaitu prosentase kombinasi item
tersebut. dalam database dan confidence (nilai
kepastian) yaitu kuatnya hubungan antar item dalam
aturan assosiatif. Analisis asosiasi didefinisikan
suatu proses untuk menemukan semua aturan
assosiatif yang memenuhi syarat minimum untuk
support (minimum support) dan syarat minimum
untuk confidence (minimum confidence) [5].
Dari jumlah besar aturan yang mungkin
dikembangkan, perlu memiliki aturan-aturan yang
cukup kuat tingkat ketergantungan antar item dalam
antecedent dan consequent. Untuk mengukur
kekuatan aturan asosiasi ini, digunakan ukuran
support dan confidence. Support adalah rasio antara
jumlah transaksi yang memuat antecedent dan
consequent dengan jumlah transaksi.
jumlah transaksi yang meliputi semua item
dalam antecedent dan consequent dengan jumlah
transaksi yang meliputi semua item dalam
antecedent.
4.
Algoritma Apriori
Algoritma apriori adalah algoritma untuk
menemukan pola frekuensi tinggi. Pola frekuensi
tinggi adalah pola-pola item di dalam suatu
database yang memiliki frekuensi atau support di
atas ambang batas tertentu yang disebut dengan
istilah minimum support atau threshold. Pola
frekuensi tinggi ini digunakan untuk menyusun
aturan assosiatif dan juga beberapa teknik data
mining lainnya.
Algoritma apriori dibagi menjadi beberapa
tahap yang disebut iterasi. Tiap iterasi
menghasilkan pola frekuensi tinggi dengan panjang
yang sama dimulai dari pass pertama yang
menghasilkan pola frekuensi tinggi dengan panjang
satu. Di iterasi pertama ini, support dari setiap item
dihitung dengan men-scan database. Setelah
157
support dari setiap item didapat, item yang
memiliki support diatas minimum support dipilih
sebagai pola frekuensi tinggi dengan panjang 1 atau
sering disingkat 1-itemset. Singkatan k-itemset
berarti satu set yang terdiri dari k item.
Iterasi kedua menghasilkan 2-itemset yang
tiap set-nya memiliki dua item. Pertama dibuat
kandidat 2-itemset dari kombinasi semua 1-itemset.
Lalu untuk tiap kandidat 2-itemset ini dihitung
support-nya dengan men-scan database. Support
disini artinya jumlah transaksi dalam database yang
mengandung kedua item dalam kandidat 2-itemset.
Setelah support dari semua kandidat 2-itemset
didapatkan, kandidat 2-itemset yang memenuhi
syarat minimum support dapat ditetapkan sebagai
2-itemset yang juga merupakan pola frekuensi
tinggi dengan panjang 2.
Untuk selanjutnya pada iterasi ke-k dapat dibagi
lagi menjadi beberapa bagian [5]:
1. Pembentukan kandidat itemset
Kandidat k-itemset dibentuk dari kombinasi
(k-1)-itemset yang didapat dari iterasi
sebelumnya. Satu ciri dari algoritma Apriori
adalah adanya pemangkasan kandidat kitemset yang subset-nya yang berisi k-1 item
tidak termasuk dalam pola frekuensi tinggi
dengan panjang k-1.
2. Penghitungan support dari tiap kandidat kitemset
Support dari tiap kandidat k-itemset didapat
dengan men-scan database untuk menghitung
jumlah transaksi yang memuat semua item di
dalam kandidat k-itemset tersebut. Ini adalah
juga ciri dari algoritma Apriori dimana
diperlukan penghitungan dengan scan seluruh
database sebanyak k-itemset terpanjang.
3. Tetapkan pola frekuensi tinggi
Pola frekuensi tinggi yang memuat k item atau
k-itemset ditetapkan dari kandidat k-itemset
yang support-nya lebih besar dari minimum
support. Bila tidak didapat pola frekuensi
tinggi baru maka seluruh proses dihentikan.
Bila tidak, maka k ditambah satu dan kembali
ke bagian 1.
5.
Sumber Data
Sumber data pada pembangunan aplikasi data
mining ini diperoleh dari dua database terpisah
yang tidak saling terkait satu sama lain. untuk itu
diperlukan suatu data warehouse yang dapat
menampung dari kedua sumber data tersebut. Selain
itu penggunaan data warehouse juga bertujuan agar
data transaksional dalam kedua database sumber
tidak terganggu.
158
Gambar 2. Aliran data dalam proses data
mining
Data yang digunakan dalam penulisan tugas
akhir ini terdiri dari dua sumber data, yaitu data
Induk Mahasiswa dan data Kelulusan.
1. Data Induk Mahasiswa
Data induk mahasiswa adalah data mahasiswa yang
didata ketika mahasiswa pertama kali masuk
perguruan tinggi setelah melakukan registrasi ulang.
Data yang dicatat adalah identitas pribadi
mahasiswa dan identitas sekolah asal mahasiswa.
Proses pendataan dilakukan di tingkat universitas,
setelah direkapitulasi kemudian di sebarkan ke
fakultas masing-masing. Data yang dicatat dapat
dilihat dalam tabel 1.
Tabel 1. Tabel data induk mahasiswa
Atribut
Keterangan
NIM (Nomor
Nomor Induk Mahasiswa atau yang
Induk
disingkat dengan NIM adalah kode
Mahasiswa)
yang dimiliki mahasiswa sebagai
nomer unik identitas diperguruan
tinggi.
Jenis kelamin
Merupakan
jenis
kelamin
mahasiswa yang bersangkutan
Nama
Merupakan
nama
lengkap
mahasiswa
mahasiswa yang bersangkutan
Kota lahir
Merupakan kota kabupaten atau
kotamadya tempat mahasiswa
bersangkutan dilahirkan
Tanggal lahir
Merupakan tanggal mahasiswa
yang bersangkutan dilahirkan
Agama
Merupakan agama yang dianut
mahasiswa yang bersangkutan
Proses masuk
Merupakan jenis jalur masuk ke
perguruan tinggi yang diikuti
mahasiswa bersangkutan. Proses
masuk Universitas Diponegoro
dalam rentang tahun 2000-2003
masih
menggunakan
SPMB
(Seleksi Penerimaan Mahasiswa
Baru) dan PSSB (Penjaringan
Siswa-Siswa Berprestasi).
Atribut
Keterangan
Alamat
mahasiswa
Nama wali
Alamat wali
Pendidikan
Wali
Nama asal
sekolah
Kota asal
sekolah
Tahun lulus
asal sekolah
Status asal
sekolah
Jurusan asal
sekolah
2.
Merupakan alamat mahasiswa asal
yang bersangkutan.
Merupakan nama orang tua atau
wali mahasiswa yang bersangkutan.
Merupakan alamat orang tua atau
walai
mahasiswa
yang
bersangkutan
Merupakan pendidikan orang tua
atau
wali
mahasiswa
yang
bersangkutan
Merupakan asal sekolah menengah
lanjutan dari mahasiswa yang
bersangkutan
Merupakan kota asal sekolah
menengah lanjutan dari mahasiswa
yang bersangkutan
Merupakan tahun lulus dari asal
sekolah
menengah
lanjutan
mahasiswa yang bersangkutan
Merupakan status asal sekolah
menengah lanjutan mahasiswa yang
bersangkutan.
Merupakan jurusan di asal sekolah
menengah lanjutan
Indeks Prestasi
Kumulatif
(IPK)
Lama studi
Nama wali
Alamat wali
Data Kelulusan
Data Kelulusan adalah data mahasiswa yang
telah dinyatakan lulus. Data yang dicatat
adalah identitas mahasiswa dan data
kelengkapan kelulusan. Data yang dicatat
dapat dilihat pada tabel 2.
Tabel 2. Atribut data kelulusan
Atribut
Keterangan
NIM
Nomor Induk Mahasiswa
(NIM) adalah kode yang
dimiliki
mahasiswa
sebagai
nomer
unik
identitas
diperguruan
tinggi. Terdiri dari 9 digit
yang
merepresentasikan
fakultas, jurusan, dan
angkatan masuk.
Nama
Merupakan nama lengkap
Mahasiswa
mahasiswa
yang
bersangkutan
Atribut
Keterangan
Tempat,
Merupakan kota kabupaten
Tanggal lahir
atau kotamadya tempat dan
tanggal mahasiswa yang
bersangkutan dilahirkan
Program Studi Program
studi
dari
mahasiswa
yang
bersangkutan
Tanggal lulus
Merupakan tanggal dimana
mahasiswa
yang
bersangkutan dinyatakan
lulus
Judul skripsi
Periode
wisuda
Indeks Prestasi Kumulatif
(IPK)
adalah
ukuran
kemampuan
mahasiswa
sampai pada waktu tertentu
yang
dapat
dihitung
berdasarkan jumlah (satuan
kredit semester) SKS mata
kuliah
yang
diambil
sampai
pada
periode
tertentu dikalikan dengan
nilai bobot masing-masing
mata kuliah dibagi dengan
jumlah seluruh SKS mata
kuliah
(Peraturan
Akademik, 2009).
Merupakan lama tempuh
studi dihitung dimulai saat
terdaftar
sebagai
mahasiswa
sampai
dinyatakan lulus.
Merupakan nama orang tua
atau wali mahasiswa yang
bersangkutan.
Merupakan alamat orang
tua atau walai mahasiswa
yang bersangkutan
Merupakan judul skripsi
dari
mahasiswa
yang
bersangkutan
Merupakan periode wisuda
yang
diikuti
oleh
mahasiswa
yang
bersangkutan.
Di
universitas
diponegoro
terdapat 4 periode wisuda.
Data induk mahasiswa yang diambil dalam
sampel adalah data mahasiswa angkatan 2000, 2002
dan 2003. Hal ini didasarkan pada kebutuhan data
dimana data akan di hubungkan dengan data
kelulusan dengan asumsi bahwa mahasiswa
angaktan 2000 -2003 akan lulus dari rentang waktu
tahun 2004-2008. Sedangkan data kelulusan yang
diambil adalah data kelulusan dari tahun 2004
sampai 2008.
6.
Integrasi Data
Di asumsikan bahwa data yang diambil sudah
berupa tabel-tabel dalam satu server, untuk proses
mining, data kelulusan dan data induk mahasiswa
digabungkan dengan primary key NIM. Setelah itu
baru dilakukan proses mining. Proses integrasi data
dilakukan ketika proses ETL (ekstract, transform,
and Load) ketika membangun data warehouse,
dalam proses ETL data dalam data source
digabungkan menjadi satu dalam data warehouse
dengan key NIM.
159
7.
Transformasi Data
Tabel 4. Data Awal
Kategori
Proses
kelulusan
masuk
J2A003002 A1
PSSB
J2A003003 A2
SPMB
J2A003004 A1
PSSB
J2A003005 A3
SPMB
J2A003006 B2
SPMB
NIM
Kategori
Proses
kelulusan
masuk
J2A003007 A3
SPMB
J2A003008 A3
SPMB
J2A003009 A2
PSSB
J2A003011 A2
PSSB
J2A003012 A2
PSSB
J2A003013 B2
SPMB
NIM
Transformasi
data
merupakan
proses
pengubahan atau penggabungan data ke dalam
format yang sesuai untuk diproses dalam data
mining. Seringkali data yang akan digunakan dalam
proses data mining mempunyai format yang belum
langsung bisa digunakan, oleh karena itu perlu
dirubah formatnya.
Berdasarkan Peraturan Akademik Universitas
Diponegoro [1], data kelulusan berdasarkan IPK
dapat dikategorikan menjadi tiga yaitu :
1. IPK memuaskan dengan IPK 2,00 – 2,75
2. IPK sangat memuaskan dengan IPK 2,76 –
3,50
3. IPK tipe dengan pujian dengan IPK 3,51 –
4,00
Pengkategorian data kelulusan berdasarkan lama
studi yaitu :
1. Sesuai jadwal, bila lama studi 4 tahun atau
kurang dari 4 tahun
2. Tidak sesuai jadwal, bila lama studi lebih dari
4 tahun
Dari dua pengkategorian tersebut dapat dibuat
kategori berdasarkan kombinasi keduanya, seperti
yang dapat dilihat pada tabel 3.
Kategori
A1
A2
A3
B1
B2
B3
Tabel 3. Transformasi data
Keterangan
lama studi 4 tahun atau kurang
dari 4 tahun dan IPK 3,51 –
4,00
lama studi 4 tahun atau kurang
dari 4 tahun dan IPK 2,76 –
3,50
lama studi 4 tahun atau kurang
dari 4 tahun dan IPK 2,00 –
2,75
lama studi lebih dari 4 tahun
dan IPK 3,51 – 4,00
lama studi lebih dari 4 tahun
dan IPK 2,76 – 3,50
lama studi lebih dari 4 tahun
dan IPK 2,00 – 2,75
Dari kombinasi yang terdapat di tabel 3
terdapat enam tingkatan untuk mengukur tingkat
kelulusan mahasiswa.
8.
Tabel 5. Kandidat Pertama (C1)
Item set
Count
A1
2
A2
4
A3
3
B2
2
PSSB
5
SPMB
6
Disini ditetapkan threshold = 3, maka kandidat
yang nilainya dibawah 3 akan dihapus. Sehingga,
didapat hasil seperti pada tabel 6 :
Tabel 6. hasil setelah threshold ditetapkan (L1)
Itemset
Count
A2
4
A3
3
PSSB
5
SPMB
6
Dari table 6 didapat kandidat kedua (C2)
seperti pada tabel 7.
Tabel 7. Kandidat kedua (C2)
Itemset
Count
A2, PSSB
3
A2, SPMB
1
A3, PSSB
0
A3, SPMB
3
Penggunaan Algoritma Apriori
Proses mining untuk mengetahui hubungan
tingkat kelulusan dengan proses masuk. Misal data
seperti pada tabel 4.
160
Dari data awal tersebut didapat kandidat
pertama (C1) seperti pada tabel 5.
:
Setelah ditetapkan threshold menghasilkan
data seperti pada tabel 8.
Tabel 8. Hasil kedua (L2)
Itemse
Count
A2, PSSB
3
A3, SPMB
3
Dari data-data diatas dapat diambil hasil
sebagai berikut :
Support A2, PSSB = A2,PSSB/Total data
= 3/11
Support A3, SPMB
= A3, SPMB
/Total data
= 3/11
Confidence A2, PSSB = A2,PSSB/A2
= 3/4
Confidence A3, SPMB = A3,SPMB/A3
= 3/3
Dapat lihat bahwa proses mining hubungan tingkat
kelulusan dengan proses masuk mahasiswa dengan
threshold 3 menghasilkan hubungan A2, PSSB
mempunyai nilai support = 3/11 Confidence = 3/5
dan hubungan A3, SPMB mempunyai nilai support
= 3/11 Confidence = 3/5 mempunyai PSSB
mempunyai tingkat kelulusan A2 dan SPMB
mempunya tingkat kelulusan A3 sehingga dapat
disimpulkan bahwa mahasiswa yang melalui proses
masuk PSSB mempunya tingkat kelulusan lebih
bagus dibanding mahasiswa yang melalui proses
masuk SPMB.
Setelah proses mining akan disajikan hasil
dari datamining berupa tabel hubungan kekuatan
dengan nilai support dan confidence masing-masing
atribut serta threshold yang digunakan.
Spesifikasi Kebutuhan Fungsional
Spesifikasi kebutuhan fungsional pada
aplikasi data miningini merujuk pada kebutuhan
akan perancangan data mining, seperti yang tertera
berikut ini :
1. Dapat menggabungkan data yang akan
diproses mining dari data kelulusan dan data
induk mahasiswa
2. Dapat menghapus data-data yang tidak
relevan serta atribut yang tidak dipakai
3. Dapat merubah data menjadi data yang siap
diproses
4. Dapat memproses data untuk dimining yaitu
hubungan tingkat kelulusan dengan proses
masuk
5. Dapat menampilkan hasil proses mining
dengan nilai support dan confidence
Gambar 3.7 merupakan DCD / DFD level-0
pada aplikasi data mining yang terdiri dari 2 input
dan 1 output. Externalentity berupa pengguna atau
user dan dua database yaitu database Kelulusan
dan database Induk Mahasiswa.
database kelulusan
user
database induk
mahasiswa
[data Kelulusan]
[report mining proses masuk]
1.3
[data induk mahasiswa]
[report mining asal sekolah]
mining proses
masuk
[report mining asal kota]
1.1
[report mining program studi]
1.4
import data
mining asal
sekolah
1.5
mining asal
kota
data kelulusan dan proses masuk
data kelulusan dan asal sekolah
1.6
mining
program
studi
data kelulusan dan data induk
data kelulusan dan asal kota
data kelulusan dan program studi
1.2
Cleaning Selection
Integration
Transformation
data gabungan
data warehouse
9.
10. Pemodelan Fungsi
Pemodelan fungsi digambarkan dengan
DCD (Data Context Diagram), DFD (Data Flow
Diagram) dan kamus data (Data Dictionary).
database kelulusan
report mining asal sekolah
report mining proses masuk
user
report mining program studi
report mining asal kota
1
data Kelulusan
Aplikasi
Datamining
+
data induk mahasiswa
database induk
mahasiswa
Gambar 3 DFD Level-0
Gambar 4. DFD Level-1
Proses-proses yang terdapat pada aplikasi
data mining:
1. Import Data
Proses import data adalah proses load data
dari database kelulusan dan database induk
mahasiswa ke data warehouse. Semua data
akan dimasukkan tanpa ada penyaringan.
2. Cleaning,
Integrasi,
Selection,
dan
transformasi
a) Dalam tahap ini semua data yang akan
di gunakan baik data kelulusan, data
induk mahasiswa maupun data nilai
semester dibersihkan dari record data
yang tidak mempunyai atribut lengkap.
Selain pembersihan record data yang
tidak valid, juga dilakukan penghapusan
atribut yang tidak dipakai, misalnya
atribut gaji orang tua, nama orang tua
dan lain-lain. Pembersihan data juga
akan mempengaruhi performasi dari
sistem data mining karena data yang
ditangani akan berkurang jumlah dan
kompleksitasnya.
b) Data induk mahasiswa, data nilai dan
data kelulusan tidak disimpan dalam
satu database, Integrasi data dilakukan
pada
atribut-aribut
yang
mengidentifikasikan
entitas-entitas
dengan satu atribut unik yaitu NIM
161
c)
3.
4.
5.
6.
Selection data adalah proses menyeleksi
atribut apa yang akan diproses pada
mining selanjutnya.
d) Transformasi data merupakan proses
mengubah data atau digabung ke dalam
format yang sesuai untuk diproses
dalam data mining. Data yang dirubah
yaitu lama studi dan IPK untuk
mengukur tingkat kelulusan. Atribut
lama studi dan IPK dibagi menjadi
beberapa interval.
Proses mining proses masuk merupakan
proses mining untuk mengetahui hubungan
tingkat kelulusan dengan proses masuk
mahasiswa.
Proses mining asal sekolah merupakan proses
mining untuk mengetahui hubungan tingkat
kelulusan dengan asal sekolah yang melalui
jalur PSSB
Proses mining asal kota merupakan proses
mining untuk mengetahui hubungan tingkat
kelulusan dengan asal kota mahasiswa, disini
digunakan data kota asal sekolah dengan
asumsi kota asal sekolah merupakan kota asal
mahasiswa
Proses mining program studi merupakan
proses mining untuk mengetahui hubungan
tingkat kelulusan dengan program studi.
11. Implementasi Data
Implementasi rancangan data merupakan
transformasi rancangan data yang dihasilkan dari
proses
perancangan
data
menjadi
suatudatabase.Databasedisini merupakan suatu
data warehouse dengan nama “dataMining”yang
dibangun untuk menyimpan data kelulusan
mahasiswa dan data induk mahasiswa yang
disatukan dengan key NIM dan disimpan dalam
tabel data gabungan.
Penjelasan tabel data gabungan beserta
field–field di dalamnya dapat dilihat pada tabel 9.
Tabel 9. Struktur tabel data gabungan
Nama Field
NIM
jenisKelamin
namaMahasisw
a
tempatLahir
tanggalLahir
agama
prosesMasuk
alamatMahasis
wa
namaWali
pendidikanWal
i
namaSekolah
KotaSekolah
tahunLulus
statusSekolah
Type
nvarcha
r
nvarcha
r
nvarcha
r
nvarcha
r
date
nvarcha
r
nvarcha
r
nvarcha
r
nvarcha
r
nvarcha
r
nvarcha
r
nvarcha
r
year
tanggalLulus
nvarcha
r
nvarcha
r
nvarcha
r
Date
IPK
lamaStudiThn
lamaStudiBln
judulSkripsi
periodeWisuda
Float
Integer
Integer
Text
integer
jurusanSekolah
programStudi
Panjan
g Field
10
Ket
Not
Null
10
50
25
15
15
100
50
15
50
30
15
15
20
12. Analisa Hasil
Hasil dari proses mining dapat dilihat dari
form yang dihasilkan oleh aplikasi, berupa tabel
item set dengan atribut item set, cacah jumlah item
set atau count, support, dan confidence dari item set
tersebut. Selain itu terdapat nilai masing-masing
kategori yang mempunyai nilai confidence tertinggi
dan support tertinggi.
Dari gambar 5 dapat lihat bahwa proses
mining hubungan tingkat kelulusan dengan proses
162
masuk mahasiswa jurusan matematika Universitas
Diponegoro dengan threshold 0 menghasilkan
hubungan A1, PSSB mempunyai nilai support =
0.8547 Confidence = 50% dan hubungan A1,
UMPTN mempunyai nilai support = 0.8547
Confidence = 50% . sehingga dapat disimpulkan
bahwa mahasiswa yang melalui proses masuk PSSB
mempunya tingkat kelulusan sama dibanding
mahasiswa yang melalui proses masuk SPMB.
Gambar 5. Analisa Hasil
13. Kesimpulan
Kesimpulan adalah aplikasi data mining ini
dapat digunakan untuk mengetahui hubungan
tingkat kelulusan dengan data induk mahasiswa.
Hubungan tersebut di ukur oleh nilai support dan
confidence antar item. Data induk mahasiswa yang
di proses mining meliputi proses masuk, asal
sekolah, kota mahasiswa, dan program studi.
Hasil dari proses data mining ini dapat
digunakan sebagai pertimbangan dalam mengambil
keputusan lebih lanjut tentang faktor yang
mempengaruhi tingkat kelulusan khususnya faktor
dalam data induk mahasiswa.
Daftar Pustaka
[1]
Anonim, 2009 “Peraturan Akademik
Universitas Diponegoro Bidang Pendidikan”,
Semarang.
[2]
Davies, and Paul Beynon, 2004,
“Database Systems Third Edition”, New York.
Palgrave Macmillan.
[3]
Han, J. and Kamber, M, 2006, “Data
Mining Concepts and Techniques Second
Edition”.
San
Francisco,
Morgan
Kauffman.
[4]
Kusrini, dan Emha Taufik Luthfi, 2009,
“Algoritma Data Mining”, Yogyakarta , Penerbit
Andi.
[5]
Pramudiono, I. 2007. Pengantar Data
Mining: Menambang Permata Pengetahuan di
Gunung
[6]
Santosa, Budi, 2007, “DataMiningTeknik
Pemanfaatan Data untuk Keperluan
Bisnis”, Yogyakarta, Graha Ilmu.
163