Download DATA MINING UNTUK APPLICATION SCORING MENGGUNAKAN

Survey
yes no Was this document useful for you?
   Thank you for your participation!

* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project

Document related concepts
no text concepts found
Transcript
DATA MINING UNTUK APPLICATION
SCORING MENGGUNAKAN PEMODELAN
NAÏVE BAYES PADA PT. BANK RAKYAT
INDONESIA (PERSERO) TBK
Robby Aprialdo
Binus University, Jakarta, DKI Jakarta, Indonesia
Michael Reinhard
Binus University, Jakarta, DKI Jakarta, Indonesia
Suci Ramadhani
Binus University, Jakarta, DKI Jakarta, Indonesia
ABSTRAK
Penelitian dilatar belakangi oleh kebutuhan untuk menganalisis calon pemohon yang ingin
membuat kartu kredit. Tujuan dari pembuatan skripsi ini yaitu ingin mengembangkan data mining untuk
pembuatan Application scoring. Metodologi yang digunakan dalam skripsi ini yaitu Metodologi
pengumpulan data dan Metodologi Cross Industry Standart process for data mining (CRISP-DM).
Analisis pembuatan application scoring menggunakan pemodelan Naïve bayes untuk mengklasifikasikan
calon pemohon. Hasil yang dicapai dari penulisan skripsi ini berupa suatu sistem aplikasi data mining
application scoring untuk mentukan klasifikasi terhadap pemohon yang mengajukan kartu kredit ke Bank
Rakyat Indonesia ke dalam katergori approve atau reject. Kesimpulan dengan penggunaan application
scoring dapat membantu memudahkan pekerjaan seorang credit analyst dalam mengevaluasi pemohon
kartu kredit yang tidak berpotensi melakukan kredit macet atau layak untuk disapprove (RAMRSR).
Kata Kunci : Data Mining, Application Scoring, Naïve Bayes
1. PENDAHULUAN
1.1 Latar Belakang
Seiring berjalannya waktu jumlah data semakin banyak (Han & Kamber, 2011,1). Data-data
tersebut sebenarnya dapat bermanfaat untuk menjadi sumber data historis untuk menemukan
suatu pola dan pengetahuan baru yang dapat bermanfaat di masa depan. Dalam pencarian pola
dan pengetahuan baru dari data-data tersebut memerlukan suatu teknologi data mining yang
dapat memecahkan masalah “to much data, less information”. Saat ini data mining mulai
dikembangkan di berbagai sektor bisnis seperti pemasaran dan perbankan (Han & Kamber, 2011,
607).
Bank Rakyat Indonesia bergerak dalam bidang perbankan menyediakan fasilitas kartu kredit
bagi para nasabahnya. Pengajuan kartu kredit bisa diajukan oleh para pemohon dengan
memenuhi syarat-syarat yang ditentukan oleh Bank Rakyat Indonesia. Pemberian kartu kredit
menjadi masalah yang krusial pada tahap evaluasi, karena Bank Rakyat Indonesia masih sulit
menentukan pemohon yang dapat menggunakan fasilitas kartu kredit dan yang tidak beresiko
menyebabkan kredit macet.
Skripsi ini akan mengembangkan data mining untuk pembuatan scoring credit pada tahap
evaluasi (Application Scoring). Application Scoring dapat digunakan sebagai alat penyaringan
untuk memisahkan pemohon yang baik dan yang buruk. Dengan menggunakan data mining
diharapkan membantu proses evaluasi kredit yang dilakukan oleh Bank Rakyat Indonesia.
1.2 Ruang Lingkup
Ruang lingkup yang akan dibahas dalam skripsi diterapkan pada Divisi Manajemen
Resiko di Bank Rakyat Indonesia, yaitu pada tahap penentuan kelayakan pengajuan kartu kredit
oleh pemohon.
1.3 Tujuan dan Manfaat
Tujuan penulisan skripsi adalah:
1. Melakukan preprocessing data agar sesuai dengan kebutuhan format data mining.
2. Pembuatan model untuk Application Scoring Bank Rakyat Indonesia untuk
menentukan pemohon kartu kredit ke dalam kelas application status approve
(pemohon dianggap layak karena dianggap tidak berpotensi melakukan kredit
macet) atau reject (pemohon dianggap tidak layak menerima kartu kredit karena
dianggap dapat berpotensi melakukan kredit macet).
3. Pembuatan user interface dari hasil pemodelan data mining.
Adapun manfaat yang dapat diperoleh skripsi ini adalah:
1. Mendapatkan data yang berkualitas melalui data preprocessing untuk dapat
digunakan dalam pembuatan model data mining.
2. Hasil dari pembuatan pemodelan adalah dapat membantu pekerjaan seorang credit
analyst saat melakukan evaluasi penentuan kelayakan application status pemohon
apakah itu approve (pemohon dianggap layak menerima kartu kredit karena
dianggap tidak berpotensi melakukan kredit macet) atau reject (pemohon dianggap
tidak layak menerima kartu kredit karena dianggap dapat berpotensi melakukan
kredit macet)
3. User dapat lebih mudah untuk berinteraksi terhadap hasil penentuan status serta
pola persebaran data berdasarkan hasil model mining yang telah dibuat melalui
tampilan dari user interface.
2. METODOLOGI
2.1 Proses penulisan skripsi ini menggunakan dua metode yang digunakan untuk mendukung
dalam penulisan skripsi yaitu:
2.1.1
Metode Pengumpulan Data
 Studi Lapangan
Melakukan survei, wawancara, dan observasi dengan mengunjungi
langsung ke Bank Rakyat Indonesia untuk mendapatkan data dan informasi
yang dibutuhkan dalam penulisan skripsi.

2.1.2
Studi Pustaka
Mencari teori-teori yang terkait dalam penulisan skripsi pada bukubuku literatur, tesis, dan jurnal.
Metode Cross Industry Standard Process for Data Mining (CRISP-DM)
Membuat Data Mining dengan siklus CRISP-DM yang meliputi
a. Business Understanding : Menentukan tujuan bisnis,menilai situasi bisnis
saat ini,dan tujuan pembuatan Data Mining.
b. Data Understanding : Mencari dan mengumpulkan data yang digunakan
dengan mempertimbangkan persyaratan data yang dibutuhkan.
c. Data Preparation : Mengolah data agar sesuai dengan kebutuhan Data
Mining.
d. Modeling : Pembuatan analisis awal, pembagian data set pelatihan dan
pengujian, serta pembuatan model Data Mining yang digunakan.
e. Evaluation : Mengecek tingkat akurasi dari hasil pemodelan yang dibuat.
f. Deployment : Membuat aplikasi User Inteface dari hasil Data mining
untuk tampilan kepada user akan hasil model yang dibuat.
3. HASIL DAN BAHASAN
Gambar 3.1 Arsitektur Data Mining
Keterangan alur kerja pembuatan data mining:
a. Business Understanding : Menentukan tujuan bisnis, menilai situasi bisnis saat
ini, dan tujuan pembuatan Data Mining.
b. Data Understanding : Mencari dan mengumpulkan data yang digunakan
dengan mempertimbangkan persyaratan data yang dibutuhkan.
c. Data Preparation : Mengolah data agar sesuai dengan kebutuhan Data Mining.
d. Modeling : Pembuatan analisis awal, pembagian data set pelatihan dan
pengujian, serta pembuatan model Data Mining yang digunakan.
e. Evaluation : Mengecek tingkat akurasi dari hasil pemodelan yang dibuat.
f. Deployment : Membuat aplikasi User Inteface dari hasil Data mining untuk
tampilan kepada user akan hasil model yang dibuat.
4. SIMPULAN DAN SARAN
4.1 Simpulan
Setelah menganalisis sistem dan permasalahan yang terjadi pada Bank Rakyat Indonesia,
maka dapat disimpulkan bahwa :
1. Dengan menggunakan Data Mining dapat mempercepat waktu evaluasi kredit yang
dilakukan oleh credit analyst dalam menentukan application status calon pemohon kartu
kredit, sehingga credit analyst dapat menerima lebih banyak jumlah aplikasi calon pemohon
kartu kredit. Hal ini dapat dibuktikan dengan rata-rata waktu yang dibutuhkan sistem untuk
menampilkan Application Status pemohon adalah kurang dari 1 detik.
2. Dengan menggunakan Data Mining, Bank Rakyat Indonesia dapat membantu menentukan
dengan lebih akurat calon pemohon yang layak diapprove aplikasi kartu kreditnya dengan
bantuan pertimbangan sistem. Tingkat akurasi sistem dari pemodelan yang dihasilkan
termasuk baik yaitu sebesar 73%. Dengan bantuan penilaian dari sistem, diharapkan Credit
Analyst dapat mencegah diapprovenya calon pemohon yang dapat berpotensi melakukan
kredit macet.
4.2 Saran
Dari hasil simpulan yang diperoleh, maka dapat diberikan beberapa saran untuk
pengembangan data mining perusahaan selanjutnya, yaitu :
a. Melakukan pemodelan klasifikasi lainnya seperti decision tree, rule base classification, dan
lain-lain. Dengan mencari klasifikasi dengan model yang lain sehingga dapat melakukan
model selection untuk memilih pemodelan yang paling baik hasil tingkat akurasinya.
b. Melakukan pembagian data histori menjadi data training dan data testing dengan tehnik
random subsampling atau cross validation. Kedua tehnik itu dapat memberikan pembagian
data training dan data testing yang lebih baik dan akurat.
DAFTAR PUSTAKA
Anderson, R. (2007). The Credit Scoring Toolkit. Oxford: New York.
Cruz-Ramírez, N., Acosta-Mesa, H., Carrillo-Calvet, H., Alonso Nava-Fernández, L., & BarrientosMartínez, R.E. (2007). Diagnosis of breast cancer using bayesian networks: A case study.
Computers in Biology and Medicine. 37(11): 1553-1564.
Da Rocha, Timóteo, R. (2010). Identifying Bank Frauds Using CRISP-DM and Decision Tree.
International journal of computer science & information Technology. 2 (5): 162-169.
Han, Jiawei. dkk. (2011). Data Mining Concepts and Techniques. Morgan Kaufman: USA.
Jiang, Yi. Dkk. (2009). Credit Scoring Model Based On Simple Naïve Bayesian Classifier and a Rough
set. Computational Intelligence and Software Engineering. 1 - 4
Keramati, A., Yousefi, N. (2011). A Proposed Classification of Data Mining Techniques in Credit
Scoring. International Conference on Industrial Engineering and Operations Management.
MacLennan, J. dkk. (2009). Data Mining with Microsoft SQL SERVER 2008. Wiley: USA.
Mylonakis, J., George, D. (2010). Evaluating the Likelihood of Using Linear Discriminant Analysisas A
Commercial Bank Card Owners Credit Scoring Model. International Business Research. 3 (2): 920.
Olson, D., D. Dursun. (2008). Advanced Data Mining Techniques. Springer: USA.
Segall, Ricard S. dkk. (2008). Data mining of environmental stress tolerances on plants. Journal Emerald
Group Publishing Limited. 37 (1): 127-148.
Xhemali, D. dkk. (2009). Naïve Bayes vs. Decision Trees vs. Neural Networks in the classification of
training web pages. International Journal of Computer Science Issues. 4 (1):16-23.
DATA MINING FOR APPLICATION SCORING
USING NAÏVE BAYES MODEL IN PT. BANK
RAKYAT INDONESIA (PERSERO) TBK
Robby Aprialdo
Binus University, Jakarta, DKI Jakarta, Indonesia
Michael Reinhard
Binus University, Jakarta, DKI Jakarta, Indonesia
Suci Ramadhani
Binus University, Jakarta, DKI Jakarta, Indonesia
ABSTRACT
Research the background by the need to analyze the prospective applicants who wish to make a credit
card. The objective of this paper is to develop data mining to manufacturing Application scoring. The
methodology used in this thesis and the methodology of data collection methodologies Cross Industry
Standard Process for Data Mining (CRISP-DM). Analysis of manufacturing modeling applications using
Naive Bayes scoring for classifying the prospective applicant. The result of writing this thesis in the form
of an application of data mining application system for mentukan classification scoring against applicants
who submitted credit card to Bank Rakyat Indonesia in the category approve or reject. Conclusion to the
use of application scoring can help ease the work in evaluating an applicant's credit analyst credit card
that is not potentially do bad credit or feasible to Disapprove (RAMRSR).
Keywords: Data Mining, Application Scoring, Naive Bayes
1. INTRODUCTION
1.1 Background
As time went on more and more the amount of data (Han & Kamber, 2011.1). These data
can actually be beneficial to be a source of historical data to discover the patterns and new
knowledge that can be useful in the future. In search of patterns and new knowledge from
such data requires a data mining technology to solve the problem "to much data, less
information". Currently, data mining was developed in various business sectors such as
banking and marketing (Han & Kamber, 2011, 607).
Bank Rakyat Indonesia is engaged in providing banking facilities for its customers credit
cards. Submission of a credit card can be made by the applicant to meet the requirements set
by the Bank Rakyat Indonesia. Giving credit cards to be a crucial issue at this stage of the
evaluation, as Bank Rakyat Indonesia is still difficult to determine which applicants can use
credit card facilities are not at risk and lead to bad credit.
This thesis will develop a data mining for manufacturing credit scoring evaluation phase
(Application Scoring). Application Scoring can be used as a screening tool to separate the
good applicants and the bad. By using data mining is expected to help the credit evaluation
process conducted by the Bank Rakyat Indonesia.
1.2 Scope
The scope will be discussed in this paper apply to the Division of Risk Management at
Bank Rakyat Indonesia, which is at the stage of determining the feasibility of a credit
card application by the applicant
1.3 Purpose and Benefits
The purpose of writing thesis is:
1. Perform preprocessing the data to fit the format of data mining requirements.
2. Scoring Application modeling for Bank Rakyat Indonesia to determine the
applicant's credit card to a class of applications approved status (an applicant because
they are not considered feasible potential for non-performing loans) or reject
(applicants deemed eligible to receive a credit card because they can potentially do the
credit crunch).
3. Making the user interface of the modeling results of data mining.
The potential benefits of this thesis are:
1. Getting data quality through data preprocessing to be used in the manufacture of
data mining models.
2. The results of the modeling is to assist manufacturing jobs as a credit analyst to
evaluate the feasibility of determining whether the application is approved the
applicant's status (an applicant becomes eligible for a credit card because they do not
tend to cause non-performing loans) or reject (applicants deemed eligible to receive a
credit card because they can potential for non-performing loans)
3. Users can more easily interact with the results of the determination of the status and
distribution patterns based on the results of data mining models that have been made
through the display of the user interface.
2. METHODOLOGY
2.1.1 Data Collection Methods
• Field Study
Conduct surveys, interviews, and observations by visiting directly to the Bank Rakyat
Indonesia to get the data and information required in thesis writing.
• Studies Library
Looking theories involved in the writing of literature books, theses, and journals.
2.1.2 Method of Cross Industry Standard Process for Data Mining (CRISP-DM)
Creating a Data Mining with CRISP-DM cycle covering
a. Business Understanding
b. Understanding Data
c. Data Preparation
d. Modeling
e. Evaluation
f. Deployment
3. Results and discussion
Architecture Data Mining
Description of data mining workflow:
a. Business Understanding: Determine business objectives, assess the current business situation,
and goals Data Mining.
b. Understanding Data: Finding and collecting data used by considering the data requirements
needed.
c. Data Preparation: Process the data to fit the needs of Data Mining.
d. Modeling: Making the initial analysis, the distribution of training and testing data sets, as well
as modeling used data mining.
e. Evaluation: to check the accuracy of the modeling results are made.
f. Deployment: Creating User inteface application of the results of data mining to
display to the user that created the model will result.
4. CONCLUSION AND RECOMMENDATIONS
4.1 Conclusion
1. Using Data Mining to accelerate time credit evaluation conducted by a credit analyst in
determining the prospective applicant's application status credit card, so the credit analyst can
receive more number of prospective applicants a credit card application. This can be evidenced
by the average time it takes the system to display the Application Status the applicant is less than
1 second.
2. Using Data Mining, Bank Rakyat Indonesia to help more accurately determine proper
prospective applicants diapprove credit card applications with the help of system considerations.
The accuracy rate of the system modeling produced included both in the amount of 73%. With
the help of the assessment system, is expected to prevent diapprovenya Credit Analyst
prospective applicants who could potentially do bad credit.
4.2 Suggestion
a. Perform other classification models such as decision tree, rule base classification, and others.
By looking for other classification model that can perform a model selection to choose the best
modeling accuracy level results.
b. Data on distribution of the data history into training and data testing with random subsampling
technique or cross validation. Both techniques were able to provide data sharing between
training and testing the data better and accurate.
DAFTAR PUSTAKA
Anderson, R. (2007). The Credit Scoring Toolkit. Oxford: New York.
Cruz-Ramírez, N., Acosta-Mesa, H., Carrillo-Calvet, H., Alonso Nava-Fernández, L., &
Barrientos-Martínez, R.E. (2007). Diagnosis of breast cancer using bayesian networks: A case
study. Computers in Biology and Medicine. 37(11): 1553-1564.
Da Rocha, Timóteo, R. (2010). Identifying Bank Frauds Using CRISP-DM and Decision Tree.
International journal of computer science & information Technology. 2 (5): 162-169.
Han, Jiawei. dkk. (2011). Data Mining Concepts and Techniques. Morgan Kaufman: USA.
Jiang, Yi. Dkk. (2009). Credit Scoring Model Based On Simple Naïve Bayesian Classifier and a
Rough set. Computational Intelligence and Software Engineering. 1 - 4
Keramati, A., Yousefi, N. (2011). A Proposed Classification of Data Mining Techniques in
Credit Scoring. International Conference on Industrial Engineering and Operations
Management.
MacLennan, J. dkk. (2009). Data Mining with Microsoft SQL SERVER 2008. Wiley: USA.
Mylonakis, J., George, D. (2010). Evaluating the Likelihood of Using Linear Discriminant
Analysisas A Commercial Bank Card Owners Credit Scoring Model. International Business
Research. 3 (2): 9-20.
Olson, D., D. Dursun. (2008). Advanced Data Mining Techniques. Springer: USA.
Segall, Ricard S. dkk. (2008). Data mining of environmental stress tolerances on plants. Journal
Emerald Group Publishing Limited. 37 (1): 127-148.
Xhemali, D. dkk. (2009). Naïve Bayes vs. Decision Trees vs. Neural Networks in the
classification of training web pages. International Journal of Computer Science Issues. 4 (1):1623.