Download Data Mining

Survey
yes no Was this document useful for you?
   Thank you for your participation!

* Your assessment is very important for improving the work of artificial intelligence, which forms the content of this project

Document related concepts
no text concepts found
Transcript
RESEA RC H G RO U P
InformationManagement
Data Mining
Arrianto Mukti Wibowo, 2003
Sumber penulisan:
Turban & Aronson, “Decision Support Systems and Intelligent Systems”, chap.
4
Robert Groth, “Data Mining: Building Competitive Advantage”, chap 2
Computer Science Centre
University of Indonesia
RESEA RC H G RO U P
InformationManagement
Alasan
• Dulu analisa data dilakukan dengan
cara memasukkannya ke dalam model.
• Hubungan antar variabel jelas!
• Tapi ada kasus, kita tidak tahu
hubungan antar variabel…
RESEA RC H G RO U P
InformationManagement
Data Mining
• Term used to describe knowledge
discovery in databases.
• Includes:
– Knowledge extraction
– Data pattern processing, etc.
• Automatic discovery even by nonprogrammers
RESEA RC H G RO U P
InformationManagement
Karakteristik
• Sumber data terkubur dalam data
historis yang besar.
• Usernya kebanyakan adalah end-user.
• Karena ukuran data historis yang besar,
sering menggunakan paralel
processing.
• Sering menghasilkan “unexpected
result”, hasil yang tak disangkasangka…
RESEA RC H G RO U P
InformationManagement
Beberapa Aplikasi
• Analisa kebangkrutan:
– Menggunakan neural net untuk menganalisa
performa keuangan perusahaan, dan memprediksi
kebangkrutannya
• Help-desk application:
– Menggunakan case based reasoning (seperti
expert system), untuk menemukan kasus serupa
yang pernah terpecahkan masalahnya dari sekitar
50.000 kasus sebelumnya.
RESEA RC H G RO U P
InformationManagement
Common types of information
from data mining
•
•
•
•
•
Classification
Clustering
Association
Sequencing
Forecasting
RESEA RC H G RO U P
InformationManagement
Classification
• Infers the defining characteristics of a
certain groups
• Example: customers who have been
lost to competition
• Istilah penting:
– Study: ruang lingkup data mining
– Goal: pertanyaan tanpa harus ada korelasi
antar variabel
RESEA RC H G RO U P
InformationManagement
• Contoh goal di sebuah perusahaan telco:
“I want to understand what makes customers likely to keep
being my customers or leave”
• Dataset yang tersedia dibeberkan sampai ke tingkat
customer, dengan atribut
–
–
–
–
–
–
–
Customer ID
Cust_Type: loyal, lost (dependant variable)
Time_used: penggunaan telepon per bulan average
Survey_result: hasil feedback form
Type_service: jenis layanan yang dipakai
Area: lokasi customer
Trend penggunaan telepon
RESEA RC H G RO U P
InformationManagement
Clustering
• Unsupervised learning: we do not tell the
computer anything about the variables
• Process of dividing a set of data into
distinctive groups.
• Sangat berguna untuk memahami
karakeristik pelanggan
• Clusters are generated automatically
• Kita bisa menentukan signifikansi dari setiap
cluster
RESEA RC H G RO U P
InformationManagement
Example: Clustering of Car
Sales
Cluster 1
Income: High
Children: 1
Car: Luxury
Cluster 3
Income: Medium
Children: 3
Car: MPV
Cluster 2
Income: Low
Children: 0
Car: Compact
Cluster 4
Income: Medium
Children: 2
Car: Sedan
RESEA RC H G RO U P
InformationManagement
Example: Price vs ProductLine
High Price
Lotus
McDonalds
KFC
Ichiban
Limited menu
variety
More menu
variety
Mie Ayam
TaKor
FISIP UI
Low Price
Warteg
RESEA RC H G RO U P
InformationManagement
Association (Market Basket)
• Terutama dipakai untuk menentukan, “Kalau
customer membeli produk A, maka
kemungkinan produk B terbeli juga adalah
…%”
• Contoh:
– Cereal dengan susu
– DVD player dengan piringan film DVD
• Tapi asosiasi juga bisa untuk menganalisa hal
lain seperti:
– Hubungan antara demografi dengan produk terjual
RESEA RC H G RO U P
InformationManagement
Assortment Optimization
• Proses menentukan produk-produk apa yang
akan kita jual
• Semakin beraneka, harusnya semakin
menguntungkan
• Tapi semakin beraneka, akan ada yang saling
mensubtitusi  keuntungan berkurang
• Padahal semakin beraneka produk yang
dijual, carrying cost dan COGS makin besar.
RESEA RC H G RO U P
InformationManagement
Sales volume & cost
vs. product variety
Sales
Dollars
Gross Margin
Variety of products
Cost
RESEA RC H G RO U P
InformationManagement
• Padahal kita harus menentukan produk mana
yang akan kita
– Tambahkan
– Hilangkan
Dari etalase kita
• Masing-masing memiliki dampak pada sales
dan biaya
• Harus dicari titik yang paling menguntungkan!
RESEA RC H G RO U P
InformationManagement
Sequencing
• Mirip dengan asosiasi, tetapi berkaitan
dengan waktu
• Misalnya:
– Kunjungan berulang ke sebuah
gerai/toko/supermarket dalam waktu yang
berbeda
RESEA RC H G RO U P
InformationManagement
Text Mining
• Serupa dengan “text retrieval”
RESEA RC H G RO U P
InformationManagement
Tips dalam Data Mining
• Anda harus memahami domain
masalah
• Sangat dianjurkan untuk memahami
statistik
• Tidak mungkin membuat implementasi
dan mengoperasikan data mining
dengan benar, tanpa memahami
domain masalah.
• Mengapa?