Survey
* Your assessment is very important for improving the work of artificial intelligence, which forms the content of this project
* Your assessment is very important for improving the work of artificial intelligence, which forms the content of this project
RESEA RC H G RO U P InformationManagement Data Mining Arrianto Mukti Wibowo, 2003 Sumber penulisan: Turban & Aronson, “Decision Support Systems and Intelligent Systems”, chap. 4 Robert Groth, “Data Mining: Building Competitive Advantage”, chap 2 Computer Science Centre University of Indonesia RESEA RC H G RO U P InformationManagement Alasan • Dulu analisa data dilakukan dengan cara memasukkannya ke dalam model. • Hubungan antar variabel jelas! • Tapi ada kasus, kita tidak tahu hubungan antar variabel… RESEA RC H G RO U P InformationManagement Data Mining • Term used to describe knowledge discovery in databases. • Includes: – Knowledge extraction – Data pattern processing, etc. • Automatic discovery even by nonprogrammers RESEA RC H G RO U P InformationManagement Karakteristik • Sumber data terkubur dalam data historis yang besar. • Usernya kebanyakan adalah end-user. • Karena ukuran data historis yang besar, sering menggunakan paralel processing. • Sering menghasilkan “unexpected result”, hasil yang tak disangkasangka… RESEA RC H G RO U P InformationManagement Beberapa Aplikasi • Analisa kebangkrutan: – Menggunakan neural net untuk menganalisa performa keuangan perusahaan, dan memprediksi kebangkrutannya • Help-desk application: – Menggunakan case based reasoning (seperti expert system), untuk menemukan kasus serupa yang pernah terpecahkan masalahnya dari sekitar 50.000 kasus sebelumnya. RESEA RC H G RO U P InformationManagement Common types of information from data mining • • • • • Classification Clustering Association Sequencing Forecasting RESEA RC H G RO U P InformationManagement Classification • Infers the defining characteristics of a certain groups • Example: customers who have been lost to competition • Istilah penting: – Study: ruang lingkup data mining – Goal: pertanyaan tanpa harus ada korelasi antar variabel RESEA RC H G RO U P InformationManagement • Contoh goal di sebuah perusahaan telco: “I want to understand what makes customers likely to keep being my customers or leave” • Dataset yang tersedia dibeberkan sampai ke tingkat customer, dengan atribut – – – – – – – Customer ID Cust_Type: loyal, lost (dependant variable) Time_used: penggunaan telepon per bulan average Survey_result: hasil feedback form Type_service: jenis layanan yang dipakai Area: lokasi customer Trend penggunaan telepon RESEA RC H G RO U P InformationManagement Clustering • Unsupervised learning: we do not tell the computer anything about the variables • Process of dividing a set of data into distinctive groups. • Sangat berguna untuk memahami karakeristik pelanggan • Clusters are generated automatically • Kita bisa menentukan signifikansi dari setiap cluster RESEA RC H G RO U P InformationManagement Example: Clustering of Car Sales Cluster 1 Income: High Children: 1 Car: Luxury Cluster 3 Income: Medium Children: 3 Car: MPV Cluster 2 Income: Low Children: 0 Car: Compact Cluster 4 Income: Medium Children: 2 Car: Sedan RESEA RC H G RO U P InformationManagement Example: Price vs ProductLine High Price Lotus McDonalds KFC Ichiban Limited menu variety More menu variety Mie Ayam TaKor FISIP UI Low Price Warteg RESEA RC H G RO U P InformationManagement Association (Market Basket) • Terutama dipakai untuk menentukan, “Kalau customer membeli produk A, maka kemungkinan produk B terbeli juga adalah …%” • Contoh: – Cereal dengan susu – DVD player dengan piringan film DVD • Tapi asosiasi juga bisa untuk menganalisa hal lain seperti: – Hubungan antara demografi dengan produk terjual RESEA RC H G RO U P InformationManagement Assortment Optimization • Proses menentukan produk-produk apa yang akan kita jual • Semakin beraneka, harusnya semakin menguntungkan • Tapi semakin beraneka, akan ada yang saling mensubtitusi keuntungan berkurang • Padahal semakin beraneka produk yang dijual, carrying cost dan COGS makin besar. RESEA RC H G RO U P InformationManagement Sales volume & cost vs. product variety Sales Dollars Gross Margin Variety of products Cost RESEA RC H G RO U P InformationManagement • Padahal kita harus menentukan produk mana yang akan kita – Tambahkan – Hilangkan Dari etalase kita • Masing-masing memiliki dampak pada sales dan biaya • Harus dicari titik yang paling menguntungkan! RESEA RC H G RO U P InformationManagement Sequencing • Mirip dengan asosiasi, tetapi berkaitan dengan waktu • Misalnya: – Kunjungan berulang ke sebuah gerai/toko/supermarket dalam waktu yang berbeda RESEA RC H G RO U P InformationManagement Text Mining • Serupa dengan “text retrieval” RESEA RC H G RO U P InformationManagement Tips dalam Data Mining • Anda harus memahami domain masalah • Sangat dianjurkan untuk memahami statistik • Tidak mungkin membuat implementasi dan mengoperasikan data mining dengan benar, tanpa memahami domain masalah. • Mengapa?