Survey
* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project
* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project
STMIK AMIKOM Yogyakarta Chapter 10 ALGORITME for ASSOCIATION RULES Market Basket Analysis Apriori Case Sulidar Fitri, M.Sc Data Mining © Sulidar Fitri, Ms.C STMIK AMIKOM Yogyakarta REFERENCES • Budi Santosa. Data Mining: Teknik Pemanfaatan Data Untuk Keperluan Bisnis. 2007. Graha Ilmu Yogyakarta • Jiawei Han and Micheline Kamber. Data Mining: Concepts and Techniques. 2006. Department of Computer Science University of Illinois at Urbana-Champaign. www.cs.uiuc.edu/~hanj • Ian H. Witten, Eibe Frank, Mark A. Hall. Data Mining Practical Machine Learning Tools and Techniques Third Edition.2011. Elsevier • WEKA Data Mining © Sulidar Fitri, Ms.C STMIK AMIKOM Yogyakarta INTNRODUCTION • DATA MINING – Proses untuk menemukan dataset baru pada dataset yang sangat besar. • TOPIK – ASSOCIATION RULES (ATURAN ASOSIASI) – FREQUENT ITEMSETS Data Mining © Sulidar Fitri, Ms.C STMIK AMIKOM Yogyakarta ATURAN ASOSIASI • Menggunakan algoritme klasik : IF - THEN Data Mining © Sulidar Fitri, Ms.C STMIK AMIKOM Yogyakarta ATURAN ASOSIASI • Analisis Afinitas = “apa bersama apa” • Bisa digunakan untuk menentukan kebiasaan “ suatu produk apa akan dibeli bersama apa” • Market Basket Analysis • Contoh: – Studi transaksi di supermarket – Jika membeli Susu Bayi makan akan membeli Sabun Mandi Data Mining © Sulidar Fitri, Ms.C STMIK AMIKOM Yogyakarta ATURAN ASOSIASI DALAM TRANSAKSI • Menemukan asosiasi produk dalam database transaksi suatu supermarket. (database Market Basket) • Contoh Kasus: – Para manajer ingin mengetahui kelompok items apa yang sering dibeli untuk membuat layout katalog belanja. • Solusi: – Gunakan aturan asosiasi dalam hubungan “if-then” atau “jika-maka”. – Aturan tersebut dihitung dari data yang sifatnya probabilistic berdasarkan data market basket Data Mining © Sulidar Fitri, Ms.C STMIK AMIKOM Yogyakarta KASUS • Suatu toko yang menjual pakaian olah raga, sedang melakukan promosi padapenjualan topi. Jika seorang pelanggan membeli lebih dari satu macam topi dari 6 pilihan yang ada akan mendapat diskon. • Manajer toko tersebut ingin melihat warna apa yang dibeli bersama oleh pelanggan, mengumpulkan data dan menyimpan dalam database. Data Mining © Sulidar Fitri, Ms.C STMIK AMIKOM Yogyakarta Data items Topi tersebut berupa: Transaksi 1 2 3 4 5 6 7 8 9 10 Data Mining merah putih putih merah merah putih putih merah merah kuning Warna putih hijau orange biru putih orange biru biru orange putih biru putih biru • Catatan transaksi pembelian hijau © Sulidar Fitri, Ms.C STMIK AMIKOM Yogyakarta Ide dari Aturan Asosiasi: • Periksa semua kemungkinan “IF - THEN” • Pilih yang paling mungkin (most likely) sebagai indicator dari hubungan ketergantungan antar item. • Antecedent =“Jika” dan consequent = “maka” • Kemungkinan aturan: – “Jika Merah, maka Putih ” – {Merah, Putih} = {Biru} Data Mining © Sulidar Fitri, Ms.C STMIK AMIKOM Yogyakarta Secara praktis, Hanya kombinasi yang terjadi dengan frekuensi yang sangat tinggi yang akan diperhatikan itu yang disebut: FREQUENT ITEM SET Data Mining © Sulidar Fitri, Ms.C STMIK AMIKOM Yogyakarta FREQUENT ITEM SET • Berhubungan dengan SUPPORT • SUPPORT: jumlah transaksi yang mengandung item • Support digunakan untuk mengukur seberapa tingkat dukungan data terhadap validitas aturan yang dikembangkan. • Dinyatakan dalam prosentase (%) • Contoh: – {Merah, Putih} adalah 4/10 atau 40% Data Mining © Sulidar Fitri, Ms.C STMIK AMIKOM Yogyakarta Mengukur Aturan yang Kuat Data Mining © Sulidar Fitri, Ms.C STMIK AMIKOM Yogyakarta Contoh Confidence • Suatu supermarket memiliki 100.000 titik transaksi. Dari jml tersebut ada 1000 transaksi yang mengandung jeruk dan obat flu. Dari 1000 transaksi ada 800 yang mengandung mie instant. • Aturan asosiasi jika jeruk dan obat flu dibeli maka mie instant juga dibeli pada belanja yang bersamaan => – Support= 800/100.000 – Confidence = 800/1000 Data Mining © Sulidar Fitri, Ms.C STMIK AMIKOM Yogyakarta • SUPPORT: Peluang transaksi yang dipilih secara random dari database akan mengandung semua item dalam antecendent maupun consequent atau P (antecedent dan consequent). Data Mining © Sulidar Fitri, Ms.C STMIK AMIKOM Yogyakarta P (consequent | antecedent) Data Mining © Sulidar Fitri, Ms.C STMIK AMIKOM Yogyakarta Lift Ratio Data Mining © Sulidar Fitri, Ms.C STMIK AMIKOM Yogyakarta Susunlah aturan asosiasi dari set item {merah, putih, hijau} !! Transaksi 1 2 3 4 5 6 7 8 9 10 Data Mining merah putih putih merah merah putih putih merah merah kuning Warna putih hijau orange biru putih orange biru biru orange putih biru putih biru hijau © Sulidar Fitri, Ms.C STMIK AMIKOM Yogyakarta Jika kita Terapkan syarat minimum confidence 75%, maka hanya aturan 2,3, dan 6 yang akan memenuhi Data Mining © Sulidar Fitri, Ms.C STMIK AMIKOM Yogyakarta Ada beberapa algoritme yang sudah dikembangkan mengenai aturan asosiasi, namun ada satu algoritme klasik yang sering dipakai yaitu algoritma apriori (Shmueli et al., 2007) Data Mining © Sulidar Fitri, Ms.C Apriori: A Candidate Generation-and-Test Approach Apriori pruning principle: If there is any itemset which is infrequent, its superset should not be generated/tested! (Agrawal & Srikant @VLDB’94, Mannila, et al. @ KDD’ 94) Method: Initially, scan DB once to get frequent 1-itemset Generate length (k+1) candidate itemsets from length k frequent itemsets Test the candidates against DB Terminate when no frequent or candidate set can be generated May 25, 2017 Data Mining: Concepts and Techniques 20 The Apriori Algorithm—An Example Supmin = 2 Itemset sup {A} 2 {B} 3 {C} 3 {D} 1 {E} 3 Database TDB Tid Items 10 A, C, D 20 B, C, E 30 A, B, C, E 40 B, E C1 1st scan C2 L2 Itemset {A, C} {B, C} {B, E} {C, E} sup 2 2 3 2 Itemset {A, B} {A, C} {A, E} {B, C} {B, E} {C, E} sup 1 2 1 2 3 2 Itemset sup {A} 2 {B} 3 {C} 3 {E} 3 L1 C2 2nd scan Itemset {A, B} {A, C} {A, E} {B, C} {B, E} {C, E} C3 May 25, 2017 Itemset {B, C, E} 3rd scan L3 Itemset sup {B, C, E} 2 Data Mining: Concepts and Techniques 21