Download Ch10upload - E-Learning | STMIK AMIKOM Yogyakarta

Survey
yes no Was this document useful for you?
   Thank you for your participation!

* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project

Document related concepts
no text concepts found
Transcript
STMIK AMIKOM Yogyakarta
Chapter 10
ALGORITME
for
ASSOCIATION RULES
Market Basket Analysis
Apriori
Case
Sulidar Fitri, M.Sc
Data Mining
© Sulidar Fitri, Ms.C
STMIK AMIKOM Yogyakarta
REFERENCES
• Budi Santosa. Data Mining: Teknik
Pemanfaatan Data Untuk Keperluan Bisnis.
2007. Graha Ilmu Yogyakarta
• Jiawei Han and Micheline Kamber. Data
Mining: Concepts and Techniques. 2006.
Department of Computer Science University
of Illinois at Urbana-Champaign.
www.cs.uiuc.edu/~hanj
• Ian H. Witten, Eibe Frank, Mark A. Hall. Data
Mining Practical Machine Learning Tools and
Techniques Third Edition.2011. Elsevier
• WEKA
Data Mining
© Sulidar Fitri, Ms.C
STMIK AMIKOM Yogyakarta
INTNRODUCTION
• DATA MINING
– Proses untuk menemukan dataset baru pada
dataset yang sangat besar.
• TOPIK
– ASSOCIATION RULES (ATURAN ASOSIASI)
– FREQUENT ITEMSETS
Data Mining
© Sulidar Fitri, Ms.C
STMIK AMIKOM Yogyakarta
ATURAN ASOSIASI
• Menggunakan algoritme klasik : IF - THEN
Data Mining
© Sulidar Fitri, Ms.C
STMIK AMIKOM Yogyakarta
ATURAN ASOSIASI
• Analisis Afinitas = “apa bersama apa”
• Bisa digunakan untuk menentukan kebiasaan “
suatu produk apa akan dibeli bersama apa”
• Market Basket Analysis
• Contoh:
– Studi transaksi di supermarket
– Jika membeli Susu Bayi makan akan membeli
Sabun Mandi
Data Mining
© Sulidar Fitri, Ms.C
STMIK AMIKOM Yogyakarta
ATURAN ASOSIASI DALAM TRANSAKSI
• Menemukan asosiasi produk dalam database
transaksi suatu supermarket. (database Market
Basket)
• Contoh Kasus:
– Para manajer ingin mengetahui kelompok items apa yang
sering dibeli untuk membuat layout katalog belanja.
• Solusi:
– Gunakan aturan asosiasi dalam hubungan “if-then” atau
“jika-maka”.
– Aturan tersebut dihitung dari data yang sifatnya
probabilistic berdasarkan data market basket
Data Mining
© Sulidar Fitri, Ms.C
STMIK AMIKOM Yogyakarta
KASUS
• Suatu toko yang menjual pakaian olah raga,
sedang melakukan promosi padapenjualan
topi. Jika seorang pelanggan membeli lebih
dari satu macam topi dari 6 pilihan yang ada
akan mendapat diskon.
• Manajer toko tersebut ingin melihat warna
apa yang dibeli bersama oleh pelanggan,
mengumpulkan data dan menyimpan dalam
database.
Data Mining
© Sulidar Fitri, Ms.C
STMIK AMIKOM Yogyakarta
Data items Topi tersebut berupa:
Transaksi
1
2
3
4
5
6
7
8
9
10
Data Mining
merah
putih
putih
merah
merah
putih
putih
merah
merah
kuning
Warna
putih
hijau
orange
biru
putih
orange
biru
biru
orange
putih
biru
putih
biru
• Catatan
transaksi
pembelian
hijau
© Sulidar Fitri, Ms.C
STMIK AMIKOM Yogyakarta
Ide dari Aturan Asosiasi:
• Periksa semua kemungkinan “IF - THEN”
• Pilih yang paling mungkin (most likely) sebagai
indicator dari hubungan ketergantungan antar
item.
• Antecedent =“Jika” dan consequent = “maka”
• Kemungkinan aturan:
– “Jika Merah, maka Putih ”
– {Merah, Putih} = {Biru}
Data Mining
© Sulidar Fitri, Ms.C
STMIK AMIKOM Yogyakarta
Secara praktis,
Hanya kombinasi yang terjadi
dengan frekuensi yang sangat
tinggi yang akan diperhatikan
itu yang disebut:
FREQUENT ITEM SET
Data Mining
© Sulidar Fitri, Ms.C
STMIK AMIKOM Yogyakarta
FREQUENT ITEM SET
• Berhubungan dengan SUPPORT
• SUPPORT: jumlah transaksi yang mengandung
item
• Support digunakan untuk mengukur seberapa
tingkat dukungan data terhadap validitas
aturan yang dikembangkan.
• Dinyatakan dalam prosentase (%)
• Contoh:
– {Merah, Putih} adalah 4/10 atau 40%
Data Mining
© Sulidar Fitri, Ms.C
STMIK AMIKOM Yogyakarta
Mengukur Aturan yang Kuat
Data Mining
© Sulidar Fitri, Ms.C
STMIK AMIKOM Yogyakarta
Contoh Confidence
• Suatu supermarket memiliki 100.000
titik transaksi. Dari jml tersebut ada
1000 transaksi yang mengandung
jeruk dan obat flu. Dari 1000 transaksi
ada 800 yang mengandung mie
instant.
• Aturan asosiasi jika jeruk dan obat flu
dibeli maka mie instant juga dibeli
pada belanja yang bersamaan =>
– Support= 800/100.000
– Confidence = 800/1000
Data Mining
© Sulidar Fitri, Ms.C
STMIK AMIKOM Yogyakarta
• SUPPORT: Peluang transaksi yang dipilih
secara random dari database akan
mengandung semua item dalam antecendent
maupun consequent atau P (antecedent dan
consequent).
Data Mining
© Sulidar Fitri, Ms.C
STMIK AMIKOM Yogyakarta
P (consequent | antecedent)
Data Mining
© Sulidar Fitri, Ms.C
STMIK AMIKOM Yogyakarta
Lift Ratio
Data Mining
© Sulidar Fitri, Ms.C
STMIK AMIKOM Yogyakarta
Susunlah aturan asosiasi dari set
item {merah, putih, hijau} !!
Transaksi
1
2
3
4
5
6
7
8
9
10
Data Mining
merah
putih
putih
merah
merah
putih
putih
merah
merah
kuning
Warna
putih
hijau
orange
biru
putih
orange
biru
biru
orange
putih
biru
putih
biru
hijau
© Sulidar Fitri, Ms.C
STMIK AMIKOM Yogyakarta
Jika kita
Terapkan syarat
minimum
confidence
75%, maka
hanya aturan
2,3, dan 6 yang
akan memenuhi
Data Mining
© Sulidar Fitri, Ms.C
STMIK AMIKOM Yogyakarta
Ada beberapa algoritme yang sudah
dikembangkan mengenai aturan asosiasi,
namun ada satu algoritme klasik yang
sering dipakai yaitu algoritma apriori
(Shmueli et al., 2007)
Data Mining
© Sulidar Fitri, Ms.C
Apriori: A Candidate Generation-and-Test Approach


Apriori pruning principle: If there is any itemset which is
infrequent, its superset should not be generated/tested!
(Agrawal & Srikant @VLDB’94, Mannila, et al. @ KDD’ 94)
Method:




Initially, scan DB once to get frequent 1-itemset
Generate length (k+1) candidate itemsets from length k
frequent itemsets
Test the candidates against DB
Terminate when no frequent or candidate set can be
generated
May 25, 2017
Data Mining: Concepts and Techniques
20
The Apriori Algorithm—An Example
Supmin = 2
Itemset
sup
{A}
2
{B}
3
{C}
3
{D}
1
{E}
3
Database TDB
Tid
Items
10
A, C, D
20
B, C, E
30
A, B, C, E
40
B, E
C1
1st scan
C2
L2
Itemset
{A, C}
{B, C}
{B, E}
{C, E}
sup
2
2
3
2
Itemset
{A, B}
{A, C}
{A, E}
{B, C}
{B, E}
{C, E}
sup
1
2
1
2
3
2
Itemset
sup
{A}
2
{B}
3
{C}
3
{E}
3
L1
C2
2nd scan
Itemset
{A, B}
{A, C}
{A, E}
{B, C}
{B, E}
{C, E}
C3
May 25, 2017
Itemset
{B, C, E}
3rd scan
L3
Itemset
sup
{B, C, E}
2
Data Mining: Concepts and Techniques
21