Download Association rule mining

Survey
yes no Was this document useful for you?
   Thank you for your participation!

* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project

Document related concepts
no text concepts found
Transcript
Association Rules
Association rule mining




Oleh Agrawal et al in 1993.
Banyak dipelajari oleh komunitas peneliti data
mining.
Mengasumsikan seluruh data categorical.
Market Basket Analysis untuk menemukan
keterkaitan antara item-item yang dibeli oleh
customer
Bread  Milk
CS583, Bing Liu, UIC
[sup = 5%, conf = 100%]
2
The model: data



I = {i1, i2, …, im}: sekumpulan items.
Transaction t :
 t sekumpulan item dan t  I.
Transaction Database T: sekumpulan
transaksi T = {t1, t2, …, tn}.
CS583, Bing Liu, UIC
3
Transaksi data : data supermarket

Transaksi keranjang pasar (Market basket
transactions):
t1: {bread, cheese, milk}
t2: {apple, eggs, salt, yogurt}
…
…
tn: {biscuit, eggs, milk}

Konsep:




An item: item dalam keranjang
I: sekumpulan dari seluruh item yang dijual di toko
transaction: item yang dibeli
transactional dataset: sekumpulan transaksi
CS583, Bing Liu, UIC
4
Transaction data: a set of documents

Dokumen text. Masing masing dokumen
menyatakan keranjang dari kosa kata
doc1:
doc2:
doc3:
doc4:
doc5:
doc6:
doc7:
CS583, Bing Liu, UIC
Student, Teach, School
Student, School
Teach, School, City, Game
Baseball, Basketball
Basketball, Player, Spectator
Baseball, Coach, Game, Team
Basketball, Team, City, Game
5
The model: rules



Transaksi t berisi X, sekumpulan item-item
(itemset) dalam I, jika X  t.
Association rule adalah implikasi dari bentuk
X  Y, dimana X, Y  I, dan X Y = 
Itemset adalah sekumpulan items.


misalkan., X = {milk, bread, cereal} adalah
itemset.
k-itemset adalah itemset dengan k items.

Misal, {milk, bread, cereal} adalah 3-itemset
CS583, Bing Liu, UIC
6
Rule strength measures

Support:


Confidence:


sup = Pr(X  Y).
conf = Pr(Y | X)
Association rule adalah pola kejadian dimana
dari keadaan dimana X terjadi , Y terjadi
dengan probabilitas tertentu
CS583, Bing Liu, UIC
7
Support and Confidence

Support count: Support count dari itemset
X, dinyatakan dengan X.count, dalam data
set T adalah jumlah dari transaksi dalam T
yang berisi X. Diasumsikan T memiliki n
transaksi: Maka,
( X  Y ).count
support 
n
( X  Y ).count
confidence
X .count
CS583, Bing Liu, UIC
8
Tujuan

Tujuan : Mencari aturan –aturan yang
memenuhi ketentuan user minimum support
(minsup) dan minimum confidence (minconf).
CS583, Bing Liu, UIC
9
Contoh


Data transaksi
Asumsi:
t1:
t2:
t3:
t4:
t5:
t6:
t7:
Beef, Chicken, Milk
Beef, Cheese
Cheese, Boots
Beef, Chicken, Cheese
Beef, Chicken, Clothes, Cheese, Milk
Chicken, Clothes, Milk
Chicken, Milk, Clothes
minsup = 30%
minconf = 80%

Contoh frequent itemset:
{Chicken, Clothes, Milk}

[sup = 3/7]
Association rules dari itemset:
Clothes  Milk, Chicken [sup = 3/7, conf = 3/3]
…
…
Clothes, Chicken  Milk, [sup = 3/7, conf = 3/3]
CS583, Bing Liu, UIC
10
Apriori algorithm

Ada dua tahapTwo steps:



Menemukan seluruh itemsets yang memiliki
minimum support (frequent itemsets, juga disebut
large itemsets).
Gunakan frequent itemsets untuk menghasilkan
rule-rule (aturan-aturan).
Misalkan frequent itemset
{Chicken, Clothes, Milk}
[sup = 3/7]
dan salah satu aturan dari frequent itemset
Clothes  Milk, Chicken
CS583, Bing Liu, UIC
[sup = 3/7, conf = 3/3]
11
Step 1: Mining all frequent itemsets


frequent itemset adalah itemset dengan
support-nya ≥ minsup.
Ide utamanya: The apriori property (downward
closure property): subsets dari frequent itemset
juga frequent itemsets
ABC
AB
A
CS583, Bing Liu, UIC
ABD
AC AD
B
ACD
BC BD
C
BCD
CD
D
12
CS583, Bing Liu, UIC
13
CS583, Bing Liu, UIC
14
CS583, Bing Liu, UIC
15
CS583, Bing Liu, UIC
16
L2
Lakukan
prunning
 (I2,I3,I5) Tidak masuk C3 karena karena (i3,I5) tidak masuk L2)
CS583, Bing Liu, UIC
17
L3
CS583, Bing Liu, UIC
18
CS583, Bing Liu, UIC
19
CS583, Bing Liu, UIC
20
CS583, Bing Liu, UIC
21