Survey
* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project
* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project
Association Rules Association rule mining Oleh Agrawal et al in 1993. Banyak dipelajari oleh komunitas peneliti data mining. Mengasumsikan seluruh data categorical. Market Basket Analysis untuk menemukan keterkaitan antara item-item yang dibeli oleh customer Bread Milk CS583, Bing Liu, UIC [sup = 5%, conf = 100%] 2 The model: data I = {i1, i2, …, im}: sekumpulan items. Transaction t : t sekumpulan item dan t I. Transaction Database T: sekumpulan transaksi T = {t1, t2, …, tn}. CS583, Bing Liu, UIC 3 Transaksi data : data supermarket Transaksi keranjang pasar (Market basket transactions): t1: {bread, cheese, milk} t2: {apple, eggs, salt, yogurt} … … tn: {biscuit, eggs, milk} Konsep: An item: item dalam keranjang I: sekumpulan dari seluruh item yang dijual di toko transaction: item yang dibeli transactional dataset: sekumpulan transaksi CS583, Bing Liu, UIC 4 Transaction data: a set of documents Dokumen text. Masing masing dokumen menyatakan keranjang dari kosa kata doc1: doc2: doc3: doc4: doc5: doc6: doc7: CS583, Bing Liu, UIC Student, Teach, School Student, School Teach, School, City, Game Baseball, Basketball Basketball, Player, Spectator Baseball, Coach, Game, Team Basketball, Team, City, Game 5 The model: rules Transaksi t berisi X, sekumpulan item-item (itemset) dalam I, jika X t. Association rule adalah implikasi dari bentuk X Y, dimana X, Y I, dan X Y = Itemset adalah sekumpulan items. misalkan., X = {milk, bread, cereal} adalah itemset. k-itemset adalah itemset dengan k items. Misal, {milk, bread, cereal} adalah 3-itemset CS583, Bing Liu, UIC 6 Rule strength measures Support: Confidence: sup = Pr(X Y). conf = Pr(Y | X) Association rule adalah pola kejadian dimana dari keadaan dimana X terjadi , Y terjadi dengan probabilitas tertentu CS583, Bing Liu, UIC 7 Support and Confidence Support count: Support count dari itemset X, dinyatakan dengan X.count, dalam data set T adalah jumlah dari transaksi dalam T yang berisi X. Diasumsikan T memiliki n transaksi: Maka, ( X Y ).count support n ( X Y ).count confidence X .count CS583, Bing Liu, UIC 8 Tujuan Tujuan : Mencari aturan –aturan yang memenuhi ketentuan user minimum support (minsup) dan minimum confidence (minconf). CS583, Bing Liu, UIC 9 Contoh Data transaksi Asumsi: t1: t2: t3: t4: t5: t6: t7: Beef, Chicken, Milk Beef, Cheese Cheese, Boots Beef, Chicken, Cheese Beef, Chicken, Clothes, Cheese, Milk Chicken, Clothes, Milk Chicken, Milk, Clothes minsup = 30% minconf = 80% Contoh frequent itemset: {Chicken, Clothes, Milk} [sup = 3/7] Association rules dari itemset: Clothes Milk, Chicken [sup = 3/7, conf = 3/3] … … Clothes, Chicken Milk, [sup = 3/7, conf = 3/3] CS583, Bing Liu, UIC 10 Apriori algorithm Ada dua tahapTwo steps: Menemukan seluruh itemsets yang memiliki minimum support (frequent itemsets, juga disebut large itemsets). Gunakan frequent itemsets untuk menghasilkan rule-rule (aturan-aturan). Misalkan frequent itemset {Chicken, Clothes, Milk} [sup = 3/7] dan salah satu aturan dari frequent itemset Clothes Milk, Chicken CS583, Bing Liu, UIC [sup = 3/7, conf = 3/3] 11 Step 1: Mining all frequent itemsets frequent itemset adalah itemset dengan support-nya ≥ minsup. Ide utamanya: The apriori property (downward closure property): subsets dari frequent itemset juga frequent itemsets ABC AB A CS583, Bing Liu, UIC ABD AC AD B ACD BC BD C BCD CD D 12 CS583, Bing Liu, UIC 13 CS583, Bing Liu, UIC 14 CS583, Bing Liu, UIC 15 CS583, Bing Liu, UIC 16 L2 Lakukan prunning (I2,I3,I5) Tidak masuk C3 karena karena (i3,I5) tidak masuk L2) CS583, Bing Liu, UIC 17 L3 CS583, Bing Liu, UIC 18 CS583, Bing Liu, UIC 19 CS583, Bing Liu, UIC 20 CS583, Bing Liu, UIC 21