Survey
* Your assessment is very important for improving the work of artificial intelligence, which forms the content of this project
* Your assessment is very important for improving the work of artificial intelligence, which forms the content of this project
Analysis of existing Clustering algorithms for Data Mining Ewha Woman’s Univ. Computer Science. Database Lab. Kim Baik-sun Data mining overview Data Mining 정의 “Mine” - 채광하다 방대한 양의 데이터 속에서 쉽게 드러나지 않는 유용한 정보들을 찾아내는 일 수학적, 통계적 분석방식 패턴인식, machine learning Database의 접근방식 Historical Data Predictive Model 공간데이터 마이닝 : clustering algorithm! New Applicants Data mining overview Data Mining Methodology Statistics Pattern Recognition Machine Data Mining Learning Databases KDD AI Data mining overview Data Mining Methodology 데이터 형태에 따른 접근 방식 Supervised algorithm 현재 사용할 수 있는 데이터가 여러 가지 입력변수(inputs)과, 주 관심이 되는 결과변수(targets)으로 이루어져 있는 경우 입력과 결과 변수에 관한 과거의 데이터 =>패턴, 관계 발견 =>일반화된 법칙 도출 : 모형화 =>새로운 케이스에 대한 미래 예측 => 효율적인 의사결정 지원 시스템 logistic regression, decision tree, neural networks predicting predicted C1 if D1 then C1 C2 if D2 then C2 C3 Generation of description if D3 then C3 Data mining overview Data Mining Methodology Unsupervised algorithm 여러 종류의 입력 변수들 만으로 이루어져 있는 경우 예/아니오 에 대한 대답이 아닌, 데이터들 간 연관성이나 유사성 자체에 중점을 둠 Association rule, Sequence(순차적 패턴 발견), Clustering D1 Clustering D2 generation of description D3 Data mining overview Data Mining Methodology 마이닝 기법에 따른 분류 데이터 형태 => 서로 다른 마이닝 기법 => 서로 다른 Application Heikki Mannila Rakesh Agrawal Association rules Associations sequence data Classification sampling Clustering Time series Deviation Detection Markov chain Monte Carlo methods Incremental Mining Clustering Sequential Patterns Trees and pattern matching Text and Web Mining Time-Series Clustering Jiawei Han Characterization Classification Clustering Association Trend Analysis Pattern Analysis Path Traversal Pattern Clustering Algorithm 분류 Clustering Techniques Goal : 주어진 데이터 셋 내에서 유사성이 있는 것들끼리 모아 적합한 몇 개의 클러스터로 분할해 가는 과정. 한 서브셋에 속하는 것들끼리는 특별한 유사성을 가지며 다 른 서브셋에 속하는 것들은 서로 다른 차이성을 가지며, 이들간의 관계를 noise 와 함께 정의해 나간다. Research in : statistics, machine learning, databases, visualization… Effective and efficiency clustering algorithms for large high-dimensional data sets with high noise level Scalability Clustering Algorithm 분류 Clustering Techniques Clustering algorithm 분류 Basic Method K-means Linkage-based method Method Improving Effectiveness and Efficiency Model-and Optimization based method Density based method Hybrid approach Clustering Algorithm 분류 K-means[18] algorithm 주어진 N개의 data set중에서 먼저 K개의 클러스터를 결정. 데이터들을 가장 가까운 클러스터에 할당해서 군집 분류. 군집 중심 값 설정 후 군집을 재분류하면서 군집 기준 값 변경 진행방식 160 1 140 2 6 120 4 5 100 3 80 60 0 20 40 60 80 100 Clustering Algorithm 분류 K-means[18] Hig h Income ( X 1 , Y1 ) (Y2 Y1 ) Lo w X 2 X1 Low Brand loyalty Distance ( X 2 , Y2 ) High ( X 2 X 1 ) 2 (Y2 Y1 ) 2 Variation initial seeds를 선택하는 방법(ex. MacQueen’s algorithm)[10] 다음 중심값 계산하는 방법[5] 레코드들간 거리보다 확률밀도를 사용하는 방법[14] Clustering Algorithm 분류 Linkage-based method 알고리즘 각 데이터들이 스스로 클러스터가 되도록 초기 설정 MST(Minimum Spanning Tree) 구성 similarity matrix(모든 pair들의 거리 및 연관성에 관한 정보) 생성 => 하나의 큰 클러스터에 포함될 때까지 반복적 갱신 Bottom Up방식 160 1 => 전체 history정보 포함 140 진행 방식 2 120 4 100 5 3 80 60 0 20 40 60 80 100 Linkage-based method variation[16][18] Single linkage, Nearest neighbor [7] [16] Complete linkage, Farthest neighbor Average linkage, Average neighbor Agglomerative method divisive method Comparison of distance measures Ward’s Method Centroids 비교 Complete linkage Single linkage Centro id Clustering Algorithm 분류 Scaling Up Algorithm[3] Sampling techniques Bounded Optimization Techniques Indexing Techniques BIRCH : CF-Tree [1] DBSCAN : R*-Tree, X-Tree STING : Grid/Quadtree WaveCluster : Grid/Array DENCLUE : B+-Tree, Grid-Array Condensation Techniques Grid-based Techniques Model-and Optimization -Based Approaches Clustering Algorithm 분류 K-means[18] [30.Fuk 90] Expectation Maximization [31.Lau 95] CLARANS[2] [32.NH94] Focussed CLARANS [12] [33.EKX 95] Self-Organizing Maps [17] [34.KMS+ 91. Roj 96] PROCLUS [APW+ 99] Clustering Algorithm 분류 Density-Based Approaches Linkage-based Methods [21.Boc 74] Kernel-Density Estimation [22.sil 86] BIRCH [23. ZRL 96] DBSCAN [24. EKS+96] DBCLASD [25. XEK+98] STING [26. WYM 97] Hierarchical Grid Clustering [27.Sch96] WaveCluster [28.SCZ 98] DENCLUE [29.HK 98] Clustering Algorithm 분류 Hybrid Approaches CLIQUE OptiGrid 기타 CURE(Clustering Using Representatives) [4] 클러스터의 경계에 대해 견고하며, 비 구형 모양의 다양한 크기의 클러 스터 가질 수 있슴 CACTUS(Clustering Categorical Data Using Summaries) [6] ROCK(A Robust Clustering Algorithm for Categorical Attributes) [19] Numerical attribute => categorical attribute Clustering Algorithm 분류 CLARANS Clsutering LARge Applications based upon RANdomized search PAM(Partition Around Medoids) CLARA(Clustering LARge Applications) Sampling에 기초하여 실제 데이터의 적은 부분만 사용하여 medoids 를 선정 큰 데이터 검색 가능 CLARANS 클러스터에서 가장 중앙에 위치한 대표 점 medoids와 다른 객체들 사 이 모든 쌍들을 분석해가면서 반복적으로 최상의 medoids를 선택해 나 감 모든 데이터 검색 : N, K값 커지면 비효율적 고정 sampling 아닌 검색의 각 단계에서 특정한 무작위성 sample을 뽑 아 사용 Focused CLARANS 전처리 단계 이용 Clustering Algorithm 분류 BIRCH Balanced Iterative Reducing and Clustering Hierarchy CFTree 사용 CF(Cluster Feature)를 저장하기 위해 사용되는 균형 트리 전체 모든 점들에 대한 정보 저장하는 대신 sub cluster에 대한 요약 정보를 가짐 새로운 데이터가 삽입될 때 마다 점진적 수정 방법을 사용하여 동적 구축 가능해짐 Clustering Algorithm 분류 DBSCAN 공간데이터 마이닝 밀도에 근거한 클러스터링 알고리즘 클러스터의 밀도를 Eps와 MinPts로 조정 임의의 점과 K번째 가까운 점들 사이의 거리 계산하여 계산된 거리에 따라 점을 정렬 특징 클러스터에서 저밀도 지역을 이루는 잡음 제거에 효율적 R*-tree 이용하여 좋은 효율성 Clustering Tools Software for Clustering commercial: ACPro Autoclass III ClustanGraphics3 COBWEB/3 Cviz Cluster Visualization SOMine public domain: Autoclass C ECOBWEB MCLUST/EMCLUST Snob Clustering Tools ECOBWEB 개발 : Carnegie Mellon Univ. Bridge 시스템 구현의 한 부분 cable-stayed bridge를 디자인하는데 machine learning기술 사 용하는 Bridge 라는 시스템의 한 부분 이전에 개발된 COBWEB개념 형성 학습 프로그램의 확 장 구현 통합 시스템을 위해 지식을 학습하고 사용하게 하는 시 스템 Unsupervised 개념 형성을 통해 classification hierarchy 생성해 내는 시스템 Clustering Tools MCLUST/EMCLUST Software for Model-Based Cluster and Discriminant Analysis Cluster를 위해 Fortran , S-PLUS 의 interface 사용하는 s/w package 제한된 Gaussian hierarchical clustering algorithm과 Gaussian 혼합 모 델을 위한 EM algorithm을 noise와 함께 구현 시킴. Hierarchical clustering, EM, Bayesian Information Criterion(BIC) 을 합 성하여 클러스터링 가능 Practical application 구현 Character recognition Tissue segmentation Minefield and seismic fault detection Identification of textile flow from image Classification of astronomical data Reference [1] T.Zhang, R.Ramakrishnan, M.Livny. BIRCH:An Efficient Data Clustering Method for Very Large Databases. SIGMOD 199 [2]Raymond T. Ng, Jiawei Han. Efficient and Effective Clustering Mothods for Spatial Data Mining. Proceedings of the 20th VBDB Conference Santiago, Chile, 1994. [3]P.S.Bradley, Usama Fayyad, and Cory Reina. Scaling Clustering Algorithms to Large Databases. KDD 98. [4]Sudipto Guha, Rajeev Rastogi, Kyuseok Shim. CURE:An Efficient Clustering Algorthm for Large Databases. SIGMOD 98, Seatle, WA,USA. [5]Usama Fayyad, Cory Reina, and P.S.Bradley. Initialization of Iterative Refinement Clustering Algorithms. KDDM 98. [6]Venkatesh Ganti, Johannes Gehrke, Raghu Ramakrishnan. CACTUS-Clustering Categorical Data Using Summaries. KDD99,San Diego,CA,USA. Reference(cont.) [7] Tapas Kanungo, David M.Mount, Nathan S.Netanyahu, Christine Piatko, Ruth Silverman, Angela Y.Wu, Computing Nearest Neighbors for Moving Points and Applications to Clustering [8] S.J.WAN, S.K.M.WONG, and P.PRUSINKIEWICZ, An Algorithm for Multidimensional Data Clustering. ACM Transactions on Mathematical Software, Vol. 14, NO.2 June 1988, Pages 15316,1988. [9] P.Drineas, Alan Frieze, Ravi Kannan, Santosh Vempala, V.Vinay. Clustering in large graphs and matrices. [10] P.S.Bradley, Usama M.Fayyad. Rifining Initial Points for KMeans Clustering..ICML98. [11] 윤종필,김희숙,최옥주. 데이터 마이닝의 유용성. 정보과학회지 제 16권 제 9호(통권 제 112호) Reference(cont.) [12] 오병우, 이강준, 한기준. 공간데이터 마이닝에 관한 고찰. 정보과 학회지 제 16권 제 9호(통권 제 112호) [13] Alexander Hinneburg, Daniel A.Keim. Clustering Techniques for Large Data Sets. SIGMOD99 [14] http://www.informatik.uni-halle.de/~keim/ [15] David B.Shmoys, Operations Research & Industrial Engineering and Department of Computer Science, Cornell University. Approximation Algorithms for Clustering Problems. ACM COLT99 [16] Boris Mirkin, Ilya Muchnik, Monotone Linkage Clustering and Quasi-Convex Set Functions [17] M.E.J.Newman. Self-organized criticality, evolution, and extinction [18] Michael J.A.Berry, Gordon Linoff. Data Mining Techniques. Wiley computer publishing Reference(cont.) [19] Sudipro Guha, Rajeev Rastogi, Kyuseol Shim. ROCK:A Robust Clustering Algorithm for Categorical Attributes [20] www.sas.com/offices/asiapacific/korea/solution/mining/wp/ [21] [Boc 74] H.H.Bock, Automatic Classification, Vandenfoeck and Ruprecht, 1974 [22] [Sil 86] B.W.Silverman, Density Estimation for statistics and data analysis, Chapman and Hall, 1986 [23] T.Zhang, R.Ramakrishnan and M.Livny, An Efficient Data Clustering Method for Very Large Databases. Proc. ACM SIGMODD Int. Cont. on Management of Data, pp. 103-114, 1996 [24] [EKS+96] M.Ester, H-P.Kriegel, J.Sander, X.Xu, A Density-based Algorithm for discovering Cluster in Large Spatial Databases with Noise, Proc.2nd Int.Conf.on KDD, 1996 [25] [XEK+98] X.Xu, M.Ester, H-P.Kriegel and J.Sander.,A Distribution based Clustering Algorithm for Mining in Large Spatial Databases, Proc. 14th ICDE’98, pp. 324-331 Reference(cont.) [26][WYM97] W.Wang, J.Yang, R.Muntz, STING : A Statistical Information Grid Approach to Spatial Data Mining, Proc.23rd, ICDE [27] [Sch96] E.Schikuta, Grid clustering : An Efficient Hierarchical method for very large data sets, Proc.13th Conf. On Pattern Recognition, Vol.2 IEEE Computer Society Press, pp.101-105, 1996 [28] [SCZ 98] G.Sheikholeslami, S.Chatterjee and A.Zhang, Wave Cluster : A Multi-Resolution Clustering Approach for Very Large Spatial Datanases, Proc.24th Int.Conf.on VLDB, 1998 [29] [HK98] A.Hinneburg, D.A.Keim , The Multi-Grid : The curse of Dimensionality in High-Dimensional Clustering, submitted for publication [30] [Fuk90] K.Fukunaga, Introduction to Statistical Pattern Recognition, San Diego, CA.Academic Press 1990. [31] [Lau 95] S.L.Lauritzen, The EM algorithm for graphical association models with missing data, CSCDA, 19:191-201, 1995 Reference(cont.) [32] [NH94] R.T.Ng, J.Han, Efficient and Effective Clustering Methods for Spatial Data Mining, Proc.20th Int.Conf.on VLDB, pp.144-155, 1994 [33] [EKX95] M.Ester, H-P.Kriegel, X.Xu, Knowledge Discovery in Large Spatial Databases:Focusing Techniques for Efficient Class Identification, Lecture Notes in CS, Spring 1995 [34] [Roj 96] R.Rojas, Neural Networks – A systematic Introduction, Springer Berlin, 1996 clustering tools commercial: http://www.ultimode.com/products/ http://www.kdnuggets.com/software/sift/autoclass.html http://www.clustan.com/ http://www.kdnuggets.com/software/sift /cobweb.html http://www.alphaWorks.ibm.com/Home/ http://www.kdnuggets.com/software/sift/somine.html public domain: http://ic-www.arc.nasa.gov/ic/projects/bayesgroup/group/autoclass/autoclass-c-program.html http://or.eng.tau.ac.il:7777/topics/ecobweb.html http://www.stat.washington.edu/fraley/mclust_home.html http://www.cs.monash.edu.au/~dld/Snob.html