Download Clustering

Survey
yes no Was this document useful for you?
   Thank you for your participation!

* Your assessment is very important for improving the work of artificial intelligence, which forms the content of this project

Document related concepts
no text concepts found
Transcript
Analysis of existing Clustering algorithms
for Data Mining
Ewha Woman’s Univ.
Computer Science. Database Lab.
Kim Baik-sun
Data mining overview
Data Mining 정의

“Mine” - 채광하다




방대한 양의 데이터 속에서 쉽게 드러나지 않는 유용한 정보들을
찾아내는 일
수학적, 통계적 분석방식
패턴인식, machine learning
Database의 접근방식
Historical
Data

Predictive
Model
공간데이터 마이닝 : clustering algorithm!
New
Applicants
Data mining overview
Data Mining Methodology
Statistics
Pattern
Recognition
Machine
Data Mining Learning
Databases
KDD
AI
Data mining overview
Data Mining Methodology


데이터 형태에 따른 접근 방식
Supervised algorithm



현재 사용할 수 있는 데이터가 여러 가지 입력변수(inputs)과,
주 관심이 되는 결과변수(targets)으로 이루어져 있는 경우
입력과 결과 변수에 관한 과거의 데이터
=>패턴, 관계 발견
=>일반화된 법칙 도출 : 모형화
=>새로운 케이스에 대한 미래 예측
=> 효율적인 의사결정 지원 시스템
logistic regression, decision tree, neural networks
predicting
predicted
C1
if D1 then C1
C2
if D2 then C2
C3
Generation
of description if D3 then C3
Data mining overview
Data Mining Methodology

Unsupervised algorithm



여러 종류의 입력 변수들 만으로 이루어져 있는 경우
예/아니오 에 대한 대답이 아닌, 데이터들 간 연관성이나 유사성
자체에 중점을 둠
Association rule, Sequence(순차적 패턴 발견), Clustering
D1
Clustering
D2
generation
of description
D3
Data mining overview
Data Mining Methodology


마이닝 기법에 따른 분류
데이터 형태 => 서로 다른 마이닝 기법 => 서로 다른 Application
Heikki Mannila
Rakesh Agrawal
Association rules
Associations
sequence data
Classification
sampling
Clustering
Time series
Deviation Detection
Markov chain Monte Carlo methods
Incremental Mining
Clustering
Sequential Patterns
Trees and pattern matching
Text and Web Mining
Time-Series Clustering
Jiawei Han
Characterization
Classification
Clustering
Association
Trend Analysis
Pattern Analysis
Path Traversal Pattern
Clustering Algorithm 분류
Clustering Techniques




Goal : 주어진 데이터 셋 내에서 유사성이 있는 것들끼리
모아 적합한 몇 개의 클러스터로 분할해 가는 과정. 한
서브셋에 속하는 것들끼리는 특별한 유사성을 가지며 다
른 서브셋에 속하는 것들은 서로 다른 차이성을 가지며,
이들간의 관계를 noise 와 함께 정의해 나간다.
Research in : statistics, machine learning, databases,
visualization…
Effective and efficiency clustering algorithms
for large high-dimensional data sets
with high noise level
Scalability
Clustering Algorithm 분류
Clustering Techniques
 Clustering algorithm 분류
 Basic Method
 K-means
 Linkage-based method
 Method Improving Effectiveness and Efficiency



Model-and Optimization based method
Density based method
Hybrid approach
Clustering Algorithm 분류
K-means[18]

algorithm




주어진 N개의 data set중에서 먼저 K개의 클러스터를 결정.
데이터들을 가장 가까운 클러스터에 할당해서 군집 분류.
군집 중심 값 설정 후 군집을 재분류하면서 군집 기준 값 변경
진행방식
160
1
140
2
6
120
4
5
100
3
80
60
0
20
40
60
80
100
Clustering Algorithm 분류
K-means[18]
Hig
h
Income
( X 1 , Y1 )
(Y2  Y1 )
Lo
w
X 2  X1
Low
Brand loyalty
Distance 

( X 2 , Y2 )
High
( X 2  X 1 ) 2  (Y2  Y1 ) 2
Variation



initial seeds를 선택하는 방법(ex. MacQueen’s algorithm)[10]
다음 중심값 계산하는 방법[5]
레코드들간 거리보다 확률밀도를 사용하는 방법[14]
Clustering Algorithm 분류
Linkage-based method

알고리즘




각 데이터들이 스스로 클러스터가 되도록 초기 설정
MST(Minimum Spanning Tree) 구성
similarity matrix(모든 pair들의 거리 및 연관성에 관한 정보)
생성 => 하나의 큰 클러스터에 포함될 때까지 반복적 갱신
Bottom Up방식
160
1
=> 전체 history정보 포함
140

진행 방식
2
120
4
100
5
3
80
60
0
20
40
60
80
100
Linkage-based method

variation[16][18]







Single linkage, Nearest neighbor [7] [16]
Complete linkage, Farthest neighbor
Average linkage, Average neighbor
Agglomerative method
divisive method
Comparison of distance measures
Ward’s Method
Centroids 비교
Complete linkage
Single
linkage
Centro
id
Clustering Algorithm 분류
Scaling Up Algorithm[3]



Sampling techniques
Bounded Optimization Techniques
Indexing Techniques







BIRCH : CF-Tree [1]
DBSCAN : R*-Tree, X-Tree
STING : Grid/Quadtree
WaveCluster : Grid/Array
DENCLUE : B+-Tree, Grid-Array
Condensation Techniques
Grid-based Techniques
Model-and Optimization
-Based Approaches






Clustering Algorithm 분류
K-means[18] [30.Fuk 90]
Expectation Maximization [31.Lau 95]
CLARANS[2] [32.NH94]
Focussed CLARANS [12] [33.EKX 95]
Self-Organizing Maps [17] [34.KMS+ 91. Roj 96]
PROCLUS [APW+ 99]
Clustering Algorithm 분류
Density-Based Approaches









Linkage-based Methods [21.Boc 74]
Kernel-Density Estimation [22.sil 86]
BIRCH [23. ZRL 96]
DBSCAN [24. EKS+96]
DBCLASD [25. XEK+98]
STING [26. WYM 97]
Hierarchical Grid Clustering [27.Sch96]
WaveCluster [28.SCZ 98]
DENCLUE [29.HK 98]
Clustering Algorithm 분류
Hybrid Approaches

CLIQUE
OptiGrid

기타




CURE(Clustering Using Representatives) [4]
 클러스터의 경계에 대해 견고하며, 비 구형 모양의 다양한 크기의 클러
스터 가질 수 있슴
CACTUS(Clustering Categorical Data Using Summaries) [6]
ROCK(A Robust Clustering Algorithm for Categorical Attributes) [19]
 Numerical attribute => categorical attribute
Clustering Algorithm 분류
CLARANS


Clsutering LARge Applications based upon RANdomized search
PAM(Partition Around Medoids)



CLARA(Clustering LARge Applications)



Sampling에 기초하여 실제 데이터의 적은 부분만 사용하여 medoids
를 선정
큰 데이터 검색 가능
CLARANS


클러스터에서 가장 중앙에 위치한 대표 점 medoids와 다른 객체들 사
이 모든 쌍들을 분석해가면서 반복적으로 최상의 medoids를 선택해 나
감
모든 데이터 검색 : N, K값 커지면 비효율적
고정 sampling 아닌 검색의 각 단계에서 특정한 무작위성 sample을 뽑
아 사용
Focused CLARANS

전처리 단계 이용
Clustering Algorithm 분류
BIRCH


Balanced Iterative Reducing and Clustering
Hierarchy
CFTree 사용



CF(Cluster Feature)를 저장하기 위해 사용되는 균형 트리
전체 모든 점들에 대한 정보 저장하는 대신 sub cluster에 대한
요약 정보를 가짐
새로운 데이터가 삽입될 때 마다 점진적 수정 방법을 사용하여
동적 구축 가능해짐
Clustering Algorithm 분류
DBSCAN



공간데이터 마이닝
밀도에 근거한 클러스터링 알고리즘
클러스터의 밀도를 Eps와 MinPts로 조정


임의의 점과 K번째 가까운 점들 사이의 거리 계산하여 계산된
거리에 따라 점을 정렬
특징


클러스터에서 저밀도 지역을 이루는 잡음 제거에 효율적
R*-tree 이용하여 좋은 효율성
Clustering Tools
Software for Clustering

commercial:







ACPro
Autoclass III
ClustanGraphics3
COBWEB/3
Cviz Cluster Visualization
SOMine
public domain:




Autoclass C
ECOBWEB
MCLUST/EMCLUST
Snob
Clustering Tools
ECOBWEB


개발 : Carnegie Mellon Univ.
Bridge 시스템 구현의 한 부분




cable-stayed bridge를 디자인하는데 machine learning기술 사
용하는 Bridge 라는 시스템의 한 부분
이전에 개발된 COBWEB개념 형성 학습 프로그램의 확
장 구현
통합 시스템을 위해 지식을 학습하고 사용하게 하는 시
스템
Unsupervised 개념 형성을 통해 classification
hierarchy 생성해 내는 시스템
Clustering Tools
MCLUST/EMCLUST





Software for Model-Based Cluster and Discriminant Analysis
Cluster를 위해 Fortran , S-PLUS 의 interface 사용하는 s/w package
제한된 Gaussian hierarchical clustering algorithm과 Gaussian 혼합 모
델을 위한 EM algorithm을 noise와 함께 구현 시킴.
Hierarchical clustering, EM, Bayesian Information Criterion(BIC) 을 합
성하여 클러스터링 가능
Practical application 구현





Character recognition
Tissue segmentation
Minefield and seismic fault detection
Identification of textile flow from image
Classification of astronomical data
Reference
[1] T.Zhang, R.Ramakrishnan, M.Livny. BIRCH:An Efficient Data
Clustering Method for Very Large Databases. SIGMOD 199
[2]Raymond T. Ng, Jiawei Han. Efficient and Effective Clustering
Mothods for Spatial Data Mining. Proceedings of the 20th VBDB
Conference Santiago, Chile, 1994.
[3]P.S.Bradley, Usama Fayyad, and Cory Reina. Scaling Clustering
Algorithms to Large Databases. KDD 98.
[4]Sudipto Guha, Rajeev Rastogi, Kyuseok Shim. CURE:An Efficient
Clustering Algorthm for Large Databases. SIGMOD 98, Seatle,
WA,USA.
[5]Usama Fayyad, Cory Reina, and P.S.Bradley. Initialization of
Iterative Refinement Clustering Algorithms. KDDM 98.
[6]Venkatesh Ganti, Johannes Gehrke, Raghu Ramakrishnan.
CACTUS-Clustering Categorical Data Using Summaries. KDD99,San Diego,CA,USA.
Reference(cont.)
[7] Tapas Kanungo, David M.Mount, Nathan S.Netanyahu,
Christine Piatko, Ruth Silverman, Angela Y.Wu, Computing
Nearest Neighbors for Moving Points and Applications to
Clustering
[8] S.J.WAN, S.K.M.WONG, and P.PRUSINKIEWICZ, An Algorithm
for Multidimensional Data Clustering. ACM Transactions on
Mathematical Software, Vol. 14, NO.2 June 1988, Pages 15316,1988.
[9] P.Drineas, Alan Frieze, Ravi Kannan, Santosh Vempala, V.Vinay.
Clustering in large graphs and matrices.
[10] P.S.Bradley, Usama M.Fayyad. Rifining Initial Points for KMeans Clustering..ICML98.
[11] 윤종필,김희숙,최옥주. 데이터 마이닝의 유용성. 정보과학회지 제
16권 제 9호(통권 제 112호)
Reference(cont.)
[12] 오병우, 이강준, 한기준. 공간데이터 마이닝에 관한 고찰. 정보과
학회지 제 16권 제 9호(통권 제 112호)
[13] Alexander Hinneburg, Daniel A.Keim. Clustering Techniques
for Large Data Sets. SIGMOD99
[14] http://www.informatik.uni-halle.de/~keim/
[15] David B.Shmoys, Operations Research & Industrial
Engineering and Department of Computer Science, Cornell
University. Approximation Algorithms for Clustering Problems.
ACM COLT99
[16] Boris Mirkin, Ilya Muchnik, Monotone Linkage Clustering and
Quasi-Convex Set Functions
[17] M.E.J.Newman. Self-organized criticality, evolution, and
extinction
[18] Michael J.A.Berry, Gordon Linoff. Data Mining Techniques.
Wiley computer publishing
Reference(cont.)
[19] Sudipro Guha, Rajeev Rastogi, Kyuseol Shim. ROCK:A Robust
Clustering Algorithm for Categorical Attributes
[20] www.sas.com/offices/asiapacific/korea/solution/mining/wp/
[21] [Boc 74] H.H.Bock, Automatic Classification, Vandenfoeck and
Ruprecht, 1974
[22] [Sil 86] B.W.Silverman, Density Estimation for statistics and data
analysis, Chapman and Hall, 1986
[23] T.Zhang, R.Ramakrishnan and M.Livny, An Efficient Data
Clustering Method for Very Large Databases. Proc. ACM SIGMODD
Int. Cont. on Management of Data, pp. 103-114, 1996
[24] [EKS+96] M.Ester, H-P.Kriegel, J.Sander, X.Xu, A Density-based
Algorithm for discovering Cluster in Large Spatial Databases with
Noise, Proc.2nd Int.Conf.on KDD, 1996
[25] [XEK+98] X.Xu, M.Ester, H-P.Kriegel and J.Sander.,A Distribution
based Clustering Algorithm for Mining in Large Spatial Databases,
Proc. 14th ICDE’98, pp. 324-331
Reference(cont.)
[26][WYM97] W.Wang, J.Yang, R.Muntz, STING : A Statistical
Information Grid Approach to Spatial Data Mining, Proc.23rd, ICDE
[27] [Sch96] E.Schikuta, Grid clustering : An Efficient Hierarchical
method for very large data sets, Proc.13th Conf. On Pattern
Recognition, Vol.2 IEEE Computer Society Press, pp.101-105, 1996
[28] [SCZ 98] G.Sheikholeslami, S.Chatterjee and A.Zhang, Wave
Cluster : A Multi-Resolution Clustering Approach for Very Large
Spatial Datanases, Proc.24th Int.Conf.on VLDB, 1998
[29] [HK98] A.Hinneburg, D.A.Keim , The Multi-Grid : The curse of
Dimensionality in High-Dimensional Clustering, submitted for
publication
[30] [Fuk90] K.Fukunaga, Introduction to Statistical Pattern Recognition,
San Diego, CA.Academic Press 1990.
[31] [Lau 95] S.L.Lauritzen, The EM algorithm for graphical association
models with missing data, CSCDA, 19:191-201, 1995
Reference(cont.)
[32] [NH94] R.T.Ng, J.Han, Efficient and Effective Clustering
Methods for Spatial Data Mining, Proc.20th Int.Conf.on VLDB,
pp.144-155, 1994
[33] [EKX95] M.Ester, H-P.Kriegel, X.Xu, Knowledge Discovery in
Large Spatial Databases:Focusing Techniques for Efficient
Class Identification, Lecture Notes in CS, Spring 1995
[34] [Roj 96] R.Rojas, Neural Networks – A systematic
Introduction, Springer Berlin, 1996
clustering tools

commercial:







http://www.ultimode.com/products/
http://www.kdnuggets.com/software/sift/autoclass.html
http://www.clustan.com/
http://www.kdnuggets.com/software/sift /cobweb.html
http://www.alphaWorks.ibm.com/Home/
http://www.kdnuggets.com/software/sift/somine.html
public domain:




http://ic-www.arc.nasa.gov/ic/projects/bayesgroup/group/autoclass/autoclass-c-program.html
http://or.eng.tau.ac.il:7777/topics/ecobweb.html
http://www.stat.washington.edu/fraley/mclust_home.html
http://www.cs.monash.edu.au/~dld/Snob.html
Related documents