View : 475 Download: 0

가중치와 장애물을 고려한 밀도기반의 공간 클러스터링 알고리즘

가중치와 장애물을 고려한 밀도기반의 공간 클러스터링 알고리즘
Issue Date
과학기술대학원 컴퓨터학과
이화여자대학교 과학기술대학원
공간 데이터 마이닝이란 공간 데이터베이스 내에 함축적으로 존재하는 흥미 있는 관계와 특징을 발견하는 과정이라고 정의 할 수 있다. 다양한 데이터 마이닝 알고리즘 중에서 클러스터링은 대량의 데이터에 적용하기 용이하고 다양한 타입의 데이터에 적용할 수 있다는 장점으로 인해 공간 데이터 마이닝 분야에서 적극적으로 활용되고 있으며, 특히 밀도 기반의 클러스터링 기법은 공간 데이터의 지역성을 처리하는 데에 효과적으로 사용되고 있다. 기존의 밀도 기반 공간 클러스터링 기법인 DBSCAN은 공간상에 분포한 대량의 데이터들에 대하여 다양한 크기와 모양의 클러스터를 발견하면서 동시에 잡음을 처리할 수 있다는 장점을 갖는다. 그러나 데이터의 위치 속성만을 고려한다는 제한을 가지며, 공간적인 속성과 함께 가중치로서의 비공간적 속성을 고려하는 방법이나 데이터와 함께 존재하는 장애물들을 처리하는 방법에 대한 연구는 부족하였다. 본 논문은 DBSCAN을 기반으로 하는 두 가지의 새로운 공간 클러스터링 알고리즘인 DBSCAN-W와 COD-DBSCAN을 제안한다. DBSCAN-W는 클러스터링의 응용 목적에 따라 특정 속성에 대한 가중치를 영역으로 확장하여 밀도에 반영하는 알고리즘이며, COD-DBSCAN은 장애물이 존재하는 경우 장애물을 우회하는 새로운 오브젝트 간 거리 함수를 적용하는 알고리즘이다. 또한 실험을 통해 두 가지의 확장 알고리즘이 기존의 밀도기반 알고리즘에서 찾아내지 못한 새로운 형태의 클러스터링 결과를 도출하는 것을 보인다.;Spatial data mining is a process to discover interesting relationships and characteristics that exist implicitly in a spatial database. Clustering techniques work well with a large amount of data and various types of data, so that it is easy to apply clustering techniques to spatial data. The density-based clustering algorithms are effective especially at handling the locality. DBSCAN is the locality-based algorithm, relying on a density-based notion of clustering. The density-based notion of clustering states that within each cluster, the density of the points is significantly higher than the density of points outside the cluster. The algorithm can handle the issue of noise and is successful in discovering arbitrary shaped clusters on a large amount of spatial data. But it restricts the attributes that can affect clustering results as a location and cannot manage obstacles exist in real world such as rivers, lakes and highways. In this thesis, we present two new spatial clustering algorithms, called DBSCAN-W and COD-DBSCAN. DBSCAN-W algorithm assigns regions to objects relying on the weights and the regions have influence on density. COD-DBSCAN generates a distance index for the obstructed distance and uses it instead of the direct Euclidian distance when there exist one or more obstacles between two objects. We conduct various performance studies to show that DBSCAN-W and COD-DBSCAN produce different clustering results from DBSCAN depend on the purpose of applications.
Show the fulltext
Appears in Collections:
일반대학원 > 컴퓨터공학과 > Theses_Master
Files in This Item:
There are no files associated with this item.
RIS (EndNote)
XLS (Excel)