View : 40 Download: 0

최소 절단을 이용한 클러스터링 알고리즘의 구현

최소 절단을 이용한 클러스터링 알고리즘의 구현
Issue Date
과학기술대학원 컴퓨터학과
이화여자대학교 과학기술대학원
생물정보학에서의 데이터 마이닝은 생명체가 가지고 있는 유전 정보를 가공 처리하여 새롭고 유용한 정보를 얻어내는 것이다. 데이터 마이닝 기법 중 클러스터링은 주어진 유전자 관찰치 중에서 유사한 유전자들을 모아 몇 개의 집단으로 그룹화 하여 각 집단의 성격과 기능 분석, 유전자의 상호 관련성 및 유전자의 전체적인 구조를 파악하는데 도움을 준다. 본 논문에서는 생물학적 정보인 단백질 서열 사이의 유사값을 가지는 유사성 데이터를 그래프로 표현한 다음, 최소 절단(minimum cut)을 찾는 임의화(randomized) 알고리즘을 이용하여 그래프의 최소 절단을 구하고, 다시 이를 이용하여 클러스터링을 하는 클러스터링 알고리즘을 구현하였다. 본 논문의 클러스터링 알고리즘은 그래프에서 최대 2개의 에지로 최소 절단되는 신장 트리(spanning tree)들의 집합인 팩킹(packing)들을 찾는다. 팩킹을 구한 후 하나의 노드로 이루어진 싱글톤(singleton)을 유사한 성분들의 집합인 커널(kernel)의 집합에 넣을 지 결정하여 임계값을 넘으면 싱글톤을 커널의 집합에 채택하고, 최종 만들어진 커널의 요소들 중 유사한 커널들에 대해 임계값을 넘으면 그 커널들을 합쳐 최종 클러스터로 산출한다. 제안된 알고리즘의 분석을 위해서 CLICK 알고리즘과 최소 절단을 찾기 위한 수행 시간을 비교하였고 클러스터링의 실행 결과와 동질성을 비교하여 본 논문의 클러스터링 알고리즘이 크기에 상관없이 실행됨을 보였고 동질성도 높음을 보였다. ; In the field of bioinformatics, data mining is an information extraction which has as its goal the discovery of hidden facts and patterns contained within gene expression data. Clustering method, one of data mining techniques, is to group similar objects which are similar between objects. So, clustering method is helped to understand the feature of groups and the structure of data. In this thesis, we represent a graph for biological data, seek a minimum cut of graph using the randomized algorithm and implement a clustering algorithm based on randomized minimum cut. The clustering algorithm finds packing, namely, sets of spanning trees that are created by the minimum cut with 2-respects edges in a graph. In this case, clusters are packings that are divided by the minimum cut. Then, in adoption step, the clustering algorithm determines whether singletons are inserted into kernel that has similar elements. Finally, it merges kernels whose elements are similar. In order to analyze the proposed clustering algorithm, we compare the computation time of the clustering algorithm using minimum cut with that of CLICK algorithm. Also, we show some experimentation results.
Show the fulltext
Appears in Collections:
과학기술대학원 > 컴퓨터학과 > Theses_Master
Files in This Item:
There are no files associated with this item.
RIS (EndNote)
XLS (Excel)


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.