View : 115 Download: 0

DBSCAN 알고리즘을 이용한 유전자 발현 데이터 마이닝 시스템의 설계 및 구현

DBSCAN 알고리즘을 이용한 유전자 발현 데이터 마이닝 시스템의 설계 및 구현
Issue Date
과학기술대학원 컴퓨터학과
이화여자대학교 과학기술대학원
최근 생명 정보학의 기술의 발달로 마이크로 단위의 실험조작이 가능해짐에 따라 하나의 chip상에서 전체 genome의 expression pattern을 관찰할 수 있게 되었고, 동시에 수만개의 유전자들간의 상호작용도 연구가능하게 되었다. 이처럼 DNA 마이크로 어레이 기술은 복잡한 생물체를 이해하는 새로운 방향을 제시해주게 되었다. 따라서 이러한 기술을 통해 얻어진 대량의 유전자 정보들을 효과적으로 분석하는 방법이 시급하다. 기존의 연구들에서는 계층적 알고리즘, K-means, SOM 등과 같은 클러스터링 기법을 적용하여 유전자 발현 데이터 마이닝을 수행하고있다. 그러나 이 경우, 조밀한(compact) 클러스터링 결과를 얻기 힘들며, 이로 인하여 DNA 마이크로어레이의 실험시 발생할 수 있는 여러가지 에러를 고려할 때 신뢰할 수 없는 결과를 나타낼 수 있다. 본 논문에서는 DBSCAN 알고리즘을 유전자 발현 데이터에 적용하여 유전자 발현 데이터의 특징을 잘 반영할 수 있는 DBSCAN 기반 마이닝 모듈과 클러스터링 결과를 위한 가시화 모듈을 개발한다. 그리고 응집 계층 알고리즘과 K-means와의 성능 비교를 통해 DBSCAN이 유전자 발현 데이터 클러스터링에 있어서 어느 정도의 성능을 보장하는지를 균질도, 분리도, 반면영상 너비의 세 가지 기준에서 분석한다. 분석 결과 DBSCAN 알고리즘의 성능이 우수한 결과를 보였고, 시간복잡도 면에서도 가장 빠르게 수행되었다. 또한 가시화 모듈의 데이터 검색기능을 통해, 특정 유전자가 속한 클러스터 및 같은 클러스터 내에 어떠한 유전자들이 포함되어있는지를 가시적으로 확인할 수 있었다.;As development in technology of bioinformatics recently makes it possible to operate micro-level experiments, we can observe the expression pattern of total genome through one chip and analyze the interactions of thousands of genes at the same time. Thus, DNA microarray technology presents the new directions of understandings for complex organisms. Therefore, it is required how to analyze the enormous gene information obtained through this technology effectively Preview research has been conducted expression data mining by employing many clustering methods such as hierarchical algorithm, K-means, SOM. In such a case, however, we can rarely get the compact clustering result and on this account we may have unreliable results, considering various errors that can occur in a DNA microarray experiment. In this thesis, we develop DBSCAN based mining module and visualization module for clustering results that can reflect the features of gene expression data well by applying DBSCAN. In addition, through efficiency comparison between agglomerative hierarchical algorithm and K-means, we analyze the efficiency of gene expression data clustering of DBSCAN with three standards-homogeneity, separation, and silhouette width. Analyses show that DBSCAN algorithm has better performance, and is superior to the others in time complexity. Moreover, by means of data-searching in visualization module, we can visualize cluster that contains a specific gene and confirm what kind of genes is contained in the same cluster.
Show the fulltext
Appears in Collections:
과학기술대학원 > 컴퓨터학과 > Theses_Master
Files in This Item:
There are no files associated with this item.
RIS (EndNote)
XLS (Excel)


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.