View : 23 Download: 0

마이크로어레이 데이터의 이산화와 최소 신장 트리를 이용한 계층적 클러스터링

마이크로어레이 데이터의 이산화와 최소 신장 트리를 이용한 계층적 클러스터링
Other Titles
Discretization of Microarray Data and Hierarchical Clustering using Minimum Spanning Tree
Issue Date
과학기술대학원 컴퓨터학과
이화여자대학교 과학기술대학원
DNA 마이크로어레이는 많은 수의 유전자들의 발현도를 통한 실험으로 수만에서 수십만 개의 유전자를 동시에 관찰하고 분석할 수 있는 고도의 생물학적 실험 기술이다. DNA 마이크로어레이 실험 데이터에 대한 효율적인 클러스터링 알고리즘 개발은 유전자의 기능 분석, 유전자들 간의 네트워크 분석 등의 연구에 크게 기여할 수 있다는 의의를 가진다. 현재 가장 널리 쓰이는 계층적 클러스터링은 유전자 하나에서부터 다양한 수의 유전자 클러스터까지 다양한 범위로 유전자 간의 관계를 볼 수 있는 이진 트리 형태의 덴드로그램을 제공한다. 하지만 계층적 클러스터링은 잡음에 약하고, 데이터의 순서에 영향을 많이 받으며, 속도가 느리다는 단점이 있다. 따라서 본 논문에서는 최소 신장 트리를 이용한 계층적 클러스터링을 제안한다. 이 방법은 이진트리 형태로 결과를 보여주므로 덴드로그램의 장점을 가지며 최소 신장 트리를 이용하므로 잡음에 강하고, 클러스터링 모양에 구애 받지 않는다. 제안하는 최소 신장 트리를 이용한 계층적 클러스터링에 마이크로어레이 데이터를 이진수 배열로 변환하는 이산화 전처리 방법을 적용하였다. 이산화 방법은 데이터를 간결하게 표현하므로 함께 발현되는 유전자를 쉽게 파악 할 수 있다. 따라서 패턴을 쉽게 추출할 수 있으며, 계산량을 줄이게 된다. 이진 트리 비교 방법과 유사도를 제안하여 다양한 이산화 방법과 임계치에서의 결과를 비교하였다. 이 방법은 다양한 마이크로어레이 데이터의 특성에 맞는 이산화 방법과 임계치를 선택하는 척도가 될 것이다.;DNA microarray is a highly biological experimental technology that allows investigation and analysis through differential expression rates for ten thousansa or more genes simultaneously. It is significant that development of efficient clustering algorithm for DNA microarray date makes a contribution to functional genomics, genetic network and other research. Hierarchical clustering is the most widely used method for the analysis of patterns for gene expression. It show the relationship from a gene to the large number of gene clusters through dendrogram of binary tree shape. But, drawbacks of hierarchical clustering are dependent on the order of data, the noise and the inefficiency of computational time. In this thesis, We propose a new hierarchical clustering using minimum spanning tree. Proposed method have advantages of dendrogram as the result of binary tree shape. And it does not depend on noise and shape of cluster. We applied discretization preprocessing method for a new hierarchical clustering using the minimum spanning tree. Discretization preprocessing method converted raw expression values into boolean matrix. It can reduce the amount of calculation and simply grasp co-regulated genes and easily analyze out patterns. And also, we propose a new binary tree composition method using various discretization techniques and similarity score with adequate thresholds. Therefore, This method will be a measure of optimal discretization method and threshold selection for microarray data analysis.
Show the fulltext
Appears in Collections:
과학기술대학원 > 컴퓨터학과 > Theses_Master
Files in This Item:
There are no files associated with this item.
RIS (EndNote)
XLS (Excel)


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.