View : 119 Download: 0

멀티 소스 데이터 분석을 위한 다양성기반 클러스터링 앙상블 기법

Title
멀티 소스 데이터 분석을 위한 다양성기반 클러스터링 앙상블 기법
Other Titles
Diversity-based Clustering Ensemble Technique for Multi-source Data Analysis
Authors
윤혜성
Issue Date
2007
Department/Major
대학원 컴퓨터학과
Publisher
이화여자대학교 대학원
Degree
Doctor
Abstract
계속적으로 발전하는 계산 능력과 컴퓨터의 기억 용량, 일상생활 속에서의 인터넷 보급, 점차 자동화되는 비즈니스, 과학적 처리와 같은 기술 발전으로 보유 데이터 셋의 사이즈가 빠르게 증가하고 있다. 그리고 상당수의 데이터 셋은 지리학적으로 분산되어 다양한 사이트에 분산되어 있는데 이러한 데이터 셋을 멀티 소스(multi-source) 데이터라 한다. 멀티 소스 데이터를 이용한 데이터 분석은 단일 소스 데이터(single-source)를 이용하는 것보다 분석 결과에 있어서 더욱 다양한 패턴과 결과를 도출한다. 그러나 멀티 소스 데이터를 분석하는 것은 다양한 분석 방법들과 데이터 소스들마다의 다른 특성 때문에 단일 소스 데이터를 분석하는 것보다 어려운 문제이다. 생물정보학 분야에서도 바이오 데이터를 분석하는 경우에 이러한 분산된 멀티 소스 데이터 셋은 존재하며, 이를 이용하여 유용한 분석 결과를 도출할 수 있을 것이라는 가정을 세울 수 있다. 본 논문에서는 분산된 환경으로부터 실험되어진 멀티 소스 바이오 데이터를 이용하여 분석 결과의 효과를 높이기 위한 새로운 접근 방법을 제안하고자 한다. 실험 데이터 셋으로 적용된 멀티 소스 바이오 데이터 셋은 같은 도메인의 변수들을 가지고 실험 되어진 마이크로어레이, DNA 서열 데이터(sequence data), 임상 데이터(clinical data)로, 다른 실험 방법을 같은 데이터 셋에 적용하여 만든 데이터 셋들을 멀티 소스 데이터 셋이라고 보았다. 물론 이것은 꼭 다른 실험 방법뿐만이 아니라 같은 실험 방법을 여러 번 적용한 데이터 셋의 분석 결과 값도 멀티 소스 데이터 셋이라고 볼 수 있으며, 바이오 데이터에만 국한된 것이 아니라 같은 도메인의 변수들을 가지면 되기 때문에 다양한 응용 분야 즉, 금융, 의료, 마케팅 등의 분야에서도 제안하는 방법을 활용할 수도 있을 것이다. 클러스터링 앙상블(clustering ensemble) 방법은 클러스터링 결과들의 장점을 결합하여 최종 클러스터링 결과의 확장성(scalability)과 신뢰성(reliability)을 향상시킨다. 또한 하나의 클러스터링 알고리즘을 데이터 셋에 적용한 클러스터링 결과를 최종 결과물로 제시하는 것보다는 다양한 특성을 가지는 클러스터링 알고리즘을 데이터 셋에 적용한 클러스터링 결과들의 장점을 결합하는 것이 더 나은 클러스터링 결과를 도출한다는 것을 보이고자 한 접근 방법이다. 본 논문에서는 멀티 소스 바이오 데이터 셋을 가지고 최적의 클러스터링 결과를 도출하기 위한 새로운 앙상블 방법을 제안한다. 첫째로 같은 도메인을 가지고 실험된 다양한 멀티 소스 바이오 데이터 셋에 다양한 클러스터링 알고리즘을 적용하여, 멀티 소스 데이터 셋 분석의 효과와 클러스터링 앙상블 방법의 효율성을 보였다. 두 번째로는 적용되는 알고리즘의 특성에 따라 다른 개수의 클러스터를 가지는 다양한 클러스터링 결과들을 도출하게 되는데 제안하는 유전 알고리즘의 새로운 연산 방법들을 적용하여 최적의 클러스터링 결과를 도출하는 과정을 보였다. 그 결과 다양한 클러스터링 결과들의 내부의 개체들이 클러스터링 알고리즘과 바이오 데이터 셋의 특성 모두를 고려하면서도 다양한 클러스터링 결과들 내부 개체들의 이동으로 인하여 더 안정적이고 정확한 최적의 해를 찾아가고 있는지를 확인할 수 있었다. 그리고 실험 과정을 통하여 대부분의 경우 최적 해를 찾는 것을 발견할 수 있었으며 클러스터링 결과의 이해도를 증대시켜 빠른 문제 해결을 가능하게 하는 접근 방법이라는 것을 확인 할 수 있었다.;The size of data set has been increasing rapidly because of recent advances in technology, ever-increasing computing power and computer storage capacity, the permeation of the Internet into daily life and the increasingly automated business and scientific process. Data sets which are geographically distributed across multiple sites are defined as multi-source data, and data analysis using multi-source data derive more patterns and results than do single-source data. However, multi-source analysis is more complex than single-source data analysis because of the varying analysis methods and the different characteristics among data from multiple sources. That data analysis of bioinformatics is also complex because it has varying analysis methods and its data has differing characteristics. As for, we can assume bringing efficient analysis results through multi-source data set. This thesis proposes a novel approach to improving analysis results by using experimental multi-source data from a distributed environment. A multi-source bio-data set as an applied experimental dataset is generated from microarray, DNA sequence data and clinical data, which were composed of datasets from different experiment methods in the same domain. Also, multi-source dataset is analysis result values of several times applied data set of same experimental method as well as different experimental methods. This is not limited to bio-data; with variables of the same domain, other application areas in different fields, including finance, and medical marketing, could be further exploited. The clustering ensemble method combines the strengths of clustering results and improves the scalability and reliability of the final clustering results. Also, rather than merely selecting a winning partition, this method demonstrates that combining the clustering results of clustering algorithms with various characteristics yields a better clustering solution than does selecting results from a single clustering process alone. This thesis proposes this novel ensemble method to generate optimal clustering results with multi-source bio-data sets. First, this method applies various clustering algorithms to multi-source bio-dataset experiments with the same domain, and shows the effectiveness of multi-source data set analysis and the efficiency of the clustering ensemble method. Second, various clustering results with different numbers of clusters are generated according to the applied characteristics of the algorithm. The proposed method shows that the process generates optimal clustering results by applying new operators of the genetic algorithm. The result is that the proposed method can confirm better end-results and provide more accurate optimal solutions through the inter-element movements of various clustering results. We also found that, in most cases, optimal solutions through various experimental processes were achieved, and confirmed the approach for rapid problem-solving by increase interesting of clustering result.
Fulltext
Show the fulltext
Appears in Collections:
일반대학원 > 컴퓨터공학과 > Theses_Ph.D
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE