View : 33 Download: 0

A review of clustering methods with bio-conductor in microarray data

Title
A review of clustering methods with bio-conductor in microarray data
Authors
이진경
Issue Date
2008
Department/Major
대학원 통계학과
Publisher
이화여자대학교 대학원
Degree
Master
Abstract
DNA 마이크로어레이(Microarray)란 작은 고형체 기판 위에 염기서열을 알고 있는 DNA분자(즉, probe)를 배열한 것이다. 이 기술은 유전자의 기능을 밝히는 기능 유전체 학에 있어서 중요한 도구 중에 하나이다. 기술의 기본 원리는 기존 RNA의 양을 측정하던 노던법(Northern blotting)을 응용한 것으로, 위에서 말했듯이 DNA가 상보적으로 결합하는 성질을 이용한 것이다. 연구자가 알고자 하는 조직에서 mRNA를 추출하여 발현을 알 수 있도록 염료를 붙인 cDNA를 만든 후, 이를 probe가 심어져 있는 기판에 혼성화 시키면 상보적 서열 부분이 결합하면서 형광을 띠게 되고 이 형과의 강도를 scanner를 이용하여 측정하여 수치화하여 발현량을 보는 것이다. 이렇게 얻어진 자료를 SW R package의 bio-conductor를 이용하여 군집분석(clustering analysis)을 구현해보려 한다. 마이크로어레이 자료로 군집분석을 하는 이유는 기능이 밝혀지지 않은 유전자가 분석 결과 기능이 밝혀진 어떤 유전자와 같은 군집에 묶이면 기능이 밝혀지지 않은 유전자의 기능을 예측할 수 있기에 하는 것이다. 군집분석이란 나누려는 그룹의 수나 구조가 결정되어 있지 않고 유사성(similarity)에 근거한 그룹화과정이다. 즉, 동질적인 집단 또는 배타적인 집단으로 분류된 개체들을 의미 있는 하위 집단으로 나누려는 기법을 말한다. 또, 이 분석방법은 상관관계, 자료의 분산을 이용하여 유사한 집단으로 나누는 판별분석이나 요인분석과 달리 자료가 갖는 수학적 거리를 환산하여 거리가 가까운 대상들을 동일 집단으로 그룹 짓는 분석법이다. 가장 많이 쓰이는 군집(cluster)의 추출방식에는 K-means방법, PAM, SOM, hierarchical방법을 이용하여 한 세포에 서로 다른 3가지의 자극을 준 후 발현량의 차이를 본 실험 자료를 이용하여 구현해 보았다. 같은 자료를 가지고 서로 다른 방법론을 이용하여 거의 유사한 결과를 얻었다.;DNA microarray is DNA molecules attached to a solid surfaces, referred to as probes; known sequence of bases. This technology is a one of the important tool to make clear function of genes in genetics. The principle of technology puts in practice ‘Northern blotting’ which can measure amount of RNA, takes advantage of complementary combination properties of DNA. A researcher extracts mRNA in a sample that is to know and makes cDNA attached dyes to know condition of revelation, and then a specialized scanner is used to measure the amount of hybridized target at each probe, which is reported as an intensity. Data which got in the above will express clustering analysis by using bio-conductor offered SW R package. The aim of clustering analysis of microarray data is prediction of functions that genes with similar function yield similar expression patterns. The clustering analysis is grouping process based on similarity. It isn’t determined a number of group and structures. K-means, PAM, SOM, and hierarchical method are often used method. By using data ;‘The Plasticity of Dendritic Cell Responses to Pathogens and Their Component”, I expressed them. With same data but different methods, I got almost similar results.
Fulltext
Show the fulltext
Appears in Collections:
일반대학원 > 통계학과 > Theses_Master
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE