View : 137 Download: 0

Construction of ECgene Portal Site and Microarray Data Analysis for Alternative Splicing

Title
Construction of ECgene Portal Site and Microarray Data Analysis for Alternative Splicing
Authors
김보라
Issue Date
2005
Department/Major
대학원 분자생명과학부
Publisher
이화여자대학교 대학원
Degree
Master
Advisors
이상혁
Abstract
인간 유전체 서열분석이 완성된 현재, 2만-2만5천여 개의 놀랄만큼 작은 수의 유전자가 있다고 추정된다. 이 숫자는 대장균 (E. Coli)의 열 배보다 작고, 초파리 (D. Melanogaster)의 두 배보다 작은 수이다. 그러나 인간과 다른 척추동물들에서 단백질의 복잡성은 추정되는 유전자의 수로는 모자란다. 한 유전자로부터 많은 전사체의 생성을 유도하는 유전자 변이 기작(Alternative Splicing)은 고등 생물에서 단백질의 다양성을 설명하는 주요한 기작으로 받아들여지고 있는데, 최근의 유전체학과 생물학의 진보는 유전자 변이 기작의 중요성을 계속 확인시키고 있다. 우리 연구실은 최근 유전자 변이에 따른 대부분의 유전자 변이체를 포함하는, ECgene (발현된 유전자 단편(EST)을 묶어서 만든 유전자 모델)이라는 새로운 유전자 예측 알고리즘을 개발하였는데, 이것은 유전체를 기반으로 EST를 묶는 방법과 전사체 조립 과정을 일관성 있게 결합한다. 이 논문은 유전자 변이 기작에 따른 전사체의 다양성에 대해 탐구하는 두 가지 주제로 구성되어 있다. 제 Ⅱ장은 ECgene 모델을 기반으로 한 유전자 변이에 관한 유전체 포탈 사이트 구축에 대해 이야기하고 있다. 이 사이트는 각 유전자 변이체의 구조와 추론되는 기능, 발현 정보를 보여준다. 또한 유전체 변이에 따른 전사체의 기능의 다양성을 분석하기에 유용한 응용 프로그램들을 제공한다. Summary Viewer는 유전자에 대한 개요와 다른 유전자 분석 프로그램들의 정수를 보여준다. Genome Browser와 Transcript Viewer는 전사체들의 유전자 구조를 비교하는데 유용하다. 유전자 변이형에 따른 기능을 갖는 도메인들의 변화는 Transcript Viewer에서 한눈에 볼 수 있다. ECgene 포탈 사이트는 또한 유전자 발현을 분석하는 두 가지 독특한 방법을 제공한다. 조립된 전사체들로부터 나온 유전자 발현 연속 분석(SAGE) 단편들이 공개된 SAGE 라이브러리로부터 발현 패턴을 양적으로 설명하기 위해 사용되었다. 그리고, 각 클러스터에서 EST 서열들의 상보 DNA(cDNA) 모음은 발현 양상을 질적으로 추론하는 데 사용되었다. ECgene 사이트가 단지 변이형 유전자에만 국한하지 않고, 전사체 전체에 대한 주석을 제공한다는 것은 주목할 만하다. ECgene은 현재 인간, 마우스, 랫의 유전체에 대한 분석을 제공한다. ECgene의 툴과 프로그램들은 http://genome.ewha.ac.kr/ECgene에서 이용할 수 있다. 제 Ⅲ장은 미세배열(Microarray) 데이터로부터 변이체의 상대적인 발현 양을 구하려는 초기 단계의 노력을 설명한다. 세포 안에서 변이체의 구조와 그 발현되는 정도를 알아내는 일은 유전자의 생물학적 규칙을 이해하는데 중요하다. 지금까지 유전자 변이체들은 클론 분리(clone isolation)와 서열 분석 방법으로 확인되어져 왔다. 그리고 특정 조직이나 세포계 (cell line) 에서의 유전자 변이체의 발현양은 대개 알맞은 프라이머(primer)를 디자인하여 양적 핵산 증폭 반응 (quantative PCR)으로 얻을 수 있었다. 유전자 변이체를 찾고 정량화하기 위한 목적과 전통적인 방법들의 낮은 작업량을 극복하기 위한 노력으로 미세배열을 기반으로 한 기술들이 개발되어지고 있다. 접합 배열 (junction array)은 엑손과 엑손의 접합으로 된 탐침(probe)의 모음으로 되어 있다. 이 탐침은 변이체에서 특정 유전자 변이 사이트 즉, 엑손의 유무를 직접적으로 나타내준다. 최근 Johnson과 그의 동료들은 엑손 접합 미세배열로 인간 유전체의 전체적으로 유전자 변이형을 분석했다. 이들의 탐침은 만여 개의 인간 다엑손 유전자에 대한 기준 서열(RefSeq)에 대한 모든 변이 사이트를 포함한다. 52개의 조직과 세포계에 대한 이들의 실험 결과는 Gene Expression Omnibus 사이트에 공개되어 있다. 우리는 접합 미세 배열 데이터로부터 특정 조직에서의 유전자 변이형의 상대적인 양을 구하는 알고리즘을 개발했다. 이 알고리즘은 ECgene 전사체 모델을 기반으로 하여 탐침과 전사체의 관계 행렬을 만들고, 상대적인 유전자 변이체의 발현양을 양수의 경우만 다루는 최소자승법 (NNLS:Non-Negative Least Squares)을 이용하여 구한다. 우리가 다루는 값이 모두 양수라는 분명한 사실을 충족시켜야 하므로, NNLS 방법은 다른 분해 방법 (decomposition) 들과 극명한 차이를 준다. 이 알고리즘은 사용자가 쉽게 분석할 수 있도록 웹을 기반 프로그램으로 제공되고 있다. 이 프로그램은 다양한 조직에서의 유전자 변이체의 상대적인 양과 구조, 그리고 그 과정에 따른 에러를 보여준다. 이 방법은 접합 탐침이 RefSeq로부터 디자인되었으나 ECgene의 전사체 모델에 이 알고리즘을 적용함으로써 유전자 변이체로 추정되는 예상 모델의 상대적인 양을 예측해 볼 수 있게 하며, Affymetrix 칩과 같이 엑손 탐침을 갖는 미세배열을 분석하는 데에도 쉽게 확장될 수 있다. 더 나아가 이 연구는 미세배열 분석의 기초를 다지는 일이 될 것이다.;With the completion of the human genome sequencing, current estimate on the number of genes is 20,000-25,000 which is a surprisingly small number (Human Genome Sequencing Consortium, 2004). Human genome contains less than 10 fold number of genes compared to E. Coliand less than twice of D. Melanogaster (Adams et al., 2000). However, the level of protein complexity in humans and other vertebrates is much higher than the estimated number of genes (Yang et al., 2003). Alternative splicing, leading to the generation of multiple transcripts from single gene, is believed to be the major mechanism of expanding protein diversity in higher organisms (Graveley, 2001; Maniatis and Tasic , 2002; Black, 2003). Recent advances in the genomics and biology confirm the importance of alternative splicing repeatedly (Levanon and Sorek, 2003). Our laboratory recently developed a novel gene prediction algorithm, ECgene (gene modeling by EST clustering), which combines the genome-based EST clustering and graph-theoretic transcript assembly procedure, encompassing transcript variants due to alternative splicing (Kim et al., 2005). This thesis consists of two parts exploring the transcriptome diversity due to alternative splicing. The first part describes construction of a genome portal site on alternative splicing based on the ECgene models (Kim et al., 2005). The web-site tries to show the transcript structure, inferred function and expression for each transcript variant. It supports several viewers and applications that have many unique features useful to analyze the functional diversities of transcripts due to alternative splicing. The summary viewer shows the gene summary and the essence of other annotation programs. The genome browser and the transcript viewer are available to compare the gene structure of splice variants. Changes in the functional domains by alternative splicing can be seen at a glance in the transcript viewer. ECgene portal site also provide two unique ways of analyzing gene expression. SAGE tags deduced from the assembled transcripts are used to delineate quantitative expression pattern from SAGE libraries available in public. Furthermore, the cDNA libraries of EST sequences in each cluster are used to infer qualitative expression pattern. It should be noted that the ECgene web site provides annotation for the whole transcriptome, not just the alternatively spliced genes. Currently, ECgene supports the human, mouse and rat genomes. The ECgene suite of tools and programs is available at http://genome.ewha.ac.kr/ECgene/. The second part of the thesis describes our initial effort to deduce the isoform abundance from microarray data. Identification of isoforms and their abundance in a cell is essential information to understand the biological role of the gene. Splice variants known so far have been identified by clone isolation and subsequent sequencing. Relative abundance of isoforms in specific tissues or cell lines are usually obtained by quantitative PCR with proper primer design (Modrek and Lee, 2002). In an effort to overcome the low throughput characteristics of these conventional methods, microarray-based techniques are being developed to detect and quantify the splice variants. Junction array consists of collection of probes from exon-exon junctions, which tests the presence of specific splice sites. Recently, Johnson et al. performed a genome-wide survey of human alternative pre-mRNA splicing with exon junction microarrays (Science 302:2141-2144, 2003). Their probe set covers all splice sites in the RefSeq for more than 10,000 human multi-exon genes. Their experimental result for 52 tissues and cell lines is available publicly at the Gene Expression Omnibus. We developed an algorithm that calculates the isoform abundance from the junction array data. It builds a probe-transcript matrix based on the ECgene transcript models, and the relative abundances of splice variants are obtained by non-negative least squares (NNLS) fitting of the experimental data. Non-negative nature of the abundance is taken into consideration explicitly, which give dramatic difference from other decomposition-based methods. The algorithm is implemented as a web-based utility to allow easy access and analysis for users. It shows the relative abundance of splice variants in various tissues and the errors in fitting process. Even though the junction probes were designed from RefSeq, interpretation using the ECgene models allows one to test the presence of additional putative splice variants. This method can be easily extended to analyze microarrays with multiple exon probes such as the Affymetrix chips.
Fulltext
Show the fulltext
Appears in Collections:
일반대학원 > 생명·약학부 > Theses_Master
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE