View : 25 Download: 0

Gene Expression Atlas : An analysis of human gene expression with SAGE and EST data

Gene Expression Atlas : An analysis of human gene expression with SAGE and EST data
Issue Date
대학원 분자생명과학부
이화여자대학교 대학원
Expression analysis is essential for understanding gene functions and for identifying therapeutic targets. A gene with a restricted expression pattern is likely to be functionally related to the tissue or disease state in which this gene is specifically expressed. Therefore, it is important to develop methods that profile expression of all genes in a simple and quantitative manner. The recent technological advances that enable analysis of global gene expression at the mRNA level, coupled with a rapid growth of available databases with such data, created new demands on software tools for data management, visualization, comparison and exploration. Therefore, Using expressed sequence tags (ESTs) from cDNA libraries and 10- or 17- base tags used for serial analysis of gene expression (SAGE) make it possible to monitor the expression of the majority of mRNAs simultaneously. For qualitative analysis of gene expression pattern and differential expression profile using EST data, ESTexpress ( ESTexpress) and ECprofiler ( were developed for analysis tools. It is based on the ECgene prediction that combines the genome-based EST clustering and graph-theoretic transcript assembly procedures, taking alternative splicing events into consideration. Therefore, it is possible to explore the difference in gene expression according to alternative splicing. Furthermore, for analysis quantitative gene expression pattern and differential expression profile, tag to assignment algorithm was preferentially developed using a critical step in interpreting SAGE data. The algorithm was developed taking many factors such as (i) sequencing errors, (ii) tag redundancy owing to short tag length (10bp in short SAGE, 21bp in long SAGE), (iii) internal priming (use of alternative restriction sites), (iv) alternative polyA tails, and (v) presence of SNP in the restriction enzyme site or inside the tags into consideration. By use of above tag-to-gene assignment algorithm, SAGEexpress ( was developed as a web-based application tool. It shows quantitative gene expression patterns inferred from the publicly available SAGE libraries. After developing the analysis tools using for EST and SAGE, the computational analysis of SAGE and EST data was used to look for the lung cancer biomarkers. Through careful inspection of the predicted genes, 20 genes for experimental validation were selected using semi-quantitative reverse transcriptase-polymerase chain reaction. After extensive statistical analyses, four genes (CBLC, CYP24A1, S100P and ALDH3A1) were identified as highly probable diagnostic markers and three others (PLUNC, AKR1B10 and Loc147166) as markers of somewhat lower but still significant probability. The gene properties of the identified markers, especially their relationship to lung cancer and cell signaling pathway regulation, further suggest their potential value as drug targets as well. Computational analysis of SAGE and EST data is very critical and useful methodology for understanding the gene expression widely and identifying gene properties.;발현 분석은 유전자 기능을 이해하고 치료 타겟을 찾기 위한 기본이 된다. 특이적인 발현 패턴을 보이는 유전자는 기능적으로 질병단계에서 또는 조직과 관련이 있다. 그러므로, 간단하면서도 양적인 방법으로 모든 유전자의 발현을 알아내는 방법을 개발하는 것이 중요하다. mRNA단계에서 포괄적으로 유전자 발현 분석을 가능하게 하는 기술적 진보가 유효한 자료를 가지고 있는 데이터 베이스의 급속한 성장과 맞물려서 데이터의 비교 분석, 관리, 시각화를 위한 기술적인 개발이 필요하게 되었다. 따라서, ETS와 SAGE와 같은 방대한 용량의 데이터를 이용하면 mRNAs단계에서 대부분의 발현을 한꺼번에 관찰이 가능하게 된다. 질적인 유전자의 발현 패턴과 차별적인 발현 분포를 분석하기 위해, ETSexpress ( 와 ECprofiler( 과 같은 분석 툴이 개발되었다. 이들 분석 툴들은 게놈을 바탕으로 한 ETS clustering와 유전자 변이와 같은 event를 고려한 graph theoretic transcript 집합 과정을 결합하는 ECgene 모델을 기초로 한다. 그러므로, 유전자 변이에 따른 유전자 발현의 차이 또한 연구가 가능해진다. 더불어, 양적이 유전자 발현 패턴과 차별적인 발현 분포를 분석하기 위해, 우선 tag to gene assignment 알고리즘을 SAGE 데이터를 이용하여서 개발하였다. 이 알고리즘은 다음과 같은 (i) 시퀀싱 에러, (ii) short tag 과 long tag 의 tag 중복성, (iii) 제한 효소 부위를 이용하여서 서열 내부에 있는 tag, (iv) alternative polyA tails와 (v) tag 내부 서열이나 제한효소 위치에서의 SNP의 존재와 같은 많은 요소들을 고려하여서 개발되었다. 이렇게 만든 알고리즘을 이용하여서, SAGEexpress (라는 분석 툴을 SAGE 데이터를 이용하여서 개발하였다. EST 와 SAGE 데이터를 이용한 분석 방법 및 도구를 개발하고 나서, 이들 방법에 의해서 나온 결과를 이용하여서 폐암의 바이오 마커를 찾는 일을 하였다. 20개의 후보 유전자들을 가지고 실험을 하였고 통계학적인 방법으로 분석한 결과 4개의 유전자(CBLC, CYP24A1 S-100P, ALDH3A1)들은 진단을 위한 마커로써 높은 가능성을 보였고 나머지 3개의 유전자(PLUNC, AKR1B10, LOC137166)는 진단용 마커로써는 약하지만 여전히 중요한 확률을 나타냈다. 마커로써 확인된 후보 유전의 특징은 폐암과 관련한 기작과 관련이 있어서 더더욱 신약의 타겟으로써의 가능성을 제시하였다. SAGE나 EST와 같은 실험 데이터를 컴퓨터를 사용한 분석은 유전자의 발현을 넓게 궁극적으로 이해하고, 유전자의 특징을 찾는데 매우 중요하고 유용한 방법이다.
☞ 이 논문은 저자가 원문공개에 동의하지 않은 논문으로, 도서관 내에서만 열람이 가능하며, 인쇄 및 저장은 불가합니다.
Show the fulltext
Appears in Collections:
일반대학원 > 생명·약학부 > Theses_Ph.D
Files in This Item:
There are no files associated with this item.
RIS (EndNote)
XLS (Excel)


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.