View : 110 Download: 0

Integrative transcriptome analysis for gene regulation in cancer

Title
Integrative transcriptome analysis for gene regulation in cancer
Authors
박찬이
Issue Date
2014
Department/Major
대학원 생명과학과
Publisher
이화여자대학교 대학원
Degree
Doctor
Advisors
이상혁김완규
Abstract
A greater number of analytical issues are associated with RNA-Seq than with microarray analysis. By stabilized data quality and novel analysis approach developments, RNA-Seq datasets have been consistently produced. Since the usage of RNA-Seq for the ENCODE project, there was renewed interest in 1% of novel RNAs that are unknown. The Cancer Genome Analysis (TCGA) launched a pan-cancer project involving extensive next-generation sequencing (NGS) multi-omics dataset analysis. Long non-coding RNA (lncRNA) was known as to bind with protein complexes like transcription/splicing factor or chromatin complex. In spite of binding hint, many lncRNAs’ specific functions are unrevealed. The lncRNAtor database provided the functional investment results from comprehensive data analysis. Large amount NGS data were collected from public repositories, and lncRNA differential expression and lncRNA-protein interaction were collected from RNA-Seq and CLIP-Seq. Additionally conserved lncRNA candidates were listed up from whole-genome alignment of 8 organisms, and orthogonal lncRNA coexpression was calculated as conservation evidence. Alternative splicing event is found in over 90% genes in human genes. Transcriptional expression and protein structure are influenced by alternative splicing. Therefore the identification of novel alternative splicing event is critical as an evidence of functional alteration. DEGA-Seq is a differential alternative splicing detection application using RNA-Seq. Junctional-based event quantification and intuitive network-type visualization methods are advantage as well as faster execution time. Moreover splicing events of complex structure were identified and tested. Cancer specific regulation was identified from the lung adenocarcinoma of 104 never-smoker female Korean patients. EGFR was the most recurrent gene with somatic mutations. By integration with TCGA LUAD, EGFR recurrence was enriched in non-smoker and Asian ethnic than smoker and White. Synonymous mutations were discovered in the genes encoding MET and TP53. Additionally novel allele-specific alternative splicing events were validated from RNA-Seq. Markers for assessing cancer subtype and pathway dysregulation in lung adenocarcinoma were examined. Dysregulated gene network was referred from HPRD, and it was inferred from differential expression measure by grouping samples based on high and low MET expression. Dysregulation network gene set was shown to significant gene function related with MET downstream pathways with novel findings.;RNA-Seq 개발로 인해 기존 마이크로 어레이와 다른 다양한 분석 방향이 필요하다. 리드 매핑(read mapping)을 통해 RNA-Seq의 분석을 시작하기 때문에 기존 정량화 분석 이외 서열을 이용한 분석들이 가능하다. RNA-Seq으로 인해 1%의 밝혀지지 않은 RNA들이 ENCODE 프로젝트의 분석대상이 되었다. 게다가 TCGA 프로젝트 또한 대량의 NGS 데이터를 생산하고 통합 분석해 pan-cancer 프로젝트를 하기에 이르렀다. lncRNA는 이차구조를 생성해 다른 단백질 구조와 결합한다. 전사체 발현인자 또는 유전자 접합 인자(gene splicing factor) 같은 전사체 조절에 필수인 단백질 구조에 결합함으로써 하위 대사 및 유전자 발현에 영향을 미친다. 따라서 lncRNA의 기능을 밝히기 위해서는 단백질 발현 유전자들과의 상호작용을 연구하는 것이 중요하다. lncRNAtor는 다양한 데이터를 통합함으로써 아직 밝혀지지 않은 lncRNA의 기능을 조사한 데이터베이스이다. lncRNA 서열분석, 발현분석, 단백질과의 결합 분석은 물론이고 진화 관계 분석도 포함한다. 대량의 NGS 데이터가 GEO에서 수집되었고 서열정보부터 유전자 군집 분석(gene set analysis)까지 모든 파이프를 순차적으로 제공한다. 진화적 보존 서열도 분석하였는데 8 척추동물의 전제 유전자 서열 정렬 (whole genome multiple alignment) 정보를 통해 phastCons 스코어가 높은 lncRNA 후보 군을 추려내고 발현 상관 관계를 계산했다. 유전자 대체 삽입 (alternative splicing)은 인간의 90% 가 넘는 유전자에서 발생하는 현상이다. 대체삽입은 단일 유전자를 다양한 mRNA와 단백질로 전사하며 조직 또는 질병 특이적으로 일어나는 이벤트이다. DEGA-Seq은 RNA-Seq을 활용해 대체 삽입 이벤트를 분석하는 프로그램이다. 전사체 주석(transcript annotation)정보를 분석해 그래프 찾기 알고리즘에 근거한 모든 가능한 종류의 대체 삽입 이벤트를 식별한다. RNA-Seq 데이터를 활용해 두 샘플그룹간의 비교 테스트를 제공하며 새로운 전사체(novel transcript)의 대체 삽입 이벤트도 인식해 분석한다. 게다가 웹과 비슷한 구조의 사용자 편의성을 지닌 결과를 제공한다. 결과는 비단 분석 결과인 p-value 수치뿐 만 아니라 전사체에 RNA-Seq 리드(read)들이 매핑된 전반적 상태도 확인할 수 있다. 암 연구를 통한 유전자 조절 연구를 위한 대상으로 한국인 비 흡연 여성환자 104명에 대한 폐선암(lung adenocarcinoma) 샘플을 분석했다. EGFR에서 체세포 돌연변이가 가장 빈번히 발견되었다. 다른 폐암 데이터와의 차이를 테스트하기 위해 TCGA 폐선암 데이터의 흡연상태, 인종간의 상태를 수집하고 lung100 데이터랑 비교했다. 그리고 EGFR이 한국인 여성 비흡연자에 의미 있게 발생함을 확인했다. 검증된 동의 돌연변이(synonymous mutation)가 있는 유전자들 중에서 대립형질(allele)에 특이적인 대체삽입 이벤트가 유전자 MET과 TP53에서 보임을 발견했다. 특히 MET에서 발생한 돌연변이는 GOF (gain-of-function) 타입이었다. TCGA와 COSMIC 데이터를 통해 MET 돌연변이가 폐암 데이터 및 다른 암에서도 유의하게 존재함을 확인했다. 이어서 MET의 발현 정도와 돌연변이 유무를 통합하여 고발현과 저발현 군으로 나누고 암의 주요 대사를 조절하는지 네트워크 분석을 통해 확인했다. 또한 샘플 군집화를 통해 MET을 통한 폐선암 서브타입을 결정할 수 있는 중요 마커가 되는지 확인했다. 또한 HPRD 네트워크 통합을 통해 유의한 유전자 셋을 추출하고 간접적으로 영향을 받을 대사작용을 유추할 수 있었다.
Fulltext
Show the fulltext
Appears in Collections:
일반대학원 > 생명과학과 > Theses_Ph.D
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE