View : 1330 Download: 0

Development of web applications for fusion gene and post-GWAS analyses

Title
Development of web applications for fusion gene and post-GWAS analyses
Authors
윤서연
Issue Date
2013
Department/Major
대학원 생명·약학부생명과학전공
Publisher
이화여자대학교 대학원
Degree
Doctor
Advisors
이상혁

김완규
Abstract
Establishing a web application from various biological public databases which facilitates biological analysis enables biologists to navigate biological process fast and easy. Especially, in this era of emerging Next Generation Sequencing (NGS) technique, as the data production comes out very rapidly, analysis process should be also faster than the decade of lunching the human genome project. With the aim of building biological analysis web tool, ChimerDB2.0 and GWASfunc are built for analyzing fusion gene and GWAS studies. ChimerDB2.0 is a knowledgebase of fusion genes that covers the fusion transcripts identified from bioinformatics analysis. As the updated version of the ChimerDB, there are significant changes in ChimerDB2.0. With the significant new algorithm, it has detected 2699 fusion transcripts with high confidence and integrated all contents (GenBank, Sanger CGP, OMIM, PubMed publications, and the Mitelman's database), and the user-interface has been improved to support diverse types of searches and to enhance the user convenience especially in browsing PubMed articles. These significant improvements make it possible to find possible specific fusion gene related drug targets to treat cancers. ChimerDB2.0 is available at http://ercsb.ewha.ac.kr/fusiongene. GWASfunc is a web-based tool for post-GWAS data analysis, which integrates information on biological pathways and networks as well as miRNA targets. It presents functional interpretation of GWAS results allowing SNP-to-gene mapping, the calculation of combined P-value for multiple SNPs mapped to single gene and also provides LD r^2 data from phase I-III of the International HapMap Project. GWASfunc provides SNP information which includes represented gene name, prediction scores, locus and functional prediction. It is also equipped with a Gene Set Analysis (GSA) module for the identification of significantly enriched pathways and other gene lists. The genes of interest are visualized interactively using an in-house network viewer for further analysis of various biological networks such as physical protein-protein interaction, TF-target and miRNA-target. GWASfunc offers a simple and easy user interface which providing a new approach to interpretation of GWAS studies. GWASfunc is available http://ercsb.ewha.ac.kr:8080/GWASfunc.;최근 DNA 서열 분석 방법의 발달에 따라서 서열 정보가 급속히 증가하고 있는 실정이다. 이러한 대용량의 서열 데이터들은 특정한 실험이나 질환 조건에 의해 유전자들의 발현량이나 유전자간의 상호작용들에 대한 정보를 가지고 있으며, 이와 관련된 연구 결과들 또한 급격히 증가함에 따라 이를 수작업으로 정리하고 정보를 찾는 것은 불가능에 가까워 지고 있다. 그러므로 대량의 데이터로부터 유용한 정보를 보다 빠르게 연구자들에게 제공하기 위한 웹 데이터베이스와 툴을 만드는 것이 중요하다. 염색체 이상은 염색체의 일부가 결실, 중복, 전좌되는 현상으로 백혈병과 같은 혈액 종양과 임파종에서 흔히 관찰된다. 대표적인 예로 만성골수성 백혈병은 염색체의 접합 부분에서 만들어지는 Bcr-Abl 융합 유전자가 발암의 원인이 되며, 이를 저해하는 항암 치료제로 글리벡이 1999년 개발되었다. 글리벡은 생명과학 연구를 통하여 타겟이 발굴되고 약물 디자인을 거쳐 개발된 최초의 바이오 신약으로 신약 개발의 새로운 패러다임을 제공하였다. 이러한 연구를 기반으로 염색체 이상에 의한 융합 유전자는 최근 cancer cytogenetic의 발전에 따라 보고된 수가 급격하게 늘고 있는 실정이다. 발암의 원인이 되는 경우에는 신약 개발의 타겟이 되지만, 암의 진행에 따른 결과인 경우에도 융합 유전자의 형태는 암의 상세형 (subtype) 및 진행 정도와 밀접한 관련이 있어 진단 마커로서의 활용 가치가 크다. 상세 분류에 근거한 예후 예측은 환자의 맞춤 치료를 가능하게 한다. 현재까지 알려진 융합유전자의 발암 관련성에 대한 지식은 대부분 혈액 종양을 대상으로 축적된 것이다. 발생 빈도와 치사율이 훨씬 높은 고형암, 특히 폐암, 대장암, 유방암 등의 상피세포 기원의 암에서는 시료의 희귀성과 이종성으로 인하여 성공 사례가 많지 않다. 염색체 이상 및 융합 유전자를 발굴의 핵심은 차세대 염기서열 분석으로 확인하기 전에 융합에 관련된 후보 유전자를 선정하는 과정이다. 이런 이유로 기존 chimerDB에서 보완된 알고리즘을 이용, GenBank에 공개된 mRNA와 EST 자료를 분석하여 약 2,000개의 융합 유전자 후보가 발굴된 결과를 기반으로 각 후보의 큐레이션과 공개 데이터와의 검증, 그리고 구체적인 정보등을 통합하여 생물학을 연구하는 사람들이 쉽게 이용할 수 있도록 웹기반 데이터베이스를 구축하였다. 한편, 인간 게놈 서열 분석의 발전과 Haplotype mapping(HapMap project)의 완성 이후, 거의 천만 개 이상의 common SNP (single nucleotide polymorphism)의 목록이 작성되었다. 이제까지의 GWAS 분석은 commondisease common-variant 가설에 의해서 minor allele frequency (MAF)가 1% 이상인 SNP에 대해서 특정 질병과의 연관성을 찾는데 주력하였고, 그 결과 150가지 이상의 질병에 대해서 지난 수년간 1300여 전역유전체 분석 (GWAS) 연구가 이루어졌으며 1000개 이상의 SNP이 유의하게 연관되었다고 보고되었다. 하지만, 재현성이 높은 질병과 연관된 SNP들이 다수 발견되고 있으나, GWAS 결과만으로는 질병의 유전적 요인 및 발병 기전을 규명하는데 많은 한계가 있다. SNP chip을 이용한 GWAS 연구의 확산과 차세대 시퀀싱 기술(NGS)의 발전 등으로 GWAS 데이터는 지속적으로 증가하는 추세이며, 특히 차세대 시퀀싱 기술 (NGS)의 보급으로 많은 deepresequencing data가 이용 가능해 짐으로써 보다 정확한 SNP 및 rare variant를 찾을 수 있게 되었다. 그러나 낮은 risk factor, 유전자-환경요인 또는 유전자-유전자 상호작용에 의한 분석의 복잡성 증가, 유전적 변이에 의한 발병 기전 규명의 어려움 등이 제시되고 있으며, 기존의 post-GWAS 분석 도구들은 유전적 변이의 통계적 분석 정보만을 주어 제한적인 데이터 통합 분석만을 제공한다. 그러므로 통계적 분석 정보만을 이용하여 결과의 해석에 의존하는 이전 방법들과 다른 GWAS 결과의 효과적인 기능적 해석을 위한 분석시스템이 매우 필요하다. 이를 이유로 전사조절네트워크 분석 모듈, GSA 및 생체경로 분석 모듈, microRNA 및 microRNA 타겟 유전자 네트워크 분석 모듈을 포함한 통계적으로 유의하게 연관된 유전자 서열 변이들의 기능적 분석을 위한 post-GWAS 분석 플랫폼의 개발을 하게 되었다. GWASfunc는 SNP에서 연관된 유전자를 3가지의 통계적 방법과 Linkage Equilibrium (LD) 결과를 이용하여 사용자가 넣은 SNP 리스트에 관련된 유전자 세트로 여러 분석 모듈을 이용할 수 있게 해준다. 또한 여러 다른 GWAS 분석 툴에서 나온 유의한 통계결과를 모아서 SNP의 기능적인 정보만으로도 분석을 할 수 있도록 한다. 본문의 예제들에서 예시된 바와 같이 GWASfunc는 기존의 GWAS 분석 도구에서 지원하지 않는 다양한 데이터와 네트워크 시각화 도구 등을 통합하여 새로운 GWAS 분석 방향을 제시하며, 이전의 연구결과에서 도출하지 못한 연관된 질병이나 새로운 생물학적 신호전달 기전과의 연결 관계를 보여주어 보다 구체적인 결론을 도출할 수 있도록 만들어 준다.
Fulltext
Show the fulltext
Appears in Collections:
일반대학원 > 생명·약학부 > Theses_Ph.D
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

BROWSE