View : 1982 Download: 0

GEMICCL

Title
GEMICCL
Authors
정인혜
Issue Date
2017
Department/Major
대학원 바이오정보학협동과정
Publisher
이화여자대학교 대학원
Degree
Master
Advisors
이상혁
Abstract
암 세포주는 메커니즘 규명이나 유전자 기능 연구, 항암제 개발과 같은 의생명과학연구에서 중요한 역할을 한다. 최근 암 표적 치료제 연구가 활발해 지면서 암 세포주의 역할은 더욱 중요해지고 있다. 따라서 실험 목적에 맞는 적합한 암 세포주를 찾는 것이 중요하다. 하지만 이는 대용량의 암 세포주의 유전자 돌연변이, mRNA 발현 혹은 DNA 복제수와 같은 분자적 특성 정보를 제공하는 데이터베이스가 적고, 제공한다 하더라도 한정된 수의 세포주에 한해서 제공하는 경우가 많다. 또한 제공하는 분자적 특성 정보도 통일된 방법으로 처리되어 있지않고, 각 데이터 베이스에서 제공하는 암 세포주도 다르기 때문에 실험 목적에 맞는 암 세포주를 선택하기에는 큰 어려움이 많다. GEMICCL (Gene Expression & Mutation in Cancer Cell Lines) 데이터베이스는 세 가지 기존 공용 데이터베이스 CCLE (Cancer Cell Line Encyclopedia), COSMIC (Catalogue of Somatic Mutations in Cancer) Cell Line Project, NCI60 (National Cancer Institute) 통합을 통해 인간 암 세포주의 다양한 정보를 제공하고자 하였다. GEMICCL 을 통하여 통합된 분자적 특성 정보로 좀 더 쉽게 원하는 세포주를 선택하는데 도움을 주는 것이 이 연구의 목표이다. 185개의 암 종류와 29개의 조직에 따른 1,406 개의 암 세포주에 대한 유전자 돌연변이와 mRNA 발현, DNA 복제수와 같은 분자적 특성 정보를 제공하고 있다. 암 세포주 이름과 정보는 SIB (Swiss Institute of Bioinformatics) 에서 만든 Cellosaurus 를 이용하여 통합하였고, 1,334 개의 암 세포주 유전자 돌연변이 정보는 CCLE, COSMIC, NCI60 에서 다운로드 받은 파일을 통합하여 제공되고 있다. 1,304 개의 암 세포주 mRNA 발현 정보는 CCLE, COSMIC, NCI60 에서 다운로드 받은 raw CEL 파일을 입력 데이터로 하여 RMA (Robust Multi-array Average) 알고리즘으로 normalization 해서 ComBat 으로 batch effect 를 제거한 결과를 통합하여 제공되고 있다. 1,386 개의 암 세포주의 DNA 복제수 정보는 CCLE 와 NCI60 에서 다운로드 받은 raw CEL 파일을 입력 데이터로 하여 PennCNV-Affy 소프트웨어로 LRR (Log R Ratio) 와 BAF (B Allele Frequency) 를 계산한 뒤, CBS (Circular Binary Segmentation) 알고리즘을 돌린 결과와 COSMIC 에서 다운로드 받은 PICNIC (Predicting Integral Copy Numbers In Cancer) 결과를 통합하여 제공되고 있다. GEMICCL 은 인간 암 세포주에 대한 유전자 돌연변이, mRNA 발현 및 DNA 복제수변이 정보를 통합한 데이터베이스를 구축하여 이를 편리하게 이용 할 수 있도록 웹 브라우즈나 검색 기능을 제공하고 있다. GEMCCL 은 인간 암 세포주의 분자적 특성을 찾고자 할 때 참고할 데이터베이스로서 기능을 할 수 있을 것으로 기대된다.;Cancer cell lines are essential resources for biomedical researches such as functional studies and screening experiments for developing therapeutic targets. Proper choice of cell lines that are suitable for experimental purpose is often difficult because the genotype and/or expression data are missing or scattered in diverse resources. Here we report the development of GEMICCL, an online database resource of human cancer cell lines that provides the genotype and expression information. We have collected the mutation, gene expression, and copy number variation (CNV) data from three representative databases on cell lines – CCLE (Cancer Cell Line Encyclopedia), COSMIC (Catalogue of Somatic Mutations in Cancer), and NCI60. In total, GEMICCL includes 1,406 cell lines from 185 cancer types and 29 tissues. Mutation, gene expression, and CNV information is available for 1,334, 1,304, and 1,365 cell lines, respectively. Since the microarray platforms are different for each database, we removed the batch effect using Combat software and re-processed the whole data of gene expression and SNP chips. The cell line information was standardized using Cellosaurus from ExPASy. Our user interface supports diverse queries where cancer types, tissues, genotypes, and gene expression conditions can be combined. For example, users can easily identify lung cancer cell lines with EGFR L858R mutation and browse the gene expression or CNVs in specific genomic region for those cell lines. Providing molecular characteristics as well as the clinical information, we believe that GEMICCL would be a valuable resource for many biomedical researches for functional or screening studies. GEMICCL is available at http://gemiccl.ewha.ac.kr.
Fulltext
Show the fulltext
Appears in Collections:
일반대학원 > 바이오정보학협동과정 > Theses_Master
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

BROWSE