View : 769 Download: 0

Analyses of the gene expression data based on co-expression modules

Title
Analyses of the gene expression data based on co-expression modules
Authors
주혜준
Issue Date
2011
Department/Major
대학원 생명·약학부생명과학전공
Publisher
이화여자대학교 대학원
Degree
Doctor
Advisors
이동희
Abstract
Gene expression profiles provide information of transcriptional changes in ten thousands of genes induced by internal or external signals simultaneously. In this study, species specific gene sets or gene modules construction method was presented, and applicability of them to the analysis of microarray data was evaluated through the case study. First, co-expression gene modules for mouse were constructed using ~ 4,000 microarray data. In this process, ordination algorithm and grid based clustering method was used. Mouse co-expression modules were split into the four independent catalogues according to the kinds of the grid used in the definition of gene modules. Each of four catalogues includes 395, 406, 421 and 417 gene modules from DL, DR, UL, and UR type grids, respectively. These gene modules were applied to the reanalysis of microarray data for investigating effect of continuous ERK activation in cell cycle progression. In this analysis through enrichment tests, it was observed that well known target proteins of ERK, such as Elk-1 and AP1 were associated with up-regulation of the gene modules. Also, it was identified that considerable number of miRNAs such as MIR186 and MIR506 were associated with down-regulation of the gene at 7 hour FGF treatment condition. These miRNAs expected to be involved in the unknown several different mechanisms mediating the ERK-dependent down-regulation of the genes mentioned in previous study (Yamamoto et al., 2006). Second, co-expression gene modules version 1 for Arabidopsis were constructed using ~ 1,500 microarray data. Arabidopsis co-expression modules were split into the four independent catalogues according to the kinds of the grid used in the definition of gene modules. Each of four catalogues includes 483, 493, 480 and 484 gene modules from DL, DR, UL, and UR type of grids, respectively. In the analysis of the microarray data for investigating the response of Arabidopsis shoot tissue to nine individual abiotic stress using co-expression gene modules, three types of gene modules were identified: 1) stress specific gene module that are enriched only in certain stress condition, 2) crosstalk gene modules that are enriched commonly in several stress conditions and 3) stress general gene modules that are enriched in more than five stress conditions. For the investigation of interrelationships among the genes included in these gene modules, genetic network among these genes was predicted using reverse engineering algorithm. In this network, connections among BAP1 forming complex with BON protein calcium-dependently, calcium binding EF hands proteins and ethylene family protein were observed. This result suggested that calcium dependent formation of BON/BAP1 complex might be mediated by calcium binding EF hands proteins and that control of growth homeostasis by this BON/BAP1 complex might be mediated by ethylene family protein. Finally, analysis of the microarray data for investigating function of ICE1 protein known as key regulator of cold stress response in Arabidopsis were performed using three different kinds of gene sets and gene modules. Like version 1 co-expression modules, these co-expression modules were split into the four independent catalogues according to the kinds of the grid used in the definition of gene modules. Each of four catalogues includes 395, 406, 421 and 417 gene modules from DL, DR, UL, and UR type of grids, respectively. Functional gene sets were split into the three catalogues considering the number of the gene included in the descriptive level of MIPS functional categories. Each of three catalogues include 114, 246 and 193 gene sets. Metabolic pathway gene sets including 345 gene sets were defined based on the classification of the metabolic pathway related genes provided by Aracyc. In the analysis of microarray data using these gene sets, it was observed that the gene sets associated with well known cold stress response were enriched such as up-regulation of cold shock response gene sets and down-regulation of metabolism related gene sets. In the analysis of microarray data using co-expression genes modules, about thirteen transcription factor were predicted as the ICE1 regulated transcription factors associated with early cold response. Through the literature search, it was identified that HSF4a among the transcription factors is the negative regulator of ZAT12 that inhibits CBF1 and CBF3. Until now, results of three different microarray data analyses using gene sets or genes modules defined in this study have been described. And, in all of three cases, it was observed that considerable number of known and unknown components of gene regulatory network was revealed through enrichment tests of the co-expression gene modules and gene sets defined in this study. This shows that use of these co-expression gene modules and gene sets in analyzing microarray data greatly contribute to the identification of components of complex genetic network and to the understanding of their detailed structures.;유전자 발현 프로파일은 내/외부적 자국에 의해 유도되는 수만개 유전자의 발현변화에 대한 정보를 제공한다. 본 연구는 종(species) 특화적인 유전자세트 혹은 유전자 모듈을 구성하는 방법에 대해 설명하고 있다. 또한 이들을 실제적인 마이크로어레이 데이터 분석에 적용해서 그 유용성을 보여주고 있다. 먼저, 쥐의 동시발현 유전자 모듈을 4천 여 개의 마이크로어레이 자료를 이용해 만들었다. 이 과정에서, 오디네이션 알고리즘과 격자기반 군집화 방법이 사용되었다. 쥐의 동시발현 유전자 모듈은 4가지 종류의 격자를 사용하여 정의된 4가지 독립적인 카탈로그로 구성되어있다. 각 카탈로그는 DL과 DR, UL, UR 격자를 사용하여 정의된 395개와 406, 421 그리고 417개의 동시발현 유전자 모듈을 포함하고 있다. 이들 유전자 모듈은 ERK의 지속적인 활성이 세포주기의 진행에 미치는 영향을 알아보기 위한 마이크로어레이 데이터의 분석에 적용되었다. 이 분석에서는 잘 알려진 ERK의 타깃단백질인 Elk-2와 AP1 등이 유전자 모듈의 유도와 관련 되어있음을 확인해 볼 수 있었다. 또한 miRNA186과 miRNA506 같은 상당수의 miRNA가 7시간 동안 FGF 자극에 노출된 세포에서 억제된 유전자 모듈과 관련 되어있음을 확인해볼 수 있었다. 이들 miRNA는 이전 연구에서 언급되었던 ERK 의존적으로 유전자 억제를 중재하는 알려지지 않은 몇 가지 다른 메커니즘과 연루돼 있을 것으로 추정된다. 두 번째로, 애기장대의 동시발현 유전자 모듈을 천오백 여 개의 마이크로어레이 자료를 이용해 만들었다. 쥐의 경우처럼, 이들 동시발현 유전자 모듈은 4가지 종류의 격자를 사용하여 정의된 4가지 독립적인 카탈로그로 구성되어있다. 각 카탈로그는 DL과 DR, UL, UR 격자를 사용하여 정의된 483개와 493, 480 그리고 484개의 동시발현 유전자 모듈을 포함하고 있다. 이들 유전자 모듈은 아홉가지 비생물학적 스트레스에 대한 애기장대의 유전자 수준에서의 반응을 알아보기 위한 마이크로어레이 데이터의 분석에 적용되었다. 이 분석을 통해, 스트레스 반응과 관련해서 3가지 타입의 유전자모듈이 발견되었다. 즉, 1) 특정한 스트레스 조건에서만 반응성을 보이는 스트레스 특이적 유전자 모듈, 2) 서너 개 스트레스 조건에서만 공통적으로 반응성을 보이는 크로스톡 유전자 모듈 그리고 3) 5개 이상의 스트레스 조건에서 공통적으로 반응성을 보이는 스트레스 범용적 유전자 모듈. 이 결과를 바탕으로, 유전자 모듈에 포함된 유전자들 사이의 관계를 알아보기 위해 리버스 엔지니어링 알고리즘을 이용한 유전자 네트워크가 작성되었다. 이 네트워크에서는 칼슘의존적으로 BON 단백질과 복합체를 형성하는 BAP1 단백질이 calcium binding EF hands proteins 연결되어있고, 이들은 다시 ethylene family protein과 연결되어 있었다. 이 결과는 BON/BAP1의 칼슘 의존적인 복합체 형성이 calcium binding EF hands proteins에 의해 매개될 것이라는 것을, 그리고 이들 복합체에 의한 식물의 성장 향상성 조절이 ethylene protein을 통해 이루어 진다는 것을 암시한다. 마지막으로, 애기장대의 저온스트레스 반응의 중요한 조절인자로 알려진 ICE1 단백질의 기능을 알아보기 위한 마이크로어레이 데이터의 분석이 새로운 버전의 동시발현 유전자 모듈과 추가적으로 작성된 기능 유전자세트와 대사관련 유전자세트를 함께 사용하여 진행되었다. 이전 버전의 동시발현 유전자 모듈처럼, 이 모듈도 4가지 종류의 격자를 사용하여 정의된 4가지 독립적인 카탈로그로 구성되어있다. 각 카탈로그는 DL과 DR, UL, UR 격자를 사용하여 정의된 395개와 406, 421 그리고 421개의 동시발현 유전자 모듈을 포함하고 있다. 기능 유전자세트는 MIPS의 기능분류코드를 기반으로 3가지 독립적 카탈로그로 작성되었다. 이들은 각각 114개, 246개 그리고 193개의 유전자 세트를 포함하고 있다. 346개의 유전자 세트를 포함하고 있는 대사관련 유전자세트는 Aracyc에서 제공하는 특정 대사경로들에 관여하는 유전자정보를 기반으로 작성되었다. 이들 주석(annotation) 기반 유전자세트를 이용한 데이터 분석에서는 저온쇼크반응 유전자세트의 유도나 다양한 대사관련 유전자세트들의 억제 같이 잘 알려진 저온 반응 유전자 세트들의 유도나 억제가 관찰 되었다. 동시발현 유전자 모듈을 유전자세트를 이용한 데이터 분석에서는 저온 초기에 ICE1에 의해 그 발현이 조절될 것으로 예상되는 약 30개의 전사인자를 예측하였다. 문헌조사 결과, 여기에 포함된 전사인자 중 하나인 HSF4a가 CBF1과 CBF3의 발현을 억제하는 ZAT12의 활성을 방해하는 역할을 하는 전사인자임을 확인하였다. 지금까지 살펴본 3가지 서로 다른 주제의 마이크로어레이 데이터 분석 결과는, 본 연구에서 작성된 유전자 모듈이나 유전자세트를 이용한 마이크로어레이 데이터 분석이 유전자 조절 네트워크의 구성요소들의 선별과 이들 구성요소와 연관된 복잡한 유전자 네트워크의 자세한 구조를 예측하는데 크게 기여할 수 있다는 것을 보여준다.
Fulltext
Show the fulltext
Appears in Collections:
일반대학원 > 생명·약학부 > Theses_Ph.D
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

BROWSE