Analyzing the Markov Property of the Chromatin States of the Human Epigenetic Annotations

인간 유전체 주석 기반의 염색질 상태 별 마르코프 특성 분석
A large proportion of human noncoding DNA region had been known to have no biological function. However, unprecedented technical advances have started to convert unannotated noncoding DNA region into highly annotated functional regions. Recently, Ernst et al. (2011) applied multivariate hidden Markov models to the biological assay dataset from the Broad Histone track of ENCODE, building annotation maps of fifteen chromatin states, known as ChromHMM [13]. Thus, recent advances in computational epigenetics such as ChromHMM provide new insights into n-gram probabilistic language models for parsing noncoding DNA regions [6, 43]. In this thesis, the frequency of n-grams of regional DNA sequences from fifteen chromatin states of Broad Histone Track are thoroughly analyzed, applying biological language modelling to n-grams. It has been shown that a few particular n-grams are found in abundance in one chromatin state but occurring very rarely in other states, thereby serving as chromatin state signatures. We discuss the significance of the patterns found, as well as their potential use in the special statistical models of nucleotide sequences necessary for developing algorithms for the computational analysis of functional units in noncoding DNA regions. We performed preliminary experiments to test whether each of the fifteen chromatin states contained in the commonly annotated chromatin regions of the ENCODE Tier 1 cell types possessed Markov properties by applying third to sixth order Markov chains. We presented a pioneering study to provide the Markovian order statistics of nucleotide sequences of the whole human genome [25]. The results of our simulation indicate that some of the chromatin states possess a stronger Markov property than others. We discuss the significance of our findings in statistical models of nucleotide sequences that are necessary for the computational analysis of functional units in noncoding DNA region. A follow up to our previous study, extended this analysis and continued our ongoing efforts to build a Markov property map of chromatin blocks of the human genome by publishing a sequence-based Markovian chromatin map, called SeqChromMM. In building the SeqChromMM, we modified our initial Markov models by dissecting the ChromHMM blocks into 200-base pair (bp) units, analyzing the blocks in relation to different cell lines, and iteratively rebuilding the Markov chains. Our map is an important resource for statistical models necessary to develop algorithms to predict chromatin states or genes in relation to the vast amount of biological assays of large-scale epigenetic projects.;그동안 인간의 유전체 서열 중 상당 부분에 해당하는 비암호화 DNA 영역은, 생물학적인 기능이 없다고 알려져 있었다. 하지만 기술의 발전으로 인하여 생물학적 기능들이 주석화가 가능하게 되었고, Ernstetal의 연구에서는 [12], 인코드(ENCODE)의 브로드 히스톤 트랙(Broad Histone track)이라는 인간 유전체의 메틸레이션 실험 데이터에 은닉 마르코프 모델을 적용하여, 15개의 염색질 상태를 주석화함으로써 ChromHMM이라는 유전자 기능 지도를 완성하였다. 최근 이와 같은 컴퓨터 후성 유전학의 발달로 인하여, 비암호화 DNA 영역에 대한 n-그램 언어 모델이 조명받게 되었다. 이 논문에서는 ChromHMM BED 파일을 이용하여, 각 염색질 상태의 ‘n-그램 빈도수 분석’을 통하여 염색질 상태 별 특징을 찾아본다. 그 결과 각각의 염색질 상태에서, 몇몇의 특정한 n-그램 이 다른 염색질 상태에서 보다 빈번히 출현하고 있고, 이는 생물학적 시그니쳐로 기능할 수 있다고 보았다. 또한 이러한 n-그램 패턴들을 비암호화 DNA 영역의 기능 분석을 위한 알고리즘을 개발하는데 이용 될 수 있을지에 대하여 논의하였다. 또한 이 논문에서는, 인코드의 1계층 셀라인 데이터에서 각각의 15개 염색질 상태가 마르코프 특성을 갖고 있는지를 알아보기 위하여, 3~6차 마르코프 체인 을 이용한 실험을 진행하였다. 이 연구는 마코비안 특성을 이용하여 인간 전체 유전체의 염기서열을 통계내는 선구 연구이고[25], 연구 결과, 특정 염색질 상태에서는 다른 염색질 상태에서 보다 강한 마르코프 특성을 가지고 있음을 알 수 있었다. 비암호화 DNA 영역의 기능 분석에 있어서, 앞서 언급한 염기 서열의 통계학적 모델의 중요성에 대하여 논의하였다. 앞서 연구한 내용을 토대로 인간 유전체의 염색질 상태에 대한 마르코프 특성 지도를 구축하고, SeqChromMM이라고 이름하였다. SeqChromMM에서는, 다른 셀라인 간의 관계 분석을 위하여, 기존 마르코프 모델의 염색질 블록을 200bp 단위의 작은 블록으로 나누어 구축하였다. SeqChromMM 지도는, 염색질 상태 예측 알고리즘 개발이나, 후성 유전학의 방대한 생물학적 실험 데이터를 분석하는 통계학적 모델 등에 매우 중요한 자원으로 사용될 것으로 생각된다.
