Identifying Hierarchical Structure in Biological Sequences based on Context-Free Grammars

문맥자유문법에 기반한 생물학적 시퀀스 분석에 대한 연구
Galbadrakh Bulgan
대학원 컴퓨터공학과
이화여자대학교 대학원
The thesis addresses to explain a biological sequence through the Context-Free Grammar that is one of the Linguistics techniques. Analyzing and understanding patterns of a gene sequence would be beneficial for Biology research like as DNA sequencing or finding a gene’s specific characters. First of all, Formal Language Theory background research works are mentioned. It explains the Chomsky hierarchy by Noam Chomsky and uses one Context Free Grammar out of that hierarchy to analyze cancer gene sequence and find unique characteristics. We used the SEQUITUR algorithm, which is one of the key algorithms made based on Context Free Grammar, and run the gene sequence in a SEQUITUR program. Secondly, we explained algorithms that are used for creating hierarchical grammars and compress a string sequence. There are two kinds of algorithms and one of them is researched here. The SEQUITUR algorithm is a representation of the algorithm that identifying hierarchical grammars. And the SEQUITUR algorithms was used for human cancer gene sequences and finding hierarchical grammars from them. Finally, human genes are numerous, thus we chose genes that can be grouped together by some unique trait for this research and came up with the human cancer gene. We researched Bladder cancer, breast cancer and so on, up to 6 types of cancers, totaling 140 genes. In order to compare the difference between cancerous and non cancerous genes, 140 non-cancerous genes were used. Finally, so as to confirm and compare the results from the human cancer genes we also analyzed similar cancer genes of mice. Through this research, we could not find meaningful unique traits of the cancer genes but we could analyze the various sequence patterns of the genes and explain the effect of the patterns in compressing the gene sequence.;형식언어론은 오직 언어학에서만 쓰였던 시대가 지나고 현재 여러 분야에서 쓰여지고 있다. 그 중 하나가 생물학 쭉이다. 생물학적인 서열을 하나의 언어라고 여기고 RNA 이차 구조를 추측하는데와 유전자 서열에 분석할 때 많이 이용한다. 본 논문에서 노암 촘스키의 만든 촘스키 계층을 설명하고 그 계층 중 하나 문맥자유문법을 사용해서 암 유전자의 서열에 분석하고 유전자를 한 언어로서 특성을 찾아내려고 노력했다. 문맥자유문법을 바탕으로 만들어진 알고리즘의 대표로 SEQUITUR 알고리즘을 이용하고 SEQUITUR 프로그램에 유전자의 서열을 돌려봤다. 이 SEQUITUR 프로그램은 문맥자유문법의 바탕으로 유전자 서열에서 문법을 만들고 또 서열을 압축해 준다. 인간의 유전자 개수가 많아서 어떤 특징으로 묶여져 있는 있는 유전자들을 연구에 이용하기 위해서 사람 암 유전자들을 선택했다. 방광암, 유방암 등 6가지 암 중류의 140개 정도 유전자를 연구해 봤다. 그리고 암과 암이 아는 유전자들의 차이를 보기 위해서 또 140개 암이 아닌 유전자 서열을 분석했다. 마지막으로 사람 암 유전자들에서 찾아낸 결과를 확인하고 또 비교하기 위해서 암 유전자들과 같은 쥐 유전자들을 비교했다. 이 연구로 통해서 암 유전자들이 의미 있는 특성을 찾아내지 못 했지만 유전자 속하는 여러 가지 서열 패턴을 분석하고 요약할 수 있었고 그 패턴들이 유전자 서열을 압축할 때 어떤 영향을 미치는지를 설명했다.
일반대학원 > 컴퓨터공학과 > Theses_Master
