View : 136 Download: 0

S. cerevisiae 단백질 위치정보와 Gene Ontology 기반 MAP Kinase PPI 신호전달 경로 추출 및 예측 LocSPF 알고리즘 구현

Title
S. cerevisiae 단백질 위치정보와 Gene Ontology 기반 MAP Kinase PPI 신호전달 경로 추출 및 예측 LocSPF 알고리즘 구현
Authors
조미경
Issue Date
2009
Department/Major
대학원 컴퓨터정보통신공학과
Publisher
이화여자대학교 대학원
Degree
Doctor
Advisors
박현석
Abstract
생명공학 기술이 발전함에 따라 질병에 대한 많은 치료제가 개발되어 인류의 수명이 연장되고 있다. 하지만 아직도 세포 내의 분자적 수준에서의 질병에 대한 연구는 명확히 이루어지지 않고 있다. 세포는 주변 환경으로부터 여러 신호를 받으며, 이 신호를 세포 내로 전달하는 신호전달 체계를 갖추고 있다. 이런 signal pathway는 일련의 단백질들의 상호작용으로 이루어진다. 세포 내 신호전달 경로를 구성하는 유전자와 이로부터 만들어지는 단백질에 대한 연구는 유전적 질병의 원인 및 치료제 개발에 대한 단서를 제공한다. 신호전달 단백질의 데이터베이스는 향후 질병과 유전자간의 연관성을 파악하는데 핵심적인 정보가 될 것이다. 본 연구에서는 Budding Yeast(Saccharomyces cerevisiae) 상호작용 정보와 녹색형광단백질(GFP)을 이용하여 밝혀진 5,495개의 Yeast 단백질을 이용하였다. 단백질 상호작용 데이터는 DIP에서 제공하는 34,797개와 MIPS에서 제공하는 30,429개를 통합한다. 그 중 중복 데이터 19,153개를 제거한다. 고유 상호작용 단백질 46,073개와 논문을 통해 밝혀진 의미 있는 데이터 48개를 추가하여 총 46,121개의 단백질 상호작용 데이터를 입력 데이터로 사용하였다. 신호전달 경로 추출을 위한 과정은 크게 두 가지로 분류 하였다. 첫 번째 방식은 세포 내 단백질 위치정보를 이용하여 가중치를 부여하는 방식이다. 두 번째 방식은 Gene Ontology에서 제공하는 3가지 온톨로지인 CC(cellular component), MF(Molecular Function), BP(Biological Process)를 이용한 방식이다. 이때 세포 내 단백질 위치정보를 활용하는 방식은 단백질 21개 위치에 따른 단백질 위치 가중치와 단백질 상호작용 가중치를 이용하는 방식이다. 단백질 상호작용 데이터를 기반으로 실행화면에서 입력 값으로 시작 단백질과 목표 단백질 그리고 경로길이를 입력 받아 DFS(Depth First Search) 알고리즘으로 모든 가능 경로를 찾는다. 찾은 모든 가능 경로에 방법1과 방법2 알고리즘으로 평가를 실시한다. 평가 최종 값을 높은 값으로 나열하여 최고값을 갖는 그룹에 대해 KEGG 신호전달 경로와 실험에서 목표로 하는 경로가 존재하는 지 유사도를 비교한다. 이때 목표경로가 최고값 그룹에서 찾아짐으로 해서 알고리즘의 우수성을 증명하였지만 동순위에서 다수의 중복값이 발생하여 좀 더 세밀하고 정확한 알고리즘의 성능향상을 위하여 동순위 중복값에 대한 세부 순위를 Gene Ontology를 활용하여 부여하였다. Gene Ontology를 이용하는 방식은 GO정보를 사용하였다는데 차이 점이 있다. GO 정보 적용은 크게 3가지 방식을 적용 하였으며, 이에 따라 1차, 2차, 3차의 실험을 진행 하였다. 1차로 CC의 단백질 위치 정보와 온톨로지의 계층 구조를 활용 단백질간의 신호전달 가능성을 평가하여 신호전달 경로를 예측하는 방식을 적용하였고, 2차로는 1차 평가에 MF의 공통된 분자 기능을 공유 하는지를 평가하여 1차의 결과에 합산하여 적용하였다. 마지막 3차는 1차 2차의 CC, MF 평가 값에 경로의 시작과 종료 단백질의BP(생물학적 프로세스)를 탐색하여 대상 단백질을 공유하는지를 추가하여 세가지 정보를 모두 적용하여 경로를 예측한다. 시뮬레이션에는 MAPK의 신호전달 경로 중에서 High osmolarity 기능인 6개의 상호작용 경로 추출에서 KEGG에서 제공하는 경로와 모두 일치하게 경로를 찾았다. 논문에서 제안한 LocSPF 알고리즘의 우수한 성능을 증명하며 경로 찾기에서 단백질 위치정보의 중요성을 입증하였다. 그러나 가중치 결과 값에 다수의 중복값이 존재함에 따라 정확도 높은 알고리즘을 위하여 GO의 CC, MF, BP 정보를 각각 1차, 2차, 3차의 3번에 걸쳐 적용하고 그 결과를 기술하였다. GO 정보의 적용은 기존의 단백질 위치 정보만으로는 세분화가 불가능 하였던 동일 순위의 경로들을 더 세분화 하는데 사용될 수 있는 가능성을 보였다. 비록 길이7인 경로에서는 SSK2 단백질에 GO 정보가 아직 할당되어 있지 않은 문제로 인해 좋은 성능을 보여주지 못하였지만, 길이6인 경로들에 대해서는 뛰어난 성능을 보여주었다. 세포 내 위치정보를 이용한 신호전달 경로 찾기 및 유전자 온톨로지를 활용한 신호전달 경로 찾기로서는 처음으로 발표되는 연구이다. 많은 생물학자나 컴퓨터공학자들 사이에서 집중이 되는 연구이기는 하지만 아직까지 활발한 연구가 되지 못하는 이유 중에 하나는 단백질 상호작용 신호전달 경로는 너무 빠른 속도로 진행되기 때문에 연구자들의 연구가 어렵다는 것이다. 또한 유전자 온톨로지의 정보에 아직 존재하지 않는 단백질 정보들이 있어 연구가 확대되지 못한 것으로 사료되며 진온톨로지에서 evidence code는 GO 주석 정보의 신용도나 성격을 나타내주는 중요한 정보이기 때문에 좀 더 의미 있는 결과를 도출하기 위해서는 이러한 evidence code값을 평가 값 공식의 파라메터로 적용해야 할 것으로 사료된다. 차기 연구에서는 아직 밝혀 지지 않은 단백질 상호작용을 고려하여 제안한 알고리즘의 성과가 생물학 적으로 어떤 의미가 있는지를 분석하여 신호전달 예측 시스템의 정확도를 높이기 위한 노력이 필요할 것으로 사료된다.;As bio-engineering technology develops, human beings are benefited with reduction of diseases, or lifespan extension. However, still, human beings suffer from many kinds of diseases, and so there is much room for improvement. To overcome diseases, research of human genome is especially important. Through the research, many genetic diseases’ factors can be figured out and people can have clues to developing treatment. Currently, research of interaction between genes has been in progress. The gene interaction data would become the crucial information to figure out relation between genes. Research for developing treatments of certain pathogenic organs can be accomplished. In this research, information of Budding Yeast Interaction and 5,495 Yeast Protein figured through GFP is used. Protein interaction and protein location information are downloaded from DIP and MIPS database which provide protein-protein interaction data. Protein code downloaded is offered with different kinds of formats. DIP code starts with ‘P’ and MIPS code starts with ‘Y’. For code unification, every code is transformed into MIPS code. Protein-protein interaction data integrates 34,797 data provided by DIP with 30,429 data provided by MIPS. Among the data, 19,153 duplicate data is removed. Total 46,121’s protein-protein interaction data is used as an input data. The simulation for extracting signaling pathways is divided into two ways. The first way is weighting on pathways using intracellular protein localization information. The second way is using 3 terms provided by Gene Ontology, CC(Cellular Component), MF(Molecular Function), BP(Biological Process). I divided pathways into two kinds and predicted signaling pathways that include unknown and known proteins by experiments. Then, I compared the similarity of predicted pathways with that of pathways provided by KEGG. The way of using intracellular protein-protein interaction provides the probability of protein localization and protein-protein interaction based on their distributions. The possible pathways are obtained by DFS method with the input values of the start protein and the destination protein. Then, the pathway is analyzed by method 1 and method 2. The program compares extracted pathways with KEGG signaling pathways with the results sorted by descending order, extracting nodes that include maximum values. The way using Gene Ontology differs from the first way in using GO information to calculate interaction probability. GO information applies three ways. I preceded three tests according to the three ways. The first way is to predict signaling pathways by analyzing protein localization information and the probability of protein-protein interaction using ontology hierarchical structure. The second way analyzes if the first analysis shares the common molecular functions and applies it added to the first result. The third way predicts pathways applying the three information of the first and the second CC and MF analyzing results added to the information if it shares BP. The simulation applies interaction pathway extraction about 13 signaling pathways except for pathways with depth 9 among MAPK signaling pathways. As a result, a meaningful result has derived. It especially searches pathways exactly identical to pathways provided by KEGG in high osmolarity function. It demonstrated the importance of protein localization information in searching pathways proving the excellent quality of LocSPF algorithm suggested in this thesis. Research of searching signaling pathways based on information of intracellular protein localization has been completed the first in this thesis. Although many biologists and computer scientists have focused on the research, the research is still on proceed to solve out transient complex problem due to lack of bioinformatics researcher. In the future, more efforts would be required to improve the accuracy of predicting signaling pathway system by analyzing the biological meaning of the suggested algorithm that used unknown protein-protein interaction.
Fulltext
Show the fulltext
Appears in Collections:
일반대학원 > 컴퓨터정보통신공학과 > Theses_Ph.D
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE