View : 10 Download: 0

Semantic web - based biological data integration

Title
Semantic web - based biological data integration
Authors
서지혜
Issue Date
2008
Department/Major
대학원 생명·약학부생명과학전공
Publisher
이화여자대학교 대학원
Degree
Master
Abstract
생체조절 네트워크는 그 중요성으로 인하여 국내외적으로 다양한 연구가 활발히 진행되고 있는 분야이다. 이로써 통합된 데이터로부터의 분석이 요구 되어 지고 있다. 하지만 생물학적 데이터의 통합에 있어서 통합 자체에 대한 의미부여로 인해 마구잡이의 통합이 늘어나면서 데이터의 수정이 원활하지 않아 최신성이 떨어지고, 다양한 형식의 통합이 잘 이루어지지 않아 호환성에도 문제가 생기고, 중복된 데이터가 많아 시스템 효율성도 떨어지고 있다. 이질적인 성격의 생물학적 데이터를 하나의 포맷으로 표준화 하고, 많은 양의 데이터를 효율적으로 이용하기 위한 컴퓨터의 고도의 기술이 적용된 시스템이 필요하다고 느꼈으며, 그 시스템을 이용하여 생물학적 의미도 찾을 수 있어야 한다고 느꼈기 때문에 이 연구를 하게 되었다. 생물학적 데이터는 데이터베이스 마다 별개의 식별자를 가지고 있으며, 같은 대상에 대해서 다양한 이름이 부여되고, 컴퓨터는 이를 처리할 때 다른 대상으로 본다. 이로 인해 다양한 종류의 네트워크 데이터를 쉽게 교환하고 통합하는 것은 생물학 연구의 기반으로 중요한 일이기 때문에 세계적으로 많은 표준화 작업이 진행되고 있다. 특히 XML 기반의 PSI-MI, RDF 기반의 BioPAX 와 같은 훌륭한 표준안이 등장했지만, 이들을 통합하는 데에는 또 다른 문제점이 있다. XML 기반의 체계적으로 세분화된 PSI-MI 데이터 온톨로지를 BioPAX에 적용시킬 수 있도록 BioPAX가 고안되었지만, binary data를 복잡한 pathway에 넣는 일은 좀처럼 쉬운 일이 아니다. 이질적 성격의 데이터를 체계적으로 포함할 수 있는 BioPAX 모델에 맞춰 나가야 하는 것은 분명 하나 기존의 데이터의 포맷 변환이 RDF 기반으로 이루어져야 하는 것이 선행되어야 한다. 본 논문에서는 많은 데이터가 있지만, PSI-MI 형식을 따르는 4가지 PPI 데이터베이스 (IntAct, HPRD, MINT, DIP)을 인간 데이터 위주로 통합하였고, KEGG의 Signaling pathway의 경우 binary interaction 형식을 취하고 있어서 통합하였고, 전사조절인자 결합 부위 및 전사조절 관계의 대표적인 데이터 베이스인 TRANSFAC 데이터를 통합하였다. 파이선 언어를 이용해서 이질적인 데이터들을 모으고, RDF 의미, 구조, 문법에 맞는 Template를 만들었다. RDF Template를 만들 때 IntAct, MINT, HPRD, DIP, KEGG, TRANSFAC의 데이터를 ‘PPI’, ‘Transcription regulation’, ‘Indirect’로 분류하였다. 그리고 RDF 저장소인 Sesame를 로컬에 설치한 후 Template에 맞게 RDF 형식으로 변환시킨 데이터를 그곳에 저장하였다. 이 데이터의 확인은 sesame 내부에서 연동 가능한 SeRQL를 이용하여 질의를 던져 데이터를 확인하였다. 그 결과 ‘PPI’ 유형 데이터 55,706개, ‘Transcription regulation’ 유형 데이터 12,432개, ‘Indirect’ 유형 데이터 365개가 RDF형식으로 변환되었다. 각 데이터의 변환이 잘 이루어졌고, Template를 잘 제작했는지는 gravity TOOL을 이용해 확인하였다. 추가로 생물학적으로 중요한 몇몇의 모티프를 SeRQL을 이용하여 찾아냈다. 통합한 인간의 binary interaction 데이터로부터 3,368개의 Feed forward 모티프, 2,956개의 co-regulating 모티프, 334개의 co-regulated complex 모티프, 66,682개의 protein complex모티프를 찾아냈다. Binary interaction 데이터의 통합은 언뜻 쉬운 일이고 많은 곳에서 수행 되어져 있고 꽤 좋은 Tool과도 연결이 많이 되어 있다. 하지만 데이터의 통합 자체가 아니라 생물학적 데이터의 통합이 불가피한 상황에서 데이터 표준안들을 분석하여 유용한 표준안들을 선별하여 데이터 베이스 모델의 뼈대를 잡고, 데이터 베이스들을 분석하여 양질의 데이터 베이스들을 엄선하여 시멘틱 웹 기술인 RDF 기반의 binary interaction데이터 통합을 수행하였다. 또한 통합에서 미치는 것이 아니라 다른 성격의 데이터 들을 포용할 수 있고, 그 형태를 유지하면서 데이터를 수정하고, 업로드 가능한 효율적인 시멘틱 웹 기반의 시스템이 될 수 있다는데 의의가 있다. 즉, RDF 기반의 Binary interaction 데이터 통합은 최종 목표이면서 이 시대에 꼭 필요한 유전자-질병-신약의 통합 정보시스템 구축을 위한 기본이 되는 연구라 여겨진다.;Physiology regulation network has recently received great attention worldwide and various currently ongoing research projects deal with it. Therefore, it is required to develop an analytical method for integrated data. However, when integrating biological data, it becomes difficult to modify data because they are randomly chosen in massive amount from various databases. Also, databases become inefficient because sometimes data are not interchangeable, and they are redundant. I performed this research because I thought we are in need of computerized system to find biological meaning by standardizing massive heterogeneous biological data. Each biological data receives different identifying names from each database, and the computer recognizes them as different objects. Therefore, standardization of data to facilitate integration and interchange among network data become an important task in biological research field, and the work is carried on by many people worldwide. Particularly, XML-based PSI-MI, RDF-based BioPAX are great example of standardization, but there is a problem in integrating these databases. Thus, we need to utilize BioPAX model to integrate heterogeneous data systematically, but the model should be based on RDF format. Out of a great amount of data, I focused on human data from four different PPI databases (IntAct, HPRD, MINT, DIP), which are in PSI=MI format. For KEGG signaling pathway, the data were in binary interaction format, I used them for integration. In addition, I included data from TRANSFAC database, since they are the most well-known database for transcriptional regulation, transcription factor binding site regulation. We integrated heterogeneous data, and constructed templates which coincide with RDF sementics, structure and syntax. When constructing the template, I categorized binary data obtained from IntAct, MINT, HPRD, DIP, KEGG, TRANSFAC into 'PPI', 'Transcription regulation' and Indirect types. And we generated RDF format data according to the template, and saved it to the sesame, the storage for RDF data files, which was installed at local. The generated data were confirmed by querying with sesame-linked SeRQL. As a result, 55,706 ‘PPI’ type data, 12,432 ‘Transcription regulation’ type data, 365 ‘Indirect’ type data were transformed to RDF format. We verified our data were deposited into the database perfectly by using GRAVITY, a visualization tool for RDF data format. In addition, we extracted some Network motifs, which deemed to be biologically important by querying using SeRQL. We found 3,368 Feed forward motif sets, 2,956 co-regulating motif sets, 334 co-regulated complex motif sets and 66,682 protein complex motif sets. Binary interaction data integration seems an easy task, and the work was done by many research groups and there exist various computerized tools for doing it. However, we are currently in need of biological data integration, not just data integration. Thus, I analyzed already standardized data, and collect good-quality databases, and performed RDF-based binary interaction data integration using semantic-web technology. Also, this work is a semantic-web based system, so people can easily modify and upload data while retaining its original format. In other words, we believe RDF-based binary interaction data integration will become the ultimate goal for many biological data integration system developers, and it must be done to establish an integrated information systems for gene-disease-drug relationship.
Fulltext
Show the fulltext
Appears in Collections:
일반대학원 > 생명·약학부 > Theses_Master
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE