View : 831 Download: 0

대사 작용 정보 자동 추출을 위한 텍스트 마이닝 시스템 설계 및 구현

Title
대사 작용 정보 자동 추출을 위한 텍스트 마이닝 시스템 설계 및 구현
Other Titles
Text Mining System for Metabolic Engineering Documents
Authors
최은정
Issue Date
2005
Department/Major
과학기술대학원 컴퓨터학과
Publisher
이화여자대학교 과학기술대학원
Degree
Master
Abstract
Metabolic engineering and metabolic flux analysis have become an important method to understand metabolic system and to alternate metabolic pathways in an organism purposefully. To analysis metabolic system, it requires not only experimental technology such as recombinant DNA technology but also huge amount of information on metabolic reactions and mathematical modeling, however data and information on metabolic reactions still exists primarily in the research papers. So, the goal of this thesis is to provide an automated method for extracting metabolic reactions from the documents about metabolic engineering. We developed a text mining system which is composed of a named entity recognizer and a metabolic reaction identifier. First named entities are identified by noun-phrase recognizer based on Part-of-Speech rules and word patterns. Then metabolic reactions are identified by the pattern matching method, and pattern set for metabolic reactions is constructed with typical words explaining metabolic reactions and fluxes. To evaluate this system, 122 papers were chosen from the research papers about the metabolic system of Streptomyces coelicolor, and the system has a precision of 70.8% and a recall of 75.0%.;미생물의 신진대사 과정을 우리가 원하는 방향으로 조절할 수 있다면, 의약물질과 같은 유용한 화학물질을 공장이 아닌 세균과 같은 미생물 세포 내에서 대량으로 생산하거나 공해물질을 분해하도록 하는 것이 가능하다. 그러한 미생물의 대사 과정을 유전공학 및 화학공학 등의 기술을 이용하여 인위적으로 조작하는 것을 대사공학(metabolic engineering)이라 한다. 비교적 최근 등장한 연구 분야인 대사공학은 그 산업적 파급효과와 여러 분야로의 응용 가능성으로 크게 주목 받고 있다. 최근 대사 공학은 Trial-and-error식으로 실험을 진행하는 대신, 세포 내의 대사 흐름을 수학적 통계적 모델링 기법을 적용하여 미리 분석하고 대사 체계를 디자인하는 방식으로 연구가 진행된다. 이를 위해 우선 생물체의 대사 모델 구축 과정이 선행되어야 하는데, 그 과정에서 세포 내에서의 대사 흐름 관계에 대한 많은 기반 정보가 요구된다. 그러나 현재까지는 그러한 정보를 얻기 위해 연구자들이 관련 연구 논문을 직접 읽어 얻는 방식으로 진행되어 왔기 때문에 생물체의 대사 모델 구축 과정에 많은 시간과 인력이 소비되고 있다. 따라서 그러한 시간, 인력 낭비를 줄여 효율적으로 대사 모델을 구축하여 연구에 적용하기 위해서는, 대사 관련 연구 논문으로부터 대사 흐름 관련 정보를 수집하는 단계를 자동화하기 위한 시스템이 개발이 필요하다. 본 논문에서는 미생물의 대사 체계나 대사 공학 관련 문헌들로부터 대사 작용 관계를 인지하여 추출하는 시스템을 설계하고 구현한다. 우선 문헌 상에서 대사 작용에 관여하는 물질들의 개체명을 인식하기 위해 이름을 구성하는 단어의 외형적 특징과 품사 정보 등을 이용하였다. 다음으로 연구 문헌에서 대사 흐름 관계를 설명하기 위해 빈번하게 나타나는 용어들과 해당 문장의 문법 구조, 품사 정보 등을 이용한 패턴 비교 방식을 통해 대사 작용 관계 정보를 인식하도록 하였다. 또한 자동으로 추출된 대사 작용 정보 및 문헌들은 데이터베이스로 구축하여, 생물학 분야 연구자가 손쉽게 대사 흐름 관련 정보를 검색하고 해당 정보가 수록된 문헌으로부터 직접 확인하며 수정할 수 있도록 하였다. 구현한 시스템은 토양미생물의 일종인 Streptomyces coelicolor의 대사 체계 관련 연구문헌 122편에 대해 대사 흐름 정보의 추출과 대사 작용 정보의 데이터베이스 구축에 적용하였다. 시스템의 대사 작용 정보 인식 성능을 평가하기 위해 기 구축된 Streptomyces coelicolor의 대사 모델 데이터를 이용하였고, 이를 자동 추출된 데이터와 직접 비교하여 확인하여 시스템의 정확성을 평가하였다.
Fulltext
Show the fulltext
Appears in Collections:
과학기술대학원 > 컴퓨터학과 > Theses_Master
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

BROWSE