View : 285 Download: 0

장거리 의존 문제를 해결하기 위한 표층 텍스트 패턴의 확장

Title
장거리 의존 문제를 해결하기 위한 표층 텍스트 패턴의 확장
Other Titles
Expansion of Surface Text Patterns for Long-Distance Dependency Problem
Authors
이미연
Issue Date
2004
Department/Major
과학기술대학원 컴퓨터학과
Publisher
梨花女子大學校 科學技術 大學院
Degree
Master
Advisors
박승수
Abstract
최근 인터넷의 발달과 확산으로 인해 방대한 양의 정보를 공유할 수 있게 되었다. 또한 정보의 양이 급속하게 늘어남에 따라 그 중에서 사용자가 원하는 정보만을 정확하고 빠르게 찾아낼 수 있는 기술에 대한 필요성도 높아지고 있다. 인터넷 상에서 사용자가 원하는 정보를 담고 있을 가능성이 높은 문서들을 찾아서 보여주는 것을 정보 검색(IR; Information Retrieval)이라고 한다. 그리고 이보다 더 작은 단위의 정보를 찾아서 제공하는 기술로 정보 추출(IE; Information Extraction)과 질의-응답(QA; Question-Answering)이 있다. 정보 추출은 특정 도메인에 대해 텍스트로부터 사용자가 원하는 내용만을 뽑아서 데이터베이스와 같은 구조적인 형태로 가공하는 작업을 말한다. 유사하게, 질의-응답은 사용자의 질의에 대해 짧은 형태의 해답을 제공한다. 이 같은 작업을 수행하기 위한 여러 접근법들이 연구되어 오고 있는데, 최근에는 텍스트 패턴을 사용하는 패턴-매칭 방법이 주목을 받고 있다. 텍스트 패턴(text pattern)은 특정 내용을 담고 있는 문장들이 일반적으로 어떤 형태를 갖게 되는지를 나타내는 어휘적 특성을 말한다. 패턴을 사용하는 방법은 사용자가 원하는 정보의 형태를 몇 가지로 분류할 수 있고, 각각은 특정 형태의 문장으로부터 찾아낼 수 있다는 사실에 기반한다. 패턴을 통한 정보 추출이나 질의-응답은 기존의 다른 방법들에 비해 간단하면서도 높은 성능을 보인다는 것이 이미 알려져 있다. 따라서 최근에는 간단하고 적은 훈련을 통해 정확하고 일반적인 형태의 패턴을 학습하는 방법에 대한 연구가 진행되고 있다. 이에 본 논문에서는 기존의 패턴 학습 방법과 그들이 가진 한계점을 분석하였다. 그리고 이 분야 전반에 걸쳐 우선적으로 해결해야 할 문제로 지적되고 있는 장거리-의존 문제를 완화할 수 있는 새로운 학습 방법을 제안하였다. 이를 위해, 기존의 패턴 형태를 확장하여 각 단어간의 연속·불연속성의 정보를 나타낼 수 있도록 단계적인 학습 방법을 수행하도록 하였다. 이 방법은 기존의 방법보다 간단하면서도 매우 유용한데, 특히 파서(parser)와 같은 부가적인 도구나 온톨로지(ontology)와 같은 외부 지식을 사용했을 때와 비슷한 효과를 얻을 수 있다. 그리고 실제 웹 문서를 통한 실험에서 신뢰할 만한 성능의 패턴을 학습할 수 있음을 증명하였다. 본 논문에서 제안한 패턴 추출 방법은 기존 시스템들의 한계점을 해결할 수 있으며, 다른 도구들에 대한 요구를 줄이면서도 높은 성능을 낼 수 있다. 따라서 전체 시스템의 부하는 줄이면서 정확한 정보를 찾아낼 가능성을 향상시키는 텍스트 패턴 학습 방법이라고 할 수 있겠다.;Recently, the exponential growth of the internet information has led to a great deal of interest in developing useful and efficient tools and methods for information retrieval. These tools help to assist users in finding information from web documents more correctly and faster. Most of the recent Information Extraction(IE) and Question-Answering(QA) systems use external tools and knowledge such as parser, hand-tagged corpora and ontology. However, because of its simplicity, pattern-matching techniques have become the challenging issues for IE or QA systems. Many automated systems for devising good text patterns have developed for the purpose. In this thesis, we surveyed and analyzed existing text pattern extraction methods. Most existing methods suffer some problems like long-distance dependency, over-generation, and recognition of answer phrase. Based on our analysis, we propose a new training and testing method to solve long-distance dependency problem. Also we design and implement a system to find answers more correctly by expanding a form of text patterns through proposed method. In our experiments, we extracted the patterns for 7 question types from retrieved documents by TREC-10 questions. Then, we applied these patterns to test the corpus. We prove the efficiency of our system by comparing it with the performance of existing systems.
Fulltext
Show the fulltextShow the fulltext
Appears in Collections:
과학기술대학원 > 컴퓨터학과 > Theses_Master
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE