View : 964 Download: 0

XML 문서의 내용 기반 검색을 위한 영역-경로 인덱싱 기법

Title
XML 문서의 내용 기반 검색을 위한 영역-경로 인덱싱 기법
Authors
최은혜
Issue Date
2004
Department/Major
과학기술대학원 컴퓨터학과
Publisher
이화여자대학교 과학기술대학원
Degree
Master
Abstract
XML(Extensible Markup Language)은 쉽고 일관된 방법으로 데이터를 포맷하고 전송하는데 사용한다. XML은 그 유연성 때문에 웹상에서 데이터와 각종 문서 교환을 위한 표준으로 간주되고 있다. XML은 전통적인 데이터와 달리 정형화된 구조를 갖지 않고 관계형 데이터나 객체 지향 데이터에 의하여 표현되지 못하는 비정규적인 데이터를 자연스럽게 모델링 할 수 있도록 한다. 그러므로 이러한 특징을 가지는 XML 정보량이 더욱 증가함에 따라 XML을 효율적으로 관리하는 방안을 모색하기 위해 연구들이 활발히 진행되고 있다. 이를 위해 XML을 중심으로 한 여러 응용 기술들이 개발되고 있으며 XML을 기존의 데이터베이스를 활용하여 관리하거나 또는 기존 시스템과 통합하고자 하는 연구와 더불어 XML 문서의 계층적 구조의 특성을 효율적으로 지원하기 위한 인덱싱 기법에 대한 연구가 함께 이루어지고 있다. 그러나 기존의 연구들은 대부분 내용 검색 또는 구조 검색에 대한 한가지 기법에 편향적인 방법이나 메커니즘을 제시하고 있어서 다양한 질의에 대한 효율적인 인덱스 구조를 고려하지 않는다. 따라서 질의시 명확한 응답 결과를 반환하지 못하거나 사용자가 XML 문서에 대한 구조 정보를 모두 파악하고 있어야하므로 사용자 편의를 제공하지 못하는 등의 제한점을 가지고 있다. 특히 수평적으로 넓게 퍼지고 깊이 내포된 구조를 가지는 XML 문서에서 원하는 정보를 정확히 검색하기 위해서는 불필요한 조인과 함께 데이터 증가에 따른 엄청난 탐색 비용 문제에 직면하고 있다. 따라서 기존연구의 이러한 문제점들을 해결하기 위해 XML 문서에서 엘리먼트와 애트리뷰트 및 값에 대하여 그것의 내용과 경로에 대한 정보를 한꺼번에 인덱싱함으로써 내용 검색과 구조 검색을 혼합한 여러 유형의 질의문에 대하여 높은 검색 성능을 보이는 새로운 인덱싱 기법을 제안하였다. 이를 이용하여, XML 문서에 대하여 내용 기반 검색을 위한 질의 유형을 평가 기준으로 하여 성능 평가를 수행함으로써, 본 논문에서 제시한 인덱싱 기법에 대한 질의 성능의 효율성을 검증하였다.;Extensible Markup Language (XML) is a simple, very flexible text format to help organize and manage text-based information. Contrary to a traditional data, XML can systematize with an informal structure. XML provides a widely used standard for labeling the structure and content of data. XML is also playing an increasingly important role in the exchange of a wide variety of data on the Web and elsewhere. With the rapid emergence of XML as a standard for data exchange over the Internet had led to considerable interest in the problem of data management requirements such as the need to store and query XML documents. So, as Internet and Web becomes wide-spread and the number of XML documents explosively grows the importance of efficient management for XML documents increases as well. Especially, Indexing techniques are needed to efficiently support hierarchical structural properties. XML queries are represented as regular path expressions and evaluated by traversing each object of the tree. Some indexes are proposed to fast evaluate regular path expressions. However, There are several drawbacks in the previous indexing work. One is that they have no regard for efficient index structure. That is, they may not cover all possible paths because they require a great amount of disk space. The other is that when we want to search for correct information, there is an increase in the number of a join operation as the path length of a query increases. In order to efficiently solve these problems in previous work, in this paper, we proposed the novel indexing technique which indexes contents and paths of elements, attributes and values in XML documents at a time. Especially, we suggested an optimized traversing which uses the region-path index. Minimizing traverse of not only data object but also index object, we can execute the XPath expressions fast. That is, we devised a region-path index scheme as a new index scheme to efficiently process queries with extended path expressions. And it compresses the key by hashing procedure, which results in fast node search. The new index scheme provides better performance than previous index schemes, and is practical since it can be implemented by little modification of leaf record of a B+ tree index. We conducted diverse experiments to show that our indexing technique achieves a better performance than the other approach in various kinds of queries composed of content based and structure based retrieval.
Fulltext
Show the fulltext
Appears in Collections:
과학기술대학원 > 컴퓨터학과 > Theses_Master
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

BROWSE