View : 35 Download: 0

XML 문서의 색인 저장기법에 대한 성능평가

Title
XML 문서의 색인 저장기법에 대한 성능평가
Authors
강소희
Issue Date
2002
Department/Major
과학기술대학원 컴퓨터학과
Publisher
이화여자대학교 과학기술대학원
Degree
Master
Abstract
기존의 XML 문서의 저장에 대한 연구는 문서 자체를 저장하는 기법과 XML 문서에 대한 색인 기법 개발에 치우쳐 있다. 따라서 이렇게 제시되고있는 색인 기법들을 적용한 색인을 어떻게 저장할 것인가에 대한 연구는 미흡하다. 대개의 경우 XML 문서의 색인 저장 방법은 XML 문서가 가지고 있는 고유의 특성인 구조 정보와 내용 정보를 전혀 분리하고 있지 않다. 하지만 XML 문서를 검색 할 때에는 구조 정보 검색과 내용 검색, 구조와 내용이 혼합된 검색이 모두 지원되어야 하므로 XML 문서의 색인을 구조 정보와 내용 정보로 나누어 저장하는 방법을 연구하는 것이 필요하다. 따라서, 본 논문은 XML 문서의 색인을 구조 색인과 내용 색인으로 나누고, 색인 저장 매체에 따라 DBMS에 저장하는 것과 file system에 저장하는 것을 조합하여 성능을 평가한다. 먼저 문서의 DTD와 인스턴스로부터 parsing을 통해 문서의 구조를 분석한 후, 문서의 계층 구조와 엘리먼트들 간의 관계 정보를 담고 있는 ETID(Element Type IDentifier)를 기반으로 XML 문서의 구조 정보 및 내용을 추출한다. 엘리먼트 타입에 따라 생성된 구조 정보와 내용을 색인화하고 XML 문서를 재구성한 후, 작성된 구조 색인(SI: structure index)을 저장 매체에 따라 DBMS와 file system으로 나누어 저장하는 것과 내용 색인(CI: content index)을 DBMS와 file system에 저장하는 방법을 각각 조합하여 SI_FILE + CI_FILE, SI_FILE + CI_DBMS, SI_DBMS + CI_FILE, SI_DBMS + CI_DBMS 의 4가지 모델을 만든 후 각 경우에 대해 성능 평가 실험을 한다. 따라서, 본 색인 저장법에 대한 성능 평가를 통해 구조화된 문서인 XML의 구조 정보 검색과 내용 검색을 지원하는 동시에 빠른 검색 속도도 지닌 모델을 제시하여 새로운 색인 저장 모델을 제안 할 수 있는 기초 자료를 제공하고자 한다.; XML is a markup language for documents containing structured information. In recent, with rapid increase of information requirements from various applications such as digital library, CSCW, Web information services and so on, there have been researches on XML document systems that effectively maintain XML documents. Most of XML storage systems are implemented on DBMS. DBMS is so stable and highly efficient to store and manage data. However, DBMS is short of querying semi-structured documents efficiently such as XML documents because its origin is from managing structured data. Largely, there are 4 steps of managing XML documents- index generation, index storing, content storing, querying-. Among that steps, performance may vary according to the combinations structure index(SI) storage and content index(CI) storage techniques. I evaluate performance of various index storage techniques for querying XML documents efficiently. There are 4-cases- SI_FILE+CI_FILE, SI_FILE+CI_DBMS, SI_DBMS+CI_FILE, SI_DBMS+CI_DBMS - according to the combinations of structure index storage techniques and content index storage techniques. The results of performance evaluation suggest what the best combination of index storage techniques and content storage techniques. It will provide a guide when computer programmers develop XML storage systems. As a result, it supports the architecture of XML storage systems for efficient querying. Moreover, it can be suggested for the new index technique based on this research.
Fulltext
Show the fulltext
Appears in Collections:
과학기술대학원 > 컴퓨터학과 > Theses_Master
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE