View : 38 Download: 0

의미 기반 XML 문서 마이닝

Title
의미 기반 XML 문서 마이닝
Authors
이정원
Issue Date
2003
Department/Major
과학기술대학원 컴퓨터학과
Publisher
이화여자대학교 과학기술대학원
Degree
Master
Abstract
XML allows users to define elements using arbitrary words and organize them in a nested structure. These features of XML offer both challenges and opportunities in information retrieval, document management, and data mining. Therefore, XML-related techniques for storing, indexing, querying, and optimizing XML have been actively developed. However, we also need techniques such as clustering similar XML documents and classifying XML documents that match a sample XML document for building a knowledge base or managing documents. Actually, many EDMS(Electronic Document Management System) and XML Portal mention that they need techniques for XML document mining as future work. If we apply the traditional text mining methods to XML document mining, it is difficult to get accurate mining results because they are developed for unstructured documents and select features from XML documents by only term frequency. Therefore, we propose a new methodology for mining XML documents by taking account of XML semantics (i.e., meanings of the elements and nested structures of XML documents). We develop techniques for XML document analysis considering XML semantics and XML document mining such as clustering and classifying. We also propose taxonomy of XML document types to validate our methodology by evaluating what kind of types and how the types can be processed. It plays a role of supporting validity of our method in addition to accuracy of mining results. Our approach is largely divided into three steps, which are preparations for featuring XML semantics, similarity-based XML document clustering and classification, and building taxonomy of XML document types. The detail procedures are the following. First, we discover an XML structure and identify similarity between XML elements as preparations. We complete to preprocess XML documents by extracting common paths from path expressions, which are composed of minimized structures and already identified similarity between XML elements. For this step, we first have to extract structures not from DTD or XML Schema but from XML documents themselves. And we make them to be unique, minimized, and kept information of tree levels. We employ automata theory to extract unique and minimal structures. We then pick up only elements composed of structures and generate element vectors extended to synonyms, compound words and abbreviations. And we build a similarity matrix between elements, set similarity metric between XML elements, and finally identify similarity between them. Similarity between elements is the basis for discovering structures from XML documents more exactly. At last, we develop an adapted sequential pattern mining algorithms for finding maximal common structures between multiple documents. Second, we propose models to compute similarity for clustering and classifying XML document. Accurate quantification of similarity makes it possible to mine XML documents more accurately. We first make symmetric similarity matrix between documents and apply hierarchical agglomerative clustering algorithm to it. For classification, we extract features of training documents by transforming the concept of finding maximal similar paths. We can classify XML documents according to their categories based on similarity between training documents and test documents. Third, we build taxonomy of XML document types to validate our methodology. It has detail 44 types and is largely categorized as element, structure and data composed of XML semantics. It makes possible to evaluate what kind of types and how the types can be processed by our methodology. It also enables to present target document types and select various experimental documents. Experiments with XML documents show that our methodology provides more improvement in determining similarity, over the traditional vector-space model that considers only term-frequency and 100% accuracy in identifying the category of each document collected from real sites for classification and clustering.;XML 문서가 가지고 있는 태그의 자유로운 정의와 내포된 구조 정보는 정보 검색 및 문서 관리 분야에 많은 이점을 제공할 수 있다. 따라서 XML 데이터를 위한 저장 기법, 인덱싱 기법, 질의어 설계 및 처리, 그리고 질의 최적화에 이르기까지 많은 연구가 활발히 진행되고 있다[1,10,61,65]. 그러나 아직 문서 관리 혹은 지식 베이스를 구축하기 위해 유사한 XML 문서를 군집화(clustering) 하거나 표본 XML 문서와 일치하는 문서들을 분류(classification)하는 텍스트 마이닝 기술은 미흡한 실정이다. 실제로 XML을 기반으로 하는 많은 EDMS(Electronic Document Management System) 및 XML 포털 사이트[18,20,36,71]에서 향후 연구과제로 XML을 위한 텍스트 마이닝 기술을 꼽고 있다. 특히 기존의 비구조적인 텍스트를 대상으로 하는 마이닝 방식을 적용한다면 단지 용어의 빈도수 만을 가지고 XML 문서를 특징짓기 때문에 정확한 XML 문서 마이닝 결과를 얻기 어려울 것이다. 따라서 본 논문에서는 XML이 제공하는 다양한 의미(semantics) 즉, 엘리먼트의 의미와 그 엘리먼트의 계층 구조를 고려한 문서 분석 기법을 개발하여 의미 기반 XML 문서 마이닝을 위한 전처리(preparations) 방법을 제안하고 이를 토대로 궁극적으로는 XML 문서의 군집화 및 분류를 위한 XML 문서 마이닝 방법을 제안하고자 한다. 또한 제안한 방법의 검증을 위하여 체계적인 XML 문서 타입에 대한 분류를 확립함으로써 본 방법이 XML의 의미를 얼마나 반영할 수 있는지에 대한 척도를 제시하고자 한다. 이는 마이닝 결과 산출되는 정확도(accuracy)와 더불어 방법론의 타당성을 뒷받침할 수 있는 근거 자료가 될 수 있다. 본 논문의 접근 방법은 크게 XML의 의미를 추출해 내는 전처리 과정, 마이닝 알고리즘 변형 및 적용, 그리고 검증을 위한 분류체계 확립으로 나누어지며 구체적인 수행 내용은 다음과 같다. 첫째, 전처리 과정으로 최소화된 XML의 구조를 발견하고 구조를 형성하는 엘리먼트간의 유사성을 인식한다. 유사성이 인식된 최소화된 구조를 구성하는 경로 표현을 토대로 공통 구조를 추출함으로써 마이닝에 대한 준비 작업이 완성된다. 이때 추출되는 구조는 DTD나 XML Schema와 같은 명시적 구조 정의가 아닌 문서자체로부터 추출되어야 하고, 레벨정보를 유지하며 최소화된 유일한 구조여야 한다. 이러한 조건을 만족하기 위해 정형화된 오토마타 이론을 도입하여 최소화된 유일한 구조를 추출한다. 추출된 XML의 구조를 구성하는 엘리먼트만을 추출하여 유사어, 합성어, 그리고 생략어로 확장된 벡터를 생성하고 이를 토대로 각 문서를 구성하는 엘리먼트간의 유사 행렬(similarity matrix)을 구축하고 유사성 척도를 적용함으로써 가장 유사한 엘리먼트를 인식한다. 엘리먼트간의 유사성 인식은 더욱 정확한 구조를 추출해 내는 데 근간이 된다. 엘리먼트의 유사성이 인식된 최소화된 구조로부터 다중 문서간의 최대 유사 경로를 추출하기 위한 변형 순차 패턴(adapted sequential patterns) 마이닝 알고리즘을 개발한다. 둘째, 문서 마이닝 연산인 군집화와 분류를 수행하기 위해 유사성 계산 모델을 제안한다. 수치화 된 유사성을 토대로 XML 문서를 마이닝 한다. 먼저 군집화를 위하여 문서-문서간 유사 행렬을 대칭화 하고 계층적 응집 군집화(hierarchical agglomerative clustering) 알고리즘[32]을 적용한다. 이때 유사 행렬 갱신 알고리즘으로는 단일-결합(single-linkage) 방식[32]을 사용한다. 한편, 분류를 위해 본 논문에서 제안한 최대 유사 경로를 도출하는 과정을 변형하여 훈련 문서의 특성을 추출한다. 추출된 훈련 문서의 특성과 테스트 문서간의 유사성을 토대로 일정 임계치 이상의 문서를 발견함으로써 문서를 범주에 따라 분류한다. 셋째, 제안한 의미 기반 XML 문서 마이닝 방법의 타당성을 검증하기 위해 XML 문서 타입의 분류 체계를 확립한다. 분류 체계는 단일 문서 타입 / 다중 문서 타입을 중심으로 XML 문서가 가질 수 있는 타입을 구조, 엘리먼트, 그리고 데이터로 나누어 분류하고 44개의 세부 항목들을 분석한다. 이어 제안한 의미 기반 문서 마이닝 방법이 분류 체계에 정의된 XML 문서 타입을 얼마나 그리고 어떻게 처리될 수 있는지를 평가한다. 또한 실제 실험 시, 실험 결과 뿐 아니라 대상 문서 타입을 제시함으로써 얼마나 다양한 문서를 토대로 한 실험인지를 평가할 수 있게 한다. 본 논문에서 제안한 방법을 실제 웹 문서를 기반으로 다양한 실험을 통해 기존의 벡터-공간 모델에 비해 향상된 유사성 인식 결과를 보였고 아마존(amazon.com)과 야후(finance.yahoo.com) 사이트의 문서들을 대상으로 군집화와 분류를 수행한 결과 100% 정확한 분류 결과를 보였다.
Fulltext
Show the fulltext
Appears in Collections:
일반대학원 > 컴퓨터공학과 > Theses_Master
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE