View : 139 Download: 0

연관 규칙을 위한 상식 기반 유용성 척도

Title
연관 규칙을 위한 상식 기반 유용성 척도
Other Titles
Common Sense Knowledge based Interestingness Measure for Association Rule
Authors
이인기
Issue Date
2013
Department/Major
대학원 컴퓨터공학과
Publisher
이화여자대학교 대학원
Degree
Doctor
Advisors
용환승
Abstract
데이터 마이닝이 소개된 이후로 대용량 데이터로부터 패턴과 규칙들을 발견하기 위해 보다 효율적이고 확장성 있는 탐사 알고리즘들이 제안되어 왔고 한 차원 진보된 연구 성과를 보여 주었다. 특히, 연관 규칙 마이닝은 상업, 통신, 보험, 생명공학 등과 같은 다양한 분야에서 폭넓게 활용되어 왔다. 그러나 이와 같은 성능 향상과 더불어 실제 상업 데이터베이스들의 크기와 차원은 크게 증가하여, 사용자의 분석을 필요로 하는 수천 개 또는 수백만 개의 연관 규칙이 생성되게 되었다. 또한, 인터넷에 축적된 방대한 데이터인 빅 데이터(big data)와 수많은 전자 문서들로부터 유용한 지식을 찾고자 하는 최근의 노력들은 이와 같이 연관 규칙 마이닝의 잠재적인 문제에 초점을 맞추어 다양한 형태의 유용성 척도(interestingness measure)를 정의하는 것으로 확장해 가고 있다. 데이터 마이닝 과정을 통해 생성된 규칙 및 패턴의 품질 향상을 통해 사용자가 그지식의 의미를 잘 해석할 수 있도록 도와주는 역할을 하는 데이터 마이닝 후처리 기법의 대표적인 연구인 유용성 척도는 사용자에게 유용한 규칙만을 제공하기 위한 척도이다. 유용한 지식을 정의 하기 위한 연관 규칙의 품질 평가는 사용자가 기대하지 않았던 흥미로운 지식을 선별하기 위해 사용자의 지식 표현을 그 핵심으로 한다. 즉, 통계와 확률, 정보이론을 기반으로 연관 규칙을 평가하는 객관적 척도들이 고려하지 못하는 도메인의 지식 환경과 시대, 경험에 따라 변화 할 수 있는 사용자의 지식 수집 및 적용이 본 연구에서 해결해야 하는 문제이다. 본 연구에서는 사용자의 지식 표현을 위해 상식을 활용한다. 상식은 일반적으로 사회적 의사소통을 위해 필요한 기본 지식으로, 예측 가능하고 이미 사람들에게 알려져 있어 흥미롭지 못한 지식으로 표현할 수 있다. 따라서 본 연구에서 제안하는 유용성 척도는 상식을 기반으로 연관 규칙이 얼마나 상식에 가까운지를 평가하는 척도이다. 이 척도는 연관 규칙과 일반 사람들에 의해 자연어로 표현되는 상식의 유사도를 이용해 정의 될 수 있다. 이 유사도 측정은 기존의 텍스트 마이닝에서 많이 사용되는 유사도 기법들의 문제점을 극복하고, 서로 다른 구조를 갖는 규칙과 상식의 의미 관계 유사도를 보다 정밀하게 측정할 수 있도록 제안한다. 상식 기반의 유용성 척도인 상식 척도를 구현하기 위해 벡터 공간 모델에서 연관 규칙과 상식을 벡터로 정의하고 연관 규칙과 가장 가까운 상식을 찾기 위해 시맨틱 네트워크를 이용한 연관 규칙의 상식 매칭 기법을 사용한다. 이와 같은 매칭 기법은 연관 규칙의 구조적 특징을 고려하여 상식 네트워크를 통해 가장 의미 관계 유사도가 높은 상식을 찾도록 해준다. 매칭된 상식은 단순한 문장 형태에 제한되지 않으며 상식 네트워크를 통해 추론될 수 있는 지식까지도 포함한다. 매칭된 연관 규칙과 상식은 벡터 공간 모델에서 의미 관계 유사도를 계산하기 위해 시맨틱 네트워크 상의 거리를 가중치로 하는 코사인 거리 유사도 기법을 사용한다. 본 연구에서 제안한 유사도 평가 결과 연관 규칙과 상식과 같이 구조화된 지식의 유사도 평가에서는 기존의 텍스트 마이닝에서 사용되었던 유사도 기법보다 높은 평가 결과를 보여주었다. 상식 척도의 실험 평과는 도메인 전문가의 연관 규칙 평가 결과와 비교 평가 하였다. 이 실험의 결과는 우리가 예측한 바와 같이 상식 척도와 전문가의 유용성 평가가 반비례함을 보여 주었다. 즉, 상식 척도가 높은 규칙이 전문가들에 의해 유용하지 않은 규칙으로 평가 되었음을 보여주었다. 상식 척도의 실험 결과는 76% 전문가들의 평가 결과와 일치하며, 상식 척도가 0.5 이상인 규칙들의 87%가 유용하지 않은 규칙으로 평가되었다. 또한, 기존의 객관적 척도들에 의해 제거되지 못했던 불필요한 규칙들을 효과적으로 선별할 수 있음을 보여주었다. 따라서 본 연구에서 제안한 상식 척도가 데이터 마이닝 후처리 기법으로 사용자의 규칙 및 패턴 분석을 지원하고, 유용한 지식만을 선별할 수 있도록 연관 규칙의 품질 평가에 사용될 수 있을 것이라 기대한다.;Since the introduction of data mining, more efficient and expansive mining algorithms aimed at detecting patterns and rules from mass data have been proposed, and more advanced research performance has been demonstrated. In particular, association rule mining has been widely used in diverse areas including commerce, communications, insurance, and bioengineering. However, together with such performance improvements, the sizes and dimensions of actual commercial databases have been greatly increased, and thousands—or even millions—of association rules requiring users’ analyses have been generated. Moreover, recent efforts to find useful knowledge from the huge volumes of data accumulated on the internet as well as countless electronic documents have focused on the potential problems of association rule mining and have been expanded to define different forms of interestingness measures. Interestingness measures, i.e., representative research on data mining post-processing techniques, which help users to interpret the meaning of knowledge by improving the quality of the generated rules and patterns, provide only useful rules to users. At the core of the quality evaluation of association rules, which are aimed at defining useful knowledge, lie users’ expressions of knowledge, which seek to screen out interesting knowledge they did not expect. In other words, the issues that should be resolved by this study include the knowledge environment of domains that objective measures to evaluate information theory-based association rules fail to consider, and users’ knowledge collection and application that may change according to age and experience. This study utilizes common sense for users’ expressions of knowledge. Common sense knowledge may be expressed as basic knowledge that is necessary for social communications but is uninteresting because it is predictable and already known to people. Therefore, the interestingness measures proposed by this study evaluate how close association rules are to common sense knowledge itself. These measures may be defined by utilizing the similarity between association rules and common sense knowledge expressed through natural language by common people. This similarity estimation is proposed so as to overcome the problems of similarity techniques, which are much used in existing text mining, and to more precisely measure semantic relatedness and the similarity of rules and common sense knowledge with different structures. In order to embody common-sense measures, interestingness measures based on common sense knowledge, association rules and common sense knowledge are defined as vectors in a vector space model. In order to find the common sense knowledge method closest to the association rules, common sense matching techniques of association rules using semantic networks are used. Such matching techniques enable the detection of common sense knowledge with the highest semantic-related similarity through common sense networks with consideration to the structural characteristics of association rules. The matched common sense knowledge outcomes are not restricted to mere sentence forms but include knowledge that may be inferred through common sense networks. In order to calculate the semantic-relatedness similarity between matched association rules and common sense knowledge in a vector space model, the cosine distance similarity technique with distance in semantic networks as weight is used. According to the results of the estimating similarity proposed by this study, higher evaluation results were obtained in a similarity evaluation of structured knowledge, like association rules and common sense knowledge, than in the existing similarity techniques used for text mining. The experimental evaluation result of the common-sense measures was compared with the result of the association rule evaluations by domain experts. This experimental result showed that, as we predicted, the common-sense measure and usefulness evaluation by experts were in inverse proportion. In other words, rules with a high common-sense measure were evaluated as not being useful rules by experts. The experimental result of the common-sense measures was consistent with 76 percent of experts, and 87 percent of those rules whose common-sense measure was 0.5 or higher were evaluated as not useful. The result also showed that unnecessary rules not removed by the existing objective measures were able to be screened out effectively. Therefore, it is anticipated that the common-sense measures proposed by this study will be used as a data mining post-processing technique for the quality evaluation of association rules in order to support analyses of users’ rules and patterns and to screen out only useful knowledge.
Fulltext
Show the fulltext
Appears in Collections:
일반대학원 > 컴퓨터공학과 > Theses_Ph.D
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE