View : 84 Download: 0

다차원 데이터의 최대 영향 요소 분석을 위한 Contributor 연산

다차원 데이터의 최대 영향 요소 분석을 위한 Contributor 연산
Issue Date
과학기술대학원 컴퓨터학과
이화여자대학교 과학기술대학원
OLAP(Online Analytical Processing)은 저장된 대용량 데이터를 조작하여 정보나 지식의 주요 패턴을 찾기 위한 도구로 사용된다. OLAP 은 합이나 평균과 같은 집계 연산의 결과뿐만 아니라 드릴다운(drill-down) 또는 롤업(roll-up)과 같은 검색을 위한 연산의 결과를 제공하여 다양한 관점에서의 분석을 가능하게 한다. 특히, 검색을 위한OLAP 연산들은 분석가의 직관에 의해 이루어지기 때문에 데이터의 차원이나 크기가 증가함에 따라 같은 형태의 일을 반복해야 하거나 부정확한 결과를 일으킬 수 있게 된다. 이에 좀 더 편리한 분석을 위해 데이터 마이닝의 관점에서 OLAP의 연산을 효과적으로 처리하기 위한 연산 알고리즘들이 제안되었다. DIFF와 RELAX 연산이 그 대표적인 연산이다. DIFF는 집계 데이터에서 발견된 급증이나 급감의 원인을 분석하기 위한 연산으로, 모든 가능한 드릴다운 경로의 수동적인 검색을 자동화한 연산이다. RELAX는 모든 가능한 롤업 경로를 따라 문제의 범위를 일반화 시키고, 문제가 발생한 최대 영역을 결과로 보인다. 본 연구에서는 계층 구조 갖는 다차원 OLAP 데이터의 고급화된 검색을 위한 새로운 연산을 제안한다. 제안하는 Contributor연산은 다차원 데이터 분석에서 특정 데이터의 가장 많은 영향을 주는 요인을 분석하고, 결과로 연관되어 나타나는 차원들의 정보를 돌려주는 것이다. 최대 판매량을 관찰하면서, 분석가는 최대 판매량에 영향 끼친 요인을 찾고자 한다. Contributor연산은 수동적인 검색 연산 대신에, 문제의 최대 영향 요소를 자동으로 찾아주고, 모든 차원이 계층 수준을 따라 드릴다운 연산하는 집계 테이블들만을 검색하여 한번에 결과를 보이고자 한다. 효율적인 연산을 위한 알고리즘을 설계하고, Contributor 연산의 활용을 위해 실제 판매량 데이터 분석에 유용한 OLAP 어플리케이션을 구현하여 적용할 수 있도록 한다. ; OLAP( Online Analytical Processing) is used as a method for finding out patterns of data or information by manipulating a large amount of data in storage. It gives not only a result of basic aggregation operators like summation and average but also analysis in various views as a result of basic navigational operators like drill-downs and roll-ups. The basic navigational OLAP operators have to be driven entirely by the analyst’s intuition, so it can be tedious and imprecise as data dimensionality and size increase. In earlier work some algorithms have been proposed to process efficiently basic OLAP operators with data mining algorithms for the purpose of more convenient analysis. There are DIFF and RELAX. DIFF is an operator that lets analyst get summarized reasons for drops or increases observed at an aggregated level. RELAX is an operator that generalize the bounds of a problem along roll-up paths and return the broadest context in which a specific problem occurs. In this paper we propose a new operator for advanced exploration of large multidimensional OLAP data. The proposed operator lets analyst find the most effective factor of a specific data and returns associated dimensional information as a result. When looking at the max sales, an analyst would like to know what makes the max value. Instead of manual exploration, our proposed operator can automate to find the most effective factor of the problem and give a result in a single step by searching only summary tables that all dimensions drill-down along their hierarchies. We design the algorithm of the proposed operator and implement an OLAP application system to show the operator works efficiently with practical sales data.
Show the fulltext
Appears in Collections:
과학기술대학원 > 컴퓨터학과 > Theses_Master
Files in This Item:
There are no files associated with this item.
RIS (EndNote)
XLS (Excel)


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.