View : 704 Download: 0

웹 로그 분석을 위한 OLAP 시스템의 구현 및 성능 평가

웹 로그 분석을 위한 OLAP 시스템의 구현 및 성능 평가
Other Titles
OLAP System Implementation and Performance Evaluation For Web Log Data
Issue Date
과학기술대학원 컴퓨터학과
웹 로그OLAP시스템분석
이화여자대학교 과학기술대학원
많은 기업이나 회사들은 하루에도 수십 수백 메가 바이트의 웹 로그 데이터를 수집하고 이러한 데이터들을 효율적으로 분석하고자 한다. 하지만 이러한 엄청난 데이터의 용량은 웹 로그 데이터를 분석하는데 장애요인이 된다. 따라서 웹 로그 데이터를 다차원적으로 실시간에 사용자의 질의에 응답하기 위해서는 OLAP의 적용은 꼭 필요한 일이라 할 수 있다. OLAP적용에 있어서 사용자 질의에 대해 빠른 응답 성능을 보장하기 위해서는 사전 연산결과를 저장해서 그 결과에 질의를 하는 것이 필요하다. 이러한 사전 연산 과정에서 OLAP 데이터의 희박성은 데이터 폭발(Data Explosion)현상을 발생시키고, 이는 또한 시스템 성능을 저하시키는 요인이 된다. 본 논문에서는 실제 웹 로그 데이터를 사용하여 웹 로그 데이터에서 발생되는 희박성의 원인에 대해 분석하고, 2,3차원 데이터 모델 내에서의 희박성 형태를 조사하였다. 조사된 희박성 형태를 바탕으로 시중에 나와 있는 OLAP시스템 중 MS SQL 2000 Analysis Service, Oracle Express Server와 희박성 처리를 위해 청크 방식을 사용하여 구현한 MOLAP시스템 세가지 시스템에 대해 성능 평가를 해 보았다. 성능평가를 하기 위한 기초 단계로 각 희박성 형태에 따라 테스트 데이터를 생성하기 위해 2,3 차원의 데이터 모델과 질의 모델을 설계하고, 테스트 데이터 생성기를 구현하였다. 그리고 각 OLAP시스템을 위한 성능 평가 인터페이스를 구현하였다. 본 논문에서 수행된 OLAP 제품들의 성능 평가를 분석하고 이를 확장 시킨다면 웹 로그 데이터내의 희박성을 효율적으로 처리할 수 있는 저장구조와 인덱스 방식을 발견하는데 토대가 될 수 있을 것이다.;Recently in competitive business environments, IT for CRM has been growing and developed rapidly. Typical applications are statistical analysis tools, on-line multidimensional analytical processing (OLAP) tools, and data mining algorithms (such neural networks, decision trees, and association rules). Business data that these applications analyze include customer data, payroll data, inventory data, supplier data and competitive data, etc. Specially, web click stream data among customer data can be easily obtained. But because of a tremendous of the customer click stream data, enterprises are laboring to answer even basic business questions, such as "which page is most popular". To use these data efficiently, they must set up the online analytical processing (OLAP) cube. It has to precalculate multidimensional summary results in order to get fast response. But as the number of dimensions and sparse cells increases, data explosion occurs seriously and the performance of OLAP decreases. In this paper, we presented why the web log data sparsity occurs and then what kinds of sparsity patterns generate in the two and the three dimensions for OLAP. Based on this research, we set up the multidimensional data models and query model for benchmark with each sparsity patterns. Finally, we evaluated the performance of three OLAP systems (MS SQL 2000 Analysis Service, Oracle Express and C-MOLAP)
Show the fulltext
Appears in Collections:
일반대학원 > 컴퓨터정보통신공학과 > Theses_Master
Files in This Item:
There are no files associated with this item.
RIS (EndNote)
XLS (Excel)