View : 905 Download: 0

Full metadata record

DC Field Value Language
dc.contributor.author김지현-
dc.creator김지현-
dc.date.accessioned2016-08-25T11:08:13Z-
dc.date.available2016-08-25T11:08:13Z-
dc.date.issued2001-
dc.identifier.otherOAK-000000029523-
dc.identifier.urihttps://dspace.ewha.ac.kr/handle/2015.oak/187603-
dc.identifier.urihttp://dcollection.ewha.ac.kr/jsp/common/DcLoOrgPer.jsp?sItemId=000000029523-
dc.description.abstract많은 기업이나 회사들은 하루에도 수십 수백 메가 바이트의 웹 로그 데이터를 수집하고 이러한 데이터들을 효율적으로 분석하고자 한다. 하지만 이러한 엄청난 데이터의 용량은 웹 로그 데이터를 분석하는데 장애요인이 된다. 따라서 웹 로그 데이터를 다차원적으로 실시간에 사용자의 질의에 응답하기 위해서는 OLAP의 적용은 꼭 필요한 일이라 할 수 있다. OLAP적용에 있어서 사용자 질의에 대해 빠른 응답 성능을 보장하기 위해서는 사전 연산결과를 저장해서 그 결과에 질의를 하는 것이 필요하다. 이러한 사전 연산 과정에서 OLAP 데이터의 희박성은 데이터 폭발(Data Explosion)현상을 발생시키고, 이는 또한 시스템 성능을 저하시키는 요인이 된다. 본 논문에서는 실제 웹 로그 데이터를 사용하여 웹 로그 데이터에서 발생되는 희박성의 원인에 대해 분석하고, 2,3차원 데이터 모델 내에서의 희박성 형태를 조사하였다. 조사된 희박성 형태를 바탕으로 시중에 나와 있는 OLAP시스템 중 MS SQL 2000 Analysis Service, Oracle Express Server와 희박성 처리를 위해 청크 방식을 사용하여 구현한 MOLAP시스템 세가지 시스템에 대해 성능 평가를 해 보았다. 성능평가를 하기 위한 기초 단계로 각 희박성 형태에 따라 테스트 데이터를 생성하기 위해 2,3 차원의 데이터 모델과 질의 모델을 설계하고, 테스트 데이터 생성기를 구현하였다. 그리고 각 OLAP시스템을 위한 성능 평가 인터페이스를 구현하였다. 본 논문에서 수행된 OLAP 제품들의 성능 평가를 분석하고 이를 확장 시킨다면 웹 로그 데이터내의 희박성을 효율적으로 처리할 수 있는 저장구조와 인덱스 방식을 발견하는데 토대가 될 수 있을 것이다.;Recently in competitive business environments, IT for CRM has been growing and developed rapidly. Typical applications are statistical analysis tools, on-line multidimensional analytical processing (OLAP) tools, and data mining algorithms (such neural networks, decision trees, and association rules). Business data that these applications analyze include customer data, payroll data, inventory data, supplier data and competitive data, etc. Specially, web click stream data among customer data can be easily obtained. But because of a tremendous of the customer click stream data, enterprises are laboring to answer even basic business questions, such as "which page is most popular". To use these data efficiently, they must set up the online analytical processing (OLAP) cube. It has to precalculate multidimensional summary results in order to get fast response. But as the number of dimensions and sparse cells increases, data explosion occurs seriously and the performance of OLAP decreases. In this paper, we presented why the web log data sparsity occurs and then what kinds of sparsity patterns generate in the two and the three dimensions for OLAP. Based on this research, we set up the multidimensional data models and query model for benchmark with each sparsity patterns. Finally, we evaluated the performance of three OLAP systems (MS SQL 2000 Analysis Service, Oracle Express and C-MOLAP)-
dc.description.tableofcontents論文槪要 = ⅶ Ⅰ. 서론 = 1 1.1 연구 배경 및 목적 = 1 1.2 연구 내용 = 2 Ⅱ. 관련 기술 및 연구동향 = 4 2.1 희박성에 대한 정의 = 4 2.2 희박성이 OLAP시스템의 성능에 미치는 영향 = 5 2.3 OLAP 데이터의 희박성 형태 = 6 2.3.1 2차원 모델의 희박성 형태 = 6 2.3.2 3차원 모델의 희박성 형태 = 7 2.4 희박 데이터 처리 기법 = 9 2.4.1 청크 기반 구조 = 9 2.4.2 EssBase에서 사용하고 있는 희박성 처리기법 = 9 2.4.3 Oracle Express에서 사용하고 있는 희박성 처리기법 = 11 Ⅲ. 웹 로그 데이터의 OLAP적용 시 희박성 원인 및 형태 분석 = 12 3.1 웹 로그데이터의 OLAP 적용 시 희박성 원인 = 12 3.1.1 실제 웹 로그 데이터와 OLAP 적용을 위한 데이터 모델 = 13 3.1.2 웹 로그 데이터의 사전 처리 모듈 설계 = 15 3.1.2.1 데이터 정제 모듈 = 16 3.1.2.2 사용자 확인 모듈 = 17 3.1.2.3 사용자 세션 확인 모듈 = 18 3.1.3 각 차원별 데이터 항목을 이용한 희박성 원인 분석 = 19 3.2 웹 로그데이터의 OLAP 적용 시 희박성 형태 = 25 3.2.1 2차원 데이터 모델에서의 희박성 형태 = 25 3.2.2 3차원 데이터 모델에서의 희박성 형태 = 27 Ⅳ. C-MOLAP시스템의 특징 및 구현 = 28 4.1 C-MOLAP시스템의 저장 방식 = 28 4.2 C-MOLAP시스템의 집계연산 수행방식 = 31 Ⅴ. 테스트 데이터 생성과 성능 평가 시스템 구현 및 결과 분석 = 36 5.1 웹 로그 데이터의 희박성 형태에 따른 데이터 생성기 설계 및 구현 = 36 5.1.1 데이터 모델 및 질의 모델 설계 = 36 5.1.2 테스트 데이터 생성 알고리즘 = 42 5.1.2.1 클러스터(Cluster) 형태 = 42 5.1.2.2 그리드(Grid) 형태 = 47 5.2 성능 평가 시스템 설계 및 구현 = 54 5.2.1 시스템 구현 환경 및 시스템 전체 구조도 = 54 5.2.2 성능 평가 프로그램 = 56 5.3 성능 평가 결과 및 분석 = 58 Ⅵ. 결론 및 향후 과제 = 62 참고문헌 = 64-
dc.formatapplication/pdf-
dc.format.extent2411271 bytes-
dc.languagekor-
dc.publisher이화여자대학교 과학기술대학원-
dc.subject웹 로그-
dc.subjectOLAP-
dc.subject시스템-
dc.subject분석-
dc.title웹 로그 분석을 위한 OLAP 시스템의 구현 및 성능 평가-
dc.typeMaster's Thesis-
dc.title.translatedOLAP System Implementation and Performance Evaluation For Web Log Data-
dc.format.pagevii, 68 p.-
dc.identifier.thesisdegreeMaster-
dc.identifier.major과학기술대학원 컴퓨터학과-
dc.date.awarded2002. 2-
Appears in Collections:
일반대학원 > 컴퓨터정보통신공학과 > Theses_Master
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

BROWSE