DSpace at EWHA: R을 이용한 빅데이터 분석

Browse

My Repository

DSpace at EWHA일반대학원 통계학과 Theses_Master

View : 845 Download: 0

R을 이용한 빅데이터 분석

Title: R을 이용한 빅데이터 분석

Other Titles: Bigdata analysis with R : Multidimensional data handling and visualization

Authors: 서유형

Issue Date: 2014

Department/Major: 대학원 통계학과

Publisher: 이화여자대학교 대학원

Degree: Master

Advisors: 이은경

Abstract: 빅데이터는 그 잠재력과 활용 가능성 때문에 현재 거의 모든 산업에서 주목하고 있는 새로운 가치이며, 동시에 정보 기술 산업 분야에서 가장 활발히 개발되고 있는 새로운 기술이다. 기존에 없던 새로운 데이터라기보다는, 그 동안 축적되면서 양이 많아지고 종류가 다양해진 데이터를 좀 더 잘 활용해 보겠다는 새로운 관점이라고도 할 수 있다. 빅데이터 분석에 대한 수요는 늘어가지만, 고난도의 분석을 빅데이터에 적용하기 위해 필요한 인프라를 구축하는 것은 쉽지 않다. 이에 따라 요즈음 학교나 기업에서의 빅데이터에 관한 연구는 대부분 새로운 인프라와 새로운 방법론을 탐구하거나, 이를 특정 산업 분야에 적용하는 것들이다. 그런데 기존에 데이터 분석에서 사용되던 방법들을 인프라가 구축되지 않은 상태에서 빅데이터에 적용하는 고된 작업으로 인해 이미 많은 데이터 분석가들이 어려움을 겪고 있으나, 이에 관련된 연구는 찾아보기 힘들다. 이에 따라 새로운 인프라의 구축 없이 기본적인 인프라 상에서 빅데이터 분석을 어떻게 할 수 있을지를 주제로 진행되었다. 본 논문에는 빅데이터의 개념과 현황, 처리 기술, 분석 기법, 시각화 툴 등을 소개하고, 실제 자료인 다차원의 대용량 공간데이터를 싱글 코어 상의 R 프로그램 하나로 분석하려 할 때 부딪히는 문제점과 이를 해결해 나가는 과정을 기술하였다. 당면하는 문제점들은 사소하고 간단히 해결할 수 있는 문제점들처럼 보일 수 있으나, 데이터 분석에서 자주 접하게 되는 일반적인 상황이며 분석 진행에 큰 걸림돌이 되며 때로는 매우 치명적인 문제점이 될 수도 있다. 본 논문에서 제시하는 해결 방안들은 대부분 단순하고 일반적인 기법들이지만, 일반적으로 사용되는 목적과는 다른 새로운 관점으로 문제점을 해결하는 데에 사용하였기 때문에, 비슷한 문제에 부딪힌 데이터 분석가들에게 도움이 될 수 있을 것이다. 자료 구축 과정에서 NetCDF4 형식의 다차원 데이터를 R에서 분석이 가능하도록 구조를 변경하고, 다차원 문제에 대해 각 차원에 맞게 축소, 분리, 공간적 특성을 고려한 추정 등의 방법으로 차원을 축소하였으며, 차원을 축소함으로써 잃을 수 있는 정보들은 다양한 시각화 기법을 통해 탐색하였다. 또한 차원이 축소된 데이터에 여러 변환 방법을 시도하였으며, 선형 회귀, 로버스트 회귀(Robust Regression), 랜덤 포레스트(Random Forests), 변화도 부스팅(Gradient Boosting Machine), 일반화 가법 모형(Generalized additive model) 등의 다양한 통계모형을 적합시켜 최적 조절모수를 찾고 각 모형의 예측력을 비교하였다.;In this paper, the basic concept and technological state of bigdata are introduced, and some drawbacks and solutions are described during analyzing a real multidimensional mass data only with R on the single core. The drawbacks may look trifling but often become big obstacles, sometimes very fatal problems, in data mining. Most of our solutions are simple and common techniques, but we used these in different ways from general uses so this paper can be useful for some analysts encountering similar problems. We changed the structure of the data from a multidimensional form of NetCDF4 to an available form analyzed in R, reduced the dimensions by the methods concerning dimensional characteristics like spatial feature, and explored the information that can be lost during dimension reduction using some visualization tools. And we tried some transformations to the dimension-reduced data, fitted various statistical models like linear regression, robust regression, random forests, gradient boosting machine, and generalized additive model, and finally compared the prediction powers of the models.