View : 43 Download: 0

다차원척도법과 MCLUST를 이용한 다변량 자료의 군집분석

다차원척도법과 MCLUST를 이용한 다변량 자료의 군집분석
Issue Date
대학원 통계학과
이화여자대학교 대학원
많은 실질적인 문제에서 우리의 관심사건(반응변수)은 많은 (설명)변수와 관련이 있으므로 단지 하나의 설명변수만 가지고 반응변수를 설명하기에는 충분하지 않다. 다변량분석(multivariate statistical analysis)은 많은 변수들 가운데 상호관련성에 대해 다루며 반응변수와 설명변수와의 관계를 이해하기 쉽도록 간단히 정립해준다. 다변량분석의 주요 목표 중 하나는 간단한 형식으로 데이터를 요약하는 것이며, 이로써 반응변수와 설명변수간의 관계를 쉽게 이해할 수 있게 된다. 이에 대한 방법은 정보의 손실 없이 설명변수의 숫자를 줄이거나 다수의 개체들을 몇 개의 작은 그룹으로 나누어 같은 그룹에 있는 개체들끼리 최대한 비슷하도록 다른 그룹의 개체들과는 최대한 구별하도록 하는 것이다. 낮은 차원의 공간(low dimensional space)에 열거된 같은 성질의 개체들을 포함한 몇몇 그룹은 통계분석을 훨씬 더 쉽게 해준다. 상기의 목표를 이루기 위해 개발된 방법들로는 주성분분석(Principal Component Analysis), 요인분석(Factor Analysis), 판별분석(Discriminant Analysis), 군집분석(Cluster Analysis), 정준상관분석(Canonical Correlation Analysis), 다차원척도법(Multi-dimensional Scaling)등이 있다. 본 논문에서는 다변량분석의 기법 중에서 다차원척도법과 군집분석을 자세히 살펴보고자 한다. 먼저 다차원척도법(MDS)을 이용하여 차원을 축소하고, 이로써 유클리드 공간상에서 개체(object)들을 시각화하며 군집분석을 사용하여 개체를 군집화 한다. 특히 군집의 불확실성뿐만 아니라 군집 결과까지 제공하는 모델기반 군집방법(MLUST)의 이용을 제안하고자 한다. 또한 실제 사이버쇼핑몰 거래액 자료에 대하여 제안된 방법을 적용하였다.;In many practical problems, the events of our interest (response variables) are associated with many (explanatory) variables and hence it is not sufficient to explain the response variables by only one explanatory variable. Multivariate statistical analysis deals with correlations among the many variables and builds a simple understandable relationship between the response variables and the explanatory variables. One of the main goals in multivariate analysis is to summarize the data in a simple form so that it is easy to understand the relationship between the response and the explanatory variables. A way to do this is to reduce the number of explanatory variables without significant loss of information and/or aggregate a large number of objects into a few groups of smaller size such that objects in the same group are as similar as possible and objects in different groups are as different as possible. A few groups containing homogeneous objects displayed in a low dimensional space would make statistical analysis a lot easier. Techniques developed to do the above goals are principal component analysis, factor analysis, discriminant analysis, cluster analysis, canonical correlation analysis, multidimensional scaling, and many others. In this thesis, we study the multidimensional scaling and cluster analysis. Using multidimensional scaling, we reduce the dimensionality so that the objects can be visualized in a Euclidean space and then cluster the object by using clustering methods. In particular, we suggest to use a model-based clustering method which gives clustering results as well as clustering uncertainties. We applied the proposed method to a real internet shopping mall turnover data.
Show the fulltext
Appears in Collections:
일반대학원 > 통계학과 > Theses_Master
Files in This Item:
There are no files associated with this item.
RIS (EndNote)
XLS (Excel)


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.