Extended Multiple Factor Analysis and Clustering with Mixed Types of Data

Title
Extended Multiple Factor Analysis and Clustering with Mixed Types of Data
Other Titles
혼합 자료의 확장된 다중 요인 분석과 군집분석
Authors
Issue Date
2017
Department/Major
대학원 통계학과
Publisher
이화여자대학교 대학원
Degree
Master
Abstract
When we analyze the mixed data which contain the variables of quantitative values, categorical values and frequency values, the appropriate balancing is needed. One of the extended Multiple factor analysis (MFA) proposes a global distance which calculates the distance of units by balancing the influence of each set of variables. This global distance is properly computed by combining distances which are calculated at Principal component analysis (PCA, used in quantitative variables), Multiple correspondence analysis (MCA, used in categorical variables) and correspondence analysis (CA, used in frequency variables). In this paper, we use the extended MFA to handle the multiple tables. Also we show that the extended MFA can be used in a preprocessing step of the clustering methods by clustering the units with principal axes. We use multiple factor analysis for contingency tables (MFACT), which is one of the extended MFA, and analyze the data from the student survey about mathematics from many countries. In this analysis, we find the relationships among family background, school life, out of school study time and math score. Also after applying MFACT, we cluster the countries using the principal axes and find characteristics of each cluster by comparing the location of centroids of clusters with the categories of variables on the first principal plane.;정량 변수, 정성 변수 그리고 빈도 변수가 모두 포함되어 있는 혼합 자료를 함께 분석할 때에는 각 유형의 자료들을 적절하게 조절하여 균형을 맞춰주는 것이 필요하다. 확장된 다중 요인분석 (Multiple factor analysis)들 중 한 방법에서 각 변수들의 유형의 영향에 균형을 맞추며 개체들의 거리를 계산하는 한 전체적인 거리가 제안되었다. 이 거리는 정량변수에서는 주성분 분석 (Principal component analysis), 정성변수에서는 다중 대응 분석 (Multiple correspondence analysis), 빈도변수에서는 대응 분석(correspondence analysis)에서 계산되는 거리를 이용하여 적절히 합한 값의 형태로 정의된다. 본 연구에서는 여러 변수형태가 섞여있는 표를 다루기 위하여 확장된 다중요인분석을 이용한다. 그리고 분석 후 얻은 주성분들을 이용하여 개체들을 군집화하고 군집의 특징을 살펴보면서 확장된 다중요인분석이 군집 분석의 전 처리 단계로 사용될 수 있음을 보여준다. 본 연구에서는 확장된 다중요인분석의 한 예제로 분할 표를 이용한 다중요인분석(Multiple factor analysis for contingency tables)을 사용하여 PISA2012 자료 중 수학에 관한 학생들의 설문조사 자료를 분석해 보았다. 분석을 통하여 학생의 가정환경, 학교생활, 그리고 학교 외 공부 시간으로 그룹 지어진 범주들과 수학점수 간의 관계를 분석해 보았다. 또한 분할 표를 위한 다중요인분석 후 얻은 주성분을 이용하여 나라들을 군집화하고 주성분 평면에서 군집들의 중심과 범주들의 위치를 비교하며 군집의 특성을 알아보았다.
Fulltext
Show the fulltext
Appears in Collections:
일반대학원 > 통계학과 > Theses_Master
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML