View : 216 Download: 0

Euclidean distance와 Mahalanobis distance 기반 부동산 군집화

Title
Euclidean distance와 Mahalanobis distance 기반 부동산 군집화
Other Titles
Clustering of Real Estate Based on Euclidean Distance and Mahalanobis Distance: Focusing on Apartments in Seoul City
Authors
이선율
Issue Date
2023
Department/Major
대학원 통계학과
Publisher
이화여자대학교 대학원
Degree
Master
Advisors
안재윤
Abstract
기존의 아파트 관련 다양한 통계 연구들은 대부분이 아파트 가격 예측에 집중되어왔으며, 아파트 특성과 가격의 관계를 위주로 연구하고 있다. 이러한 맥락에서 관련 데이터를 기반으로 아파트를 군집화하려는 시도 또한 제시되었으나 이산형 정보와 연속형 정보가 섞여 있고, 각 정보 간의 상관관계가 커서 올바른 군집화 결과를 얻기 힘들었다. 본 연구의 목적은 서울 시내 아파트 대상으로 k-means 군집화 분석을 통해 특정 아파트와 유사한 상위 n 개의 아파트의 목록을 추출하는 데 있다. 앞서 언급한 바와 같이 아파트 데이터 특성상 면적과 가격 변수 사이에 유의미한 상관관계를 가지고 있는 등 변수들 간의 상관관계가 큰 특징이 있고, 이를 고려하지 않은 군집화 방법은 군집 결과의 정확도가 떨어질 수 있다는 단점이 있다. 따라서 본 논문은 이러한 아파트 가격 데이터 특성을 고려해서 기존 k-means 알고리즘에서 각 군집의 중심과 거리를 측정하는 방식인 Euclidean distance 외에도 공분산의 역행렬을 가중치로 줌으로써 변수 간 상관관계를 반영하는 Mahalanobis distance를 사용해 상위 n 개의 유사한 아파트를 추출해 보았다. 연구 결과, 변수 간 상관관계를 고려하지 않은 Euclidean distance은 단순 직선거리를 이용해 클러스터링을 하기 때문에, 직관적으로 유사한 데이터 간 군집화되는 것을 볼 수 있었다. 반면, Mahalanobis distance의 결과는 직선거리 상으로는 먼 데이터가 포함될 수 있기 때문에 이상치가 간혹 포함되는 경향은 포착되었다. 본 논문의 방법론은 거주지 이전 계획 시, 관심 있는 아파트와 유사한 조건의 아파트를 제시해 효과적으로 부동산 매물을 비교할 수 있다는 장점이 있다.;Most of the existing statistical studies related to apartments have focused on predicting apartment prices and researching the relationship between apartment characteristics and prices. In this context, attempts to cluster apartments based on relevant data have been suggested, but it has been challenging to obtain accurate clustering results due to the mixture of discrete and continuous information and the high correlation between variables. The purpose of this study is to extract a list of top n apartments that are similar to a specific apartment through k-means clustering analysis targeting apartments in Seoul city. As mentioned earlier, apartment data has significant correlations between variables, especially between area and price, and not considering these correlations in the clustering method can result in decreased accuracy of the clustering results. Therefore, in this paper, we incorporated the characteristics of apartment price data by using Mahalanobis distance, which considers the covariance's inverse matrix as a weight, in addition to Euclidean distance, which measures the distance between the cluster centers and data points in the traditional k-means algorithm. The results of the study showed that Euclidean distance, which does not consider the correlations between variables and uses simple straight-line distance for clustering, intuitively clustered similar data points. On the other hand, Mahalanobis distance had a tendency to include outliers that may appear far in terms of straight-line distance. The methodology presented in this paper has the advantage of effectively comparing real estate listings by providing apartments with similar conditions to the interested apartment when planning to change residence.
Fulltext
Show the fulltext
Appears in Collections:
일반대학원 > 통계학과 > Theses_Master
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

BROWSE