View : 326 Download: 0

A Comparison of Imputation Methods Using Machine Learning Models

Title
A Comparison of Imputation Methods Using Machine Learning Models
Authors
서혜정
Issue Date
2023
Department/Major
대학원 통계학과
Publisher
이화여자대학교 대학원
Degree
Master
Advisors
송종우
Abstract
Handling missing values in data analysis is essential in constructing a good prediction model. The easiest way to handle missing values is to use complete case data, but this can lead to information loss within the data and invalid conclusions in data analysis. Imputation is a technique that replaces missing data with alternative values obtained from information in a dataset. Conventional imputation methods include K-Nearest-Neighbor imputation and multiple imputations. Recent methods include missForest, missRanger, and mixgb using machine learning algorithms. This paper compares the imputation techniques for datasets with mixed datatypes in various situations, such as data size, missing ratio, and missing mechanisms. To evaluate the performance of each method in mixed datasets, we propose a new imputation performance measure (IPM), a unified measurement applicable to numerical and categorical variables. We believe that this metric can help find the best imputation method. Finally, we summarize the comparison results with imputation performances and computational times.;결측치 처리는 좋은 예측 모형을 개발하는 데 중요한 역할을 한다. 다양한 결측치 처리방법 중 결측치 제거는 가장 간단한 방법이지만, 데이터 내 정보 손실과 분석 과정의 편향을 일으킬 수 있다. 결측치 대체는 관측된 데이터를 활용하여 결측치를 대체하는 것이다. 전통적인 결측치 대체 방법론으로는 K-Nearest Neighbor(KNN)과 MICE가 있다. 최신 방법론으로는 머신러닝 기법을 활용한 missForest, missRanger, mixgb가 있다. 본고에서는 연속형과 범주형 변수를 모두 가진 혼합형 데이터 셋을 이용하며 데이터 크기, 결측치 비율, 결측 메커니즘에 대한 다양한 상황을 가정하고 결측치 대체 방법론 간 성능을 비교한다. 이때 혼합형 데이터 셋에서의 성능 비교를 위해 연속형과 범주형 변수 모두에 대하여 거리 계산이 가능한 단일화된 평가지표(IPM)을 제안한다. 이를 이용하여 방법론 간 대체 성능과 계산 속도를 비교하고 상황별로 최적 결측치 대체 방법론을 찾고자 한다.
Fulltext
Show the fulltext
Appears in Collections:
일반대학원 > 통계학과 > Theses_Master
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

BROWSE