View : 95 Download: 0

Various Models to Handle Zero-Inflated Count Data

Title
Various Models to Handle Zero-Inflated Count Data
Authors
박승희
Issue Date
2021
Department/Major
대학원 통계학과
Publisher
이화여자대학교 대학원
Degree
Master
Advisors
이은경
Abstract
Zero-inflated count data is a form of data in various fields such as manufacturing, medicine, and insurance. However, since it has a data imbalance problem, prediction performance may be degraded with existing learning algorithms. Therefore, various model studies have been conducted to improve the predictive power of zero-inflated count data. ZIP (Zero-Inflated Poisson) and ZINB (Zero-Inflated Negative Binomial) regressions are representative research achievements. There was also a study to solve the problem of unbalanced count data through sampling. Balanced data was obtained using an extended-ROSE method to increase predictive power. This paper examined the conditions and results of the extended-ROSE to handle various types of zero-inflated count data. In order to apply the extended-ROSE, p representing the zero ratios must be adjusted. It should be determined in consideration of the characteristics of the model to obtain the best predictive power. Therefore, through simulation, zero-inflated data in various cases were generated and compared using several models. Also, by applying the actual data, we examined the appropriate p in each model. When the data dimension was low, there was little difference between models, but as the dimension increased, it showed more sensitivity to p. In addition, when applied to obtain uniform data with the extended-ROSE, the Random Forest was superior to other models. Even in actual data, it was excellent under certain conditions when the extended-ROSE was applied. In particular, when the ZIP and ZINB regressions were trained with more severe zero-inflated data than the original data by sampling more zeros with the extended-ROSE, the predictive power of the zeros was improved. Also, the predictive power was better than when the extended-ROSE was not applied to the parts except zero. ;영 과잉 카운트 데이터는 제조, 의학, 보험 등 다양한 분야에서 나타나는 데이터 형태이다. 하지만 데이터 불균형 문제를 가지고 있어 기존 학습 알고리즘으로는 예측 성능이 좋지 못할 수 있다. 따라서 ZIP (Zero-Inflated Poisson)과 ZINB (Zero-Inflated Negative Binomial) 회귀모델과 같은 영 과잉 카운트 자료의 예측력을 높이는 다양한 모델 연구가 진행되어왔다. 또한 영 과잉 카운트 데이터에 대한 샘플링 기반의 방법인 확장된 ROSE (extended-ROSE)가 제안되어 균형 자료를 통해 예측력을 높이려는 시도가 있었다. 본 논문에서는, 다양한 형태의 영 과잉 카운트 데이터를 다룰 수 있도록 확장된 ROSE의 조건과 결과에 대해 살펴보았다. 확장된 ROSE를 적용하기 위해서는 영의 비율을 나타내는 p 값을 조정해야 한다. 이는 모델에 따라 결정해야 예측력이 높은 모델을 얻을 수 있다. 따라서 시뮬레이션을 통해 다양한 형태의 영 과잉 카운트 데이터를 생성하고 다양한 모델을 사용해 비교해보았다. 시뮬레이션에서는 여러 데이터 차원에서 확장된 ROSE를 적용했을 때 결과를 살펴보았다. 데이터 차원이 낮을 때에는 모델 간 차이가 거의 없었지만, 차원이 높아짐에 따라 p에 더 민감한 모습을 보였다. 또한 확장된 ROSE로 균등 데이터를 얻도록 적용했을 때 랜덤 포레스트 모델이 다른 모델에 비해 우수했다. 실제 데이터에서도 확장된 ROSE를 적용했을 때 특정 조건에서 우수했다. 특히 확장된 ROSE로 영을 더 많이 샘플링해 원 데이터보다 더 심한 영 과잉 데이터로 ZIP회귀모형과 ZINB 회귀모형을 학습시켰을 때, 영 부분의 예측력은 개선되면서도 영을 제외한 부분도 확장된 ROSE를 적용하지 않았을 때보다 예측력이 우수하였다.
Fulltext
Show the fulltext
Appears in Collections:
일반대학원 > 통계학과 > Theses_Master
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

BROWSE