View : 61 Download: 0

Full metadata record

DC Field Value Language
dc.description.abstract본 연구는 극심한 불균형을 나타내는 데이터에서 불균형을 해결하여 분류 예측 정확도를 높이고자 새로운 방법론을 제안한다. 기존의 표본 추출방법으로 극심한 불균형을 해결하는 데에 한계가 존재하여, 하이브리드 샘플링과 부트스트래핑을 접목한 방법으로 불균형을 해결하고자 하였다. 하이브리드 샘플링 방법은 언더샘플링과 오버샘플링을 같이 활용하는 샘플링 방법으로, 유용한 정보를 손실할 수 있다는 언더샘플링의 단점과 과적합 가능성이 있는 오버샘플링의 단점을 개선하였다. 이 때 SMOTE, ADASYN, ROSE 등 전통적인 오버샘플링 기법과 GAN 기반의 CTGAN 기법을 활용해 다양한 표본 추출 방법을 적용하였다. 또한 분류 예측 모델로는 Random Forest, XGBoost, LightGBM 모델로 분류하였으며, F1 score와 재현율을 중심으로 방법 별로 성능을 비교하였다. 그 결과 새로 제안한 방법의 예측 성능이 가장 우세하였으며, 이를 통해 다양한 샘플링 방법과 부트스트래핑을 활용해 반복 학습하는 과정이 불균형을 해결하는 데에 영향을 미치는 것을 알 수 있었다.;This study proposes a new approach to solve imbalances and improve the accuracy of classification predictions. Undersampling may lead to loss of data value, while oversampling encounters limitations in addressing extreme imbalances due to issues like overfitting. Therefore, traditional sampling methods have constraints in resolving severe imbalances. This study attempts to resolve imbalances by hybrid sampling, and bootstrap. Hybrid sampling means combining undersampling and oversampling. Various sampling methods were applied using traditional oversampling techniques such as SMOTE, ADASYN, ROSE and GAN-based CTGAN. In addition, the classification prediction models were classified into Random Forest, XGBoost, and LightGBM models, and the performance was compared by methods, focusing on the F1 score and recall. As a result, the predictive performance of the newly proposed method is improved. It is shown that the iterative learning process using various resampling and bootstrapping methods reduces the imbalance problem.-
dc.description.tableofcontentsⅠ. 서론 1 Ⅱ. 이론적 배경 3 A. 표본추출 3 B. 분류모델 8 Ⅲ. 재표본을 이용한 불균형 자료 분석 방법 10 Ⅳ. 예제 12 A. 데이터 12 B. 평가지표 14 C. 결과 16 Ⅴ. 결론 30 참고문헌 31 부록 34 ABSTRACT 36-
dc.format.extent1401384 bytes-
dc.publisher이화여자대학교 대학원-
dc.subject하이브리드 샘플링, 부트스트래핑, 불균형 데이터-
dc.title하이브리드 샘플링과 부트스트래핑을 접목한 불균형 이진 자료의 예측 모형-
dc.typeMaster's Thesis-
dc.title.translatedPrediction model of extreme unbalanced binary data with hybrid sampling and bootstrapping-
dc.creator.othernameLee, Eunhyo-
dc.format.pageiv, 36 p.-
dc.identifier.major대학원 통계학과- 8-
Appears in Collections:
일반대학원 > 통계학과 > Theses_Master
Files in This Item:
There are no files associated with this item.
RIS (EndNote)
XLS (Excel)
