View : 129 Download: 0

A comparative study of semi-supervised learning methods in small sample problem

Title
A comparative study of semi-supervised learning methods in small sample problem
Authors
강다연
Issue Date
2024
Department/Major
대학원 통계학과
Publisher
이화여자대학교 대학원
Degree
Master
Advisors
이동환
Abstract
Using unlabeled data has become important because lots of data have been generated in recent years. Since the unlabeled data can provide additional information to the labeled data, dropping the unlabeled data can lead to numerous information loss. To solve these problems, semi-supervised learning has been studied by many researchers. It is a valuable methodology in a situation where few labeled data are available together with a significant number of unlabeled samples. It can reduce the loss of information caused by data deletion by predicting labels using information from unlabeled data. In this paper, we identify the performance comparison between semi-supervised learning and supervised learning concerning sample size, missing ratio in response variable, and variable selection. Additionally, we compare the performances of the best model, which trains with supervised learning with complete data and semi-supervised learning. For this, we conduct the simulation studies. As a result, semi-supervised learning performs better than supervised learning when there are few samples in a high missing ratio. In addition, we confirm that semi-supervised learning performs better than supervised learning in small real data sets.;생산 가능한 데이터의 종류와 양이 증가함에 따라 라벨링 되지 않은 데이터 또한 많이 생겨나고 있다. 전통적으로는 이러한 라벨링 되지 않은 데이터를 삭제하고 분석하는 경우가 많지만 라벨링 된 데이터에 추가적인 정보를 제공할 수 있기 때문에 이러한 데이터를 삭제하는 것은 많은 정보의 손실을 야기할 수 있다. 이와 같은 문제를 해결하기 위해 semi-supervised learning이 꾸준히 연구되고 있다. Semi-supervised learning은 라벨링 되지 않은 데이터의 정보를 활용하여 라벨을 예측하여 데이터를 삭제함으로써 생기는 손실을 줄일 수 있는 방법론이다. 본 논문에서는 데이터의 크기와 변수 선택의 여부, 결측률에 따른 semi-supervised learning과 supervied learning의 성능 차이에 대해 비교하고자 한다. 이와 더불어semi-supervised learning 모델의 예측 성능과 결측치가 없는 데이터로 학습한 supervised learning모델의 성능을 비교함으로써 semi-supervised learning이 완전한 조건에서의 supvervised learning 모델 성능을 얼만큼 잘 따라가는지 확인하고자 한다. 이를 위해 모의실험을 진행하였고 semi-supervised learning이 적은 데이터의 수와 높은 결측률에서도 좋은 예측 성능을 띄는 것을 확인하였다. 또한 KNOW-CKD 데이터를 통해 적은 양의 실제 데이터에서도 sem-supervised learning 모델이 supervised learning보다 좋은 성능을 띄는 것을 확인하였다.
Fulltext
Show the fulltext
Appears in Collections:
일반대학원 > 통계학과 > Theses_Master
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

BROWSE