View : 621 Download: 0

베이지안 변수 선택 기법을 적용한 영화평점 예측 머신러닝 모형 비교

Title
베이지안 변수 선택 기법을 적용한 영화평점 예측 머신러닝 모형 비교
Other Titles
Comparison of machine learning models for predicting movie rating using Bayesian variable selection technique
Authors
최정윤
Issue Date
2022
Department/Major
대학원 통계학과
Publisher
이화여자대학교 대학원
Degree
Master
Advisors
오만숙
Abstract
The purpose of this study is to compare the predictive power of the four techniques of machine learning models after finding significant variables in movie rating prediction among the variables such as age, genre, film production costs, film directors, and film writers through Bayesian variable selection techniques. In general, Stepwise, a variable selection method used in a linear model, is frequently used due to its simple principles and easy to use, but there is a problem that the possibility of Type-1-error increases by performing the test techniques multiple times. In this paper, to compensate for these shortcomings of the Stepwise technique, we will select significant variables through Gibbs Variable Selection (GVS) and conduct movie rating prediction analysis to compare the performance of four machine learning models: Random Forest, XGBoost, LightGBM, and Multivariate Logistic Regression.;본 연구의 목적은 웹사이트 MovieLens에서 제공하는 영화데이터를 기반으로 영화장르, 관람자의 연령, 제작비, 영화감독, 영화작가 등의 변수 중에서 영화평점 예측에 유의한 변수를 베이지안 변수 선택 기법을 통해 찾아낸 후 4가지 기법의 머신러닝 모형 예측력을 비교하는 것이다. 일반적으로 선형모형에서 사용하는 변수 선택 방법인 Stepwise 기법은 원리가 단순하며 사용방법이 쉽다는 장점으로 인해 자주 사용되고는 하지만 검정 기법(test method)을 여러 번 수행하여 Type-1-error 발생 가능성이 증가한다는 문제점이 발생한다. 본 논문에서는 Stepwise 기법의 단점을 보완하고자 베이지안 변수 선택 중에서도 깁스 변수 선택(Gibbs Variable Selection)을 통해 변수를 선택하여 유의한 변수들을 살펴보고, 랜덤 포레스트(Random Forest), XGBoost, LightGBM, 그리고 다항 로지스틱 회귀(Multivariate Logistic Regression)의 총 4가지의 머신러닝 모형으로 영화평점 예측 분석을 실시하여 각 모형의 성능을 비교하고자 한다.
Fulltext
Show the fulltext
Appears in Collections:
일반대학원 > 통계학과 > Theses_Master
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

BROWSE