View : 301 Download: 0

Improving large-scale multimodal classification with sure independence screening

Title
Improving large-scale multimodal classification with sure independence screening
Authors
박영은
Issue Date
2023
Department/Major
대학원 통계학과
Publisher
이화여자대학교 대학원
Degree
Master
Advisors
이동환
Abstract
Electroencephalography (EEG) identifies changes of amplitude in the evoked response potential (ERP) among patients with internet game disorder (IGD) or Alcohol use disorder (AUD), so it can be a biomarker for predicting IGD or AUD. Recently, with the high-dimensional EEG features, various machine learning methods have been applied and they achieved satisfactory prediction performance. Meanwhile, heart rate variability (HRV) is also being proved that it is associated with disorders, such as IGD, which involves disrupted regulatory function. Moreover, clinical data obtained by self-administrated questionnaires can be a key factor for the prediction. In this study, we propose the use of HRV and clinical data as well as EEG for classifying the IGD and AUD patients from normal subjects. We compare various machine learning methods, such as Elastic Net, XGBoost, Random Forest, and so on. Since the combined predictors are high-dimensional, we first employ two types of iterative sure independence screening (ISIS) to select relevant features. Although the number of predictors was dramatically reduced, we showed that the machine learning results with ISIS are better than the results with whole predictors in terms of both prediction and interpretability. We also investigated the utility of HRV and clinical data on overall performance and found that the integration of EEG, HRV and clinical data outperforms the single modality method, especially in predicting IGD.;뇌전도 (Electroencephalography, EEG)는 인터넷 게임 중독 (Internet Game Disorder, IGD)과 알코올 중독 (Alcohol Use Disorder, AUD) 환자의 유발 전위 (Evoked response potential, ERP)의 진폭 변화를 식별함으로써 IGD와 AUD를 예측하는 중요한 바이오마커가 될 수 있다. 실제로 최근 연구에서는 고차원의 EEG 데이터에 다양한 머신러닝 기법을 적용하여 높은 분류 성능을 얻어냈다. 한편, 심박변이도 (Heart rate variability, HRV)가 몸의 조절 기능을 방해하는 인터넷 게임 중독과 같은 장애와 연관이 있다는 것이 증명되고 있으며, 환자의 자가진단 임상 데이터 (Clinical) 또한 예측에 있어서 중요한 역할을 한다는 것이 확인되고 있다. 본 연구에서는 IGD와 AUD 환자들을 정상군으로부터 분류해내는 과정에 있어 EEG 뿐만 아니라, HRV와 Clinical 데이터의 필요성을 제시하며, Elastic Net, XGBoost, Random Forest와 같은 다양한 머신러닝 기법들의 성능을 비교한다. 나아가, EEG, HRV, Clinical 데이터가 결합된 데이터셋이 고차원이라는 점을 고려하여, 중요 변수 선택을 위해 Sure independence screening (SIS) 기법을 적용한다. 결과적으로, SIS 방법을 사용하여 변수의 개수가 감소했음에도 불구하고, 전체 변수를 사용한 경우와 비교했을 때 예측력과 해석력이 모두 향상되었다. 또한, 단일 데이터셋을 사용하는 것보다 다양한 소스의 데이터가 결합되어 함께 사용되었을 때 성능이 향상된다는 것을 보였다.
Fulltext
Show the fulltext
Appears in Collections:
일반대학원 > 통계학과 > Theses_Master
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

BROWSE