View : 124 Download: 0

시계열 데이터 기반 당뇨병 예측을 위한 점진적 자기 전이 학습 프레임워크

Title
시계열 데이터 기반 당뇨병 예측을 위한 점진적 자기 전이 학습 프레임워크
Other Titles
Enhancing Diabetes Prediction through a Progressive Self-Transfer Learning Framework Designed for Discrete Time Series Data
Authors
임희령
Issue Date
2024
Department/Major
대학원 휴먼기계바이오공학부
Publisher
이화여자대학교 대학원
Degree
Master
Advisors
최장환
Abstract
당뇨병은 생활 습관 및 유전 등으로 인한 복합적인 요인의 작용으로 발병하게 된다. 하지만, 지금까지의 연구는 개별 및 소수의 요인과 질환 발병과의 상관 관계에 집중해 이를 밝히는 방식으로 이루어졌다. 한편, 딥 러닝(Deep Learning)의 발전에 따라 다양한 목적의 예측 모델 활용 사례가 증가하였으며 의료 분야에 적용하고자 하는 시도 또한 확대되었다. 본 연구에서는, 당뇨병 발병 예측 모델을 제시함으로써, 조기 진단을 통해 환자의 삶의 질을 보다 향상시키고, 의료관계자의 의사 결정을 직접적으로 도울 수 있다는 가능성을 제시하고자 한다. 본 연구에서는 다변량, 다중 인스턴스 및 시계열 데이터 환경에서 당뇨병을 예측할 수 있는 점진적 자기 전이 학습 프레임워크를 제시하였다. 한국인 유전체 역학조사사업(Korean Genome and Epidemiology Study; KoGES) 데이터를 활용하였으며, 최소 절대 수축 및 선택 연산자 및 양방향 순환 신경망 기반 결측 값 처리 방식을 활용하여 데이터 전처리를 진행하였다. 이어 시간대 시프팅 및 롤링,시간 분해능 조절 방식을 활용하여 시계열 데이터 기반의 점진적 자기 전이 학습을 위한 기반을 마련하였다. 본 연구에서 제시하는 프레임워크는 다수의 하위 분류기로 구성되며, 소프트 보팅(soft voting) 방식의 앙상블을 통해 최종 예측을 진행하게 된다. 본 연구에서는 정확도, 곡선하면적, 재현율, 정밀도, 그리고 F1 스코어를 평가 지표를 활용하였으며, 비-점진적 자기 전이 학습 모델, 단일 점진적 자기 전이 학습 모델, 앙상블을 통한 다중 점진적 자기 전이 학습 모델에 이르는 과정 동안의 평가 지표 변화를 순차적으로 취합한다. 추가적으로, 실험 결과를 기준 모델인 장단기 메모리, 게이트 순환 유닛, 그리고 기본 순환신경망 알고리즘과 비교하였다. 실험을 통해 곡선하면적, 재현율, 그리고 F1 스코어 중심의 평가 지표 향상을 확인하였다. 이러한 연구 결과는 제안된 접근법이 순환 신경망 모델에서 자주 발생하는 누적 오류 문제를 완화하고, 시간 종속적 동적 정보를 보다 잘 반영함으로써 효과적으로 다변량, 다중 인스턴스 및 시계열 데이터의 복잡성을 충분히 고려하였음을 의미한다. 추가적으로, 실제로 당뇨병이 발병하지만, 그렇지 않을 것이라고 예측하여 환자를 놓치는 비율을 감소시켰다는 면에서 의료 도메인 특이적인 성과 또한 존재한다고 할 수 있다. 본 연구를 통해 당뇨병 발병 환자를 조기에 탐색할 수 있으며, 조기 치료로 인한 질병의 개선 및 삶의 질 향상을 기대할 수 있다.;Although diabetes mellitus is a complex and prevalent disease, most researches to date have focused on individual features, rather than considering the complexities of multivariate, multiinstance, and time-series data. In this study, we developed a novel diabetes prediction model that incorporates these complex data types. We applied advanced techniques of data imputation (bidirectional recurrent imputation for time series; BRITS) and feature selection (the least absolute shrinkage and selection operator; LASSO). In addition, we utilized self-supervised algorithms and transfer learning to address the frequent issues with medical datasets, such as irregular data collection and sparsity. We also suggested a novel approach for discrete timeseries data preprocessing, applying both shifting and rolling time windows and modifying time resolution. Our study evaluated the performance of a progressive self-transfer network for predicting diabetes, which illustrated a notable improvement in metrics compared to nonprogressive and single self-transfer prediction tasks, particularly in AUC, recall, and F1 score. These findings suggest that the proposed approach can mitigate accumulated errors and reflect temporal information, making it an effective tool for accurate diagnosis and disease management. In summary, our study highlights the importance of considering the complexities of multivariate, multi-instance, and time-series data in diabetes prediction.
Fulltext
Show the fulltext
Appears in Collections:
ETC > ETC
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

BROWSE