View : 351 Download: 0

Pre-defined Curriculum Learning for Time Series Classification

Title
Pre-defined Curriculum Learning for Time Series Classification
Authors
남보라
Issue Date
2023
Department/Major
대학원 빅데이터분석학협동과정
Publisher
이화여자대학교 대학원
Degree
Master
Advisors
강윤철
Abstract
커리큘럼 러닝은 쉬운 것부터 어려운 것의 순서대로 모델이 데이터를 학습하는학습 방법론이다. 커리큘럼 러닝의 관점에서 시계열 데이터가 연구된 사례가 거의 없었다. 본 연구에서 제안하는 난이도 측정 모델과 학습 스케줄링은 커리큘럼 러닝 기반의 시계열 분류 태스크에 대하여 더 나은 일반화 성능을 나타낸다. 구체적으로 본 연구에서는 시계열 시퀀스와 데이터셋의 전역적 특징 분석을 통해 난이도를 측정하는 기준을 제안한다. 이를 위해 먼저 UEA & UCR 시계열 분류 저장소의 단변량 시계열 데이터셋의 특징을 분석하고 이를 10가지 유형으로 분류하였다. 그리고 1,000개 이상의 데이터를 가지는 데이터셋 중 최대한 각 유형에 대한 실험을 진행하였다. 이때, 커리큘럼 러닝과 기존 학습 방식을 모두 적용하였다. 커리큘럼 러닝을 할 때에는 12가지 특징(주기성, 추세, 계절성, 왜도, 첨도, 비선형성, 자기 유사성, 피크의 수, 길이, 혼돈성, 클래스 불균형 지수 및 자기상관성)으로 데이터의 난이도를 측정한다. 학습 스케줄링의 경우 모든 실험에 대하여 10개의 커리큘럼 구성을 가진 Baby Step 방식으로 고정하여 사용하였다. 10개 벤치마크 데이터셋에 대한 실험으로 본 연구에서 제안하는 커리큘럼 러닝에서의 난이도 측정 기준의 효과성을 검증하였고, 결과 해당 기준이 시계열 데이터의 실제 난이도를 측정할 수 있었다. 전체 데이터 중 2개가 기존 랜덤 방식보다 더 높은 f1 점수를 보였고, 이 2개를 포함한 총 3개 데이터셋에 대하여 안정된 학습 양상을 보였다. 이 결과로, 본 연구에서 제안하는 난이도 측정 모델이 성공적으로 시계열 시퀀스를 분석한다고 해석할 수 있으며, 또 더 나아가 case study를 통해 어떠한 요인이 이러한 결과에 영향을 미치는지 분석하고자 하였다. 본 연구를 통해 이후 시계열 데이터 학습에 커리큘럼 러닝 방식을 적용할 때, 본 연구에서 제시하는 일반적인 난이도 측정 기준으로 여러 도메인에 활용할 수 있는 효과를 기대한다. 또한, 학습 전 데이터셋을 분석하는 사전 분석으로 커리큘럼 러닝을 적용하기 전, 많은 벤치마크 데이터셋 중 어떠한 데이터셋을 선정하고, 학습 전 어떠한 결과가 나올지 분석이 가능하다. ;Curriculum learning enables the model to learn data in order of difficulty, from easy to hard. Time series data, on the other hand, has received little attention in the area of curriculum learning. In this paper, we show that our difficulty metric and training schedule can improve generalization performance for curriculum learning-based time series classification task, comparing to non-curriculum-based approach. Specifically, we propose measures on the level of difficulty of each data point by global characteristics of sequences and datasets. To this end, we first analyze univariate time series datasets from UEA & UCR Time Series Classification Repository with five features to classify them into 10 types. Then we train the datasets which are selected by length and the type with both curriculum and non-curriculum learning. While learning with curricula, we measure the level of difficulty of each data point by 12 characteristics – frequency, trend, seasonality, skewness, kurtosis, non-linearity, self-similarity, number of peaks, length, chaotic, class imbalance, and serial correlation. For training scheduling, Baby Step with 10 curricula settings is used in every curriculum learning. Experimental results on 10 benchmark datasets demonstrate that our difficulty measurer can represent the actual level of difficulty of time series. Two datasets generate higher f1 scores and three datasets including the two show stabilized learning compared to vanilla model. From the results, we found that our proposed difficulty measurer could successfully analyze sequences with their global characteristics. We further analyze results with case study, to find out which factors have influence on curriculum learning. Our contribution is that proposed metrics can be a complete set to use for measuring difficulty of time series sequences. In addition, with proposed features to analyze datasets, one can decide which dataset to feed the model, feature-wisely, instead of random picking. This paper finds ‘deviation’ is the most important factor for curriculum method, and also distribution of difficulty measures impact learning through experiments.
Fulltext
Show the fulltext
Appears in Collections:
일반대학원 > 빅데이터분석학협동과정 > Theses_Master
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

BROWSE