View : 850 Download: 0

트랜스포머 기반 한국어 사전훈련 언어모델을 이용한 문서요약 성능 연구

Title
트랜스포머 기반 한국어 사전훈련 언어모델을 이용한 문서요약 성능 연구
Other Titles
A Study on the Performance of Document Summarization Using Transformer-Based Korean Pre-Trained Language Model
Authors
박지민
Issue Date
2022
Department/Major
대학원 경영학과
Publisher
이화여자대학교 대학원
Degree
Master
Advisors
신경식
Abstract
Natural language processing (NLP) is a branch of artificial intelligence technology that deals with understanding, generating, and analyzing natural languages through various technologies such as morpheme analysis, part tagging, and parsing. In particular, since the introduction of the Pre-trained Language Model (PLM), the performance of NLP has been remarkably improved, and related research has been applied to various fields. Recently, PLM such as BERT, GPT, ELMO, ULMFIGHT, and BART have been developed and are in the spotlight in the field of natural language processing based on transfer learning. This paper compares and confirms performance in the field of abstractive summarization of BART and GPT2. The purpose of this study is to confirm whether BART shows the highest performance in abstractive summarization due to the structural reasons. Therefore, abstractive summarization task was performed by applying the same data and hyperparameters as KoGPT2, which is known to have strengths in natural language generation. As a result, performance of KoBART was the highest. The contribution of this study is as follows. First, we compare and confirm which model shows the highest performance in the abstractive summarization field between PLM, unlike comparison between the performance of BART and traditional Transformer and word-based embedding models in previous work. Second, unlike previous studies we suggest that the performance of the PLM may have a greater influence on the number of repeated epochs than other factors, collectively increasing the number of epochs may not be an essential factor for performance improvement. However, the size of the data used for fine tuning cannot be said to be large, and the limitations of parameter setting due to the experimental environment, and the effect on the abstractive summarization quality of the number and characteristics of parameters could not be measured. In addition, as suggested in previous studies conducted earlier, the learning performance of the language model can change significantly depending on the level of pre-fine tuning due to the nature of Korean as a deadlocked language. Finally, in addition to newspaper data, it is necessary to test by applying magazines, and legal data to ensure that performance of KoBART is maintained consistently.;자연처처리(NLP, Natural Language Processing)는 인공지능 기술의 한 분야로 형태소 분석, 품사 태깅, 구문 분석 등다양한 기술을 통해 자연어의 이해와 생성, 분석을 다루는 커뮤니케이션 기술을 말한다. 특히 사전학습된 언어모델(PLM, Pre-trained Language Model)이 소개된 이후 연어처리의 모든 분야에서 성능이 뛰어나게 향상되었고, 이와 관련한 연구가 다양한 분야에 걸쳐 응용되어 진행되고 있다. 언어모델(Language Model)이란 단어 시퀀스에 확률을 부여하는 모델로, 최근 그 성능의 뛰어난 향상과 비용의 감소로 주목받고 있는데, 언어모델에 주목하고 있는 또 다른 이유는 전이학습(Transfer Learning)이다. 전이학습은 대량의 말뭉(Corpus)를 사용하여 사전학습한 언어모델을 다양한 다운스트림 태스크(Downstream Task)에 적용할 때 그 목적에 맞게 파인 튜닝(Fine-tuning)하는 기법으로 타겟 데이터의 크기가 작더라도 높은 성능을 얻을 수 있다. 최근에는 BERT, GPT, ELMo, ULMFiT, BART 등 사전학습된 언어모델이 개발되어 전이학습 기반의 자연어처리 연구 분야에서도 주목받고 있다. 사전훈련 언어모델은 문장 수준의 임베딩을 통해 단어 수준 임베딩의 한계를 극복하여 문서 내의 전체적인 문맥적인 의미를 함축할 수 있게 되었고 이에 따라 자연어처리 태스크 성능이 월등히 향상되었다. 사전학습한 언어모델은 데이터의 크기와 모델에 사용된 파라미터의 수가 커질수록 성능이 높아진다는 특징을 가지고 있다(Devlin et al. 2018; Pennington et al., 2014; Baevski et al., 2019). Baevski et al.(2019)는 사전학습 데이터양에 따른 평균 GLUE 스코어를 도출하였는데 연구 결과 사전학습 데이터의 양이 증가할수록 평균 GLUE 스코어 또한 증가(Baevski et al., 2019)하여 성능이 향상되었음을 보여주었다. Baevski et al.(2019)와Pennington et al.(2014)의 연구에서 제시한 바와 같이 사전학습 데이터의 양은 언어모델의 성능이 향상하는데 매우 큰 영향을 끼치는 요소이다. 이 중 BART(Bidirectional Auto-Regressive Transformers)는 2019년Facebook에서 배포한 모델로 Denoising 기법을 Seq2Seq에 적용해 자연어생성, 번역 등을 수행하는 모델이다(Lewis et al., 2019). BART는 BERT와 GPT2를 결합한 개념의 모델로 구조적인 특성에 따라 자연어 이해와 생성 모두에 강점을 가지고 있어 사전훈련 언어모델 중 마스크 언어모델(MLM, Masked Language Model) 기반 모델의 한계인 End task에만 집중해 활용성이 떨어지는 부분을 극복할 수 있게 되었다. 최근에는 한국어 기반의 사전훈련 언어모델에 대한 연구∙개발이 다수 진행되고 있다. SK Telecom의 AI 전담 조직인 SKTBrain에서는 KoGPT2와 KoBERT, KoBART를 공개했고, ETRI(한국전자통신연구원)는 KorBERT, TwoBlock AI는 HanBERT를 공개했다. 한국어 기반의 사전훈련 언어모델의 성능을 더욱 향상시키기 위해 대규모로 모델의 규모를 확장한 ‘초거대 AI’ 기술 개발에 다양한 기업이 노력을 기울이고 있고, 이전보다 큰 폭으로 향상된 성과가 계속해서 공개되고 있다. 초거대AI 기술이란 훈련 데이터뿐만 아니라 파라미터의 수 또한 이전보다 비약적으로 증가시킨 것을 의미한다. 이 기술이 관심을 끄는 이유는 모델의 크기가 클수록 성능이 좋아진다는 법칙 때문이다. 그 예로 네이버의 ‘하이퍼 클로바’, 카카오의 ‘KoGPT’ 등이 있다. 문서요약(Text Summarization)은 원본 문서에서 핵심 내용만을 전달할 수 있도록 문서 내의 가장 의미 있는 내용만을 요약해 적은 용량의 문서로 구성하는 기법이다(허지욱, 2019). 문서요약은 내용의 구성 방법에 따라 생성요약(Abstractive Summarization)과 추출요약(Extractive Summarization)으로 구분할 수 있다(송의석 외 4인, 2021). 생성요약은 원래 문서에 포함되지 않은 문장으로 구성된 새로운 요약문을 생성하는 접근방식인 반면, 추출요약은 원문 내에서 핵심 텍스트를 추출해 연결한 요약문을 생성하는 접근방식이다. 이전에는 생성요약이 추출요약보다 더 복잡한 방법론을 사용하기 때문에 추출 요약 위주의 연구가 많았으나 최근 Seq2Seq를 비롯한 다양한 모델의 개발로 생성요약 연구도 활발하게 진행되고 있다(허지욱, 2019). 본 논문에서는 최근 공개된 사전훈련 언어모델 중 파인튜닝한 KoBART의 생성요약 태스크 성능을 동일한 조건 하에 파인튜닝한 KoGPT2와 비교하였다. KoBART는 최근 다수의 생성요약 연구에서 가장 높은 성능을 보여주어(김의순⸱임희석, 2021; 권성구 외 2인, 2021) KoBART를 분석 모델로 채택하였고, KoBART의 문서 요약 성능 평가를 위하여 자연어 생성에서 활발하게 활용되고 있는 KoGPT2를 대조모델로 채택했다. 생성요약에 대한 모델의 성능은 ROUGE-1, 2, L의 F1 스코어로 측정하여 비교하였다. 그 결과 KoBART가 KoGPT2에 비해 그 성능에서 차이가 있었음을 확인했다. 이러한 성능의 차이는 두 모델의 구조적인 차이에서 기인하고 있다. 이러한 결과는 두 알고리즘을 비교한 Tretyak & Stepanov(2020)의 선행 연구에서 제시된 학술적 시사점을 뒷받침하는 것으로, KoGPT2가 디코더(Decoder)로 만 구성되어 자연어 생성에만 강점이 있는데 반해, KoBART는 인코더-디코더(Encoder-Decoder)로 구성되어 자연어의 이해와 생성 모두에 강점이 있는 모델이기 때문이다. 본 연구가 갖는 의의는 다음과 같다. 첫째, 이전 연구에서 기존의 트랜스포머 및 단어 기반 임베딩 모델과 BART의 성능을 비교한 것과 달리 사전훈련 언어모델 간의 생성요약 분야에 있어 가장 높은 성능을 보여주는 모델이 어떤 것인지 비교 및 확인했다. 둘째, 사전훈련 언어모델의 성능이 반복 에포크 수가 다른 요인보다 큰 영향을 줄 수 있음을 제시한 선행 연구와는 달리 에포크의 횟수를 일괄적으로 증가시키는 것이 성능 개선에 필수적인 요소가 아닐 수 있다는 측면을 보여주고 있다. 하지만 파인튜닝에 사용한 데이터의 크기가 크다고 할 수 없고, 실험환경으로 인한 파라미터 설정의 한계, 하이퍼 파라미터가 생성요약의 품질에 미치는 영향 미측정, 다양한 데이터 미적용 등의 한계점이 있다. 따라서 향후 연구에서는 이러한 한계점을 보완하여 진행되어야 할 것이다.
Fulltext
Show the fulltext
Appears in Collections:
일반대학원 > 경영학과 > Theses_Master
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

BROWSE