View : 339 Download: 0

다각적인 보상 함수를 고려한 Multi-Critic 강화학습에 관한 연구

Title
다각적인 보상 함수를 고려한 Multi-Critic 강화학습에 관한 연구
Other Titles
A Study on Multi-Critic Reinforcement Learning Considering Multiple Reward Functions
Authors
이미희
Issue Date
2023
Department/Major
대학원 빅데이터분석학협동과정
Publisher
이화여자대학교 대학원
Degree
Master
Advisors
강윤철
Abstract
기존의 강화학습에서는 Single Critic network로 가치 함수를 추정하기 위해 성격이나 형태가 다른 보상 함수를 하나의 형식으로 규격화하거나 총합을 취하여 표현하였다. 이에 본 연구는 성격이 다른 보상 요소를 분리하여 Critic network에서 개별적으로 다회 학습하는 Multi-Critic network 방법을 제안한다. Actor-Critic 알고리즘에서 행동을 평가하는 Critic network가 다양한 요소에 대해 각각 학습할 수 있도록 분산 학습의 형태로 구성함으로써 Actor network에서 출력한 행동을 다각적으로 평가하도록 한다. 해당 방법론을 검증하기 위해 실제 산업적인 요소를 고려한 보상 함수를 바탕으로 추천시스템 환경에 적용하였다. 추천시스템의 추천 과정을 순차적 의사결정으로 간주하고 광범위한 행동 공간을 갖는 추천시스템을 Model-free 강화학습으로 구현하기 위해 DDPG 방법론을 사용하였다. 또한 여러 가지 산업적인 요소를 고려한 만큼 드물게 발생하는 소수의 유의미한 경험이 자주 재생될 수 있도록 PER를 사용하였다. 실험 결과, 제안하는 다회 학습 형태의 Multi-Critic network 모델이 기존의 종합적인 보상 함수를 사용하는 일회 학습 형태의 Single Critic network 모델에 비해 Precision과 NDCG 측면에서 좋은 성능을 보였으며, 추가적인 연구 문제 검증 과정에서도 타 모델에 비해 비교적 안정적인 성능을 보였다. 이로써 본 연구는 심층 강화학습에 있어서 분산 학습 형태의 Multi-Critic network 모델이 유의미함을 입증하고 다각적인 강화학습 구현의 가능성을 시사한다.;In the existing reinforcement learning, reward functions with different properties or forms were standardized in one form or expressed by summing them in order to estimate a value function with a single critic network. This study proposes a multi-critic network method that separates reward elements with different properties and learns multiple times individually in critic network. Critic network, which evaluates action in the Actor-Critic algorithm, is constructed in the form of distributed learning so that it can learn about various elements, thereby evaluating the action output from actor network in various ways. To verify this method, we apply it to recommendation system based on reward functions considering actual industrial factors. This paper considers the recommendation process of the recommendation system as sequential decision process and uses the DDPG methodology to implement a wide range of action spaces as model-free reinforcement learning. In addition, as various factors were considered, PER algorithm was used so that a small number of meaningful experiences that rarely occur could be replayed frequently. As a result of experiment, the proposed model performed well in terms of precision and ndcg compared to the single critic network model and also showed relatively stable performance compared to other models in verifying additional research problems. Therefore, this study demonstrates the significance of the multi-critic model in deep reinforcement learning and suggests the possibility of implementing multilateral reinforcement learning.
Fulltext
Show the fulltext
Appears in Collections:
일반대학원 > 빅데이터분석학협동과정 > Theses_Master
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

BROWSE