View : 340 Download: 0

Full metadata record

DC Field Value Language
dc.contributor.advisor강윤철-
dc.contributor.author이미희-
dc.creator이미희-
dc.date.accessioned2023-08-23T16:31:45Z-
dc.date.available2023-08-23T16:31:45Z-
dc.date.issued2023-
dc.identifier.otherOAK-000000205411-
dc.identifier.urihttps://dcollection.ewha.ac.kr/common/orgView/000000205411en_US
dc.identifier.urihttps://dspace.ewha.ac.kr/handle/2015.oak/265837-
dc.description.abstract기존의 강화학습에서는 Single Critic network로 가치 함수를 추정하기 위해 성격이나 형태가 다른 보상 함수를 하나의 형식으로 규격화하거나 총합을 취하여 표현하였다. 이에 본 연구는 성격이 다른 보상 요소를 분리하여 Critic network에서 개별적으로 다회 학습하는 Multi-Critic network 방법을 제안한다. Actor-Critic 알고리즘에서 행동을 평가하는 Critic network가 다양한 요소에 대해 각각 학습할 수 있도록 분산 학습의 형태로 구성함으로써 Actor network에서 출력한 행동을 다각적으로 평가하도록 한다. 해당 방법론을 검증하기 위해 실제 산업적인 요소를 고려한 보상 함수를 바탕으로 추천시스템 환경에 적용하였다. 추천시스템의 추천 과정을 순차적 의사결정으로 간주하고 광범위한 행동 공간을 갖는 추천시스템을 Model-free 강화학습으로 구현하기 위해 DDPG 방법론을 사용하였다. 또한 여러 가지 산업적인 요소를 고려한 만큼 드물게 발생하는 소수의 유의미한 경험이 자주 재생될 수 있도록 PER를 사용하였다. 실험 결과, 제안하는 다회 학습 형태의 Multi-Critic network 모델이 기존의 종합적인 보상 함수를 사용하는 일회 학습 형태의 Single Critic network 모델에 비해 Precision과 NDCG 측면에서 좋은 성능을 보였으며, 추가적인 연구 문제 검증 과정에서도 타 모델에 비해 비교적 안정적인 성능을 보였다. 이로써 본 연구는 심층 강화학습에 있어서 분산 학습 형태의 Multi-Critic network 모델이 유의미함을 입증하고 다각적인 강화학습 구현의 가능성을 시사한다.;In the existing reinforcement learning, reward functions with different properties or forms were standardized in one form or expressed by summing them in order to estimate a value function with a single critic network. This study proposes a multi-critic network method that separates reward elements with different properties and learns multiple times individually in critic network. Critic network, which evaluates action in the Actor-Critic algorithm, is constructed in the form of distributed learning so that it can learn about various elements, thereby evaluating the action output from actor network in various ways. To verify this method, we apply it to recommendation system based on reward functions considering actual industrial factors. This paper considers the recommendation process of the recommendation system as sequential decision process and uses the DDPG methodology to implement a wide range of action spaces as model-free reinforcement learning. In addition, as various factors were considered, PER algorithm was used so that a small number of meaningful experiences that rarely occur could be replayed frequently. As a result of experiment, the proposed model performed well in terms of precision and ndcg compared to the single critic network model and also showed relatively stable performance compared to other models in verifying additional research problems. Therefore, this study demonstrates the significance of the multi-critic model in deep reinforcement learning and suggests the possibility of implementing multilateral reinforcement learning.-
dc.description.tableofcontentsⅠ. 서론 1 Ⅱ. 선행연구 4 A. 강화학습 4 B. Multi-Critic Methods 6 C. 추천시스템 8 D. Retention 10 E. DDPG 11 F. PER 13 Ⅲ. 연구 문제 16 Ⅳ. 연구 방법 17 A. 연구 모형의 구조 17 B. 연구 모형의 상호작용 19 Ⅴ. 실험 설계 20 A. 실험 데이터 20 B. 문제 정의 21 C. 모형 훈련 과정 26 Ⅵ. 실험 결과 및 해석 31 A. 모형 훈련 결과 31 B. 모형 테스트 결과 32 C. t-검정 결과 34 Ⅶ. 결론 및 논의 36 참고문헌 39 ABSTRACT 44-
dc.formatapplication/pdf-
dc.format.extent885833 bytes-
dc.languagekor-
dc.publisher이화여자대학교 대학원-
dc.subject.ddc005.7-
dc.title다각적인 보상 함수를 고려한 Multi-Critic 강화학습에 관한 연구-
dc.typeMaster's Thesis-
dc.title.translatedA Study on Multi-Critic Reinforcement Learning Considering Multiple Reward Functions-
dc.creator.othernameLee, Mihee-
dc.format.pagev, 45 p.-
dc.identifier.thesisdegreeMaster-
dc.identifier.major대학원 빅데이터분석학협동과정-
dc.date.awarded2023. 8-
Appears in Collections:
일반대학원 > 빅데이터분석학협동과정 > Theses_Master
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

BROWSE