View : 576 Download: 0

강화학습 기법을 활용한 오프라인 매장에서의 동적 가격 인하 정책 연구

Title
강화학습 기법을 활용한 오프라인 매장에서의 동적 가격 인하 정책 연구
Other Titles
A study on Dynamic Markdown Pricing Strategy for Offline Retail Stores Using a Reinforcement Learning Approach
Authors
권소정
Issue Date
2022
Department/Major
대학원 빅데이터분석학협동과정
Publisher
이화여자대학교 대학원
Degree
Master
Advisors
강윤철
Abstract
본 연구의 목적은 일반적으로 가격 변동이 온라인 매장만큼 용이하지 못한 오프라인 매장에서 최적의 가격 변동을 통해 판매 수익성을 극대화 할 수 있는지에 있다. 특히, 같은 상품일지라도 고객이 지불하고자 하는 금액이 다를 수 있기 때문에 가격 변동 시 이를 반영할 수 있어야 한다. 하지만 현재 오프라인 매장은 가격 변동이 수월히 이루어지기 힘든 실황이다. 소비자의 수요 파악 및 실시간 재고량 파악 어려움, 고객 특성 데이터의 부재, 새로운 가격에 대응할 비용 소모 등의 문제가 발목을 잡기 때문이다. 이는 결국 오프라인 매장의 경쟁력이 온라인에 비해 하락하게 되는 결과로 이어지게 되고, 오프라인 매장으로 하여금 장기간 재고를 보유하게 되는 큰 원인 중 하나가 되었다. 이에 따라 판매의 감소 및 재고비용의 증가가 연속적인 악순환을 불러오면서 실제로 수많은 오프라인 매장들이 영업을 종료하는 결과를 가져오기도 했다. 유통기한이 있는 상품 같은 경우에는 폐기로 이어지기도 해서 추가적인 폐기비용 증가와 매출 손실을 유발한다. 이러한 비용 발생을 막기 위해 오프라인 매장과 같은 제한적인 상황에도 사용 가능한 가격정책이 요구되고 있는 실정이다. 따라서 본 연구는 고객 특성 및 재고 상황과 같은 제한적 데이터를 기반으로 진행할 수 있는 맞춤형 동적 가격 인하 정책을 제안한다. 특히, 고객 특성의 불확실성으로 인해 발생하는 수요 추정의 어려움이 발생하기도 하는데, 이를 해결하기 위해 순차적 의사결정문제로 정의하고 강화학습을 통해 가격을 책정하고자 한다. 강화학습은 불확실한 환경 하에서 과거의 경험을 통해 학습함으로써 순차적인 의사결정을 내리며 실시간으로 가격 정책을 수정하여 의사결정에 반영할 수 있다.
현재 강화학습을 사용한 동적 가격 정책은 대부분 Q-learning으로 진행되는데, 이는 환경이 복잡할수록 발생할 수 있는 경우의 수가 많아지면서 샘플들 간의 상관관계가 발생할 수 있다. 본 논문에서는 이를 방지하기 위해 강화학습에 신경망 기법을 도입한 심층 강화학습 알고리즘 중 하나인 Deep Q-Networks(DQN)을 사용하려 한다. 제안 알고리즘의 비교 대상으로 무작위로 할인을 진행하는 정책(Random markdown)과 영업 종료 몇 시간 전 대폭 할인을 제공하는 가격 정책(Clearance Sales)을 사용하였다.
또한 실제 오프라인 매장에서 발생할 수 있는 상황에 대응하여, 혼잡 시간대에 대한 요소와 연속적 재고 보충을 진행할 수 있는 요소를 추가하여 실험을 진행하였다. 그 결과 강화학습을 이용한 동적 가격 인하 정책이 효과가 있음을 입증하게 되었다. 또한 시간 당 평균 판매 수익 및 손실을 수치로 확인하여 강화학습 알고리즘이 적절한 의사결정을 진행하고 있음을 확인하였다. 그에 따라, 매장 내 최대 재고 수와 고객 밀도 변화에 맞춰서 수익을 내는 방향으로 동적 가격 정책을 수행하게끔 강화학습 알고리즘이 꾸준히 학습하고 있음을 알 수 있었다. 또한 매장 내 각종 이벤트에 대한 대응력도 갖추고 있음을 확인할 수 있었다. 본 논문이 기여하는 바로는 오프라인 매장 내에서 동적 가격 책정이 장기적으로 매장 내 매출 수익을 창출해 내는 데에 어느 정도 유효함을 입증해냈다는 점과, 불확실한 실시간 고객 수요 및 재고 상황에 대하여 시간마다 생기는 판매 데이터를 학습하여 최적 가격을 도출해낼 수 있다는 점이다. ;The purpose of this study is to maximize sales profitability through optimal price fluctuations in offline stores, where price fluctuations are generally not as easy as online stores. In particular, since the amount that the customer wants to pay for the same product may be different, a price change policy that can reflect this is required. However, it is difficult for offline stores to easily change prices. This is because problems such as difficulty in identifying consumers' demand and real-time inventory, lack of customer characteristic data, and consumption of costs to respond to new prices are holding back. This eventually led to a decline in the competitiveness of offline stores compared to online, and became one of the major reasons for offline stores to hold inventory for a long time. As a result, a decrease in sales and an increase in inventory costs have led to a continuous vicious cycle, leading to the closure of numerous offline stores. In the case of products with expiration dates, they can lead to disposal, leading to additional disposal costs and loss of sales. In order to prevent such costs, there is a need for a price policy that can be used even in limited situations such as offline stores. Therefore, this study proposes a customized dynamic price reduction policy that can be carried out based on limited data such as customer characteristics and inventory situation.In particular, in order to solve the difficulty of estimating demand caused by uncertainty in customer characteristics, the problem is defined as a sequential decision-making problem and the pricing problem is approached through reinforcement learning. Reinforcement learning can make sequential decisions by learning through past experiences under uncertain environments, modify price policies in real time, and reflect them in decision-making.
Currently, most dynamic pricing policies using reinforcement learning are implemented through Q-learning, which can lead to correlation between samples as the number of cases that can occur increases as the environment is more complex. To prevent this, this paper attempts to derive an optimal price policy through Deep Q-Networks (DQN), one of the in-depth reinforcement learning.As a comparison target of the proposed algorithm, Random markdown and Clearance Sales, which provide large discounts hours before the closing of business, were used.
In addition, in response to situations that may occur in offline stores, the experiment was conducted by adding factors for congestion time and factors that can continuously replenish inventory. As a result, it proved that the dynamic price reduction policy using reinforcement learning is effective. In addition, it was confirmed that the reinforcement learning algorithm was making appropriate decisions by checking the average sales revenue and loss per hour numerically. As a result, it can be seen that reinforcement learning algorithms are steadily learning to implement dynamic pricing policies in the direction of making profits in line with changes in the maximum inventory level and customer density in the store. It was also confirmed that it has responsiveness to various events in the offline store. What this paper contributes to is that dynamic pricing in offline stores has proven to be somewhat effective in generating sales revenue in the long run, and that it can derive optimal prices by learning hourly sales data for uncertain real-time customer demand and inventory conditions.
Fulltext
Show the fulltext
Appears in Collections:
일반대학원 > 빅데이터분석학협동과정 > Theses_Master
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

BROWSE