View : 61 Download: 0

Full metadata record

DC Field Value Language
dc.contributor.advisor채상미-
dc.contributor.author유지은-
dc.creator유지은-
dc.date.accessioned2024-08-19T16:32:11Z-
dc.date.available2024-08-19T16:32:11Z-
dc.date.issued2024-
dc.identifier.otherOAK-000000232963-
dc.identifier.urihttps://dcollection.ewha.ac.kr/common/orgView/000000232963en_US
dc.identifier.urihttps://dspace.ewha.ac.kr/handle/2015.oak/269061-
dc.description.abstractThe "Pump and Dump" scheme, which involves artificially inflating the price of a cryptocurrency through coordinated efforts and subsequently selling off holdings at elevated prices, is a classic fraud tactic that has been carried over from traditional asset trading markets. In the cryptocurrency market, "pump and dump" operations typically differ from their predecessors in that they are organized through group messaging platforms such as Telegram and Discord. Participants in these groups share information regarding target assets, purchase timings, and prices to orchestrate the pump. Once the price reaches a certain high level, they exploit news and viral marketing to attract individual investors who enter the market belatedly, thus perpetuating the scheme. This study develops and compares the performance of five decision tree-based ensemble algorithms for detecting "pump and dump" schemes in the cryptocurrency market. The dataset includes 317 "pump and dump" events, which are highly imbalanced compared to regular trading data. To address this imbalance during the data preprocessing stage, a resampling procedure was applied to the training data to adjust the data distribution. Ultimately, SMOTE-based oversampling was adopted as the resampling technique, and five decision tree-based ensemble algorithms were employed as classifiers: Random Forest, AdaBoost, GBM, XGBoost, and LightGBM. Five classification models trained on the original dataset and five models trained on the dataset with SMOTE oversampling were constructed, and compared the performance of each model subsequently. The research aimed to improve the performance in accurately classifying the specific scenario of "pump and dump. Evaluation metrics including accuracy, precision, recall, and F1 Score were employed. Especially the research focused on observing the extent of recall improvement during the model tuning process. The experimental results confirmed that using the SMOTE oversampling technique to generate synthetic data for the minority class ('pump and dump') significantly improved the recall of the trained models, with an enhancement of up to nearly 10%. Thus, through alleviating the pronounced imbalance in the input data and training the models thereafter, it was substantiated that the classification accuracy for anomalous events like 'pump and dump' notably improved. This empirical validation demonstrates the efficacy of SMOTE oversampling technique in the realm of cryptocurrency transaction data. Examining the performance of the models trained on oversampled data, the random forest exhibited the best performance with an F1 Score of 91.25%. However, it was the second most time-intensive algorithm, requiring approximately 8 minutes to construct the final model, thus incurring significant time costs. The model with the longest training time was GBM, taking approximately 20 minutes to complete. While all five models exhibited 99% accuracy, XGBoost and LightGBM notably recorded training times of 14.46 seconds and 3.3 seconds, respectively, when trained on oversampled data, demonstrating markedly superior performance in terms of time efficiency. The purpose of this study is to construct machine learning models for detecting 'pump and dump' schemes in the cryptocurrency market. A distinguishing feature from previous research includes advanced learning algorithm adoption and refined data preprocessing methodologies. The significance of this study lies in advocating for awareness among potential investors in the cryptocurrency market regarding the frequent occurrence of fraudulent practices known as 'pump and dump', and encouraging vigilance against such phenomena by enhancing understanding of the processes of price manipulation. Furthermore, in Chapter 6, this study discusses institutional measures that could potentially stabilize the cryptocurrency market according to the principle of "same function, same regulation," by introducing actual cases of significant losses due to severe volatility in the cryptocurrency market and examining volatility mitigation mechanisms in the stock market. It also examines provisions related to ‘abnormal transactions’ covered in the upcoming Korean “Virtual Assets User Protection Act” scheduled for implementation in July 2024, discussing the features of the cryptocurrency market that could pose limitations when enforcing this legislation. Through these discussions, this study academically highlighted the current state of the cryptocurrency market and underscored specific market characteristics that are crucial for fostering a healthy trading environment.;조직적으로 일반 투자자를 선동하여 단기간에 암호화폐의 가격을 상승시킨 후 높은 가격대에서 물량을 팔아넘기는 ‘펌프와 덤프’는 전통적인 자산 거래 시장에서부터 이어지는 고전적인 사기 수법이다. 암호자산 시장에서의 ‘펌프와 덤프’는 대개 텔레그램이나 디스코드와 같은 그룹 메신저 플랫폼을 기반으로 단체를 이루어 움직인다는 점에서 이전과는 차이를 보인다. 메신저를 통해 그룹원 간 타겟 종목과 매수시점 및 매수가격을 공유하여 펌핑을 계획하고, 어느 정도 높은 가격대가 형성된 후 해당 종목과 관련된 뉴스 및 바이럴 홍보를 활용해 일반 개인 투자자를 시장에 뒤늦게 참여시키는 구조로 성행하고 있다. 본 논문에서는 암호화폐 시장의 ‘펌프와 덤프’ 탐지 모형으로 의사결정 나무 기반의 앙상블 알고리즘 5가지 모형을 구축 및 그 성능을 비교하였다. 또한, 수집된 ‘펌프와 덤프’ 이벤트는 317건으로, 일반 거래 데이터 대비 극심한 불균형을 이루고 있어, 데이터의 전처리 과정에서 해당 불균형성을 해결하기 위하여 학습 데이터에 대한 리샘플링을 진행함으로써 데이터의 분포를 조정하는 절차를 거쳤다. 최종적으로 리샘플링 기법으로는 SMOTE 기반 오버샘플링을 채택하였고, 분류기로는 랜덤 포레스트, AdaBoost, GBM, XGBoost, LightGBM 총 5가지의 의사결정 나무 기반 앙상블 알고리즘을 채택하였다. 원본 데이터 세트를 학습시킨 분류 모형 5개와 SMOTE 오버샘플링 기법을 적용한 데이터 세트를 학습시킨 분류 모형 5개를 구축한 뒤 각각의 성능을 비교하였다. ‘펌프와 덤프’라는 특정 상황을 정확히 분류해 낼 수 있는지에 대한 성능의 개선을 연구목적으로 삼고 실험을 계획하였다. 평가지표로는 정확도, 정밀도, 재현율, F1 Score를 활용하였으며, 모형 성능 조율 과정으로 재현율 개선 정도에 집중하여 연구 결과를 관찰하였다. 실험 결과, SMOTE 오버샘플링 기법을 통해 소수 범주(‘펌프와 덤프’)에 대한 합성 데이터를 생성한 후 학습시킨 모형의 재현율이 최대 10% 가까이 개선되는 것을 확인할 수 있었다. 따라서 입력 데이터의 극심한 불균형을 완화시킨 후 모형을 학습시킴으로써 이상 범주인 ‘펌프와 덤프’ 이벤트에 대한 분류 정확도가 현저히 개선되는 것을 확인함에 따라, 암호화폐 거래 데이터 영역에서의 SMOTE 오버샘플링 기법의 효용성을 실증적으로 증명하였다. 오버샘플링 된 데이터 학습 모형의 성능을 살펴보면, F1 Score 기준 91.25%를 기록한 랜덤 포레스트의 성능이 가장 좋았지만, 최종 모형 구축까지 8분 가량 소요되어 시간 비용이 두 번째로 많이 소비되는 알고리즘이었다. 가장 긴 학습 소요시간을 기록한 모형은 GBM으로 약 20분 가량 소요되었다. 5개 모형 모두 99%의 정확성을 보였지만, 확실히 XGBoost와 LightGBM은 오버샘플링 된 데이터 학습 기준 각각 14.46초, 3.3초를 기록하여 시간 비용 측면에서는 월등히 좋은 성능을 보여주었다. 본 연구의 목적은 암호화폐 시장의 ‘펌프와 덤프’ 탐지를 위한 기계학습 모형의 구축으로, 선행연구와의 차별점으로는 데이터 전처리 방식과 선행연구 대비 고도화된 학습 알고리즘 채택에 있다. 본 연구의 의의로는 암호자산 시장 내에서 빈번히 발생하고 있는 ‘펌프와 덤프’라는 사기행각에 대한 인지와 시세조작이 이루어지는 과정의 이해를 도움으로써 잠재적 투자자들이 이러한 양상에 대하여 경각심을 높일 것을 촉구한다. 또한, 제6장 제언 부분에서는 암호자산 시장 내 극심한 변동성으로 인한 실제 대규모 피해 사례를 소개하고, 주식 시장에서의 변동성 완화 장치를 살펴봄으로써 ‘동일기능-동일규제’원칙에 따라 암호자산 시장의 안정화를 위하여 제도적으로 마련할 수 있는 장치에 대하여 논하였으며, 2024년 7월 시행을 앞둔 국내 ‘가상자산이용자보호법’에서 다루고 있는 ‘이상거래’관련 조항을 살펴보고, 해당 법안 집행 시 한계점으로 작용할 수 있는 암호자산 시장의 특성에 대하여 논함으로써 암호자산 시장의 현주소와 건전한 거래 환경 조성을 위해 인지하고 있어야 할 시장의 특수성에 대하여 학술적으로 시사하였다.-
dc.description.tableofcontentsI. 서론 1 A. 연구 배경 및 목적 1 B. 논문 구성 4 Ⅱ. 선행연구 5 A. 암호화폐 시장의 가격 조작 5 B. 펌프와 덤프 6 Ⅲ. 연구 방법 8 A. 앙상블 기법 8 B. 랜덤 포레스트 14 C. AdaBoost 15 D. GBM 16 E. XGBoost 18 F. LightGBM 21 G. 오버샘플링 24 Ⅳ. 실험 설계 31 A. 제안 모형 31 B. 실험 데이터 33 C. 모형 평가 방법 36 D. 실험 환경 41 Ⅴ. 실험 결과 및 분석 42 A. 실험 결과 및 분석 42 Ⅵ. 결론 및 제언 45 A. 결론 45 B. 제언 48 참고문헌 56 ABSTRACT 65-
dc.formatapplication/pdf-
dc.format.extent749740 bytes-
dc.languagekor-
dc.publisher이화여자대학교 대학원-
dc.subject암호화폐, 펌프와 덤프, 이상거래 탐지, 앙상블 기법, 트리 앙상블, 오버샘플링,-
dc.subject.ddc005.7-
dc.title암호화폐 펌프와 덤프 탐지 모델 연구-
dc.typeMaster's Thesis-
dc.title.subtitleSMOTE 오버샘플링을 적용한 트리 앙상블 기법을 중심으로-
dc.title.translatedCryptocurrency Pump-and-Dump Frauds Detection : Focusing on Tree-based Ensemble Methods with SMOTE-based Oversampling-
dc.creator.othernameYu, Jieun-
dc.format.pagevi, 68 p.-
dc.identifier.thesisdegreeMaster-
dc.identifier.major대학원 빅데이터분석학협동과정-
dc.date.awarded2024. 8-
Appears in Collections:
일반대학원 > 빅데이터분석학협동과정 > Theses_Master
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

BROWSE