View : 993 Download: 0

VADER와 성향 점수를 이용한 텍스트 분류

Title
VADER와 성향 점수를 이용한 텍스트 분류
Other Titles
Text Classification Using VADER and Propensity Score Matching Methods
Authors
강아미
Issue Date
2021
Department/Major
대학원 통계학과
Publisher
이화여자대학교 대학원
Degree
Master
Advisors
김미정
Abstract
In the paper, we classify tweets into two or three categories. The data used in the study is obtained through crawling tweets containing specific hashtags using Python library `Twint’. We try two types of classification methods. First, we use VADER (Valence Aware Dictionary for sEntiemnt Reasoning: VADER), a successful sentiment analysis algorithm developed by Hutto & Gilbert (2014) of Georgia Institute of Technology. VADER use dictionary with sentiment words produced by collective intelligence, containing 3,345 positive and 4,172 negative emotional words, totaling 7,517 words. VADER allows us to analyze various types of emotions, such as emoticons, slang, abbreviations, and emotional symbols, and can evaluate sentiment types for texts on social media appropriately. The method is applied to classify the tweets containing ‘#APPLE’ into text with negative, neutral or positive sentiments in this study. Second, we use propensity score matching methods developed by Michael J. Paul of the University of Colorado to classify the tweets into two categories. We focus on finding causal relationships between words rather than counting the number of words that appear frequently. In particular, we classify tweets written in Korean containing '#Samsung' into advertisement and non-advertisement. Furthermore, we also look into TDM (Term-Document Matrix) and sparse matrix that convert to explain the algorithm in detail.;본 논문은 트위터에서 크롤링(crawling)한 데이터를 이용해 감성분석 광고와 일반 트윗(tweet)으로 텍스트 분류 하고자 한다. 연구에 사용된 데이터는 Python의 Twint 라이브러리를 사용해 특정 해시 태그가 포함된 트윗을 크롤링(Crawling)한다. 연구에 사용된 분석은 조지아 공과대학(GA Tech)의 Hutto & Gilbert (2014)가 개발한 성공적 감성분석 알고리즘 VADER(Valence Aware Dictionary for sEntiemnt Reasoning : 감정 추론을 위한 결합가 인식 사전, 이하 VADER)을 적용한다. VADER는 집단 지성으로 제작한 감성사전으로 긍정 감정어 3,345개와 부정 감정어 4,172개로 총 7,517개의 단어가 포함되어 있다. VADER는 이모티콘, 비속어, 축약어, 감정 기호 등에 감정 분석이 가능하며 소셜 미디에 유형 텍스트에 적절한 감정평가가 가능한 감정사전이다. 2021년 03월 01일부터 2021년 03월09일까지 트윗(tweet) 중 ‘#APPLE’이 포함된 트윗(tweet)을 대상으로 VADER알고리즘을 사용해 긍,부정 평가를 하고자 한다. 또한, 콜로라도 대학의 Michael J. Paul가 개발한 Propensity Score을 사용하여 텍스트 분류을 한글에 적용하여 2021년 03년 01일부터 2021년 3월 31까지 트윗(tweet)에 ‘#삼성’이 포함된 트윗(tweet)에 대하여 광고 트윗(tweet)인지 일반 트윗(tweet)인지를 구분하고자 한다. 본 논문에서는 자연어를 수치로 바꾸는 TDM(Term-Document Matrix)와 희소행렬(Sparse Matrix)에 대해서도 알아본다.
Fulltext
Show the fulltext
Appears in Collections:
일반대학원 > 통계학과 > Theses_Master
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

BROWSE