View : 207 Download: 0

감성사전 기반 Word2vec 자질을 이용한 감성 분류 시스템

Title
감성사전 기반 Word2vec 자질을 이용한 감성 분류 시스템
Other Titles
A sentiment classification system using Lexicon-based Word2vec features
Authors
명은진
Issue Date
2018
Department/Major
대학원 빅데이터분석학협동과정
Publisher
이화여자대학교 대학원
Degree
Master
Advisors
신경식
Abstract
감성분석(Sentiment Analysis)은 리뷰, 뉴스, 블로그 등의 다양한 텍스트 데이터로부터 특정 대상의 감성의 극성이 긍정, 부정 혹은 중립인지 찾는 것을 목표로 하는 자연어 처리(Natural Language Processing) 분석 기법이다. 감성분석의 기법으로는 크게 사전 기반 기법(lexicon based approach)과 기계학습 기법(machine-learning approach)이 있다. 사전 기반 기법의 경우 범용 감성사전 혹은 연구자가 직접 제작한 사전을 이용하여 감성분석을 수행하게 되며, 대량의 문서들을 대상으로 할 경우, 기계학습 기법을 적용하는 것이 일반적인 흐름이다. 이와 관련한 연구로는, 기계학습 기법의 중간단계인 자질 선택(feature selection)단계에서 분석 정확도를 높이기 위해 다양한 통계적 방법을 이용하는 연구가 있었다. 그리고 분류단계에서 필요한 분류기를 다양하게 적용하여 감성분석 모형의 성능을 비교하거나, 최근에는 대표적인 워드임베딩 방법론인 Word2vec을 이용해 기계학습 기법의 자질 선택 단계에 적용하여 분류를 수행한 연구들이 많이 있었고, 딥러닝을 이용한 감성분석에서도 자질 선택 단계에서 Word2vec을 적용하고 있는 추세이다. Word2vec은 신경망 기반의 연속 워드임베딩(continuous word embedding)로서, Word2vec을 이용해 단어들을 학습할 경우 워드임베딩 공간에서 비슷한 문맥을 가진 단어들은 서로 가까운 공간 분포를 가지게 되는데, 어떠한 분야에서 사용되는 문서들을 대상으로 학습했는가에 따라 단어가 공간 분포는 달라지게 된다. Word2vec을 적용한 감성분석 연구로는 자질 선택 단계에서 Word2vec의 고차원 문제를 해결하기 위해, 클러스터링 기법을 적용하여 차원을 축소시키는 것과 관련한 연구가 주류를 이루었고, Word2vec 모델이 문장 내에서 단어의 통사적 정보와 같은 쓰임새 정보만 학습하여, 감성적으로 극성이 다른 단어도 유사한 워드임베딩 벡터로 표현되는 한계점이 있는데 이는 감성분석의 정확도를 떨어뜨리는 문제점을 야기하기에 단어의 의미정보를 결합한 워드임베딩 방법을 제안하는 연구도 계속해서 등장하고 있다. 본 연구에서는 감성사전 정보를 결합한 Word2vec을 자질을 감성분석에 적용하는 새로운 감성 분류 모형을 제안하고자 한다. 곧, 연구자가 구축한 감성사전을 Word2vec 모델 학습 단계에 결합하여 감성사전 기반 Word2vec 모델을 구축하고 이를 통해 분석하고자 하는 문서의 자질을 구축하여 감성분석을 시행하였다. 본 연구에서 제안한 방법으로 감성분석을 시행했을 때, 기존 방법보다 분류 정확도가 약 2.5% 향상된 것을 확인하여, 제안모형의 유효성을 확인하였다. 본 연구는 기존의 감성분석 기법인 사전 기반 기법과 기계학습 기법을 혼합하여 감성분석을 수행하므로 연구자가 구축한 감성사전을 활용하여 감성의 극성 정보를 반영함으로써 분석 성과를 높인데 의의가 있었다. 또한, Word2vec을 적용한 감성분석 연구의 관점에서 바라봤을 때, 워드임베딩 기법이 단어 표현 방법으로는 우수하지만, 감성분석에 있어서 문장 구조적 통사적 정보를 학습하여 Word2vec이 감성의 극성 정보를 예민하게 반응하지 못하는 점이 있기에, 감성사전을 결합하여 기존의 Word2vec 자질의 한계점을 보완할 수 있는 연구를 수행했다는 점에서 의의가 있다.;Sentiment Analysis is Natural Language Processing that aims to distinguish positive, negative, and neutral sentiments of a specific object from various text data such as reviews, news, and blogs. Sentiment analysis techniques are largely classified into lexicon based approach and machine-learning approach. In the case of lexicon based approach, general-purpose sentiment lexicon or a lexicon created by a researcher is used for sentiment analysis. On the other hand, when a large amount of documents are targeted, machine-learning approach is generally applied. In the relevant studies, there have been various statistical explorations to improve the analysis accuracy in the feature selection stage, which is an intermediate stage of the machine-learning approach. Also, there have been studies that compare the performance of sentiment analysis models by applying various classifiers required in the classification stage, or more recently, studies that apply and classify Word2vec, a representative word embedding methodology, to the feature selection stage of the machine-learning approach. Word2vec is continuous word embedding based on a nerve network. In the case of word learning using Word2vec, words with similar contexts in the word-embedding space have close spatial distribution, which makes differences in the spatial distribution of the words depending on the kinds of documents used in a field. The majority of the sentiment analysis studies applying Word2vec are to reduce the dimension by applying the clustering technique to solve the high dimension problem of Word2vec in the feature selection stage. The Word2vec model only learns the usage information such as the syntactic information of the word in a sentence, Thus, the limitations of expressing sentiment with different polarity in a similar word embedding vector can cause a problem of impairing the accuracy of sentiment analysis. Therefore, studies suggesting word embedding that integrate the semantic information of a word have emerged. This study aimed to propose a new sentiment classification model applying Word2vec which integrates sentiment lexicon information to sentiment analysis. In other words, the sentiment lexicon constructed by the researcher was combined with the Word2vec model learning stage to establish the sentiment lexicon-based Word2vec model, and sentiment analysis was performed by building the features of the documents to be analyzed. When the sentiment analysis was performed by the method proposed in this study, the accuracy improved by about 2% compared to the existing method. As a result, the validity of the proposed model was confirmed. By combining the lexicon-based technique and machine learning technique to conduct sentiment analysis, this study has implications for enhancing the analytical performance to reflect the polarity information of sentiments using the sentiment lexicon constructed by the researcher. Moreover, from the perspective of sentiment analysis study using Word2vec, the word embedding method is excellent as a word expression method, however, it does not sensitively react to sentiment polarity information to learn sentence structural syntactic information in sentiment analysis Accordingly, this study has implications in that it can complement the limitations of the existing Word2vec features by combining the sentiment lexicon.
Fulltext
Show the fulltext
Appears in Collections:
일반대학원 > 빅데이터분석학협동과정 > Theses_Master
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE