View : 615 Download: 0

한글 텍스트의 오피니언 분류 자동화 기법

Title
한글 텍스트의 오피니언 분류 자동화 기법
Other Titles
Automatic Classification of Opinions Written in Korean
Authors
김진옥
Issue Date
2010
Department/Major
대학원 컴퓨터공학과
Publisher
이화여자대학교 대학원
Degree
Master
Advisors
용환승
Abstract
오피니언 마이닝은 기존의 데이터 마이닝 기술을 활용하여 웹 상에 게재된 블로그, 상품평등에 나타난 저자의 의견을 추출하는 분야로써 텍스트의 주제를 판단하는 것이 아닌 주제에 대한 저자의 태도를 판단하는 기술이다. 오피니언 마이닝은 지난 몇 년간 텍스트의 주관성 분석, 극성 분석, 극성의 정도 분석으로 크게 세 가지로 나뉘어 연구되어 왔다. 주관성 분석은 주어진 텍스트가 의견이나 감정을 가지고 있는 주관적인 텍스트인지 일반적인 사실만을 가지고 있는지 판단하는 분야이고 극성 분석은 텍스트가 주관적일 경우 긍정인지 부정인지 판단하는 분야이다. 마지막으로 극성의 정도 분석은 텍스트가 주관적일 경우 긍정과 부정의 정도가 어느 정도인지 판단하는 분야이다. 본 논문에서는 텍스트에 대한 극성 분석에 초점을 맞추어 한글 텍스트에 나타난 저자의 의견 및 태도가 긍정, 중립, 또는 부정인지 판단하는 알고리즘을 제안하였다. 텍스트의 극성을 분류하기 위해서 긍정, 중립, 부정 훈련데이터 각각에 대하여 빈번하게 나타난 어절을 이용하여 빈도수 기반으로 점수가 부여된 긍정, 중립, 부정 패턴을 추출하는 방안을 제안하였다. 또한 한 문장 단위로 문장에 나타난 패턴과 여러 가지 규칙을 이용하여 패턴의 점수를 조절한 뒤 전체 텍스트에 대해 점수를 계산하고 최종 레이블을 결정하게 된다. 이러한 알고리즘을 통해 웹 상에 있는 방대한 양의 한글 텍스트에 나타난 저자의 의견을 쉽게 추출하여 결과를 볼 수 있으며, 이 기술을 기반으로 많은 잠재적 어플리케이션을 개발할 수 있다.;There has been interest in the automatic classification of attitudes, opinions, and sentiments in text recently. A system that could automatically classify opinions and emotions from text would be an enormous value. Based on this important we provide an algorithm that automatically classifies opinions written in Korean to positive, neutral, negative. In order to categorize opinions, the algorithm extracts patterns which consist of three types-positive, neutral, and negative based on the frequency. These patterns incorporate frequency score that is calculated based on disciplined data collection. Also, considering the context in texts that makes different means and adjusting the point of the patterns temporarily. The sum of discovered patterns in the text is divided by number of patterns. Then the text is labeled as positive or neutral or negative based on score baseline. All the aforementioned process is automatically processed by Java-based programs we developed. This research suggests the classification method that can use no corpus and template. Our approach will contribute to enhance the accuracy of opinion mining by using opinion patterns and considering the context.
Fulltext
Show the fulltext
Appears in Collections:
일반대학원 > 컴퓨터공학과 > Theses_Master
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

BROWSE