View : 51 Download: 0

Word2Vec와 Bi-LSTM을 적용한 초중학생의 웹 한글 문서의 학교급 이진 분류기 연구

Title
Word2Vec와 Bi-LSTM을 적용한 초중학생의 웹 한글 문서의 학교급 이진 분류기 연구
Other Titles
A Study on Author Profiling of Web-based Korean Web Text of Elementary and Middle School Students using Word2Vec and Bi-LSTM for Binary Classification
Authors
이애리
Issue Date
2020
Department/Major
교육대학원 소프트웨어교육전공
Publisher
이화여자대학교 교육대학원
Degree
Master
Advisors
용환승
Abstract
본 연구의 목적은 딥러닝을 통한 저자 프로파일링 기법이 초중학생의 웹 한글 텍스트에도 실효성이 있는지 확인하고 그 성능을 평가하는 것이다. 저자 프로파일링이란 저자의 작문 스타일을 분석하여 교육, 성별, 나이, 성격 등 저자의 특징을 판별하는 작업이다. 컴퓨터가 어휘 정보를 대규모로 처리할 수 있도록 발전한 20세기 후반부터 웹 텍스트 기반의 저자 분석 연구가 본격적으로 대두되기 시작했다. 이와 함께 웹 2.0 기술의 발달, 스마트 기기의 확산으로 웹 텍스트가 폭발적으로 증가하며 웹 텍스트를 활용한 저자 프로파일링 연구가 각광받기 시작했다. 해외에서는 이미 SNS, 블로그 등 인터넷상의 다양한 웹 텍스트를 활용한 저자 프로파일링 연구가 활발히 진행되고 있으며 이를 바탕으로 마케팅, 경영, 인문, 사회 등 다양한 분야에서 유의미하게 활용하고 있는 추세이다. 아동, 청소년에 대한 PC, 스마트 기기의 보급율이 높아지면서 이들은 이전 세대에서는 상상할 수도 없는 사회적 경제적 활동을 보이고 있다. 기성 세대와는 완전히 다른 언어 습관, 파격적인 새로운 사회 문화를 만들어 내는 아동, 청소년들에 대한 파악은 기존의 기법만으로는 만만치 않다고 할 수 있다. 최근 몇 년간 해외에서는 새로운 기술 패러다임인 딥러닝을 활용하여 저자 프로파일링 연구를 활발히 진행하고 있으며, 이러한 딥러닝의 활용은 높은 성능을 과시하며 새로운 텍스트 분류 모델로서 주목받고 있다. 이에 비해 국내의 웹 텍스트의 저자 프로파일링 연구는 최근 들어 시도됐으며 해외 연구에 비해 그 사례가 미비한 실정이다. 본 논문에서는 새로운 기술 패러다임인 딥러닝 기법을 아동, 청소년 데이터에 접목하여 저자 프로파일링하고 그 성능을 평가하고자 하였다. 연구 방법으로 초중학생의 웹 독후감 데이터를 수집하고 전저리하여 임베딩 모델 Word2Vec와 딥러닝 모델 Bi-LSTM을 적용해 학교급 이진 분류를 진행하였고 그 결과를 분석하였다. 본 연구가 가지는 몇 가지 시사점과 의의는 다음과 같다. 첫째, 국내 최초로 데이터 확보가 까다로운 초중학생의 웹 한글 텍스트를 저자 프로파일링하였다. 둘째, 딥러닝 기법을 활용한 저자 프로파일링이 초중학생의 글에서도 높은 정확도를 보여주었다. 셋째, 텍스트 분류 모델로 Bi-LSTM을 사용한 결과, 그 유효성을 확인할 수 있는 의미있는 데이터 결과를 나타냈다. 이는 동일한 방법과 모델을 적용하여 다중 분류 및 판별 연구로 연구 확장할 수 있다. 의미, 감성 분석에 우수한 성능을 보이는 모델인 만큼 심리적으로 예민한 사춘기 시기의 청소년들의 감성 분석 연구로서의 용이한 확장이 기대된다.;The purpose of this thesis is to verify the effectiveness of author profiling techniques through deep learning in Korean web texts of elementary and middle school students. Author profiling is the task of analyzing the author's writing style to determine the characteristics of authors such as education, gender, age, and personality. Author analysis began to take off in the late 20th century with the development of large-scale lexical information processing technology using computers. Along with the development of web 2.0 technology and the proliferation of smart devices in early 21st century, web text has exploded and web text-based author profiling research has been in the spotlight. Overseas, author profiling studies using various web texts on the Internet such as SNS and blogs have been actively conducted. Based on this, the technology is being widely used in various fields such as marketing, management, humanities, and social science. As the penetration rate of PCs and smart devices to teenagers increases rapidly, they are showing more social and economic activities than other generations. The marketing of companies and the public institutions policies targeting them have long been of increased interest. The characteristics of children who create language habits completely different from older generations and a new social culture is so diverse. In recent years, researches on author profiling using a new technology paradigm, Deep Learning are actively conducted and the use of this deep learning shows high performance and is attracting attention as a new text classification model. On the other hand, author profiling studies of Korean web texts have recently been attempted, and the approach is inadequate compared to those of overseas studies. In this thesis, specific method is proposed to apply Deep Learning to profile the author of child and youth text data and evaluate its performance. The data are collected from book reports data of elementary and middle school students on the web and used to build text embedding model and deep learning model using Word2Vec and Bi-LSTM in order to classify students by school level, elementary or middle school. Some remarks of this thesis are as follows: Firstly, it is significant in that the author profiled Korean web texts of elementary and middle school students are hard to get for the first time in Korea. Secondly, the author profiling using deep learning technique showed high accuracy in the writing of elementary and middle school students. Third, by using Bi-LSTM model as a text classification model, the results show meaningful data to confirm its validity. Moreover, results can be extended to apply same method and model to multi- output multi-classification area. It is expected to be easily expanded to psychologically sensitive adolescent emotional analysis research.
Fulltext
Show the fulltext
Appears in Collections:
교육대학원 > 소프트웨어교육전공 > Theses_Master
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE