View : 1598 Download: 0

텍스트 마이닝을 활용한 『로동신문』 핵실험 관련 보도 분석

Title
텍스트 마이닝을 활용한 『로동신문』 핵실험 관련 보도 분석
Other Titles
Analysis of the 『Rodong Sinmun』 reports regarding nuclear experiments via text mining.
Authors
오윤정
Issue Date
2019
Department/Major
대학원 북한학과
Publisher
이화여자대학교 대학원
Degree
Master
Advisors
최대석
Abstract
본 논문은 여섯 번의 핵실험 이후 북한 당국이 핵실험에 대하여 대내적으로 어떻게 선전선동하고 있는지 알아보고자 하였다. 그 동안 북한의 핵 관련 연구는 핵정책이나 핵을 개발하게 된 원인 분석에 초점을 맞추었고, 북한의 선전선동 연구도 북한 체제에 대한 선전이나 대남 정책 및 통일 담론에 대한 연구 위주로 이루어졌다. 2006년 이후 여섯 번의 핵실험을 거치며 북한의 핵 능력 발전만큼 핵을 이용한 선전선동의 기술도 진화하였지만 이 분야의 국내 연구는 미비했었다. 따라서 본 연구는 지금까지 깊이 있게 다루지 않았던 북한의 핵실험에 대한 보도와 대내 선전선동에 주목하였다. 북한의 핵실험 관련 대내 선전선동의 분석을 위하여 조선노동당의 당 기관지로서 북한 당국의 입장을 대변하는 노동신문 기사를 분석 대상으로 선정하였다. 연구 범위는 첫 핵실험을 진행한 2006년 10월 9일부터 2017년 12월 31일로 제한하였다. 시간적 범위 제한의 이유는 2017년은 가장 최근에 북한이 핵실험을 진행한 해이기도 하며, 비핵화를 전제로 대화 공세를 펼치기 직전의 시기이기 때문이다. 그리고 연구 방법으로는 최근 북한학 연구에서도 다양하게 시도되고 있는 텍스트 마이닝 분석(Text mining Analysis) 기법을 활용하였다. 텍스트 마이닝이란 방대한 양의 비정형 텍스트를 컴퓨터의 자연어 처리 기술을 이용하여 텍스트에서 일정한 패턴을 파악하고 유용한 정보를 추출하여 분석하는 작업을 의미한다. 이 분석 작업의 목적은 의도를 가지고 작성한 문서의 데이터를 가공한 뒤 단어와 어구 사이에서 반복 및 연관성을 가진 패턴을 찾는 것이다. 텍스트에서는 드러나지 않는 의미를 컴퓨터의 알고리즘으로 자동 추출하는 방식으로 문헌 분석에 적합한 방법 중의 하나이다. 본 연구는 노동신문의 핵실험 관련 기사에 대한 텍스트 마이닝 분석의 구체적인 목표는 ① 북한 당국의 핵실험에 관한 관심도 ② 핵실험 관련 기사의 유사성 ③ 핵실험 관련 기사의 주제어 ④ 핵실험 관련 기사의 주제는 무엇인지 알아보는 것이다. 이를 위하여 자료수집과 데이터 전처리, 자료 분석 및 시각화 등의 단계를 거쳐 텍스트 마이닝 분석을 수행하고, 노동신문 기사의 내용 분석을 추가로 실시하였다. 먼저 자료수집 단계에서는 통일부 북한자료센터에서 제공하는 데이터베이스(DB) 검색과 노동신문 인쇄물을 직접 읽고 제목과 본문에 ‘핵실험’을 포함하는 기사 2088건을 수집하였다. 수집된 자료에 대하여 데이터 클리닝(Data cleaning) 작업을 수행하였다. 데이터 클리닝 작업은 데이터 전처리(data preprocessing)와 형태소 분석(morphological analysis)을 수행하였다. 데이터 전처리 과정을 통하여 추출된 명사는 모두 13,529개이다. 다음으로 자료 분석 단계에서는 1-6차 핵실험 이후 노동신문의 핵실험 관련 기사를 핵실험 차수별로 여섯 개의 문서로 구분한 후, 문서 간 유사도 및 분기점을 파악하기 위하여 텍스트 클러스터링 분석(Text Clustering Analysis)을 실시하였다. 텍스트 클러스터링 알고리즘이 자동적으로 분류한 군집별로 주제어(Keyword) 빈도 분석과 토픽 모델링 분석(Topic Modeling Analysis)을 수행하였다. 본 연구의 주요 결과는 다음과 같다. 첫째, 여섯 번의 핵실험 이후 북한 당국의 핵실험의 관심도는 꾸준히 증가했다. ‘핵실험’ 키워드를 포함한 노동신문 기사의 게재수를 분석한 결과, 핵실험을 실시한 해당 연도에는 노동신문의 핵실험 관련 기사도 함께 증가하는 양상을 보였다. 특히 3차 핵실험이 있었던 2013년에 639건으로 기사가 눈에 띄게 증가했음을 확인할 수 있었다. 핵실험 진행 시기에 김정일-김정은 집권 기간은 약 6년으로 비슷했지만, 전체 기사 중 약 85%에 해당하는 1766건의 핵실험 관련 기사가 김정은 정권에서 보도되었다. 둘째, 오로지 개체들 간의 유사성(Similarity)에만 기초하여 문서를 자동적으로 그룹화하는 텍스트 클러스터링(Text Clustering) 분석을 실시한 결과, 세 개의 군집으로 구분되었다. A군집에 해당하는 노동신문의 기사는 김정일 정권에서 진행한 1차 핵실험과 김정은 정권에서 진행한 6차 핵실험 이후 기사이다. B군집에는 2차 핵실험과 4차‧5차 핵실험 이후부터 2017년 12월 31일까지 기사가 해당된다. 북한 국내 상황을 살펴 본 결과, 텍스트 클러스터링 분석으로 구분 된 세 개의 군집은 ‘북한 정권의 안정 정도’와 관련되었다. 군집별로 북한 정권의 안정도를 살펴보면, A군집은 군집 중에서 상대적으로 가장 정권이 안정되었고, 그 다음은 B군집의 정권 안정도가 높았으며 마지막으로 C군집이 정권 안정도가 가장 불안했다. 셋째, 노동신문 핵실험 관련 기사에 자주 등장하는 단어와 중요도가 높은 단어를 측정하여 주제어를 알아보았다. 노동신문 핵실험 관련 기사에 등장하는 단어의 횟수를 나타내는 단순 ‘단어 빈도(Term Frequency: TF)’와 분석 기간 모든 기사에 나오는 상투적 단어를 걸러내고 주제어를 파악할 수 있는 ‘단어 빈도-역문서 빈도(TF-Inverse Document Frequency: TF-IDF)’ 분석을 수행하였다. TF를 기준으로 분석했을 때, ‘미국’, ‘인민’, ‘조선’, ‘전쟁’, ‘남조선’, ‘공화국’, ‘세계’ 등이 군집별 공통적으로 출현 빈도가 높았다. TF-IDF 기준으로 분석한 결과, A군집은 ‘미국’, ‘연습’, ‘전쟁’, ‘남조선’, ‘통일’, ‘군사’, ‘경애’, ‘민족’, ‘조국’, ‘장군’ 순으로 TF-IDF의 값이 높았다. ‘제재’는 TF값은 높지 않았지만 TF-IDF 값이 높은 것으로 나타났다. B군집은 ‘미국’, ‘장군’, ‘인민’, ‘조선’, ‘혁명’, ‘경애’, ‘청년’, ‘남조선’, ‘승리’와 같은 단어의 TF-IDF 값이 높았다. 또한 ‘박근혜’, ‘유엔’, ‘과학’ 등의 단어도 중요하게 다루었던 것으로 확인되었다. C군집에서 TF-IDF값이 높은 단어는 ‘괴뢰’, ‘연습’, ‘전쟁’, ‘건설’, ‘남조선’, ‘군사’, ‘도발’, ‘혁명’, ‘북남’ 등의 순으로 나타났고, ‘김정일’, ‘경제’, ‘박근혜’, ‘병진’도 중요하게 거론되었다. 군집별 정권 안정도와 주제어 분석을 토대로 하면 A군집은 정권 안정기의 선전선동, B군집은 위기관리 전략의 선전선동, C군집은 김정은 시대 선포의 선전선동과 관련된 것으로 나타났다. 넷째, 노동신문의 핵실험 관련 기사는 북한 체제 ‘선전’과 적대 세력 ‘비난’과 관련된 주제를 다루었다. 토픽 모델링(Topic Modeling) 분석 중 잠재 디리클레 할당(Latent Dirichlet Allocation: LDA) 기법을 활용하여 분석 결과, 노동신문 핵실험 관련 기사에서 ① 핵실험 선전 ② 선군정치 선전 ③ 최고지도자 업적 선전 ④ 노력 동원 선전 ⑤ 경제-핵 병진노선 선전 ⑥ 반통일 세력 비난 ⑦ 유엔-미국 제재 비난 ⑧ 남한 정부 비난 ⑨ 한미 군사연습 비난 등의 아홉 가지 주제가 추출되었다. 다섯째, 노동신문 핵실험 관련 기사에서 중요하게 다룬 주제는 군집별로 차이가 나타났다. 상대적으로 정권이 가장 안정되었던 A군집과 정권이 가장 불안정했던 C군집에서는 비난 관련 주제를 선전 관련 주제보다 많이 다루었다. 정권의 안정과 불안이 공존했던 B군집은 선전과 비난 관련 주제가 동일한 것을 확인할 수 있었다. 본 연구는 북한학계가 그 동안 주목하지 않았던 북한의 핵 관련 선전선동에 주목하였다. 그리고 북한 노동신문을 기반으로 텍스트 마이닝 분석을 시도함으로써 연구자의 주관적 판단을 최소화하고 일관성과 체계성, 검증 가능성을 높이고자 했다. 본 연구에서 활용한 텍스트 마이닝 기법은 새로운 북한 관련 연구의 가능성을 제시했다고 생각한다. 따라서 후속 연구를 통하여 북한 연구의 다양한 분야로 확대 발전시킬 필요가 있을 것이다.;This thesis aims to analyze how after six nuclear experiments North Korean authorities have been using propaganda internally regarding these experiments. Until now, researches regarding North Korean nuclear experiments focused on nuclear policies and the cause for development of nuclear weapons, and researches regarding North Korean propagandas revolved around propagandas for North Korean regime, policies against South Korea and discourses about unification. Through six nuclear experiments since 2006 North Korean techniques for propaganda using nuclear weapons have evolved as much as the North Korean nuclear capability, but researches in this field have been lacking. Therefore, this research focuses on North Korea’s media coverage and internal propagandas regarding nuclear experiments which have not been addressed in depth before. As target of analysis for North Korean internal propaganda as regarding nuclear experiments, 『Rodong Sinmun』, the newspaper published by Worker’s Party of Korea which represents the North Korean authorities has been selected. The scope of research has been limited to a time span beginning from 9th of October 2006, when the first nuclear experiment took place, to 31st of December 2017. The reason behind limiting the temporal scope of research is because 2017 was the most recent year in which North Korea conducted a nuclear experiment, as well as the year immediately preceding North Korea’s opening of conversation on the premise of denuclearization. For the method of research, Text mining Analysis, a technique which has recently started being used in the field of North Korean studies. Text mining is the process of using natural language processing technology of computers to extract certain patterns and useful information from large amounts of atypical texts and analyze them. The aim of this analysis is to process documents written with certain intent in order to find repeating and correlated patterns in between words and phrases. Text mining can automatically extract intentions which are not shown in texts by computer algorithms and is one of the methods suitable for literature analysis. The specific goals this research aims to achieve using text mining analysis on articles from 『Rodong Sinmun』 related to nuclear experiments are; ① Degree of interest North Korean authorities have regarding nuclear experiments ② Degree of similarities in articles regarding nuclear experiments ③ Keywords in articles regarding nuclear experiments ④ Main subject of articles regarding nuclear experiments. In order to achieve goals previously mentioned, text mining analysis through stages of data collection, data preprocessing, data analysis, and visualization, and extra analysis on the content of 『Rodong Sinmun』 articles were done. Foremostly in the data collection stage, through searching the database (DB) provided by Information Center on North Korea of the Ministry of Unification, and reading the printed articles of 『Rodong Sinmun』, 2088 articles which contain ‘nuclear experiment’in title and main text were collected. Data cleaning process was performed against the collected data. For the data cleaning process, data preprocessing and morphological analysis were done. 13,529 nouns were extracted through data preprocessing. In the next stage, the data analysis stage, 『Rodong Sinmun』 articles published after the 1st-6th nuclear experiments and related to the experiments, were sectioned into six documents for each experiment, and text clustering analysis was performed to point out similarities and diversions between the documents. Keyword frequency analysis and topic modelling analysis were performed for each cluster automatically categorized by text clustering algorithm. The main results of this research are as follows: First, after six instances of nuclear experiments, North Korean authorities’degree of interest in nuclear experiment increased steadily. Analyzing number of 『Rodong Sinmun』 articles containing the keyword ‘nuclear experiment’, an increase in the number of articles was shown in the year a nuclear experiment took place. In 2013, when the 3rd nuclear experiment took place, the number of articles rose to a noticeable amount of 639. During the period of nuclear experiments, the term of regime for Kim Jong-Il and Kim Jong-Eun were both around 6 years, but 1766 articles related to nuclear experiment, which are equivalent to 85% of all the articles, were published during the Kim Jong-Eun’s regime. Second, through text clustering analysis which groups documents based solely on their similarities, the articles were categorized into three groups. 『Rodong Sinmun』 articles under cluster A are from the period of 1st nuclear experiment during Kim Jong-Il’s regime and the period after 6th nuclear experiment during Kim Jong-Eun’s regime. Articles under cluster B are from the period of 2nd nuclear experiment and the period after 4th and 5th experiment to 31th of December 2017. Examining the situation within North Korea revealed that the three clusters categorized by text clustering analysis were related to ‘stability of North Korean regime’. In relation to the stability of North Korean regime, cluster A was related to the most stable period, followed by cluster B and cluster C which was related to the least stable period. Third, through measuring terms which appear at high frequency or have high importance in 『Rodong Sinmun』 articles regarding nuclear experiments, keywords were inferred. Term Frequency (TF) analysis which shows the number of times a term appears in 『Rodong Sinmun』 articles regarding nuclear experiments, and TF-Inverse Document Frequency (TF-IDF) analysis which filters out common terms that appear in all articles from the length of analysis and identify the keywords, were performed. Based on TF analysis, ‘USA’, ‘people’, ‘Choseon’, ‘war’, ‘South Choseon’, ‘Republic’ and ‘World’ appeared most frequently in all clusters. Based on TF-IDF analysis, in cluster A, ‘USA’, ‘practice’, ‘war’, 'South Choseon’, ‘unification’, ‘military’, ‘reverence’, ‘nation’, ‘motherland’ and ‘general’ had highest TF-IDF value in descending order. ‘Sanctions’ had a low TF value but a high TF-IDF value. In cluster B, terms such as ‘USA’, ‘General’, ‘people’, ‘Choseon’, ‘revolution’, ‘reverence’, ‘youth’, ‘South Choseon’, and ‘victory’ had high TF-IDF value. Terms such as ‘Park Geun-Hye’, ‘UN’, ‘Science’ were also used with high importance. In cluster C, terms with high TF-IDF value were ‘puppet’, ‘practice’, ‘war’, ‘construction’, ‘South Choseon’, ‘military’, ‘provocation’, ‘revolution’ and ‘North-South’ in descending order, and terms such as ‘Kim Jong-Il’, ‘economy’, ‘Park Geun-Hye’ and ‘parallel’were also used with high importance. By analyzing stability of regime and keywords of each cluster, it was shown that cluster A was related to propagandas of the regime at its plateau, cluster B was related to propagandas for the regime’s strategies for managing crisis, and cluster C was related to propagandas for Kim Jong-Eun’s proclaiming of regime. Fourth, 『Rodong Sinmun』 articles regarding nuclear experiments dealt with subjects related to ‘advertising’ North Korean system and ‘criticizing’ hostile forces. Using Latent Dirichlet Allocation (LDA)during Topic Modeling analysis, 9 subjects of; ① advertising nuclear experiments ② advertising ‘Songun’ politics ③ advertising achievements of the supreme leader ④ advertising effort mobilization ⑤ advertising economy-nuclear parallel politics ⑥ criticizing anti-unification forces ⑦ criticizing UN-USA sanctions ⑧ criticizing South Korean government ⑨ criticizing South Korea-USA military practice, were extracted. Fifth, main subjects addressed by 『Rodong Sinmun』 articles regarding nuclear experiments differed for each cluster. In cluster A where the regime was relatively most stable and cluster C where the regime was least stable, subjects related to criticism were addressed more than subjects related to advertisement. In cluster B where stability and instability coexisted, subjects related to criticism and subjects related to advertisement were equal in amount. This research focused on North Korea’s propaganda regarding nuclear experiments which has not been the focus of North Korean studies. Text mining analysis based of North Korea’s 『Rodong Sinmun』 was performed to minimize subjective judgement and increase consistency, systematicity and verifiability. I believe that text mining technique as used in this research has presented a new possibility for researches related to North Korea. Therefore, follow-up studies should be done in order to expand and develop the technique into diverse fields of researches regarding North Korea.
Fulltext
Show the fulltext
Appears in Collections:
일반대학원 > 북한학과 > Theses_Master
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

BROWSE