View : 714 Download: 0

학술 커뮤니케이션 분야 주제 분석 연구

Title
학술 커뮤니케이션 분야 주제 분석 연구
Other Titles
Topic Analysis of Scholarly Communication Research : using LDA Topic Modeling and Network Analysis
Authors
지현
Issue Date
2020
Department/Major
대학원 문헌정보학과
Publisher
이화여자대학교 대학원
Degree
Master
Advisors
차미경
Abstract
본 연구의 목적은 학술 커뮤니케이션 연구의 계량적 분석을 통해 주제 영역을 분석하는 데 있다. 세부 주제를 보다 정확하게 분석하기 위해 학술 커뮤니케이션의 문헌연구를 우선적으로 수행하였다. 이후 세부 주제를 파악하기 위한 방법으로 LDA 토픽 모델링을 수행하였으며, 이를 통해 추출한 주제를 대상으로 보다 구체적인 분석을 위해 네트워크 분석을 수행하였다. 문헌 연구는 크게 학술 커뮤니케이션 시스템에 대한 내용과 디지털 시대의 학술 커뮤니케이션으로 나누어 관련 내용을 정리하였다. 학술 커뮤니케이션 시스템과 정의에 대한 내용을 살펴본 결과 학술 커뮤니케이션의 과정은 진행 모델 혹은 순환 모델로 표현되고 있었으며, 최근의 디지털 환경의 확대에 따라 디지털 환경에 적합한 학술 커뮤니케이션의 모델이 개발되고 있었다. 또한, 디지털 시대에 진입하여 연구자부터 도서관에 이르기까지 학술커뮤니케이션 구성원 전반이 변화하였으며 디지털 스칼라십, 오픈액세스 그리고 오픈 사이언스에 이르기까지 다양한 개념이 등장하였음을 파악할 수 있었다. 학술 커뮤니케이션 연구를 계량적으로 분석하기 위해 SCOPUS 데이터베이스를 사용하여 논문의 초록데이터를 수집하였다. 검색어는 LC(Library of Congress)의 Subject heading을 참고하여 “scholarly communication”로 선정하였다. 해당 검색어를 사용하여 제목, 초록, 키워드 검색과 색인어(INDEXTERM)검색을 수행하였고 정확한 시계열 분석을 위해 Scopus에 인용 색인 정보가 등록되어 있는 1970년부터 2018년까지로 검색기간을 제한하였다. 그 결과 1,552건 논문이 검색되었으며 이들의 저자, 출판년도, 초록, 저자 키워드를 추출하였다. 추출된 데이터 중 논문의 초록이 추출되지 않는 데이터 96건과 학술 커뮤니케이션과 관련이 없는 논문 21건을 삭제하였으며 그 결과 남은 논문의 1,435건의 초록을 분석대상으로 선정하였다. 이들을 대상으로 전처리 작업을 진행한 후 LDA 토픽모델링을 진행하였다. LDA 토픽모델링 결과 19개의 주제를 추출할 수 있었다. 주제 1(학술 출판),주제2(대학도서관 서비스), 주제3(과학기술요소), 주제4(저작권 이슈), 주제5(온라인정보탐색), 주제6(오픈액세스 출판), 주제7(그린오픈액세스), 주제8(연구협력), 주제9(학문 인프라), 주제10(디지털 커뮤니케이션), 주제11(연구자 네트워크), 주제12((전자저널), 주제13(보존), 주제14(연구자원 관리), 주제15(연구기관정책), 주제16(기관 리포지터리), 주제17(연구데이터), 주제18(연구 평가), 주제19(비공식 커뮤니케이션)로 각각 주제의 주제-단어 분포와 문헌-주제 분포를 고려하여 주제명을 부여하였다. 추출한 주제들의 등장 시기를 파악한 결과 주제18(연구평가), 주제3(과학기술요소), 주제1(학술 출판)/주제2(대학도서관서비스), 주제12(전자저널), 주제6(오픈 액세스 출판), 주제9(학술 인프라)/주제13(보존)/주제17(연구 데이터), 주제8(연구 협업), 주제4(저작권 이슈)/주제5(온라인 정보 탐색)/주제7(그린 오픈액세스)/주제10(디지털 커뮤니케이션)/주제11(연구자 네트워크)/주제14(연구자원 관리)/주제15(연구기관정책)/주제16(기관 리포지터리)/주제19(비공식 커뮤니케이션) 순서로 등장함을 확인할 수 있었다. 구간별 추이를 분석한 결과 상향 추세인 주제는 3개로 주제6(오픈액세스 출판), 주제7(그린 오픈액세스), 주제19(비공식 커뮤니케이션)이며, 하향 추세인 주제는 2개로 주제11(연구자 네트워크), 주제12(전자저널)였다. 구간별 주제 분석을 통해 각 시대의 학술 커뮤니케이션의 변화가 학술 커뮤니케이션 연구에 반영되었음을 확인할 수 있었다. 인쇄 저널시대에서 디지털 시대로 넘어가면서 학술 커뮤니케이션의 보다 다양한 방식의 배포가 가능해 졌으며 이것이 학술 커뮤니케이션 연구에도 영향을 미쳐 주제15(연구기관), 주제16(기관 리포지터리) 그리고 주제6(오픈액세스 출판)의 성장으로 이어졌다. 디지털 시대에서 오픈액세스 시대로 넘어가면서 공유의 확대로 관심이 넘어갔으며 이것이 제6(오픈액세스 출판), 주제7(그린 오픈액세스) 그리고 주제4(저작권 이슈)의 증가로 이어졌다. 주제의 네트워크 분석을 위해 주제*주제 간의 코사인유사도 행렬을 계산하였으며, 이를 입력 값으로 하여 패스파인더네트워크를 작성하였다. 이를 기준으로 중심성 분석과 PNNC 알고리즘을 적용한 군집분석을 수행하였다. 중심성 분석 결과 평균프로파일링 중심성의 상위 5개 주제는 주제15(연구기관, 0.13389), 주제16(기관 리포지터리, 0.12997), 주제19(비공식 커뮤니케이션, 0.12846), 주제18(연구평가, 0.10675), 주제13(보존, 0.09892) 순서로 나타났다. 이들은 네트워크의 중심에 위치하있으며 위의 다섯 가지 주제가 연구 결과의 관점에서 연결되어 있음을 알 수 있었다. 네트워크 전체 범위로 삼각매개중심성을 계산하였으며, 이를 정규화한 상대적 삼각매개중심성을 기준으로 상위 5개의 주제를 파악하였다. 그 순서는 각각 주제14(연구자원관리, 0.52288), 주제19(비공식 커뮤니케이션, 0.49673), 주제15(연구기관, 0.45098), 주제8(연구 협업, 0.43137), 주제12(전자저널, 0.39869)로 나타났다. 또한, 네트워크 전체 범위에서 다른 주제 간의 역할을 하는 비중이 큰 위의 다섯 가지 주제들이 인용의 측면에서 서로 연결되어 있음을 알 수 있었다. PNNC 알고리즘을 통해 군집 분석을 수행한 결과 6개의 주제 군집을 파악할 수 있었으며 이를 통해 각 주제들이 상이한 맥락으로 연결되는 것을 확인할 수 있었다. 또한, 빈도가 높은 키워드들과 관련된 주제들의 중심성을 분석한 결과 주제14(연구자원관리)가 다른 주제들을 매개하는 역할이 가장 크며 특히 연구 자원이라는 측면에서 학술 커뮤니케이션 연구의 주제들이 연결되어 있음을 확인할 수 있었다. 본 연구는 현재까지의 학술 커뮤니케이션 연구의 구체적인 주제, 학술 커뮤니케이션의 변화에 따른 학술 커뮤니케이션 연구 주제의 변화 그리고 주제들의 구조적 특성을 파악하였다는 것에 의의가 있으며, 이를 통해 학술 커뮤니케이션 분야에서 실질적으로 수행되고 있는 연구 주제에 대해 보다 세부적으로 파악할 수 있었다. 이러한 본 연구의 결과는 이후의 학술커뮤니케이션 연구 주제의 개발을 위한 자료로 기능할 수 있을 것이다.;The purpose of this study is to analyze subject areas through quantitative analysis of scholarly communication research. To analyze the topics more precisely, literature research on scholarly communication was conducted. Then LDA topic modeling was used to identify topics of scholarly communication research and network analysis was performed on the extracted topics to find out the intellectual structure of the research. The literature review was divided into a general scholarly communication system and scholarly communication in the digital era. As a result of the literature review, it was found out that the process of scholarly communication was expressed as a progress model or a cyclic model. Following the recent expansion of the digital environment, a scholarly communication model suitable for the digital environment has been developed. Besides, it was found that whole scholarly communication, from researchers to libraries, have changed technology evolution. And various concepts have emerged in the digital era such as digital scholarship, open access, and open science. To perform LDA topic modeling, the abstracts of articles were collected from the SCOPUS database. For retrieving the related articles, “scholarly communication” was used as a query keyword, referring to the subject heading of the Library of Congress. And it was through searched titles, abstracts, keyword searches and index terms (INDEXTERM). And the search period was limited from 1970 to 2018 when citation index information was registered in SCOPUS for accurate time series analysis. As a result, 1,552 articles were retrieved and publication year, abstract, and author keywords of the articles were extracted. Among the retrieved articles, 96 articles didn’t have abstract data and 21 articles were not related to scholarly communication. After they were deleted, 1,435 abstracts of the remaining articles were selected for analysis. After conducting pretreatment on these abstracts, LDA topic modeling was conducted. As a result of LDA topic modeling, 19 topics could be extracted. Topic 1 (Academic Publishing), Topic 2 (University Library Services), Topic 3 (Science and Technology Factors), Topic 4 (Copyright Issues), Topic 5 (Online Information Search), Topic 6 (Open Access Publishing), Topic 7 (Green Open Access), Topic 8 (Research Collaboration), Topic 9 (Academic Infrastructure), Topic 10 (Digital Communication), Topic 11 (Researcher Network), Topic 12 (Electronic Journal), Topic 13 (Preservation), Topic 14 (Research Resource Management), Topic 15 (Policy of research institution), Topic 16 (Institutional Repository), Topic 17 (Research Data), Topic 18 (Research Evaluation), Topic 19 (Informal Communication). The subject name was given considering topic-word distribution and literature-topic distribution. As a result of the topic modeling, the literature-topic distribution was identified and the publication year of the literature was assigned to the topics appearing in the literature. The weight was given to the appearance by the ratio of the topics appearing in the literature. This summed up the theme's appearance for the year. In order to accurately grasp the increase and decrease of the topic, a graph is drawn with the ratio of the appearance of each topic to the appearance of the topic for the entire period. Before the timing of appearance by topic was identified. Thesis 18 (research evaluation), topic 3 (science and technology factor), topic 1 (academic publishing) / topic 2 (university library service), Topic 12 (Electronic Journal), Topic 6 (Open Access Publishing), Topic 9 (Academic Infrastructure) / Topic 13 (Preservation) / Topic 17 (Research Data), Topic 8 (Research Collaboration), Topic 4 (Copyright Issues) / Topic 5 (Online Information Search) / Topic 7 (Green Open Access) / Topic 10 (Digital Communication) / Topic 11 (Researcher Network) / Topic 14 (Research Resource Management) / Topic 15 (Research Institute) / Topic 16 (Institutional Repository) / Topic 19 (Informal Communication). As a result of time series analysis, their topics were increasing: Topic 6 (Open Access Publishing), Topic 7 (Green Open Access), Topic 19 (Informal Communication), and two topics were decreasing: Topic 11 (Researcher Network), Topic 12 (E-journal). For the network analysis, cosine similarity matrix between subjects and topics was calculated, and a pathfinder network was prepared using these as input values. Based on this, cluster analysis using centrality analysis and PNNC algorithm was performed. As a measure for centrality analysis, we used Mean Profiling Centrality, Triangle Betweenness Centrality, and Nearest Centrality. The top five topics of Mean Profiling Centrality were the highest in Topic 15 (Research Institute, 0.13389), Topic 16 (Institutional Repository, 0.12997), Topic 19 (Informal Communication, 0.12846), Topic 18 (Research, 0.10675). ), Subject 13 (preservation, 0.09892). Also, it can be seen that the above five topics, which are located at the center of the network, are connected in terms of research resources. Triangle Betweenness Centrality was calculated over the entire network, and the top five topics were identified based on the relative triangular centers normalized. The order was Topic 14 (Research Resource Management, 0.52288), Topic 19 (Informal Communication, 0.49673), Topic 15 (Research Institute, 0.45098), Topic 8 (Research Collaboration, 0.43137), Topic 12 (Electronic Journal, 0.39869). appear. Also, it can be seen that the above five themes, which play a role in different topics in the whole network scope, are interconnected in terms of citation. Cluster analysis was performed using the PNNC algorithm, and the subject was divided into six clusters. Cluster 1 includes Topic 1 (Academic Publishing), Topic 10 (Digital Communication) and Topic 14 (Research Resource Management), which share the context of information provision. Cluster 2 consists of topic 2 (university library service), topic 5 (online information search), and topic 9 (academic infrastructure) and share the context of research support. Cluster 3 includes Topic 3 (Science and Technology Factors), Topic 4 (Copyright Issues), Topic 7 (Green Open Access), and Topic 17 (Research Data), which share the context of technology information sharing. Cluster 4 includes Topic 6 (Open Access Publishing), Topic 12 (Electronic Journal), Topic 13 (Preservation), and Topic 15 (Research Institute), and are linked to each other in the context of research management. Cluster 5 includes Topic 8 (Research Collaboration) and Topic 16 (Institutional Repository). These are connected to the system. Cluster 6 includes Topic 11 (Researcher Network), Topic 18 (Research Evaluation), Topic 19 (Informal Communication), and the three topics are linked to each other in terms of academic exchange. There were many quantitative studies on the specific topic of scholarly communication, but there were little studies to grasp detailed subjects throughout scholarly communication. So, this study is meaningful in that it has identified specific subject areas of scholarly communication research. And through this, it was possible to find out detailed topics that were being performed in the field of scholarly communication. The results of this study could be used as data to find out the idea for later research
Fulltext
Show the fulltext
Appears in Collections:
일반대학원 > 문헌정보학과 > Theses_Master
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

BROWSE