View : 639 Download: 0

데이터 기반의 사회학 분야 지적구조 규명에 관한 연구

Title
데이터 기반의 사회학 분야 지적구조 규명에 관한 연구
Other Titles
An Investigation on Data-Driven Sociology by Comparing Article-Driven Sociology
Authors
최형욱
Issue Date
2017
Department/Major
대학원 문헌정보학과
Publisher
이화여자대학교 대학원
Degree
Master
Advisors
정은경
Abstract
연구데이터에 대한 관심과 데이터에 대한 중요성이 확대됨에 따라, 최근 데이터의 원저자에게 적절한 크레딧을 부여하는 데이터인용에 대한 연구가 이루어지고 있다. 2012년 10월 톰슨로이터가 Data Citation Index(DCI)라는 데이터인용 색인 데이터베이스를 처음 공개하면서, 데이터인용에 기반을 둔 연구들이 진행되고 있다. 한편 논문을 기반으로 한 인용분석 연구는 다양한 학문 분야의 지적구조 및 연구동향을 살피는데 유용한 학술적 방법으로 사용되어왔다. 그러나 데이터를 기반으로 한 인용분석 연구는 여태껏 이루어지지 않았다. 따라서 본 연구에서는 데이터인용이 활발한 사회학 분야의 데이터를 기반으로 해당 분야의 지적구조를 규명하고자 하였다. 또한, 논문을 기반으로 한 사회학 분야와의 비교를 통해 데이터를 기반으로 한 사회학이 가지는 특징 및 차이점을 살펴보고자 하였다. 분석 대상을 선정하기 위해 2017년 4월 19일 기준 Data Citation Index에서 ‘Sociology’로 주제 검색을 수행한 후 언어를 ‘English’로 제한하여 총 8,365건의 데이터를 수집하였다. 이를 바탕으로 필드별 기초 데이터를 분석하였고, 저자 키워드와 저자를 추출하여 동시출현단어 분석과 저자 네트워크 분석을 수행하였다. 이러한 분석 결과를 논문을 기반으로 한 사회학과 비교하기 위해 2017년 4월 10일 기준 Web of Science에서 같은 방법으로 ‘Scoiology’로 주제 검색을 수행한 후 언어를 ‘English’로, 문서 유형을 ‘Article’로 제한하여 총 12,132건의 데이터를 수집하였다. 비교 분석을 위해 DCI의 데이터와 같은 방식으로 동시출현단어 분석과 저자 네트워크 분석을 수행하였다. 데이터를 기반으로 한 사회학 분야와 논문을 기반으로 한 사회학 분야의 저자 키워드의 빈도수를 각각 300회와 60회로 제한하여 최종 저자 키워드 78개와 61개를 선정하였다. 또한 저자 네트워크 분석을 위해 각각의 데이터에서 저자의 출현 빈도를 각각 14회와 7회로 제한하여 각각 최종 저자 58명과 79명을 선정하였다. 선정된 키워드와 저자로 동시출현행렬을 작성하여 동시출현단어 분석에 코사인 유사도 계수로 정규화한 행렬을, 저자 네트워크 분석에 피어슨 상관계수에 의한 2차 연관성 행렬을 사용하였다. 작성된 행렬에 패스파인더 네트워크(PFNet) 알고리즘을 적용한 후 병렬 최근접 이웃 클러스터링 알고리즘(PNNC)을 적용하였다. 이를 통해 패스파인더 네트워크를 세부 군집으로 분할하여 해당 분야의 세부 연구 분야와 저자 간의 관계를 파악하고자 하였다. 결과로 나타난 네트워크는 NodeXL을 통해 시각화하여 나타내었다. 또한 해당 네트워크에서 중요한 분야와 저자를 확인하기 위해 네트워크의 전역중심성, 지역중심성, 그리고 매개중심성 분석을 수행하였다. 네트워크 분석을 통해 나타난 데이터를 기반으로 한 사회학 분야와 논문을 기반으로 한 사회학 분야와의 비교 분석 결과는 다음과 같다. 첫째, 동시출현단어 분석 결과, 데이터를 기반으로 한 사회학 분야는 2영역 15군집으로 구성되어 있다. 논문을 기반으로 한 사회학 분야는 3영역 17군집으로 나누어져 있다. 둘째, 중심성 분석 결과, 데이터를 기반으로 한 사회학 분야 내에서 중심성이 높은 분야는 의학을 중심으로 한 세부 영역과 심리학과 정신 건강을 중심으로 한 세부 영역으로 확인되었다. 한편, 논문을 기반으로 한 사회학 분야에서는 문화를 중심으로 한 영역과 사회적 자본과 지역 사회를 중심으로 한 영역의 중심성이 높게 나타났다. 셋째, 저자 네트워크 분석 결과, 데이터를 기반으로 한 사회학 분야의 저자 중 세부 전공이 분자생물학, 공중보건학, 정보과학, 그리고 역학인 저자의 중심성이 높게 나타났다. 논문을 기반으로 한 사회학의 경우, 중심성이 높은 저자 대부분의 세부 전공이 사회학으로 나타났으나, 매개적 역할을 하는 저자의 세부 전공은 의료사회학으로 확인되었다. 이러한 네트워크 분석의 비교 결과와 기초 데이터 분석을 수행한 결과를 종합적으로 살펴본 데이터를 기반으로 한 사회학 분야의 특징은 다음과 같다. 첫째, DCI에서 수집된 사회학 분야의 데이터 중 전체의 약 86%가 1회 이상 인용된 것으로 확인되어, DCI 전체의 약 88%가 인용되지 않은 것과 비교하였을 때 사회학은 DCI 내에서도 데이터인용이 활발하게 이루어지고 있는 분야라고 할 수 있다. 둘째, 사회학 분야의 데이터 중 약 97%가 영국에 소속된 레포지터리에 색인 되어 있었다. 이는 영국 국적의 연구자들이 전통적인 사회학 분야의 중심을 이루고 있다는 논문을 기반으로 한 사회학 분야의 분석 결과와 연관 지어 볼 수 있다. 셋째, 톰슨로이터의 분류 체계에 따르면, 사회학이 사회과학 분야임에도 불구하고 데이터를 기반으로 한 사회학 분야의 데이터에는 학제적 분야로 분류되는 데이터가 다수 포함되어 있다. 넷째, 전통적인 사회학으로 볼 수 있는 논문을 기반으로 한 사회학과 달리 데이터를 기반으로 한 사회학에서는 의학 분야가 활발히 연구 중이며, 그 중에서도 공중보건과 심리학이 중심 영역인 것으로 확인되었다. 다섯째, 논문을 기반으로 한 사회학과 공통으로 데이터를 기반으로 한 사회학 분야의 주요 저자의 세부 전공은 의학 분야로 확인되었다. 이는 세부 전공이 의학과 관련된 저자들이 사회학 전반에 걸쳐 영향력을 행사할 뿐만 아니라 매개적 역할을 하고 있다는 해석을 가능하게 한다. 여섯째, 논문을 기반으로 한 사회학의 주요 저자들이 영국 소속이며 대학의 소속된 것과 달리, 데이터를 기반으로 한 사회학의 주요 저자들은 대학뿐만 아니라 연구소에 소속된 저자들도 다수 확인되었으며, 국가 역시 다양하게 확인되었다. 이는 데이터를 기반으로 한 사회학이 다양한 배경을 가진 연구자들을 포함하여 성장하고 있다고 해석할 수 있다. 본 연구는 데이터인용 색인의 데이터를 수집하여 데이터를 기반으로 한 학문 분야의 인용분석을 통해 지적구조를 규명하고 기존의 인용분석 방법인 논문을 기반으로 한 분석과의 비교를 통해 그 특징을 살펴보고자 하였다. 이러한 연구 결과는 향후 데이터인용 색인시스템을 활용한 연구의 방향성을 모색하는데 유용한 정보를 제공할 수 있으며, 해당 분야에 대한 새로운 학문적 시각을 제시할 수 있을 것으로 기대한다.;As interest in research data and the importance of data have increased, recent research has been conducted on data citation which to give proper credits to original authors of data. In October of 2012, Thomson Reuters released Data Citation Index(DCI), a data citation system, for the first time, and studies based on data citation are underway. On the other hand, citation analysis research based on published articles has been used as an academic method for studying intellectual structure and research trends in various disciplines. However, data-driven citation analysis research has not been done yet. Therefore, the purpose of this study is to identify the intellectual structure of the data-driven sociology field which is the most data-citing academic field. In addition, the characteristics and differences of data-driven sociology were examined by comparing with article-driven sociology. In order to select the subjects to be analyzed, the subjects were searched with ‘Sociology’ in the Data Citation Index as of April 19, 2017, and the language was limited to ‘English’, and a total of 8,365 data were collected. Based on this, basic data for each field was analyzed, author keywords and authors were extracted and co-word analysis and author network analysis were performed. In order to compare the results of this analysis with the article-driven sociology, as of April 10, 2017, a subject search using ‘Sociology’ in the Web of Science was conducted, and found that the language was ‘English’. As of result, a total of 12,132 data were collected. Co-word analysis and author network analysis were performed in the same manner as the DCI data for comparative analysis. 78 and 61 authors were selected by limiting the frequency of author keywords in the data-driven sociology and the article- driven sociology by 300 and 60, respectively. In addition, for author network analysis, 58 authors and 79 authors were selected for each of the data by limiting the author' s appearance frequency to 14 and 7 respectively. After co-occurrence matrix was constructed with selected keywords and authors, a matrix normalized with cosine similarity coefficients was selected for co-word analysis, and a second - order correlation matrix using Pearson correlation coefficients for author network analysis. A parallel nearest neighbor clustering algorithm(PNNC) was applied after applying the Pathfinder network(PFNet) algorithm to the created matrices. In this paper, the Pathfinder network was used to divide the network into detailed clusters, which helped to understand the relationship between the detailed research fields and the authors. The resulting network was visualized through NodeXL. In addition, the network's global centrality, regional centrality, and mediation centrality analysis were performed to identify key specific research area and authors in the network. The results of the comparative analysis of the data-driven sociology’s network analysis and the article-driven sociology’s network analysis are as follow. First, the results of co-word analysis shows that the data-driven sociology is composed of 2 areas and 15 clusters. The article-based sociology field is divided into 3 areas and 17 clusters. Second, as a result of centrality analysis, data-driven sociology field is identified as a detail area focusing on medicine, psychology and mental health. On the other hand, in the field of article-driven sociology, the areas’ centrality focusing on culture, social capital and community are high. Third, author network analysis shows that the authors of data-driven sociology’s authors have a high centrality whose majors are molecular biology, process health science, information science, and epidemiology. In the case of article-driven sociology, most of the major authors of sociology appear as sociologists, but authors who are mediating the field are identified as having a specific major in medical sociology. The characteristics of the data-driven sociology obtained by comparing the results of the network analysis, and the results of the basic data analysis are as follow. First, about 87% of the sociology data collected by DCI were found to be cited more than once, and considering the fact that about 88% of the total DCI was not quoted, data citation was actively made in DCI sociology field. Second, about 97% of the data in sociology was indexed to repositories belonging to the UK. This can be interpreted in connection with the results of the article-driven sociology that the development of traditional sociology was centered in the UK. Third, despite the fact that sociology is a social science field, according to classification system of Thomson Reuters, data-driven sociology’s data contains many data classified into interdisciplinary fields. Fourth, unlike article-driven sociology which can be regarded as traditional sociology, medical science has been actively studied in data-driven sociology, and public health and psychology have been found to be central areas. Fifth, the major fields of the article-driven sociology and the article-driven data are commonly identified as medical fields. This makes it possible to interpret that authors related to medicine play an intermediary role as well as have a major influence on sociology as a whole. Sixth, on the contrast to the fact that major authors of article-driven sociology belong to the UK and universities, major authors of data-driven sociology are belong to not only universities but also research institutes. It can be interpreted that data-driven sociology is growing including researchers with more diverse backgrounds. The purpose of this study is to investigate the intellectual structure of the data-driven academic field based on the data by collecting the data of the data citation index, and to compare the citation analysis with the article-driven field analysis which is the existing citation analysis method . The results of this study can offer useful information to provide the direction of the research using the data citation index system and hope to be able to present a new academic viewpoint in the relevant field.
Fulltext
Show the fulltext
Appears in Collections:
일반대학원 > 문헌정보학과 > Theses_Master
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

BROWSE