DSpace at EWHA: 저작 클러스터링 분석을 통한 FRBR의 목록 적용에 관한 연구

Browse

My Repository

DSpace at EWHA일반대학원 문헌정보학과 Theses_Ph.D

View : 1366 Download: 0

저작 클러스터링 분석을 통한 FRBR의 목록 적용에 관한 연구

Title: 저작 클러스터링 분석을 통한 FRBR의 목록 적용에 관한 연구

Other Titles: A Study of FRBR Implementation to Catalog by Using Work Clustering

Authors: 이미화

Issue Date: 2008

Department/Major: 대학원 문헌정보학과

Publisher: 이화여자대학교 대학원

Degree: Doctor

Abstract: 최근 검색 자원의 증가와 멀티 버전 자료의 증대에 따라 목록의 기능 중 집중기능이 필요하게 되었다. 이에 따라 IFLA는 『서지레코드의 기능상의 요건(Functional Requirements for Bibliographic Records, FRBR)』을 제안하였다. FRBR은 서지 개체의 계층과 관계를 통해 집중 기능과 향상된 검색 기능을 제공하여 이용자 측면의 인터페이스를 향상시킨다. 또한 목록에서는 데이터의 중복 입력을 줄여 목록의 생산성을 증대시키는 장점을 갖는다. 그러나 국내에서는 목록규칙에 FRBR이 크게 적용되지 못함은 물론 온라인목록에도 많이 적용되고 있지 않다. 이는 기존 데이터를 FRBR로 변환하는 문제, FRBR을 구체화할 목록규칙의 부재 등 현행 목록데이터로 FRBR 저작 및 표현형의 집중을 완벽하게 구현할 수 없기 때문이다. 즉 현재의 목록규칙으로는 동일 저작을 갖는 레코드를 집중시키고, 다른 저작을 구분할 수 있는 데이터를 완벽하게 기술하기 어렵다는데 그 원인이 있다. 따라서 FRBR의 온라인목록 적용을 위해서는 MARC 데이터를 활용해야 하며, MARC 데이터는 목록규칙에 의해 기술되기 때문에 FRBR을 위한 목록규칙이 시급히 마련되어야 할 것이다. 이에 본 연구에서는 FRBR을 위한 목록규칙과 MARC 기술 방안을 제안하고자 하였다. 이를 위해 국내에 적합한 FRBR 저작 클러스터링 알고리즘을 설계하여 도서관의 실제 온라인목록에 적용하여, 저작을 중심으로 모이는 저작 클러스터링 및 표현형 클러스터링 정도를 파악하고, 저작을 중심으로 집중되지 않는 문제점을 목록의 측면에서 분석하였다. 분석 결과를 바탕으로 새로운 목록규칙을 제안하고, 실험 데이터의 구축과 재목록을 통해 FRBR을 위한 목록규칙을 검증하였다. FRBR을 위한 목록규칙의 제안과 검증을 위해 분석기관으로 서울지역 대학 도서관의 평균 장서량을 소장하고 있는 한성대학교 도서관을 선정하였다. 한성대학교 도서관을 선정한 이유는 첫째, FRBR의 적용에 대한 분석이 가능한 도서관이었으며, 둘째, 목록규칙의 적용이 기관마다 차이는 있으나 핵심 규칙은 유사하게 적용되고, 셋째, 분담목록 시스템의 구축으로 목록 데이터 품질의 차이가 크지 않다고 판단되었기 때문이다. 단계별 연구 내용을 종합하면 다음과 같다. 첫째, 국내에 적합한 저작 및 표현형 클러스터링 알고리즘을 설계하였다. 국내에 맞는 알고리즘을 위해 한성대학교 도서관이 구축한 MARC 태그와 식별기호별 입력 통계를 분석하여 FRBR 저작 클러스터링 및 표현형 클러스터링에 필요한 식별요소의 입력정도를 조사하였다. 그 결과 MARC 데이터 대부분이 통일표제를 사용하지 않고 245 태그를 주로 사용하였다. 동서의 경우 507 원저작명을 기술하는 주기를 입력하고 있어 이를 활용해 번역자료를 일부 통제하였다. 즉 표준적인 저작 및 표현형 클러스터링 알고리즘 작성을 위해 OCLC와 LC를 참조하였고, 동서는 국내 환경에 맞도록 507 태그를 체크하는 별도의 과정을 포함시켰다. 둘째, FRBR 알고리즘을 온라인목록에 적용해 저작 및 표현형을 중심으로 집중되는 정도를 분석할 수 있었다. 분석 결과 총 304,861개의 서지레코드가 263,342개의 저작으로 클러스터링되어, 저작당 평균 1.2개의 구현형 레코드를 갖고 있었다. 263,342개의 저작 중에서 2개 이상의 구현형 레코드를 갖는 저작은 15,985개로 전체 저작의 6%를 차지하였으며, 단일 구현형을 갖는 저작 수는 총 247,357개로 94%를 차지하여 단일 구현형을 갖는 저작의 비율이 높았다. 2개 이상의 구현형 레코드를 갖는 저작에 포함된 구현형 레코드 수는 총 57,457개로 전체 레코드의 약 19%에 해당하였고, 나머지 81%는 단일 구현형을 갖고 있었다. 비록 2개 이상의 구현형을 갖는 저작은 15,985개로 6%를 차지하였으나, 이에 포함된 구현형 레코드 개수는 57,504개로 전체 레코드의 19%를 차지하였다. 저작당 표현형 수에서도 7개가 최고였으며, 평균 1개로 분석되어 저작당 표현형의 비율도 높지 않았다. 셋째, FRBR의 저작 클러스터링이 효과적으로 수행되지 못한 원인을 파악하기 위해 주제별 상위 저작 총 100개를 중심으로 시스템으로 클러스터링된 개수와 수작업으로 검색한 결과를 비교하여 클러스터링의 정확도를 조사하였다. 100개 저작은 시스템 처리로 1,068개의 레코드를 클러스터링하였으나, 수작업 검색으로 1,309개가 검색되어 누락된 레코드는 241개였다. 따라서 FRBR 알고리즘으로 약 82%의 레코드는 정확하게 처리되었으나, 18%는 클러스터링 처리에서 실패하였다. 넷째, 알고리즘 처리 시 저작 클러스터링이 실패한 원인을 파악하기 위해 목록규칙과 MARC 입력 측면에서의 문제점을 조사하였다. 클러스터링 실패의 가장 큰 원인은 데이터 품질로 분석되었다. 즉 MARC 데이터 필드의 해당 사항 미입력(34%) > 통일표제 미사용(22%) > MARC 데이터 필드 사용 오류(17.4%) > 저자 및 서명 변경(9.2%) > 역자?편자를 저자로 기술(7.5%) > 입력 오류(4.1%) > 기술과 접근에 대한 인식 부재(2.9%) 등의 순으로 나타났다. 따라서 목록규칙 적용 시의 오류, MARC 사용 오류, 입력 오류의 문제가 클러스터링 실패의 원인이라고 할 수 있었다. 다섯째, 저작 클러스터링이 낮은 원인은 FRBR에 맞는 데이터 구축이 이루어지지 못한 것임을 인식하고, 이를 위해 2009년 제정될 RDA 목록규칙 초안을 참조하고, 클러스터링 실패 원인 분석을 기초로 FRBR을 위한 목록규칙 및 MARC 기술 방안을 제안하였다. 또한 분석한 1,300건의 MARC 데이터를 실험 데이터베이스에 반입하여 제안한 목록기술 방식으로 재목록하고, 목록 전후의 저작 집중성을 비교하였다. 그 결과 클러스터링이 이루어지지 않았던 거의 모든 저작의 클러스터링이 수행되었다. 100개 저작에 1,068개 레코드가 클러스터링되었던 이전 결과와 달리 재목록 후에는 106개 저작에 1,300개 레코드 모두 클러스터링이 수행되었다. 따라서 클러스터링의 오류는 FRBR에 맞는 목록규칙에 따른 데이터 구축이 이루어지지 않았던 것이 그 원인으로 드러났다. 즉 일관성 있는 데이터 구축이 이루어진다면 FRBR 저작 클러스터링의 정확도뿐만 아니라 FRBR의 유용성도 높일 수 있는 것으로 나타났다. 본 연구에서는 FRBR을 위한 목록규칙과 MARC 기술방안을 다음과 같이 적용하여 데이터를 구축하였다. 첫째, 우선 접근점으로 통일표제와 기본표목을 기술하여 저작 식별이 명확하도록 하였다. 통일표제는 전거데이터가 없는 상태에서 데이터를 집중시키는 매우 중요한 요소였고, 통일표제와 기본표목을 사용하여 저작을 정확하게 식별할 수 있었다. 번역자료의 경우 원저작명으로 우선 기술하고, 개정자료는 개정전 서명으로 우선 접근점을 기술하게 하였다. 축약자료는 원저작명으로 기술하였고, 각색 자료는 각색자를 책임사항으로 기술하여 원저작과 각색저작을 구분하였다. 둘째, 표현형 구분을 위한 표제 기술로 개정과 언어 사항을 기술하도록 하였다. 이 정보는 MARC 130, 240, 245 태그의 ▼s, ▼l을 이용해 각각 개정, 축약, 언어 정보를 기술하도록 하였다. 셋째, 종합표제를 갖지 않는 합집의 경우, 포함된 개별 서명과 저자명으로 각각 저작이 식별되도록 [Collected works], [Selections]라는 통일표제를 사용하고, 부출서명을 저작명으로 추출하도록 하였다. 또한 저자와 저작의 관계를 표현하기 위해 관계 용어(relator term)를 사용하였다. 넷째, 자료의 내용과 매체를 별도로 구분하도록 RDA 초안의 내용, 매체 용어를 이용하여 130, 240, 245 태그의 ▼h에 내용-매체-상세 매체의 순서대로 기술하였다. 이를 통해 자료의 내용과 매체를 명확히 하여 이용자 식별의 어려움을 해결하였다. 본 연구를 통해 제안한 FRBR을 위한 목록규칙을 통해 FRBR을 보다 구체적이며 실질적으로 적용할 수 있을 것이다. 첫째, 국내 KCR4에 FRBR을 위한 목록규칙 개정 방안을 제시할 수 있을 것이다. 둘째, 본 연구의 FRBR 저작 클러스터링 알고리즘은 전거를 구축한 기관의 경우, 저작 대표키 생성 시 전거데이터와 비교하는 단계를 추가함으로 저작 클러스터링 알고리즘으로 활용할 수 있을 것이다.;This study focuses on the utilities and problems of the FRBR and also suggests new cataloging rules generated by the FRBR implementation into the catalog by using work and expression clustering. There are three areas of interest in this study: (1) development of the FRBR algorithm that identifies the work set and expression set, especially by adding subfield ▼a, ▼t in tag 507 of KORMARC to algorithm to level up collocation (2) application of the algorithm to Hansung University Library OPAC and analysis of the utilities and problems encountered in applying the FRBR model to work clustering and expression clustering and (3) verification of the suggested cataloging rules for effective FRBRization. FRBRization in OPAC should be constructed by computer programming only; however, it was very difficult to FRBRize the cataloging data because of its flatness that was not appropriate to the FRBR model. Therefore, the cataloging rules for FRBR must be constructed to qualify MARC data. Findings of this study are as follows. First, the work and expression collocation analysis found that collocation was low but similar to the OCLC collocation by Hickey & O'Neill(2005). Application of the algorithm to Hansung University's OPAC identified 263,342 distinct works among 304,861 manifestation records at 1.2 manifestations per work. There were 15,985 (6%) works with over 2 manifestations and 247,357 (94%) elemental works with only a single manifestation. The number of records of works with over 2 manifestations was 57,504(19%) out of the total of 304,861 manifestation records. Second, 100 primary works were selected to determine what should and what should not be clustered and what the cause of clustering failure was. All 100 works should have collocated 1,309 manifestations by clustering algorithm but collocated only 1,068 records. Therefore, 241 records failed in clustering. The approximate success rate of the clustering algorithm was 82%. Clustering failure was caused by the cataloging data quality : 34% MARC data field missing, 22% uniform title not used, 17.4% MARC field errors, 9.2% author and title changes under same work, 7.5% citing editor and translator in 100 main entry, 4.1% spelling errors, and 2.9% confusion between description and access point. It follows that the data quality was more important to cluster work and expression. Third, 1,300 records in experimental database were constructed and re-catalogued by the suggested FRBR cataloging rules. Experimental data were compared with pre-existence data(the original data). As a result, 1,300 manifestation records were clustered to 106 works. This process has suggested that the data quality and uniformity were very important factors in the successful implementation of the FRBR conceptual model into OPAC and that the cataloging rules would bring more effective FRBR application. New FRBR cataloging rules were suggested as follows. First, uniform title and main entry should be described for distinct identification of each work. Second, revision and translation information as entry for expression identification should be described for revised work and translation work. In MARC, subfield ▼s and ▼l in tag 130, tag 240, and tag 245 were for revision and translation information for expression identification. Also, revised work with changes in title or author should be described by the original title and author before revision as access points for work. Third, the uniform title for collected works should be '[Collected works]' or '[Selections]'; works in collected work should be indexed as analytical entry. Fourth, contents and media should be described using RDA content category, media and carrier category. The purpose of this study was to apply FRBR algorithm to real OPAC, to determine FRBR utilities such as collocation rate of work and expression, to grasp clustering failure and some problems in data, to suggest cataloging rules which could improve the FRBR application, and finally to construct FRBRized experiment data, based on the new FRBR cataloging rules, with the final goal of verifying the cataloging rules. This re-cataloging made clustering better than in the original data. Therefore, data quality built on suggested FRBR cataloging rules should improve to FRBRize. The findings of the study should be applied in creating new cataloging rules in Korea.