주제명 표목의 패싯 구조화 모형 개발에 관한 연구

주제명 표목의 패싯 구조화 모형 개발에 관한 연구
A Study of Developing a Facet Application Model of Subject Headings in Korea
대학원 문헌정보학과
이화여자대학교 대학원
Though a keyword searching has been public recently, major subject heading lists have been used as subject access tools to support users' information retrieval. Subjects have been expressed by complex nouns without subdivisions in subject heading lists in Korea. Also, properties and structures of headings have not been defined in proper. To solve these problems, subject headings should be categorized in facets, and synthetic rules should be defined among facets. The purpose of this study is to develop a faceted application model of subject headings for the current information environment in Korea. A faceted model is designed to reflect the fundamental properties of subject headings and the characteristics of the Korean language. For this study, literature review, case study, and facet analysis were carried on. In literature review, the concepts of subject access and subject, the structure of the subject headings, the characteristics of Korean headings, the definitions of facets and the procedures of facet analysis were investigated. As a result, the categories of subject headings were divided into Aboutness and Isness. Also, it was required to apply the faceted model in subject headings to solve the structure’s complexity of traditional subject heading lists and to express various combinations. In addition, the facet analysis was consisted of 6 steps including subject field definition, facet formulation, facet amplification and structuring, creation of scope note, facet arrangement and definition of facet coordination rule, and has been used in developing or assigning subject headings. In case study, six cases including OCLC's FAST, PRECIS, Thesaurus construction and use, CC 7th edition, BC 2nd Edition, and UDC 3rd Edition were analyzed to focus on configuration and combination of facets. As a result, in Aboutness category, the number, the name and the segmentation of facets were various in 6 cases. Also, the number and the type of facets were different from cases in Isness category. The Form facet was the common facet in all cases, and Language facet, Genre facet, and Person facet were treated partially. In the aspect of facet combinations, basically postcoordination was applied among the different facets and then postcoordination was applied in the same facet in some cases. The citation order was different from the cases. In Aboutness category, the order of facets was defined as CC’s PMEST except Geography facet and Chronology facet. Whereas, in Isness category, the citation order of facets was various in many cases. As facet analysis, 8,231 headings of the National Library of Korea Subject Headings (NLSH) were classified based upon the initial faceted models, and were analyzed the type of combinations of precoordinated headings. The facets in the initial model were consisted of 22 facets including 8 facets of FAST and 14 facets of the other five cases. As a result, first, in the aspect of the terminology properties, most of headings were Chinese characters and foreign words were quite included. Also, academic and scientific terms were coexisted with general and public terms, and there were a lot of compound and complex headings. Second, in the aspect of facet distribution, 6,911 headings (83.96%) were classified in Topical facet, and the other 1,320 headings (16.04%) belonged in other facets. Third, the number of headings in Things/Entity facet was 3,926 (56.81%) compared with 2,985 headings (43.19%) in Action facet. Fourth, 26 subject headings (0.32%) were classified in Event facet, and the subproperties of Event facet were the names of historical events, wars, and meetings and conferences. Fifth, 225 subject headings (2.73%) belonged to Geography facet, and then subproperties were the names of continents, countries, cities, rivers/oceans/ports, mountains/mountain chains, and ancient countries. Sixth, 30 subject headings (0.36%) were classified in Chronology facet, and the subproperties were the names of general subdivision of periods, periods in Korea and foreign countries. Seventh, as proper nouns, there were 76 subject headings (0.93%) in Personal Name Facet, 21 subject headings (0.26%) in Corporate Name Facet, and 150 subject headings (1.82%) in Title Facet. Eighth, 109 subject headings (1.32%) were classified in Form facet, and they were divided into miscellaneous, dictionaries, lectures/speeches, serials, educational materials, series/collections/anthologies, and biographies. Ninth, 185 subject headings (2.25%) were included in Genre facet with the specific styles of art and literature, and the subproperties were separated by the general subdivisions of genre for art and literature, the specific genres of music, fine art, movie/play, broadcasting, and literature. Tenth, 45 subject headings (0.55%) were classified in Language facet, and subproperties were the specific languages and letters divided by language families, and artificial languages. Eleventh, 453 subject headings (5.50%) belonged to Person facet, and gender/age, ethnic groups, social status/classes, and profession/qualification were suggested as the subproperties. Then, the results of the facet classification about 600 subject headings were verified for twice and problems and improvements were gathered with three professors in information organization field and three librarians in technical service. As a result, first, the facet identity was improved in the second verification better than earlier. In particular, Geography, Event, Chronology, Personal and Corporation Name, Title, and Language facets were highly identifiable, but Topical, Form and Genre facets were relatively low. Second, the name of Action facet was required to be changed to 'Action/Status facet' because it was difficult to associate the status nouns with the facet. Third, it was necessary to allow multiple classification or to integrate Things/Entity and Action/Status facets into Topical facet in cases of science and history, and disease, because the definitions of subject headings in the dictionary could be classified in entity as well as in action. Fourth, it was recommended to allow topical headings including specific languages and subdivisions of individual languages to classify both Topical and Language facets. Next, precoordinated 755 subject headings with two or three facets were analyzed in aspects of the combination method and citation order. As a result, in combination of two facets, Topical facet was most actively combined with other eight facets to form the precoordinated headings, and then, Genre, Form, and Geography facet were combined gradually. In combination of three facets, there were twenty-five subject headings and five different types of combinations. Based on the results, the final faceted application model of subject headings in Korea was proposed in two phases. In the first phase, three groups were divided according to the fundamental properties of subject headings referred to the IFLA's FRSAD model. Also, facets and subcategory in three groups were suggested. Group 1 was made up of Topical, Event, Geography, and Chronology facet related to Aboutness. Group 2 was composed of Personal and Corporate Name, and Title facet as proper nouns, and Group 3 was consisted of Form, Genre, Language, and Person facet related to Isness. Then, Topical facet in Group 1 was subdivided to five types based on various combinations of precoordinated headings. In the second phase, eight subfacets and forty-four subproperties of the eleven facets were proposed. As top facets, Topical, Event, Geography, Chronology, Personal and Corporate Name, Title, Form, Genre, Language, and Person facets were defined. Next, the subfacets were Topical-Thing/Entity and Topical-Action/Status facet, Part, Kind, Property, Whole, Patient, and Agent facets associated with two facets. In case of subproperties, there were three types of historical event, war, meeting and conference in Event facet. In Geography facet, seven types of continent, country, city, river/ocean/port, mountain/mountain chain, ancient countries, and overland route, and in Chronology facet, three subproperties corresponding with the general subdivisions of periods, periods in Korea and foreign countries were defined. In Personal Name facet, three properties of domestic and foreign personal name, and family name were subdivided, in Corporate Name facet, domestic organization, and foreign & international organization were presented as two subproperties. As well, the five subproperties of Title facet were domestic and foreign books, scriptures, songs, and products/standards. The seven subproperties of Form facet were miscellaneous, dictionaries, lectures/speeches, serials, educational materials, series/collections/anthologies, and biographies. Then, in Genre facet, six subproperties including the general subdivisions of genre for art and literature, the specific genres of music, fine art, movie/play, broadcasting, and literature were divided. The three subproperties of Language facet were the specific languages and letters divided by language families, and artificial languages. Four subproperties such as gender/age, ethnic groups, social status/classes, and profession/qualification were categorized in Person facet. Next, the scope notes of facets were made up of the definitions and classification principles of facets. The subproperties and examples of headings were added in the definitions based on results of facet analysis to the initial model. Then, the principles and guidelines related to three types of problems that were stated in facet analysis and verification process were provided. Finally, the rule of citation order suitable to Korean subject headings was suggested, and the syntax was applied to build and search subject headings in virtual. The citation order was defined as Geography, Language, Person, Chronology, Genre, Topical, and Form, and it was parallel to language structure of Korean. Then, faceted structure made and expressed complex and compound subject headings more consistent and systematic without subdivisions. Also, it facilitated to access subject headings using coordinate search or filter and limitation of search results. This study was valuable in that the facet structure of subject headings in Korea was revealed, and the citation rule of facets conforming to the order of Korean language was defined. Based upon the result of this study, the traditional subject heading lists in Korea can to be developed for a better quality and to play a key role as a subject access tool, and to increase subject accessibility of users.;최근 키워드 검색이 대중화되었으나, 주제 접근을 도와주는 보조적인 도구로 주제명 표목표의 활용 가능성은 여전하다. 그럼에도 불구하고, 국내 주제명 표목표는 세목 없이 복합 명사 형태로 주제를 표현하면서, 표목의 속성과 구조가 제대로 정의되지 않아서 표목의 생성과 접근에 어려움이 있다. 이러한 문제점을 해결하기 위해서는 주제명 표목을 패싯으로 범주화하고, 패싯의 조합 방식을 정의해야 한다. 본 연구의 목적은 21세기 정보 환경에 적합한 한글 주제명 표목의 패싯 구조화 모형을 개발하는 것이다. 패싯 모형은 주제명 표목의 속성과 한국어 특성을 반영하여 기본 패싯과 조합 규칙으로 설계하고, 이를 위해 문헌 연구와 사례 분석, 패싯 분석을 실시하였다. 문헌 연구에서는 주제 접근과 주제의 개념, 주제명 표목의 구조, 한글 주제명 표목의 특성, 패싯의 개념 및 분석 절차에 대해 고찰하였다. 이를 통해 주제명 표목의 유형을 주제관련성과 범주관련성으로 구분하고, 기존 주제명 표목의 복잡한 구조를 탈피하면서 다양한 조합 방식을 표현하기 위해 패싯 구조의 필요성을 확인하였다. 그리고 패싯 분석은 주제 분야 정의, 패싯 공식화, 패싯 확장과 구조화, 범위 주기 생성, 패싯 배열, 조합 규칙 제시의 6단계로 이루어지고, 주제명 표목의 생성과 부여에 활용될 수 있음을 파악하였다. 사례 분석에서는 OCLC(Online Computer Library Center)의 FAST(Faceted Application of Subject Terminology), PRECIS(PREserved Content Indexing System), Thesaurus construction and use, CC(Colon Classification) 제7판, BC (Bliss Bibliographic Classification) 제2판, UDC(Universal Decimal Classification) 제3판, 총 6개 사례를 중심으로 기본 패싯의 구성과 패싯 조합 방식을 비교․분석하였다. 분석 결과, 주제관련성 패싯은 5개부터 13개까지 매우 다양하게 구성되었고, 사례에 따라 패싯의 명칭과 개수, 세분화에서 차이가 나타났다. 범주관련성 패싯은 2개부터 5개까지 개수와 종류가 다양하였고, 이 중 형식 패싯은 모든 사례에 있었으며, 언어, 장르, 인물 패싯은 일부 사례에서 다루었다. 조합 방식은 기본적으로 다른 패싯 간에는 후조합 방식을 지향하였으며, 사례에 따라 동일 패싯에 속한 주제명은 전조합 방식을 채택하기도 하였다. 조합 순서는 주제관련성 패싯은 CC의 PMEST 순서를 따랐지만 공간과 시간의 패싯 순서는 사례에 따라 달랐고 범주관련성 패싯의 조합 순서는 모두 다르게 설정되었다. 패싯 분석에서는 사용빈도가 높은 국립중앙도서관 주제명 표목(NLSH) 8,231개를 대상으로 초기 모형을 적용해 패싯을 분류하고, 전조합 주제명에 대한 조합 방식을 분석하였다. 초기 패싯 모형은 FAST 중심으로 나머지 5개 사례의 패싯을 추가하여 토픽, 토픽-사물/개체, 부분, 종류, 전체, 속성, 재료, 토픽-행동, 수혜자, 주체, 산물, 부산물, 사건, 장소, 시대, 개인명, 단체명, 표제명, 형식, 장르, 언어, 인물인 22개 패싯으로 구성하였다. 패싯 분류 결과, 용어적 특징으로 표목 대부분이 한자어이며, 외래어가 많았고, 일반 용어와 학술 용어가 공존하였다. 그리고 복합 명사 형태의 주제명 표목이 많았으며, 이 중 일부 표목들은 축약어 형태로 표기되었다. 패싯 분포는 토픽 패싯에 해당하는 표목이 6,911개(83.96%)로 가장 많았으나, 다른 패싯에 속한 표목들도 1,320건(16.04%)이나 있었다. 패싯별 특성으로는 첫째, 토픽 패싯은 토픽-사물/개체 패싯에 해당하는 주제명 표목이 3,926개(56.81%)로 토픽-행동 패싯 2,985개(43.19%) 보다 훨씬 더 많았다. 둘째, 사건 패싯은 전체 8,231개 중 26개(0.32%)가 있었으며, 이들의 하위 속성은 역사적 사건, 전쟁명, 대회명이 있었다. 셋째, 장소 패싯에 해당하는 표목은 225개(2.73%)가 있었으며, 하위 속성은 대륙, 국가, 도시, 강‧바다‧항구, 산‧산맥, 옛국가명, 육로로 구분되었다. 넷째, 시대 패싯에는 총 30개(0.36%) 주제명 표목이 해당되었으며, 일반 시대구분, 한국 시대, 각국 시대로 하위 속성이 구분되었다. 다섯째, 고유명에 해당하는 개인명, 단체명, 표제명 패싯은 247개(3.01%) 표목으로 개인명 76개(0.93%), 단체명 21개(0.26%), 표제명 150개(1.82%)가 해당되었다. 여섯째, 형식 패싯에 해당하는 주제명 표목은 109개(1.32%)가 있었으며, 하위 속성을 잡저, 사전, 강연집/연설문집, 연속간행물, 교육자료, 총서/전집/선집, 전기, 7가지로 구분하였다. 일곱째, 장르 패싯은 예술과 문학의 특정 양식을 지칭하는 주제명 표목으로 185개(2.25%) 표목이 있었고, 하위 속성은 일반 장르구분과 음악, 미술, 영화/연극, 방송, 만화, 문학으로 세분하였다. 여덟째, 언어 패싯에 해당하는 주제명 표목은 45개(0.55%)였으며, 개별 언어와 글자, 인공어로 하위 구분하였다. 아홉째, 인물 패싯에 해당하는 주제명 표목은 453개(5.50%)가 있었으며, 성별 및 연령, 인종, 사회 지위 및 집단, 직업 및 자격으로 하위 속성을 구분하였다. 위와 같은 패싯 분류 결과를 검증하기 위해 정보 조직 분야의 학계 전문가 3인과 실무자 3인을 대상으로 두 번에 걸쳐 총 600개 주제명 표목의 패싯 분석 결과를 비교하고, 개선 방안에 대한 의견을 수렴하였다. 검증 결과, 패싯의 식별성은 1차 검증에 비해 패싯 정의와 분석 지침을 제공한 2차 검증에서 모두 향상되었다. 특히 장소, 사건, 시대, 개인명, 단체명, 표제명, 언어, 인물에 대한 식별성이 높았고, 토픽과 형식, 장르의 식별성은 상대적으로 낮았다. 둘째, 토픽-행동 패싯은 패싯명 자체로는 상태성 명사를 연상하기 어려우므로 ‘토픽-행동/상태’로 수정하도록 제안하였다. 셋째, 학문명, 역사, 질병에 해당하는 주제명 표목이나 사전적 의미로 개체와 행동을 모두 의미하는 주제명 표목에 대해서는 패싯 분류에 어려움을 겪었으며, 이를 해결하기 위해 중복 분류를 허용하거나 토픽 패싯을 통합하는 방식을 추천하였다. 넷째, 특정 언어명에 KDC 조기표의 언어공통구분항목이 결합된 표목은 토픽과 언어 패싯에 중복 분류하도록 제안하였다. 다음으로 2개 이상의 패싯이 조합된 주제명 표목 755개를 대상으로 패싯 간 조합 방식과 배열 순서를 분석한 결과, 2개 또는 3개 패싯의 조합이 이루어졌다. 2개 패싯 조합의 경우, 토픽 패싯이 8개 패싯과 전조합 표목을 형성하여, 가장 활발한 조합도를 가졌고, 다음으로 장르, 형식, 장소 패싯 순이었다. 3개 패싯 조합은 25개 표목이 해당되었으며, 5가지 유형이 있었다. 이상의 연구 내용을 토대로 한글 주제명 표목의 최종 패싯 모형을 2단계로 설계하였다. 제1단계 모형에서는 IFLA의 FRSAD 모형을 참고하여 주제명 표목의 속성에 따라 3개 집단으로 구분하고, 각 집단별로 기본 패싯과 하위 유형을 구조화하였다. 제1집단은 토픽, 사건, 장소, 시대 패싯, 제2집단은 개인명, 단체명, 표제명 패싯, 제3집단에는 형식, 장르, 언어, 인물 패싯인 4개 패싯을 포함시켰다. 그리고 전조합 주제명의 다양한 조합 방식을 바탕으로 제1집단의 토픽 패싯을 5개 유형으로 세분하였다. 제2단계 모형에서는 11개 상위 패싯을 중심으로 8개의 하위 패싯과 패싯별 44개 하위 속성을 제시하였다. 19개 기본 패싯 중 상위 패싯은 토픽, 사건, 장소, 시대, 개인명, 단체명, 표제명, 형식, 장르, 언어, 인물 패싯으로 정의하였다. 다음으로 하위 패싯은 토픽-사물/개체와 토픽-행동/상태 패싯, 그리고 이와 관련된 부분, 종류, 속성, 전체, 수혜자, 주체 패싯으로 구성하였다. 하위 속성으로 사건 패싯은 역사적 사건, 전쟁명, 대회명을, 장소 패싯은 대륙, 국가, 도시, 강‧바다‧항구, 산‧산맥, 옛국가명, 육로, 시대 패싯은 일반 시대구분, 한국 시대, 각국 시대, 개인명은 국내 인명, 외국 인명, 가족명, 단체명은 국내 단체와 외국/국제 단체, 표제명은 국내서, 외국서, 경전, 노래, 제품/규격명, 형식 패싯은 잡저, 사전, 강연집/연설문집, 연속간행물, 교육 자료, 총서/전집/선집, 전기, 장르 패싯은 일반 장르구분과, 음악, 미술, 영화/연극, 방송, 만화, 문학, 언어 패싯은 개별 언어와 문자, 인공어, 인물 패싯은 성별 및 연령, 인종, 사회 지위/집단, 직업 및 자격으로 구분하였다. 다음으로 기본 패싯의 범위 주기를 패싯에 대한 정의와 분류 기준으로 구성하였다. 패싯 정의에서는 초기 모형에서 기술된 정의 이외에 NLSH의 패싯 분석 결과로 도출된 하위 속성과 대표적인 주제명 표목의 예시를 추가하였다. 그리고 패싯 분석과 검증 과정에서 제기된 문제점을 4가지 유형으로 구분하여, 분류 지침을 제시하고 고려 사항을 논의하였다. 마지막으로 패싯 조합 규칙에서는 한국어 어순에 적합한 한글 주제명 표목의 조합 순서를 도출하고, 조합 구문을 주제명 표목의 생성과 검색에 가상으로 적용해 보았다. 기본 조합 규칙은 장소, 인물, 언어, 시대, 장르, 토픽, 형식 패싯 순으로 정의하였으며, 조합 순서는 한국어의 특성과 일맥상통한다는 것을 확인하였다. 그리고 기본 패싯과 조합 구문을 기존 NLSH에 적용한 결과, 패싯 조합을 통해 다양한 합성 및 복합 주제를 세목 없이 표현할 수 있었고, 주제명 표목의 조합 검색이나 검색 결과의 제한 탐색 등 다양한 접근 방식을 제공하였다. 본 연구는 한글 주제명 표목을 대상으로 기본 패싯 구조를 규명하고, 한글 어순에 적합한 패싯 조합 방식을 체계화 했다는 점에서 의의가 있다. 본 연구의 결과를 토대로 한글 주제명 표목이라는 도서관의 주제 접근 도구를 고품질화하고, 이용자의 주제 접근성을 신장시킬 수 있을 것이다.
