View : 1061 Download: 0

고서의 디지털화와 색인에 관한 연구

Title
고서의 디지털화와 색인에 관한 연구
Other Titles
(A) Study on the Digitizing and Indexing Method for Korean Old Books
Authors
이지영
Issue Date
1997
Department/Major
대학원 문헌정보학과
Keywords
고서디지털화색인Digitizing
Publisher
이화여자대학교 대학원
Degree
Master
Abstract
본 연구에서는 고서 디지털화의 필요성과 유용성을 제시하고, 고서 데이터의 입력방법과 색인방안을 제안하고자 하였다. 이를 위해서 문헌연구와 사례연구를 이용하였다 먼저 문헌연구를 통해서는 고서 디지털화의 필요성과 유용성을 파악하였으며, 정보보존방안으로서의 디지털기술의 특성, 고서 디지털화의 개념과 필요성, 디지털화된 고서 데이터의 활용방법 등을 함께 고찰하였다. 사례연구를 통해서는 국내외에서 고서를 디지털화하여 서비스를 제공하고 있거나 준비중인 사례들을 대상으로 특성을 조사하였다 이상에서 파악한 바를 토대로 고서 디지털화를 위한 데이터의 입력방법을 설명하고, 입력된 데이터의 색인방안을 제시하였다. 고서의 디지털화는 크게 아스키데이터의 입력과 이미지데이터의 입력으로 나뉘어지며 고서의 내용과 형태의 연구를 지원하기 위해서는 이 두 가지 데이터를 모두 필요로 한다. 아스키데이터의 입력을 위해서는 고서에 기록된 문자의 특징과 우리나라 표준문자코드의 특징 등을, 이미지데이터의 입력을 위해서는 이미지의 품질과 관계된 입력 및 저장의 요소, 이미지의 처리방법 등을 설명하였다. 데이터의 입력과 색인방안을 제시하기 위해서 조선시대의 대표적 윤리서인 『三綱行資幽』를 실례로 들어 이상에서 제시한 입력방법에 따라 데이터를 입력, 색인하는 과정을 단계별로 설명하였다. 삼강행실도 원문의 한자, 옛한글로 된 언해, 현대한글 국역을 아스키데이터로 입력하였으며, 색인시 데이터의 처리를 위하여 원문의 페이지번호와 열번호, 문장번호를 위치정보로 사용하였다. 이미지데이터는 초간본과 언해본의 페이지이미지를 스캐닝하였으며, 문자이미지로 분할하고 아스키데이터와 같이 페이지번호를 위치정보로 사용하였다. 삼강행실도의 색인을 위해서는 문자이미지의 색인방안을 제안하였다. 문자이미지의 색인방안은 페이지이미지를 문자이미지로 분할하고 아스키데이터로 입력한 한자와 링크하여 색인파일을 생성하는 것으로서, 색인과 검색의 대상은 아스키데이터 이지만 이용자에게는 문자이미지를 제시하는 방안이다. 본 연구에서 제안한 문자이미지의 색인방안은 다음과 같은 특징이 있다. 첫째, 아스키데이터를 색인과 검색의 대상으로 하고 이용자에게는 이미지데이터를 제시하는 방법이므로 이미지에 포함된 오브젝트를 검색하기 위한 기존의 패턴 매칭보다 검색의 효율성이 높다. 둘째, 페이지이미지의 金文검색이 가능해지며, 검색된 용어에 해당하는 페이지이미지의 위치와, 한자, 한자음, 현대한글로 된 국역, 언해 본문으로 이동할 수 있다. 셋째, 검색된 한자에 해당하는 문자이미지를 한 화면에 제시할 수 있으므로 한 문헌 전체, 또는 여러 문헌에 사용된 다양한 글자체들을 검색하여 문자이미지를 비교함으로써 활자나 문자간의 차이점을 비교할 수 있다. 또한 문자의 디지털이미지를 컴퓨터로 처리하여 특징을 추출하거나, 특징에 대한 통계처리가 가능하다. 넷째, 개별 한자를 검색할 수 있으므로 사용된 한자의 출현빈도계산 등 통계처리 나 사전제작을 위한 한자의 용례추출이 가능하다. 이와 같이 본 연구에서 제안한 색인방안을 적용하여 검색시스템을 설계하면 페이지이미지에 포함된 문자의 이미지를 아스키데이터로 구성된 全文데이터에서 문자나 문자열을 검색하는 것과 같이 검색할 수 있다. 본 연구는 고서의 데이터 입력과정과 문자이미지의 색인에 중점을 두었으며, 이상에서 제안한 디지털화와 색인의 방안은 삼강행실도뿐만 아니라 다양한 고서에 적용이 가능할 것이다. 고문서, 고지도 등 다양한 고문헌에도 본 방안을 확장 · 적용할 수 있으며 고문헌의 유형별 특성은 입력된 데이터를 가공할 때 추가로 반영 되어야 할 것이다. 또한 색인방안을 단계별로 제시하였으므로 디지털화를 수행하는 기관의 상황에 따라 수용할 수 있을 것이다.;The purposes of this study are to present the necessity and utility of digitizing old books and to propose the accompanying input methods and indexing scheme of such data. For this study, desktop literature research and case studies were performed. Literature research provided an in depth understanding on such issues as what characteristics of digital technologies are, what concepts are employed in digitizing old books, why old books need to be digitized, and how digitized data of old books can be utilized. Case studies provided understanding of common characteristics in digitizing and indexing efforts of old books in Korea and other parts of the world. Data input methods of old books are presented and indexing scheme of such data is proposed for this study. A well-known moral book written in Chosun Era, Samganghaengsildo(三綱行實圖), was used for a case study in describing the data input methods and the indexing scheme. Data input methods were categorized into two types of data, ASCII and image. Hanja, O˘nhae(諺解: the Korean annotation of Hanja text), and the modem Korean translation in Samgartghaengsildo were input as ASCII data and page number, column number, and sentence number were used for location information for data processing of index. Image data scanning was used for page images of the first edition of Samganghaengsildo and page numbers were used for location information after isolating page image to individual character unit level. Character image indexing was proposed for the indexing scheme of Samganghaengsildo. This involves isolating character image from page image and linking characters with Hanja that was input as ASCII data. In this process, indexing files are created. The proposed scheme of character image indexing has following implications. 1) I t provides a higher efficiency of retrieval than an existing method of pattern matching which retrieves objects included in images. This is because ASCII data are used for indexing as well as retrieval and user are presented with image data. 2) Full-text retrieval is possible in page images of old books. Also users can navigate freely to the location of page image, Hanja, pronunciation of Hanja, its modem Korean translation, and O˘nhae text of searched word. 3) Character image for searched Hanja can be displayed in one screen. 4) It is possible to perform statistical processing, frequency of occurrence calculation for example, and to present usage examples for dictionary purposes. This becomes possible due to individual Hanja search functionality. The Indexing scheme presented in this study is applicable for a search system design purpose. It is possible to search character images included in page images as if character or character string in full-text of ASCII data were searched. This study focuses on data input process and character image indexing of old books, and it is applicable not only Samganghaengsildo but to other old books, manuscripts, diplomatics, old maps, and etc. Also, step by step presentation of indexing scheme presented in this study will be useful in tailoring the method for any entity in digitizing efforts of old books.
Fulltext
Show the fulltext
Appears in Collections:
일반대학원 > 문헌정보학과 > Theses_Master
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

BROWSE