텍스트 마이닝을 활용한 근대 조리서의 분석 연구

Study of Korean Modern Cookbooks Using Text Mining Analysis
대학원 식품영양학과
이화여자대학교 대학원
본 연구의 목적은 빅데이터 분석 방법의 하나인 텍스트 마이닝을 활용하여 우리나라 식생활이 급변하는 시기인 근대 조리서를 통합적으로 분석하고 역사적·문화적인 한식 원형의 이해를 위한 사료 발굴에 기초 자료로 활용하고자 한다. 한국의 음식문화는 온대성 기후와 반도라는 지리적 조건에 동아시아의 한의학적 지식, 불교와 유교의 영향을 받으며 전통적으로 고유한 음식 문화가 형성되었다. 19세기 이후 개화와 근대기를 거치면서 외국 문물의 수용, 근대 제도의 도입 등 근대적 변화와 일제강점기와 해방, 6.25 전쟁 등 사회변동을 겪으며 오랫동안 유지되어 오던 전통적인 생활방식이 급격하게 변화되었다. 한국 식생활 문화의 원형에 대한 연구는 주로 조선시대에 집중되어 있으며, 개화기 이후 근대 조리서에 관한 연구는 매우 미흡한 실정이다. 그러나 한국의 근대기는 격동하는 시대의 변화 속에서 근대 이전과 현대를 잇는 중요한 시기이며 전통적인 한식이 현대의 식문화로 계승되며 변용되는 과정을 이해하기 위해서는 반드시 근대 식생활 문화에 대한 연구가 필요하다. 식생활 문화는 무형의 유산으로, 과거 식생활 문화의 근거는 조리서를 통해 발견할 수 있다. 전통적으로 조리서에 대한 연구에서 활용된 분석 방법은 내용 분석을 기반으로 수행되었다. 그러나 내용분석은 연구자가 직접 문서를 읽고 코딩하고 분석하는 과정을 통해 분석하여 연구자의 주관이 개입되며, 개념적으로 조잡하고, 노동비용이 많이 들며, 외적 타당성이 제한된다. 본 연구는 기존에 내용분석으로 이루어지는 조리서 연구의 한계를 극복하고, 체계적이고 객관전인 대량의 텍스트를 분석하기 위한 방안으로 파이썬을 활용한 빅데이터 기법을 통해 근대 조리서의 텍스트 마이닝 분석을 실시하였다. 본 연구는 1920~1950년대 근대 시기에 한국 식생활 문화에 전통성을 갖으며, 근대적 조리 체계를 갖추고 있다고 판단되는 『사계의 조선요리』, 『우리나라 음식 만드는 법』, 『우리음식』, 『이조궁정요리통고』, 『조선무쌍신식요리제법』, 『조선요리법』, 『조선요리제법(1921, 1934)』, 『조선요리학』, 『조선 음식 만드는 법』등 10개의 활자본 조리서를 분석 대상하였다. 데이터는 파이썬 Beautifulsoup4 패키지를 통해 웹 크롤러를 제작하여 한국전통지식포탈(에서 출전별 수집을 진행하였다. 수집된 데이터는 식품영양학과에 재학 중인 연구원 5명의 교차 검증하여 데이터 누락 여부를 확인하였으며, 분석에 사용된 레시피는 총 4,482개이다. 본격적인 분석에 앞서 자연어 처리, 형태소 분석, 불용어 제거 등 전처리 과정을 거쳐 비정형 데이터인 텍스트를 정형화 하였다. 근대 조리서에 등장하는 재료의 특징 및 조합 발굴을 위하여 빈도분석, 상관행렬분석을 통한 연관성 분석, 경향성 분석을 실시하였다. 재료의 빈도분석 결과, 주요 재료보다 양념 및 부재료의 사용 빈도가 월등히 높았기 때문에 정확도를 높이기 위하여 양념 및 부재료에 해당하는 재료는 별도의 딕셔너리를 설정하고, 이외의 다른 재료는 주재료로 판단하여 분석을 실시하였다. 빈도 분석 결과, 조리서에 활용된 재료는 대체로 유사성의 띄는 것을 알 수 있었다. 또한 빈도분석과 동시발생행렬을 통한 연관성 분석을 통해서 간장, 파, 마늘, 후추, 깨소금, 소금, 설탕, 참기름 등이 우리나라의 기본양념 재료가 되며, 소고기와 달걀의 사용 빈도가 높은 것을 알 수 있었다. 서양의 식재료로는 『조선요리제법(1934)』에서 크림, 베이킹파우더, 버터와 빵이 등장하였고, 『사계의 조선요리』에서 바닐라 에센스가 활용되었으며, 『우리음식』에는 레몬껍질이 사용된 것을 알 수 있었으며, 외국음식에 대한 조리법도 드물게 나타났다. 이러한 경향은 개화기 이후 황실을 중심으로 서양의 식문화를 적극적으로 받아들인 것에 영향을 받아 일부 새로운 재료의 도입이 되었으나, 근대 조리서에서 나타난 재료 사용의 양상은 비교적 보수적으로 전통적인 식문화를 유지하고자 한 것으로 보인다. 특히 일본 유학 경험이 있는 방신영, 조자호의 저서에서도 이러한 특징을 찾을 수 있었는데, 이것은 1910~1945년 일제강점기로 국권이 침탈당한 시기에 당대 지식인으로써 보수적으로 전통 문화를 지키려는 노력이 엿보이는 것으로 사료된다. 근대 조리서에 등장하는 음식 분류에 대한 분석을 위하여 재료와 조리방법을 통해 군집분석을 실시하고, 이를 바탕으로 문헌별 출현 빈도분석을 실시하였다. 재료와 조리방법에 기반한 음식의 분류는 총 74개로 분류 도출되었으며, 18개의 중분류로 할당하여 분석을 실시하였다. 계층적 군집분석 결과 재료와 조리법이 비슷한 것끼리 군집이 형성된 것을 확인 할 수 있었다. 이를 바탕으로 중분류의 빈도분석 결과 조리서에서 병과류가 가장 많이 등장한 것을 알 수 있었으며, 다음으로 국·탕·찌개·찜 등 습열 조리방식에 해당하는 부식류가 높은 빈도를 보인 것을 알 수 있었다. 근대조리서의 문헌별 유사도는 재료의 사용과 조리법, 음식의 분류 등 조리서 전체 내용을 통해서 분석하였다. 분석 결과는 방신영의 저서인 『조선요리제법(1921)』, 『조선요리제법(1934)』, 『조선 음식 만드는 법』, 『우리나라 음식 만드는 법』의 상관관계가 매우 높은 것으로 나타났다. 또한 반가음식과 궁가음식의 명맥을 보전하기 위해 쓰인 『조선요리법』과 『이조궁정요리통고』가 대체로 높은 상관관계를 보이는 것으로 나타났으며, 남성이 쓴 조리서인 『조선무쌍신식요리제법』과 『조선요리학』은 비교적 같은 군집으로 확인 되었다. 특히 『조선요리학』의 경우 모든 문헌을 통틀어 군집에서 가장 멀리 떨어져 있는 것을 확인 할 수 있었으며, 이러한 결과는 각 조리서가 쓰인 배경 및 목적과도 연결할 수 있는 것으로 사료된다. 근대 조리서의 통합적 이해를 위해서 재료와 조리법을 기반으로 한 LDA 토픽 모델링을 실시하였다. 토픽 모델링은 텍스트 내 단어들의 빈도를 통계적으로 분석하여 전체 텍스트를 관통하는 잠재적인 주제를 자동으로 추출하는 분석 방법이다. 토픽 모델링 결과 우리나라 근대 조리서에 있어서 중요한 위치를 차지하는 잠재 주제어는 6개로 도출되었으며, 해당 토픽은 ‘부식류 1(국·탕·전골·찜 등 습열조리 음식) 만드는 법’, ‘부식류 7(자반·포 등 건열조리 저장음식) 만드는 법’, ‘떡 만드는 법’, ‘한과 만드는 법’, ‘김치 만드는 법’, ‘양념 만드는 법’으로 부여할 수 있었다. 마지막으로 근대 조리서를 근거로 하여 새로운 재료와 조리법을 검색 할 때 어떠한 분류로 예측될 수 있는지 알아보기 위하여 신경망 예측 분석을 실시하였다. 신경망 예측 분석 결과 76.34%로 비교적 높은 정확도를 기록하였고, 특히 음식 분류의 빈도가 높았던 병과류와 국·탕·찌개·찜 등 부식류 1이 높은 정확도를 보였으며, 외국음식은 가장 낮은 정확도를 보였다. 본 결과를 통하여 향후 조리서를 기반으로 하여 새로운 레시피를 발굴하는 기초자료로 활용하고자 한다. 본 논문은 근대 조리서에 수록된 방대한 양의 레시피를 빅데이터를 활용한 텍스트 마이닝 분석방법을 적용하여 객관적이고 체계적인 분석을 시도했다는데 의의가 있다. 본 연구를 통해 한식의 재료 사용 및 음식의 분류, 조리서의 연관성, 잠재 주제 분석 등 근대 조리서 전반에 관해 정량화 하였으며, 향후 다양한 연대별 조리서의 연구 및 국가 간 비교를 위한 기초자료로 활용하고자 한다. 전통적인 식생활 문화는 국가의 정체성을 대표하며, 세계 시장에서 경쟁력을 향상시킬 수 있는 중요한 가치를 지닌다. 세계적으로 한식이 주목을 받고 있는 만큼 우리 식생활 문화의 세계화를 위해서는 우리나라 음식 문화의 발전 과정에 대한 이해가 필요하고, 이에 대한 지속적인 연구와 노력이 뒷받침 되어야 할 것이다.;The purpose of this study is to use text mining, which is one of the big data analysis methods, to comprehensively analyze Korean modern cookbooks, a period in which Korean dietary life was changed, and to use them as basic data for discovering historical sources for understanding traditional Korean food prototypes. Korean food culture has traditionally formed a unique food culture under the influence of East Asian Oriental medicine knowledge, Buddhism and Confucianism in the temperate climate and geographical condition of the peninsula. From the 19th century onwards, through the period of enlightenment and modernity, the traditional lifestyle that had been maintained for a long time was radically changed through modern changes such as the acceptance of foreign cultures and the introduction of modern systems, and social changes such as the Japanese Colonial Era and liberation, and the Korean War. The modern period of Korea is an important period that connects the pre-modern and the present in the midst of turbulent changes, and in order to understand the process by which traditional Korean food is inherited and transformed into the modern food culture, research on the modern dietary culture is absolutely necessary. In this study, text mining analysis of modern cookbooks was conducted through big data technique using Python as a way to overcome the limitations of the existing cookbook research conducted through content analysis and to analyze a large amount of systematic and objective texts. This study examines 『Joseonyorijebeop (1921, 1934)』, 『Sagyeui joseonyori』, 『Urinara eumsik mandeuneun beop』, 『Joseonyoribeop』, 『Urieumsik』, 『Ijogungjeongyoritonggo』, 『Joseonmussangsinsigyorijebeop』, 『Joseonyorihak』, 『Joseoneumsik mandeuneun beop』 were analyzed. Data were collected by exhibition at the Korean Traditional Knowledge Portal by creating a web crawler. The collected data was cross-verified by 5 researchers to check whether data was missing, and a total of 4,482 recipes were used for the analysis. Prior to the full-scale analysis, texts, which are unstructured data, were standardized through pre-processing such as natural language processing, morpheme analysis, and removal of stopwords. To discover the characteristics and combinations of ingredients appearing in modern cookbooks, frequency analysis, correlation analysis through correlation matrix analysis, and trend analysis were performed. As a result of the frequency analysis of ingredients, seasoning and sub-ingredients were used more frequently than the main ingredients, so in order to increase accuracy, a separate dictionary is set up for seasoning and sub-ingredients, and other ingredients are judged as main ingredients and analyzed. did As a result of the frequency analysis, it was found that the ingredients used in the recipe were generally similar. Also, through frequency analysis and correlation analysis through the coincidence matrix, it was found that soy sauce, green onion, garlic, pepper, sesame salt, salt, sugar, sesame oil, etc. were the basic seasoning ingredients in Korean foods, and the frequency of use of beef and eggs was high. On the other hand, Western ingredients and recipes for foreign foods were rare. This trend was influenced by the active acceptance of Western food culture centered on the imperial family after the flowering period, and some new ingredients were introduced. In particular, this characteristic can be found in the books of Shin-Young Bang and Ja-Ho Jo, who had studied abroad in Japan. This is considered to show the conservative efforts to preserve traditional culture as intellectuals at the time when national sovereignty was seized from 1910 to 1945 during the Japanese occupation. In order to analyze the classification of food appearing in modern cookbooks, cluster analysis was performed through ingredients and cooking methods, and based on this, an analysis of the frequency of appearance by literature was conducted. A total of 74 food classifications were derived based on ingredients and cooking methods, and analysis was performed by assigning them to 18 middle categories. As a result of the hierarchical cluster analysis, it was confirmed that clusters were formed among those with similar ingredients and recipes. Based on this, as a result of the frequency analysis of the middle classification, it was found that the side dishes appeared the most in the recipe book, followed by soup, soup, and stew. It was found that corrosives corresponding to wet heat cooking methods such as steaming showed a high frequency. In order to analyze the classification of food appearing in modern cookbooks, cluster analysis was performed through ingredients and cooking methods, and based on this, an analysis of the frequency of appearance by literature was conducted. A total of 74 food classifications were derived based on ingredients and cooking methods, and analysis was performed by assigning them to 18 middle categories. As a result of the hierarchical clustering analysis, it was confirmed that clusters were formed among those with similar ingredients and recipes. Based on this, as a result of the frequency analysis of the middle classification, it was found that rice cakes appeared the most in the cookbook, followed by caustics corresponding to the wet heat cooking methods. The similarity of modern cookbooks by literature was analyzed through the entire contents of the cookbook, such as the use of ingredients, recipes, and food classification. As a result of the analysis, it was found that there was a very high correlation between the books of Bang Shin-young, 『Joseonyorijebeop(1921, 1934)』, 『Joseoneumsik mandeuneun beop』, and 『Urinara eumsik mandeuneun beop』. Also, 『Joseonyoribeop』 and 『Ijogungjeongyoritonggo』, ​​which were used to preserve the noble family’s food and royal family’s food, showed a generally high correlation, and 『JJoseonmussangsinsigyorijebeop』 and 『Joseonyorihak』 were confirmed as relatively identical clusters. This result is considered to be connected with the background and purpose of each recipe book. For an integrated understanding of modern cookbooks, LDA topic modeling was conducted based on ingredients and recipes. Topic modeling is an analysis method that statistically analyzes the frequency of words in a text to automatically extract potential topics that penetrate the entire text. As a result of topic modeling, six potential key words occupying an important place in the modern cookbook in Korea were derived, and they are topics that occupy an important place in Korean food culture. Finally, neural network prediction analysis was performed to find out what classification can be predicted when searching for new ingredients and recipes based on modern cookbooks. As a result of neural network prediction analysis, a relatively high accuracy was recorded at 76.34%. Through this result, it is intended to be used as a basic data for discovering new recipes based on the recipe book in the future. This paper is meaningful in that it attempted an objective and systematic analysis of the vast amount of recipes contained in modern cookbooks by applying the text mining analysis method using big data. Through this study, we have quantified the overall modern cookbook, such as the use of ingredients in Korean food, classification of food, correlation of recipes, and analysis of potential topics, and will use it as basic data for research on recipes by various ages and comparisons between countries in the future. The traditional dietary culture represents the national identity and has important values ​​that can enhance competitiveness in the global market. As Korean food is receiving attention around the world, for the globalization of our food culture, it is necessary to understand the development process of Korean food culture, and continuous research and efforts on this will need to be supported.
