View : 171 Download: 0

재난전조 감지를 위한 SNS 데이터의 위험도 분석 및 활용가능성 연구

Title
재난전조 감지를 위한 SNS 데이터의 위험도 분석 및 활용가능성 연구
Other Titles
A Study on the Risk Analysis & Applicability of SNS Data for Detecting Signs of Disaster
Authors
권회윤
Issue Date
2016
Department/Major
대학원 사회과교육학과
Publisher
이화여자대학교 대학원
Degree
Master
Advisors
강영옥
Abstract
As a result of various types of disasters occurring resulting from climate changes and societies that are becoming urbanized and complex across the world, it is becoming more and more difficult to predict disaster occurrences and their effects. Accordingly, detecting signs of disaster can play an important role in minimizing damages and preventing secondary damages through immediate response. Meanwhile, there is an increasing amount of unstructured data such as SNS data as a result of increasing SNS popularity, use of mobile devices and advancement of the internet network. Accordingly, efforts are actively being made in various academic areas on the analysis and use of high volumes of unstructured data. In the disaster management area in particular, SNS data have the characteristics of mobility, location-base and real-time with live qualitative information such as location information and disaster status. Accordingly, it can be used as a sensor that can be effectively utilized for disaster management. In addition, SNS data can be utilized also as premonitory signs showing the possibility of disaster occurrence since the amount of SNS data increases even before the occurrence of disaster. The purpose of this study is to differentiate the risk level of SNS data by analyzing it for swift and systematic disaster sign detections upon using SNS data, and verify its applicability as practical measures of detecting signs of disaster. The risk level of SNS data indicates the level of expression on disaster occurrence risk by tweets uploaded in real-time. In this study, tweet cases related to flooding will be analyzed. In terms of the basis of risk level estimation, they are ‘level of expression on risk in tweet contents’ and ‘flooding vulnerability in the location of tweet.’ The level of expression on risk in tweet contents is a quantified indicator of the level of possibility of disaster occurrence expressed in tweet texts. The flooding vulnerability in the location of tweet is a quantified indicator of the level of vulnerability of the locations at which tweets occurred. The reason for considering these two indicators as the basis of risk level estimation is because tweets simultaneously occurring in various regions will still have varying levels of disaster occurrence risk depending on the contents and locations where such tweets occurred. Main contents of the study are as follow. First, tweets containing signs of flooding are extracted. Second, tweets occurred within Seoul are extracted among flooding sign tweets by analyzing tweet texts using Seoul POI data. Third, literature research will be conducted to define the analysis method of the intensity of risk expression of tweet contents and the flooding vulnerability of locations where tweets occurred, the two indicators of risk level analysis. In addition, risk evaluation matrix suitable for this study will be defined to estimate and classify through differentiation the risk level combining the two indicators. Fourth, tweets analyzed earlier and their respective risk level rating will be visualized through time-series map, while also verifying the applicability of the tweet data with assigned risk level as signs of disaster. Results of this study are as follow. First, flooding sign tweets were extracted based on the glossary definitions related to disaster signs. First off, previous studies and tweets were reviewed to extract tweets on flooding to deduce flooding keywords. They were ten keywords, namely, ‘rain,’ ‘heavy rain,’ ‘torrential rain,’ ‘flood,’ ‘flooding,’ ‘overflow,’ ‘downpour,’ ‘submerge,’ ‘submerged, and ‘submer…’. In the total of 452,678 tweets that include at least one of the ten keywords were extracted including overlapping keywords. Next, glossary for exclusion terms was defined to extract flooding sign tweets among flooding related tweets. There were total of 54 exclusion terms in six categories, which are ‘political issue, social issue, inappropriate time range, news, RT, other. Tweets that included the exclusion terms were deleted. As a result, 270,492 flooding sign tweets were extracted. Second, tweet text analysis was conducted to extract tweets with location information. As for the location information as the extraction criteria, Seoul POI data was used. Tweets were deleted except for the case where POI existed in tweet text, namely, the case where the flooding related location mentioned in tweet can be distinguished. As a result, 7,090 flooding sign tweets with Seoul location information were extracted among 270,492 flooding sign tweets. Third, tweet risk level analysis indicators were defined to analyze the risk level of tweets. Based on the 7,090 tweet data established through the above process, the two analysis indicators of tweet risk level, which as risk expression intensity and flooding vulnerability of occurrence location, were deduced. In addition, final risk level rating was assigned based on the risk evaluation matrix defined for this study. As a result, 119 tweets fell into the category of Risk Level A(serious) rating. For B(alert) rating, C(caution) rating, D(interest) rating and E(observe) rating, respectively 119 tweets, 3,096 tweets, 2,082 tweets, 1,033 tweets and 820 tweets fell into their respective categories. It was found that B(alert) rating had the highest number of tweet, while A(serious) rating had the smallest number. Fourth, risk levels of tweets analyzed were visualized in map to verify their applicability as signs of disaster. For the purpose of ensuring as much similarity of visualization with real-time monitoring situation, time-series map was created based on the minimum time unit of 1 second based on the tweet occurrence time. Based on the flooding incident near Gangnam Station in the morning on July 27, 2011, their applicability was verified. The result showed that flooding related tweets started to be posted two hours prior to when the incident was reported for the first time in the media. Accordingly, it can be said that they are sufficiently applicable as means of detecting disaster signs. The percentage of data that fall into high risk level ratings increased close to the time when the disaster occurred, which can be also utilized to more effectively detect disaster signs. The significance of this study can be found in three aspects. First, it refined tweet data and analyzed text by defining glossary of terms in the midst of present condition with insufficient amount of studies related to SNS data text mining in the area of disaster signs. Second, it was able to utilize a greater volume of tweet data by applying a location information extraction method using POI information and tweet text analysis to overcoming the issue of insufficient amount of location information, which was numerously pointed out as a limitation of previous studies that utilized SNS data. Lastly, it sought to more systematically utilize SNS data by applying risk levels that also factored in past precipitation and region-specific social & natural indicators, along with tweet texts. It is anticipated that a more accurate and a greater volume of tweets can be utilized in the future by creating elaborate glossary of terms according to the Korean tweet characteristics and researching POI information. In addition, it is also anticipated that this study will be useful in allowing disaster signs detection activities to be performed swiftly at disaster management sites when a monitoring system through real-time analysis is established.;전세계적으로 빈번한 이상기후 현상의 발생과 사회의 도시화, 복잡화 등으로 인하여 재난의 발생과 그로 인한 영향을 예측하는 것이 매우 어려워지고 있다. 이에 재난의 전조를 감지하는 것은 신속한 대응을 통한 피해 최소화 및 2차 피해 방지에 중요한 역할을 할 수 있다. 한편, SNS의 인기와 모바일 기기의 보급, 인터넷 망의 발전 등으로 인해 SNS 데이터와 같은 비정형데이터의 생산이 급격하게 증가하고 있다, 이에 대량의 비정형데이터를 분석 및 활용하고자 하는 노력이 여러 연구 분야에서 활발하다. 특히 재난 관리 분야에 있어서 SNS 데이터는 위치정보, 재난상황 등 현장감 있는 정성적인 정보를 가지며 이동성, 위치기반, 실시간이라는 특성을 가지기 때문에 재난관리에 유용히 활용 가능한 하나의 센서 역할을 할 수 있다. 또한 SNS 데이터는 재난 발생 이전부터 발생량이 증가하기 때문에 재난 발생 가능성을 보여주는 전조신호로도 활용될 수 있다. 본 연구는 SNS 데이터를 활용한 신속하고 체계적인 재난전조 감지를 위하여 SNS 데이터의 위험도를 분석해 차등화하고, 이것이 실제로 재난전조 감지의 수단으로서 활용 가능한지를 검토해보는 것을 목적으로 하였다. 이 때 SNS 데이터의 위험도란 실시간으로 발생하는 트윗 각각이 얼마나 재난의 발생위험 정도를 표현하고 있는가를 나타내는 것으로, 본 연구에서는 침수 관련 트윗을 사례로 분석한다. 위험도의 산정 근거는 ‘트윗 내용의 위험표현강도’와 ‘트윗 발생위치의 침수취약성’의 두 가지이다. 트윗 내용의 위험표현강도는 트윗 텍스트가 표현하고 있는 재난 발생의 가능성 정도를 정량화한 지표이며, 트윗 발생위치의 침수취약성은 각 트윗이 발생한 지역이 원래 침수에 얼마나 취약한 지역인가를 정량화한 지표이다. 이 두 지표를 위험도 산정의 근거로 삼은 것은 트윗들이 동시다발적으로 여러 지역에 발생하더라도 각각의 트윗이 가지는 내용과 발생 위치에 따라 그것이 나타내는 재난 발생의 위험 정도에는 차이가 있을 것이기 때문이다. 이를 위한 세부적인 연구목적은 다음의 네 가지로 구분된다. 하나는 침수전조 용어사전의 구축을 통해 침수전조 정보를 가지는 트윗을 추출하는 것이다. 두 번째는 POI 정보를 이용한 트윗 텍스트 상의 위치정보 추출을 통해 서울시에서 발생한 침수전조 트윗을 추출하는 것이다. 세 번째는 서울시 침수전조 트윗에 대하여 트윗 내용의 위험표현강도와 트윗 발생위치의 침수취약성을 분석하고 최종적으로 트윗별 위험도를 산정하는 것이다. 마지막으로 네 번째는 위에서 산정된 트윗별 위험도를 지도로 시각화하고 재난전조 감지 수단으로서의 활용가능성을 검토하는 것이다. 연구 결과는 다음과 같이 요약된다. 첫째, 재난전조 관련 용어사전 정의를 통해 침수전조 트윗을 추출하였다. 먼저 침수 관련 트윗을 추출하기 위해 선행연구 및 트윗 검토를 거쳐 침수 키워드를 도출하였다. 침수 키워드는 ‘비, 폭우, 호우, 홍수, 침수, 범람, 물폭탄, 잠겨, 잠겼, 잠기’의 10개였으며, 이 키워드 중 한 개 이상을 포함하는 트윗은 키워드 간의 중복을 포함하여 총 452,678개가 추출되었다. 다음으로 이 침수 관련 트윗 중 재난전조 정보를 담고 있는 침수전조 트윗만을 남기기 위하여 제외용어 사전을 정의하였다. 제외용어는 ‘정치적 이슈, 사회적 이슈, 부적합한 시간 범위, 뉴스, RT, 기타’ 6개 카테고리의 총 54개로, 제외용어를 텍스트에 포함하고 있는 트윗을 삭제하였다. 그 결과, 270,492개의 침수전조 트윗이 추출되었다. 둘째, 트윗 텍스트 분석을 통해 위치정보를 가지는 트윗을 추출하였다. 추출의 기준이 되는 위치정보는 서울시 POI 정보를 이용하였으며, 트윗 텍스트에 POI가 존재하는 경우 즉, 트윗에서 언급하는 침수 관련 위치가 어디인지 알 수 있는 경우만 남기고 나머지는 삭제하였다. 그 결과, 침수전조 트윗 270,492개 중에서 서울시 위치정보를 가지는 침수전조 트윗이 총 7,090개 추출되었다. 셋째, 트윗 위험도의 분석 지표를 정의하고 트윗의 위험도를 분석하였다. 먼저 위 과정에서 구축된 7,090개의 트윗 데이터를 대상으로 트윗 위험도의 두 분석 지표인 위험표현강도와 발생위치의 침수취약성을 도출하였다. 그리고 본 연구에 맞게 정의한 위험평가 매트릭스를 통해 합산하여 최종적인 위험도 등급을 부여하였다. 그 결과, 위험도 A(심각)등급에는 119개, B(경계)등급에는 3,096개, C(주의)등급에는 2,082개, D(관심)등급에는 1,033개, E(관망)등급에는 820개의 트윗이 해당되어 B(경계)등급에 해당하는 경우가 가장 많고 A(심각)등급에 해당하는 경우가 가장 적은 것으로 나타났다. 넷째, 분석한 트윗의 위험도를 지도로 시각화하고 재난전조 정보로서의 활용가능성을 검토하였다. 먼저 시각화는 최대한 실시간 모니터링 상황과 유사하도록 하기 위해 트윗의 발생시간을 기준으로 최소 시간 단위인 1초 단위의 시계열적인 지도를 만들었다. 그리고 2011년 7월 27일 오전의 강남역 부근 침수 사건을 사례로 한 활용가능성 검토 결과, SNS에는 최초 언론보도 시간보다 2시간 이상 앞서 침수 관련 트윗이 올라오기 시작하여 재난전조 감지의 수단으로서 충분히 활용가능성을 가진다고 할 수 있었다. 특히 재난 발생이 임박할수록 높은 위험도 등급에 해당하는 데이터의 비율이 높아 이를 함께 모니터링 한다면 더 효과적인 재난전조 감지가 가능할 것으로 판단되었다. 본 연구는 세 가지 측면에서 의의를 가진다. 먼저, 재난전조 분야의 SNS 데이터 텍스트 마이닝을 위해 기존 연구에서 매우 부족한 상태인 용어 사전을 정의하여 트윗 데이터를 정제하고 텍스트를 분석하였다는 점이다. 두 번째는 기존의 SNS 데이터 활용 연구에서 수차례 한계점으로 지적되었던 위치정보 부족 문제를 극복하고자 POI 데이터를 이용해 트윗의 텍스트로부터 위치정보를 추출하여 보다 많은 양의 트윗 데이터를 연구에 활용할 수 있었다는 것이다. 마지막으로 기존의 재난전조 관련 연구에서 트윗 텍스트의 강도를 분석한 사례는 있었으나 본 연구에서는 트윗 텍스트의 강도와 함께 과거의 강수량 및 지역별 사회적, 자연적 지표 등을 함께 고려한 위험도 산정을 통해 보다 정교하고 체계적인 SNS 데이터의 활용을 도모하였다는 데 의의가 있다. 따라서 향후 한국의 트윗 특성에 맞는 정교한 용어사전과 POI 정보가 연구된다면 더 정확하고 많은 양의 트윗을 활용할 수 있을 것이다. 또한 실시간 분석을 통한 모니터링 시스템이 구축된다면 본 연구가 실제 재난관리 현장에서 신속한 재난전조 감지 활동에 기여할 수 있을 것으로 기대된다.
Fulltext
Show the fulltext
Appears in Collections:
일반대학원 > 사회과교육학과 > Theses_Master
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE