View : 59 Download: 0

MaxEnt 분석에서의 단기 및 장기 수집 출현 좌표 적용에 따른 결과 비교

Title
MaxEnt 분석에서의 단기 및 장기 수집 출현 좌표 적용에 따른 결과 비교
Other Titles
Comparing Results of Applying Short-Term and Long-Term Collection Presence Points in MaxEnt Analysis: Based on Mammal Occurrence Data of the National Natural Environment Survey
Authors
구슬기
Issue Date
2024
Department/Major
대학원 환경공학과
Keywords
MaxEnt, 전국자연환경조사, 종출현좌표
Publisher
이화여자대학교 대학원
Degree
Master
Advisors
이상돈
Abstract
현존하는 종의 서식지를 파악하는 것은 종 보전의 시작이라 할 수 있다. 대규모 공간 자료의 보급화, GIS, 통계 소프트웨어, 영상기술, 컴퓨터 성능 향상으로 종 분포 모델의 활용도가 높아졌다. 그 중 MaEnt는 출현 지점과 환경변수만으로 상대적인 서식 적합도를 분석할 수 있으며, 그 정확도가 높은 것으로 평가된 바 있어 종의 관리, 재도입 지역 선정, 미래 분포 예측, 조사 자료가 부족한 지역에 대한 정보 격차 완화 등 생물의 보전을 위한 의사결정 지원 전략으로서 널리 활용되고 있다. 이러한 MaxEnt는 종의 출현 지점과 환경자료의 시점이 일치하여 종이 나타난 시점의 환경을 대표한다는 것을 전제로 한다. 하지만 관찰 가능성이 낮은 종의 경우 장기간 축적한 표본을 사용함으로써 이와 같은 조건이 무시되곤 한다. 많은 수의 종 출현 좌표를 사용할수록 모델의 성능과 신뢰성이 향상됨은 잘 알려져 있는 사실이다. 그러나 단순히 오랜 기간 누적된 자료를 사용할 경우 종의 출현을 확인한 시점과 분석에 사용되는 환경자료가 생성된 시점이 서로 달라 분석 결과에 오류가 발생할 수 있다. 이처럼 오랜 기간 누적된 종 출현 좌표를 사용함으로써 환경자료와의 시기가 일치하지 않게 될 때 발생하는 문제에 관한 연구는 미비한 상태이며, 전국자연환경조사 자료를 통해 장기간 누적된 자료의 활용 가능성을 검토하고자 한다. 본 연구에서는 MaxEnt 분석에서 장기간 누적된 종 출현 좌표의 사용이 모델의 성능에 어떤 영향을 미치는지 확인하고자 단일 시기에 수집된 환경변수 및 종 출현 좌표를 사용한 경우(SS), 단일 시기 환경변수와 여러 시기(장기간)에 걸쳐 수집된 종 출현 좌표를 사용한 경우(SM), 그리고 여러 시기에 수집된 환경변수 및 종 출현 좌표를 사용한 경우(MM)의 세 가지 방법으로 고라니(Hydropotes inermis), 너구리(Nyctereutes procyonoides), 노루(Capreolus pygargus), 다람쥐(Eutamias sibiricus), 담비(Martes flavigula), 멧돼지(Sus scrofa), 멧토끼(Lepus coreanus), 삵(Prionailurus bengalensis), 수달(Lutra lutra), 오소리(Meles leucurus), 청설모(Sciurus vulgaris) 총 11종에 대한 종 분포 모델을 생성하였다. 그리고 제5차 전국자연환경조사에서 수집된 좌표를 이용해 모델 검증을 실시한 뒤 각 모델에 대한 Training AUC(Area Under the ROC Curve), test AUC, training AUC와 test AUC의 차이, Continuous Boyce Index(CBI)를 비교하였다. 그 결과 몇 가지 경향성을 확인할 수 있었다. 1) 다양한 환경에서 서식하는 종(멧돼지, 고라니, 삵, 너구리)에서 AUC가 낮게 평가되는 경향이 있었다. 2) 제2차 전국자연환경조사의 종 출현 좌표와 조사 시기 내 구축된 환경 자료를 사용한 경우 극단적인 CBI, 유의하게 낮은 test AUC와 유의하게 높은 training AUC-test AUC 값이 도출되는 등 모델의 성능이 낮아짐을 확인하였다(Friedman test, Wilcoxon signed-rank test, p<0.05). 3) 다시기(장기간 누적) 좌표를 사용할 때 한 시기(차수별) 좌표를 사용하는 경우보다 유의하게 높은 test AUC와 유의하게 낮은 training AUC-test AUC를 나타냈다(Friedman test, Wilcoxon signed-rank test, p<0.05). 4) SM 모델과 MM 모델 사이 유의한 차이는 확인되지 않았으며, 따라서 23년 수준의 좌표 중첩은 모델의 정확도에 영향을 미치지 않는 것으로 판단된다. 5) 마지막으로 모든 모델의 분석 결과의 평균 training AUC는 0.84, 평균 test AUC는 0.69로 유의한 차이를 나타내며(Wilcoxon signed-rank test, p<0.05) 공공데이터 사용 시 모델 과적합에 유의해야 함을 시사하였다. 위와 같은 결과에 따라 종의 분포 예측에 있어 특정 시기의 소수 자료만을 사용하는 것보다 장기간 누적된 자료의 활용함으로써 충분한 양의 자료를 확보하는 것이 유리할 것으로 판단된다. 다만 2차 전국자연환경조사 자료를 사용한 모델에서 산림 위주의 조사로 인한 표본 수집 편향으로 모델이 과적합 되는 경향을 보인 바 있으므로 자료의 특성을 고려한 선택과 전처리가 중요할 것으로 사료된다. 본 연구에서는 종 분포 모델링에서 쉽게 간과되는 종 출현 자료와 환경 자료 사이 시간적 불일치 문제를 다루었다. 연구의 결과는 기존에 축적된 종 출현 자료 및 향후 수집될 자료가 시간이 지난 후에도 유용하게 활용될 수 있음을 뒷받침하는 실증적 근거로서 의미가 있다.;Identifying the habitat of an existing species is the beginning of species conservation. With the spread of large-scale spatial data, GIS, statistical software, imagery technology, and improved computer performance, the use of species distribution models has increased. Among them, MaEnt is widely used in Korea because it can analyze relative habitat suitability using only presence points and environmental variables. MaxEnt requires a temporal match between species emergence points and environmental data. However, for species with low observation probability, this condition is often ignored by using long-term accumulated samples. This can lead to incorrect analysis results. The purpose of this study was to determine the effect of using long-term accumulated species presence points in MaxEnt analyses on model performance. For this purpose, we generated species distribution models for 11 mammal species using three methods: using environmental variables and species presence points collected at a single time (SS), using environmental variables at a single time and species presence points collected over multiple periods (SM), and using environmental variables and species presence points collected at multiple periods (MM). Then, I validated the models using points collected from the 5th National Natural Environment Survey and compared the training AUC (Area Under the ROC Curve), test AUC, the difference between training AUC and test AUC, and Continuous Boyce Index (CBI) for each model. The results showed that AUCs tended to be lower for species that inhabit various environments (wild boar, Chinese water deer, leopard cat, and raccoon dog). In addition, the use of species occurrence points from the 2nd National Natural Environment Survey and environmental data constructed during the survey period resulted in poorer model performance, including extreme CBIs, significantly lower test AUCs, and significantly higher training AUC-test AUC values, suggesting that selection and pre-processing considering the characteristics of the data may be necessary. However, considering that the test AUC was significantly higher and the training AUC-test AUC was significantly lower when using multi-period (long-term cumulative) coordinates than when using single-period (order) coordinates, it seems that it is advantageous to secure a sufficient amount of data by utilizing long-term cumulative data rather than using only a few data from a specific period. On the other hand, no significant difference was found between the SM and MM models, suggesting that the coordinate overlap of about 20 years does not affect the accuracy of the models. Finally, the average training AUC of all the models was 0.84, and the average test AUC was 0.69, indicating a significant difference, suggesting that model overfitting should be cautioned when using public data. This study addressed the temporal mismatch between species occurrence data and environmental data, which is often overlooked in species distribution modeling. The results of this study provide empirical support for the usefulness of existing and future data on species occurrence over time.
Fulltext
Show the fulltext
Appears in Collections:
일반대학원 > 환경공학과 > Theses_Master
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

BROWSE