View : 39 Download: 0

Country-Based SARS-CoV-2 Genome Sequence Classification and Its Relationship with International Travel Policy

Title
Country-Based SARS-CoV-2 Genome Sequence Classification and Its Relationship with International Travel Policy
Authors
Elis, Khatizah
Issue Date
2024
Department/Major
대학원 인공지능·소프트웨어학부
Keywords
SARS-CoV-2, COVID-19 genome, DNA Sequence Classification, Deep Learning, Travel Policy
Publisher
이화여자대학교 대학원
Degree
Doctor
Advisors
박현석
Abstract
As viruses evolve rapidly, variations in their genome may arise due to environmental factors. During the global COVID-19 pandemic, a lot of extensive work has been conducted on the SARS-CoV-2 genome sequence classification, primarily to differentiate the sequence from those of other viruses causing diseases with similar symptoms. However, there is currently no literature that explicitly classifies genome sequences based on geographical areas affected by the virus. The diverse structure of the virus genome among countries is a critical aspect that requires investigation, especially for understanding vaccine development. This classification also provides a preliminary insight into how the virus behaves in different places under different rules. In this thesis, utilizing a dataset comprising DNA sequences of the SARS-CoV-2 genome, we examine the sequence classification based on their country of origin and investigate their correlation with the country’s international travel policy. The correlation offers valuable insights into the effectiveness of public health measures in controlling the spread of infectious diseases. Focusing on DNA sequences from nine Association of Southeast Asian Nations (ASEAN) countries, we conducted a binary classification to distinguish sequences from individual countries and mixed sequences from others. The sequences were initially dissected into 200 base pair units, and a deep-learning method was employed to construct a model. We used three different models: Multilayer Perceptron (MLP), which is a general neural network model; Convolutional Neural Network (CNN), typically used for image data but also capable of handling sequence data; and Bidirectional Long Short-Term Memory (BiLSTM), designed specifically for sequence data such as DNA sequences. The performance of these diverse models allowed for a comprehensive analysis of the DNA sequences, considering both their spatial and temporal characteristics. In addition, the combination of CNN and BiLSTM was implemented to leverage the strengths of both models, with the aim of achieving better performance. Our results showcase the capacity to differentiate DNA sequences with varying Area Under Curve (AUC) values for each country. The AUC was used to measure and compare the model's performance. Our CNN model architecture outperformed other models, achieving higher AUC values while maintaining comparable execution times. For additional observation of countries with lower AUC values, we applied pairwise alignment to manually extract only the relatively distinct parts of the sequences. This approach was able to improve the model performance by selecting an appropriate threshold. Furthermore, incorporating alignment in the data preprocessing step is a considerable option for handling binary classification when each class contains a lot of similar sequence patterns, particularly when dealing with the same virus genome classification, which genetically has almost identical DNA sequences. Regarding the international travel policy, which reflects how countries implemented varying levels of restrictions regarding inbound travel several months before the sequence collection date, there was a moderate correlation between the policy index and the AUC value of sequence classification within some countries. This means the fluctuation of policy index per month correlates with the monthly DNA sequence patterns in terms of how well they are distinguished from other countries’ sequences. On the other hand, with limited data, our results indicate that the classification result among ASEAN countries does not seem to have a positive correlation with the policy index. By involving more countries, it is confirmed that the classification result has no statistically significant correlation with the international travel policy index. This study provides preliminary insights into the connection between a country’s pandemic management strategy and the genetic variation in the virus genome sequences. It investigates whether these sequences evolve distinctly from those of other countries or exhibit similarities. Although a more scientific approach and detailed debate are needed to determine the level to which COVID-19 has been influenced by policies in different countries, this study has presents significantly meaningful results based on the given evidence.;바이러스는 빠르게 진화하기 때문에 환경적 요인에 의해 그들의 게놈에 변이가 발생할 수 있습니다. 전 세계적인 COVID-19 대유행 동안, SARS-CoV-2 게놈 서열 분류에 대한 많은 광범위한 연구가 주로 유사한 증상을 일으키는 다른 바이러스들과의 서열을 구별하기 위해 수행되었습니다. 그러나 현재 바이러스에 의해 영향을 받은 지리적 영역을 기반으로 게놈 서열을 명확히 분류한 문헌은 없습니다. 국가 간의 바이러스 게놈의 다양한 구조는 백신 개발을 이해하는 데 특히 중요한 측면으로 조사할 필요가 있습니다. 이러한 분류는 또한 바이러스가 다른 규칙 하에서 다른 장소에서 어떻게 행동하는지에 대한 초기 통찰력을 제공합니다. 이 논문에서는 SARS-CoV-2 게놈의 DNA 서열로 구성된 데이터셋을 활용하여 국가별 서열 분류를 검토하고, 해당 국가의 국제 여행 정책과의 상관관계를 조사합니다. 이러한 상관관계는 전염병 확산을 통제하는 데 있어 공중 보건 조치의 효과에 대한 귀중한 통찰력을 제공합니다. 동남아시아국가연합(ASEAN)의 9 개국에서 수집된 DNA 서열에 집중하여, 개별 국가의 서열과 다른 국가들의 혼합 서열을 구분하기 위한 이진 분류를 수행했습니다. 서열은 처음에 200 염기쌍 단위로 분해되었으며, 심층 학습 방법을 사용하여 모델을 구축했습니다. 우리는 세 가지 다른 모델을 사용했습니다: 일반적인 신경망 모델인 다층 퍼셉트론(MLP), 주로 이미지 데이터에 사용되지만 서열 데이터도 처리할 수 있는 합성곱 신경망(CNN), 그리고 DNA 서열과 같은 서열 데이터를 위해 설계된 양방향 장단기 기억(BiLSTM)입니다. 이러한 다양한 모델의 성능을 통해 서열의 공간적 및 시간적 특성을 고려한 DNA 서열에 대한 종합적인 분석이 가능했습니다. 또한, 더 나은 성능을 목표로 CNN 과 BiLSTM 의 강점을 결합한 모델도 구현했습니다. 결과는 각 국가별로 다양한 곡선 아래 면적(AUC) 값을 통해 DNA 서열을 구분할 수 있는 능력을 보여줍니다. AUC 는 모델의 성능을 측정하고 비교하는 데 사용되었습니다. 우리 CNN 모델 아키텍처는 다른 모델보다 뛰어난 성능을 발휘하여 더 높은 AUC 값을 달성하면서도 유사한 실행 시간을 유지했습니다. AUC 값이 낮은 국가를 추가로 관찰하기 위해, 우리는 쌍별 정렬을 적용하여 상대적으로 뚜렷한 부분만 수동으로 추출했습니다. 이 접근 방식은 적절한 임계값을 선택하여 모델 성능을 향상시킬 수 있었습니다. 또한, 데이터 전처리 단계에서 정렬을 포함시키는 것은 각 클래스가 많은 유사한 서열 패턴을 포함하는 이진 분류를 처리할 때, 특히 유전자적으로 거의 동일한 DNA 서열을 가진 동일한 바이러스 게놈 분류를 다룰 때 고려할 만한 옵션입니다. 국제 여행 정책과 관련하여, 이는 서열 수집 날짜 몇 개월 전부터 입국 여행에 대한 다양한수준의제한을시행한방식을반영한것인데,일부국가내에서정책지수와서열 분류의 AUC 값 사이에 중간 정도의 상관관계가 있었습니다. 이는 월별 정책 지수의 변동이 월별 DNA 서열 패턴과 상관관계가 있으며, 다른 국가의 서열과 얼마나 잘 구분되는지를 의미합니다. 반면, 제한된 데이터로 우리의 결과는 ASEAN 국가들 사이의 분류 결과가 정책 지수와 긍정적인 상관관계를 가지지 않는 것으로 나타났습니다. 더 많은 국가를 포함시키면, 분류 결과가 국제 여행 정책 지수와 통계적으로 유의미한 상관관계를 가지지 않는다는 것이 확인되었습니다. 이연구는국가의팬데믹관리전략과바이러스게놈서열의유전적변이간의연결에 대한 초기 통찰을 제공합니다. 이 연구는 이러한 서열이 다른 국가의 서열과 다르게 진화하는지 또는 유사성을 보이는지를 조사합니다. COVID-19 가 각국의 정책에 의해 어느 정도 영향을 받았는지를 결정하기 위해서는 보다 과학적인 접근과 상세한 논의가 필요하지만, 이 연구는 주어진 증거를 바탕으로 상당히 의미 있는 결과를 제시합니다.
Fulltext
Show the fulltext
Appears in Collections:
ETC > ETC
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

BROWSE