View : 297 Download: 0

Prediction of drug effects based on graph convolution network models

Title
Prediction of drug effects based on graph convolution network models
Authors
한지연
Issue Date
2024
Department/Major
대학원 바이오정보학협동과정
Publisher
이화여자대학교 대학원
Degree
Doctor
Advisors
이상혁
Abstract
Computational approaches play important roles in all stages of drug development. However, predicting drug effects is still extremely difficult due to several reasons such as i) target genes are unclear for many traditional drugs, ii) off-target bindings are frequently observed, iii) many target genes are connected to complex biological networks that could lead to unexpected side effects, and so on. Nevertheless, advances in computational methods and pharmacogenomic technologies have made it possible to predict the drug effects reliably enough to be useful in pharmacological industry. Biological networks that encompass protein-protein interactions, drug-target bindings, drug-disease associations, and gene regulations by proteins, have been the popular subject to be mined to identify novel drug targets as well as drug-disease associations. Recent introduction of deep learning methods has brought revolutionary changes in computational drug discovery. Another key aspect is the rapid expansion of pharmacogenomic data which could be mined with state-of-the-art machine learning methods. Thus, the computational predictive modeling based on machine learning algorithms has emerged as the mainstream of forecasting drug effects. Diverse data modalities, including chemical structure, target gene/protein properties, and drug-target interactions, and experimental parameters (in vitro, in vivo, clinical), have been actively explored to infer novel drug targets, efficacies, and side effects. This thesis focuses on predicting two types of drug effects, namely the drug synergy and toxicity, utilizing various deep learning algorithms and feature materials such as chemical structure, genetic interactions, and pharmacogenomic data. The first part scrutinizes the synergistic effect of drug combinations, a concept gaining prominence due to the protracted drug development timelines. Since testing efficacies of all conceivable drug pairs practically impossible due to time and budget limits, computational methods are attaining their significance by presenting promising candidates with enhanced accuracy. Moreover, given the variability of drug effects according to cell and tissue types, contextualizing the synergistic effects at the cellular level is critical. This study introduces a composite deep-learning-based model, Drug Synergy Prediction by Integrated GCN (DRSPRING), which forecasts drug synergy effects leveraging pharmacogenomic profiles and molecular properties. The primary algorithm employed is the graph convolutional network (GCN), which is proficient at effectively representing the chemical structure as well as the genetic networks as graphs, i.e. the collection of nodes and edges. The key aspect is to overcome the data scarcity problem since the pharmacogenomic profiles of the LINCS project cover only limited portion of chemical space. This study augments the drug-induced gene expression data with the predicted profiles. Thus, DRSPRING consist of two computational modules – Module 1 (M1) predicting the drug-induced gene expression profiles and module 2 (M2) predicting the drug synergy scores, both adopting GCN-based deep modeling methods. The Loewe scores from the DrugComb database were trained as the synergy effect of drug pairs. Importantly, DRSPRING can be applied to any drug pairs and cell lines as long as the basal gene expression data is available. Practical applicability and reliability of DRSPRING have been demonstrated by exploring combinations of NCI-approved cancer drugs in breast and lung cancer. The second part focuses on drug-induced liver toxicity as a representative of adverse drug effects. Liver toxicity is one of the most common reasons of failure in drug development because liver is the primary organ for detoxification in drug metabolism. Despite its importance in drug development, accurate prediction of liver toxicity is hampered due to i) liver toxicity information being scattered in many resources, ii) no standards of curation to describe liver toxicity, and iii) different levels of experimental data and annotations, namely cell assays, in vivo toxicity in animal models, and clinical findings in humans. Diverse molecular mechanisms of liver toxicity contribute to the difficulties in prediction. In this study, hepato-toxicity information is aggregated from nine related databases and systematically categorized into three classes of in vitro, in vivo, and clinical based on experimental setting. The MedDRA terms are used for standardized annotation. Subsequently, a GCN-based prediction model is developed to predict the hepatotoxicity for novel drugs, utilizing the compiled knowledgebase as the training data. Then a hepato-toxicity database (HTP-DB) was constructed to provide the prediction score as well as the curated information. HTP-DB consists of two integral components: the hepatotoxicity reference knowledge base (HTP-KB) and the liver toxicity prediction module (HTP-Pred). Facilitated through a user-friendly web interface, HTP-DB offers a comprehensive information on drug-induced hepatotoxicity, which should be valuable for drug development. In summary, this thesis navigates the complexities of drug effects, specifically investigating drug pair synergies and side effects. Both chapters utilize predictive models based on GCN, with consideration for the contextual nuances of biological networks, thereby propelling the convergence of cheminformatics and bioinformatics.;약물 개발의 모든 단계에서 컴퓨터를 이용한 분석은 중요한 역할을 한다. 그러나 i) 시판되는 약물의 표적이 되는 유전자가 불분명하거나, ii) 표적 외의 대상과 약물 상호 작용이 관찰되거나, iii) 약물 표적 유전자가 복잡한 생물학적 네트워크에 연결되는 등, 예상치 못한 부작용을 초래할 수 있는 여러 가지 이유로 인해 약물 효과를 정확히 예측하는 것은 여전히 매우 어려운 실정이다. 그럼에도 불구하고 다양한 계산 방법의 발전과 약리유전체 데이터의 사용은 약리 산업에서 좀 더 안정적으로 약물 효과를 예측할 수 있도록 도왔다. 특히 단백질과 단백질 간의 상호 작용, 약물-표적 결합, 약물-질병 연관성 및 단백질에 의한 유전자 조절 등을 포함하는 생물학적 네트워크를 활용하는 것은 직접적인 약물과 질병의 연관성을 규명하는 것뿐만 아니라 새로운 약물 표적을 제시하는 과제에서도 주목받고 있다. 또한, 최근 딥러닝 방법의 도입은 계산 모델을 통한 약물 개발에 혁명적인 변화를 가져왔으며, 그 과정에 약리유전체 데이터의 급속한 확장 또한 훈련 데이터로서 도움을 주었다. 따라서, 기계 학습 알고리즘을 기반으로 한 계산 예측 모델링이 약물 효과 예측의 주류로 부상하였다. 더 나아가 새로운 약물 표적, 효능 및 부작용을 추론하기 위해 화학 구조, 표적 유전자/단백질 특성 및 약물-표적 상호 작용을 포함한 다양한 데이터 종류와 실험 환경 (시험관 내, 생체 내, 임상) 정보가 활용되고 있다. 본 논문은 다양한 딥러닝 알고리즘과 화학 구조, 유전자 상호 작용 및 약리유전체 자료와 같은 생물-화학적인 데이터를 활용하여 약물 시너지 와 독성이라는 두 가지 유형의 약물 효과를 예측하는 데 중점을 둔다. 첫 번째 챕터에서는 약물 개발 일정이 길어지면서 주목받는 개념인 약물 조합의 시너지 효과를 예측한다. 실험적으로 모든 가능한 약물 쌍에 대해 시너지 실험을 수행하는 것은 물적-시간적 자원 측면에서 비현실적이며, 이를 대신하기 위한 계산 모델을 통해 정확도 높은 유망한 후보를 제시하는 방법이 대두되고 있다. 또한 세포/조직 별로 기저에 있는 생물학적 네트워크의 다양성을 고려하여 세포 수준에서의 약물 시너지 효과를 예측하는 것이 중요하다. 본 연구에서는 약물 유전체 프로파일과 약물 구조를 활용하여 시너지 효과를 예측하는 DRSPRING(Drug Synergy Prediction by Integrated GCN)을 소개한다. 사용되는 주요 알고리즘은 그래프 컨볼루션 네트워크 (GCN)로, 약물 구조와 유전자 네트워크를 효과적으로 표현한다는 장점이 있다. 또한, 이 과정에서 LINCS 프로젝트에서 제공하는 약물 유전체 프로파일의 데이터 부족을 해결하기 위해, 추가적인 약물 유래 유전자 발현 값을 생산하여 데이터를 증강하고, DRSPRING의 훈련을 용이하게 하였다. 따라서 DRSPRING은 약물 유래 유전자 발현 프로파일을 예측하는 모듈 1(M1)과 약물 시너지 점수를 예측하는 모듈 2(M2)의 두 가지 계산 모듈로 구성되며, 둘 다 GCN 알고리즘을 활용하였다. 또한, 훈련 데이터는 DrugComb 데이터베이스의 Loewe 점수를 사용하였다. DRSPING은 기본 유전자 발현 데이터가 존재하는 모든 약물 쌍과 세포주에 적용될 수 있으며, 유방암과 폐암에서 NCI 승인 암 약물의 조합을 탐색함으로써 실제 적용 가능성과 신뢰성을 입증하였다. 두 번째 장에서는 약물 부작용의 대표적인 예로서 약물 유발 간 독성에 초점을 맞춘다. 간은 약물 대사에서 해독을 위한 주요 기관이며, 간 독성은 약물 개발 단계를 좌우하는 중요한 문제이자 관문이다. 이러한 중요성에도 불구하고, i) 간 독성 정보가 다양한 곳에 흩어져 있고, ii) 간 독성을 설명하기 위한 큐레이션 표준이 마련되어 있지 않으며, iii) 세포 분석, 동물 모델, 임상데이터 등 다양한 수준의 실험 데이터에 대한 각기 다른 결과 해석으로 인해 간 독성에 대한 정확한 예측은 어려운 실정이다. 더 나아가 간 독성의 다양한 분자 메커니즘도 예측의 어려움에 기여하는 요인이다. 본 연구에서는 간 독성 정보를 9개의 관련 데이터베이스에서 수집하고 실험 환경 설정에 따라 시험관 내, 생체 내, 임상의 세 가지 클래스로 체계적으로 분류하였다. 또한 MedDRA 용어를 표준화된 주석으로 사용하였다. 그 다음으로, 축적된 데이터를 훈련 데이터로 학습하고, 새로운 약물에 대한 간독성을 예측할 수 있는 GCN 기반 예측 모델을 개발하였다. 큐레이션된 정보와 개발된 예측 모델을 다양한 사용자들에게 효율적으로 제공하기 위해 간독성 데이터베이스 (HTP-DB)를 구축하였으며, HTP-DB는 간독성 지식베이스 (HTP-KB)와 간 독성 예측 모듈 (HTP-Pred)의 두 가지 요소로 구성되어 있다. 사용자 친화적인 웹 인터페이스를 가진 HTP-DB 웹서버는 약물 유발 간독성에 대한 포괄적인 정보를 제공하며, 이는 약물 개발에 기여할 것으로 기대한다. 본 논문은 이와 같이 약물 효과의 복잡성을 탐색하고, 병용 약물 시너지 효과와 약물 부작용을 연구하였다. 두 장 모두 세포주/실험 대상 별 생물학적 네트워크의 맥락을 고려하였고, 이 과정에서 화합물 구조 및 생물학적 네트워크 구조의 효율적인 활용을 위해 GCN 기반 예측 모델을 적극 활용하였으며, 그 효과를 검증하였다.
Fulltext
Show the fulltext
Appears in Collections:
일반대학원 > 바이오정보학협동과정 > Theses_Ph.D
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

BROWSE