View : 258 Download: 0

Full metadata record

DC Field Value Language
dc.description.abstractIn clinical trials, cancer diagnosis is generally confirmed by performing a tissue biopsy after several clinical assessments. To avoid the time and cost problems of this common cancer diagnostic method, machine learning techniques based on big data analysis can be used for noninvasive cancer diagnosis. We here develop such schemes and exploit and assess them for early cancer species screening. In this study, we consider two machine learning methods to classify 28 cancer species using Copy Number Variation (CNV) data collected from the Next Generation Base Sequence (NGS). Based on the large CNV data provided by the TCGA website, each sample of CNV values is matched by cytoband to predict a total of 28 cancer species at the same time. As learning methods, we use penalized logistic classification models with L1 penalty (Lasso) and random forest. We compare their predicted performance, sensitivity, and specificity. Furthermore, we investigate some potential risk factors for a cancer-specification technique by exploring major CNV factors for each cancer species.;임상에서 암 진단은 일반적으로 여러 가지 임상적 평가 후 조직 생검 (tissue biopsy)을 수행하여 확인하고 있다. 이와 같은 통상적인 암 진단 방법의 시간상, 비용상 문제점을 보완하기 위해 비침습적 암 진단을 위한 빅데이터 기반의 머신 러닝 기법들이 많이 개발되고 있다. 또한, 초기 암 종 스크리닝의 용도로 사용되고 있다. 본 연구에서는 차세대염기서열방법 (NGS) 에서 얻어지는 복제 수 변이 (Copy Number Variation: CNV) 자료를 이용하여, 28가지 암 종을 예측하는 머신 러닝 방법을 제안한다. TCGA 웹사이트로부터 제공받은 대용량 CNV 자료를 바탕으로 총 28가지의 암 종을 동시에 예측하기 위해, 각 샘플 별 CNV 값들을 cytoband로 매칭하여 예측 변수들을 구성한다. Lasso 및 Elastic net 등의 벌점화 모형과 랜덤 포레스트 방법을 이용하여 학습한 후 그 예측 성능 및 민감도, 특이도 등을 비교한다. 또한, 각 암 종 별 주요 CNV인자 발굴을 통해 암 종 예측 기법으로서의 가능성을 논한다.-
dc.description.tableofcontentsI. Introduction 1 II. Data Description 2 A. TCGA sample 2 B. TCGA barcode 3 C. Matching of Cytoband 4 D. Final data 5 III. Methodology 7 A. Logistic regression with Lasso penalty 7 B. Random forest 8 IV. Results 10 A. Classification of 5 cancer types 10 1. Logistic regression with Lasso penalty 10 2. Random forest 13 B. Classification of 28 cancer types 17 1. Logistic regression with Lasso penalty 17 2. Random forest 22 V. Conclusion 30 Bibliography 31 Abstract (in Korean) 32-
dc.format.extent2530046 bytes-
dc.publisher이화여자대학교 대학원-
dc.titleClassification of cancer types based on DNA copy number variation-
dc.typeMaster's Thesis-
dc.creator.othernameHong, Da Hye-
dc.format.pageiv, 32 p.-
dc.identifier.major대학원 통계학과- 2-
Appears in Collections:
일반대학원 > 통계학과 > Theses_Master
Files in This Item:
There are no files associated with this item.
RIS (EndNote)
XLS (Excel)


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.