View : 273 Download: 0

이진자료 주성분분석을 이용한 유전체 복제수 변이 분석

이진자료 주성분분석을 이용한 유전체 복제수 변이 분석
Other Titles
Analysis of genetic copy number variation using binary data principal component analysis
Issue Date
대학원 통계학과
이화여자대학교 대학원
This paper introduces Principal Component Analysis, a dimensional reduction technique for Principal component analysis is a method of reducing high-dimensional data to low-dimensional without loss of information. However, it is difficult to apply binary data consisting only of 0 and 1 in general principal component analysis. In this paper, we review the Logistic Principal Component Analysis methodology, which extends the concept of principal component analysis to binary data analysis. The analysis was performed using the copy number variation (CNV) data of the TCGA. The CNV data are summarized by each carcinoma and it is used for cancer prediction by checking how well the principal components are clustered. And compare the performance with the existing standard principal component analysis and when applying principal component analysis to diseases of male urinary cancer, make sure that the patient group is well distinguished by principal component.;주성분분석(Principal Component Analysis; PCA)은 변수 간의 상관관계가 있는 고차원 자료의 정보손실을 최소화하여 저차원으로 축소시키는 방법이다. 하지만 일반적인 주성분분석은 연속형 자료에만 적용 가능하다는 한계점이 있다. 본 논문에서는 주성분분석의 개념을 이진자료(binary data) 분석으로 확장시킨 로지스틱 주성분분석(Logistic Principal Component Analysis; LPCA) 방법론을 리뷰하고, 실제 TCGA의 복제수 변이(copy number variation; CNV) 자료를 이용하여 실증분석을 진행하였다. 각 암 종류별 복제수 변이 자료가 어떻게 차원요약이 되는지, 해당 주성분이 얼마나 잘 군집하는지 확인하여 암 종 예측에 활용해본다. 나아가 기존의 일반 주성분분석 방법론과 성능을 비교해보고 남성 비뇨기암에 해당되는 질병들에 대해 주성분분석을 적용했을 때, 주성분에 의해 환자들의 집단이 잘 구별되는지 확인한다.
Show the fulltext
Appears in Collections:
일반대학원 > 통계학과 > Theses_Master
Files in This Item:
There are no files associated with this item.
RIS (EndNote)
XLS (Excel)


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.