View : 448 Download: 0

A comparison of classification methods for microbiome compositional data analysis

Title
A comparison of classification methods for microbiome compositional data analysis
Authors
김윤희
Issue Date
2022
Department/Major
대학원 통계학과
Publisher
이화여자대학교 대학원
Degree
Master
Advisors
이동환
Abstract
Prostate cancer is generally diagnosed using prostate-specific antigen (PSA ). Yet, obtaining PSA figures is false positive and detection of cancer using it can cause excessive treatment, which emerged diagnosis using microbiomes as an alternative plan. The human microbiome is the totality of all microbes in the body, so high-dimensional compositional data is commonly generated in sequencing-based microbiome studies. However, since compositional data have boundness, sum constraint and sparseness, they are situated on the simplex space. Machine learning techniques developed on the real space cannot be applied. By using imputations for sparsity and transformations converting data vectors from the simplex to real space, conventional classification methods can be improved. In this study, we compare existing methods such as LGBM, Random Forest, Lasso and Elastic Net, for classifying the sparse compositional data. Furthermore, under different scenarios of transformation and sparseness, we investigate classification performance of the penalized method for sparse compositional data. Classification of microbiome compositional data show that using isometric log ratio transformation and Lasso has the highest AUC. To generalize the results, we simulate our analysis with varying sparseness and confirm it by simulation with initial data settings. Without initial settings however , Random Forest classifies best. However, by permutating the columns of real data, we show that isometric log ratio transformation is vulnerable to the order of data, thus concluding that it is not totally appropriate for compositional data analysis. We permutate real data 500 times and calculate classification AUC each time, showing that the range of AUC is widespread. ;전립선암은 PSA 지수를 통해 진단된다. 하지만, PSA 지수를 확보하는 데에는 큰 비용이 들며, 명백한 진단 방법이 아니기에 과잉 치료를 수행할 수도 있다. 이렇기에 미생물 정보를 이용한 암 진단 분석이 떠오르는 추세이다. 인체 미생물군 유전체는 인체 내 모든 미생물의 정보이기 때문에 순서 기반 미생물 유전체 연구에서 고차원의 비율 데이터가 흔히 생성된다. 하지만, 비율 데이터는 유한성, 합계 제약 및 희소성을 가지고 있기에 simplex space위에 존재한다. 그러므로 실수공간에서 만들어진 다양한 머신러닝 기법들을 적용하는 데에는 어려움이 따른다. 희소성을 보완하는 대입 기법과 데이터 벡터를 simplex space에서 실수 공간으로 옮기는 변환을 통해 기존의 분류 방법을 개선할 수 있다. 본 연구에서는 희소한 비율 데이터를 분류하기 위해 LGBM, Random Forest, Lasso, Elastic Net과 같은 기존 방법들을 비교한다. 또한, 다양한 변환과 희소성의 모의 실험에서 희박한 비율 데이터에 대한 벌점 함수의 분류 성능을 조사한다. 미생물 비율 데이터의 분류 분석을 통해 isometric log ratio transformation과 Lasso를 이용한 분석이 제일 높은 AUC를 보인다. 우리의 결과를 일반화하기 위해, 초기 설정을 시행한 데이터를 다양한 희소성의 모의 실험을 통해 시험해본다. 초기 설정이 없는 경우에는 Random Forest 방법이 제일 좋은 성능을 보인다. 하지만, 실제 데이터의 순서를 조합하면서 isometric log ratio 변환이 데이터의 순서에 민감함을 보여주며, 비율 데이터 분석에서 이 변환이 사용되지 않아야 함을 증명한다. 본 논문에서는 실제 데이터를 500번 섞어가며 AUC를 계산해 다양한 값의 AUC가 도출됨을 보여준다.
Fulltext
Show the fulltext
Appears in Collections:
일반대학원 > 통계학과 > Theses_Master
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

BROWSE