View : 96 Download: 0

다범주 분류를 위한 알고리즘 비교

Title
다범주 분류를 위한 알고리즘 비교
Other Titles
A Comparison of Algorithms for Multi-class classification
Authors
전세림
Issue Date
2013
Department/Major
대학원 통계학과
Publisher
이화여자대학교 대학원
Degree
Master
Advisors
송종우
Abstract
다범주 분류 문제에서 예측의 정확도를 높이는 것은 어려운 일이다. 그것은 범주가 많아 불확실성이 증가하기 때문이기도 하지만, 범주 분류를 위해 개발된 많은 방법론들이 태생적으로 이범주 분류를 위해 연구되었기 때문이기도 하다. 하지만 최근 패턴인식, 생물정보 분류 등 다범주 분류에 대한 필요가 많아짐에 따라 다범주 분류를 위한 많은 방법론들이 연구되고 있다. 다범주 분류를 위한 절대적으로 성능이 좋은 방법론이 없는 가운데, 알고리즘의 예측력을 비교하여 분류 성능이 좋은 방법론을 찾기 위한 많은 연구가 이루어지고 있다. 하지만 많은 연구들이 SVM이나 의사결정나무 등 특정 방법론 별로 따로 연구되어 있기 때문에 다범주 분류에 많이 쓰이는 광범위한 방법론들이 같이 비교 연구되지 않았다. 본 논문은 자료에 대한 기본 정보가 부족한 상태에서 다범주 분류를 해야 할 때, 좀 더 빨리 성능이 좋은 방법을 찾아 적용할 수 있도록 알고리즘 선택을 위한 가이드를 제시해 주고자 한다. 본 논문에서는 먼저 이범주 분류를 위한 알고리즘을 이용하여 다범주 분류를 시도할 것이다. 사용한 이범주 분류 알고리즘은 이범주 로지스틱 회귀, 그래디언트 부스팅 중 로짓부스팅, SVM이다. 이에 다범주를 이범주로 분해하는 Pairwise 방법과 One versus Rest 방법을 적용하여 다범주 분류를 할 것이다. 다음으로 다범주 분류를 위한 알고리즘을 직접 적용할 것이다. 이용한 다범주 분류 알고리즘은 다범주 SVM, 다범주 로지스틱, LDA, Random Forest이다. 이러한 기법들을 모의실험 자료와 실제 자료에 적용해 오분류율을 계산하여 각 방법들을 비교 연구하고자 한다.;In this paper, the problem of multi-class classification is considered. Increasing accuracy of prediction in multi-class problem is a difficult task. It is because not only uncertainty of many classes is raised along increased number of classes, but also many classification algorithms are originally designed for binary classification problem. However, nowadays there have been many researches to extend binary classification algorithms for multi-class classification. This paper attempts to compare and analyze the performances of various methods with some simulations and several real datasets. At first, multi-class problem is classified using binary classification algorithms, Binary Logistic, LogitBoosting in Gradient Boosting Method and Support Vector Machines. To reduce a multi-class problem to multiple binary ones, this paper uses Pairwise method and One versus Rest method. This paper measures how well binary classification method works in multi-class problems and compare the performance with that of multi-class classification methods, multi-class SVM, Multinomial Logistic Model, Linear Discriminant Analysis and Random Forest.
Fulltext
Show the fulltext
Appears in Collections:
일반대학원 > 통계학과 > Theses_Master
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE