Combine Sampling - Least Square Support Vector Machine Untuk Klasifikasi Multi Class Imbalanced Data

Khaulsari, Hani (2016) Combine Sampling - Least Square Support Vector Machine Untuk Klasifikasi Multi Class Imbalanced Data. Masters thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 1314201044-Master-Thesis.pdf]
Preview
Text
1314201044-Master-Thesis.pdf - Published Version

Download (2MB) | Preview

Abstract

Analisis Klasifikasi adalah proses menemukan model terbaik dari classifier
untuk memprediksi kelas dari suatu objek atau data yang label kelasnya tidak
diketahui. Pada kehidupan nyata, khususnya di bidang medis sering kali ditemui
klasifikasi multi class dengan kondisi himpunan data imbalanced. Kondisi
imbalanced data menjadi masalah dalam klasifikasi multi class karena mesin
classifier learning akan condong memprediksi ke kelas data yang banyak (mayoritas)
dibanding dengan kelas minoritas. Akibatnya, dihasilkan akurasi prediksi yang baik
terhadap kelas data training yang banyak (kelas mayoritas) sedangkan untuk kelas
data training yang sedikit (kelas minoritas) akan dihasilkan akurasi prediksi yang
buruk. Oleh Karena itu, pada penelitian ini akan diterapkan metode Combine
Sampling (SMOTE+Tomek Links) LS-SVM untuk klasifikasi multi class imbalanced
dengan menggunakan data medis. Data yang digunakan adalah data thyroid, kanker
payudara dan kanker serviks. Percobaan tersebut menggunakan q-fold cross
validation (q=5) dan (q=10). LS-SVM One Againt One (OAO) digunakan untuk
klasifikasi multi class. Optimasi parameter fungsi kernel RBF  dan C menggunakan
PSO-GSA Hasil menunjukan bahwa metode yang terbaik untuk digunakan dalam
memprediksi status pasien penderita Thyroid, kanker payudara dan kanker serviks
adalah metode Combine Sampling Least Square Support Vector Machine PSO-GSA.
Klasifikasi dengan menggunakan Q-Fold (q=5) dan (q=10) menghasilkan
performansi yang sama dalam hal akurasi Total, Sensitivity dan G-Mean.
==================================================================================================================
Classification analysis is the process of finding the best model of a classifier for
predicting the class of an object or data class label is unknown. In the real life,
especially in the medical field often encountered multi-class classification with
imbalanced data sets conditions. Imbalanced condition of the data at issue in multiclass
classification as machine learning classifier will be inclined to predict that a lot
of data classes (the majority) compared with a minority class. As a result, generated a
good prediction accuracy of the data class training that many (the majority class),
while for class training data bit (the minority) will produce a poor prediction
accuracy. Hence, this research will apply the method Combine Sampling (SMOTE +
Tomek Links) LS-SVM for multi-class classification imbalanced using medical data.
The data used is data thyroid, breast cancer and cervical cancer. The experiment using
a q-fold cross validation (q = 5) and (q = 10). LS-SVM One againt One (OAO) is
used for multi-class classification. Parameter optimization RBF kernel function (σ)
and C using the PSO-GSA. Results showed that the best method to use in predicting
the status of patients with thyroid, breast cancer and cervical cancer is the combine
Sampling method Least Square Support Vector Machine PSO-GSA. Classification by
using Q-Fold (q = 5) and (q = 10) produces the same performance in terms of total
accuracy, sensitivity and G-mean.

Item Type: Thesis (Masters)
Additional Information: RTSt 519.54 Kha c
Uncontrolled Keywords: Imbalanced Data, Klasifikasi Multi Class, LS-SVM, SMOTE, Tomek Links, Combine Sampling, PSO-GSA.
Subjects: H Social Sciences > HA Statistics
Divisions: Faculty of Mathematics and Science > Statistics > 49101-(S2) Master Thesis
Depositing User: Users 13 not found.
Date Deposited: 15 Jun 2017 02:19
Last Modified: 27 Dec 2018 02:11
URI: http://repository.its.ac.id/id/eprint/41672

Actions (login required)

View Item View Item