Combine Sampling - Least Square Support Vector Machine Untuk Klasifikasi Multi Class Imbalanced Data

Khaulsari, Hani (2016) Combine Sampling - Least Square Support Vector Machine Untuk Klasifikasi Multi Class Imbalanced Data. Masters thesis, Institut Teknologi Sepuluh Nopember.

[img]
Preview
Text
1314201044-Master-Thesis.pdf - Published Version

Download (2MB) | Preview

Abstract

Analisis Klasifikasi adalah proses menemukan model terbaik dari classifier untuk memprediksi kelas dari suatu objek atau data yang label kelasnya tidak diketahui. Pada kehidupan nyata, khususnya di bidang medis sering kali ditemui klasifikasi multi class dengan kondisi himpunan data imbalanced. Kondisi imbalanced data menjadi masalah dalam klasifikasi multi class karena mesin classifier learning akan condong memprediksi ke kelas data yang banyak (mayoritas) dibanding dengan kelas minoritas. Akibatnya, dihasilkan akurasi prediksi yang baik terhadap kelas data training yang banyak (kelas mayoritas) sedangkan untuk kelas data training yang sedikit (kelas minoritas) akan dihasilkan akurasi prediksi yang buruk. Oleh Karena itu, pada penelitian ini akan diterapkan metode Combine Sampling (SMOTE+Tomek Links) LS-SVM untuk klasifikasi multi class imbalanced dengan menggunakan data medis. Data yang digunakan adalah data thyroid, kanker payudara dan kanker serviks. Percobaan tersebut menggunakan q-fold cross validation (q=5) dan (q=10). LS-SVM One Againt One (OAO) digunakan untuk klasifikasi multi class. Optimasi parameter fungsi kernel RBF  dan C menggunakan PSO-GSA Hasil menunjukan bahwa metode yang terbaik untuk digunakan dalam memprediksi status pasien penderita Thyroid, kanker payudara dan kanker serviks adalah metode Combine Sampling Least Square Support Vector Machine PSO-GSA. Klasifikasi dengan menggunakan Q-Fold (q=5) dan (q=10) menghasilkan performansi yang sama dalam hal akurasi Total, Sensitivity dan G-Mean. ================================================================================================================== Classification analysis is the process of finding the best model of a classifier for predicting the class of an object or data class label is unknown. In the real life, especially in the medical field often encountered multi-class classification with imbalanced data sets conditions. Imbalanced condition of the data at issue in multiclass classification as machine learning classifier will be inclined to predict that a lot of data classes (the majority) compared with a minority class. As a result, generated a good prediction accuracy of the data class training that many (the majority class), while for class training data bit (the minority) will produce a poor prediction accuracy. Hence, this research will apply the method Combine Sampling (SMOTE + Tomek Links) LS-SVM for multi-class classification imbalanced using medical data. The data used is data thyroid, breast cancer and cervical cancer. The experiment using a q-fold cross validation (q = 5) and (q = 10). LS-SVM One againt One (OAO) is used for multi-class classification. Parameter optimization RBF kernel function (σ) and C using the PSO-GSA. Results showed that the best method to use in predicting the status of patients with thyroid, breast cancer and cervical cancer is the combine Sampling method Least Square Support Vector Machine PSO-GSA. Classification by using Q-Fold (q = 5) and (q = 10) produces the same performance in terms of total accuracy, sensitivity and G-mean.

Item Type: Thesis (Masters)
Additional Information: RTSt 519.54 Kha c
Uncontrolled Keywords: Imbalanced Data, Klasifikasi Multi Class, LS-SVM, SMOTE, Tomek Links, Combine Sampling, PSO-GSA.
Subjects: H Social Sciences > HA Statistics
Divisions: Faculty of Mathematics and Science > Statistics > 49101-(S2) Master Thesis
Depositing User: Users 13 not found.
Date Deposited: 15 Jun 2017 02:19
Last Modified: 27 Dec 2018 02:11
URI: http://repository.its.ac.id/id/eprint/41672

Actions (login required)

View Item View Item