Ensemble Support Vector Machine Dengan Random Undersampling Pada Klasifikasi Data Dna Microarray Untuk Menangani Kasus Multiclass Imbalance

Rahmi, Nur Silviyah (2018) Ensemble Support Vector Machine Dengan Random Undersampling Pada Klasifikasi Data Dna Microarray Untuk Menangani Kasus Multiclass Imbalance. Masters thesis, Institut Teknologi Sepuluh Nopember.

[img]
Preview
Text
06211650010026-Master_Thesis.pdf - Accepted Version

Download (2MB) | Preview

Abstract

Teknologi microarray melakukan pengukuran dalam skala besar dan paralel untuk mengekspresikan puluhan ribu gen. Hal ini menjadi salah satu teknologi biologi molekuler yang banyak diterapkan untuk memprediksi fungsi gen, subtipe baru dari tumor spesifik dan klasifikasi kanker. Namun, data microarray diketahui memiliki karakteristik fitur seperti dimensi tinggi, sampel kecil, noise tinggi dan distribusi kelas yang tidak seimbang (imbalance). Metode Support Vector Machine (SVM) telah banyak digunakan dan menunjukkan keberhasilan dalam banyak aplikasi utamanya dalam meningkatkan performansi klasifikasi. Untuk mengatasi dimensi tinggi diterapkan metode Ensemble-SVM. Metode ini mengelompokkan fitur secara clustering hirarki complete linkage dan setiap kelompok akan dilakukan proses klasifikasi. Sedangkan kondisi imbalance data menjadi masalah dalam klasifikasi, karena classifier akan condong memprediksi ke kelas mayoritas dibandingkan kelas minoritas. Oleh Karena itu, diterapkan metode Random Undersampling atau EnSVM-RUS yang berfungsi untuk menyeimbangkan jumlah kelas mayoritas ke dalam kelas minoritas. Penelitian ini menggunakan threefold cross-validation dengan metode seleksi fitur yaitu Fast Correlation Based Filter (FCBF). Metode Multiclass yang digunakan yaitu SVM One Against One (OAO). Sedangkan kriteria evaluasi performansi klasifikasi berdasarkan nilai akurasi, F-score dan G-mean serta running time. Penelitian ini melakukan studi simulasi dengan skenario berbagai tingkatan imbalance ratio (IR) yaitu rasio 1, 5, dan 8 untuk mengetahui performansi metode yang diusulkan. Sedangkan penerapan pada data riil menggunakan data DNA Microarray dengan IR 4,22; 15,00; dan 23,17 Hasilnya menunjukkan bahwa metode EnSVM-RUS-OAO dengan 2 cluster memiliki performansi lebih tinggi dibandingkan metode EnSVM-OAO dan EnSVM-OAO. Adanya peningkatan imbalance rasio tidak mempengaruhi keunggulan metode EnSVM-RUS-OAO jika dibandingkan dengan metode metode EnSVM-OAO dan EnSVM-OAO. Sedangkan pada penggunaan kernel, kernel RBF dan polynomial menghasilkan performansi lebih tinggi dan waktu komputasi lebih singkat dari pada kernel linear. =========================================================== Microarray technology measure on a large and parallel scale to express tens thousands of genes. It has widely applied to predict gene function, new subtypes of specific tumors and cancer classification. However, microarray data are known has feature characteristics such as high dimension, small sample, high noise and imbalanced class distribution. Support Vector Machine (SVM) has been widely used and shows the successful in major applications to improve classification performance. To overcome the high dimension, this research applies Ensemble-SVM method. This method classifies features use clustering hierarchy and each group will be classified. While the condition of imbalance data becomes a problem in classification, because the classifier will tend to predict majority class compared to minority class. Therefore, a Random Undersampling or EnSVM-RUS method is used to balance size of the majority class into minority class. This research uses threefold cross-validation with feature selection method that is Fast Correlation Based Filter (FCBF). Multiclass method used is SVM One Against One (OAO). While the evaluation criteria of performance classification based on the value of accuracy, F-score and G-mean and running time. This research performs simulation study with various scenario level of ratio imbalance (IR) that is ratio 1, 5, and 8 to know the performance of proposed method. While the application on real data using Microarray DNA data with IR 4.22, 15.00 and 23.17 The results showed that the EnSVM-RUS-OAO method with 2 clusters had higher performance than the EnSVM-OAO and EnSVM-OAO methods. Increasing the ratio imbalance doesn’t affect the advantage of EnSVM-RUS-OAO method when compared to EnSVM-OAO and EnSVM-OAO methods. While on the use of kernel, RBF kernel and polynomials produces higher performance and shorter computation time than linear kernels.

Item Type: Thesis (Masters)
Uncontrolled Keywords: Kelas Imbalance, Klasifikasi Multiclass, Random Undersampling (RUS), Ensemble Feature Subspace
Subjects: Q Science > QA Mathematics > QA76.9.D343 Data mining
Divisions: Faculty of Mathematics and Science > Statistics > 49101-(S2) Master Thesis
Depositing User: Silviyah Rahmi
Date Deposited: 19 Jun 2021 12:10
Last Modified: 19 Jun 2021 12:10
URI: https://repository.its.ac.id/id/eprint/55555

Actions (login required)

View Item View Item