Seleksi Fitur pada Data Spektrum Massa Berdimensi Tinggi dengan Algoritma Red Deer untuk Mengenali Pola Kanker

Angkasaputra, Steven Manuel (2023) Seleksi Fitur pada Data Spektrum Massa Berdimensi Tinggi dengan Algoritma Red Deer untuk Mengenali Pola Kanker. Other thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 06111940000109-Undergraduate_Thesis.pdf] Text
06111940000109-Undergraduate_Thesis.pdf - Accepted Version
Restricted to Repository staff only until 3 October 2025.

Download (5MB) | Request a copy

Abstract

Data berkembang sangat pesat secara volume membuatnya tidak bisa lepas dengan pembelajaran mesin. Pada industri kesehatan, data diperlukan untuk mengidentifikasi pola rumit ataupun mendeteksi penyakit secepat mungkin. Meskipun begitu, biasanya data medis berdimensi tinggi, dimana data dimensi tinggi cenderung mengakibatkan overfitting dan membutuhkan waktu komputasi yang lama. Disamping itu, tidak semua fitur pada data relevan dengan label dan menyediakan informasi baru. Seleksi fitur dikembangkan untuk mengatasi hal tersebut. Banyak metode seleksi fitur dikembangkan dan metaheuristik adalah salah satu metode yang cocok karena seleksi fitur adalah masalah NP-hard, yaitu masalah yang setidaknya sama sulit dengan masalah tersulit di masalah NP serta membutuhkan waktu eksponensial untuk menyelesaikan masalah tersebut. Algoritma red deer adalah salah satu metode metaheuristik banyak digunakan dalam menyelesaikan masalah optimasi tetapi belum banyak diaplikasikan ke masalah seleksi fitur. Penelitian ini mengimplementasikan algoritma red deer untuk seleksi fitur pada data spektrum massa yang berdimensi tinggi dengan support vector machine sebagai evaluator kinerja seleksi fitur. Penggunaan algoritma red deer meningkatkan performa model SVM secara keseluruhan dari segi keakuratan klasifikasi yaitu peningkatan akurasi sebesar 10%, precision sebesar 12%, recall dan F1-score sebesar 11% serta AUC-ROC sebesar 10%. Waktu inferensi juga lebih dari 7 kali lebih cepat serta kemampuan generalisasi yang lebih baik karena mengurangi overfitting ditandai berkurangnya gap antara akurasi latih dan validasi pada kurva pembelajaran. Bobot SVM diteliti untuk memahami ion yang paling berpengaruh dalam data spektrum massa. Beberapa fitur yang paling berpengaruh adalah mass-to-charge 2854, 6299, 6449, 6164, dan 6831 berurutan dari yang paling berpengaruh. Parameter α dan β yang beruturut-turut adalah parameter yang mengatur proporsi kawin di dalam dan luar kelompok yaitu tingkat diversifikasi, memiliki konvergensi dan nilai fitness paling baik pada nilai 0.3. Tidak ada pola tertentu pada kedua parameter karena sifat trade-off yaitu suatu parameter bisa bekerja lebih baik dengan parameter lain tertentu. Secara umum, menurunkan nilai parameter algoritma red deer α dan β dapat meningkatkan nilai fitness yang bisa dilakukan juga dengan meningkatkan nilai γ yaitu parameter yang mengatur proporsi jumlah pemimpin kawanan yaitu tingkat intensifikasi.
=============================================================================================================================
Data is growing so rapidly in volume that it cannot be separated from machine learning. In the healthcare industry, data is needed to identify or detect diseases as quickly as possible. However, medical data is usually high-dimensional, where high-dimensional data tends to result in overfitting and requires a long computational time. In addition, not all features in the data are relevant to the label and provide new information. Feature selection was developed to overcome these issues. Many feature selection methods are developed and metaheuristics is one of the suitable methods since feature selection is an NP-hard problem, which are at least as hard as the hardest problems in NP and takes exponential time to solve the problem. Red deer algorithm is one of the methods metaheuristic method widely used in solving optimization problems but has not been widely applied to feature selection problems This research implements the red deer algorithm for feature selection on high-dimensional mass spectrum data with support vector machine as a performance evaluator. The use of the red deer algorithm improves the overall performance of the SVM model in terms of classification accuracy, namely an increase in accuracy by 10%, precision by 12%, recall and F1-score by 11% and AUC-ROC by 10%. The inference time is also more than 7 times faster as well as better generalization ability, thus reducing overfitting characterized by a reduced gap between train and validation accuracy on learning curve . SVM weights were investigated to understand the most influential ions in the mass spectrum data. Some of the most influential features are mass-to-charge 2854, 6299, 6449, 6164, and 6831 in order of the most influential. The parameters α and β which is parameters that control mating inside and outside harem consecutively that control diversification rate, have the best convergence and fitness value at 0.3. There is no particular pattern in the two parameters because of trade-off characteristic that one parameter can work better with certain other parameters. In general, lowering the values of red deer algorithm parameters α and β can improve the fitness value and computation time, which can also be done by increasing the value of γ, parameter that control number proportion of leaders, which controls intensification.

Item Type: Thesis (Other)
Uncontrolled Keywords: Metaheuristik, Algoritma Red Deer, Seleksi Fitur, Support Vector Machine, Kanker, Metaheuristic, Red Deer Algorithm, Feature Selection, Support Vector Machine, Cancer
Subjects: Q Science > QA Mathematics > QA336 Artificial Intelligence
Divisions: Faculty of Science and Data Analytics (SCIENTICS) > Mathematics > 44201-(S1) Undergraduate Thesis
Depositing User: Steven Manuel Angkasaputra
Date Deposited: 03 Aug 2023 07:09
Last Modified: 03 Aug 2023 07:09
URI: http://repository.its.ac.id/id/eprint/101505

Actions (login required)

View Item View Item