Optimasi Parameter Machine Learning untuk Prediksi Penyakit Parkinson dengan Seleksi Fitur dan Teknik Synthetic Minority Over-Sampling

Joses, Steven (2025) Optimasi Parameter Machine Learning untuk Prediksi Penyakit Parkinson dengan Seleksi Fitur dan Teknik Synthetic Minority Over-Sampling. Masters thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 6025231041-Master_Thesis.pdf] Text
6025231041-Master_Thesis.pdf - Accepted Version
Restricted to Repository staff only until 1 April 2027.

Download (1MB) | Request a copy

Abstract

Penyakit Parkinson adalah penyakit neurodegeneratif yang mempengaruhi gerakan tubuh sehingga membutuhkan diagnosis dini untuk penanganan yang tepat. Gejala utama pada penyakit ini meliputi tremor, kekakuan otot, gerakan yang lambat, dan kesulitan mengontrol gerakan. Penyakit Parkinson yang berhasil dideteksi lebih awal dapat diberikan tindakan medis yang efektif. Penelitian terbaru telah menunjukkan bahwa pemrosesan data dengan machine learning dapat menjadi indikator yang berguna untuk deteksi dini penyakit Parkinson. Permodelan prediksi penyakit Parkinson yang akurat masih sulit disebabkan oleh ketidakseimbangan data antara penderita dan orang sehat. Penggunaan seleksi fitur, teknik untuk mengatasi ketidakseimbangan data, dan optimasi pada metode machine learning diharapkan dapat meningkatkan akurasi prediksi penyakit Parkinson secara signifikan. Pada penelitian ini dilakukan prediksi penyakit Parkinson dengan menggunakan dataset yang diambil dari Kaggle.com. Dataset ini memiliki total data 756 record di mana 192 adalah orang sehat dan 564 adalah orang yang menderita penyakit Parkinson. Berdasarkan hasil penelitian, seleksi fitur menggunakan Information Gain dan Gain Ratio terbukti efektif dalam meningkatkan akurasi model sebesar 1,33% dengan penggunaan 4% fitur teratas sehingga menghasilkan akurasi tertinggi pada model CatBoost. Selain itu, model XGBoost dan Random Forest dengan akurasi masing-masing sebesar 91,39%. Teknik penyeimbangan data menggunakan SMOTE berhasil mengatasi ketidakseimbangan data dan meningkatkan kinerja model prediksi. Hal tersebut ditunjukkan dengan model CatBoost, XGBoost, dan Random Forest mencapai akurasi yang sama sebesar 92,05% setelah data diseimbangkan. Selanjutnya, optimasi parameter melalui GridSearchCV menunjukkan peningkatan performa yang signifikan masing-masing sebesar 4,64% pada model CatBoost dan 2,64% pada XGBoost setelah proses optimasi.
===================================================================================================================================
Parkinson's disease is a neurodegenerative condition that affects body movement, necessitating early diagnosis for proper management. Major symptoms of this disease include tremors, muscle stiffness, slow movement, and difficulty controlling movements. Early detection of Parkinson's disease enables effective medical intervention. Recent research has shown that data processing with machine learning can serve as a useful indicator for early Parkinson's disease detection. Accurate Parkinson's disease detection remains challenging due to data imbalance between Parkinson's and non-Parkinson's individuals. The use of feature selection, techniques to address data imbalance, and optimization in machine learning methods are expected to significantly improve Parkinson's disease prediction accuracy. In this study, Parkinson's disease prediction was conducted using a dataset obtained from Kaggle.com. The dataset comprises a total of 756 records, of which 192 represent healthy individuals and 564 represent individuals with Parkinson's disease. Based on the research findings, feature selection using Information Gain and Gain Ratio proved effective in improving model accuracy by 1.33% when utilizing the top 4% of features, resulting in the highest accuracy achieved by the CatBoost model. Additionally, the XGBoost and Random Forest models achieved respective accuracies of 91.39%. The data balancing technique using SMOTE successfully addressed data imbalance and enhanced the performance of prediction models. This was demonstrated by the CatBoost, XGBoost, and Random Forest models achieving the same accuracy of 92.05% after data balancing. Furthermore, parameter optimization through GridSearchCV showed significant performance improvements, with increases of 4.64% in the CatBoost model and 2.64% in the XGBoost model following the optimization process.

Item Type: Thesis (Masters)
Uncontrolled Keywords: Categorical Boosting, Extreme Gradient Boosting, Feature Selection, Parkinson Disease, Synthetic Minority Over-sampling Technique, Categorical Boosting, Extreme Gradient Boosting, Penyakit Parkinson, Seleksi Fitur, Synthetic Minority Over-sampling Technique
Subjects: T Technology > T Technology (General) > T57.5 Data Processing
Divisions: Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Informatics Engineering > 55101-(S2) Master Thesis
Depositing User: Steven Joses
Date Deposited: 06 Feb 2025 07:13
Last Modified: 06 Feb 2025 07:13
URI: http://repository.its.ac.id/id/eprint/118418

Actions (login required)

View Item View Item