Quinevera, Stefanie (2025) Optimasi Hyperparameter pada Model Prediksi Kanker Pankreas Menggunakan Autoencoder dan GridSearch Cross-validation. Masters thesis, Institut Teknologi Sepuluh Nopember.
![]() |
Text
6025231040-Master_Thesis.pdf Restricted to Repository staff only until 1 April 2027. Download (1MB) | Request a copy |
Abstract
Salah satu jenis kanker yang terjadi di pankreas adalah kanker duktus pankreas atau Pancreatic Ductal Adenocarcinoma (PDAC). PDAC umumnya ada di sel-sel duktus pada bagian kepala pankreas. Pertumbuhan sel yang abnormal pada duktus dapat menyebabkan terjadinya penyumbatan yang mengganggu kerja pankreas dan akhirnya mengganggu sistem kerja tubuh dan menjadi penyebab kematian ketujuh di dunia saat ini akibat neoplasma ganas. Penyebab PDAC melibatkan sejumlah faktor risiko, contohnya adalah pankreatitis kronis, radioterapi di sekitar area pankreas, diabetes, dan usia. Penyakit PDAC sering terlambat dideteksi karena gejalanya tidak spesifik, contohnya nyeri perut, mual, penurunan berat badan, dan mudah lelah. Hal ini mengakibatkan pendeteksian awal yang buruk dan diketahui ketika berada pada tahap lanjut dengan tingkat kelangsungan hidup yang rendah. Karena kesulitan prediksi dini PDAC, pengembangan metode untuk membantu bidang medis dalam prediksi dini PDAC menjadi sangat penting. Salah satu pendekatan yang dapat digunakan adalah pemanfaatan pembelajaran mesin dalam pendeteksian PDAC. Pada penelitian ini pembelajaran mesin digunakan untuk menganalisis data pasien dan mengidentifikasi pola yang relevan dalam deteksi PDAC. Penelitian ini menggunakan algoritma Gradient Boosting Classifier (GBC) dan Light Gradient Boosting Machine (LightGBM), yang dioptimalkan melalui GridSearchCV dan menangani missing-values menggunakan Autoencoder. Dataset yang digunakan adalah Urinary Biomarkers for Pancreatic Cancer dari Kaggle, terdiri dari 590 baris data dengan 14 fitur dan 3 kelas target, yaitu pasien sehat, pasien sakit pankreas, dan pasien kanker pankreas. Penelitian ini menunjukkan bahwa penggunaan Autoencoder untuk menangani missing-values berhasil meningkatkan kualitas data, sementara penggunaan GridSearchCV untuk mencari hyperparameter terbaik secara signifikan meningkatkan performa model prediksi. Pada pengujian tipe 1 dan 3, model LightGBM mencapai akurasi 94,5%, presisi 95,4%, recall 93,96%, dan F1-Score 94,68%. Pada pengujian tipe 2 dan 3, model yang sama memperoleh akurasi 86,97%, presisi 87,24%, recall 85,92%, dan F1-Score 86,58%. Sedangkan pada pengujian tipe 1, 2, dan 3, LightGBM tetap menunjukkan performa unggul dengan akurasi 80,50%, presisi 80,64%, recall 80,63%, dan F1-Score 80,63%. Hasil ini menunjukkan bahwa metode Autoencoder untuk pengisian missing-values dan GridSearchCV untuk mencari hyperparameter terbaik model dapat meningkatkan kemampuan deteksi PDAC.
=================================================================================================================================
One type of cancer that occurs in the pancreas is pancreatic ductal adenocarcinoma (PDAC). PDAC typically develops in the ductal cells located in the head of the pancreas. Abnormal cell growth in the ducts can cause blockages, disrupting pancreatic function, impairing overall bodily systems, and contributing to PDAC's status as the seventh leading cause of death globally due to malignant neoplasms. The risk factors for PDAC include chronic pancreatitis, radiotherapy near the pancreatic region, diabetes, and age. PDAC is often detected late due to nonspecific symptoms such as abdominal pain, nausea, weight loss, and fatigue. This leads to poor early detection, with the disease usually identified at an advanced stage, resulting in low survival rates. Given the challenges in early prediction of PDAC, developing methods to assist the medical field in its early detection is crucial. One promising approach is leveraging machine learning techniques for PDAC detection. This study employs machine learning to analyze patient data and identify relevant patterns for PDAC detection. Gradient Boosting Classifier (GBC) and Light Gradient Boosting Machine (LightGBM) algorithms were utilized, optimized using GridSearchCV, and employed Autoencoder to handle missing values in the dataset. The dataset used, Urinary Biomarkers for Pancreatic Cancer, was sourced from Kaggle and consists of 590 rows with 14 features and three target classes: healthy patients, patients with pancreatic pain, and patients with pancreatic cancer. The study demonstrates that the application of Autoencoder to handle missing values effectively improved data quality, while the use of GridSearchCV to optimize hyperparameters significantly enhanced the performance of the classification models. In the type 1 and 3 classification scenario, the LightGBM model achieved an accuracy of 94,5%, precision of 95,4%, recall of 93,96%, and F1-Score of 94,68%. For the type 2 and 3 scenario, the model attained an accuracy of 86,97%, precision of 87.24%, recall of 85,92%, and F1-Score of 86,58%. In the type 1, 2, and 3 classification scenario, LightGBM maintained superior performance with an accuracy of 80,50%, precision of 80,64%, recall of 80,63%, and F1-Score of 80,63%. These results indicate that Autoencoder and GridSearchCV enhances the capability of machine learning models for PDAC detection.
Item Type: | Thesis (Masters) |
---|---|
Uncontrolled Keywords: | Autoencoder, GBC, GridSearchCV, LightGBM, PDAC, SKCV, Autoencoder, GBC, GridSearchCV, LightGBM, PDAC, SKCV |
Subjects: | T Technology > T Technology (General) > T57.5 Data Processing |
Divisions: | Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Informatics Engineering > 55101-(S2) Master Thesis |
Depositing User: | Stefanie Quinevera |
Date Deposited: | 06 Feb 2025 03:16 |
Last Modified: | 06 Feb 2025 03:16 |
URI: | http://repository.its.ac.id/id/eprint/118285 |
Actions (login required)
![]() |
View Item |