Fahmi, Amiq (2024) Klasifikasi Demam Berdarah Berbasis Fitur Kriteria Diagnosis Klinis Menggunakan Deteksi Outlier Ansambel IsFLOF Dan Resampling Imbalance Multikelas. Doctoral thesis, Institut Teknologi Sepuluh Nopember.
Text
0711186001003-Dissertation.pdf - Accepted Version Restricted to Repository staff only until 1 April 2027. Download (2MB) | Request a copy |
Abstract
Demam berdarah adalah penyakit infeksi akut yang disebabkan oleh virus dengue dan dapat bermanifestasi parah pada semua kelompok usia. Manifestasi awal seringkali sulit dikonfirmasi, sehingga diperlukan tanda klinis dan pemeriksaan laboratorium untuk diagnosis. Berdasakan data klinis dan laboratoris dibuat kriteria diagnosis klinis Demam Berdarah (DD), Demam Berdarah Dengue (DBD), Dengue Shock Syndrome (DSS), dan Expanded Dengue Syndrome (EDS). Prediksi yang akurat sangat penting bagi tenaga medis untuk diagnosis dini. Namun, pada praktiknya, dataset dunia nyata sering kali memiliki noise, seperti kesalahan pengukuran, input data, dan variabilitas populasi. Kendala ini mengakibatkan data outlier, perilaku yang berbeda dari mayoritas dalam kelas yang sama, nilai yang berlebihan, data hilang, dan ketidakseimbangan data yang mengarah pada distorsi pola, tren data, serta bias prediksi. Pada posisi ini, metode klasifikasi konvensional rentan terhadap ketidakseimbangan data dan keberadaan outlier, yang berpotensi menurunkan kinerja pemodelan prediktif dengan akurasi yang rendah dan tidak memiliki signifikasi dalam interpretasi akhir. Disertasi ini mengusulkan penggunaan pembelajaran mesin untuk meng-klasifikasikan demam berdarah berdasarkan kriteria diagnosis klinis. Dataset pasien dari 37 puskesmas dan 16 rumah sakit di Kota Semarang (2016-2019) dengan 14.044 sampel dengan distribusi tidak seimbang: 4.875 (34,7%): 8.560 (61,0%): 609 (4,3%) untuk DD, DBD, dan DSS. Delapan algoritma pengklasifikasi, yaitu Na¨ıve Bayes, Decision Tree, K-NN, Random Forest, Neural Network, AdaBoost, SVM, dan Logistic Regression digunakan untuk evaluasi akurasi prediksi. Hasil klasifikasi menggunakan data riil dari dunia nyata yang tidak seim-bang menunjukkan bahwa Neural Networks memiliki akurasi tertinggi sebesar 72% dan 72,4% pada set pelatihan dan pengujian. Tahapan penyempurnaan dilakukan untuk meningkatkan akurasi, meliputi deteksi dan penghapusan outlier menggunakan teknik two-layer ensemble IsFLOF, penanganan keti-dakseimbangan data dengan bobot multikelas dan resampling, serta menyaring fitur yang tidak signifikan. Proses klasifikasi, validasi, dan evaluasi dilakukan dengan membagi dataset pelatihan dan pengujian (70%:30%), 10-fold cross-validation, dan metrik akurasi, presisi, recall, F1-Score, serta AUC. Hasil eksperimen menunjukkan peningkatan signifikan dengan akurasi 93,5% dan 95,1% untuk AdaBoost pada set pelatihan dan pengujian. Dapat disimpulkan bahwa metode yang diusulkan secara universal meningkatkan akurasi klasifikasi dibandingkan dengan metode yang sudah ada pada dataset asli dan sintetis. Penelitian disertasi ini mengisi kesenjangan klasifikasi dalam penanganan outlier dan ketidakseimbangan multikelas, terutama dalam diagnosis dini demam berdarah berbasis fitur kriteria diagnosis klinis dengan pendekatan metode baru yang memberikan kontribusi signifikan dalam peningkatan aku-rasi prediksi.
===================================================================================================================================
Dengue fever is an acute infectious disease caused by the dengue virus, which can present with severe manifestations across all age groups. Early symptoms are often challenging to identify, necessitating clinical signs and laboratory tests for accurate diagnosis. The clinical diagnostic criteria include Dengue Fever (DF), Dengue Hemorrhagic Fever (DHF), Dengue Shock Syndrome (DSS), and Unusual Manifestations (EDS). Accurate predictive modeling is crucial for healthcare professionals to facilitate early diagnosis. However, real-world datasets often have noise in practice, such as measurement errors, data input inaccuracies, and population variability. These constraints result in outlier data, behaviors that differ from the majority within the same class, excessive values, missing data, and data imbalance, leading to distortion of patterns, data trends, and prediction biases. In this position, conventional classification methods are susceptible to data imbalance and the presence of outliers, potentially degrading the performance of predictive modeling with low accuracy and lacking significance in the final interpretation. This dissertation proposes using machine learning to classify dengue fever based on clinical diagnosis criteria. Dataset patients from 37 community health centers and 16 hospitals in Semarang City (2016-2019) with 14,044 samples with imbalanced distribution: 4,875 (34.7%): 8,560 (61.0%): 609 (4.3%) for DF, DHF and DSS were used for the evaluation using eight classifier algorithms, especially Na¨ıve Bayes, Decision Tree, K-NN, Random Forest, Neural Network, AdaBoost, SVM, and Logistic Regression. Classification results using real-world imbalanced data showed that the Neural Networks showed the highest accuracy of 72% and 72.4% in the training and testing sets, respectively. Refinement stages were taken to enhance accuracy, including outlier detection and removal using the two-layer ensemble technique IsFLOF, handling data imbalance with multiclass weights and resampling, and filtering out insignificant features. Classification, validation, and evaluation processes were performed by dividing the training and testing datasets (70%:30%), 10-fold cross-validation, and accuracy, precision, recall, xi F1-Score, and AUC metrics. The experimental results show a significant rise with 93.5% and 95.1% accuracy for AdaBoost on both training and testing sets. The proposed method universally improves the classification accuracy compared to existing methods on real and synthetic datasets. This dissertation research addresses the classification gap in handling outliers and multiclass imbalance, especially in early diagnosis of dengue fever diagnosis based on clinical diagnosis criteria features, using a new methodological approach that significantly enhances prediction accuracy.
Item Type: | Thesis (Doctoral) |
---|---|
Uncontrolled Keywords: | Demam berdarah, Imbalanced data, Deteksi outlier ansambel IsFLOF, Seleksi fitur, Akurasi klasifikasi. Dengue fever, Imbalanced data, IsFLOF ensemble outlier detection, Random resampling, Feature selection, Classification accuracy. |
Subjects: | R Medicine > RA Public aspects of medicine T Technology > T Technology (General) > T57.5 Data Processing T Technology > T Technology (General) > T58.62 Decision support systems |
Divisions: | Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Electrical Engineering > 20001-(S3) PhD Thesis |
Depositing User: | Amiq Fahmi |
Date Deposited: | 10 Jan 2025 04:30 |
Last Modified: | 10 Jan 2025 04:30 |
URI: | http://repository.its.ac.id/id/eprint/116256 |
Actions (login required)
View Item |