Implementasi Conditional Wasserstein GAN dengan Gradient Penalty untuk Pembangkitan Data Sintesis Tabular sebagai Metode Oversampling

Sadha, Ketut Arda Putra Mahotama (2025) Implementasi Conditional Wasserstein GAN dengan Gradient Penalty untuk Pembangkitan Data Sintesis Tabular sebagai Metode Oversampling. Other thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 5025211235-Undergraduate_Thesis.pdf]

Text
5025211235-Undergraduate_Thesis.pdf - Accepted Version
Restricted to Repository staff only
Download (5MB) | Request a copy

Abstract

Ketidakseimbangan kelas (class imbalance) merupakan permasalahan umum dalam pembelajaran mesin yang dapat menurunkan performa model klasifikasi karena kecenderungan model mengabaikan kelas minoritas. Penelitian ini mengimplementasikan Conditional Wasserstein Generative Adversarial Network dengan Gradient Penalty (CWGANGP) sebagai metode oversampling untuk mengatasi permasalahan tersebut. CWGANGP menggabungkan arsitektur GAN dengan fungsi loss WGAN-GP untuk meningkatkan stabilitas pelatihan, teknik normalisasi data kontinu pada CTGAN, serta menggunakan teknik training-by-sampling CTGAN untuk mempelajari tiap kategori dengan baik. Penelitian ini mengevaluasi performa CWGANGP dibandingkan dengan metode oversampling tradisional (SMOTE dan ADASYN) serta tanpa oversampling pada tiga dataset: HMEQ, Adult, dan Credit Approval. Eksperimen dilakukan dengan tiga algoritma pembelajaran mesin (Logistic Regression, Decision Tree, dan Random Forest) dan dievaluasi menggunakan enam metrik: precision, recall, specificity, F1-score, AUC-ROC, dan Brier score. Setiap skenario diulang 24 kali untuk memastikan konsistensi hasil. Hasil penelitian menunjukkan bahwa CWGANGP memiliki performa terbaik secara keseluruhan dengan peringkat rata-rata 2.148, diikuti oleh SMOTE (2.463), tanpa oversampling (2.537), dan ADASYN (2.852). CWGANGP menunjukkan konsistensi terbaik pada dataset Credit Approval dan Adult, sementara SMOTE unggul pada dataset HMEQ. Penelitian ini membuktikan bahwa CWGANGP dapat menghasilkan data sintetis yang efektif digunakan sebagai metode oversampling untuk meningkatkan performa klasifikasi pada dataset tidak seimbang dengan rata-rata +19,87% pada recall, +6,59% pada F1-Score, dan +6,67% pada AUC-ROC.
========================================================================================================================================
Class imbalance is a common problem in machine learning that can reduce the performance of classification models due to the model's tendency to ignore minority classes. This research implements Conditional Wasserstein Generative Adversarial Network with Gradient Penalty (CWGANGP) as an oversampling method to address this problem. CWGANGP combines GAN architecture with WGAN-GP loss function to improve training stability, continuous data normalization techniques from CTGAN, and uses CTGAN's training-by-sampling technique to learn each category well. This research evaluates CWGANGP's performance compared to traditional oversampling methods (SMOTE and ADASYN) as well as without oversampling on three datasets: HMEQ, Adult, and Credit Approval. Experiments were conducted with three machine learning algorithms (Logistic Regression, Decision Tree, and Random Forest) and evaluated using six metrics: precision, recall, specificity, F1-score, AUC-ROC, and Brier score. Each scenario was repeated 24 times to ensure result consistency. Research results show that CWGANGP has the best overall performance with an average ranking of 2.148, followed by SMOTE (2.463), without oversampling (2.537), and ADASYN (2.852). CWGANGP shows the best consistency on Credit Approval and Adult datasets, while SMOTE excels on the HMEQ dataset. This research proves that CWGANGP can generate synthetic data that is effectively used as an oversampling method to improve classification performance on imbalanced datasets with an average improvement of +19.87% in recall, +6.59% in F1-Score, and +6.67% in AUC-ROC.

Item Type:	Thesis (Other)
Uncontrolled Keywords:	Conditional GAN, Class Imbalance, Data Sintesis, Generative Adversarial Networks (GANs), Gradient Penalty, Wasserstein GAN Conditional GAN, Class Imbalance, Synthetic Data, Generative Adversarial Networks (GANs), Gradient Penalty, Wasserstein GAN.
Subjects:	Q Science > Q Science (General) > Q325.5 Machine learning. Support vector machines. Q Science > QA Mathematics > QA336 Artificial Intelligence Q Science > QA Mathematics > QA76.87 Neural networks (Computer Science) T Technology > T Technology (General) > T57.5 Data Processing
Divisions:	Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Informatics Engineering > 55201-(S1) Undergraduate Thesis
Depositing User:	Ketut Arda Putra Mahotama Sadha
Date Deposited:	25 Jul 2025 07:23
Last Modified:	25 Jul 2025 07:23
URI:	http://repository.its.ac.id/id/eprint/121494

Actions (login required)

View Item