Model Random Forest Dengan Cost-Sensitive Learning Dan Feature Selection Pada Klasifikasi Biner Imbalanced Data ( Studi Kasus Fraud Pada Aplikasi Pinjaman Online)

Agustina, Karina (2023) Model Random Forest Dengan Cost-Sensitive Learning Dan Feature Selection Pada Klasifikasi Biner Imbalanced Data ( Studi Kasus Fraud Pada Aplikasi Pinjaman Online). Masters thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 6003202022-Master_Thesis.pdf] Text
6003202022-Master_Thesis.pdf - Accepted Version
Restricted to Repository staff only until 1 April 2025.

Download (12MB) | Request a copy

Abstract

Layanan pinjaman online merupakan salah satu inovasi yang mengombinasikan antara sistem penyaluran kredit dengan teknologi digital sehingga dapat diakses dengan cara dan syarat yang mudah, cepat, dan efisien. Kemudahan akses yang diberikan mendorong peningkatan pertumbuhan aplikasi pinjaman online dari tahun ke tahun namun juga meningkatkan risiko transaksi penipuan (fraud). Oleh karena itu, sistem deteksi fraud menjadi kebutuhan esensial bagi lembaga keuangan penyalur kredit untuk meminimalisasi risiko kerugian yang dapat ditimbulkan. Penelitian ini berfokus untuk mengembangkan algoritma klasifikasi Cost Sensitive Weighted Random Forest (CSWRF) yang dapat mengatasi masalah imbalanced class pada data riil fraud detection dan fraud prevention pada pinjaman online. Untuk meningkatkan kemampuan prediksi setiap pohon dan kinerja keseluruhan ensemble, fungsi biaya didefinisikan berdasarkan tingkat kesalahan klasifikasi, baik mayoritas maupun minoritas. Pohon-pohon diberi bobot berdasarkan jumlah error. Pohon dengan tingkat error yang lebih rendah diberi bobot yang lebih tinggi. Skema pembelajaran berbasis biaya ini diadaptasi untuk memberikan penekanan lebih pada pembelajaran kelas minoritas. Selain itu, metode Recursive Feature Elimination and Cross Validation (RFECV) digunakan untuk menghilangkan fitur yang tidak penting yang justru memberikan bias terhadap hasil klasifikasi. Hasil analisis menunjukkan bahwa metode CSWRF dengan parameter Mtry 6 dan Dtree 75 merupakan model terbaik untuk klasifikasi fraud detection dengan AUC 67.25% serta variabel-variabel yang berpengaruh yaitu zero payer, first payment default, second payment default, pendidikan, third payment default, bank pencairan, masa tunggakan terlama, kota KTP, kode referal, dan marketing channel. Selanjutnya pada model fraud prevention, klasifikasi terbaik dihasilkan oleh CSWRF RFECV dengan parameter Mtry 6 dan Dtree 75 yang dapat menghasilkan AUC sebesar 64.68%. Variabel-variabel yang berpengaruh pada model fraud prevention yaitu pendidikan, bank pencairan, kode referal, kota KTP, kesamaan e-mail, kota domisili, marketing channel, jenis perangkat, tujuan meminjam, dan pendapatan
====================================================================================================================================
Online loan is one of the innovations that combine credit distribution system with digital technology so it can be accessed in easy, fast, and efficient ways and terms. The ease of access provided encourages the increase in the growth of online loan application from year to year but also increases the risk of fraudulent transactions (fraud). Therefore, a fraud detection system is an essential requirement for credit financial distribution institutions to minimize the risk of losses that may arise. This study focuses on developing a Cost Sensitive Weighted Random Forest classification algorithm that can solve the class imbalance problem in online loan fraud detection data. To improve the prediction ability of each tree, and the overall performance of the ensemble, a cost-function is defined, based on the misclassification rate of the instances, both majority and minority. The trees are given weightage based on the quantity of error. The trees with lower error-rate are given higher weightage. This cost- driven learning scheme is adapted to give more emphasis on learning the minority class instances. In addition, the Recursive Feature Elimination and Cross Validation (RFECV) method used to eliminate unimportant features biases in the classification results. The results of the analysis show that the CSWRF method with Mtry 6 and Dtree 75 parameters is the best model for fraud detection classification with an AUC of 67.25% and the influential variables are zero payer, first payment default, second payment default, education, third payment default, disbursement bank, longest arrears period, KTP city, referral code, and marketing channel. Furthermore, in the fraud prevention model, the best classification is produced by CSWRF RFECV with Mtry 6 and Dtree 75 parameters which can produce an AUC of 64.68%. The variables that influence the fraud prevention model are education, disbursement bank, referral code, KTP city, e-mail similarity, housing city, marketing channel, device type, loan purpose, and income

Item Type: Thesis (Masters)
Uncontrolled Keywords: Cost Sensitive Weighted Random Forest, RFECV, Imbalanced Data, Fraud Detection
Subjects: Q Science > QA Mathematics
Divisions: Faculty of Science and Data Analytics (SCIENTICS) > Statistics > 49101-(S2) Master Thesis
Depositing User: Karina Agustina
Date Deposited: 09 Mar 2023 01:01
Last Modified: 09 Mar 2023 01:01
URI: http://repository.its.ac.id/id/eprint/97743

Actions (login required)

View Item View Item