Random Forest Dengan Adaptive Synthetic Sampling- Nominal Continuous Dan Cost Sensitive Learning Pada Klasifikasi Imbalanced Data (Studi Kasus Pembiayaan PT. BPRS XYZ)

Putra, Rizky Ferdiansyah (2024) Random Forest Dengan Adaptive Synthetic Sampling- Nominal Continuous Dan Cost Sensitive Learning Pada Klasifikasi Imbalanced Data (Studi Kasus Pembiayaan PT. BPRS XYZ). Masters thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 6003221028-Master_Thesis.pdf] Text
6003221028-Master_Thesis.pdf - Accepted Version
Restricted to Repository staff only until 1 October 2026.

Download (2MB) | Request a copy

Abstract

Machine learning adalah disiplin ilmu yang mempelajari algoritma komputer yang digunakan untuk mengubah data menjadi informasi dengan cara mengidentifikasi pola-pola yang terdapat dalam data tersebut. Machine learning secara umum dibagi menjadi tiga, yaitu supervised, unsupervised, dan reinforcement. Penelitian ini berfokus pada supervised, khususnya Random Forest (RF). RF telah terbukti dapat tampil unggul berdasarkan beberapa penelitian yang telah dilakukan. Namun demikian, performa RF menurun ketika diterapkan pada
imbalanced data, seperti pada data klasifikasi pembiayaan, dimana kelas lancar jauh lebih banyak daripada kelas bermasalah. Penurunan ini secara umum dapat diatasi menggunakan tiga pendekatan, yaitu level data, algoritma, dan hybrid. Salah satu pendekatan level data yang umum digunakan yaitu ADASYN. ADASYN adalah pengembangan dari SMOTE, dengan mempertimbangkan tingkat kesulitan observasi minoritas untuk dipelajari. ADASYN terbukti lebih unggul daripada SMOTE, namun ADASYN hanya dapat digunakan pada data dengan prediktor numerik. Oleh karena itu, peneliti mengusulkan ADASYN-NC yang dapat digunakan untuk prediktor campuran. Hasil analisis menunjukkan bahwa ADASYN-NC dapat diterapkan pada data klasifikasi pembiayaan yang memiliki
prediktor campuran, dengan memodifikasi perhitungan jarak pada ADASYN menggunakan prinsip jarak seperti pada SMOTE-NC. Metode penanganan imbalanced mampu meningkatkan performa RF, dengan classifier terbaik yang terpilih yaitu ADASYN-NC RF. ADASYN-NC RF unggul dalam ketiga metrik ukuran, yaitu G-mean, AUC, dan F-measure. Prediktor yang memberikan kontribusi tertinggi pada klasifikasi pembiayaan diantaranya pembiayaan aktif, lokasi pengajuan, nominal pembiayaan, usia dan jangka waktu
============================================================
Machine learning is a discipline that studies computer algorithms used to convert data into information by identifying patterns in the data. Machine learning is generally divided into three, namely supervised, unsupervised, and reinforcement. This research focuses on supervised, specifically Random Forest(RF). RF has been proven to excel based on several studies that have been conducted. However, RF performance decreases when applied to imbalanced data, such as in financing classification data, where the current class is much more than the delinquent class. This degradation can generally be overcome using three approaches, namely data level, algorithm, and hybrid. One commonly used data�level approach is ADASYN. ADASYN is an extension of SMOTE, taking into account the difficulty level of minority observations to learn. ADASYN is proven
to be superior to SMOTE, but ADASYN can only be used on data with numerical predictors. Therefore, we proposed ADASYN-NC which can be used for mixed predictors. The analysis shows that ADASYN-NC can be applied to financing classification data with mixed predictors, by modifying the distance calculation in ADASYN using the distance principle as in SMOTE-NC. The imbalanced handling method is able to improve the performance of RF, with the best classifier selected
being ADASYN-NC RF. ADASYN-NC RF excels in all three metrics, namely G-mean, AUC, and F-measure. Predictors that contribute the most to the classification of financing include active financing, application location, financing amount, age and financing period.

Item Type: Thesis (Masters)
Uncontrolled Keywords: Adaptive Synthethic Sampling- Nominal Continuous, Imbalanced Data, Klasifikasi Pembiayaan, Random Forest, Adaptive Synthethic Sampling- Nominal Continuous, Financing Classification, Imbalanced Data, Random Forest.
Subjects: H Social Sciences > HA Statistics
H Social Sciences > HA Statistics > HA31.7 Estimation
Divisions: Faculty of Mathematics and Science > Statistics > 49101-(S2) Master Thesis
Depositing User: Rizky Ferdiansyah Putra
Date Deposited: 07 Aug 2024 22:32
Last Modified: 25 Sep 2024 02:27
URI: http://repository.its.ac.id/id/eprint/114125

Actions (login required)

View Item View Item