Analisis Entropy Based Fuzzy Membership sebagai Penimbang pada Weighted Logistic Regression untuk Klasifikasi Data Tidak Seimbang (Studi Kasus : Klasifikasi Rumah Tangga Miskin di Jawa Timur)

Harumeka, Ajiwasesa (2021) Analisis Entropy Based Fuzzy Membership sebagai Penimbang pada Weighted Logistic Regression untuk Klasifikasi Data Tidak Seimbang (Studi Kasus : Klasifikasi Rumah Tangga Miskin di Jawa Timur). Masters thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 06211950017007-Master_Thesis.pdf] Text
06211950017007-Master_Thesis.pdf - Accepted Version
Restricted to Repository staff only until 1 October 2023.

Download (2MB) | Request a copy

Abstract

Dalam hal klasifikasi, terdapat permasalahan ketidakseimbangan data, yaitu jumlah kelas yang satu lebih sedikit dibanding yang lain. Hal tersebut mengakibatkan akurasi kelas minoritas akan menjadi rendah. Untuk mengatasinya, pendekatan pada level algoritma dipandang memiliki kelebihan, yaitu tidak perlu merubah distribusi data training. Rare Event-Weighted Logistic Regression (RE-WLR), sebagai metode dengan pendekatan level algoritma, merupakan pengembangan dari regresi logistik yang menggabungkan unsur algoritma Truncated Regularized Iteratively Re-weighted Least Square (TR-IRLS) dan regresi logistik dengan penimbang. TR-IRLS mengungguli Support Vector Machine (SVM) dari sisi kecepatan pengolahan, terutama pada data besar. SVM telah banyak berkembang untuk permasalahan imbalanced, diantaranya adalah Fuzzy Support Vector Machine (FSVM) dan Entropy Based Fuzzy Support Vector Machine (EFSVM). FSVM dan RE-WLR memiliki persamaan, yaitu memiliki satu nilai penimbang yang sama untuk semua observasi pada kelas mayoritas. Observasi kelas mayoritas pada EFSVM memiliki nilai penimbang yang berbeda berdasarkan entropynya. Entropy merupakan nilai yang dapat memberikan informasi kepentingan kelas dari suatu observasi. Entropy based fuzzy membership (EF) pada SVM meningkatkan performa SVM untuk data imbalanced, bahkan mengungguli FSVM. Penelitian ini mengusulkan penggunaan EF pada algoritma TR-IRLS, yang disebut Entropy Based Fuzzy-Weighted Logistic Regression (EF-WLR). Metode ini diterapkan pada 24 data simulasi, 5 data benchmark, dan 1 data studi kasus untuk mengklasifikasikan rumah tangga miskin di Jawa Timur, kemudian diukur performanya menggunakan Area Under ROC-curve (AUC) dan G-mean, serta dibandingkan dengan TR-IRLS dan RE-WLR. Data studi kasus yang digunakan adalah data rumah tangga yang berasal dari Survei Sosial Ekonomi Nasional (Susenas) yang dilakukan oleh Badan Pusat Statistik (BPS). Data hasil susenas tidak dapat digunakan untuk program pengentasan kemiskinan yang menyasar rumah tangga, sehingga pemerintah membangun Basis Data Terpadu (BDT). BDT harus diupdate sekurang-kurangnya satu kali dalam dua tahun. Metode klasifikasi dapat membantu proses updating dengan melibatkan variabel non-moneter. Hasilnya, EF-WLR memberikan performa yang lebih baik, khususnya pada data dengan rarity 5%, 10%, dan 20%, serta menghasilkan AUC yang lebih efisien.
======================================================================================================
In terms of classification, there is a data imbalance problem, namely the number of one class is less than the other. This causes the accuracy of the minority class to be low. To overcome this, the approach at the algorithm level is considered to have advantages, namely that there is no need to change the distribution of training data. Rare Event-Weighted Logistic Regression (RE-WLR), as a method with a level algorithm approach, is a development of logistic regression that combines elements of the Truncated Regularized Iteratively Re-weighted Least Square (TR-IRLS) algorithm and logistic regression with weighting. TR-IRLS outperforms the Support Vector Machine (SVM) in terms of processing speed, especially on large data. SVM has developed a lot for imbalanced problems, including the Fuzzy Support Vector Machine (FSVM) and the Entropy Based Fuzzy Support Vector Machine (EFSVM). FSVM and RE-WLR are similar, namely they have the same weighting value for all observations in the majority class. The majority class observations in EFSVM have different weight values based on their entropy. Entropy is a value that can provide information on the class importance of an observation. The use of Entropy based fuzzy membership (EF) in SVM improves SVM performance for imbalanced data, even outperforming FSVM. This study proposes the use of EF on the TR-IRLS algorithm, which is called Entropy Based Fuzzy-Weighted Logistic Regression (EF-WLR). This method was applied to 24 simulation data, 5 benchmark data, and 1 case study data to classify household poverty in East Java, then their performance was measured using Area Under ROC-curve (AUC) and G-mean, and compared with TR-IRLS and RE-WLR. The case study data used are household data from the National Socio-Economic Survey (Susenas) conducted by the Indonesian Bureau of Statistics (BPS). Susenas data cannot be used for poverty alleviation programs targeting households, so the government builds an Integrated Database (BDT). The BDT must be updated at least once every two years. The classification method can help the updating process by involving non-monetary variables. As a result, the EF-WLR provides better performance, especially on data with 5%, 10%, and 20% rarities, and produce an eficient AUC.

Item Type: Thesis (Masters)
Uncontrolled Keywords: Data Tidak Seimbang, Entropy Based Fuzzy Membership, Kemiskinan, Klasifikasi, Weighted Logistic Regression Classification, Entropy Based Fuzzy Membership, Imbalanced, Poverty, Weighted Logistic Regression
Subjects: Q Science > QA Mathematics > QA278.2 Regression Analysis. Logistic regression
Divisions: Faculty of Science and Data Analytics (SCIENTICS) > Statistics > 49101-(S2) Master Thesis
Depositing User: Ajiwasesa Harumeka
Date Deposited: 10 Sep 2021 04:01
Last Modified: 10 Sep 2021 04:01
URI: http://repository.its.ac.id/id/eprint/91959

Actions (login required)

View Item View Item