Perbandingan Metode Rare Event Weighted Logistic Regression Dan Truncated Regularized Prior Correction Untuk Klasifikasi Pada Imbalanced Data (Studi Kasus: Klasifikasi Tingkat Kesejahteraan di Provinsi Bali)

Triasmoro, Sony Puji (2018) Perbandingan Metode Rare Event Weighted Logistic Regression Dan Truncated Regularized Prior Correction Untuk Klasifikasi Pada Imbalanced Data (Studi Kasus: Klasifikasi Tingkat Kesejahteraan di Provinsi Bali). Masters thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 1316201702-Master_Thesis.PDF]
Preview
Text
1316201702-Master_Thesis.PDF - Accepted Version

Download (2MB) | Preview

Abstract

Kemiskinan menjadi masalah yang tetap harus diselesaikan dan membutuhkan program-program penanggulangan kemiskinan yang dilakukan secara tepat. Kesalahan klasifikasi dalam pelaksanaan program penanggulangan kemiskinan seperti inclusion error (rumah tangga yang tidak berhak menerima manfaat, tetapi menerima manfaat) dan exclusion error (rumah tangga yang berhak menerima manfaat, tetapi tidak masuk sebagai penerima manfaat) harus diminimalisir sekecil mungkin. Untuk itu dibutuhkan metodologi dalam menentukan klasifikasi tingkat kesejahteraan rumah tangga yang tepat. Regresi logistik adalah metode analisis yang dapat digunakan untuk melakukan klasifikasi data. Akan tetapi ketika digunakan dalam kasus tingkat kesejahteraan di Indonesia yang datanya bersifat imbalanced, maka metode regresi logistik biasa tidak tepat digunakan. Hal ini disebabkan regresi logistik cenderung menihilkan peluang dari kelompok minoritas karena nilai prediksi akan cenderung kepada kategori data yang mayoritas sehingga tingkat ketepatan yang dihasilkan menjadi kurang baik. Rare Events Weighted Logistic Regression (RE-WLR) dan Truncated Regularized Prior Correction (TR-PC) merupakan pengembangan dari regresi logistik yang digunakan untuk mengatasi kelemahan pada kasus imbalanced data. Penelitian ini menerapkan metode RE-WLR dan TR-PC dengan menggunakan 14 variabel penelitian dan hasilnya adalah didapatkan 10 variabel yang signifikan dalam model RE-WLR dan TR-PC dan 4 variabel lainnya tidak signifikan dalam kedua model. Indikator yang digunakan untuk mengukur akurasi performa model dalam memprediksi kelas positif (rumah tangga miskin) dan kelas negatif (rumah tangga tidak miskin) dalam penelitian ini adalah nilai AUC (Area Under Curve) dan G-mean. Hasil penelitian ini menunjukkan model RE-WLR mampu memberikan hasil akurasi yang lebih baik dibandingkan model TR-PC dan regresi logistik dengan nilai G-mean sebesar 83,47 persen dan nilai AUC adalah 0,836
(kategori baik). Nilai ini di atas nilai G-mean dari model TR-PC 73,68 persen dan nilai AUC dari model TR-PC yaitu 0,762 (kategori cukup).
==================================================================================================================
Poverty is a problem that remains to be resolved and requires appropriate
poverty reduction programs. Error classification in the implementation of poverty
reduction programs such as inclusion error (households that are not entitled to
receive benefits, but receive benefits) and exclusion error (households who are
eligible to receive benefits, but not included as beneficiaries) should be minimized
as little as possible. Therefore, methodology is needed in determining the proper
classification of household welfare. Logistic regression is an analytical method
that can be used to classify data. However, when used in cases of welfare in
Indonesia where the data are imbalanced, the usual logistic regression method is
not appropriately used. This is due to logistic regression tends to nullify the
opportunities of minority groups because predicted values will tend to the
category of data that the majority so that the resulting accuracy becomes less
good.
Rare Events Weighted Logistic Regression (RE-WLR) and Truncated
Regularized Prior Correction (TR-PC) are the development of logistic regression
used to overcome weaknesses in the case of imbalanced data. This research
applies RE-WLR and TR-PC method using 14 research variables and the result is
found 10 significant variables in RE-WLR and TR-PC model and 4 other
variables are not significant in both models. Indicators used to measure the
accuracy of model performance in predicting positive (poor household) and
negative class (non-poor households in this study were AUC and G-mean
values.This study showed that RE-WLR model was able to give more accuracy
result both compared to TR-PC model and logistic regression with G-mean value
of 83.47 percent and AUC value is 0.836 (good category) .This value is above the
G-mean value of TR-PC model is 73.68 percent and the AUC value of model TRPC is 0.762 (enough category).

Item Type: Thesis (Masters)
Additional Information: RTSt 519.536 Tri p
Uncontrolled Keywords: Klasifikasi; Kemiskinan; Regresi Logistik; Imbalanced data; Classification; Poverty; Logistic Regression; Imbalanced data
Subjects: H Social Sciences > HA Statistics
Q Science > QA Mathematics > QA278.2 Regression Analysis. Logistic regression
Divisions: Faculty of Mathematics, Computation, and Data Science > Statistics > 49101-(S2) Master Thesis
Depositing User: Triasmoro Sony Puji
Date Deposited: 01 Feb 2018 05:08
Last Modified: 10 Sep 2020 06:56
URI: http://repository.its.ac.id/id/eprint/50964

Actions (login required)

View Item View Item