Penerapan Combine Undersampling Pada Klasifikasi Data Imbalanced Biner (Studi Kasus : Desa Tertinggal Di Jawa Timur Tahun 2014)

Shintia, Rahma (2018) Penerapan Combine Undersampling Pada Klasifikasi Data Imbalanced Biner (Studi Kasus : Desa Tertinggal Di Jawa Timur Tahun 2014). Undergraduate thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of Rahma Shintia_06211440000032.pdf]
Preview
Text
Rahma Shintia_06211440000032.pdf - Accepted Version

Download (2MB) | Preview

Abstract

Regresi Logistik memiliki beberapa kelebihan dibandingkan metode klasifikasi lainnya yaitu sebagai classifier dengan akurasi yang cukup tinggi dan penggunaan algoritma yang tepat akan mampu menghasilkan waktu perhitungan yang lebih cepat khususnya pada data besar. Adanya permasalahan data yang tidak seimbang akan berpengaruh pada hasil ketepatan klasifikasi. Pada penelitian ini, metode resampling yang digunakan adalah Combine Undersampling dan metode classifier yang digunakan adalah Regresi Logistik, Regresi Logistik Ridge, dan Analisis Diskriminan Kernel. Data yang diteliti adalah data status desa tertinggal di Jawa Timur tahun 2014 sebanyak 7.721 desa. Penerapan Combine Undersampling mampu meningkatkan ketepatan klasifikasi pada rata-rata sensitivititas secara siginifikan khususnya pada klasifikasi Regresi Logistik Ridge sebesar 42,4 kali dengan menggunakan semua variabel. Selain itu, hasil ketepatan klasifikasi terbaik menunjukkan nilai akurasi total dan AUC yang sama ketika menerapkan metode Combine Undersampling pada Klasifikasi Analisis Diskriminan Kernel yaitu 78.0 % sedangkan pada variabel signifikan metode Regresi Logistik Ridge menghasilkan ketepatan klasifikasi lebih baik dari metode lainnya yang memiliki nilai AUC sebesar 73,5% .

=========================================================
Logistic regression has several advantages over other classification methods that is as a classifier with a fairly high accuracy and the use of appropriate algorithms will be able to produce faster calculation times, especially on large data. The existence of imbalanced data problems will affect the results of classification accuracy. In this research, the resampling method used is Combine Undersampling and the classifier method used are Logistic Regression, Ridge Logistic Regression, and Kernel Discriminant Analysis. The data studied is the status data of underdevelop villages in East Java in 2014 as many as 7,721 villages. The application of Combine Undersampling is able to increase the classification accuracy on the average sensitivity significantly in the Ridge Logistic Regression classification by 42.4 times using all the variables. In addition, the best classification accuracy results show the same total accuracy and AUC value when applying Combine Undersampling method in the Kernel Discriminant Classification Classification is 78.0% whereas in the significant variables the Ridge Logistic Regression method produces better classification accuracy than other methods which have AUC value of 73 , 5%.

Item Type: Thesis (Undergraduate)
Uncontrolled Keywords: Combine Undersampling, Data Imbalanced, Desa Tertinggal ======================================================= Combine Undersampling, Imbalanced Data, Kernel Underdevelop Village
Subjects: H Social Sciences > HA Statistics
H Social Sciences > HA Statistics > HA29 Theory and method of social science statistics
Q Science > QA Mathematics > QA353.K47 Kernel functions (analysis)
Divisions: Faculty of Mathematics and Science > Statistics > 49201-(S1) Undergraduate Thesis
Depositing User: Rahma Shintia
Date Deposited: 08 Jul 2021 09:07
Last Modified: 08 Jul 2021 09:07
URI: http://repository.its.ac.id/id/eprint/57190

Actions (login required)

View Item View Item