Perbandingan Metode Ensemble Random Forest Dengan Smote-Boosting Dan Smote-Bagging Pada Klasifikasi Data Mining Untuk Kelas Imbalance (Studi Kasus : Data Beasiswa Bidikmisi Tahun 2017 di Jawa Timur) - A Comparison Of The Ensemble Random Forest Methods With Smote-Boosting And Smote-Bagging On Data Mining Classification For Imbalance Class

Pangastuti, Sinta Septi (2018) Perbandingan Metode Ensemble Random Forest Dengan Smote-Boosting Dan Smote-Bagging Pada Klasifikasi Data Mining Untuk Kelas Imbalance (Studi Kasus : Data Beasiswa Bidikmisi Tahun 2017 di Jawa Timur) - A Comparison Of The Ensemble Random Forest Methods With Smote-Boosting And Smote-Bagging On Data Mining Classification For Imbalance Class. Masters thesis, Institut Teknologi Sepuluh Nopember.

[img] Text
06211650010038-Master_Thesis.pdf - Published Version
Restricted to Repository staff only

Download (3MB) | Request a copy

Abstract

Teknik data mining dalam bidang pendidikan mulai berkembang, seiring dengan berkembangnya teknologi dan besarnya data yang dapat disimpan dalam sistem penyimpanan database pendidikan. Metode klasifikasi digunakan untuk mengelompokkan siswa kedalam kelas yang teridentifikasi. Namun dalam teknik klasifikasi kondisi imbalance class sering terjadi dan menjadi masalah, karena mesin klasifikasi akan condong memprediksi ke kelas mayoritas (kelas negatif) dibandingkan kelas minoritas (kelas positif). Hampir semua classifier termasuk random forest mengasumsikan sebuah pembagian yang rata antar kelas-kelas pengamatan. Random forest umumnya menunjukkan peningkatan kinerja yang besar dibandingkan CART dan C4.5 dan menghasilkan tingkat kesalahan generalisasi yang lebih baik dibandingkan dengan AdaBoost, dan lebih robust terhadap noise. Namun, seperti kebanyakan metode klasifikasi lainnya, random forest juga bisa menghasilkan hasil kurang optimal pada dataset yang imbalance. Alternatif lain dalam meningkatkan akurasi kelas imbalance adalah dengan menggunakan metode ensemble. Salah satu metode yang popular digunakan akhir-akhir ini yaitu SMOTE-Boosting dan SMOTE-Bagging yang mengkombinasikan algoritma pada level data yaitu SMOTE dengan metode ensemble. Data Bidikmisi yang digunakan dalam penelitian mempunyai 10 variabel nominal (X1-X10) dan 1 variabel rasio (X11). Berdasarkan kriteria performansi g-mean dan AUC dari kelas (Y) yang imbalance menunjukkan bahwa algoritma ensemble SMOTE-Bagging (g-mean=33,13% dan AUC=52,12%) dan SMOTE-Boosting (g-mean=30,22% dan AUC=50,76%) menunjukkan ketepatan klasifikasi yang cenderung lebih baik dibandingkan metode AdaBoost.M2 (g-mean=9,03% dan AUC=50,26%). Selisih antara kedua metode algoritma SMOTE-Boosting dan SMOTE-Bagging sangat kecil. Bisa dikatakan bahwa kedua metode tersebut cukup berhasil mengambil keuntungan dari dua algoritma boosting dan bagging dengan SMOTE. Ketika boosting dan bagging mempengaruhi akurasi dari random forest dengan berfokus pada semua kelas data, algoritma SMOTE merubah nilai performansi dari random forest hanya pada kelas minoritas. ============================================================ Data mining techniques in the field of education began to grow, along with the development of technology and the amount of data that can be stored in the database storage system of education. Classification methods are used to group students into identified classes. However, in classification techniques the imbalance class condition often occurs and becomes a problem. In the imbalanced classification, the training data set as one majority class could be far surpassed the training dataset as the minority class. This became a problem because classification will tend to predict the data come from the majority class (negative class) compared to the minority class (positive class). Almost all classifiers including random forest assume an equitable division between observation classes. Random forest generally shows a large performance increase compared to CART and C4.5 and results in a better generalization error rate compared to AdaBoost, and is more robust to noise. However, like most other classification methods, random forest can also produce less than optimal results on the imbalanced dataset. Another alternative in improving the accuracy of the imbalance class is by using the ensemble method. One popular method used recently is SMOTE-Boosting and SMOTE-Bagging that combine algorithms at data level ie SMOTE with ensemble method. Bidikmisi data used in the study have 10 nominal variables (X1-X10) and 1 ratio variable (X11). Based on the performance criteria of g-mean and AUC of class (Y) the imbalance shows that the ensemble algorithm SMOTE-Bagging (g-mean = 33.13% and AUC = 52.12%) and SMOTE-Boosting (g-mean = 30, 22% and AUC = 50.76%) showed better classification accuracy than the AdaBoost.M2 method (g-mean = 9.03% and AUC = 50.26%). The difference between the two SMOTE-Boosting and SMOTE-Bagging algorithms is very small. It can be said that both methods are quite successful to take advantage of two boosting and bagging algorithms with SMOTE. When boosting and bagging affect the accuracy of random forest by focusing on all data classes, the SMOTE algorithm alters the performance values of random forest only in minority classes.

Item Type: Thesis (Masters)
Additional Information: RTSt 006.312 Pan p-1 2018
Uncontrolled Keywords: AUC, Bagging, Beasiswa Bidikmisi, Boosting, Data mining, G-Mean, Imbalance Data, Random Forest, SMOTE
Subjects: Q Science > QA Mathematics > QA76.9.D343 Data mining
Divisions: Faculty of Mathematics, Computation, and Data Science > Statistics > (S2) Master Theses
Depositing User: Pangastuti Sinta Septi
Date Deposited: 17 Jan 2019 06:06
Last Modified: 14 May 2019 03:04
URI: http://repository.its.ac.id/id/eprint/58148

Actions (login required)

View Item View Item