Klasifikasi Data Imbalance Pada Retensi Mahasiswa Pendidikan Tinggi Vokasi dengan Metode Stacking Ensemble – Stratified Cross Validation

Jannah, Roudlotul (2024) Klasifikasi Data Imbalance Pada Retensi Mahasiswa Pendidikan Tinggi Vokasi dengan Metode Stacking Ensemble – Stratified Cross Validation. Masters thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 6003212002-Master_Thesis.pdf] Text
6003212002-Master_Thesis.pdf - Accepted Version
Restricted to Repository staff only until 1 April 2026.

Download (2MB) | Request a copy

Abstract

Retensi mahasiswa merupakan isu penting dalam Pendidikan Tinggi Vokasi. Ketidakmampuan untuk mempertahankan mahasiswa akan berdampak pada citra perguruan tinggi vokasi dalam menghasilkan lulusan yang kompeten dan berdaya saing sesuai kebutuhan pasar global. Sehubungan dengan hal tersebut, diperlukan analisis untuk memprediksi retensi mahasiswa yang bertujuan sebagai early warning system bagi perguruan tinggi. Pada data retensi mahasiswa terdapat permasalahan distribusi kelas tidak seimbang (imbalance), kondisi ini menjadi masalah dalam klasifikasi karena classifier akan condong memprediksi ke kelas mayoritas dibandingkan kelas minoritas. Oleh karena itu, pada penelitian ini diterapkan metode stacking ensemble – Stratified Cross Validation (Stacking – SCV) yang efektif untuk meminimumkan generalization error rate, mengatasi overfitting, dan dapat meningkatkan performa klasifikasi. Stacking merupakan salah-satu metode ensemble yang menggabungkan beberapa model melalui meta-learner. Penelitian ini, menggabungkan heterogeneous weak learner yaitu metode regresi logistik dan decision tree sebagai base-model. Selain itu, penelitian ini juga melakukan studi simulasi sebanyak 18 skenario dengan berbagai tingkatan rasio imbalance yaitu rasio imbalance rendah (60:40), sedang (75:25), dan tinggi (90:10) untuk mengetahui performansi metode yang diusulkan. Hasil analisis menunjukkan bahwa pada studi simulasi metode Stacking - SCV unggul pada rasio imbalance 75:25 dan 90:10 pada skenario dengan nilai mean dan std. deviasi yang sama pada setiap kelas. Pada analisis data riil, metode Stacking – SCV memiliki performansi yang lebih baik daripada metode base-model maupun metode ensemble lainnya dengan nilai AUC-ROC sebesar 88,23%.
=============================================================================================================================
Student retention rate is crucial issue in Vocational Higher Education. The ability to retain students will impact the institutution’s reputation for producing comptent and competitive graduates to the global market. In connection with this, an analysis is needed to predict student retention as an erly warning system for institutions. In the student retention data, there exists an issue of imbalanced class distribution, which poses a challenge in classification. This condition becomes problematic as classifiers tend to predict the majority class rather than the minority class. Hence, this research applies the Stacking ensemble method with Stratified Cross Validation (Stacking – SCV), which proves effective in minimizing the generalization error rate, addressing overfitting, and enhancing classification performance. Stacking is one of the ensemble methods that combines multiple models through a meta-learner. This research will combine heterogeneous weak learner as base model, specifically the logistic regression and decision tree methods. Furthermore, this research conducts a simulation study comprising 18 scenarios across various imbalance ratios, including low imbalance ratios (60:40), moderate (75:25) and high (90:10), aiming to ascertain the performance of the proposed method. The analysis results show that in the simulation study, the Stacking – SCV method is superior at imbalance ratios of 75:25 and 90:10 in scenario with the same mean and standart deviation values in each class. In the analysis of real data the Stacking – SCV method demonstrates superior performance compared to both the base model and other ensemble method, achieving an AUC-ROC value of 88,23%.

Item Type: Thesis (Masters)
Uncontrolled Keywords: Ensemble Learning, Kelas Imbalance, Pendidikan Tinggi Vokasi, Retensi Mahasiswa, Stacking-SCV, Ensemble Learning, Imbalance Class, Student Retention, Vocational Higher Education
Subjects: Q Science
Q Science > QA Mathematics
Q Science > QA Mathematics > QA336 Artificial Intelligence
Divisions: Faculty of Science and Data Analytics (SCIENTICS) > Statistics > 49101-(S2) Master Thesis
Depositing User: Roudlotul Jannah
Date Deposited: 10 Feb 2024 20:08
Last Modified: 10 Feb 2024 20:08
URI: http://repository.its.ac.id/id/eprint/106698

Actions (login required)

View Item View Item