Studi Simulasi Robustness Pada Model Svr Dan Random Forest Serta Aplikasi Pada Pemodelan Inflasi Dan Pertumbuhan Ekonomi

Hia, Supriadi (2022) Studi Simulasi Robustness Pada Model Svr Dan Random Forest Serta Aplikasi Pada Pemodelan Inflasi Dan Pertumbuhan Ekonomi. Masters thesis, Institut Teknologi Sepuluh Nopember Surabaya.

[thumbnail of 6003201025-Master_Thesis.pdf] Text
6003201025-Master_Thesis.pdf - Accepted Version
Restricted to Repository staff only until 1 November 2024.

Download (7MB) | Request a copy

Abstract

Statistik klasik biasanya didasarkan pada model parametrik, yang hasilnya sangat bergantung pada asumsi dan sifat beberapa pengamatan dalam sampel, serta tidak robust misalnya dengan adanya outlier dalam data. Outlier pada time series berbeda dengan outlier pada data cross-sectional. Dalam time series, urutan data sangat penting karena berkaitan dengan waktu. Tidak ada aturan baku untuk menangani outlier, tetapi penanganannya harus hati-hati. Outlier dapat dihilangkan, tetapi juga dapat diakomodasi dalam analisis data jika memberikan informasi yang bermanfaat. Pandemi COVID-19 telah membawa perubahan dramatis dalam kehidupan sehari-hari, seperti gaya hidup dan pekerjaan. Aktivitas ekonomi masyarakat mengalami penurunan seiring dengan berlanjutnya pandemi. Hal ini terlihat pada indikator makro ekonomi seperti inflasi dan pertumbuhan ekonomi, dimana pola atau tren dari keduanya telah berubah atau tidak mengikuti pola sebelumnya sejak pandemi. Dalam studi time series, hal ini dapat terindikasi sebagai outlier, sementara outlier berdampak buruk pada hasil analisis data. Banyak metode klasik dalam statistik ofisial rentan terhadap outlier. Penelitian ini mengevaluasi metode machine learning yaitu Support Vector Regression (SVR) dan Random Forest (RF) untuk mengetahui robustness dari keduanya melalui studi simulasi dan studi kasus, dimana data yang digunakan merupakan data time series yang mengandung outlier. Ukuran robustness berdasarkan sensitivitas nilai-nilai hyperparameter dari SVR dan Random Forest ketika ada outlier dalam data. Model yang robust menghasilkan error yang lebih kecil dibandingkan model lainnya pada saat memodelkan data yang mengadung outlier. Dari simulasi didapatkan bahwa semakin banyak outlier maka semakin besar nilai RMSE, sebaliknya semakin banyak sampel maka nilai RMSE akan semakin rendah. Tipe outlier cukup berpengaruh terhadap nilai RMSE pada model ARIMA, dimana Additive Outlier akan memberikan dampak yang lebih buruk dibandingkan Temporary Change. Sementara pada SVR dan Random Forest, tipe outlier tidak memberikan pengaruh yang berarti. Outlier yang berurutan memberikan nilai rata-rata RMSE yang lebih kecil dibandingkan outlier yang bersifat tidak berurutan. Hal terjadi karena ada kemungkinan bahwa outlier yang berurutan akan bergabung dan membentuk 1 jenis outlier saja. Hal ini mengurangi jumlah outlier dalam series sehingga nilai rata-rata RMSE akan menjadi lebih rendah. Berdasarkan sensitivitas nilai-nilai hyperparemeter, model SVR dan Random Forest cukup robust terhadap keberadaan outlier dalam data. Berdasarkan hasil simulasi dengan 100 kali replikasi, didapatkan bahwa SVR lebih robust dibandingkan ARIMA dan Random Forest dalam memodelkan data time series yang mengandung outlier. Dengan menjadikan outlier sebagai variabel dummy, maka akurasi pemodelan pada ARIMA, SVR dan Random Forest akan semakin baik. Random Forest tidak terlalu baik untuk memprediksi data time series yang mengandung outlier
=======================================================================================================================================
Statistik klasik biasanya didasarkan pada parametrik model, yang hasilnya sangat bergantung pada asumsi dan sifat beberapa pengamatan dalam sampel, serta tidak kuat misalnya dengan adanya outlier dalam data. Outlier pada time series berbeda dengan outlier pada data cross-sectional. Dalam deret waktu, urutan data sangat penting karena berkaitan dengan waktu. Tidak ada aturan baku untuk menangani outlier, tetapi penanganannya harus hati-hati. Outlier dapat dihilangkan, tetapi juga dapat diakomodasi dalam analisis data jika memberikan informasi yang bermanfaat. Pandemi COVID-19 telah membawa perubahan dramatis dalam kehidupan sehari-hari, seperti gaya hidup dan pekerjaan. Aktivitas ekonomi masyarakat mengalami penurunan seiring dengan berlanjutnya pandemi. Hal ini terlihat pada indikator makro ekonomi seperti inflasi dan pertumbuhan ekonomi, dimana pola atau tren dari keduanya telah berubah atau tidak mengikuti pola sebelumnya sejak pandemi. Dalam studi time series, hal ini dapat terindikasi sebagai outlier, sementara outlier berdampak buruk pada hasil analisis data. Banyak metode klasik dalam statistik ofisial yang rentan terhadap outlier. Penelitian ini menguji metode pembelajaran mesin yaitu Support Vector Regression (SVR) dan Random Forest (RF) untuk mengetahui ketahanan dari keduanya melalui studi simulasi dan studi kasus, dimana data yang digunakan merupakan data time series yang mengandung outlier. Ukuran robustness berdasarkan sensitivitas nilai-nilai hyperparameter dari SVR dan Random Forest bila ada outlier dalam data. Model yang kuat menghasilkan error yang lebih kecil dibandingkan model lainnya pada saat memodelkan data yang mengadung outlier. Dari simulasi yang didapatkan bahwa semakin banyak outlier maka semakin besar nilai RMSE, sebaliknya semakin banyak sampel maka nilai RMSE akan semakin rendah. Tipe outlier cukup berpengaruh terhadap nilai RMSE pada model ARIMA, dimana Additive Outlier akan memberikan dampak yang lebih buruk dibandingkan Temporary Change. Sementara pada SVR dan Random Forest, tipe outlier tidak memberikan pengaruh yang berarti. Outlier yang berurutan memberikan nilai rata-rata RMSE yang lebih kecil dibandingkan outlier yang bersifat tidak berurutan. Hal itu terjadi karena ada kemungkinan outlier yang berutan akan bergabung dan membentuk 1 jenis outlier saja. Hal ini mengurangi jumlah outlier dalam series sehingga nilai rata-rata RMSE akan menjadi lebih rendah. Berdasarkan sensitivitas nilai-nilai hyperparemeter, model SVR dan Random Forest cukup kuat terhadap keberadaan outlier dalam data. Berdasarkan hasil simulasi dengan 100 kali replikasi, didapatkan bahwa SVR lebih kuat dibandingkan ARIMA dan Random Forest dalam memodelkan data time series yang mengandung outlier. Dengan menjadikan outlier sebagai variabel dummy, maka akurasi pemodelan pada ARIMA, SVR dan Random Forest akan semakin baik. Random Forest tidak terlalu baik untuk memprediksi data time series yang mengandung outlier

Item Type: Thesis (Masters)
Additional Information: RTSt 519.536 Hia s-1 2022
Uncontrolled Keywords: Outlier, Random Forest, Robustness, Support Vector Regression;
Subjects: Q Science > QA Mathematics > QA278.2 Regression Analysis. Logistic regression
Divisions: Faculty of Science and Data Analytics (SCIENTICS) > Statistics > 49101-(S2) Master Thesis
Depositing User: EKO BUDI RAHARJO
Date Deposited: 28 Mar 2023 02:03
Last Modified: 28 Mar 2023 02:03
URI: http://repository.its.ac.id/id/eprint/97813

Actions (login required)

View Item View Item