Hia, Supriadi (2022) Studi Simulasi Robustness Pada Model Svr Dan Random Forest Serta Aplikasi Pada Pemodelan Inflasi Dan Pertumbuhan Ekonomi. Masters thesis, Institut Teknologi Sepuluh Nopember Surabaya.
Text
6003201025-Master_Thesis.pdf - Accepted Version Restricted to Repository staff only until 1 November 2024. Download (7MB) | Request a copy |
Abstract
Statistik klasik biasanya didasarkan pada model parametrik, yang hasilnya sangat bergantung pada asumsi dan sifat beberapa pengamatan dalam sampel, serta tidak robust misalnya dengan adanya outlier dalam data. Outlier pada time series berbeda dengan outlier pada data cross-sectional. Dalam time series, urutan data sangat penting karena berkaitan dengan waktu. Tidak ada aturan baku untuk menangani outlier, tetapi penanganannya harus hati-hati. Outlier dapat dihilangkan, tetapi juga dapat diakomodasi dalam analisis data jika memberikan informasi yang bermanfaat. Pandemi COVID-19 telah membawa perubahan dramatis dalam kehidupan sehari-hari, seperti gaya hidup dan pekerjaan. Aktivitas ekonomi masyarakat mengalami penurunan seiring dengan berlanjutnya pandemi. Hal ini terlihat pada indikator makro ekonomi seperti inflasi dan pertumbuhan ekonomi, dimana pola atau tren dari keduanya telah berubah atau tidak mengikuti pola sebelumnya sejak pandemi. Dalam studi time series, hal ini dapat terindikasi sebagai outlier, sementara outlier berdampak buruk pada hasil analisis data. Banyak metode klasik dalam statistik ofisial rentan terhadap outlier. Penelitian ini mengevaluasi metode machine learning yaitu Support Vector Regression (SVR) dan Random Forest (RF) untuk mengetahui robustness dari keduanya melalui studi simulasi dan studi kasus, dimana data yang digunakan merupakan data time series yang mengandung outlier. Ukuran robustness berdasarkan sensitivitas nilai-nilai hyperparameter dari SVR dan Random Forest ketika ada outlier dalam data. Model yang robust menghasilkan error yang lebih kecil dibandingkan model lainnya pada saat memodelkan data yang mengadung outlier. Dari simulasi didapatkan bahwa semakin banyak outlier maka semakin besar nilai RMSE, sebaliknya semakin banyak sampel maka nilai RMSE akan semakin rendah. Tipe outlier cukup berpengaruh terhadap nilai RMSE pada model ARIMA, dimana Additive Outlier akan memberikan dampak yang lebih buruk dibandingkan Temporary Change. Sementara pada SVR dan Random Forest, tipe outlier tidak memberikan pengaruh yang berarti. Outlier yang berurutan memberikan nilai rata-rata RMSE yang lebih kecil dibandingkan outlier yang bersifat tidak berurutan. Hal terjadi karena ada kemungkinan bahwa outlier yang berurutan akan bergabung dan membentuk 1 jenis outlier saja. Hal ini mengurangi jumlah outlier dalam series sehingga nilai rata-rata RMSE akan menjadi lebih rendah. Berdasarkan sensitivitas nilai-nilai hyperparemeter, model SVR dan Random Forest cukup robust terhadap keberadaan outlier dalam data. Berdasarkan hasil simulasi dengan 100 kali replikasi, didapatkan bahwa SVR lebih robust dibandingkan ARIMA dan Random Forest dalam memodelkan data time series yang mengandung outlier. Dengan menjadikan outlier sebagai variabel dummy, maka akurasi pemodelan pada ARIMA, SVR dan Random Forest akan semakin baik. Random Forest tidak terlalu baik untuk memprediksi data time series yang mengandung outlier
=======================================================================================================================================
Statistik klasik biasanya didasarkan pada parametrik model, yang hasilnya sangat bergantung pada asumsi dan sifat beberapa pengamatan dalam sampel, serta tidak kuat misalnya dengan adanya outlier dalam data. Outlier pada time series berbeda dengan outlier pada data cross-sectional. Dalam deret waktu, urutan data sangat penting karena berkaitan dengan waktu. Tidak ada aturan baku untuk menangani outlier, tetapi penanganannya harus hati-hati. Outlier dapat dihilangkan, tetapi juga dapat diakomodasi dalam analisis data jika memberikan informasi yang bermanfaat. Pandemi COVID-19 telah membawa perubahan dramatis dalam kehidupan sehari-hari, seperti gaya hidup dan pekerjaan. Aktivitas ekonomi masyarakat mengalami penurunan seiring dengan berlanjutnya pandemi. Hal ini terlihat pada indikator makro ekonomi seperti inflasi dan pertumbuhan ekonomi, dimana pola atau tren dari keduanya telah berubah atau tidak mengikuti pola sebelumnya sejak pandemi. Dalam studi time series, hal ini dapat terindikasi sebagai outlier, sementara outlier berdampak buruk pada hasil analisis data. Banyak metode klasik dalam statistik ofisial yang rentan terhadap outlier. Penelitian ini menguji metode pembelajaran mesin yaitu Support Vector Regression (SVR) dan Random Forest (RF) untuk mengetahui ketahanan dari keduanya melalui studi simulasi dan studi kasus, dimana data yang digunakan merupakan data time series yang mengandung outlier. Ukuran robustness berdasarkan sensitivitas nilai-nilai hyperparameter dari SVR dan Random Forest bila ada outlier dalam data. Model yang kuat menghasilkan error yang lebih kecil dibandingkan model lainnya pada saat memodelkan data yang mengadung outlier. Dari simulasi yang didapatkan bahwa semakin banyak outlier maka semakin besar nilai RMSE, sebaliknya semakin banyak sampel maka nilai RMSE akan semakin rendah. Tipe outlier cukup berpengaruh terhadap nilai RMSE pada model ARIMA, dimana Additive Outlier akan memberikan dampak yang lebih buruk dibandingkan Temporary Change. Sementara pada SVR dan Random Forest, tipe outlier tidak memberikan pengaruh yang berarti. Outlier yang berurutan memberikan nilai rata-rata RMSE yang lebih kecil dibandingkan outlier yang bersifat tidak berurutan. Hal itu terjadi karena ada kemungkinan outlier yang berutan akan bergabung dan membentuk 1 jenis outlier saja. Hal ini mengurangi jumlah outlier dalam series sehingga nilai rata-rata RMSE akan menjadi lebih rendah. Berdasarkan sensitivitas nilai-nilai hyperparemeter, model SVR dan Random Forest cukup kuat terhadap keberadaan outlier dalam data. Berdasarkan hasil simulasi dengan 100 kali replikasi, didapatkan bahwa SVR lebih kuat dibandingkan ARIMA dan Random Forest dalam memodelkan data time series yang mengandung outlier. Dengan menjadikan outlier sebagai variabel dummy, maka akurasi pemodelan pada ARIMA, SVR dan Random Forest akan semakin baik. Random Forest tidak terlalu baik untuk memprediksi data time series yang mengandung outlier
Item Type: | Thesis (Masters) |
---|---|
Additional Information: | RTSt 519.536 Hia s-1 2022 |
Uncontrolled Keywords: | Outlier, Random Forest, Robustness, Support Vector Regression; |
Subjects: | Q Science > QA Mathematics > QA278.2 Regression Analysis. Logistic regression |
Divisions: | Faculty of Science and Data Analytics (SCIENTICS) > Statistics > 49101-(S2) Master Thesis |
Depositing User: | EKO BUDI RAHARJO |
Date Deposited: | 28 Mar 2023 02:03 |
Last Modified: | 28 Mar 2023 02:03 |
URI: | http://repository.its.ac.id/id/eprint/97813 |
Actions (login required)
View Item |