Pemilihan Titik Knot Dan Bandwidth Optimal Menggunakan Cross-Validation (CV), Generalized Cross-Validation (GCV) Dan Unbiased Risk (UBR) Pada Pemodelan Regresi Nonparametrik Estimator Campuran Spline Truncated Dan Kernel Gaussian

Dani, Andrea Tri Rian (2021) Pemilihan Titik Knot Dan Bandwidth Optimal Menggunakan Cross-Validation (CV), Generalized Cross-Validation (GCV) Dan Unbiased Risk (UBR) Pada Pemodelan Regresi Nonparametrik Estimator Campuran Spline Truncated Dan Kernel Gaussian. Masters thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 06211950015001-Master_Thesis.pdf] Text
06211950015001-Master_Thesis.pdf - Accepted Version
Restricted to Repository staff only

Download (5MB) | Request a copy

Abstract

Pada regresi nonparametrik spline truncated menentukan titik knot optimal menjadi hal yang sangat penting dan krusial. Hal yang sama berlaku pada regresi kernel, dimana hal yang harus diperhatikan adalah pemilihan bandwidth. Maka menjadi permasalahan tersendiri apabila menggunakan model estimator campuran, khususnya mengkombinasikan estimator spline truncated dengan kernel Gaussian. Penentuan titik knot dan bandwidth dalam model regresi nonparametrik estimator campuran akan sangat mempengaruhi kurva regresi yang akan dibentuk. Terdapat beberapa metode yang dapat digunakan untuk memilih titik knot dan bandwidth yang optimal, yaitu Cross-Validation (CV), Generalized Cross-Validation (GCV) dan Unbiased Risk (UBR). Tujuan penelitian ini adalah mendapatkan bentuk estimator campuran regresi nonparametrik spline truncated dan kernel Gaussian, kemudian membandingkan kinerja pemilihan titik knot dan bandwidth menggunakan metode CV, GCV dan UBR pada data simulasi. Tujuan ketiga adalah membandingkan hasil pemilihan titik knot dan bandwidth yang optimal menggunakan metode CV, GCV dan UBR pada data persentase penduduk miskin Kabupaten/Kota di Pulau Kalimantan Tahun 2019. Metode estimasi yang digunakan adalah Ordinary Least Squares (OLS). Kajian simulasi dilakukan dengan membangkitkan fungsi trigonometri untuk komponen spline truncated dan kernel Gaussian dengan error yang mengikuti distribusi Normal, serta pada kombinasi ukuran sampel dan varians. Berdasarkan hasil analisis, kajian simulasi menunjukkan metode GCV memberikan performa hasil serta ketepatan yang lebih baik untuk setiap kombinasi ukuran sampel dan variasi varians dalam menduga titik knot dan bandwidth optimal. Hasil aplikasi pada data persentase penduduk miskin menunjukkan hal yang sama, dimana metode GCV lebih baik dalam menduga titik knot dan bandwidth optimal dibandingkan metode CV maupun UBR. Metode CV menggunakan tiga titik knot dan bandwidth optimal didapatkan nilai R2 sebesar 83,80%. Pada metode UBR menggunakan tiga titik knot dan bandwidth optimal, didapatkan nilai R2 sebesar 79,24%. Metode GCV menggunakan tiga titik knot dan bandwidth optimal, didapatkan nilai R2 sebesar 90,52%.
======================================================================================================
In nonparametric regression truncated spline, determining the optimal knot point is very important and crucial. The same thing applies to kernel regression, where the thing that must be considered is the choice of bandwidth. So it becomes a separate problem when using a mixed estimator model, in particular combining the truncated spline estimator with the Gaussian kernel. Determination of knots and bandwidth points in the mixed estimator nonparametric regression model will greatly affect the regression curve to be formed. There are several methods that can be used to select the optimal knot point and bandwidth, namely Cross-Validation (CV), Generalized Cross-Validation (GCV), and Unbiased Risk (UBR). The purpose of this study is to obtain a mixed estimator form of nonparametric regression truncated spline and Gaussian kernel, then compare the performance of selecting knots and bandwidth points using CV, GCV, and UBR methods on the simulation data. The third objective is to compare the results of selecting the optimal knot point and bandwidth using the CV, GCV, and UBR methods on the data on the percentage of poor people in Districts/Cities in Borneo Island in 2019. The estimation method used is Ordinary Least Squares (OLS). Simulation studies are carried out by generating trigonometric functions for the truncated spline component and Gaussian kernel with an error following the Normal distribution, as well as on a combination of sample size and variance. Based on the analysis results, the simulation study shows that the GCV method provides better result performance and accuracy for each sample size combination and variance variation in estimating optimal knot points and bandwidth. The application results on the percentage of poor people show the same thing, where the GCV method is better at estimating the optimal knot point and bandwidth than the CV and UBR methods. The CV method uses three-point knots and optimal bandwidth, and the R2 value is 83.80%. In the UBR method using three-point knots and optimal bandwidth, R2 value is 79.23%. The GCV method uses three-point knots and optimal bandwidth, the R2 value is 90.52%.

Item Type: Thesis (Masters)
Uncontrolled Keywords: Cross-Validation (CV), Generalized Cross-Validation (GCV), Unbiased Risk (UBR) dan Estimator Campuran
Subjects: Q Science > QA Mathematics > QA278.2 Regression Analysis. Logistic regression
Divisions: Faculty of Science and Data Analytics (SCIENTICS) > Statistics > 49101-(S2) Master Thesis
Depositing User: Andrea Tri Rian Dani
Date Deposited: 10 Mar 2021 01:09
Last Modified: 10 Mar 2021 01:09
URI: http://repository.its.ac.id/id/eprint/83902

Actions (login required)

View Item View Item