Analisis Survival dengan Survival Support Vector Machine dan Random Survival Forest (Studi Simulasi Dan Aplikasi Data Klaim Asuransi)

Zaen, Sandrina Mutiara (2025) Analisis Survival dengan Survival Support Vector Machine dan Random Survival Forest (Studi Simulasi Dan Aplikasi Data Klaim Asuransi). Other thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 5006211019-Undergraduate_Thesis.pdf] Text
5006211019-Undergraduate_Thesis.pdf - Accepted Version
Restricted to Repository staff only

Download (4MB) | Request a copy

Abstract

Asuransi merupakan kontrak antara perusahaan asuransi dan pemegang polis, yang melibatkan pembayaran premi sebagai imbalan atas kompensasi kerugian yang ditanggung pemegang polis. Terdapat dua jenis utama asuransi, yaitu asuransi jiwa dan asuransi umum. Salah satu bentuk asuransi umum adalah asuransi kesehatan, yang menanggung biaya rawat inap, rawat jalan, operasi, dan konsultasi. Namun, perusahaan asuransi menghadapi risiko dalam pengelolaan klaim, di mana analisis survival menjadi metode statistik penting untuk memodelkan waktu terjadinya klaim. Pendekatan nonparametrik dalam analisis survival menawarkan fleksibilitas lebih tinggi, khususnya saat data tidak memenuhi asumsi model parametrik atau semi-parametrik. Dua metode nonparametrik yang digunakan adalah Survival Support Vector Machines (SSVM) dan Random Survival Forest (RSF). SSVM merupakan adaptasi dari SVM standar untuk data survival tersensor kanan dan unggul dalam menangani hubungan nonlinear kompleks. Sementara itu, RSF tahan terhadap outlier dan cocok untuk eksplorasi data dengan informasi terbatas. Penelitian ini bertujuan untuk menganalisis karakteristik data klaim asuransi dan membandingkan performa SSVM dan RSF, serta mengevaluasi konsistensinya terhadap data simulasi. Data simulasi divariasikan berdasarkan jumlah data, parameter hazard, dan proporsi data tersensor, dengan evaluasi menggunakan nilai C-index. Hasil penelitian menunjukkan bahwa dari 297 data klaim, 75% individu mengajukan klaim. Sebagian besar membayar premi Rp750.000 dengan proporsi klaim 74%, dan premi yang lebih tinggi memiliki risiko klaim yang meningkat. Manfaat polis didominasi kategori illness, dengan risiko tertinggi pada accident (94,6%) dan tidak terjadi klaim pada kategori lainnya. Berdasarkan daerah polis, Kota Besar mencatat risiko klaim tertinggi, diikuti Kota Metropolitan dan Kota Sedang. Pemodelan SSVM mampu mengelompokkan individu ke dalam kategori high risk dan low risk, dengan rata-rata C-index sebesar 0,3325 pada data aktual dan 0,42 pada data simulasi. Adapun RSF menunjukkan variabel paling berpengaruh secara berurutan adalah daerah polis, manfaat polis, dan besar premi, dengan rata-rata C-index 0,6291 untuk data aktual dan 0,5604 pada data simulasi. Pemodelan dengan RSF secara konsisten menunjukkan performa yang lebih unggul berdasarkan nilai C-index dibandingkan dengan model SSVM, baik pada data aktual maupun data simulasi. Selain itu, RSF juga mempertahankan keunggulannya secara konsisten di berbagai skenario simulasi.
===================================================================================================================================
Insurance is a contract between an insurance company and a policyholder, involving the payment of premiums in exchange for compensation for losses incurred by the policyholder. There are two main types of insurance: life insurance and general insurance. One form of general insurance is health insurance, which covers costs for inpatient care, outpatient care, surgery, and consultations. However, insurance companies face risks in managing claims, where survival analysis becomes a crucial statistical method for modeling the time to claim occurrence. Nonparametric approaches in survival analysis offer greater flexibility, especially when data do not meet the assumptions required by parametric or semi-parametric models. Two commonly used nonparametric methods are Survival Support Vector Machines (SSVM) and Random Survival Forest (RSF). SSVM is an adaptation of standard SVM for right-censored survival data and excels in handling complex nonlinear relationships. Meanwhile, RSF is robust to outliers and well-suited for exploring data with limited information. This study aims to analyze the characteristics of insurance claim data and compare the performance of SSVM and RSF, as well as evaluate their consistency using simulated data. The simulation data are varied based on sample size, hazard parameters, and censoring proportion, with performance evaluated using the C-index. The results show that out of 297 insurance claim records, 75% of individuals submitted claims. Most paid a premium of IDR 750,000 with a claim proportion of 74%, and higher premiums were associated with increased claim risk. Policy benefits were dominated by the illness category, with the highest claim risk found in the accident category (94.6%) and no claims observed in the “others” category. By region, individuals in Large Cities had the highest claim risk, followed by Metropolitan Cities and Medium Cities. SSVM modeling successfully classified individuals into high-risk and low-risk categories, with an average C-index of 0.3325 for actual data and 0.42 for simulated data. The RSF model identified the most influential variables in order of importance as policy region, policy benefits, and premium amount, with an average C-index of 0.6291 on the actual data and 0.5604 on the simulated data. Overall, the RSF consistently demonstrated superior performance compared to the SSVM model, as reflected by higher C-index values on both actual and simulated datasets. Furthermore, RSF maintained its advantage consistently across various simulation scenarios.

Item Type: Thesis (Other)
Uncontrolled Keywords: Analisis Survival, Klaim Asuransi Kesehatan, Random Survival Forest, Simulasi, Survival Support Vector Machines, Health Insurance Claims, Simulation, Survival Analysis
Subjects: H Social Sciences > HG Finance
H Social Sciences > HG Finance > HG4012 Mathematical models
Divisions: Faculty of Science and Data Analytics (SCIENTICS) > Actuaria > 94203-(S1) Undergraduate Thesis
Depositing User: Sandrina Mutiara Zaen
Date Deposited: 30 Jul 2025 08:36
Last Modified: 30 Jul 2025 08:36
URI: http://repository.its.ac.id/id/eprint/124402

Actions (login required)

View Item View Item