Studi Simulasi Cox Proportional Hazard Dan Random Survival Forest Data Tersensor Kanan Serta Aplikasinya Pada Klaim Asuransi Kesehatan PT Abc

Pangestu, Abdan Alghifari (2024) Studi Simulasi Cox Proportional Hazard Dan Random Survival Forest Data Tersensor Kanan Serta Aplikasinya Pada Klaim Asuransi Kesehatan PT Abc. Other thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 5006201088-Undergraduate_Thesis.pdf] Text
5006201088-Undergraduate_Thesis.pdf - Accepted Version
Restricted to Repository staff only until 1 October 2026.

Download (3MB) | Request a copy

Abstract

Salah satu bentuk lini bisnis asuransi adalah asuransi kesehatan. Bisnis asuransi sangat erat kaitannya dengan berbagai bentuk risiko contohnya perilaku nasabah dalam melakukan terminasi produk terhadap polis klaim. Analisis survival adalah metode statistik untuk menganalisis data waktu survival. Metode ini dapat memprediksi waktu terjadinya suatu kejadian tertentu seperti klaim dan mempelajari faktor yang memengaruhinya. Dikenal istilah penyesoran dalam analisis survival, yaitu ketika kejadian tidak dapat diamati. Metode analisis survival yang dapat mengatasi masalah ini adalah Cox Proportional Hazard (CPH) dan Random Survival Forest (RSF). CPH memerlukan asumsi proportional hazard, yaitu risiko proporsional yang konstan terhadap waktu. Jika asumsi ini tidak terpenuhi, maka metode ini tidak akurat dan perlu metode alternatif. Metode ini menggunakan koefisien regresi untuk menghitung rasio hazard dari variabel-variabel. Metode non-parametrik dengan machine learning dapat menjadi peluang untuk mengatasi keterbatasan metode CPH. RSF menggunakan bootstrap dan pengambilan sampel acak untuk membangun pohon keputusan dan menggabungkan hasil prediksi dari setiap pohon. Metode ini dapat meningkatkan prediksi survival dan seleksi variabel serta mengukur pentingnya fitur. dari penelitian ini adalah untuk membandingkan performa CPH dan RSF yang ditunjukkan oleh nilai C Index dalam memprediksi data simulasi survival tersensor kanan dengan berbagai skenario dan penerapannya pada data aktual. Perbedaan jenis data simulasi biner dan campuran. Jumlah data simulasi yang kecil hingga besar. Perbedaan jenis fungsi hazard seperti menurun, konstan, dan meningkat. Proporsi data tersensor ekstrem minor, minor, seimbang, mayor, dan ekstrem mayor. Hasil dari penelitian ini menunjukkan, pada data simulasi biner dan campuran metode terbaik dalam menganalisis data survival tersensor kanan adalah CPH untuk semua skenario. Metode CPH baik digunakan untuk menganalisis data dengan kriteria jumlah data kecil, fungsi hazard meningkat, proporsi data tersensor ekstrem mayor, dan jenis variabel prediktor campuran. Metode RSF-A dan RSF-B baik digunakan untuk menganalisis data dengan kriteria jumlah data besar, fungsi hazard meningkat, proporsi data tersensor ekstem minor, dan jenis variabel prediktor campuran. Polis asuransi kesehatan di PT ABC memiliki karakteristik mayoritas nasabah melakukan klaim, tidak ada perbedaan risiko klaim berdasarkan faktor usia, jenis kelamin, dan status merokok. Tingkat risiko klaim tertinggi secara berurutan berasal dari nasabah pengidap penyakit infkesi adenovirus, dermatitis atopik, dan gingivitis akut. Pada model CPH, jenis penyakit signifikan, sedangkan usia, jenis kelamin, dan status merokok tidak signifikan. Pada model RSF hanya variabel jenis penyakit dan usia yang prediktif dalam membangun model. =================================================================================================================================
One form of insurance business line is health insurance. The insurance business is closely related to various forms of risk, for example, customer behaviour in terminating products against policy claims. Survival analysis is a statistical method for analysing survival time data. This method can predict the time of occurrence of a certain event such as a claim and study the factors that influence it. The term survivorship is known in survival analysis, which is when the event cannot be observed. Survival analysis methods that can overcome this problem are Cox Proportional Hazard (CPH) and Random Survival Forest (RSF). CPH requires the proportional hazard assumption, which is a constant proportional risk over time. If this assumption is not met, then this method is not accurate and an alternative method is needed. This method uses regression coefficients to calculate the hazard ratio of the variables. Non-parametric methods with machine learning can be an opportunity to overcome the limitations of the CPH method. RSF uses bootstrapping and random sampling to build decision trees and combine the prediction results from each tree. This method can improve survival prediction and variable selection as well as measure the importance of features. The purpose of this study is to compare the performance of CPH and RSF as indicated by the C Index value in predicting right-censored survival simulation data with various scenarios and its application to actual data. Different types of binary and mixed simulation data. Small to large amount of simulation data. Different types of hazard functions such as decreasing, constant, and increasing. The proportion of extreme minor, minor, balanced, major, and extreme major censored data. The results of this study show, on binary and mixed simulation data the best method in analysing right censored survival data is CPH for all scenarios. The CPH method is well used to analyse data with the criteria of small amount of data, increasing hazard function, proportion of major extreme censored data, and mixed types of predictor variables. The RSF-A and RSF-B methods are good for analysing data with the criteria of large amount of data, increasing hazard function, proportion of minor extreme censored data, and mixed types of predictor variables. Health insurance policies at PT ABC have the characteristics of the majority of customers making claims, there is no difference in the risk of claims based on age, gender, and smoking status. The highest level of claim risk in order came from customers with adenovirus infection, atopic dermatitis, and acute gingivitis. In the CPH model, disease type was significant, while age, gender, and smoking status were not significant. In the RSF model, only the variables type of disease and age are predictive in building the model.

Item Type: Thesis (Other)
Uncontrolled Keywords: C Index, Cox Proportional Hazard, Data Simulasi, Klaim Asuransi Kesehatan, Random Survival Forest, Data Simulation, Health Insurance Claim.
Subjects: H Social Sciences > HG Finance > HG4012 Mathematical models
Divisions: Faculty of Science and Data Analytics (SCIENTICS) > Actuaria > 94203-(S1) Undergraduate Thesis
Depositing User: Abdan Alghifari Pangestu
Date Deposited: 03 Jul 2024 07:49
Last Modified: 03 Jul 2024 07:49
URI: http://repository.its.ac.id/id/eprint/108112

Actions (login required)

View Item View Item