Regresi Cox dengan Regularisasi untuk Data Berdimensi Tinggi dari Observasi Klinis dan Transkriptomik pada Pasien Adenokarsinoma Paru

Nufasa, Faricha Ghina (2024) Regresi Cox dengan Regularisasi untuk Data Berdimensi Tinggi dari Observasi Klinis dan Transkriptomik pada Pasien Adenokarsinoma Paru. Other thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 5003201015-Undergraduate_Thesis.pdf] Text
5003201015-Undergraduate_Thesis.pdf - Accepted Version
Restricted to Repository staff only until 1 October 2026.

Download (3MB) | Request a copy

Abstract

Ketahanan hidup pasien kanker menjadi prioritas, dalam menentukan tindak lanjut dan/atau keputusan pengobatan yang diberikan kepada pasien oleh tenaga medis dengan memanfaatkan data klinis dan transkriptomik. Tantangan muncul karena kuantifikasi ekspresi gen membuat kasus berdimensi tinggi, lebih banyak prediktor daripada observasi, dengan regresi Cox proportional hazard adalah metode umum analisis ketahanan hidup, akan menghasilkan model kelayakan rendah. Studi ini membahas pemodelan data berdimensi tinggi, analisis time-to-event dengan memasukkan penalti dalam proses maksimalisasi likelihood. Di luar observasi klinis, data transkriptomik dari sel kanker adenokarsinoma paru yang digunakan, khususnya ekspresi gen, memberikan wawasan dalam mengevaluasi kondisi kanker pasien tingkat transkriptomik. Tantangan dalam kuantifikasi ekspresi gen yaitu setiap sampel menghasilkan ratusan hingga ribuan pengukuran, membuat data berdimensi tinggi. Untuk dimensi yang tinggi, tingkat ekspresi beberapa gen sering ditemui sangat berkorelasi dan menyebabkan masalah kolinieritas yang tinggi. Untuk mengatasi ini, Cox-elastic net (Coxnet) diterapkan untuk mengurangi variabel prediktor yang tidak relevan dan meningkatkan kelayakan model. Diawali dengan preprocessing data, menggabungkan variabel klinis dan transkriptomik dari data set GEO menjadi satu data frame yang siap untuk pemodelan. Sampel pasien dari 96 menjadi 79 individu dengan data transkriptomik bermula dari 7915 menjadi 3006 nilai ekspresi gen. Pemodelan Coxnet dengan 3013 variabel prediktor, didapatkan model terbaik yaitu model Coxnet dengan memiliki C-index 0,8196 dengan lima variabel prediktor signifikan. Terobosan dalam teknologi biomedis yang memungkinkan pemodelan ketahanan hidup dengan memanfaatkan data transkriptomik tidak hanya data klinis saja terbukti meningkatkan C-index model, dengan metode Coxnet, dan membantu tenaga medis lebih baik dalam menentukan prognosis pasien dibanding model Cox proportional hazard dengan hanya menggunakan variabel klinis. Faktor yang memengaruhi ketahanan hidup pasien adenokarsinoma paru adalah variabel klinis stadium dengan estmasi hazard ratio 1,603, dan data transkriptomik RFTN1 dengan estimasi hazard ratio 0,788, PNP 1,270, TMSB4X 0,988, dan PRKACB 0,899. Ekspresi gen signifikan diklasifikasikan menjadi gen yang menurunkan atau meningkatkan risiko kematian pasien.
================================================================================================
Cancer patient survival is a priority in determining follow-up and/or treatment decisions given to patients by medical personnel utilizing clinical and transcriptomic data. The challenge arises because the quantification of gene expression makes the case high-dimensional, more predictors than observations, with Cox proportional hazard regression is a common method of survival analysis will result in a low-feasibility model. This study addresses modeling high-dimensional data and time-to-event analysis by incorporating penalties in the likelihood maximization process. Transcriptomic data from lung adenocarcinoma cells, specifically gene expression, provides insights into evaluating the patient's cancer condition at the transcriptomic level. The challenge lies in each sample yielding hundreds to thousands of measurements, leading to high-dimensional data. High correlation among gene expressions results in significant multicollinearity issues. The Cox-elastic net (Coxnet) is applied to reduce irrelevant predictor variables and improve model feasibility. The process begins with data preprocessing, combining clinical and transcriptomic variables from the GEO dataset into a single data frame. The patient sample size was reduced from 96 to 79 individuals, with transcriptomic data narrowed from 7,915 to 3,006 gene expression values. Coxnet modeling with 3,013 predictor variables yielded the best model, specifically the Coxnet model with γ=0.9, achieving a C-index of 0.8196 with five significant predictor variables. Advancements in biomedical technology enabling survival modeling with transcriptomic data and not only clinical data alone have been shown to improve the model's C-index. The Coxnet method helps medical professionals better determine patient prognosis compared to the Cox proportional hazards model using only clinical variables. Factors affecting the survival of lung adenocarcinoma patients include the clinical variable stage with a hazard ratio estimation of 1.603, and transcriptomic variables such as RFTN1 with a hazard ratio estimation of 0.788, PNP 1.270, TMSB4X 0.988, and PRKACB 0.899. Significant gene expressions are classified into those that decrease or increase the patient's risk of death.

Item Type: Thesis (Other)
Uncontrolled Keywords: Adenokarsinoma Paru, Elastic Net, Ekspresi Gen, Regresi Cox Cox Regression, Elastic Net, Gene Expression, Lung Adenocarcinoma
Subjects: H Social Sciences > HA Statistics > HA31.3 Regression. Correlation
Divisions: Faculty of Science and Data Analytics (SCIENTICS) > Statistics > 49201-(S1) Undergraduate Thesis
Depositing User: Faricha Ghina Nufasa
Date Deposited: 09 Aug 2024 02:43
Last Modified: 09 Aug 2024 02:43
URI: http://repository.its.ac.id/id/eprint/114678

Actions (login required)

View Item View Item