Klasifikasi Data Berdimensi Tinggi dengan Metode Ensemble Berbasis Regresi Logistik dalam Permasalahan Drug Discovery

Widhianingsih, T. Dwi Ary (2018) Klasifikasi Data Berdimensi Tinggi dengan Metode Ensemble Berbasis Regresi Logistik dalam Permasalahan Drug Discovery. Masters thesis, Institut Teknologi Sepuluh Nopember.

[img]
Preview
Text
06211650010024-Master_Thesis.pdf - Accepted Version

Download (3MB) | Preview

Abstract

Regresi logistik biner merupakan salah satu metode yang sering digunakan dalam analisis klasifikasi. Akan tetapi penerapannya pada data berdimensi tinggi mengalami banyak kendala, seperti adanya multikolinearitas, overfitting, dan kompleksitas dalam komputasinya. Oleh karena itu, pengembangan banyak dilakukan untuk mengatasi permasalahan tersebut. Salah satunya adalah dengan menerapkan konsep ensemble, seperti Logistic Regression Ensemble (Lorens) dan Ensemble Logistic Regression (ELR). Lorens dibangun dengan konsep ensemble dengan pembagian variabel ke dalam beberapa subspace secara random dan saling bebas, kemudian hasil analisisnya digabungkan dengan perhitungan rata-rata atau majority voting. ELR dibuat menggunakan konsep ensemble yang melakukan pengulangan pada proses pembuatan modelnya hingga kriteria konvergen yang didefinisikan tercapai. Karena berawal dari konsep pengembangan dan dengan tujuan yang sama, maka pada penelitian ini dilakukan perbandingan antara kedua metode tersebut, khususnya jika diterapkan untuk data berdimensi tinggi, yaitu dengan studi kasus drug discovery. Dataset yang digunakan merupakan hasil percobaan pada pengamatan proteksi radiasi sel. Obyek yang akan diklasifikasikan adalah senyawa pembentuk suatu obat. Senyawa tersebut diklasifikasikan kedalam kategori positif (proteksi radiasi tinggi) dan negatif (proteksi radiasi rendah). Jumlah data yang dianalisis adalah sebanyak 84 senyawa dan 217 variabel. Hasil analisis metode Lorens dan ELR yang didapatkan selanjutnya dibandingkan dengan menggunakan kriteria total akurasi, Balanced Classification Rate (BCR), dan Area Under Curve (AUC). Selain itu juga dilakukan analisis simulasi denga tiga tujuan, yaitu untuk mengetahui efek penambahan jumlah variabel dengan rasio n:p adalah sebesar 1:2, 1:3, …, 1:10, efek keseimbangan data dengan rasio kategori positif dan negatifnya adalah 1:1, 1:20, dan 1:100, dan efek multikolinieritas. Hasil analisis simulasi menunjukkan bahwa pada studi simulasi, ELR lebih unggul dalam mengatasi efek penambahan variabel, efek keseimbangan data, dan efek multikolinieritas data. Akan tetapi pada analisis data riil, Lorens memiliki performansi yang lebih baik daripada ELR dengan total akurasi sebesar 69,41%, BCR sebesar 67,64%, dan AUC sebesar 0,7306. =========================================================== Binary Logistic Regression is one of the most used classification method. However, its application faces some problems, such as multicolinearity, overfitting, and complexity in computation. Therefore, there are so many developments of that method to resolve these problems. One of them is using ensemble concept, such as Logistic Regression Ensemble (Lorens) and Ensemble Logistic Regression (ELR). Lorens is made using ensemble concept which divides variables of the data to some subspaces randomly, so that these subspaces are mutually exclusive. The final target prediction of Lorens is obtained based on probability mean or majority voting. While ELR is built using iterative ensemble that does model training until reaching the convergence criteria. Because of having a basic method and developed from the same concept, in this thesis did the comparison of Lorens and ELR in case of high dimensional data, peculiarly for drug discovery. The dataset used here is about the experiment of radioprotection of cells. The object that would be classified is the drug-forming compounds. These compounds are classified to either positive (high radioprotection) or negative (low radioprotection) category. The properties of the cells that have been penetrated using the compound are used as the predictors. The number of compounds in the dataset are 84 and the properties are 217. To decide the better method, we calculate total accuracy, Balanced Classification Rate (BCR), and Area Under the Curve (AUC). Beside the real data analysis, we also do simulation to perform the effect of the increasing number of variables with n:p ratio is 1:2, 1:3, …, 1:10, the increasing of imbalance ratio using 1:1, 1:20, and 1:100 ratio, and multicolinearity. The result of simulation study shows that ELR outperforms Lorens to resolve these three effects. Otherwise, the real data analysis shows that Lorens has the better performance than ELR with total accuracy 69.41%, BCR 67.64%, and AUC 0.7306.

Item Type: Thesis (Masters)
Uncontrolled Keywords: Drug Discovery, Ensemble Logistic Regression (ELR), Logistic Regression Ensemble (LORENS), Proteksi Radiasi Sel
Subjects: Q Science > QA Mathematics > QA76.9.D343 Data mining
Divisions: Faculty of Mathematics and Science > Statistics > 49101-(S2) Master Thesis
Depositing User: T. Dwi Ary Widhianingsih
Date Deposited: 19 Jun 2021 12:07
Last Modified: 19 Jun 2021 12:07
URI: https://repository.its.ac.id/id/eprint/58120

Actions (login required)

View Item View Item