INISIALISASI KROMOSOM AWAL MENGGUNAKAN LATIN HYPERCUBE SAMPLING PADA ALGORITMA GENETIKA UNTUK SELEKSI FITUR DAN HYPERPARAMETER TUNING PADA KLASIFIKASI MICROARRAY DATA

Awangditama, Bangun Rizki (2024) INISIALISASI KROMOSOM AWAL MENGGUNAKAN LATIN HYPERCUBE SAMPLING PADA ALGORITMA GENETIKA UNTUK SELEKSI FITUR DAN HYPERPARAMETER TUNING PADA KLASIFIKASI MICROARRAY DATA. Masters thesis, Institut Teknologi Sepuluh November.

[thumbnail of 6025221044-Master_Thesis.pdf] Text
6025221044-Master_Thesis.pdf - Accepted Version
Restricted to Repository staff only until 1 October 2026.

Download (3MB) | Request a copy

Abstract

Kanker adalah penyebab utama kematian kedua di seluruh dunia, dan diperlukan teknologi baru untuk membantu mendiagnosa penyakit kanker dengan akurat. Salah satu teknologi yang digunakan dalam membantu diagnosis kanker adalah teknologi microarray ekspresi gen. Metode ini memungkinkan peneliti untuk memantau ribuan gen dalam satu eksperimen guna menganalisa genetik kanker. Tantangan muncul dalam Analisis microarray data, khususnya pada klasifikasi microarray data, meliputi jumlah dimensi attribute yang tinggi, jumlah sampel yang sedikit, dan tingkat keberadaan gen yang tidak sama. Jumlah fitur yang tinggi dan jumlah sampel yang sedikit dapat mengakibatkan tingkat akurasi hasil klasifikasi yang kurang optimal.
Penelitian terdahulu membuktikan efektivitas berbagai metode seleksi fitur pada data microarray seperti, PCA, Relief, Lasso, FF-SVM, dan Algoritma Genetika, dapat meningkatkan tingkat kinerja akurasi. Penelitian terkait Hyperparameter Tuning juga dapat mengoptimalkan parameter dengan metode seperti Grid Search, Random Search, Bayesian Optimization, dan Algoritma Genetika. GA dipilih karena dapat mengoptimalkan data berdimensi tinggi secara nonlinier pada data microarray. Proses GA melibatkan pembentukan populasi awal, seleksi individu, crossover, dan mutasi. Permasalahan muncul saat populasi awal pada GA tersebar acak dan tidak merata. Untuk mengatasi ini, Latin Hypercube Sampling digunakan sebagai langkah awal dalam memilih populasi untuk eksplorasi parameter yang lebih baik dengan penyebaran populasi awal secara merata.
Dalam penelitian ini, diusulkan pengembangan model untuk meningkatkan performa dan optimasi menggunakan LHS pada Algoritma Genetika untuk Seleksi Fitur dan Hyperparameter Tuning pada klasifikasi microarray data. LHS memastikan bahwa sampel yang diambil pada populasi awal dari ruang parameter adalah representatif dan beragam, sehingga meningkatkan kemungkinan menemukan solusi yang lebih baik dalam klasifikasi microarray data. Algoritma Genetika digunakan untuk menyeleksi fitur-fitur yang relevan dan memilih parameter model yang tepat klasifikasi. Penggabungan seleksi fitur yang tepat dan pengaturan parameter model yang optimal, diharapkan model klasifikasi dapat memberikan prediksi yang lebih akurat dalam klasifikasi microarray data.
Uji skenario penelitian dilakukan dengan membandingkan performa algoritma genetika menggunakan LHS/tanpa LHS pada seleksi fitur dan hyperparameter tuning. Perbandingan juga dilakukan dengan menggunakan model seleksi fitur dan hyperparameter tuning lainnya. Hasil yang diperoleh menunjukkan, pertama, pada seleksi fitur bahwa penggunaan GA saja cenderung membatasi eksplorasi ruang fitur yang dihasilkan, sementara penggunaan LHS dapat memperluas kemungkinan pemilihan fitur. Kedua, klasifikasi microarray menggunakan GA dengan LHS (GALHS) akurasi tertinggi tercapai pada dataset CNS sebesar 80%, pada Sarcoma sebesar 85%, dan pada SRBTCs sebesar 100% dibandingkan metode seleksi fitur lainnya seperti Based Correlation Features (BCF), Principal Component Analysis (PCA), Relief, dan Lasso.

Kata Kunci: Algoritma Genetika, Hyperparameter tuning, Latin Hypercube Sampling, Microarray,

========================================================================================================================

Cancer is the second leading cause of death worldwide, and new technology is needed to aid in the accurate diagnosis of cancer. One technology used to assist in the diagnosis of cancer is microarray gene expression technology. This method enables researchers to monitor thousands of genes in a single experiment to analyze the genetic aspects of cancer. Challenges arise in the analysis of microarray data, particularly in microarray data classification, including high-dimensional attribute counts, limited sample sizes, and varying gene presence levels. A high number of features and limited sample sizes can result in less-than-optimal classification accuracy.
Previous research has demonstrated the effectiveness of various feature selection methods on microarray data, such as PCA, Relief, Lasso, FF-SVM, and Genetic Algorithm, in improving accuracy. Studies related to Hyperparameter Tuning have also shown the ability to optimize parameters using methods like Grid Search, Random Search, Bayesian Optimization, and Genetic Algorithm. Genetic Algorithm (GA) is chosen for its capability to optimize high-dimensional data nonlinearly in microarray data. The GA process involves the creation of an initial population, individual selection, crossover, and mutation. Issues arise when the initial GA population is randomly and unevenly distributed. To address this, Latin Hypercube Sampling is used as an initial step in selecting the GA population for better parameter exploration, ensuring a more even distribution.
In this study, the development of a model is proposed to enhance performance and optimization using LHS in Genetic Algorithms for Feature Selection and Hyperparameter Tuning in microarray data classification. LHS ensures that the samples taken from the initial population in the parameter space are representative and diverse, increasing the likelihood of finding better solutions in the context of microarray data classification. Genetic Algorithms are used to select relevant features and choose the appropriate model parameters for classification. The combination of proper feature selection and optimal model parameter settings is expected to provide more accurate predictions in microarray data classification.
The research scenario testing was conducted by comparing the performance of the genetic algorithm using LHS with that without LHS in feature selection and hyperparameter tuning. Comparisons were also made using other feature selection and hyperparameter tuning models. The results obtained showed, first, in feature selection that using GA alone tends to limit the exploration of the resulting feature space, while the use of LHS can expand the possibilities of feature selection. Second, microarray classification using GA with LHS (GALHS) achieved the highest accuracy on the CNS dataset of 80%, on Sarcoma of 85%, and on SRBTCs of 100% compared to other feature selection methods such as Based Correlation Features (BCF), Principal Component Analysis ( PCA), Relief, and Lasso.

Keywords: Genetic Algorithm, Hyperparameter tuning, Latin Hypercube Sampling, Microarray

Item Type: Thesis (Masters)
Uncontrolled Keywords: Algoritma Genetika, Hyperparameter tuning, Latin Hypercube Sampling, Microarray,
Subjects: Q Science > Q Science (General) > Q325.5 Machine learning. Support vector machines.
Divisions: Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Informatics Engineering > 55101-(S2) Master Thesis
Depositing User: Bangun Rizki Awangditama
Date Deposited: 07 Aug 2024 01:45
Last Modified: 07 Aug 2024 01:45
URI: http://repository.its.ac.id/id/eprint/111889

Actions (login required)

View Item View Item