Pengembangan Metode Seleksi Variabel Berbasis Mutual Information Pada Latent Class Cluster (Studi Kasus: Seleksi Variabel Untuk Pengumpulan Data Bagi Desa Baru Hasil Pemekaran Wilayah)

Riyanto, Andreas (2023) Pengembangan Metode Seleksi Variabel Berbasis Mutual Information Pada Latent Class Cluster (Studi Kasus: Seleksi Variabel Untuk Pengumpulan Data Bagi Desa Baru Hasil Pemekaran Wilayah). Doctoral thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 06211760017003-Dissertation.pdf] Text
06211760017003-Dissertation.pdf - Accepted Version
Restricted to Repository staff only until 1 April 2025.

Download (8MB) | Request a copy

Abstract

Seleksi variabel merupakan salah satu teknik machine learning yang diperlukan untuk mengekstraksi informasi yang berguna, sehingga diperoleh subset variabel terbaik. Selain itu, seleksi variabel mempunyai peran yang mendasar dalam mengurangi kompleksitas komputasi, penyimpanan, dan biaya. Metode seleksi variabel juga sudah dipakai pada Latent Class Cluster (LCC) dan menjadi bagian dalam analisis LCC, tetapi sebagian besar memiliki kelemahan pada permasalahan komputasi. Karena adanya permasalahan komputasi ini, sehingga penelitian ini mempunyai tujuan untuk mengembangkan metode penaksiran parameter pada model seleksi variabel berbasis mutual information dalam LCC. Mutual information yang merupakan salah satu metode filter dalam seleksi variabel mempunyai beberapa kelebihan dibandingkan metode seleksi variabel yang lainnya, diantaranya adalah lebih efisien dan lebih cepat secara komputasi. Metode estimasi Maximum Likelihood digunakan untuk mengestimasi parameter model. Estimasi parameter tidak menghasilkan estimasi yang closed form, sehingga diperlukan algoritma Expectation Maximization untuk prosedur iterasi numeriknya. Pengembangan metode seleksi variabel berbasis mutual information pada LCC ini diterapkan pada kasus seleksi variabel untuk menyediakan variabel terpilih yang bisa digunakan desa baru dalam pengumpulan data. Variabel yang digunakan dalam penelitian ini adalah sebanyak 12 variabel diskret dan delapan variabel kontinu. Penerapan seleksi variabel berbasis mutual information pada LCC untuk variabel kategorik menghasilkan empat variabel terpilih, sedangkan untuk variabel kontinu menghasilkan tiga variabel terpilih dan untuk variabel campuran menghasilkan empat variabel terpilih. Hasil pengelompokan desa menggunakan variabel terpilih dibandingkan dengan menggunakan semua variabel lengkap menghasilkan akurasi sebesar 96,68 % untuk variabel kategori, 86,05 % untuk data kontinu, dan 70 % untuk variabel campuran.
================================================================================================================================
Variable selection is one of the machine learning techniques needed to extract useful information, so that the best subset of variables is obtained. In addition, variable selection plays a fundamental role in reducing computational complexity, storage space, and cost. Variable selection methods have also been used in Latent Class Clusters (LCC) and are part of LCC analysis, but most of them have weaknesses in computational problems. Because of this computational problems, this study aims to develop a parameter estimation method in a mutual information-based variable selection model in LCC. Mutual information, which is one of the filter methods in variable selection, has several advantages over other variable selection techniques, including being computationally more efficient and faster. The maximum likelihood estimation method is used to estimate the model parameters. The parameter estimation does not produce a closed form estimate, so the expectation maximization algorithm is needed for the numerical iteration procedure. The development of a mutual information-based variable selection method in LCC is applied to the variable selection case to provide selected variables that new villages can use in data collection. The variables used in this study are 12 discrete variables and eight continuous variables. The application of mutual information-based variable selection in LCC for categorical variables resulted in four selected variables, while for continuous variables resulted in three selected variables and for mixed variables resulted in four selected variables. The results of grouping villages using the selected variables versus using all full variables give an accuracy of 96.68% for categorical variables, 86.05% for continuous data, and 70% for mixed variables.

Item Type: Thesis (Doctoral)
Uncontrolled Keywords: Latent Class Cluster, Seleksi Variabel, Mutual information, Variable Selection, Mutual Information
Subjects: H Social Sciences > HA Statistics
Divisions: Faculty of Science and Data Analytics (SCIENTICS) > Statistics > 49001-(S3) PhD Thesis
Depositing User: Andreas Riyanto
Date Deposited: 24 Feb 2023 02:17
Last Modified: 28 Feb 2023 07:03
URI: http://repository.its.ac.id/id/eprint/97683

Actions (login required)

View Item View Item