Imputasi Data Hilang Pada Industri Besar Sedang Sumatera Utara Menggunakan Fuzzy C-Means Dioptimalkan Dengan Algoritma Genetika

Bunawolo, Ervin Noderius Mei (2017) Imputasi Data Hilang Pada Industri Besar Sedang Sumatera Utara Menggunakan Fuzzy C-Means Dioptimalkan Dengan Algoritma Genetika. Masters thesis, Institut Teknologi Sepuluh Nopember.

[img]
Preview
Text
1315201710_Master Tesis.pdf - Published Version

Download (3MB) | Preview

Abstract

Nonrespon pada suatu survei mengakibatkan data tidak lengkap sehingga menyebabkan potensi bias dalam estimasiparameter dan memperlemah generalisasi penelitian. Salah satu cara yang dapat dilakukan untuk mengatasi hal ini adalah dengan mengganti data yang missing dengan suatu nilai yang dikenal sebagai metode imputasi. Penelitian ini menggabungkan Fuzzy C-Means yang merupakan metode imputasi menggunakan metode klaster dalam menangani missing data, dengan Algoritma Genetika yang diharapkan akan meningkatkan akurasi Fuzzy C-Means. Root Mean Square Error (RMSE) dipakai sebagai kriteria untuk mengevaluasi kinerja kedua metode. Hasil penelitian menunjukkan bahwa kinerja imputasi metode hibrida FCM-GA secara umum lebih baik dibandingkan metode imputasi FCM konvensional khususnya pada persentase missing yang tidak terlalu besar. Pilihan nilai weighting exponentm dan jumlah klaster c yang sesuai sangat berpengaruh terhadap nilai RMSE yang dihasilkan. Dengan kata lain kinerja imputasi FCM bergantung dari ketepatan pemilihan parameter c dan m. Pemilihan ukuran jarak Euclidean dan Manhattan dibawah kombinasi c dan m tidak menunjukkan perbedaan dan kinerja dari dua ukuran jarak pada tingkat missing yang berbeda mengindikasikan tidak ada yang lebih unggul diantara keduanya.Hibrida Fuzzy C-Means-GA memberikan parameter c dan m yang sesuai untuk menghasilkan imputasi dengan nilai RMSE yang lebih kecil dibandingkan FCM dan mengatasi data tidak lengkap industri sedang pada hasil survei industri besar dan sedang di Sumatera Utara. ================================================================================================================== Nonrespon on a survey result in incomplete data and might cause potential bias in the estimation of parameters and weaken the generalizability of the study. One way that could be done to overcome this problem is to replace missing data with a value known as the imputation method. This research combines the Fuzzy C-Means, which is the imputation method using cluster method in dealing with missing data, with the Genetic Algorithm which is expected to improve the accuracy of Fuzzy C-Means. Root Mean Square Error (RMSE) is used as the performance evaluation criteria on both methods. The results showed that the performance of hybrid FCM-GA is generally out performs the conventional FCM imputation method particularly on relatively small percentage of missing values. Appropriate chosen of weighting exponent m and the number of clusters c affected on RMSE values. In other words, the performance of FCM imputation depends on the right choice of parameters c and m. The Euclidean Distance and the Manhattan Distance under a combination of c and m did not show differences in the performance of the two distances measurement at several missing levels, thus indicates there is none more or less superior distance measurement of the two. The Hybrid Fuzzy C-Means-GA provides the parameters c and m which are best to produce imputation with smaller value of RMSE than the FCM and to handle incomplete data problem on medium scale industry from large and medium manufacturing survey in Sumatera Utara.

Item Type: Thesis (Masters)
Uncontrolled Keywords: Algoritma genetika, Fuzzy C-Means, Imputasi, Klaster
Subjects: H Social Sciences > HA Statistics
Divisions: Faculty of Mathematics and Science > Statistics > (S2) Master Theses
Depositing User: ERVIN NODERIUS MEI BUNAWOLO
Date Deposited: 04 Apr 2017 02:28
Last Modified: 04 Apr 2017 02:28
URI: http://repository.its.ac.id/id/eprint/3052

Actions (login required)

View Item View Item