Analisis Klasifikasi Multilabel Pada Kelayakan Air Minum Dan Sanitasi Di Jawa Timur Dengan Metode Classifier Chains - Least Square Support Vector Machine

Guminta, Dinda Galuh (2022) Analisis Klasifikasi Multilabel Pada Kelayakan Air Minum Dan Sanitasi Di Jawa Timur Dengan Metode Classifier Chains - Least Square Support Vector Machine. Masters thesis, Institut Teknologi Sepuluh Nopember Surabaya.

[thumbnail of 6003201021-Master_Thesis.pdf] Text
6003201021-Master_Thesis.pdf - Accepted Version
Restricted to Repository staff only until 1 November 2024.

Download (4MB) | Request a copy

Abstract

Ketersediaan kebutuhan air minum dan sanitasi yang mengacu pada tujuan SDGs menjadi perhatian utama bagi Indonesia karena pada tahun 2030 ditargetkan dapat mencapai akses air minum dan sanitasi yang layak untuk semua. Kajian tentang pengukuran sumber air minum dan fasilitas sanitasi dengan indikator kualitatif banyak digunakan untuk melihat aspek multidimensi dari kedua hal ini. Pendekatan ini menitikberatkan pada upaya untuk menangkap hubungan akses air minum dan sanitasi layak berdasarkan karakteristik rumah tangga. Sumber air minum dan fasilitas sanitasi dikelompokkan menjadi kategori layak dan tidak layak sehingga dalam penelitian ini menggunakan data kualitatif yang bersifat multilabel. Support Vector Machine (SVM) merupakan metode yang dapat melakukan klasifikasi dengan memaksimalkan margin antar kelas data, namun metode ini memiliki kendala dalam optimasi sehingga digunakan Least Square Support Vector Machine (LS SVM) untuk meningkatkan efisiensi komputasi. Sebelum melakukan klasifikasi, dilakukan penanganan data multilabel menggunakan Classifier Chains (CC) karena terjadi dependensi antar label. Oleh karena itu, diperlukan metode CC pada LS SVM untuk klasifikasi multilabel data air minum layak dan sanitasi layak. Kemudian, dibandingkan dengan metode regresi logistik dan metode tranformasi Label Powerset (LP). Hasil penelitian menunjukkan bahwa LP – regresi logistik menghasilkan performa tertinggi dengan F1 sebesar 40,44% dan G-Mean 47,83%. Penerapan SMOTE pada data imbalance mampu meningkatkan hasil klasifikasi sehingga diperoleh metode terbaik yaitu CC – LS SVM dengan F1 63,13% dan G-Mean 57,92%. Penggunaan CC dapat menjadi pertimbangan pada klasifikasi rumah tangga berdasarkan kelayakan air minum dan sanitasi di Jawa Timur karena ketepatan klasifikasi yang dihasilkan lebih besar daripada LP baik pada regresi logistik maupun LS SVM. Disamping itu variabel yang berpengaruh signifikan terhadap air minum dan sanitasi yaitu faktor demografi, perumahan, dan ekonomi
====================================================================================================================================
The availability of drinking water and sanitation needs that refer to SDGs goals is a major concern for Indonesia because by 2030 it is targeted to achieve access to adequate drinking water and sanitation for all. Studies on the measurement of drinking water sources and sanitation facilities with qualitative indicators are widely used to see the multidimensional aspects of these two things. This approach focuses on capturing the relationship between access to drinking water and proper sanitation based on household characteristics. Sources of drinking water and sanitation facilities are grouped into appropriate and infeasible categories, so this study uses multi-label qualitative data. Support Vector Machine (SVM) is a method that can classify by maximizing the margin between data classes, but this method has constraints in optimization so Least Square Support Vector Machine (LS SVM) is used to improve computational efficiency. Before classifying, multi-label data is handled using Classifier Chains (CC) because there are dependencies between labels. Therefore, the CC method is needed on the LS SVM for multi-label classification of proper drinking water and proper sanitation data. Then, it is compared with the logistic regression method and the Label Powerset (LP) transformation method. The results showed that LP – logistic regression produced the highest performance with an F1 of 40.44% and a G-Mean of 47.83%. The application of SMOTE to imbalance data was able to improve the classification results so that the best method was obtained, namely CC - LS SVM with F1 63.13% and G-Mean 57.92%. The use of CC can be considered in household classification based on drinking water and sanitation feasibility in East Java because the resulting classification accuracy is greater than LP in both the logistic regression and the LS SVM. Besides that, the variables that have a significant effect on drinking water and sanitation are demographic, housing, and economic factors

Item Type: Thesis (Masters)
Additional Information: RTSt 519.53 Gum a-1 2022
Uncontrolled Keywords: air minum, classifier chains, LS SVM, multilabel, sanitasi; classifier chains, drinking water, LS SVM, multilabel, sanitation
Subjects: Q Science > QA Mathematics > QA278.55 Cluster analysis
Divisions: Faculty of Science and Data Analytics (SCIENTICS) > Statistics > 49101-(S2) Master Thesis
Depositing User: EKO BUDI RAHARJO
Date Deposited: 13 Apr 2023 02:32
Last Modified: 13 Apr 2023 02:32
URI: http://repository.its.ac.id/id/eprint/97857

Actions (login required)

View Item View Item