Klasifikasi Multilabel Imbalanced Data Menggunakan Hybrid Sampling Random Forest (Analisis Perilaku Berisiko Remaja Jawa Timur 2019)

Sari, Nilam Novita (2021) Klasifikasi Multilabel Imbalanced Data Menggunakan Hybrid Sampling Random Forest (Analisis Perilaku Berisiko Remaja Jawa Timur 2019). Masters thesis, Institut Teknologi Sepuluh Nopember.

[img] Text
06211850012010-Master_Tesis.pdf - Accepted Version
Restricted to Repository staff only

Download (5MB) | Request a copy

Abstract

Masa remaja merupakan masa yang rentan karena ada kecenderungan melakukan perilaku beresiko. Perilaku beresiko remaja ini erat kaitannya dengan masalah pengetahuan terhadap Kesehatan Reproduksi Remaja (KRR) dan NAPZA. Kurangnya pemahaman dan kesadaran remaja tentang pengetahuan terhadap KRR mengakibatkan banyaknya terjadi kasus seks pra-nikah dan penyalahgunaan NAPZA. Kasus seks pra-nikah dan penyalahgunaan NAPZA setiap tahun semakin meningkat dan menimbulkan dampak negatif. Sehingga perlu dilakukan analisis untuk mengetahui faktor-faktor yang dapat memprediksi perilaku berisiko remaja, salah satunya dapat menggunakan analisis klasifikasi. Data SKAP Jawa Timur 2019 menunjukkan persentase remaja yang melakukan perilaku berisiko seks pra-nikah sebesar 0.3% dan mengkonsumsi NAPZA sebesar 4.1%, ini menunjukkan terdapat kelas imbalance pada data perilaku berisiko remaja dan jika diklasifikasikan akan menghasilkan hasil yang kurang optimal. Sehingga diperlukan penanganan pada data imbalance ini dengan menerapkan metode hybrid sampling (SMOTE-NC+TL). Penelitian ini menggunakan dua variabel sekaligus yaitu perilaku berisiko seks pra-nikah dan mengkonsumsi NAPZA. Ini menunjukkan terdapat masalah multilabel dan untuk mengatasi masalah multilabel ini perlu dilakukan metode problem transformation (PT) dengan menggunakan Label Powerset (LP) dan Binary Relevance Plus (BR+). Pada penelitian ini akan dilakukan klasifikasi multilabel imbalance data menggunakan random forest. Sebelum dilakukan klasifikasi random forest, terlebih dahulu dilakukan uji independensi antara perilaku seks pra-nikah dan perilaku menggunakan NAPZA dan mentransformasi label-label tersebut dengan menggunakan BR+ (Stat) dan LP. Selanjutnya data yang sudah ditransformasi diterapkan metode hybrid sampling (SMOTE-NC+TL) untuk menangani data imbalance. Hasil dari penelitian menunjukkan bahwa BR+ (Stat) dan SMOTE-NC merupakan metode yang terbaik untuk klasifikasi multilabel imbalanced data dan variabel yang paling berpengaruh terhadap klasifikasi perilaku berisiko remaja adalah usia ============================================================================================== Adolescence is a vulnerable period because there is a tendency to be involved in risky. Adolescent risk behavior is closely related to knowledge of Adolescent Sexual and Reproductive Health (ASRH) and Drugs. The lack of understanding and awareness about it among adolescents has resulted in many cases of premarital sex and drug abuse. The incidence of premarital sex and drug consumption among adolescents increases every year and causes negative effect. Hence, it is necessary to research and determine the factors that can predict it. One of analysis that can be used to predict adolescent risk behavior is classification. The Data of SKAP in East Java in 2019 show that the percentage of adolescents who consume drugs is 4.1% and the percentage of adolescents having premarital sex is 0.3%. This condition shows that the class in the data is imbalanced and if we want to classify the data, it will produce less than optimal result. Therefore, it is required to handle imbalanced data by applying hybrid sampling (SMOTE-NC+TL). This study is using two output variables (label) that are drug abuse and premarital sex. This indicates that there is multilabel problem and to solving multilabel problem can be done using problem transformation methods such as Label Powerset (LP) and Binary Relevance Plus (BR+). In this study, we will classify the multilabel imbalanced data using random forest. Before the modeling, the labels will be testing for the dependencies and transform the label using LP and BR+ (Stat). Then hybrid sampling (SMOTE-NC+TL) is applied to handle the imbalanced data. The results show that BR+ (Stat) and SMOTE-NC is the best method to handle the multilabel imbalanced data classification and the variables that most affect the classification of adolsecent risk behavior is the age

Item Type: Thesis (Masters)
Uncontrolled Keywords: Binary Relevance Plus (BR+), Label Powerset (LP), Multilabel Imbalance, Perilaku Berisiko Remaja, SMOTE-NC+TL
Subjects: Q Science > Q Science (General) > Q325.5 Machine learning.
Divisions: Faculty of Science and Data Analytics (SCIENTICS) > Statistics > 49101-(S2) Master Thesis
Depositing User: Nilam Novita Sari
Date Deposited: 12 Mar 2021 07:48
Last Modified: 12 Mar 2021 07:48
URI: https://repository.its.ac.id/id/eprint/84158

Actions (login required)

View Item View Item