Klasifikasi Multi-Label Ujaran yang Menyinggung Menjelang Pemilihan 2024 Pada Twitter Masyarakat Indonesia Menggunakan Support Vector Machine

Frederica, Vania (2023) Klasifikasi Multi-Label Ujaran yang Menyinggung Menjelang Pemilihan 2024 Pada Twitter Masyarakat Indonesia Menggunakan Support Vector Machine. Other thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 06211940000006-Undergraduate_Thesis.pdf] Text
06211940000006-Undergraduate_Thesis.pdf - Accepted Version
Restricted to Repository staff only until 1 October 2025.

Download (2MB) | Request a copy

Abstract

Fasilitas yang diberikan oleh media sosial twitter menawarkan kebebasan bagi penggunanya untuk leluasa berpendapat ataupun mengutarakan opini. Akan tetapi, kebebasan berpendapat yang tidak dibatasi dapat mengarah pada bentuk penyalahgunaan media sosial, diantaranya penipuan, penyebaran ujaran kebencian, dan bahasa kasar (abusive language). Penggunaan ujaran kebencian/ujaran yang menyinggung menjadi ancaman utama dalam masa kampanye pemilihan. Ujaran yang menyinggung dapat menggangu kedamaian dan netralitas politik. Oleh karena itu, klasifikasi pendeteksian tweet yang mengandung ujaran yang menyinggung menjadi salah satu solusi untuk menciptakan ruang platform media yang lebih sehat. Data yang dikumpulkan adalah tweet masyarakat Indonesia. Unit analisisnya adalah tweet per individu masyarakat Indonesia dengan menggunakan hashtag #pemilu2024, #pilkada2024, #pilpres2024, #2024gantipresiden dan tagar yang berkaitan dengan pemilihan 2024. Jumlah data yang digunakan sebanyak 2035 tweets. Penelitian ini akan melakukan ekstrasi fitur menggunakan TF-IDF, menangani data tweet yang imbalanced menggunakan metode ML-SMOTE, serta melakukan klasifikasi multi-label ujaran yang menyinggung dengan menggunakan metode support vector machine (SVM) dengan classfier chains. Pada model klasifikasi multi-label, digunakan 10-fold stratified cross validation untuk pembagian data training dan testing. Model menunjukkan ukuran kinerja yang baik dilihat dari subset accuracy dan hamming loss. Model terbaik adalah model klasifikasi multi-label dengan parameter C sebesar 10 dan parameter sebesar 1. Kedua nilai parameter yang digunakan masih berada dalam batas yang disarankan. Nilai subset accuracy yang diperoleh pada data training sebesar 94,16% dan hamming loss sebesar 0,029. Sedangkan, nilai subset accuracy yang diperoleh pada data testing sebesar 85,69% dan hamming loss sebesar 0,104. Model klasifikasi menunjukkan performa yang baik dan dapat digunakan untuk prediksi klasifikasi ujaran yang menyinggung
===============================================================================================================================
The facilities provided by twitter social media offer freedom for users to freely express their opinions. However, unrestricted freedom of speech can lead to forms of social media abuse, including fraud, spreading hate speech, and abusive language. The use of hate speech/offensive language is a major threat during election campaigns. Offensive speech can disrupt political peace and neutrality. Therefore, classification of tweets containing offensive speech detection is one of the solutions to create a healthier media platform space. The data collected are tweets of Indonesian people. The unit of analysis is individual Indonesian tweets using the hashtags #pemilu2024, #pilkada2024, #pilpres2024, #2024gantipresiden and hashtags related to the 2024 election. The amount of data used is 2035 tweets. This research will perform feature extraction using TF-IDF, handle imbalanced tweet data using the ML-SMOTE method, and perform multi-label classification of offensive speech using the support vector machine (SVM) method with classifier chains. In the multi-label classification model, 10-fold stratified cross validation was used to divide the training and testing data. The model showed good performance measures in terms of subset accuracy and hamming loss. The best model is the multi-label classification model with a C parameter of 10 and a parameter of 1. Both parameter values used are still within the recommended limits. The subset accuracy value obtained on the training data is 94.16% and the hamming loss is 0.029. Meanwhile, the subset accuracy value obtained on the testing data is 85.69% and the hamming loss is 0.104. The classification model shows good performance and can be used for prediction of offensive speech classification.

Item Type: Thesis (Other)
Uncontrolled Keywords: Classification, Classifier Chain, Offensive Speech, Support Vector Machine, Klasifikasi, Ujaran Yang menyinggung
Subjects: H Social Sciences > HA Statistics
Divisions: Faculty of Science and Data Analytics (SCIENTICS) > Statistics > 49201-(S1) Undergraduate Thesis
Depositing User: Vania Frederica
Date Deposited: 05 Sep 2023 06:24
Last Modified: 05 Sep 2023 06:24
URI: http://repository.its.ac.id/id/eprint/104636

Actions (login required)

View Item View Item