Klasifikasi Multi-Label Dangerous Speech Twitter Dengan Fine-Tuning Model Pra-Terlatih IndoBERTweet

Robin, Christian Bennett (2023) Klasifikasi Multi-Label Dangerous Speech Twitter Dengan Fine-Tuning Model Pra-Terlatih IndoBERTweet. Other thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 05111940000078-Undergraduate Thesis.pdf] Text
05111940000078-Undergraduate Thesis.pdf - Accepted Version
Restricted to Repository staff only until 1 September 2025.

Download (3MB)

Abstract

Dangerous speech, atau ujaran berbahaya, yang merupakan bagian dari ujaran kebencian, merupakan suatu ujaran yang dapat meningkatkan risiko seseorang atau suatu kelompok orang melakukan kejahatan terhadap orang lain atau kelompok orang lainnya. Dalam dangerous speech ini, terdapat 7 aspek, yaitu: konteks sosial, konteks historis, dehumanisasi, tuduhan, serangan terhadap wanita dan anak kecil, loyalitas suatu kelompok, dan ancaman terhadap suatu kelompok. Dangerous speech sendiri marak ditemukan di media sosial seperti Twitter. Pada tugas akhir ini, telah dibuat suatu sistem yang dapat melakukan klasifikasi multi-label berdasarkan ke-7 aspek dangerous speech dengan cara melakukan fine-tuning terhadap model pra terlatih IndoBERTweet. Hasil klasifikasi tersebut kemudian dilakukan pembobotan dengan metode Weighted Sum Model (WSM) untuk menentukan tweet mana saja yang termasuk dalam dangerous speech. Tahapan yang dilalui mencakup pengumpulan data, pengolahan data, pelabelan dataset manual, pembuatan model, pseudolabeling, dan yang terakhir, yaitu evaluasi dan analisis hasil uji coba. Pengumpulan data dilakukan menggunakan SNScrape untuk mengumpulkan data dari Twitter. Data yang dikumpulkan merupakan data tweet yang berasal dari akun @ruhutsitompul, @BengkeltanahONE, dan @03__nakula yang merupakan beberapa akun Twitter yang pro terhadap pemerintah. Data yang didapatkan kemudian dilakukan pengolahan dan pembersihan untuk menghilangkan kata-kata yang tidak berarti. Tahapan selanjutnya adalah melakukan pelabelan secara manual untuk akun @ruhutsitompul guna untuk memperoleh dataset yang dapat digunakan ke dalam model yang dibuat. Setelah dataset diperoleh, selanjutnya dilakukan pembuatan model dengan cara melakukan fine-tuning terhadap model pra-terlatih IndoBERTweet untuk melakukan klasifikasi multi-label. Pseudolabeling selanjutnya dilakukan untuk memperbanyak dataset untuk data tweet dari akun yang tidak dilabel secara manual untuk nantinya dimasukkan lagi ke dalam model untuk perbandingan hasil uji coba. Tahapan terakhir merupakan evaluasi dan analisis uji coba terhadap model yang sudah dibuat. Dari sistem yang sudah dibuat, didapatkan bahwa model IndoBERTweet yang menggunakan dataset yang telah dilakukan pseudolabeling serta dipra-proses dengan beberapa langkah tambahan seperti penghapusan stopwords, penggunaan kata asli dari hashtags dan usernames dan penggunaan lematisasi berhasil mendapatkan performa yang paling bagus diantara semua uji coba lainnya, yaitu di angka 82% untuk subset accuracy¬-nya. Selain itu, bobot dari masing-masing label ditentukan berdasarkan model logistic regression dan didapatkan bahwa hasilnya sebanding dengan bobot dari penelitian sebelumnya. Dari hasil pembobotan dan analisis dangerous speech, didapatkan bahwa aspek Social dan Accusation berperan penting dalam penentuan apabila suatu ujaran merupakan ujaran dangerous speech atau tidak.
====================================================================================================================================
Dangerous speech, which is part of hate speech, is a speech that increases the risk of someone or a group of people committing a crime against other individuals or groups.
Dangerous speech has 7 aspects: social context, historical context, dehumanization, accusation in a mirror, assertion of attack against women and girls, questioning in-group loyalty, and threat to group integrity or purity. Dangerous speech is commonly found on social media platforms such as Twitter. In this final project, a system that can perform multi-label classification based on the 7 aspects of dangerous speech by fine-tuning a pre-trained IndoBERTweet model is designed. The classification results will then be weighted using the Weighted Sum Model (WSM) to determine which tweets are considered dangerous speech. The stages which are included in this process are data collection, data processing, manual dataset labeling, model creation, pseudolabeling and finally, evaluation and analysis of test
results. Data collection is carried out using SNScrape to collect data from Twitter. The collected data consists of tweets from the accounts @ruhutsitompul, @BengkeltanahONE, and @03__nakula, which are some of the Indonesian Twitter accounts that are pro-government. The data obtained is then pre-processed and cleaned to remove meaningless words. The next process is to manually label the data from the account @ruhutsitompul in order to acquire a dataset that could be used in the model. Once the dataset was obtained, the model was built by fine-tuning the pre-trained IndoBERTweet model for multi-label classification. Pseudolabeling is then carried out to increase the dataset for the tweet data from accounts that were not manually labeled. The final stage was the evaluation and analysis of test results for the created model. From the system that has been built, the IndoBERTweet model which uses a dataset that has been pseudolabeled and preprocessed with several additional steps such as removing stopwords, using original words from hashtags and usernames, and using lemmatization achieves the best performance among all other experiments, with a subset accuracy of 82%. Furthermore, the weights of each label have been determined based on a logistic regression model, and the results are comparable to the weights from the previous research. From the weighting and analysis of dangerous speech, it was found that Social and Accusation aspects play an important role in determining whether a speech is considered dangerous or not

Item Type: Thesis (Other)
Uncontrolled Keywords: Dangerous speech, klasifikasi multi-label, IndoBERTweet; Dangerous speech, multi-label classification, IndoBERTweet
Subjects: Q Science > Q Science (General) > Q325.5 Machine learning.
Divisions: Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Informatics Engineering > 55201-(S1) Undergraduate Thesis
Depositing User: Christian Bennett Robin
Date Deposited: 18 Aug 2023 08:52
Last Modified: 05 Oct 2023 08:14
URI: http://repository.its.ac.id/id/eprint/102503

Actions (login required)

View Item View Item