Klasifikasi Ujaran Berbahaya Menggunakan BILSTM dan Latent Dirichlet Allocation (LDA) Untuk Teks Multilabel Pada Twitter Bahasa Indonesia

Yonathan, Vincent (2023) Klasifikasi Ujaran Berbahaya Menggunakan BILSTM dan Latent Dirichlet Allocation (LDA) Untuk Teks Multilabel Pada Twitter Bahasa Indonesia. Other thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 05111940000186-Undergraduate_Thesis.pdf] Text
05111940000186-Undergraduate_Thesis.pdf - Accepted Version
Restricted to Repository staff only until 1 October 2025.

Download (2MB) | Request a copy

Abstract

Dangerous Speech atau ujaran berbahaya didefinisikan sebagai pernyataan dengan intensi untuk menyebabkan luka fisik, cedera atau kerusakan terhadap seseorang sebagai sebuah pembalasan terhadap sesuatu hal yang belum tentu dilakukan. Penyebaran ujaran berbahaya meningkatkan risiko kekerasan terhadap orang lain dan berpotensi mengancam keamanan dan pertahanan suatu negara. Twitter merupakan media sosial yang kerap digunakan dalam menyebarkan ujaran berbahaya tersebut. Multilabel didefinisikan karena setiap tweet akan diberikan label berdasarkan tujuh aspek. Tweet yang dinilai berpotensi memiliki lebih dari satu label pada tiap aspeknya karena adanya penilaian pada label konteks dan pesan. Solusi yang dirumuskan dari permasalahan ujaran berbahaya ini berupa pendekatan deep learning untuk prediksi label pada tweet dan kemudian dinilai bobotnya untuk menentukan apakah kalimat tersebut merupakan ujaran berbahaya atau. Sistem terdiri dari beberapa tahapan yaitu pengambilan data, persiapan data, pelabelan data, pemodelan serta analisis hasil. Tahap pengambilan data dilaksanakan untuk mengambil dataset tweet dari akun @BUMN_Gate dari tahun 2019 hingga tahun 2022. Akun ini dipilih berdasarkan dugaan berpotensi tinggi menyebarkan ujaran berbahaya dari penelitian sebelumnya. Ketika dataset telah didapatkan data kemudian akan melalui praproses data yang meliputi pembersihan dan ekstraksi fitur. Pelabelan juga dilakukan secara manual dan pseudolabelling. Tahap pemodelan dilakukan dengan menggunakan metode Bidirectional Long Short Term Memory yang memanfaatkan ekstraksi fitur Flair Word Embeddings. Hasil prediksi dan pelabelan model dikategorikan dengan proses Analytic hierarchy process dengan metode Weighted Sum Model. Kemudian dilakukan pemodelan topik menggunakan Latent Dirichlet Allocation. Prediksi multilabel dari model menghasilkan akurasi tertinggi pada angka 49,6%. Kemudian hasil dari proses pembobotan menunjukan bahwa pengguna Twitter @BUMN_Gate tidak tergolong ke pengguna yang sering menyebarkan ujaran berbahaya lewat Twitternya.dengan persentase penyebaran ujaran berbahaya pada angka 19%.
===============================================================================================================================
Dangerous Speech are defined as statements with the intention to cause physical harm, injury, or damage to someone as a retaliation against something that may not necessarily have been done. The spread of dangerous speech increases the risk of violence against others and potentially threatens the security and defense of a nation. Twitter is a social media platform often used to disseminate such dangerous speech. Multilabel is defined because each tweet will be given labels based on seven aspects. Tweets that are assessed to be potentially dangerous may have more than one label for each aspect due to assessments based on context and message labels. The formulated solution to this issue of dangerous speech involves a deep learning approach to predict labels on tweets and then evaluate their weights to determine whether the sentence constitutes dangerous speech or not. The system consists of several stages, including data acquisition, data preparation, data labeling, modeling, and result analysis. The data acquisition stage is carried out to collect tweet datasets from the @BUMN_Gate account from 2019 to 2022. This account was selected based on a previous study's suspicion of having a high potential for spreading dangerous speech. Once the dataset is obtained, the data goes through data preprocessing, including cleaning and feature extraction. Labeling is also done manually and through pseudolabeling. The modeling stage is conducted using the Bidirectional Long Short-Term Memory method that utilizes Flair Word Embeddings for feature extraction. The predictions and labels from the model are categorized using the Analytic Hierarchy Process with the Weighted Sum Model method. Additionally, topic modeling is performed using Latent Dirichlet Allocation. Multilabel predictions from the model achieve the highest accuracy at 49.6%. Furthermore, the results of the weighting process indicate that Twitter user @BUMN_Gate is not classified as someone who frequently spreads dangerous speech through their Twitter account, with the percentage of dangerous speech dissemination standing at 19%.

Item Type: Thesis (Other)
Uncontrolled Keywords: Ujaran Berbahaya, Deep Learning, Multilabel, BiLSTM, Pemodelan Topik, Dangerous Speech, Deep Learning, Multilabel, BiLSTM, Topic Modeling
Subjects: Q Science > Q Science (General) > Q325.5 Machine learning. Support vector machines.
R Medicine > R Medicine (General) > R858 Deep Learning
Divisions: Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Informatics Engineering > 55201-(S1) Undergraduate Thesis
Depositing User: Vincent Yonathan
Date Deposited: 23 Aug 2023 04:22
Last Modified: 23 Aug 2023 04:22
URI: http://repository.its.ac.id/id/eprint/102003

Actions (login required)

View Item View Item