Klasifikasi Teks Multilabel Untuk Deteksi Ujaran Kebencian Pada Media Sosial Twitter Menggunakan Pendekatan Deep Learning

Salsabila, Herwinda Marwaa (2023) Klasifikasi Teks Multilabel Untuk Deteksi Ujaran Kebencian Pada Media Sosial Twitter Menggunakan Pendekatan Deep Learning. Other thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 05311940000009-Undergraduate_Thesis.pdf] Text
05311940000009-Undergraduate_Thesis.pdf - Accepted Version
Restricted to Repository staff only until 1 April 2025.

Download (2MB) | Request a copy

Abstract

Pesatnya pertumbuhan jejaring sosial seperti Twitter membuat komunikasi antara pengguna dengan latar belakang budaya dan psikologis yang berbeda dapat terjadi secara langsung. Hal ini mengakibatkan semakin banyak konflik dunia maya di antara pengguna media sosial, seperti munculnya ujaran kebencian yang ditargetkan baik ke individu maupun sekelompok orang. Para penyedia media sosial seperti Twitter telah menyediakan layanan bagi pengguna untuk melaporkan kicauan yang mengandung ujaran kebencian. Beberapa negara, seperti Indonesia, juga aktif dalam memberantas ujaran kebencian dengan mengambil tindakan hukum terkait hal tersebut. Namun dikarenakan volume data yang dimiliki oleh platform Twitter sangat besar, cuitan yang tidak dilaporkan cenderung tidak dapat ditemukan.
Oleh karena itu, muncul sebuah kebutuhan akan teknik otomatis yang dirancang untuk mendeteksi komentar yang penuh kebencian. Beberapa metode telah dikembangkan untuk memenuhi kebutuhan tersebut, termasuk metode Machine Learning maupun Deep Learning. Penelitian sebelumnya telah mengidentifikasi ujaran kebencian pada teks Twitter menggunakan dan membandingkan Bidirectional Long Short-Term Memory (BiLSTM) dan Bidirectional Encoder Representations from Transformers (BERT). Hanya saja pada penelitian tersebut hanya menangani permasalahan binary classificaton yang mendeteksi suatu cuitan merupakan ujaran kebencian atau tidak. Sementara itu, ujaran kebencian memiliki target, kategori, dan level yang perlu dideteksi untuk membantu pihak kepolisian dalam memprioritaskan ujaran kebencian mana harus segera diatasi.
Dalam penelitian ini, penulis mengajukan sebuah model arsitektur yang menggabungkan BiLSTM dengan BERT untuk klasifikasi multilabel teks Twitter. Model yang diukur dengan model mengklasifikasikan data dengan akurat. Dari hasil pengujian menggunakan model deep learning BiLSTM serta Contextual Word Embedding BERT berhasil memberikan akurasi yang lebih baik daripada menggunakan Word Embedding GloVe dalam melakukan klasifikasi multilabel ujaran kebencian pada teks Twitter pada dataset yang sama dengan akurasi sebesar 91.13%. Selanjutnya pada pengukuran metrik precision, recall, dan f1-score berupa precision sebesar 94%, recall sebesar 93%, dan f1-score sebesar 93%.
==================================================================================================================================
The rapid growth of social networks such as Twitter makes communication between users with different cultural and psychological backgrounds possible. This has resulted in more and more cyber conflicts among social media users, such as the emergence of hate speech targeted at both individuals and groups of people. Social media providers such as Twitter have provided services for users to report hateful tweets. Some countries, such as Indonesia, are also active in fighting hate with legal action related to it. However, because the volume of data held by the Twitter platform is so large, tweets that are not reported are less likely to be found. Therefore, there is a need for automated techniques designed to detect hateful ones.
Several methods have been developed to meet these needs, including Machine Learning and Deep Learning methods. Previous research has detected hate in Twitter texts using and comparing Bidirectional Long Short-Term Memory (BiLSTM) and Bidirectional Encoder Representations from Transformers (BERT). It's just that in this study only dealing with problems in the binary classification that detects tweets that are hate speech or not. Meanwhile, hate speech has targets, categories, and levels that need to be detected to assist the police in prioritizing actions that must be addressed immediately. In this research, the author proposes an architectural model that combines BiLSTM with BERT to classify Twitter text multilabels. The model be measured by the model classifies the data correctly. From the test results using the BiLSTM deep learning model and Contextual Word Embedding BERT managed to provide better accuracy than using Word Embedding GloVe in classifying multi-label hate speech on Twitter text in the same dataset with an accuracy of 91.13%. Furthermore, the precision, recall, and f1-score measurements consist of a precision of 94%, a recall of 93%, and an f1-score of 93%.

Item Type: Thesis (Other)
Uncontrolled Keywords: Twitter, Ujaran Kebencian, Deep Learning, Bidirectional Long Short-Term Memory, Bidirectional Encoder Representations from Transformers. Twitter, Hate Speech, Deep Learning, Bidirectional Long Short-Term Memory, Bidirectional Encoder Representations from Transformers.
Subjects: H Social Sciences > HM Sociology > HM742 Online social networks.
T Technology > T Technology (General) > T57.5 Data Processing
Divisions: Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Information Technology > 59201-(S1) Undergraduate Thesis
Depositing User: Herwinda Marwaa Salsabila
Date Deposited: 07 Feb 2023 03:29
Last Modified: 07 Feb 2023 03:29
URI: http://repository.its.ac.id/id/eprint/96284

Actions (login required)

View Item View Item