Pramana, Kresna Adhi (2022) Klasifikasi Teks Multi-Label Untuk Deteksi Hatespeech Pada Twitter Berbahasa Indonesia. Other thesis, Institut Teknologi Sepuluh Nopember.
|
Text
05111840000072-Undergraduate_Thesis.pdf Restricted to Repository staff only Download (2MB) |
Abstract
Hatespeech atau ujaran kebencian adalah ucapan kasar yang menargetkan karakteristik kelompok tertentu, seperti asal etnis, agama, jenis kelamin, atau orientasi seksual. Hatespeech sering terjadi di beberapa negara dimana salah satunya yaitu di Indonesia. Dampak yang disebabkan oleh hatespeech sangat berbahaya. Para korban yang terkena hatespeech tidak hanya dapat menderita gangguan fisik, melainkan juga gangguan mental. Hatespeech tidak hanya terjadi di dunia nyata saja melainkan juga terjadi di dunia maya yaitu pada media sosial. Salah satu media sosial yang banyak digunakan untuk menyebarkan hatespeech yaitu Twitter. Twitter banyak digunakan sebagai media penyebaran hatespeech karena pengguna dapat bebas mengekspresikan perasaan dan emosi mereka dalam setiap peristiwa secara real-time. Hal ini tentu akan menjadi masalah apabila tidak ditangani secara langsung karena dapat menimbulkan dampak negatif bagi banyak orang. Untuk memberikan solusi pada masalah tersebut, maka perlu dilakukan pembuatan sistem untuk mendeteksi kalimat hatespeech pada Twitter berbahasa Indonesia. Sistem terdiri dari 4 tahapan yaitu pengambilan data, persiapan data, percobaan, dan evaluasi serta analisis hasil. Pada tahapan pengambilan data, pengambilan data tweet dilakukan dengan menggunakan kata-kata kasar yang telah dikumpulkan. Setelah mendapatkan data tweet, data tweet dianotasi menggunakan 3 label yaitu hatespeech atau bukan, kategori hatespeech, dan tingkatan hatespeech. Pada tahapan persiapan data juga dilakukan undersampling data karena adanya imbalanced pada dataset yang digunakan. Selain undersampling data, ekstraksi mention dan hashtag juga dilakukan untuk digunakan sebagai bagian dalam praproses data. Tahapan setelah persiapan data yaitu tahapan percobaan. Pada tahapan percobaan dilakukan klasifikasi teks multi-label hatespeech. Klasifikasi multi-label dilakukan dengan menggunakan metode SVM berdasarkan algoritma classifier chain, Bi-LSTM, dan BERT. Percobaan dilakukan sebanyak 3 kali dengan tujuan masing-masing yaitu pencarian teknik praproses data terbaik, pencarian parameter terbaik, dan perbandingan hasil dengan menggunakan data undersampling. Berdasarkan hasil pengujian, nilai indikator evaluasi terbaik yang berhasil didapatkan yaitu subset accuracy sebesar 0.826, hamming loss sebesar 0.055, micro-average f1 score sebesar 0.785, dan macro-average f1 score sebesar 0.798. Nilai indikator ini diperoleh dengan menggunakan metode SVM berdasarkan algoritma classifier chain, data undersampling, teknik praproses data terbaik, serta parameter terbaik.
=================================================================================================================================
Hatespeech is abusive speech that targets specific group characteristics, such as ethnic origin, religion, gender, or sexual orientation. Hate speech often occurs in several countries, one of which is in Indonesia. The impact caused by hate speech is very dangerous. The victims who are exposed to hate speech can not only suffer from physical disorders, but also mental disorders. Hatespeech does not only occur in the real world, but also occurs in cyberspace, namely on social media. One of the social media that is widely used to spread hate speech is Twitter. Twitter is widely used as a medium for spreading hate speech because users can freely express their feelings and emotions in real-time events. This will certainly be a problem if it is not handled directly because it can have a negative impact on many people. To provide a solution to this problem, it is necessary to create a system to detect hate speech sentences on Indonesian-language Twitter. The system consists of 4 stages, namely data collection, data preparation, experiment, and evaluation and analysis of results. At the data collection stage, tweet data retrieval is carried out using harsh words that have been collected. After getting the tweet data, the tweet data is annotated using 3 labels, namely hatespeech or not, hatespeech category, and hatespeech level. At the data preparation stage, data undersampling was also carried out due to imbalanced datasets used. In addition to data undersampling, mention and hashtag extraction were also carried out to be used as part of data preprocessing. The stage after data preparation is the experimental stage. At the experimental stage, a multi-label hate speech text classification was carried out. Multi-label classification was performed using the SVM method based on the classifier chain algorithm, Bi-LSTM, and BERT. The experiment was carried out 3 times with the respective objectives of finding the best data preprocessing technique, finding the best parameters, and comparing results using undersampling data. Based on the test results, the best evaluation indicator values that have been obtained are subset accuracy of 0.826, hamming loss of 0.055, micro-average f1 score of 0.785, and macro-average f1 score of 0.798. This indicator value is obtained using the SVM method based on the classifier chain algorithm, undersampling data, the best data preprocessing technique, and the best parameters.
| Item Type: | Thesis (Other) |
|---|---|
| Additional Information: | RSIf 005.74 Pra k-1 2022 |
| Uncontrolled Keywords: | Hatespeech, Twitter, Klasifikasi Multi-Label, SVM, Bi-LSTM, BERT. Hatespeech, Twitter, Multi-Label Classification, SVM, Bi-LSTM, BERT. |
| Subjects: | Z Bibliography. Library Science. Information Resources > ZA Information resources > Z699.5 Information storage and retrieval systems |
| Divisions: | Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Informatics Engineering > 55201-(S1) Undergraduate Thesis |
| Depositing User: | Mr. Marsudiyana - |
| Date Deposited: | 25 May 2026 07:40 |
| Last Modified: | 25 May 2026 07:40 |
| URI: | http://repository.its.ac.id/id/eprint/133410 |
Actions (login required)
![]() |
View Item |
