Prediksi Ketidakselarasan Judul dan Isi dari Berita Clickbait Berbahasa Indonesia Menggunakan Model Indo Bidirectional Encoder Representations from Transformers (IndoBERT)

Saputra, I Gede Febry Abdi (2024) Prediksi Ketidakselarasan Judul dan Isi dari Berita Clickbait Berbahasa Indonesia Menggunakan Model Indo Bidirectional Encoder Representations from Transformers (IndoBERT). Other thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 5002201008-Undergraduate_Thesis.pdf] Text
5002201008-Undergraduate_Thesis.pdf

Download (5MB)

Abstract

Istilah clickbait digunakan untuk menggambarkan judul berita yang menyembunyikan informasi untuk memicu rasa ingin tahu pengguna agar melakukan tindakan klik, meskipun sering mengecewakan pembaca. Dengan meningkatnya jumlah pengguna internet dan popularitas media sosial, semakin banyak berita yang tersebar di internet, sehingga penting untuk memiliki tools yang dapat membedakan antara berita informatif dan clickbait. Penelitian ini bertujuan untuk membangun model klasifikasi menggunakan model Indo Bidirectional Encoder Representations from Transformers (IndoBERT) untuk membedakan antara berita yang selaras non-clickbait dan tidak selaras clickbait berdasarkan judul dan isi naskah beritanya. Dataset berasal dari 26 portal penyedia berita online. Hasil penelitian menunjukkan bahwa model IndoBERT mampu dalam tugas klasifikasi berita dan memiliki performa unggul dengan akurasi validasi 77% dan akurasi pengujian 76% pada jenis dataset terbaik (dataset C dengan proporsi 95% data latih dan 5% data uji). Perbandingan dengan model BERT lainnya yaitu RoBERTa menunjukkan bahwa IndoBERT lebih unggul dalam accuracy, precision, recall, dan F1-score. Faktor-faktor seperti pelatihan khusus pada korpus bahasa Indonesia yang lebih relevan dan adanya layer pooler pada IndoBERT menjadi salah satu alasan keunggulan performa. Penelitian ini memberikan kontribusi dalam identifikasi ketidakselarasan antara isi teks dengan judul berita dengan tingkat akurasi yang tinggi, serta membuktikan bahwa IndoBERT lebih efektif dalam tugas klasifikasi berita clickbait dan non-clickbait.

========================================================================================================================

The term clickbait is used to describe headlines that hide information to trigger users' curiosity to click, although it often disappoints readers. With the increasing number of Internet users and the popularity of social media, more and more news is spread on the Internet, so it is important to have tools that can distinguish between informative news and clickbait. This study aims to build a classification model using the Indo Bidirectional Encoder Representations from Transformers (IndoBERT) model to distinguish between aligned (non-clickbait) and unaligned (clickbait) news based on the title and content of the news script. The dataset comes from 26 online news provider portals. The results show that the IndoBERT model is capable of news classification tasks and has superior performance with 77% validation accuracy and 76% testing accuracy on the best type of dataset (dataset C with a proportion of 95% training data and 5% test data). Comparison with another BERT model, RoBERTa, shows that IndoBERT is superior in accuracy, precision, recall, and F1-score. Factors such as specialized training on a more relevant Indonesian corpus and the presence of a layer pooler in IndoBERT are one of the reasons for the superior performance. This research contributes to the identification of misalignment between text content and news headlines with high accuracy, and proves that IndoBERT is more effective in the task of clickbait and non-clickbait news classification.

Item Type: Thesis (Other)
Uncontrolled Keywords: Berita, Classification, Clickbait, Klasifikasi, IndoBERT, News.
Subjects: Q Science > QA Mathematics > QA336 Artificial Intelligence
Q Science > QA Mathematics > QA76.87 Neural networks (Computer Science)
Divisions: Faculty of Science and Data Analytics (SCIENTICS) > Mathematics > 44201-(S1) Undergraduate Thesis
Depositing User: I Gede Febry Abdi Saputra
Date Deposited: 06 Aug 2024 08:26
Last Modified: 06 Aug 2024 08:26
URI: http://repository.its.ac.id/id/eprint/113900

Actions (login required)

View Item View Item