Analisis Clickbait pada Judul Berita Bahasa Indonesia menggunakan Word2Vec, Node2Vec, dan Support Vector Machine

Zuhroh, Nurrida Aini (2020) Analisis Clickbait pada Judul Berita Bahasa Indonesia menggunakan Word2Vec, Node2Vec, dan Support Vector Machine. Masters thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 05211850010004-Master_Thesis.pdf]
Preview
Text
05211850010004-Master_Thesis.pdf

Download (3MB) | Preview

Abstract

Saat ini portal berita daring menjadi salah satu sumber penyedia informasi yang banyak diakses oleh masyarakat Indonesia. Salah satu cara media daring memperoleh pendapatan adalah melalui jumlah traffic pengunjung situs. Hal ini menyebabkan persaingan antar media daring semakin ketat untuk meningkatkan jumlah pengunjungnya. Salah satu cara yang dilakukan media untuk menarik pengunjung adalah membuat judul berita yang hiperbola sehingga mendorong seseorang untuk membaca berita tersebut atau biasa disebut clickbait. Isi dari clickbait cenderung mengecewakan bagi pembaca karena kualitas dari konten yang buruk, kurang informatif, dan dapat menggiring opini publik. Sehingga pada penelitian ini dilakukan pendeteksian berita clickbait menggunakan algoritma klasifikasi support vector machine (SVM) dengan Word2Vec dan Node2Vec sebagai representasi fitur. Selain itu juga dilakukan analisis dengan menggunakan hasil dari embedding Node2Vec untuk mengetahui pola dari berita yang biasa digunakan sebagai clickbait. Dataset yang digunakan pada penelitian ini diambil dari 7 situs berita yang memiliki jumlah pengunjung terbanyak di Indonesia. Berdasarkan penelitian yang telah dilakukan, diketahui bahwa penggunaan graph embedding menunjukkan performa klasifikasi yang lebih baik dibandingkan dengan word embedding sebagai representasi fitur dengan nilai precision 84% untuk penggunaan graph embedding dan 80% untuk penggunaan word embedding. Selain itu, dengan penggunaan word embedding sebagai representasi fitur diketahui bahwa kata stopword pada judul clickbait memiliki pengaruh terhadap hasil nilai pengujian. Untuk analisis pola judul berita diketahui bahwa berdasarkan kategori dan tag berita, antara berita clickbait dan nonclickbait tidak memiliki perbedaan yang signifikan. Berdasarkan hasil pengecekan similarity pada berita clickbait diperoleh bahwa 40% dari berita yang terklasifikasi clickbait memiliki kesamaan dengan berita nonclickbait.
============================================================
Nowadays, the online news portal is one of the sources of information that is widely accessed by people. One way that online media earn revenue is through numbers of traffic. This causes competition among online media increasingly tight to increase the number of visitors. One way that the media do to attract visitors is to create hyperbole headlines that encourage someone to read the news or commonly called clickbait. The contents of clickbait tend to disappoint the reader because the quality of the content is poor, less informative, and can lead to public opinion. So, in this study, clickbait news detection was performed using the support vector machine (SVM) classification algorithm with Word2Vec and Node2Vec as feature representations. Also, an analysis using the results of Node2Vec embedding was used to determine the pattern of news that is commonly used as a clickbait. The dataset used in this study was taken from 7 news sites that have the most visitors in Indonesia. From this study, it is known that the use of graph embedding shows better performance than word embedding as a feature with a precision value of 84% for the use of graph embedding and 80% for the use of word embedding. Based on the results of the classification using word embedding as a feature representation, it is known that the word stopword in the clickbait title influences the test performance results. For the analysis of news headline patterns, it is known that based on news categories and tags between clickbait and nonclickbait news do not have significant differences. The results of checking the similarity of clickbait news, it was found that 40% of news classified as clickbait has similarities with nonclickbait news.

Item Type: Thesis (Masters)
Additional Information: RTSI 004.678 Zuh a-1
Uncontrolled Keywords: deteksi clickbait, word2vec, support vector machine, node2vec; word embedding, graph embedding
Subjects: T Technology > T Technology (General) > T57.5 Data Processing
Divisions: Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Information System > 59101-(S2) Master Thesis
Depositing User: Nurrida Aini Zuhroh
Date Deposited: 17 May 2024 07:19
Last Modified: 17 May 2024 07:19
URI: http://repository.its.ac.id/id/eprint/74429

Actions (login required)

View Item View Item