Freecenta, Helna (2025) Klasifikasi Berita dan Prediksi Jumlah Pembaca Berita pada Laman Berita Online Menggunakan Metode Multitask Learning. Masters thesis, Institut Teknologi Sepuluh Nopember.
![]() |
Text
6025221036-Master_Thesis.pdf - Accepted Version Restricted to Repository staff only until 1 April 2027. Download (2MB) | Request a copy |
Abstract
Penelitian ini mengeksplorasi efektivitas model multi-task learning untuk melakukan dua tugas yaitu, klasifikasi kategori berita dan prediksi jumlah pembaca secara bersamaan dengan membandingkan dua teknik word embedding (Word2Vec dan TF-IDF) dan dua arsitektur multi-task learning yang berbeda yaitu, Dense multi-task learning dan Convolutional Neural Network (CNN) multi-task learning untuk memprediksi jumlah pembaca dan kategori artikel pada suatu judul berita. Dataset yang digunakan pada penelitian ini merupakan dataset internal yang didapat pada sebuah portal media online dengan range periode judul berita 2022 s/d Juni 2024. Pada penelitian ini menggunakan dilakukan beberapa skenario uji coba berupa perbedaan epoch pada setiap model dan setiap word embedding. Percobaan dilakukan dengan menggunakan epoch 15 dan 20 dengan menggunakan optimizer Adam dan fungsi aktivasi ReLU. Hasil eksperimen menunjukkan keunggulan signifikan metode Word2Vec dibandingkan TF-IDF. Pada arsitektur Dense, Word2Vec mencapai akurasi klasifikasi 0.93 dan AUC-ROC 0.99, sementara TF-IDF hanya mencapai 0.88 dan 0.98. Pola serupa terlihat pada arsitektur CNN, dengan Word2Vec meraih akurasi 0.90-0.91 dibandingkan 0.84-0.85 dari TF-IDF. Variasi jumlah epochs (15 dan 20) menunjukkan stabilitas performa, dengan peningkatan minimal pada metrik evaluasi. Kedua arsitektur menampilkan konsistensi tinggi dalam metrik regresi, dengan RMSE, MAE, dan MSE yang sangat rendah, mengindikasikan akurasi prediksi jumlah pengguna yang tinggi. RMSE tetap rendah 0,02 di semua epoch dan metode embedding, MAE sangat rendah, 0,01 untuk semua konfigurasi, MSE 0,00, menunjukkan prediksi sangat akurat. Metrik regresi ini membuktikan model mampu membuat prediksi jumlah pembaca yang sangat presisi, dengan kesalahan minimal. Nilai RMSE, MAE, dan MSE yang rendah mengindikasikan pendekatan multi-task learning efektif untuk meramalkan jumlah pembaca artikel berita. Analisis mendalam mengungkapkan bahwa Word2Vec lebih efektif dalam menangkap nuansa semantik dan kontekstual dari judul artikel. Kemampuannya menangkap hubungan makna antar kata memberikan keunggulan dalam mengekstrak fitur yang relevan untuk klasifikasi dan prediksi. Kesimpulan utama penelitian ini adalah rekomendasi penggunaan Word2Vec dengan arsitektur Dense untuk representasi teks yang optimal. Model mendemonstrasikan performa unggul dengan akurasi klasifikasi di atas 0.90 dan kemampuan prediksi yang handal.
==============================================================================================================================
This study explores the effectiveness of multi-task learning models to perform two tasks, namely, news category classification and readership prediction, simultaneously by comparing two-word embedding techniques (Word2Vec and TF-IDF) and two different multi-task learning architectures, namely, Dense multi-task learning and Convolutional Neural Network (CNN) multi-task learning to predict the number of readers and article categories in a news title. The dataset used in this study is an internal dataset obtained from an online media portal with a news title period ranging from 2022 to June 2024. This study used several trial scenarios in different epochs for each model and word embedding. The experiment used epochs 15 and 20 using the Adam optimizer and the ReLU activation function. The experimental results showed a significant advantage of the Word2Vec method over TF-IDF. On the Dense architecture, Word2Vec achieved a classification accuracy of 0.93 and an AUC-ROC of 0.99, while TF-IDF only achieved 0.88 and 0.98. A similar pattern is seen in CNN architecture, with Word2Vec achieving an accuracy of 0.90-0.91 compared to 0.84-0.85 for TF-IDF. Varying the number of epochs (15 and 20) showed stability in performance, with minimal improvement in evaluation metrics. Both architectures displayed high consistency in regression metrics, with very low RMSE, MAE, and MSE, indicating high accuracy in predicting the number of users. RMSE remained low at 0.02 across all epochs and embedding methods, MAE was very low at 0.01 for all configurations, and MSE was 0.00, indicating accurate predictions. These regression metrics prove the model can make exact readership predictions with minimal errors. The low RMSE, MAE, and MSE values indicate that the multi-task learning approach effectively predicts the number of news article readers. In-depth analysis reveals that Word2Vec is more effective in capturing semantic and contextual nuances of article titles. Its ability to capture meaningful relationships between words gives it an edge in extracting relevant features for classification and prediction. The main conclusion of this study is the recommendation of using Word2Vec with Dense architecture for optimal text representation. The model demonstrates superior performance with classification accuracy above 0.90 and reliable prediction ability.
Item Type: | Thesis (Masters) |
---|---|
Uncontrolled Keywords: | Multitask Learning, dense MTL, CNN MTL, Prediksi pembaca, Klasifikasi berita, Prediction readers, Classification new |
Subjects: | Q Science > Q Science (General) > Q325.5 Machine learning. Support vector machines. T Technology > T Technology (General) > T174 Technological forecasting T Technology > T Technology (General) > T57.5 Data Processing |
Divisions: | Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Informatics Engineering > 55101-(S2) Master Thesis |
Depositing User: | Helna Freecenta |
Date Deposited: | 04 Feb 2025 03:55 |
Last Modified: | 04 Feb 2025 03:55 |
URI: | http://repository.its.ac.id/id/eprint/118083 |
Actions (login required)
![]() |
View Item |