Prediksi Popularitas Media Sosial Menggunakan Metode Regresi Berbasis Tree

Solichin, Zulfayanti Sofia (2024) Prediksi Popularitas Media Sosial Menggunakan Metode Regresi Berbasis Tree. Other thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 05111940000189-Undergraduate_Thesis.pdf] Text
05111940000189-Undergraduate_Thesis.pdf - Accepted Version
Restricted to Repository staff only until 1 April 2026.

Download (3MB) | Request a copy

Abstract

Media sosial merupakan platform berbasis layanan dan seluler yang memungkinkan setiap individu, komunitas, dan organisasi untuk berkolaborasi, berinteraksi, dan membuat komunitas dengan memperbolehkan mereka untuk membuat, memodifikasi, berbagi, dan mengajak menggunakan konten yang diposting. Pada media sosial, terdapat berbagai faktor yang menyebabkan beberapa unggahan dapat memiliki popularitas yang sangat beragam. Pada penelitian ini, dilakukan prediksi popularitas unggahan pada media sosial Instagram dengan jumlah suka sebagai parameter yang merepresentasikan popularitas unggahan. Penggunaan Instagram dalam penelitian ini karena Instagram merupakan salah satu aplikasi yang paling banyak digunakan dalam beberapa tahun terkahir dan memberikan berbagai metadata terkait unggahan yang memberikan wawasan mengenai keterlibatan pengguna sehingga cocok untuk membuat prediksi popularits. Prediksi dibuat dengan menggunakan tiga jenis model regresi berbasis tree, yaitu model prediksi Deep Forest, Random Forest, dan Decision Tree, model juga dibuat dengam mengimplementasika dua algoritma vektorisasi teks pada fitur caption yaitu algoritma Word2Vec CBOW dan Skip-gram untuk dibandingkan. Pada penelitian ini, hasil prediksi yang akan dibandingkan satu dengan yang lainnya dengan membandingkan hasil evaluasi metrik Mean Absolute Error (MAE), Mean Squared Error (MSE), dan R-Squared (R2). Selain itu, dilakukan analisis dengan menggunakan Shapley Additive exPlanations (SHAP) untuk mengetahui fitur mana yang paling berpengaruh pada kinerja model yang dibuat. Dari hasil penenlitian, ketika menggunakan dataset metadata unggahan Instagram yang sudah dibersihkan dari pencilan, didapatkan kinerja terbaik dengan menggunakan model Deep Forest dan menerapkan vektorisasi teks pada fitur caption menggunakan metode Word2Vec Skip-gram. Nilai evaluasi MAE yang didapat pada pengujian dengan model Deep Forest adalah 1479,560, MSE sebesar 11.016.353,629, dan nilai evaluasi R2 sebesar 0,460. Analisis SHAP menunjukkan bahwa fitur-fitur yang paling signifikan dalam mempengaruhi model adalah jumlah komentar, status verifikasi akun pengguna, dan jumlah hashtag yang digunakan.
=================================================================================================================================
Social media is a service and mobile-based platform that allows individuals, communities, and organizations to collaborate, interact, and create communities by enabling them to create, modify, share, and engage with posted content. In social media, there are various factors that cause some posts to have widely varying popularity. In this research, the popularity prediction of Instagram posts with the number of likes as a parameter representing post popularity is conducted. The use of Instagram in this study is because Instagram is one of the most widely used applications in recent years and provides various metadata related to posts that provide insights into user engagement, making it suitable for popularity prediction. Predictions are made using three types of tree-based regression models, namely Deep Forest, Random Forest, and Decision Tree prediction models, and models are also created by implementing two text vectorization algorithms on caption features, namely Word2Vec CBOW and Skip-gram, for comparison. In this study, the prediction results will be compared against each other by evaluating metrics such as Mean Absolute Error (MAE), Mean Squared Error (MSE), and R-Squared (R2). Additionally, analysis using Shapley Additive Explanations (SHAP) is conducted to determine which features have the most significant impact on the performance of the models created. From the research results, when using the Instagram post metadata dataset without outliers, the best performance was achieved using the Deep Forest model and applying text vectorization on caption features using the Word2Vec Skip-gram method. The evaluation scores obtained during testing with the Deep Forest model are MAE of 1479.560, MSE of 11,016,353.629, and R2 value of 0.460. SHAP analysis indicates that the most significant features influencing the model are the number of comments, user account verification status, and the number of hashtags used.

Item Type: Thesis (Other)
Uncontrolled Keywords: Media sosial, Popularitas, Prediksi, Regresi, Instagram, Social media, Popularity, Prediction
Subjects: T Technology > T Technology (General) > T174 Technological forecasting
T Technology > T Technology (General) > T385 Visualization--Technique
T Technology > T Technology (General) > T57.5 Data Processing
Z Bibliography. Library Science. Information Resources > Z666.7 Metadata.
Divisions: Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Informatics Engineering > 55201-(S1) Undergraduate Thesis
Depositing User: Zulfayanti Sofia Solichin
Date Deposited: 09 Feb 2024 17:25
Last Modified: 09 Feb 2024 17:25
URI: http://repository.its.ac.id/id/eprint/106610

Actions (login required)

View Item View Item