Analisis Sentimen dengan Ekspansi Kueri Menggunakan TF-IDF dan BERT pada Data Twitter

Abdillah, Surya and Benito, Davian (2023) Analisis Sentimen dengan Ekspansi Kueri Menggunakan TF-IDF dan BERT pada Data Twitter. Project Report. [s.n.], [s.l.]. (Unpublished)

[thumbnail of 5025201229_5025201220-Project_Report.pdf] Text
5025201229_5025201220-Project_Report.pdf - Accepted Version
Restricted to Repository staff only

Download (5MB) | Request a copy

Abstract

Twitter merupakan salah satu media sosial yang paling banyak digunakan saat ini. Pada Twitter pengguna dapat membagikan pendapatnya melalui sebuah twit. Dari data twit tersebut dilakukan analisis sentimen untuk mengetahui sentimen publik terhadap suatu topik. Pada penelitian ini digunakan pendekatan Lexicon-Based dengan modifikasi ekstraksi terms dan ekspansi kueri. Alir metode penelitian yang dilakukan, yakni praproses data twit, ekstraksi terms menggunakan teknik TF-IDF, ekspansi kueri dari terms yang telah didapat menggunakan model IndoBERT, lalu hasil tersebut ditambahkan pada kamus lexicon yang dipakai, yakni Inset dan emolex sebagai skenario uji coba. Berdasarkan kamus lexicon yang telah dimodifikasi, dilakukan analisis sentimen terhadap 2 jenis dataset, dataset pertama adalah data twit dengan single-context dan dataset kedua adalah data twit dengan multi-context. Pada penelitian ini didapatkan bahwa pendekatan lexicon based dengan ekstraksi terms dan ekspansi kueri memiliki akurasi yang lebih viii baik dibanding penggunaan kamus Inset dan emolex sendiri. Kedua dataset memiliki skema terbaik yang berbeda, hal ini dapat diakibatkan oleh adanya perbedaan distribusi sentimen pada dataset single-context dan multi-context dimana pada dataset single-context terjadi imbalance data. Pada penilitian ini didapatkan akurasi terbaik pada masing masing dataset single-context dan multi-context secara berurutan adalah 49,78% dan 46,77%.
============================================================================================================================
Twitter is one of the most widely used social media today. On Twitter, users can share their opinions through a tweet. From the tweet data, sentiment analysis is carried out to determine public sentiment towards a topic. In this research, a Lexicon-Based approach is used with modified terms extraction and query expansion. The flow of research methods carried out, namely preprocessing tweet data, extracting terms using the TF-IDF technique, expanding queries from terms that have been obtained using the IndoBERT model, then the results are added to the lexicon used, namely Inset and emolex as test scenarios. Based on the modified lexicon dictionary, sentiment analysis was carried out on 2 types of datasets, the first dataset was single-context tweets data and the second dataset was multi-context tweets data. In this research, it was found that the lexicon approach based on term extraction and query expansion had better accuracy than using the Inset and Emolex dictionaries themselves. The two datasets have different best schemes, this can be caused by differences in sentiment distribution in the single-context and multi-context datasets where in the single-context dataset there is data imbalance. In this research, the best accuracy for each single-context and multi-context dataset was 49.78% and 46.77%, respectively.

Item Type: Monograph (Project Report)
Uncontrolled Keywords: Sentiment Analysis, Query Expansion, Bidirectional Encoder Representation from Transformer, Term Frequency-Inverse Document Frequency
Subjects: T Technology > T Technology (General)
T Technology > T Technology (General) > T57.5 Data Processing
Divisions: Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Informatics Engineering > 55201-(S1) Undergraduate Thesis
Depositing User: Surya Abdillah
Date Deposited: 07 Feb 2024 02:19
Last Modified: 07 Feb 2024 02:19
URI: http://repository.its.ac.id/id/eprint/106360

Actions (login required)

View Item View Item