Sihombing, Yogie Oktavianus (2025) Optimasi Model IndoRoBERTa-Base Untuk Klasifikasi Sentimen dan Emosi Pada Komentar Publik Twitter BKN. Masters thesis, Institut Teknologi Sepuluh Nopember.
Text
6022231042-Master_Thesis.pdf - Accepted Version Restricted to Repository staff only until 1 April 2027. Download (7MB) | Request a copy |
Abstract
Pertumbuhan pengguna Twitter di Indonesia sejalan dengan perkembangan teknologi pemrosesan bahasa alami (NLP) untuk klasifikasi teks dalam berbagai bahasa, termasuk bahasa Indonesia. Di Indonesia, Twitter menjadi salah satu platform media sosial berbasis teks untuk menyuarakan opini, perasaan, dan keluhan, termasuk layanan publik yang diberikan oleh organisasi pemerintahan seperti Badan Kepegawaian Negara (BKN). Untuk mendukung peningkatan layanan publik, diperlukan media monitoring berupa analisis sentimen yang mengkombinasikan klasifikasi sentimen dan emosi dari komentar publik. Penelitian ini bertujuan mengevaluasi kinerja dari optimasi model IndoRoBERTa dalam klasifikasi sentimen dan emosi pada teks berbahasa Indonesia, dengan data komentar publik di Twitter BKN sebagai objek kajian. Berdasarkan hasil klasifikasi, model IndoRoBERTa-Base menunjukkan kinerja terbaik untuk tugas klasifikasi sentimen dan emosi. Pada klasifikasi sentimen, model ini mencapai akurasi tertinggi sebesar 97,3\% dan F1-score 97,0\%. Untuk klasifikasi emosi, model yang sama juga unggul dengan akurasi 82,2\% dan F1-score 82,7\%. Hal ini menunjukkan bahwa IndoRoBERTa-Base sangat efektif untuk analisis teks berbahasa Indonesia, mengungguli model lainnya. Evaluasi confusion matrix menunjukkan kemampuan model dalam mengklasifikasikan sentimen POS dan NEG dengan akurasi masing-masing 99\% dan 98\%, meskipun sentimen NEU mengalami lebih banyak kesalahan dengan akurasi 95\%. Pada klasifikasi emosi, akurasi tertinggi terdapat pada emosi ANG dan HAP masing-masing dengan nilai 87\%, sedangkan emosi FEA dan SAD menunjukkan tingkat kesalahan yang lebih tinggi. Hasil analisis precision-recall curve memperlihatkan bahwa model mencapai AUC micro-averaged sebesar 0,996 pada klasifikasi sentimen, dengan AUC 0,996 pada sentimen NEG dan 0,999 pada POS. Untuk klasifikasi emosi, AUC micro-averaged adalah 0,905. Pada pengujian menggunakan dataset publik dan Twitter BKN, menunjukkan kinerja model juga cukup baik, terutama untuk klasifikasi sentimen dengan tingkat probabilitas yang tinggi. Secara keseluruhan, hasil penelitian menunjukkan bahwa IndoRoBERTa-Base berkinerja baik dalam mengklasifikasikan sentimen dan emosi publik.
===================================================================================================================================
The growth of Twitter users in Indonesia is in line with the development of natural language processing (NLP) technology for text classification in various languages, including Indonesian. In Indonesia, Twitter has become one of the text-based social media platforms for voicing opinions, feelings, and complaints, including public services provided by government organizations such as the National Civil Service Agency (BKN). To support the improvement of public services, media monitoring is needed in the form of sentiment analysis that combines sentiment classification and emotions from public comments. This research aims to evaluate the performance of IndoRoBERTa model optimization in sentiment and emotion classification on Indonesian text, with public comment data on BKN Twitter as the object of study. Based on the classification results, the IndoRoBERTa-Base model showed the best performance for sentiment and emotion classification tasks. In sentiment classification, the model achieved the highest accuracy of 97.3\% and F1-score of 97.0\%. For emotion classification, the same model also excelled with 82.2\% accuracy and 82.7\% F1-score. This shows that IndoRoBERTa-Base is very effective for Indonesian text analysis, outperforming other models. The confusion matrix evaluation shows the model's ability to classify POS and NEG sentiments with 99\% and 98\% accuracy, respectively, although NEU sentiment experiences more errors with 95\% accuracy. In emotion classification, the highest accuracy was found for ANG and HAP emotions with 87\%, while FEA and SAD emotions showed higher error rates. The precision-recall curve analysis results show that the model achieves a micro-averaged AUC of 0.996 in sentiment classification, with an AUC of 0.996 in NEG sentiment and 0.999 in POS. For emotion classification, the micro-averaged AUC is 0.905. On testing using BKN's public and Twitter datasets, the model performed quite well, especially for sentiment classification with a high probability level. Overall, the results show that IndoRoBERTa-Base performs well in classifying public sentiments and emotions.
Item Type: | Thesis (Masters) |
---|---|
Uncontrolled Keywords: | RoBERTa, klasifikasi, sentimen, emosi, Twitter, BKN, classification, sentiment, emotion |
Subjects: | B Philosophy. Psychology. Religion > BF Psychology > BF318 Learning, Psychology of (Deep learning) H Social Sciences > HA Statistics > HA31.38 Data envelopment analysis. R Medicine > R Medicine (General) > R858 Deep Learning T Technology > T Technology (General) T Technology > T Technology (General) > T57.5 Data Processing T Technology > T Technology (General) > T57.83 Dynamic programming T Technology > TK Electrical engineering. Electronics Nuclear engineering > TK5105.546 Computer algorithms |
Divisions: | Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Electrical Engineering > 20101-(S2) Master Thesis |
Depositing User: | Yogie Oktavianus Sihombing |
Date Deposited: | 16 Jan 2025 01:29 |
Last Modified: | 16 Jan 2025 01:29 |
URI: | http://repository.its.ac.id/id/eprint/116268 |
Actions (login required)
View Item |