Rosid, Mochamad Alfan (2025) Klasifikasi Sarkasme Pada Multimodal Dataset Twitter Pengguna Indonesia Dengan Metode CodeMixed-DL. Doctoral thesis, Institut Teknologi Sepuluh Nopember.
![]() |
Text
7025211027-Disertation.pdf Restricted to Repository staff only until 1 April 2027. Download (18MB) | Request a copy |
Abstract
Penyampaian pesan yang bernada sarkasme sering menyebabkan penentuan sentimen yang salah. Sarkasme dapat membalikkan polaritas kalimat. Sarkasme disampaikan menggunakan kalimat positif untuk mengekspresikan emosi negatif. Model deteksi sarkasme dibutuhkan untuk mengenali kalimat menggunakan nada sarkasme atau bukan. Pengembangan model deteksi sarkasme pada twitter pengguna Indonesia memiliki beberapa tantangan yaitu (1) belum adanya dataset publik yang tersedia baik unimodal maupun multimodal, (2) kalimat yang menggunakan Bahasa Indonesia yang dikenal memiliki ragam kosakata dan tipe kalimat yang berbeda-beda, (3) penggunaan bahasa campuran pada tweet yang berasal dari Indonesia sehingga dibutuhkan aturan khusus, (4) berkembangnya penggunaan tweet disertai meme (data multimodal) yang memungkinkan antara gambar dan teks memiliki makna berbeda. Penelitian ini bertujuan mengembangkan metode yang dapat mengklasifikasi sarkasme pada dataset multimodal (teks dan gambar), media sosial twitter pengguna Indonesia dengan pendekatan deep learning. Langkah solusi untuk masalah tersebut meliputi (1) membangun dataset multimodal yang diambil dari Twitter Indonesia, (2) pengembangan skema preprocessing teks, (3) mengembangkan skema ekstraksi fitur yang dapat menangani masalah penggunaan Bahasa campuran atau pada penelitian terkait disebut code-mixed, dan (4) mengembangkan arsitektur pembelajaran mendalam CodeMixed-DL yang menangani data teks dan gambar. Code-mixed pada tweet oleh pengguna Indonesia sering dijumpai berupa kombinasi bahasa Indonesia, bahasa Inggris, dan bahasa daerah. Klasifikasi sarkasme pada data tekstual diusulkan arsitektur hybrid Convolutional Neural Network (CNN) dengan Bidirectional Gated Recurrent Unit (BiGRU) yang dimodifikasi (MHA-CovBi), sedangkan pada data gambar diusulkan arsitektur Graph Convolutional Network (GCN) dengan Residual Network (ResNet) sebagai representasi fitur gambar. Percobaan dikerjakan dengan menggunakan dataset multimodal yang telah dibangun dengan jumlah data training dan testing masing-masing sebanyak 2.711 dan 678 record. Hasil akhir penelitian ini adalah integrasi modalitas teks dan gambar dalam model CodeMixed-DL berhasil diimplementasikan dengan nilai akurasi klasiifikasi 91,44% dan F1-Score 90,67%. Arsitektur hybrid CNN-BiGRU yang dimodifikasi dengan multi-head attention (MHA-CovBi) menunjukkan keunggulan dalam mengenali fitur semantik dan sintaktik dari teks. Pada dataset teks tweet, model ini mencapai akurasi 89,09% dengan F1-Score 87,41%, sedangkan pada dataset teks meme menghasilkan akurasi 89,97% dengan F1-Score 85,47%. Penggunaan pretrained word embedding FastText dan GloVe, serta penambahan multi-head attention, berhasil memberikan kontribusi signifikan terhadap kinerja model MHA-CovBi. Pada elemen visual, kombinasi Graph Convolutional Network (GCN) dengan ResNet menunjukkan efektivitas dalam menangkap konteks visual sarkasme yang sering kali bersifat implisit pada gambar atau meme. Model ini mencapai akurasi 80,45% dengan F1-Score 84,19%, membuktikan bahwa pendekatan berbasis visual, mampu secara mandiri mengklasifikasi sarkasme.
===================================================================================================================================
Sarcasm-laced messaging often leads to incorrect sentiment determination. Sarcasm can reverse the polarity of a sentence. Sarcasm is delivered using positive sentences to express negative emotions. A sarcasm classification model is needed to recognize whether a sentence uses a sarcasm tone or not. The development of a sarcasm detection model on Indonesian twitter users has several challenges, namely (1) there is no public dataset available both unimodal and multimodal, (2) sentences using Indonesian which are known to have a variety of vocabulary and different sentence types, (3) the use of mixed languages in tweets originating from Indonesia so that special rules are needed, (4) the growing use of tweets accompanied by memes (multimodal data) which allows images and text to have different meanings. This research aims to develop a method that can classify sarcasm in multimodal datasets (text and images), social media twitter users of Indonesia with a deep learning approach. The solution steps for the problem include (1) building a multimodal dataset taken from Indonesian Twitter, (2) developing a text preprocessing scheme, (3) developing a feature extraction scheme that can handle the problem of mixed language usage or in related research called code-mixed, and (4) developing a CodeMixed-DL deep learning architecture that handles text and image data. Code-mixed tweets by Indonesian users are often found in the form of a combination of Indonesian, English, and local languages. Sarcasm classification on textual data is proposed a hybrid Convolutional Neural Network (CNN) architecture with a modified Bidirectional Gated Recurrent Unit (BiGRU) (MHACovBi), while on image data a Graph Convolutional Network (GCN) architecture with Residual Network (ResNet) is proposed as an image feature representation. The experiments were carried out using the multimodal dataset that has been built with the number of training and testing data of 2,711 and 678 records, respectively. The final result of this research is that the integration of text and image modalities in the CodeMixed-DL model is successfully implemented with a classification accuracy value of 91.44% and F1-Score of 90.67%. The CNN-BiGRU hybrid architecture modified with multi-head attention (MHA-CovBi) shows superiority in recognizing semantic and syntactic features of text. On the tweet text dataset, this model achieved 89.09% accuracy with F1-Score 87.41%, while on the meme text dataset it produced 89.97% accuracy with F1-Score 85.47%. The use of pretrained word embedding FastText and GloVe, as well as the addition of multi- head attention, successfully contributed significantly to the performance of the MHA-CovBi model. On the visual element, the combination of Graph Convolutional Network (GCN) with ResNet showed effectiveness in capturing the visual context of sarcasm that is often implicit in images or memes. The model achieved 80.45% accuracy with an F1-Score of 84.19%, proving that the visualbased approach is capable of independently classifying sarcasm.
Item Type: | Thesis (Doctoral) |
---|---|
Uncontrolled Keywords: | deep learning, meme, multimodal dataset, sarkasme, tweet |
Subjects: | T Technology > T Technology (General) > T57.5 Data Processing |
Divisions: | Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Electrical Engineering > 20001-(S3) PhD Thesis |
Depositing User: | Mochamad Alfan Rosid |
Date Deposited: | 04 Feb 2025 08:07 |
Last Modified: | 04 Feb 2025 08:07 |
URI: | http://repository.its.ac.id/id/eprint/118144 |
Actions (login required)
![]() |
View Item |