Masked Multimodal Attention Untuk Rekognisi Emosi Teks-Audio

Lee, James Rafferty (2024) Masked Multimodal Attention Untuk Rekognisi Emosi Teks-Audio. Other thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 05111940000055-Undergraduate_Thesis.pdf]

Text
05111940000055-Undergraduate_Thesis.pdf - Accepted Version
Restricted to Repository staff only until 1 July 2026.
Download (2MB) | Request a copy

Abstract

Media sosial dan internet semakin menyebar di masyarakat, sehingga terdapat beberapa jenis data, baik itu tekstual, audio, atau visual. Banyaknya data yang tersedia dapat digunakan untuk membantu memecahkan masalah atau memahami masyarakat secara keseluruhan. Sementara itu, pada data tersebut terkandung sentimen yang menggambarkan perasaan terhadap suatu entitas atau subjek tertentu. Dalam beberapa kasus, emosi atau sentimen sulit dinilai secara akurat hanya berdasarkan teks. Informasi sentimen yang terkandung dalam modalitas audio ditandai dengan variasi karakteristik suara seperti nada, energi, upaya vokal, kenyaringan, dan frekuensi terkait lainnya tindakan. Interaksi antara modalitas teks dan audio dapat memberikan informasi yang lebih komprehensif dan menangkap lebih banyak karakteristik emosional. Untuk tujuan ini, Tugas Akhir ini mengusulkan model klasifikasi sentimen untuk multi-modalitas (teks dan audio) yang menggabungkan pre-trained model BERT dan deep learning dengan mekanisme masked multimodal attention. Masked multimodal attention sebagai inti dari model usulan penelitian, James-CM-BERT, dirancang untuk memanfaatkan informasi modalitas audio untuk membantu modalitas teks menyesuaikan bobot kata dan menyempurnakan model yang telah dilatih sebelumnya. Evaluasi dilakukan dengan membandingkan metode usulan (James-CM-BERT) dan metode pembanding, yaitu model Ensemble Learning dan model AlexNet-BERT Multimodal, menggunakan tiga dataset publik (CMU-MOSEI, IEMOCAP, dan CREMA-D). Metode James-CM-BERT mengungguli metode pembanding pada dua dataset, yaitu CMU-MOSEI dan IEMOCAP. Pada dataset CMU-MOSEI, model James-CM-BERT mengalahkan metode pembanding dengan skor F1 hingga 2%. Sementara itu, pada dataset IEMOCAP, model James-CM-BERT mengalahkan metode pembanding dengan skor F1 hingga 3%.
====================================================================================================================================
Media sosial dan internet semakin menyebar di masyarakat, sehingga terdapat beberapa jenis data, baik itu tekstual, audio, atau visual. Banyaknya data yang tersedia dapat digunakan untuk membantu memecahkan masalah atau memahami masyarakat secara keseluruhan. Sementara itu, pada data tersebut terkandung sentimen yang menggambarkan perasaan terhadap suatu entitas atau subjek tertentu. Dalam beberapa kasus, emosi atau sentimen sulit dinilai secara akurat hanya berdasarkan teks. Informasi sentimen yang terkandung dalam modalitas audio ditandai dengan variasi karakteristik suara seperti nada, energi, upaya vokal, kenyaringan, dan frekuensi terkait lainnya tindakan. Interaksi antara modalitas teks dan audio dapat memberikan informasi yang lebih komprehensif dan menangkap lebih banyak karakteristik emosional. Untuk tujuan ini, Tugas Akhir ini mengusulkan model klasifikasi sentimen untuk multi-modalitas (teks dan audio) yang menggabungkan pre-trained model BERT dan deep learning dengan mekanisme masked multimodal attention. Masked multimodal attention sebagai inti dari model usulan penelitian, James-CM-BERT, dirancang untuk memanfaatkan informasi modalitas audio untuk membantu modalitas teks menyesuaikan bobot kata dan menyempurnakan model yang telah dilatih sebelumnya. Evaluasi dilakukan dengan membandingkan metode usulan (James-CM-BERT) dan metode pembanding, yaitu model Ensemble Learning dan model AlexNet-BERT Multimodal, menggunakan tiga dataset publik (CMU-MOSEI, IEMOCAP, dan CREMA-D). Metode James-CM-BERT mengungguli metode pembanding pada dua dataset, yaitu CMU-MOSEI dan IEMOCAP. Pada dataset CMU-MOSEI, model James-CM-BERT mengalahkan metode pembanding dengan skor F1 hingga 2%. Sementara itu, pada dataset IEMOCAP, model James-CM-BERT mengalahkan metode pembanding dengan skor F1 hingga 3%.

Item Type:	Thesis (Other)
Uncontrolled Keywords:	audio, deep learning, emotion recognition, multimodal, tekstual; audio, deep learning, emotion recognition, multimodal, textual
Subjects:	T Technology > T Technology (General) > T11 Technical writing. Scientific Writing
Divisions:	Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Informatics Engineering > 55201-(S1) Undergraduate Thesis
Depositing User:	Lee James Rafferty
Date Deposited:	12 Feb 2024 08:35
Last Modified:	12 Feb 2024 08:35
URI:	http://repository.its.ac.id/id/eprint/107051

Actions (login required)

View Item