Adi, Derry Pramono (2023) Pengenalan Emosi dari Ekspresi Wajah berbasis Video menggunakan Face Mesh dan Long Short-Term Memory. Masters thesis, Institut Teknologi Sepuluh Nopember.
Text
6022211027-Master_Thesis.pdf - Accepted Version Restricted to Repository staff only until 1 October 2025. Download (1MB) | Request a copy |
Abstract
Dalam interaksi manusia, emosi adalah istilah umum untuk serangkaian pengalaman kognitif subjektif, serta keadaan psikologis dan fisiologis yang mewujudkan berbagai perasaan, pikiran, dan perilaku. Ada banyak cara untuk mengekspresikan emosi, seperti ekspresi wajah, nada suara, dan perilaku. Pengenalan emosi wajah telah menjadi subjek populer dalam bidang studi Deep Learning (DL). Namun, sebagian besar model DL pengenalan emosi wajah mengadopsi gambar statis dari ekspresi wajah untuk mengenali emosi. Metode ini tidak mencakup semua variasi ekspresi wajah. Penulis memiliki hipotesa bahwa ekspresi wajah adalah tindakan perubahan yang berkelanjutan. Orang cenderung menggunakan ekspresi wajah untuk mengekspresikan emosi mereka. Oleh karena itu, tidak cukup untuk mengenali emosi hanya dengan gambaran statis dari ekspresi wajah, melainkan diperlukan gambar sekuensial dari video. Pada penelitian ini, penulis mengusulkan sistem Facial Emotion Recognition (FER) menggunakan Convolutional Neural Network (CNN) dan Long Short-Term Memory (LSTM). Penulis mengekstrak gambar berurutan dari ekspresi wajah dari video dan memasukkannya ke dalam model LSTM satu per satu. Untuk mengatasi masalah fitur wajah, penulis menggunakan fitur Face Mesh dari MediaPipe. Tujuan dari penelitian ini adalah untuk mengurangi waktu pelatihan/inferensi CNN-LSTM dalam mempelajari informasi wajah berdasarkan kelas emosi dari dataset RAVDESS dan meningkatkan akurasi CNN-LSTM.
=================================================================================================================================
In human interaction, emotion is a general term for the range of subjective cognitive experiences, as well as psychological and psychological states that embody feelings, thoughts, and behaviors. There are many ways to express emotions, such as facial expressions, tone of voice and behavior. Facial emotion recognition has become a popular subject in the field of Deep Learning (DL) studies. However, most of the facial emotion recognition DL models adopt static images of facial expressions to recognize emotions. This method does not cover all the variations of facial expressions. We hypothesize that facial expressions are an act of continuous change. People tend to use facial expressions to express their emotions. Therefore, it is not sufficient to identify emotions only with static images of facial expressions, instead it requires sequential images from videos. In this study, we recommend the Facial Emotion Recognition (FER) system to use Convolutional Neural Network (CNN) and Long Short-Term Memory (LSTM). We found sequential images of facial expressions from the video and entered them into the LSTM model one by one. To solve the problem of facial features, we use MediaPipe's Face Mesh feature. The aim of this study is to reduce the CNN-LSTM training/inference time in learning facial information based on class emotions from the RAVDESS dataset and improve the accuracy of the CNN-LSTM.
Actions (login required)
View Item |