Krisnahati, Ice (2023) Pengenalan Ekspresi Wajah dengan Variasi Pencahayaan Menggunakan Local Ternary Pattern, Convolutional Neural Network dan Extreme Learning Machine. Masters thesis, Institut Teknologi Sepuluh Nopember.
Text
6025211028-Master_Thesis.pdf - Accepted Version Restricted to Repository staff only until 1 April 2025. Download (3MB) | Request a copy |
Abstract
Pengenalan ekspresi wajah secara otomatis banyak dimanfaatkan pada interaksi manusia dan robot, permainan visual interaktif, dan deteksi gangguan mental. Oleh karena itu, pengenalan ekspresi wajah secara otomatis masih menjadi perhatian peneliti di bidang visi komputer. Berbagai macam metode telah diusulkan untuk mengatasi masalah variasi pencahayaan. Berdasarkan penelitian sebelumnya, citra Local Ternary Pattern (LTP) yang diklasifikasikan dengan metode Convolutional Neural Network (CNN) mampu mengatasi variasi pencahayaan. CNN merupakan metode klasifikasi yang handal, tetapi memiliki waktu pelatihan yang lebih lama untuk arsitektur yang lebih rumit. Pada penelitian lain, Extreme Learning Machine (ELM) dimanfaatkan untuk memodifikasi CNN pada lapisan klasifikasi untuk mengatasi waktu pelatihan yang lama. Penelitian ini menggabungkan metode yang sudah diteliti sebelumnya dengan memanfaatkan kelebihan masing-masing metode. Citra LTP digunakan untuk mengatasi masalah pencahayaan. Kemudian, citra LTP tersebut digunakan sebagai input pada arsitektur CNN untuk proses ekstraksi fitur. Pada lapisan klasifikasi, CNN dimodifikasi dengan menghilangkan lapisan fully connected dan menggantinya dengan metode ELM. Tujuan dari modifikasi CNN tersebut adalah untuk mengatasi pelatihan yang memakan waktu pada backpropagation. Sehingga, penelitian ini membangun model dengan kombinasi metode LTP, CNN, dan ELM. Pengujian metode menggunakan dataset KDEF dengan total 980 citra wajah dan tujuh kelas ekspresi wajah, yaitu marah, senang, sedih, takut, netral, jijik, dan terkejut dengan variasi pencahayaan mulai dari agak gelap sampai agak terang. Hasil pola kombinasi yang dihitung berdasarkan rata-rata dari pola atas dan pola bawah citra LTP menghasilkan akurasi paling tinggi jika dibandingkan dengan pola atas dan pola bawah citra LTP. Evaluasi menggunakan 10-fold cross-validation menunjukkan bahwa kinerja kombinasi metode LTP, CNN, dan ELM menghasilkan nilai akurasi sebesar 85,51% dengan waktu pelatihan 1.876 detik. Nilai akurasi ini meningkat bila dibandingkan dengan penelitian sebelumnya. Berdasarkan hasil tersebut, penelitian ini mampu mengatasi masalah pencahayaan pada kasus pengenalan ekspresi wajah
============================================================================================================================
Automatic facial expression recognition is widely used in human-robot interactions, interactive visual games, and mental disorder detection. Therefore, automatic facial expression recognition is still an exciting task for researchers in computer vision. Various methods have been proposed to solve the lighting variation problem. Based on previous research, Local Ternary Pattern (LTP) images classified by the Convolutional Neural Network (CNN) method can handle lighting variations. CNN is a reliable classification method but has a longer training time for more complex architectures. In another study, Extreme Learning Machine (ELM) was used to modify CNN at the classification layer to overcome the long training problem. This study combines methods that have been previously studied by exploiting the advantages of each method. LTP images are used to solve lighting problems. Then, the LTP image is used as input to the CNN architecture for the feature extraction process. At the classification layer, CNN is modified by removing the fully connected layer and replacing it with the ELM method. The purpose of the CNN modification is to overcome the time-consuming training on backpropagation. Thus, this study builds a model combining LTP, CNN, and ELM methods. This research used the KDEF dataset with 980 facial images (frontal face) and seven facial expressions: angry, happy, sad, scared, neutral, disgusted, and surprised, with lighting variations ranging from dark to bright. The combination pattern results calculated based on the average of the top and bottom patterns of the LTP image produce the highest accuracy compared to the top and bottom patterns of the LTP image. Evaluation using 10-fold cross-validation shows that the performance of the combination of LTP, CNN, and ELM methods produce an accuracy value of 85.51% with a training time of 1,876 seconds. This accuracy value increases when compared to previous studies. Based on these results, this study was able to overcome the lighting problem in the case of facial expression recognition
Actions (login required)
View Item |