Zulfa, Nafa (2021) Studi Kinerja Pembacaan Bahasa Bibir Menggunakan Convolutional Neural Network, Mel-Frequency Ceptrums Coefficient, Long Short-Term Memory, dan Gated Recurrent Units. Masters thesis, Institut Teknologi Sepuluh Nopember.
Preview |
Text
05111950015002-Master_Thesis.pdf - Accepted Version Download (3MB) | Preview |
Abstract
Pembacaan bahasa bibir merupakan teknologi pendukung untuk mengetahui ucapan seseorang hanya berdasarkan informasi visual. Teknologi ini dapat membantu komunikasi seseorang yang memiliki masalah dengan indra pendengaran. Saat ini telah banyak penelitian mengenai pembacaan bahasa bibir dengan memanfaatkan berbagai metode. Metode-metode tersebut menggunakan akurasi untuk mengetahui ketepatan hasil yang diperoleh. Salah satu metode pembacaan bibir dengan akurasi paling endah adalah penggunaan Convolutional Neural Networks (CNN) dengan Long Short-Term Memory (LSTM) dan Mel-Frequency Ceptrums Coefficient (MFCC) dengan Long Short-Term Memory (LSTM). Akan tetapi, pada penelitian tersebut masih menggunakan STM sebagai classifier sehingga waktu training, error rate, dan akurasi kurang optimal dibanding metode lainnya, seperti Gated Recurrent Units (GRU). Untuk mengatasi permasalahan di atas, pada penelitian ini diusulkan studi kinerja pembacaan bahasa bibir menggunakan CNN dan MFCC sebagai feature extractor. Sebelum fitur-fitur pada gambar diekstraksi, bagian sekitar bibir akan dideteksi menggunakan facial landmark detection, kemudian dilakukan cropping dan resizing. Selanjutnya, CNN diterapkan untuk mengekstraksi fitur bagian sekitar bibir. Sementara itu, penerapan MFCC digunakan untuk mengekstraksi fitur ceptrum pada suara video. Masing-masing fitur hasil ekstraksi akan dilakukan training menggunakan LSTM dan GRU. Hasil training berupa sebuah model yang siap digunakan. Pengujian kinerja dari metode usulan dilakukan dengan benchmark video dataset. Perbadingan metode yang diusulkan dapat memberikan hasil kecepatan waktu training terbaik sebesar 37 menit 29 detik, error rate terendah dengan nilai 25,68%, dan tingkat kualitas teks translasi tertinggi sebesar 75,84%.
Item Type: | Thesis (Masters) |
---|---|
Uncontrolled Keywords: | Pembacaan bahasa bibir, Waktu training, error rate, akurasi, facial landmark detection, Convolutional Neural Networks, Mel-Frequency Ceptrums Cofficient, Long Short-Term Memory, Gated Recurrent Units. |
Subjects: | Q Science > QA Mathematics > QA76.87 Neural networks (Computer Science) R Medicine > R Medicine (General) > R858 Deep Learning T Technology > TA Engineering (General). Civil engineering (General) > TA1637 Image processing--Digital techniques |
Divisions: | Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Informatics Engineering |
Depositing User: | Nafa Zulfa |
Date Deposited: | 12 Aug 2021 07:26 |
Last Modified: | 17 Oct 2024 11:20 |
URI: | http://repository.its.ac.id/id/eprint/85603 |
Actions (login required)
View Item |