Studi Kinerja Pembacaan Bahasa Bibir Menggunakan Convolutional Neural Network, Mel-Frequency Ceptrums Coefficient, Long Short-Term Memory, dan Gated Recurrent Units

Zulfa, Nafa (2021) Studi Kinerja Pembacaan Bahasa Bibir Menggunakan Convolutional Neural Network, Mel-Frequency Ceptrums Coefficient, Long Short-Term Memory, dan Gated Recurrent Units. Masters thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 05111950015002-Master_Thesis.pdf] Text
05111950015002-Master_Thesis.pdf - Accepted Version
Restricted to Repository staff only until 1 October 2023.

Download (3MB) | Request a copy

Abstract

Pembacaan bahasa bibir merupakan teknologi pendukung untuk mengetahui
ucapan seseorang hanya berdasarkan informasi visual. Teknologi ini dapat membantu
komunikasi seseorang yang memiliki masalah dengan indra pendengaran. Saat ini telah
banyak penelitian mengenai pembacaan bahasa bibir dengan memanfaatkan berbagai
metode. Metode-metode tersebut menggunakan akurasi untuk mengetahui ketepatan hasil
yang diperoleh. Salah satu metode pembacaan bibir dengan akurasi paling rendah adalah
penggunaan Convolutional Neural Networks (CNN) dengan Long Short-Term Memory
(LSTM) dan Mel-Frequency Ceptrums Coefficient (MFCC) dengan Long Short-Term
Memory (LSTM). Akan tetapi, pada penelitian tersebut masih menggunakan LSTM
sebagai classifier sehingga waktu training, error rate, dan akurasi kurang optimal
dibanding metode lainnya, seperti Gated Recurrent Units (GRU).
Untuk mengatasi permasalahan di atas, pada penelitian ini diusulkan studi kinerja
pembacaan bahasa bibir menggunakan CNN dan MFCC sebagai feature extractor.
Sebelum fitur-fitur pada gambar diekstraksi, bagian sekitar bibir akan dideteksi
menggunakan facial landmark detection, kemudian dilakukan cropping dan resizing.
Selanjutnya, CNN diterapkan untuk mengekstraksi fitur bagian sekitar bibir. Sementara
itu, penerapan MFCC digunakan untuk mengekstraksi fitur ceptrum pada suara video.
Masing-masing fitur hasil ekstraksi akan dilakukan training menggunakan LSTM dan
GRU. Hasil training berupa sebuah model yang siap digunakan.
Pengujian kinerja dari metode usulan dilakukan dengan benchmark video dataset.
Perbadingan metode yang diusulkan dapat memberikan hasil kecepatan waktu training
terbaik sebesar 37 menit 29 detik, error rate terendah dengan nilai 25,68%, dan tingkat
kualitas teks translasi tertinggi sebesar 75,84%.

Item Type: Thesis (Masters)
Uncontrolled Keywords: Pembacaan bahasa bibir, Waktu training, error rate, akurasi, facial landmark detection, Convolutional Neural Networks, Mel-Frequency Ceptrums Cofficient, Long Short-Term Memory, Gated Recurrent Units.
Subjects: Q Science > QA Mathematics > QA76.87 Neural networks (Computer Science)
R Medicine > R Medicine (General) > R858 Deep Learning
T Technology > TA Engineering (General). Civil engineering (General) > TA1637 Image processing--Digital techniques
Divisions: Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Informatics Engineering
Depositing User: Nafa Zulfa
Date Deposited: 12 Aug 2021 07:26
Last Modified: 12 Aug 2021 07:26
URI: http://repository.its.ac.id/id/eprint/85603

Actions (login required)

View Item View Item