Studi Kinerja Pembacaan Bahasa Bibir Menggunakan Convolutional Neural Network, Mel-Frequency Ceptrums Coefficient, Long Short-Term Memory, dan Gated Recurrent Units

Zulfa, Nafa (2021) Studi Kinerja Pembacaan Bahasa Bibir Menggunakan Convolutional Neural Network, Mel-Frequency Ceptrums Coefficient, Long Short-Term Memory, dan Gated Recurrent Units. Masters thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 05111950015002-Master_Thesis.pdf]
Preview
Text
05111950015002-Master_Thesis.pdf - Accepted Version

Download (3MB) | Preview

Abstract

Pembacaan bahasa bibir merupakan teknologi pendukung untuk mengetahui ucapan seseorang hanya berdasarkan informasi visual. Teknologi ini dapat membantu komunikasi seseorang yang memiliki masalah dengan indra pendengaran. Saat ini telah banyak penelitian mengenai pembacaan bahasa bibir dengan memanfaatkan berbagai metode. Metode-metode tersebut menggunakan akurasi untuk mengetahui ketepatan hasil yang diperoleh. Salah satu metode pembacaan bibir dengan akurasi paling endah adalah penggunaan Convolutional Neural Networks (CNN) dengan Long Short-Term Memory (LSTM) dan Mel-Frequency Ceptrums Coefficient (MFCC) dengan Long Short-Term Memory (LSTM). Akan tetapi, pada penelitian tersebut masih menggunakan STM sebagai classifier sehingga waktu training, error rate, dan akurasi kurang optimal dibanding metode lainnya, seperti Gated Recurrent Units (GRU). Untuk mengatasi permasalahan di atas, pada penelitian ini diusulkan studi kinerja pembacaan bahasa bibir menggunakan CNN dan MFCC sebagai feature extractor. Sebelum fitur-fitur pada gambar diekstraksi, bagian sekitar bibir akan dideteksi menggunakan facial landmark detection, kemudian dilakukan cropping dan resizing. Selanjutnya, CNN diterapkan untuk mengekstraksi fitur bagian sekitar bibir. Sementara itu, penerapan MFCC digunakan untuk mengekstraksi fitur ceptrum pada suara video. Masing-masing fitur hasil ekstraksi akan dilakukan training menggunakan LSTM dan GRU. Hasil training berupa sebuah model yang siap digunakan. Pengujian kinerja dari metode usulan dilakukan dengan benchmark video dataset. Perbadingan metode yang diusulkan dapat memberikan hasil kecepatan waktu training terbaik sebesar 37 menit 29 detik, error rate terendah dengan nilai 25,68%, dan tingkat kualitas teks translasi tertinggi sebesar 75,84%.

Item Type: Thesis (Masters)
Uncontrolled Keywords: Pembacaan bahasa bibir, Waktu training, error rate, akurasi, facial landmark detection, Convolutional Neural Networks, Mel-Frequency Ceptrums Cofficient, Long Short-Term Memory, Gated Recurrent Units.
Subjects: Q Science > QA Mathematics > QA76.87 Neural networks (Computer Science)
R Medicine > R Medicine (General) > R858 Deep Learning
T Technology > TA Engineering (General). Civil engineering (General) > TA1637 Image processing--Digital techniques
Divisions: Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Informatics Engineering
Depositing User: Nafa Zulfa
Date Deposited: 12 Aug 2021 07:26
Last Modified: 17 Oct 2024 11:20
URI: http://repository.its.ac.id/id/eprint/85603

Actions (login required)

View Item View Item