Analisis Pembacaan Gerakan Bibir Menggunakan Gabungan Arsitektur Convolutional Neural Network dan Recurrent Neural Network

Pradiptatmaka, Akwila Feliciano (2021) Analisis Pembacaan Gerakan Bibir Menggunakan Gabungan Arsitektur Convolutional Neural Network dan Recurrent Neural Network. Undergraduate thesis, Institut Teknologi Sepuluh Nopember.

[img] Text
05111740000181-Akwila Feliciano P-Buku_TA.pdf - Accepted Version
Restricted to Repository staff only until 1 October 2023.

Download (3MB) | Request a copy

Abstract

Perkembangan bidang deep learning membawa pengaruh besar terhadap kemajuan teknologi. Pengucapan kata secara verbal dapat dibaca dengan pembelajaran mandiri melalui gerakan bibir. Dengan menggunakan arsitektur ekstraksi fitur dari suatu citra dan menggabungkannya dengan arsitektur klasifikasi secara sequence, permasalahan visual speech recognition ini dapat menjadi langkah awal untuk membantu para penyandang tuna rungu, yang dominan memahami komunikasi dari gerakan bibir lawan bicara ataupun dengan menggunakan bahasa isyarat. Selain itu, manfaat dari implementasi sistem ini dapat membantu lawan bicara dalam memahami pembicaraan pada kondisi audio yang terdistorsi. Arsitektur deep learning yang digunakan pada eksperimen ini mengacu pada implementasi dengan menggunakan arsitektur convolution residual network dan recurrent neural network, yang dapat mengklasifikasikan data berelasi secara sequence atau memiliki relasi secara strukturnya dari waktu ke waktu, untuk kasus ini berupa citra dari frame ke frame. Data yang digunakanix untuk pembelajaran model berasal dari dataset Lip Reading in the Wild (LRW) yang merupakan potongan video dari pembicara stasiun berita BBC, dengan jumlah data sebanyak 500 kata dan mencapai 1000 data latih video yang berbeda-beda dalam bahasa Inggris. Berdasarkan hasil coba yang didapatkan, dengan menggunakan regularisasi Label Smoothing pada fungsi loss penggunaan SGDR Scheduler, MixUp data augmentation, dan beberapa tahapan data augmentasi citra lainnya, arsitektur yang diimplementasi ini menghasilkan nilai akurasi 0,828, nilai F1 0,827, nilai recall 0,828, dan nilai precision 0,831 pada data uji dengan menggunakan nilai epoch yang relatif kecil serta penggunaan data latih yang sedikit. Penggunaan dropout layer dengan probabilitas yang tepat, dapat mencegah model untuk overfitting. Pada implementasi ini, penggunaan nilai label smoothing factor, nilai mixup alpha, dan metode scheduler menunjukkan pengaruh terhadap nilai akurasi, nilai F1, nilai recall, dan nilai precision secara keseluruhan. ====================================================================================================== The development of the field of deep learning has had a major influence on technological progress. Verbal pronunciation of words can be read by independent learning through lip movements. By using a feature extraction architecture from an image and combining it with a sequential classification architecture, this visual speech recognition problem can be the first step to help deaf people, who are dominant in understanding communication from the interlocutor's lip movements or using sign language. In addition, the benefits of implementing this system can help the interlocutor in understanding speech in distorted audio conditions. Deep learning architecture used in this experiment refers to the implementation using the convolution residual network architecture and recurrent neural network, which can classify related data sequentially or have a structural relationship from time to time, in this case in the form of images from frame to frame. The data used for model learning comes from the Lip Reading in the Wild (LRW) dataset which is a video clip of a BBC news station speaker, with a total of 500 words and up to 1000 different video training data in English.xi Based on the experimental results obtained, using Label Smoothing regularization on the loss function using the SGDR Scheduler, MixUp data augmentation, and several other stages of image augmentation data, this implemented architecture produces an accuracy value of 0.828, an F1 value of 0.827, a recall value of 0.828, and a precision value 0.831 on the test data using a relatively small epoch value and the use of less training data. The use of dropout layers with the right probability can prevent the model from overfitting. In this implementation, the use of the smoothing factor label value, the mixup alpha value, and the type of scheduler show the effect on the accuracy value, the F1 value, the recall value, and the precision value.

Item Type: Thesis (Undergraduate)
Uncontrolled Keywords: pembacaan gerakan bibir, convolutional neural network, recurrent neural network, visual-speech recognition, lip-reading
Subjects: Q Science > Q Science (General) > Q325.5 Machine learning.
Q Science > Q Science (General) > Q337.5 Pattern recognition systems
Q Science > QA Mathematics > QA76.87 Neural networks (Computer Science)
R Medicine > R Medicine (General) > R858 Deep Learning
Divisions: Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Informatics Engineering > 55201-(S1) Undergraduate Thesis
Depositing User: Akwila Feliciano Pradiptatmaka
Date Deposited: 03 Aug 2021 07:08
Last Modified: 03 Aug 2021 07:08
URI: https://repository.its.ac.id/id/eprint/84738

Actions (login required)

View Item View Item