Analisis Pembacaan Gerakan Bibir Menggunakan Gabungan Arsitektur Convolutional Neural Network dan Recurrent Neural Network

Pradiptatmaka, Akwila Feliciano (2021) Analisis Pembacaan Gerakan Bibir Menggunakan Gabungan Arsitektur Convolutional Neural Network dan Recurrent Neural Network. Undergraduate thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 05111740000181-Akwila Feliciano P-Buku_TA.pdf] Text
05111740000181-Akwila Feliciano P-Buku_TA.pdf - Accepted Version
Restricted to Repository staff only until 1 October 2023.

Download (3MB) | Request a copy

Abstract

Perkembangan bidang deep learning membawa pengaruh
besar terhadap kemajuan teknologi. Pengucapan kata secara
verbal dapat dibaca dengan pembelajaran mandiri melalui
gerakan bibir. Dengan menggunakan arsitektur ekstraksi fitur dari
suatu citra dan menggabungkannya dengan arsitektur klasifikasi
secara sequence, permasalahan visual speech recognition ini
dapat menjadi langkah awal untuk membantu para penyandang
tuna rungu, yang dominan memahami komunikasi dari gerakan
bibir lawan bicara ataupun dengan menggunakan bahasa isyarat.
Selain itu, manfaat dari implementasi sistem ini dapat membantu
lawan bicara dalam memahami pembicaraan pada kondisi audio
yang terdistorsi.
Arsitektur deep learning yang digunakan pada eksperimen
ini mengacu pada implementasi dengan menggunakan arsitektur
convolution residual network dan recurrent neural network, yang
dapat mengklasifikasikan data berelasi secara sequence atau
memiliki relasi secara strukturnya dari waktu ke waktu, untuk
kasus ini berupa citra dari frame ke frame. Data yang digunakanix
untuk pembelajaran model berasal dari dataset Lip Reading in the
Wild (LRW) yang merupakan potongan video dari pembicara
stasiun berita BBC, dengan jumlah data sebanyak 500 kata dan
mencapai 1000 data latih video yang berbeda-beda dalam bahasa
Inggris.
Berdasarkan hasil coba yang didapatkan, dengan
menggunakan regularisasi Label Smoothing pada fungsi loss
penggunaan SGDR Scheduler, MixUp data augmentation, dan
beberapa tahapan data augmentasi citra lainnya, arsitektur yang
diimplementasi ini menghasilkan nilai akurasi 0,828, nilai F1
0,827, nilai recall 0,828, dan nilai precision 0,831 pada data uji
dengan menggunakan nilai epoch yang relatif kecil serta
penggunaan data latih yang sedikit. Penggunaan dropout layer
dengan probabilitas yang tepat, dapat mencegah model untuk
overfitting. Pada implementasi ini, penggunaan nilai label
smoothing factor, nilai mixup alpha, dan metode scheduler
menunjukkan pengaruh terhadap nilai akurasi, nilai F1, nilai
recall, dan nilai precision secara keseluruhan.
======================================================================================================
The development of the field of deep learning has had a
major influence on technological progress. Verbal pronunciation
of words can be read by independent learning through lip
movements. By using a feature extraction architecture from an
image and combining it with a sequential classification
architecture, this visual speech recognition problem can be the
first step to help deaf people, who are dominant in understanding
communication from the interlocutor's lip movements or using sign
language. In addition, the benefits of implementing this system can
help the interlocutor in understanding speech in distorted audio
conditions.
Deep learning architecture used in this experiment refers
to the implementation using the convolution residual network
architecture and recurrent neural network, which can classify
related data sequentially or have a structural relationship from
time to time, in this case in the form of images from frame to frame.
The data used for model learning comes from the Lip Reading in
the Wild (LRW) dataset which is a video clip of a BBC news station
speaker, with a total of 500 words and up to 1000 different video
training data in English.xi
Based on the experimental results obtained, using Label
Smoothing regularization on the loss function using the SGDR
Scheduler, MixUp data augmentation, and several other stages of
image augmentation data, this implemented architecture produces
an accuracy value of 0.828, an F1 value of 0.827, a recall value
of 0.828, and a precision value 0.831 on the test data using a
relatively small epoch value and the use of less training data. The
use of dropout layers with the right probability can prevent the
model from overfitting. In this implementation, the use of the
smoothing factor label value, the mixup alpha value, and the type
of scheduler show the effect on the accuracy value, the F1 value,
the recall value, and the precision value.

Item Type: Thesis (Undergraduate)
Uncontrolled Keywords: pembacaan gerakan bibir, convolutional neural network, recurrent neural network, visual-speech recognition, lip-reading
Subjects: Q Science > Q Science (General) > Q325.5 Machine learning.
Q Science > Q Science (General) > Q337.5 Pattern recognition systems
Q Science > QA Mathematics > QA76.87 Neural networks (Computer Science)
R Medicine > R Medicine (General) > R858 Deep Learning
Divisions: Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Informatics Engineering > 55201-(S1) Undergraduate Thesis
Depositing User: Akwila Feliciano Pradiptatmaka
Date Deposited: 03 Aug 2021 07:08
Last Modified: 03 Aug 2021 07:08
URI: http://repository.its.ac.id/id/eprint/84738

Actions (login required)

View Item View Item