Pambudi, Sevito Fernanda (2025) Pembacaan Gerak Bibir Menggunakan Fitur Vektor dengan Deep Learning. Masters thesis, Institut Teknologi Sepuluh Nopember.
![]() |
Text
6022232011-Master_Thesis.pdf - Accepted Version Restricted to Repository staff only Download (6MB) | Request a copy |
Abstract
Teknik pembacaan gerak bibir merupakan salah satu teknik dari visi komputer untuk memahami suatu percakapan atau dialog secara visual melalui analisis pegerakan bibir pembicara tanpa adanya suara. Awal mula teknik ini dikembangkan untuk memudahkan komunikasi orang yang memiliki kekurangan pendengaran. Namun, seiring perkembangan teknologi, teknik pembacaan bibir memiliki peran yang signifikan dalam aplikasi audio-visual speech recognition (AVSR), di bidang kesehatan, keamanan, rekonstruksi dokumen sejarah, dan interaksi manusia-komputer. Dalam pengembangan sistem pembacaan bibir, sebagian besar pendekatan yang digunakan untuk fitur ekstraksi adalah pendekatan berdasarkan piksel. Kelemahan utama menggunakan pendekatan ini adalah dataset yang digunakan harus memiliki pencahayaan yang baik dan resolusi yang tinggi. Hal ini diperlukan agar informasi dari perubahan pergerakan bibir tidak hilang. Selain itu, pendekatan berbasis piksel membutuhkan komputasi yang berat sehingga diperlukan perangkat dengan spesifikasi kalkulasi yang tinggi. Alternatif lain yang bisa digunakan adalah dengan menggunakan pendekatan fitur vektor, di mana fitur ini berfokus untuk menganalisis pergerakan bibir dengan pendekatan vektor yang dibentuk dari titik landmark yang membentuk bibir dengan titik koordinat acuan. Keuntungan penggunaan pendekatan berdasarkan fitur vektor bibir adalah memiliki dimensi fitur 1 dimensi sehingga kalkulasi yang dilakukan relatif kecil. Selain itu, dengan pendekatan menggunakan vektor akan memberikan ketahanan terhadap adanya variasi rotasi, skala, kondisi cahaya, dan warna kulit pembicara. Oleh karena itu, pada penelitian ini akan dilakukan klasifikasi kata berdasarkan fitur vektor bibir dengan memanfaatkan arsitektur deep learning 1DCNN, 1DCNN-LSTM, 1DCNN-biLSTM, 1DCNNGRU, dan 1DCNN-biGRU.
==================================================================================================================================
Lipreading is one of the techniques used in computer vision to understand a conversation or dialogue visually through the analysis of the speaker’s lip movements without sound. This technique was initially developed to facilitate communication for people with hearing impairments. However, with advancements in technology, lip-reading has become significant in applications such as audio-visual speech recognition (AVSR), healthcare, security, historical document reconstruction, and human-computer interaction. In the development of lip-reading systems, most approaches used for feature extraction are pixel-based. The main drawback of using this approach is that the dataset used must have good lighting and high resolution. This is necessary to ensure that information about lip movement changes is not lost. Additionally, pixel-based approaches require heavy computation, necessitating devices with high computational specifications. An alternative approach is to use a vector feature approach, where the features focus on analyzing lip movements using a vector approach formed from landmark points that define the lips with reference coordinates. The advantage of using a lip vector feature-based approach is that it has a one-dimensional feature dimension, resulting in relatively small computational requirements. Furthermore, the vector-based approach provides robustness against variations in rotation, scale, lighting conditions, and skin color of the speaker. Therefore, this study will perform word classification based on lip vector features using the deep learning architectures 1DCNN, 1DCNN-LSTM, 1DCNN-biLSTM, 1DCNN-GRU, and 1DCNN-biGRU.
Item Type: | Thesis (Masters) |
---|---|
Uncontrolled Keywords: | pembacaan bibir, landmark, vektor, konvolusi, sekuensial, Lipreading, landmark, vector, convolution, sequential |
Subjects: | Q Science > QA Mathematics > QA336 Artificial Intelligence Q Science > QA Mathematics > QA76.87 Neural networks (Computer Science) R Medicine > R Medicine (General) > R858 Deep Learning T Technology > TK Electrical engineering. Electronics Nuclear engineering > TK7882.P3 Pattern recognition systems |
Divisions: | Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Electrical Engineering > 20101-(S2) Master Thesis |
Depositing User: | Sevito Fernanda Pambudi |
Date Deposited: | 16 Jul 2025 08:51 |
Last Modified: | 16 Jul 2025 08:51 |
URI: | http://repository.its.ac.id/id/eprint/119859 |
Actions (login required)
![]() |
View Item |