Batan, Iwap Saputra (2023) Pembacaan Bibir Secara Otomatis Berbasis Perubahan Pose Wajah Menggunakan Deep Learning. Masters thesis, Institut Teknologi Sepuluh Nopember.
Text
6022221038-Master_Thesis.pdf - Accepted Version Restricted to Repository staff only until 1 September 2025. Download (3MB) | Request a copy |
Abstract
Komunikasi merupakan bagian dari kehidupan sosial sebagai manusia yang tidak dapat dipisahkan lagi. Berbagai macam metode komunikasi yang digunakan oleh manusia, salah satunya adalah dengan berbicara. Dengan berbicara secara langsung, manusia dapat mendengar dan memperoleh informasi dari lawan bicaranya. Namun keterbatasan pendengaran, dapat menyebabkan keterbatasan dalam penyampaian komunikasi secara verbal. Keterbatasan ini sama halnya dengan kamera yang hanya mampu menangkap informasi secara visual. Salah satu metode untuk mendapatkan informasi verbal tanpa mendengarkan adalah dengan pembacaan bibir atau lip reading. Pembacaan bibir merupakan pendeteksian pergerakan bibir hanya melalui visual saja. Kebutuhan pembacaan bibir terus meningkat, sebagai contoh hal ini dapat digunakan dalam analisa forensik video dan re-dubbing arsip video atau film. Beberapa penelitian yang telah digunakan memiliki keterbatasan pada tetap dibutuhkannya sumber suara walau dengan tingkat noise yang tinggi, maupun keterbatasan pada pemrosesan pergerakan hanya dalam 2D saja. Untuk itu kami melakukan penelitian terkait pembacaan bibir hanya dari data berupa visual, yaitu data hanya berupa video maupun pengambilan langsung. Selain itu, pembacaan bibir akan diproses dengan menganalisa pergerakan pose wajah dan diproses dengan menggunakan salah satu metode deep learning, yaitu Long Short Term Memory. Hasil dari penggunaan LSTM pada penelitian ini menunjukkan tingkat akurasi sebesar 85% dengan dukungan nilai AUC sebesar 89%. Waktu komputasi LSTM juga memberikan hasil dibawah 10 detik
==================================================================================================================================
Communication is a part of social life as a human beings that cannot be separated anymore. Various kinds of communication methods are used by humans, one of which is by speaking. By speaking directly, humans can hear and obtain information from the other person. However, hearing limitations can cause limitations in the delivery of verbal communication. This limitation is the same as a camera that can only capture information visually. One method of getting verbal information without listening is lip reading. Lip reading is the detection of lip movements only through visuals. The need for lip reading is growing; for example, it can be used in video forensic analysis and re-dubbing video or film archives. Several studies that have been used have limitations on the need for sound sources even with high noise levels, as well as limitations on processing movements only in 2D. For this reason, we researched lip reading only from visual data, namely data in videos or live recordings. In addition, lip-reading will be processed by analyzing facial pose movements and processed using one of the deep learning methods, namely Long Short Term Memory. With this method, lip reading can be generated from visual input only. The results of using the LSTM in this research showed an accuracy rate of 85% with the support of an AUC value of 89%. LSTM computation time also gives results under 10 seconds
Item Type: | Thesis (Masters) |
---|---|
Uncontrolled Keywords: | pembacaan bibir, pose wajah, LSTM, facial pose, lip reading, LSTM |
Subjects: | R Medicine > R Medicine (General) > R858 Deep Learning |
Divisions: | Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Electrical Engineering > 20101-(S2) Master Thesis |
Depositing User: | Iwap Saputra Batan |
Date Deposited: | 21 Jul 2023 08:56 |
Last Modified: | 21 Jul 2023 08:56 |
URI: | http://repository.its.ac.id/id/eprint/98857 |
Actions (login required)
View Item |