Pembangkitan Deskripsi Gambar Berbahasa Indonesia untuk Pengenalan Lingkungan bagi Tuna Netra

Ansori, Dwinanda Bagoes (2023) Pembangkitan Deskripsi Gambar Berbahasa Indonesia untuk Pengenalan Lingkungan bagi Tuna Netra. Other thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 05111940000010-Undergraduate_Thesis.pdf] Text
05111940000010-Undergraduate_Thesis.pdf - Accepted Version
Restricted to Repository staff only until 1 October 2025.

Download (5MB) | Request a copy

Abstract

Indra merupakan bagian penting pada manusia yang berfungsi untuk mengumpulkan informasi dari lingkungan sekitarnya. Informasi tersebut akan dikirim ke otak dan akan diproses untuk menciptakan gambaran sensorik yang lengkap tentang lingkungan sekitar, dan tubuh kita dapat merespon sesuai dengan gambaran tersebut. Mata (indra penglihatan) berfungsi untuk menangkap informasi visual yang ada di lingkungan sekitar. Namun terdapat manusia yang memiliki keterbatasan sehingga tidak dapat menggunakan indra penglihatannya (tuna netra). Biasanya para tuna netra menggunakan alat bantu tongkat dan indra lainnya untuk menangkap informasi mengenai lingkungan sekitarnya. Namun hal tersebut belum bisa memberikan informasi yang cukup representatif selayaknya mata. Dengan kamera, manusia dapat menangkap gambar dari lingkungan sekitar. Namun kamera tidak dapat mengubah gambar tersebut menjadi informasi yang representatif. Dari gambar tersebut dilakukan ekstraksi fitur untuk mendapatkan objek-objek yang ada pada gambar. Objek-objek tersebut dapat diubah menjadi informasi melalui image captioning (deskripsi gambar). Dibutuhkan suatu model yang dilatih dengan machine learning agar dapat mengubah kumpulan objek menjadi kata-kata yang informatif. LSTM merupakan salah satu metode machine learning yang dapat digunakan. LSTM adalah model yang dapat mengingat kumpulan informasi yang telah disimpan dalam jangka waktu panjang, sekaligus menghapus informasi yang tidak relevan. Dataset yang digunakan adalah flickr30k, dan dataset original yang diambil di beberapa titik trotoar di Surabaya. Training yang dilakukan pada dataset tersebut akan menghasilkan model image captioning dan akan diuji menggunakan metode BLEU untuk menguji tingkat kesesuaian antara deskripsi dari model dengan deskripsi asli. Kemudian dilakukan perbandingan berdasarkan Bahasa, variasi data, metode ekstraksi fitur, decoder, hyperparameter. Hasil penelitian menunjukkan bahwa model terbaik adalah model yang dilatih dengan Bahasa Indonesia, ektraksi fitur menggunakan DenseNet-101, decoder menggunakan 1 layer LSTM dan 2 layer bi-LSTM dengan attention, aktivasi tanh, serta optimizer adam dengan nilai BLEU-1, BLEU-2, BLEU-3, dan BLEU-4 yaitu 51,8%; 31,96%; 16,48%; dan 8,03%.
=================================================================================================================================
The senses are an important part of humans whose function is to gather information from the surrounding environment. This information will be sent to the brain and will be processed to create a complete sensory picture of the surrounding environment, and our body can respond according to that picture. The eye (sense of sight) functions to capture visual information in the surrounding environment. However, there are humans who have limitations so they cannot use their sense of sight (blind). Usually, blind people use sticks and other senses to capture information about their surroundings. However, this has not been able to provide sufficient representative information like the eye. With a camera, humans can capture images of the surrounding environment. But the camera can't turn those images into representative information. From the image, feature extraction is carried out to get the objects in the image. These objects can be turned into information through image captioning. It takes a model that is trained with machine learning in order to transform a collection of objects into informative words. LSTM is one of the machine learning methods that can be used. LSTM is a model that can remember a collection of information that has been stored for a long time, while removing irrelevant information. The dataset used is flickr30k, and the original dataset was taken at several sidewalk points in Surabaya. Training conducted on the dataset will produce an image captioning model and will be tested using the BLEU method to test the degree of correspondence between the description of the model and the original description. Then a comparison is made based on language, data variation, feature extraction method, decoder, hyperparameter. The results showed that the best model was a model trained in Indonesian, feature extraction using DenseNet-101, decoder using 1 layer LSTM and 2 layer bi-LSTM with attention, tanh activation, and adam optimizer with values BLEU-1, BLEU-2, BLEU-3, and BLEU-4 namely 51.8%; 31,96%; 16.48%; and 8.03%.

Item Type: Thesis (Other)
Uncontrolled Keywords: Senses, Eyes, Sidewalk, Indra, Mata, Image Captioning, Trotoar, LSTM
Subjects: Q Science > Q Science (General) > Q325.5 Machine learning. Support vector machines.
R Medicine > R Medicine (General) > R858 Deep Learning
T Technology > TA Engineering (General). Civil engineering (General) > TA1637 Image processing--Digital techniques
Divisions: Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Informatics Engineering > 55201-(S1) Undergraduate Thesis
Depositing User: Dwinanda Bagoes Ansori
Date Deposited: 14 Nov 2023 07:41
Last Modified: 14 Nov 2023 07:41
URI: http://repository.its.ac.id/id/eprint/102467

Actions (login required)

View Item View Item