Implementasi Metode GLSTM Untuk Pembangkitan Deskripsi Citra Berbahasa Indonesia

Akbar, Zufiqar Fauzul (2023) Implementasi Metode GLSTM Untuk Pembangkitan Deskripsi Citra Berbahasa Indonesia. Other thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 05111940000101-Undergraduate_Thesis.pdf] Text
05111940000101-Undergraduate_Thesis.pdf - Accepted Version
Restricted to Repository staff only until 1 October 2025.

Download (7MB) | Request a copy

Abstract

Mata manusia adalah organ yang kompleks dan luar biasa yang bertanggung jawab atas indra penglihatan. Struktur dan fungsinya yang rumit memungkinkan persepsi cahaya, warna, kedalaman, dan gerakan, memungkinkan manusia untuk berinteraksi dengan sekitar. Namun, kehilangan penglihatan dan kebutaan menghadirkan tantangan yang signifikan bagi individu dan masyarakat. Salah satu tantangannya adalah tidak dapat menangkap informasi sekitar semudah manusia pada umumnya, mereka memerlukan alat bantu seperti braille atau tongkat untuk menangkap informasi. Tetapi informasi yang didapat belum setara dengan informasi visual.
Deskripsi citra (Image captioning) telah muncul sebagai alat yang ampuh untuk menjembatani kesenjangan antara konten visual dan pemahaman tekstual yang memungkinkan individu tunanetra untuk memahami konten visual secara lebih efektif. Deskripsi citra pada penelitian ini menggunakan CNN untuk mengambil fitur dari citra dan menggunakan gLSTM untuk mengubah informasi tersebut menjadi kalimat yang informatif. gLSTM adalah model LSTM yang diberi input tambahan berupa guide supaya hasil deskripsi citra dapat menjadi lebih baik. Guide yang digunakan pada penelitian ini adalah citra itu sendiri. Selain menggunakan dataset deskripsi citra yang sudah ada seperti Flickr30K, penelitian ini juga menggunakan dataset yang diambil secara mandiri berupa 1450 citra trotoar di Surabaya yang masing-masing citra memiliki 5 deskripsi. Pengujian dilakukan dengan menggunakan metrik BLEU untuk menilai kesesuaian antara hasil prediksi dan teks referensi. Pengujian dilakukan dengan 200 citra dataset trotoar dimana model pada penelitian ini memperoleh skor BLEU sebesar 31,89%.
=================================================================================================================================
The human eye is a complex and remarkable organ responsible for the sense of sight. Its intricate structure and function enable the perception of light, color, depth, and motion, allowing us to interact with out surroundings. However, vision loss and blindness present significant challenges to individuals and society. One of the challenges lies in the limited ability to perceive surrounding information as effortlessly as humans in general. Blind individuals often rely on assistive devices such as braille or canes to gather information. However, the information acquired through these means does not equate to visual information.
Image captioning has emerged as a powerful tool for bridging the gap between visual content and textual understanding, enabling blind individuals to access and comprehend visual content more effectively. Image captioning in this study uses CNN to extract features from the image and uses gLSTM to transform that information into informative sentences. gLSTM is a LSTM with additional input in the form of guide to improve image captioning results. The guide used in this study is the image itself. In addition to using an existing image captioning dataset such as Flickr30K, this research also uses a dataset taken independently in the form of 1450 images of sidewalks in Surabaya, each image has 5 descriptions. Tests are carried out using the BLEU metric to assess the similarity between the predicted results and the reference text. Model are tested on 200 sidewalk dataset images where the model in this study obtained a BLEU score of 31.89%.

Item Type: Thesis (Other)
Uncontrolled Keywords: Deskripsi citra, gLSTM, Trotoar, BLEU, Image Captioning, LSTM, CNN, Sidewalk, Dataset.
Subjects: Q Science > Q Science (General) > Q325.5 Machine learning.
Q Science > QA Mathematics > QA336 Artificial Intelligence
Q Science > QA Mathematics > QA76.87 Neural networks (Computer Science)
T Technology > T Technology (General) > T57.5 Data Processing
T Technology > TA Engineering (General). Civil engineering (General) > TA1637 Image processing--Digital techniques
Divisions: Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Informatics Engineering > 55201-(S1) Undergraduate Thesis
Depositing User: Zulfiqar Fauzul Akbar
Date Deposited: 19 Oct 2023 04:49
Last Modified: 19 Oct 2023 04:49
URI: http://repository.its.ac.id/id/eprint/102511

Actions (login required)

View Item View Item