Pembangkitan Deskripsi Gambar Berbahasa Indonesia Menggunakan Metode Transformer

Abhirama, Muhammad Damas (2024) Pembangkitan Deskripsi Gambar Berbahasa Indonesia Menggunakan Metode Transformer. Other thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 5025201271-Undergraduate_Thesis.pdf] Text
5025201271-Undergraduate_Thesis.pdf - Accepted Version
Restricted to Repository staff only until 1 October 2026.

Download (11MB) | Request a copy

Abstract

Mata merupakan salah satu dari kelima panca indra yang dimiliki manusia. Mata menjadi gerbang masuknya informasi visual tentang objek-objek yang ada disekitar. Informasi visual ini berupa gelombang elektrik yang dihasilkan oleh mata dengan cara menyesuaikan jumlah cahaya yang masuk dan mengelolanya untuk diteruskan menuju saraf otak. Otak manusia memiliki kemampuan dalam mengidentifikasi objek disekitarnya. Salah satu faktor yang menyebabkan terhambatnya manusia dalam menangkap informasi adalah kebutaan atau kehilangan penglihatan. Kondisi ini dapat dialami manusia secara alami ataupun didapat setelah mengalami suatu kecelakaan. Kebutaan atau kehilangan penglihatan tidak dapat disembuhkan hanya dengan kacamata. Istilah umum yang digunakan untuk kondisi penglihatan tersebut adalah tunanetra.
Manusia menciptakan sebuah alat yang memiliki cara kerja hampir sama seperti mata manusia yaitu kamera. Dengan kamera kita dapat menangkap sebuah gambar. Dengan gambar tersebut kita dapat mengetahui informasi apa saja yang ada dalam citra tersebut. Namun bagi tunanetra hal tersebut masih tidak berguna. Untuk memberikan informasi mengenai gambaran dari lingkungan sekitar, salah satu pendekatan yang dapat digunakan yaitu Image Captioning atau deskripsi citra. Dibutuhkan suatu model yang dilatih menggunakan machine learning agar dapat mengubah informasi tersebut menjadi sebuah deskripsi teks. Transformer merupakan salah satu inovasi arsitektur yang bisa digunakan dalam tugas seperti bahasa natural. Alur sistem yang dilakukan pada penelitian ini yaitu dimulai dari mengumpulkan data yang terdiri dari gambar dan deskripsi gambar. Kemudian pada data deskripsi akan dilakukan praproses dengan menormalisasikan data deskripsi. Data gambar dan data deskripsi ini akan dilakukan proses pelatihan dengan menggunakan arsitektur Transformer. Setelah itu, model terlatih akan dilakukan proses evaluasi dengan metriks evaluasi.
Dataset yang digunakan adalah Flickr30k serta dataset original yang diambil di beberapa trotoar di Surabaya. Hasil dari training pada dataset tersebut akan menghasilkan sebuah model. Model ini akan dilakukan evaluasi menggunakan BLEU dan ROUGE-L untuk menguji tingkat kesesuaian deskripsi asli dengan deskripsi dari model. Kemudian dilakukan perbandingan berdasarkan bahasa, hyperparameter, dan perbandingan dengan model non-Transformer. Hasil penelitian menunjukkan model Transformer yang terbaik adalah model Transformer yang dilatih dengan Bahasa Indonesia, enkoder-dekoder Swin Transformer-GPT2, serta learning-rate 10-4 dengan nilai ROUGE-L, BLEU-1, BLEU-2, BLEU-3, dan BLEU-4 yaitu 24,28%; 37,10%; 20,94%; 12,71%; 9,17%.
==================================================================================================================
The eyes are one of the five senses that humans have. The eyes are the gateway for visual information about objects around us. This visual information is in the form of electrical waves produced by the eye by adjusting the amount of incoming light and managing it to be transmitted to the brain's nerves. The human brain can identify objects around it. One of the factors that hinders humans in capturing information is blindness or loss of vision. This condition can be experienced by humans naturally or acquired after experiencing an accident. Blindness or loss of vision cannot be cured with glasses alone. The general term used for this vision condition is blindness.
Humans created a tool that works almost the same as the human eye, namely a camera. With a camera we can capture an image. With this image we can find out what information is in the image. However, for the visually impaired, this is still useless. To provide information about the description of the surrounding environment, one approach that can be used is Image Captioning or image description. A model is needed that is drilled using machine learning to be able to convert this information into a text description. Transformers are an architectural innovation that can be used in tasks such as natural languages. The system flow carried out in this research starts from collecting data consisting of images and image descriptions. Then the description data will be pre-processed by normalizing the description data. This image data and description data will be carried out in a training process using the Transformer architecture. After that, the training model will undergo an evaluation process using evaluation metrics.
The dataset used is Flickr30k as well as the original dataset taken on several sidewalks in Surabaya. The results of training on this dataset will produce a model. This model will be evaluated using BLEU and ROUGE-L to test the level of conformity of the original description with the description of the model. Then comparisons are made based on language, hyperparameters, and comparisons with non-Transformer models. The research results show that the best Transformer model is the Transformer model trained in Indonesian, Swin Transformer-GPT2 encoder-decoder, and learning-rate 10-4 with ROUGE-L, BLEU-1, BLEU-2, BLEU-3, and BLEU-4 namely 24.28%; 37.10%; 20.94%; 12.71%; 9.17%.

Item Type: Thesis (Other)
Uncontrolled Keywords: BLEU, Image Captioning, ROUGE-L, Transformer, Trotoar, Sidewalk
Subjects: T Technology > T Technology (General) > T57.5 Data Processing
Divisions: Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Informatics Engineering > 55201-(S1) Undergraduate Thesis
Depositing User: Muhammad Damas Abhirama
Date Deposited: 02 Aug 2024 21:36
Last Modified: 02 Aug 2024 21:36
URI: http://repository.its.ac.id/id/eprint/110535

Actions (login required)

View Item View Item