Pembangkitan Deskripsi Gambar untuk Pemahaman Visual Properti dalam Rumah Menggunakan InceptionV3 dan LSTM

Rahma, Salsabila Maulida (2024) Pembangkitan Deskripsi Gambar untuk Pemahaman Visual Properti dalam Rumah Menggunakan InceptionV3 dan LSTM. Other thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 5002201024-Undergradute_Thesis.pdf] Text
5002201024-Undergradute_Thesis.pdf - Accepted Version
Restricted to Repository staff only until 1 October 2026.

Download (7MB) | Request a copy

Abstract

Pemahaman visual properti dalam rumah merupakan kunci dari pemanfaatan smart home. Dengan pemahaman visual, smart home dapat mengidentifikasi objek dan posisi suatu properti pada rumah. Pemahaman visual untuk objek properti dalam rumah bisa diperoleh melalui pembangkitan deskripsi gambar. Pembangkitan deskripsi gambar (image captioning) merupakan teknologi yang menggabungkan kemampuan pemrosesan bahasa alami (Natural Language Processing/NLP) dan penglihatan komputer (Computer Vision) untuk menghasilkan deskripsi teks dari gambar. Penelitian ini bertujuan untuk menghasilkan deskripsi citra untuk pemahaman visual properti dalam rumah dengan menggunakan InceptionV3 dan LSTM (Long Short-Term Memory) . Kumpulan data yang digunakan dalam penelitian ini berupa gambar dan label untuk objek properti dalam rumah seperti meja, kursi, lemari, tempat tidur, dapur, kamar tidur, dan toilet. Model image captioning yang digunakan dalam penelitian ini menggunakan arsitektur InceptionV3 dan LSTM serta digunakan pula metode pencarian prediksi / inferensi yakni beam search. Model ini dilatih menggunakan dataset gambar objek properti dalam rumah yang diberi label dengan deskripsi sejumlah 1449 gambar dengan 1014 data latih, 145 data validasi, dan 290 data uji. Dalam Tugas Akhir ini, terdapat beberapa langkah utama metodologi yaitu prapemrosesan data, pembagian data, pembentukan dan pelatihan model, serta analisis dan evaluasi hasil pengujian. Model ini dilatih dengan empat variasi yang terdapat perbedaan hyperparameter pada setiap variasinya. Berdasarkan hasil pelatihan dan uji diperoleh bahwa model yang paling baik diantara keempat variasi adalah variasi 4 dengan variasi hyperparameter yaitu learning rate 1e-5, batch size 32, dropout 0.5 dan epoch 300. Sehingga menghasilkan skor metriks evaluasi rata - rata dari hasil pengujian yaitu skor BLEU-1 sebesar 48.68, BLEU-2 sebesar 36.91, BLEU-3 sebesar 29.72, BLEU-4 sebesar 25.05, dan ROUGE-L sebesar 54.68.
========================================================================================================================
Visual understanding of properties in the house is the key to utilizing smart homes. With visual understanding, smart homes can identify objects and positions of properties
in the house. Visual understanding of property objects in the house can be obtained through generating image descriptions. Image captioning is a technology that combines
the capabilities of natural language processing (NLP) and computer vision to produce text descriptions from images. This study aims to produce image descriptions for visual
understanding of properties in the house using InceptionV3 and LSTM (Long Short-Term Memory). The data set used in this study is in the form of images and labels for property objects in the house such as tables, chairs, cupboards, beds, kitchens, bedrooms, and toilets. The image captioning model developed in this study uses the InceptionV3 and LSTM architectures and also uses a beam search decoding algorithm. This model is trained using a dataset of property object images in the house labeled with descriptions of 1449 images with 1014 training data, 145 validation data, and 290 test data. In this final project, there are several main steps of the methodology, namely data preprocessing, data division, model formation and training, also analysis and evaluation of test results. This model is trained with four variations that have different hyperparameters in each variation. Based on the training and testing results, it was found that the best model among the four variations is variation 4 with hyperparameter variations, namely learning rate 1e-5, batch size 32, dropout 0.5 and epoch 300. So that it produces an average evaluation metric score from the test results, namely the BLEU-1 score of 48.68, BLEU-2 of 36.91, BLEU-3 of 29.72, BLEU-4 of 25.05, and ROUGE-L of 54.68.

Item Type: Thesis (Other)
Uncontrolled Keywords: pembangkitan deskripsi gambar, properti dalam rumah, InceptionV3, LSTM, image captioning, property in the house, InceptionV3, LSTM.
Subjects: Q Science > QA Mathematics > QA76.87 Neural networks (Computer Science)
Divisions: Faculty of Science and Data Analytics (SCIENTICS) > Mathematics > 44201-(S1) Undergraduate Thesis
Depositing User: Salsabila Maulida Rahma
Date Deposited: 06 Aug 2024 17:22
Last Modified: 06 Aug 2024 17:22
URI: http://repository.its.ac.id/id/eprint/113944

Actions (login required)

View Item View Item