Penerapan Model VisualGPT Untuk Pembangkit Deskripsi Citra Pada Produk Fashion

Isnaini, Aghisna Nur (2025) Penerapan Model VisualGPT Untuk Pembangkit Deskripsi Citra Pada Produk Fashion. Other thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 5002211076-Undergraduate_Thesis.pdf] Text
5002211076-Undergraduate_Thesis.pdf
Restricted to Repository staff only

Download (2MB) | Request a copy

Abstract

Pembangkit deskripsi citra pada produk fashion merupakan topik yang menarik untuk dikaji, namun pengolahan terhadap data multimodal masih memerlukan pengembangan lebih lanjut. Penelitian ini mengimplementasikan VisualGPT dengan menggunakan Vision Transformer (ViT) sebagai visual ekstraktor, dan GPT-2 sebagai decoder teks untuk menghasilkan deskripsi citra secara otomatis pada produk fashion. Dataset yang digunakan adalah FACAD170K yang kemudian dibagi dengan rasio 7:2:1 untuk set pelatihan, set validasi, dan set pengujian. Dua skenario dilakukan untuk menguji bagaimana kinerja model. Skenario pertama tanpa menggunakan augmentasi pada citra set pelatihan, skenario lainnya menggunakan augmentasi pada citra set pelatihan. Untuk menghasilkan caption, digunakan teknik Top-P sampling. Berdasarkan hasil metriks evaluasi, didapatkan bahwa skenario dengan menggunakan augmentasi data mendapatkan skor yang lebih baik dibandingkan skenario dengan tanpa augmentasi data. Model berhasil mencapai skor 46,66% pada BLEU-1, 30,85% pada BLEU-2, 24,37% pada BLEU-3, 13,2% pada BLEU-4, 25% pada METEOR, 38% pada ROUGE-L, dan skor CIDEr sebesar 82,52%. Hasil ini menunjukkan bahwa VisualGPT memiliki kinerja yang cukup baik dalam membangun sistem pembangkit deskripsi citra otomatis pada produk fashion.
====================================================================================================================================
Image caption generation for fashion products is an interesting topic to explore, but processing multimodal data still requires further development. This study implements VisualGPT using Vision Transformer (ViT) as a visual extractor and GPT-2 as a text decoder to automatically generate image captions for fashion products. The data set used is FACAD170K, which is then divided by a 7:2:1 ratio for the training set, validation set, and testing set. Two scenarios are conducted to test the model performance. The first scenario does not use augmentation on the training set images, while the other scenario uses augmentation on the training set images. To generate captions, the Top-P sampling technique is used. Based on the evaluation metrics, it was found that the scenario using data augmentation achieved better scores compared to the scenario without data augmentation. The model achieved a score of 46.66% on BLEU-1, 30.85% on BLEU-2, 24.37% on BLEU-3, 13.2% on BLEU-4, 25% on METEOR, 38% on ROUGE-L, and a CIDEr score of 82.52%. These results indicate that VisualGPT performs well in building an automatic image captioning system for fashion products.

Item Type: Thesis (Other)
Uncontrolled Keywords: Deskripsi Gambar, VisualGPT, GPT-2, Vision Transformer, FACAD170K, Image Captioning, VisualGPT, GPT-2, Vision Transformer, FACAD170K
Subjects: B Philosophy. Psychology. Religion > BH Aesthetics
Q Science > QA Mathematics > QA76.6 Computer programming.
T Technology > T Technology (General) > T59.7 Human-machine systems.
Divisions: Faculty of Mathematics, Computation, and Data Science > Mathematics > 44201-(S1) Undergraduate Thesis
Depositing User: Aghisna Nur Isnaini
Date Deposited: 01 Aug 2025 08:34
Last Modified: 01 Aug 2025 08:34
URI: http://repository.its.ac.id/id/eprint/125572

Actions (login required)

View Item View Item