Penerapan Bootstrapping Language-Image Pre-Training 2 untuk Image Captioning pada Produk Fashion

Aisyah, Soffia Noor (2024) Penerapan Bootstrapping Language-Image Pre-Training 2 untuk Image Captioning pada Produk Fashion. Other thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 5002201125-Undergraduate_Thesis.pdf] Text
5002201125-Undergraduate_Thesis.pdf - Accepted Version
Restricted to Repository staff only until 1 October 2026.

Download (22MB) | Request a copy

Abstract

Pesatnya pertumbuhan penjualan dalam industri fashion melalui toko online menyebabkan banyaknya permintaan untuk pembuatan deskripsi otomatis pada produk fashion. Penelitian mengenai fashion image captioning masih terus berlangsung dan mempunyai manfaat besar untuk memberikan informasi yang lebih lengkap dan akurat kepada pelanggan dalam toko online. Akan tetapi, model fashion image captioning yang digunakan oleh penelitian-penelitian sebelumnya tidak memenuhi deskripsi teks yang menangkap interpretasi visual yang kompleks, seperti hubungan antara atribut, gaya, tekstur, dan fungsionalitas produk fashion. Dalam penelitian Tugas Akhir ini menggunakan model Bootstrapping Language Image Pre-Training 2 BLIP-2) dengan Vision Transformer (ViT) sebagai fitur ekstraksi gambar dan Open Pre-Trained Transformer Language Models (OPT) untuk menghasilkan teks prediksi berdasarkan hasil fitur ekstraksi gambar. BLIP-2 menunjukkan performansi luar biasa dalam pemahaman antara gambar dan teks secara bi-directional sehingga mampu menghasilkan deskripsi yang lebih panjang dan detail. Selain itu, BLIP-2 dilatih menggunakan kumpulan dataset yang besar sehingga menghasilkan deskripsi gambar yang lebih kaya dan personal dengan menganalisis sentimen dan emosi. Terdapat dua dataset yang digunakan yaitu Fashion Captioning dataset (FACAD) dan InFashAlv1. Performansi dari model tersebut dilakukan perhitungan kemiripan antara teks prediksi dan teks referensi dengan menggunakan metrik evaluasi BLEU, ROUGE-L dan METEOR. Berdasarkan hasil uji coba yang dilakukan, penelitian ini telah menghasilkan sistem image captioning pada produk fashion dataset FACAD dengan performansi nilai terbaik yaitu BLEU-1 sebesar 42%, ROUGE-L sebesar 45%, dan METEOR sebesar 41%. Untuk data uji InFashAI menghasilkan nilai BLEU-1 sebesar 15%, ROUGE-L sebesar 16%, dan METEOR sebesar 6%.

Item Type: Thesis (Other)
Uncontrolled Keywords: BLIP-2, Image Captioning, Fashion
Subjects: Q Science > QA Mathematics > QA76.87 Neural networks (Computer Science)
Divisions: Faculty of Mathematics and Science > Mathematics > 44201-(S1) Undergraduate Thesis
Depositing User: Soffia Noor Aisyah
Date Deposited: 06 Aug 2024 17:39
Last Modified: 06 Aug 2024 17:39
URI: http://repository.its.ac.id/id/eprint/113601

Actions (login required)

View Item View Item