Pembuatan Model Image Captioning Menggunakan Deep Learning

Rosyadi, Muhammad Hafidh (2024) Pembuatan Model Image Captioning Menggunakan Deep Learning. Project Report. [s.n.], [s.l.]. (Unpublished)

[thumbnail of 5025211013-Project_Report.pdf] Text
5025211013-Project_Report.pdf - Accepted Version

Download (2MB)

Abstract

Image Captioning merupakan teknologi yang menghubungkan pemrosesan citra dengan pemodelan bahasa alami untuk menghasilkan deskripsi teks yang sesuai dengan isi gambar. Meskipun berbagai model telah dikembangkan untuk tugas ini, masih ada tantangan dalam memilih arsitektur fitur ekstraksi yang tepat, serta mengoptimalkan parameter preprocessing dan arsitektur model yang digunakan. Penelitian ini bertujuan untuk mengevaluasi berbagai faktor yang memengaruhi kinerja model Image Captioning, termasuk arsitektur fitur ekstraksi, penggunaan padding dalam preprocessing gambar, dan jumlah layer pada model decoder. Pengujian dilakukan menggunakan dataset Flickr8k dan dioptimalkan dengan metode Grid Search untuk memperoleh kombinasi parameter terbaik. Hasil penelitian menunjukkan bahwa arsitektur fitur ekstraksi berpengaruh signifikan terhadap performa model, dengan model VGG mencatat skor BLEU tertinggi sebesar 0,3656, sedangkan MobileNet menunjukkan stabilitas terbaik dengan nilai rata-rata BLEU sebesar 0,2226 dan ROUGE sebesar 0,0483. Selain itu, eksperimen penggunaan padding dalam preprocessing gambar menunjukkan bahwa model tanpa padding memiliki kinerja lebih baik dibandingkan dengan model yang menggunakan padding, dengan MobileNet mencatatkan rata-rata BLEU sebesar 0,2583 tanpa padding dibandingkan 0,1870 dengan padding. Penelitian ini diharapkan dapat memberikan kontribusi dalam pengembangan teknik image captioning dengan memperhatikan aspek penting dalam pemilihan arsitektur serta optimasi parameter, untuk mencapai deskripsi gambar yang lebih akurat dan relevan.

Item Type: Monograph (Project Report)
Uncontrolled Keywords: Image Captioning, Deep Learning, Transformer
Subjects: T Technology > T Technology (General) > T174 Technological forecasting
T Technology > T Technology (General) > T57.5 Data Processing
T Technology > T Technology (General) > T59.7 Human-machine systems.
Divisions: Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Informatics Engineering > 55201-(S1) Undergraduate Thesis
Depositing User: Muhammad Hafidh Rosyadi
Date Deposited: 20 Jun 2025 06:39
Last Modified: 20 Jun 2025 06:39
URI: http://repository.its.ac.id/id/eprint/119212

Actions (login required)

View Item View Item