Rosyadi, Muhammad Hafidh (2024) Pembuatan Model Image Captioning Menggunakan Deep Learning. Project Report. [s.n.], [s.l.]. (Unpublished)
![]() |
Text
5025211013-Project_Report.pdf - Accepted Version Download (2MB) |
Abstract
Image Captioning merupakan teknologi yang menghubungkan pemrosesan citra dengan pemodelan bahasa alami untuk menghasilkan deskripsi teks yang sesuai dengan isi gambar. Meskipun berbagai model telah dikembangkan untuk tugas ini, masih ada tantangan dalam memilih arsitektur fitur ekstraksi yang tepat, serta mengoptimalkan parameter preprocessing dan arsitektur model yang digunakan. Penelitian ini bertujuan untuk mengevaluasi berbagai faktor yang memengaruhi kinerja model Image Captioning, termasuk arsitektur fitur ekstraksi, penggunaan padding dalam preprocessing gambar, dan jumlah layer pada model decoder. Pengujian dilakukan menggunakan dataset Flickr8k dan dioptimalkan dengan metode Grid Search untuk memperoleh kombinasi parameter terbaik. Hasil penelitian menunjukkan bahwa arsitektur fitur ekstraksi berpengaruh signifikan terhadap performa model, dengan model VGG mencatat skor BLEU tertinggi sebesar 0,3656, sedangkan MobileNet menunjukkan stabilitas terbaik dengan nilai rata-rata BLEU sebesar 0,2226 dan ROUGE sebesar 0,0483. Selain itu, eksperimen penggunaan padding dalam preprocessing gambar menunjukkan bahwa model tanpa padding memiliki kinerja lebih baik dibandingkan dengan model yang menggunakan padding, dengan MobileNet mencatatkan rata-rata BLEU sebesar 0,2583 tanpa padding dibandingkan 0,1870 dengan padding. Penelitian ini diharapkan dapat memberikan kontribusi dalam pengembangan teknik image captioning dengan memperhatikan aspek penting dalam pemilihan arsitektur serta optimasi parameter, untuk mencapai deskripsi gambar yang lebih akurat dan relevan.
Item Type: | Monograph (Project Report) |
---|---|
Uncontrolled Keywords: | Image Captioning, Deep Learning, Transformer |
Subjects: | T Technology > T Technology (General) > T174 Technological forecasting T Technology > T Technology (General) > T57.5 Data Processing T Technology > T Technology (General) > T59.7 Human-machine systems. |
Divisions: | Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Informatics Engineering > 55201-(S1) Undergraduate Thesis |
Depositing User: | Muhammad Hafidh Rosyadi |
Date Deposited: | 20 Jun 2025 06:39 |
Last Modified: | 20 Jun 2025 06:39 |
URI: | http://repository.its.ac.id/id/eprint/119212 |
Actions (login required)
![]() |
View Item |