Pembangkitan Deskripsi Gambar Lingkungan Lalu Lintas Berbasis Metode Bootstrapping Language-Image Pre-Training (BLIP)

Huda, Muhamad Syaiful (2024) Pembangkitan Deskripsi Gambar Lingkungan Lalu Lintas Berbasis Metode Bootstrapping Language-Image Pre-Training (BLIP). Other thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 5002201146-Undergraduate_Thesis.pdf] Text
5002201146-Undergraduate_Thesis.pdf - Accepted Version
Restricted to Repository staff only

Download (16MB)

Abstract

Angka kematian yang tinggi akibat kecelakaan lalu lintas memerlukan solusi segera. Salah satu penyebab utama kecelakaan adalah kelalaian pengendara. Sistem transportasi cerdas (ITS) menawarkan solusi komprehensif dengan berbagai teknologi untuk meningkatkan keselamatan dan efisiensi lalu lintas. Mobil otonom (self-driving) adalah salah satu aplikasi ITS yang dapat mengurangi risiko kecelakaan. Untuk lebih meningkatkan kenyamanan dan keselamatan, teknologi \textit{image captioning} dapat ditambahkan untuk memberikan deskripsi visual tentang kondisi lalu lintas, sehingga membantu pengemudi atau sistem dalam membuat keputusan yang lebih tepat. Dalam penelitian ini, digunakan model Bootstrapping Language-Image Pre-Training (BLIP), sebuah arsitektur yang mengintegrasikan fitur visual dan tekstual untuk menghasilkan deskripsi citra lalu lintas dari sudut pandang pengemudi. Model BLIP dilatih menggunakan data citra lalu lintas dari Berkeley DeepDrive (BDD10K) dengan berbagai konfigurasi pembagian data latih. Evaluasi kinerja model dilakukan menggunakan metrik BLEU dan CIDEr. Hasilnya menunjukkan bahwa model BLIP large dengan split data latih 80% memberikan performa terbaik dibandingkan dengan konfigurasi lainnya, dengan skor BLEU-1, BLEU-2, BLEU-3, dan BLEU-4 sebesar 40%, 24%, 14%, dan 8%, serta CIDEr sebesar 0.43. Ini menunjukkan bahwa model BLIP mampu menghasilkan deskripsi yang relevan dengan lingkungan lalu lintas. Namun, kualitas deskripsi tersebut masih perlu ditingkatkan agar mencapai tingkat akurasi dan relevansi yang sesuai dengan standar yang diharapkan dalam aplikasi mobil otonom.

============================================================

The high mortality rate due to traffic accidents requires an urgent solution. One of the main causes of these accidents is driver negligence. Intelligent Transportation Systems (ITS) offer comprehensive solutions with various technologies to enhance traffic safety and efficiency. Autonomous vehicles (self-driving cars) are one application of ITS that can reduce the risk of accidents. To further improve comfort and safety, image captioning technology can be added to provide visual descriptions of traffic conditions, assisting drivers or systems in making more informed decisions. In this study, we used the Bootstrapping Language-Image Pre-Training (BLIP) model, an architecture that integrates visual and textual features to generate descriptions of traffic images from the driver's perspective. The BLIP model was trained using traffic image data from the Berkeley DeepDrive (BDD10K) dataset with various training data split configurations. The model's performance was evaluated using BLEU and CIDEr metrics. The results show that the BLIP large model with an 80% training data split achieved the best performance compared to other configurations, with BLEU-1, BLEU-2, BLEU-3, and BLEU-4 scores of 40%, 24%, 14%, and 8%, respectively, and a CIDEr score of 0.43. This indicates that the BLIP model can generate relevant descriptions of traffic environments. However, the quality of these descriptions still needs improvement to meet the expected accuracy and relevance standards in autonomous vehicle applications.

Item Type: Thesis (Other)
Subjects: Q Science > QA Mathematics > QA336 Artificial Intelligence
Q Science > QA Mathematics > QA76.6 Computer programming.
Q Science > QA Mathematics > QA76.87 Neural networks (Computer Science)
Divisions: Faculty of Mathematics, Computation, and Data Science > Mathematics > 44201-(S1) Undergraduate Thesis
Depositing User: Muhamad Syaiful Huda
Date Deposited: 07 Aug 2024 01:07
Last Modified: 07 Aug 2024 01:07
URI: http://repository.its.ac.id/id/eprint/114415

Actions (login required)

View Item View Item