Generative Image-To-Text Transformer Untuk Pembangkit Deskripsi Citra Lingkungan Lalu Lintas Jalan Raya

Amanda, Zein Dea (2024) Generative Image-To-Text Transformer Untuk Pembangkit Deskripsi Citra Lingkungan Lalu Lintas Jalan Raya. Other thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 5002201136-Undergraduate_Thesis.pdf] Text
5002201136-Undergraduate_Thesis.pdf - Accepted Version
Restricted to Repository staff only until 1 October 2026.

Download (9MB) | Request a copy

Abstract

Tingkat kecelakaan lalu lintas yang terus meningkat setiap tahun menyebabkan dampak signifikan, baik terhadap keselamatan jiwa maupun ekonomi. Pada tahun 2023, Organisasi Kesehatan Dunia (WHO) mencatat sekitar 1,19 juta kematian akibat kecelakaan lalu lintas, dengan Indonesia mengalami angka kematian tertinggi pada tahun 2022. Salah satu penyebab utama kecelakaan adalah kurangnya perhatian pengemudi terhadap kondisi sekitar, sering kali disebabkan oleh ketidakmampuan dalam memahami situasi lalu lintas. Untuk mengatasi masalah ini, Sistem Bantuan Pengemudi Lanjutan (ADAS) menawarkan solusi dengan memanfaatkan teknologi canggih guna meningkatkan keselamatan berkendara. Teknologi image captioning berpotensi membantu ADAS dengan memberikan deskripsi otomatis dari citra lingkungan lalu lintas, yang dapat membantu pengemudi dalam memahami kondisi di sekitar mereka. Penelitian ini mengeksplorasi penggunaan model Generative Image-to-Text Transformer (GIT) untuk menghasilkan deskripsi citra dengan menggunakan dataset dari Berkeley Deep Drive 10K atau BDDK10, yang berisi citra dari video dashcam dalam berbagai kondisi. Model GIT diterapkan dalam dua skenario: dengan dan tanpa cropping. Pada skenario dengan cropping, proporsi citra dipertahankan tetapi informasi pada tepi citra dibuang, sedangkan pada skenario tanpa cropping, semua informasi citra dipertahankan tetapi mengakibatkan distorsi citra. Evaluasi kinerja model GIT menunjukkan hasil yang bervariasi. Berdasarkan eksperimen, model tanpa cropping dianggap sedikit lebih unggul karena kombinasi skor BLEU yang lebih baik dan efisiensi waktu, meskipun perbedaannya relatif kecil. Akan tetapi model masih memiliki keterbatasan dalam menghasilkan struktur kalimat yang baik sehingga sulit dipahami. Selain itu, model juga masih kurang baik dalam memberikan informasi posisi objek sesuai situasi dari citra. Hal ini menunjukkan bahwa meskipun model GIT dapat memberikan deskripsi yang relevan dengan lingkungan lalu lintas, kualitas deskripsi masih perlu perbaikan untuk mencapai tingkat akurasi dan relevansi yang diharapkan dalam aplikasi ADAS.
==============================================================================================================================
The increasing rate of traffic accidents each year results in significant impacts on both human safety and the economy. In 2023, the World Health Organization (WHO) recorded approximately 1.19 million deaths due to traffic accidents, with Indonesia experiencing the highest number of fatalities in 2022. One of the main causes of these accidents is the lack of driver awareness of their surroundings, often due to an inability to understand the traffic situation. To address this issue, Advanced Driver Assistance Systems (ADAS) offer a solution by leveraging advanced technology to enhance driving safety. Image captioning technology has the potential to assist ADAS by providing automatic descriptions of traffic environment images, which can help drivers understand the conditions around them. This study explores the use of the Generative Image-to-Text Transformer (GIT) model to generate image descriptions using the Berkeley Deep Drive 10K (BDD10K) dataset, which contains images from dashcam videos under various conditions. The GIT model is applied in two scenarios: with and without cropping. In the cropping scenario, the image proportions are maintained but information at the edges is discarded, whereas in the non-cropping scenario, all image information is retained, resulting in image distortion. The performance evaluation of the GIT model shows varied results. Based on the experiments, the model without cropping is considered slightly superior due to a better combination of BLEU scores and processing efficiency, although the differences are relatively small. However, the model still has limitations in generating well-structured sentences, making them difficult to understand. Additionally, the model is not yet effective in providing accurate positional information of objects within the image. This indicates that while the GIT model can provide relevant descriptions of the traffic environment, the quality of the descriptions still needs improvement to achieve the desired level of accuracy and relevance for ADAS applications

Item Type: Thesis (Other)
Uncontrolled Keywords: pembangkitan deskripsi citra, lingkungan lalu lintas jalan raya, Generative Image-to-Text Transformer, sistem transportasi cerdas, image captioning, traffic scene, intelligent transportation system
Subjects: Q Science > QA Mathematics > QA336 Artificial Intelligence
Q Science > QA Mathematics > QA76.87 Neural networks (Computer Science)
Divisions: Faculty of Science and Data Analytics (SCIENTICS) > Mathematics > 44201-(S1) Undergraduate Thesis
Depositing User: Zein Dea Amanda
Date Deposited: 07 Aug 2024 01:04
Last Modified: 28 Aug 2024 07:35
URI: http://repository.its.ac.id/id/eprint/114202

Actions (login required)

View Item View Item