Deteksi Multi Objek Secara Real Time Menggunakan Metode Transformer

Manihuruk, Michael Ariel (2024) Deteksi Multi Objek Secara Real Time Menggunakan Metode Transformer. Other thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 5025201158-Undergraduate_Thesis.pdf] Text
5025201158-Undergraduate_Thesis.pdf - Accepted Version
Restricted to Repository staff only until 1 October 2026.

Download (7MB) | Request a copy

Abstract

Sebagai indera penglihatan utama manusia, mata memiliki peran penting dalam merekam dan menampilkan objek-objek di sekitar kita. Di mana fungsi utamanya adalah menyesuaikan cahaya yang masuk dan fokus pada objek yang tertangkap, mengirim informasi visual ke otak untuk diproses menjadi gambaran yang kita lihat. Akan tetapi, bagi sebagian orang, kekurangan visual atau kebutaan yang biasa kita sebut sebagai tunanetra menjadi kenyataan yang memaksa mereka untuk mengubah cara mereka berinteraksi dengan dunia. Keterbatasan tersebut seringkali membuat mereka memerlukan bantuan eksternal atau media visual untuk berorientasi dengan lingkungannya.
Dalam upaya membantu mereka berinteraksi lebih mandiri dengan dunia, pendekatan object detection muncul sebagai solusi yang potensial. Di mana dalam penelitian ini kita akan berfokus pada deteksi multi objek secara real-time yang bertujuan untuk mengidentifikasi objek dalam gambar atau video. Untuk meningkatkan akurasi deskripsi objek dalam deteksi multi objek secara real time, dilakukan pendekatan terhadap metode transformer, yaitu Detection Transformer (DETR) yang mampu bekerja secara paralel dengan arsitektur sistem yang lebih sederhana dan teratur. Metode ini memungkinkan identifikasi multi objek secara cepat dan akurat dengan membagi gambar menjadi grid dan langsung menghasilkan bounding box serta label objek yang terdeteksi. Dengan memanfaatkan jaringan neural network yang terlatih, arsitektur transformer ini memberikan informasi tentang objek yang terdeteksi secara real time. Pada penelitian ini akan dilakukan perbandingan peforma dari model YOLOv8 n, YOLOv8 s, YOLOv8 m, YOLOv5 nu, YOLOv5 su, dan YOLOv5 mu dengan model yang menggunakan arsitektur DETR sebagai pengembangan.
Dataset yang digunakan berisi gambar lingkungan pejalan kaki yang diambil secara mandiri. Model akan dilatih dengan dataset ini untuk membuat sistem object detection, kemudian akan dievaluasi menggunakan metrik evaluasi COCO serta waktu untuk menilai keakuratan label pada objek yang diprediksi dan kecepatan deteksi model. Pada penelitian ini didapatkan hasil evaluasi model DETR terbaik menggunakan Residual Network sebagai backbone modelnya dengan nilai mAP50 sebesar 73,3%, mAP75 sebesar 50,3%, dan mAP50-95 sebesar 47,9%.
=====================================================================================================
As the primary human sense of sight, the eyes have an important role in recording and displaying objects around us. Where the main function is to adjust the incoming light and focus on the captured object, sending visual information to the brain to be processed into the image we see. However, for some people, the visual impairment or blindness that we usually call blindness becomes a reality that forces them to change the way they interact with the world. These limitations often make them need external assistance or visual media to orient themselves with their environment.
In an effort to help them interact more independently with the world, approach object detection emerged as a potential solution. Where in this research we will focus on multi-object detection real time which aims to identify objects in images or videos. To increase the accuracy of object descriptions in multi-object detection real time, an approach was taken to a transformer method that is capable of working in parallel with a simpler and more organized system architecture. In system development, the approach taken is to use methods Detection Transformer (DETR). This method allows fast and accurate identification of multiple objects by dividing the image into grid and produce immediately bounding box as well as labels of detected objects. By utilizing the network neural network trained, this transformer architecture provides information about the detected objects automatically real time. In this research, we will compare the performance of the YOLOv8 n, YOLOv8 s, YOLOv8 m, YOLOv5 nu, YOLOv5 su, and YOLOv5 mu models with models that use the DETR architecture as development.
The dataset used contains images of the pedestrian environment taken independently. The model will be trained with this dataset to create a system object detection, will then be evaluated using COCO evaluation metrics as well as time to assess the accuracy of labels on predicted objects and the detection speed of the model. In this study, the results of the evaluation of the best DETR model were obtained using Residual Network as backbone model with a mAP50 value of 73.3%, mAP75 of 50.3%, and mAP50-95 of 47.9%.

Item Type: Thesis (Other)
Uncontrolled Keywords: blind, camera, DETR, eyes, multiple object detection, transformer,kamera, mata, tunanetra.
Subjects: Q Science > QA Mathematics > QA336 Artificial Intelligence
Divisions: Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Informatics Engineering > 55201-(S1) Undergraduate Thesis
Depositing User: Michael Ariel Manihuruk
Date Deposited: 02 Aug 2024 04:18
Last Modified: 02 Aug 2024 04:18
URI: http://repository.its.ac.id/id/eprint/110196

Actions (login required)

View Item View Item