Pengembangan Sistem Berbasis Persepsi Visual-Linguistik Pada Robot Lengan Untuk Proses Pick-And-Place Menggunakan OVGNet

Nugraha, Fariq Javier (2025) Pengembangan Sistem Berbasis Persepsi Visual-Linguistik Pada Robot Lengan Untuk Proses Pick-And-Place Menggunakan OVGNet. Other thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 5024211010-Undergraduate_Thesis.pdf]

Text
5024211010-Undergraduate_Thesis.pdf - Accepted Version
Restricted to Repository staff only
Download (9MB) | Request a copy

Abstract

Interaksi Manusia-Robot (Human-Robot Interaction, HRI) telah berkembang menjadi salah satu bidang studi yang penting, tidak hanya untuk meningkatkan efisiensi di industri, tetapi juga untuk memperluas kapabilitas manusia dalam melakukan tugas yang sulit, berbahaya, atau bahkan mustahil tanpa bantuan robot. Salah satu aplikasi Interaksi Manusia-Robot (HRI) adalah tugas pick-and-place asistif. Aplikasi ini dapat membantu individu, terutama mereka yang memiliki disabilitas fisik atau lanjut usia, dalam menjalani aktivitas sehari-hari. Namun, terdapat dua masalah utama dalam pengembangan aplikasi asistif ini, yaitu pendeteksian objek yang efektif dan mekanisme penggenggaman secara otomatis. Penelitian ini bertujuan untuk mengembangkan sistem berbasis visual-linguistik pada robot UR5 untuk tugas pick-and-place yang dapat membantu manusia dalam menghadapi tantangan tersebut. Sistem ini dilengkapi dengan kamera Intel RealSense D455, sistem persepsi visual-linguistik berbasis GroundingDINO, dan perencanaan gerakan menggunakan GraspNet serta MoveIt!. Sistem ini dirancang untuk melakukan manipulasi objek secara otomatis dalam berbagai skenario, termasuk pengambilan objek yang telah dikenal, objek baru yang tidak ada dalam dataset pelatihan, serta objek dalam lingkungan multi-objek. Hasil pengujian menunjukkan bahwa sistem ini dapat mendeteksi dan merencanakan pose untuk objek yang tidak dikenal dalam posisi dan orientasi yang sudah ditentukan atau dalam lingkungan multi-objek yang sudah disusun rapuh dengan tingkat keberhasilan deteksi dan perencanaan pose lebih dari 80%. Meskipun demikian, eksekusi pose masih memiliki tingkat kegagalan yang besar terutama jika objek diletakan pada posisi dan orientasi yang acak. Secara keseluruhan, penggunaan GroundingDINO untuk persepsi visual-linguistik terbukti efektif dalam mendeteksi dan mengidentifikasi objek target, sedangkan penggunaan GraspNet untuk perencanaan pose penggenggaman sehingga masih perlu ditingkatkan untuk menangani objek yang berada di posisi dan orientasi yang acak, terutama ketika objek tersebut berada di bawah objek lain.
========================================================================================================================================
Human-Robot Interaction (HRI) has evolved into one of the most important areas of study, not only to improve efficiency in industry but also to expand human capabilities in performing tasks that are difficult, dangerous, or even impossible without robotic assistance. One of the applications of Human-Robot Interaction (HRI) is assistive pick-and-place tasks. This application can help individuals, especially those with physical disabilities or the elderly, carry out daily activities. However, there are two main challenges in developing these assistive applications: effective object detection and automatic grasping mechanisms. This research aims to develop a visual-linguistic-based system on the UR5 robot for pick-and-place tasks that can help humans address these challenges. The system is equipped with an Intel RealSense D455 camera, a visual-linguistic perception system based on GroundingDINO, and motion planning using GraspNet and MoveIt!. This system is designed to perform object manipulation automatically in various scenarios, including picking known objects, new objects that are not in the training dataset, and objects in multi-object environments. The test results show that the system can detect and plan poses for unknown objects in predefined positions and orientations, or in a loosely arranged multi-object environment, with a detection and pose planning success rate of over 80%. However, pose execution still has a high failure rate, especially when objects are placed in random positions and orientations. Overall, the use of GroundingDINO for visual-linguistic perception has proven effective in detecting and identifying target objects, while the use of GraspNet for grasp pose planning needs to be further improved to handle objects placed in random positions and orientations, especially when the object is underneath another object.

Item Type:	Thesis (Other)
Uncontrolled Keywords:	Robotika Asistif, Interaksi Manusia-Robot, OVGNet, Persepsi Visual-Linguistik, Pick-and-Place, Assistive Robotics, Human-Robot Interaction, Visual-Linguistic Perception
Subjects:	T Technology > TJ Mechanical engineering and machinery > TJ211 Robotics. T Technology > TJ Mechanical engineering and machinery > TJ211.4 Robot motion
Divisions:	Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Computer Engineering > 90243-(S1) Undergraduate Thesis
Depositing User:	Fariq Javier Nugraha
Date Deposited:	29 Jul 2025 06:27
Last Modified:	29 Jul 2025 06:27
URI:	http://repository.its.ac.id/id/eprint/123225

Actions (login required)

View Item