Optimasi Kontrol Formasi Robot Swarm Dengan Markov Decision Process Menggunakan Algoritma Proximal Policy Optimization

Raihandika, Muhammad Rafi (2024) Optimasi Kontrol Formasi Robot Swarm Dengan Markov Decision Process Menggunakan Algoritma Proximal Policy Optimization. Other thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 5024201064-Undergraduate_Thesis.pdf] Text
5024201064-Undergraduate_Thesis.pdf - Accepted Version
Restricted to Repository staff only until 1 October 2026.

Download (5MB) | Request a copy

Abstract

Penelitian ini menganalisa dan mengimplementasikan optimasi pengendalian pembentukan
gerombolan robot menggunakan kerangka Markov Decision Process (MDP), dengan fokus
pada penggunaan algoritma Proximal Policy Optimization (PPO). Fokus optimasi terletak pada
waktu training dan seberapa cepat agen mendapatkan reward yang maksimal. Metodologinya
mencakup pengembangan model MDP yang disesuaikan dengan lingkungan spesifik dan di-
ikuti dengan pengujian dan evaluasi kinerja PPO menggunakan robot simulasi, termasuk var-
ian PPO yang dimodifikasi dengan metode ”invalid action masking”. Setelah penelitian di-
lakukan, didapatkan bahwa dengan menggunakan ”invalid action masking” ini, agen dapat
mempelajari lingkungan dengan lebih cepat dan juga mendapat reward yang maksimal lebih
cepat dibandingkan dengan cara konvensional. Evaluasi akan berpusat pada kemampuan men-
capai tujuan swarming, kemampuan beradaptasi terhadap perubahan lingkungan, dan konsis-
tensi dalam menjaga bentuk swarm. Penelitian ini bertujuan untuk mengembangkan algo-
ritma kontrol formasi yang efisien untuk robot swarm dalam lingkungan yang statis, memas-
tikan robot swarm dapat menghindari rintangan secara efektif selama bergerak dalam formasi,
mengoptimalkan durasi training untuk robot swarm agar lebih efisien dibandingkan metode
tradisional, dan mengimplementasikan Markov Decision Process (MDP) dalam kontrol for-
masi robot swarm. Penelitian ini bertujuan untuk mengimplementasikan algoritma PPO dalam
skenario robot swarm, mengurangi durasi training agen dengan mengimplementasikan PPO
dan juga PPO yang ditambahkan masking. Dari serangkaian penelitian yang dilakukan, dida-
patkan hasil dan kesimpulan bahwa dengan mengimplementasikan PPO menggunakan mask
dapat meempercepat durasi dari pelatihan agen sebesar 38% lebih cepat dibandingkan dengan
PPO konvensional, untuk skenario yang dibuat.

========================================================

This research analyzes and implements optimization of controlling the formation of robot
swarms using the Markov Decision Process (MDP) framework, with a focus on the use of the
Proximal Policy Optimization (PPO) algorithm. The focus of optimization lies in training time
and how quickly the agent gets the maximum reward. The methodology includes the develop-
ment of an MDP model adapted to a specific environment and followed by testing and evaluating
the performance of the PPO using a simulation robot, including a modified PPO variant with
the ”invalid action masking” method. After research was carried out, it was found that by using
”nvalid action masking”, agents can learn the environment more quickly and also get maximum
rewards more quickly compared to conventional methods. Evaluation will center on the ability
to achieve swarming goals, ability to adapt to environmental changes, and consistency in main-
taining swarm form. This research aims to develop an efficient formation control algorithm for
swarm robots in a static environment, ensure swarm robots can avoid obstacles effectively while
moving in formation, optimize training duration for swarm robots to make it more efficient than
traditional methods, and implement Markov Decision Process ( MDP) in robot swarm forma-
tion control. This research aims to contribute new insights into the use of MDP and PPO to
control the formation of robot swarms, and potentially expand their application in areas such as
environmental monitoring, search and rescue operations, and area surveillance. Through de-
signed methodology and experiments, this research seeks to increase implementation variations
and expand the application of invalid action masks in the PPO algorithm.

Item Type: Thesis (Other)
Uncontrolled Keywords: Invalid Action Mask, Kontrol Formasi, Markov Decision Process, Robot Swarm, Proximal Policy Optimization.
Subjects: T Technology > T Technology (General) > T57.62 Simulation
T Technology > TJ Mechanical engineering and machinery > TJ211 Robotics.
Divisions: Faculty of Electrical Technology > Computer Engineering > 90243-(S1) Undergraduate Thesis
Depositing User: Muhammad Rafi Raihandika
Date Deposited: 31 Jul 2024 07:35
Last Modified: 31 Jul 2024 07:35
URI: http://repository.its.ac.id/id/eprint/109252

Actions (login required)

View Item View Item