Nugroho, Budi (2026) Pengembangan Metode Estimasi Pose 6D Berbasis Efficient Feature Pyramid Network Pada Citra RGB Multi Objek Dengan Oklusi. Doctoral thesis, Institut Teknologi Sepuluh Nopember.
|
Text
7025221003_Doctoral.pdf - Accepted Version Restricted to Repository staff only Download (9MB) | Request a copy |
Abstract
Kemampuan untuk melakukan estimasi pose 6D, yang meliputi rotasi 3D dan translasi 3D, menjadi dasar bagi teknologi pintar, seperti kendaraan otonom, robot cerdas, drone autopilot, dan augmented reality, untuk melakukan respon secara tepat saat berinteraksi dengan berbagai objek lain di sekitarnya. Berbagai metode estimasi pose 6D menunjukkan kinerja yang optimal dalam kasus objek tunggal. Sedangkan dalam kasus multi objek dengan oklusi, khususnya pada citra RGB, kinerja berbagai metode masih rendah. Faktor oklusi, di mana sebagian permukaan objek tertutupi oleh objek lainnya, menyebabkan ambiguitas pada prediksi titik-titik objek 3D. Faktor tipe citra RGB yang hanya memiliki informasi warna juga menyebabkan kinerja estimasi pose 6D lebih sulit dilakukan. Berbeda halnya dengan citra RGBD yang dilengkapi dengan informasi kedalaman (depth) yang dapat membantu algoritma prediksi untuk membedakan objek satu dengan objek lainnya. Oleh karena itu, penelitian disertasi ini mengusulkan metode yang mampu mengatasi masalah estimasi pose 6D pada citra RGB multi objek dengan oklusi secara lebih efektif dan efisien. Efektivitas berkaitan dengan akurasi estimasi pose 6D dan efisiensi berkaitan dengan biaya komputasi yang diperlukan untuk pemrosesan. Metode usulan dikembangkan dengan menggunakan arsitektur metode state-of-the-art EfficientPose sebagai baseline. Modifikasi dilakukan pada sejumlah bagian dengan mengusulkan beberapa pendekatan baru, antara lain jaringan EFPYNet (Efficient Feature Pyramid Network) pada bagian fusi fitur untuk mengombinasikan dan menangani sejumlah fitur multiskala secara lebih efisien, jaringan ETNet (akronim dari Enhanced Transformation Network) pada bagian transformasi untuk memprediksi rotasi dan translasi 3D secara lebih efektif, serta teknik pengambilan titik sampel berbasis jarak sistematis (systematic distance-based 3D point sampling) dan fitur (feature-based 3D point sampling) untuk menghasilkan titik sampel yang lebih relevan sebagai masukan dalam prediksi transformasi titik objek untuk pengoptimalan parameter. Berdasarkan hasil uji coba pada dataset LineMod-Occluded, yang relevan dengan ruang lingkup masalah di penelitian ini, varian terbaik dari metode usulan menghasilkan efektivitas sebesar 81,08%. Dibandingkan dengan efektivitas EfficientPose (79,04%), EFPYNet-Pose memiliki margin perbaikan kinerja sebesar 2,04%. Berdasarkan analisis yang menggunakan uji hipotesis T-Statistic, margin perbaikan kinerja ini termasuk signifikan secara statistik. Selain itu, berdasarkan analisis Cohen, metode EFPYNet-Pose menghasilkan dampak yang sangat besar terhadap perbaikan kinerja dibandingkan dengan metode EfficientPose. Dampak tersebut tidak hanya pada perbaikan kinerja secara keseluruhan, tetapi terjadi secara konsisten di semua objek. Secara efisiensi, dibandingkan dengan EfficientPose, metode usulan menunjukkan kinerja yang lebih baik, yaitu 519.170 parameter lebih sedikit, waktu eksekusi 99.261 ms lebih cepat, dan 10,11 frame per second lebih banyak. Dengan demikian, metode usulan menghasilkan kinerja yang lebih efektif dan efisien daripada metode EfficientPose.
===============================================================================================================================
The ability to perform 6D pose estimation, which includes 3D rotation and translation, is the foundation for intelligent technologies, such as autonomous vehicles, intelligent robots, autopilot drones, and augmented reality, to respond appropriately when interacting with various objects around them. Various 6D pose estimation methods show optimal performance in the case of single objects. However, in the case of multi-objects with occlusion, especially on RGB images, the performance of various methods is still low. The occlusion factor, where part of the object's surface is covered by another object, causes ambiguity in predicting 3D object points. The RGB image type factor, which only has color information, also makes 6D pose estimation more difficult to perform. This is different from RGBD images, which are equipped with depth information that can help prediction algorithms distinguish one object from another. Therefore, in this dissertation research, we propose a method that can overcome the problem of 6D pose estimation on RGB images of multi-objects with occlusion more effectively and efficiently. Effectiveness is related to the accuracy of 6D pose estimation and efficiency is related to the computational cost required for processing. We developed the proposed method using the architecture of the state-of-the-art EfficientPose method as a baseline. We made modifications to several parts by proposing several novel approaches, including the EFPYNet (Efficient Feature Pyramid Network) in the feature fusion part to combine and handle multiple multiscale features more efficiently, the ETNet (Enhanced Transformation Network) in the transformation part to predict 3D rotation and translation more effectively, as well as systematic distance-based 3D point sampling and feature-based 3D point sampling techniques to generate more relevant sample points as input in predicting object point transformation for parameter optimization. Based on the experimental results on the LineMod-Occluded dataset, which is relevant to the problem scope of this research, the best variant of the proposed method produces an effectiveness of 81.08%. Compared to the effectiveness of EfficientPose (79.04%), EFPYNet-Pose has a performance improvement margin of 2.04%. Based on the analysis using T-Statistic hypothesis testing, this performance improvement margin is statistically significant. Additionally, based on Cohen's analysis, the EFPYNet-Pose method has a very large impact on performance improvement compared to the EfficientPose method. This impact is not only on overall performance improvement, but also occurs consistently in all objects. In terms of efficiency, compared to EfficientPose, the proposed method shows better performance, with 519,170 fewer parameters, 99.261 ms faster execution time, and 10.11 more frames per second. Thus, the proposed method produces more effective and efficient performance than the EfficientPose method.
| Item Type: | Thesis (Doctoral) |
|---|---|
| Uncontrolled Keywords: | Estimasi pose 6D, Citra RGB multi objek, Oklusi, EFPYNet-Pose, Efektivitas, Efisiensi, 6D pose estimation, multi-object RGB image, Occlusion, EFPYNet-Pose, Effectiveness, Efficiency |
| Subjects: | Q Science > Q Science (General) > Q325.5 Machine learning. Support vector machines. T Technology > TA Engineering (General). Civil engineering (General) > TA1637 Image processing--Digital techniques. Image analysis--Data processing. |
| Divisions: | Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Informatics Engineering > 55001-(S3) PhD Thesis (Comp Science) |
| Depositing User: | Budi Nugroho |
| Date Deposited: | 02 Feb 2026 02:28 |
| Last Modified: | 02 Feb 2026 02:28 |
| URI: | http://repository.its.ac.id/id/eprint/131528 |
Actions (login required)
![]() |
View Item |
