Mulyanto, Edy (2025) Klasifikasi Video Tari Indonesia Menggunakan Transformer Berbasis Tubelet Embedding. Doctoral thesis, Institut Teknologi Sepuluh Nopember.
![]() |
Text
07111860010002-Dissertation.pdf - Accepted Version Restricted to Repository staff only until 1 April 2027. Download (6MB) | Request a copy |
Abstract
Pemrosesan gambar telah secara ekstensif mengatasi tantangan deteksi objek, klasifikasi, pengelompokan, dan segmentasi. Pada saat yang sama, penggunaan komputer yang terkait dengan kumpulan data video yang kompleks memacu berbagai strategi untuk mengklasifikasikan video secara otomatis, terutama dalam mendeteksi tarian tradisional. Model saat ini untuk klasifikasi video, CNN dan RNN tidak mampu menangkap data temporal dengan baik, tidak dapat menangkap ketergantungan jarak jauh dan hubungan global. Ditambah permasalahan overfitting dan inputan video yang berbeda skala dan durasi. Penelitian ini mengusulkan improvement pada pola klasifikasi tarian tradisional dengan mengimplementasikan Video Vision Transformer (ViViT) yang bergantung pada tubelet embedding. Penelitian ini menggunakan IDEEH-10, sebuah dataset video tarian tradisional yaitu tari gambyong, saman, pendet, topeng, barong dan merak. Selain itu, model jaringan saraf tiruan ViViT digunakan untuk klasifikasi video. Representasi video dihasilkan dengan memproyeksikan token spatio-temporal ke lapisan transformer. Selanjutnya, strategi penyematan tubelet digunakan untuk meningkatkan akurasi klasifikasi Video Tari Tradisional. Konsep yang diusulkan memperlakukan video sebagai urutan tubelet yang dipetakan ke dalam penyematan tubelet. Penyematan tubelet akan terkendala jika skala dan durasi data video tidak berimbang. Penelitian ini menambahkan manajemen durasi dan skala tubelet dengan normalisasi berbasis skala dan durasi. Dari hasil pengujian, pendekatan yang diusulkan dapat mengklasifikasikan video tarian tradisional dengan lebih baik dibandingkan dengan metode Long Short Term Memory (LSTM), Gated Recurrent Unit (GRU), dan Recurrent Neural Network (RNN), dengan atau tanpa penyeimbangan data. Hasil percobaan dengan 5 kali eksperimen menunjukkan Loss antara 0.003 hingga 0.011 dengan rata-rata Loss sebesar 0.0058. Eksperimen juga menghasilkan tingkat akurasi antara 98.68 hingga 100 persen, dengan rata-rata akurasi sebesar 99.216. Hasil ini merupakan yang terbaik dari beberapa metode pembanding. ViViT dengan tubeless embedding memiliki tingkat akurasi yang baik dengan losses yang rendah, sehingga dapat digunakan untuk proses klasifikasi video tari.
====================================================================================================================================
Image processing has extensively addressed challenges in object detection, classification, grouping, and segmentation. At the same time, the use of computers associated with complex video datasets has driven various strategies for automatic video classification, particularly in detecting traditional dances. Current models for video classification, such as CNN and RNN, are inadequate in capturing temporal data, failing to capture long-term dependencies and global relationships. Additionally, these models suffer from overfitting issues and varying scales and durations of video inputs. This study proposes an improvement in traditional dance classification patterns by implementing the Video Vision Transformer (ViViT) model, which relies on tubelet embedding. The research uses IDEEH-10, a video dataset of traditional dances, including Gambyong, Saman, Pendet, Topeng, Barong, and Merak dances. Furthermore, the ViViT artificial neural network model is employed for video classification. Video representation is generated by projecting spatio-temporal tokens into transformer layers. Subsequently, a tubelet embedding strategy is applied to enhance the accuracy of traditional dance video classification. The proposed concept treats video as a sequence of tubelets mapped into tubelet embeddings. Tubelet embedding faces constraints when the scale and duration of video data are unbalanced. This study introduces tubelet scale and duration management using scale- and duration-based normalization. The experimental results demonstrate that the proposed approach classifies traditional dance videos more effectively than Long Short-Term Memory (LSTM), Gated Recurrent Unit (GRU), and Recurrent Neural Network (RNN) methods, with or without data balancing. Results from five experimental trials show a loss between 0.003 and 0.011, with an average loss of 0.0058. The experiments also yield an accuracy rate ranging from 98.68% to 100%, with an average accuracy of 99.216%. These results outperform several comparative methods. ViViT with tubelet embedding achieves high accuracy with low losses, making it suitable for traditional dance video classification processes
Item Type: | Thesis (Doctoral) |
---|---|
Uncontrolled Keywords: | Video Vision Transformer, Tubelet Embedding, Klasifikasi video, Video Classification |
Subjects: | T Technology > T Technology (General) |
Divisions: | Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Electrical Engineering > 20001-(S3) PhD Thesis |
Depositing User: | Edy Mulyanto |
Date Deposited: | 21 Jan 2025 00:57 |
Last Modified: | 21 Jan 2025 00:59 |
URI: | http://repository.its.ac.id/id/eprint/116474 |
Actions (login required)
![]() |
View Item |