Pengenalan Alfabet Dalam Bahasa Isyarat Berbasis Graph Convolutional Network Pada Data Video

Nafis, Ayas Faikar (2021) Pengenalan Alfabet Dalam Bahasa Isyarat Berbasis Graph Convolutional Network Pada Data Video. Masters thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 6025201036-Master_Thesis.pdf] Text
6025201036-Master_Thesis.pdf - Accepted Version
Restricted to Repository staff only until 1 October 2023.

Download (3MB) | Request a copy

Abstract

Bahasa isyarat merupakan sarana komunikasi yang sangat penting bagi tunarungu dan tunawicara. Sehingga dibutuhkan pengenalan bahasa isyarat secara otomatis oleh komputer agar orang non-difabel dapat mengerti bahasa isyarat yang dilakukan.
Penelitian mengenai pengenalan bahasa isyarat sudah banyak dilakukan, salah satunya pengenalan alfabet bahasa isyarat menggunakan metode deep learning dengan Convolutional Neural Network (CNN). Namun CNN tidak dapat merepresentasikan struktur data kerangka yang memiliki bentuk seperti graph. Graph Convolutional Network (GCN) merupakan generalisasi dari CNN yang dapat melakukan ekstraksi fitur dari graph di ruang non-Euclidean. GCN banyak digunakan dalam penelitian pengenalan aksi berbasis kerangka seperti metode Shift-GCN. Non-local shift graph operation merupakan salah satu dari spatial shift graph yang diusulkan pada Shift-GCN yang memungkinkan setiap fitur dari vertex di-shift ke vertex lain yang menyebabkan setiap vertex memiliki hubungan yang sama sehingga tidak ada perbedaan antara vertex yang bertetangga langsung dengan vertex lainnya.
Oleh karena itu, penelitian ini mengusulkan modifikasi pada non-local shift graph operation pada Shift-GCN dengan melakukan pembobotan jumlah shifting berdasarkan ketertanggaan antar vertex sehingga jumlah fitur hasil shifting dari vertex yang bertetangga langsung lebih banyak dibanding vertex lainnya yang menyebabkan relasi antar vertex yang bertetangga langsung lebih kuat dibanding vertex lainnya. Penelitian ini menggunakan domain pengenalan alfabet dalam bahasa isyarat dengan pendekatan posisi tulang dan sendi pada tangan yang diestimasi oleh MediaPipe Hands dan menghasilkan data kerangka seperti bentuk tulang dan sendi tangan yang bebentuk seperti graph. Graph tersebut diproses menggunakan Shift-GCN yang telah dimodifikasi. Dataset yang digunakan pada penelitian ini adalah data video dari 26 alfabet dalam bahasa isyarat SIBI yang diambil dengan kamera sendiri. Pengukuran kinerja dilakukan dengan menggunakan perhitungan akurasi dan jarak Levenshtein. Berdasarkan hasil eksperimen, metode yang diusulkan mendapatkan akurasi terbaik sebesar 99.962%.
=========================================================
Sign language is one way for non-disabled people to communicate with the deaf and mute. Automatic recognition of sign language by a computer is needed so that non-disabled people can understand what they said.
Convolutional Neural Network (CNN) is one method that is widely used in sign language alphabet recognition research. However, CNN cannot represent a graph of the skeleton data structure. One solution to this problem is to use the Graph Convolutional Network (GCN) which can perform feature extraction from the graph. Shift-GCN is one of the GCN-based methods used in skeleton-based action recognition research. The non-local shift graph operation is one of the spatial shift graphs proposed in Shift-GCN which allows every feature of a vertex to be shifted to another vertex causing each vertex to have the same relationship so that there is no difference between the vertices that are directly adjacent to the vertex. other.
Therefore, this study proposes a modification to the non-local shift graph operation in Shift-GCN by weighting the number of shifts so that the number of shifting features from the directly adjacent vertex is more than the other vertices, which causes the relationship between the vertices that are directly neighboring to be stronger than the vertex. other vertices. This study uses the domain of alphabet recognition in sign language with an approach to the position of bones and joints in the hand which is estimated by MediaPipe Hands and produces graph-like skeletal data. The graph is processed using a modified Shift-GCN. The dataset used in this study is video data of 26 alphabets in SIBI sign language taken with the author’s camera. Performance measurement is done using the calculation of accuracy and Levenshtein distance. The proposed method gets the best accuracy of 99.962%.

Item Type: Thesis (Masters)
Uncontrolled Keywords: bahasa isyarat, pengenalan alfabet, Graph Convoutional Network, Shift-GCN, data skeletal, sign language, alphabet recognition, Graph Convolutional Network, Shift-GCN, skeletal data
Subjects: Q Science > Q Science (General) > Q325.5 Machine learning.
Q Science > QA Mathematics > QA336 Artificial Intelligence
Q Science > QA Mathematics > QA76.87 Neural networks (Computer Science)
R Medicine > R Medicine (General) > R858 Deep Learning
Divisions: Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Informatics Engineering > 55101-(S2) Master Thesis
Depositing User: Ayas Faikar Nafis
Date Deposited: 12 Aug 2021 14:02
Last Modified: 12 Aug 2021 14:02
URI: http://repository.its.ac.id/id/eprint/86155

Actions (login required)

View Item View Item