Zahra, Tsania Az (2023) Pengembangan Sistem Penerjemah Visual-To-Speech Pada Sistem Isyarat SIBI Dengan Metode Long Short-Term Memory. Other thesis, Institut Teknologi Sepuluh Nopember.
Text
05111940000032-Undergraduate_Thesis.pdf - Accepted Version Restricted to Repository staff only until 1 September 2025. Download (8MB) | Request a copy |
Abstract
Ketidakmampuan masyarakat non-penyandang dalam memahami pesan yang disampaikan oleh tunarungu dan atau tunawicara merupakan gap dalam komunikasi efektif. Pengetahuan dan kesadaran yang minim oleh masyarakat non-penyandang dalam mempelajari isyarat merupakan hal-hal yang mendasari permasalahan ini. Maka diperlukan adanya jembatan yang menghubungkan antara kurangnya pemahaman masyarakat terhadap bahasa isyarat dan keinginan penyandang tunarungu dan tunawicara untuk berkomunikasi. Visual-to-speech merupakan manifestasi dari teknologi kecerdasan buatan dimana pengenalan gerakan dari input berupa citra dapat diterjemahkan ke dalam output berupa audio. Teknologi ini dapat menjadi solusi tepat guna sebagai jembatan komunikasi dua arah bagi tunawicara dan tunarungu terhadap masyarakat non-penyandang dengan menciptakan kesan komunikasi verbal. Sistem ini dirancang dan dibangun dalam bentuk antarmuka aplikasi desktop yang didukung oleh Mediapipe dan Google Text-to-Speech. Sistem ini bekerja dengan mekanisme deteksi gerak isyarat per kata yang disusun dalam bentuk kalimat yang terdiri dari maksimal 8 kata dan diikuti dengan output berupa prediksi dalam bentuk teks dan diakhiri dengan konversi teks dalam bentuk audio. Pada penelitian ini dilakukan pengujian terhadap 50 kelas dengan 900 dataset kata dasar bahasa isyarat SIBI. Normalisasi dilakukan sebagai tahap praproses untuk menstandardisasi data dan augmentasi dilakukan untuk menghasilkan data latih yang dapat meningkatkan kapasitas model. Teknik augmentasi yang digunakan merupakan translasi keypoints ke 4 arah yaitu kanan, kiri, atas dan bawah frame. Metode yang digunakan adalah LSTM dan BiLSTM dengan hasil pengujian terakhir dipilih satu dari keduanya yang memiliki performa terbaik. Hyperparameter Tuning juga dilakukan untuk mencari hyperparameter terbaik sebagai penyusun arsitektur model. Pada percobaan ini didapatkan bahwa LSTM mengungguli metode BiLSTM sedikit lebih baik dengan performa akurasi 53%, macro f1-score 51% dan weighted f1-score 51%. Hasil ini diperoleh dengan indikator data sudah dilakukan normalisasi dan augmentasi serta menggunakan arsitektur dengan hyperparameter terbaik.
======================================================================================================================================
The inability of non-disabled individuals to understand messages conveyed by individuals who are deaf and/or speech-impaired is a gap in effective communication. Limited knowledge and awareness among non-disabled individuals regarding sign language are underlying factors contributing to this issue. Therefore, a connecting line is needed to mediate the lack of understanding of sign language with the desire of individuals who are deaf and speech-impaired to communicate. Visual-to-speech is a manifestation of artificial intelligence technology where the recognition of movements from image inputs can be translated into audio outputs. This technology can serve as a two-way communication bridge between individuals who are speech-impaired or deaf and the non-disabled individuals by creating the impression of verbal communication. The system is designed and built as a desktop application interface supported by Mediapipe and Google Text-to-Speech. The system operates through real-time detection of hand movements, organizing them into sentences consisting of a maximum of 8 words, and providing output in the form of motion interpretation in text format, followed by conversion of the text into audio. This study conducted identifying on 50 classes with 900 datasets of basic sign language words in SIBI. Normalization was performed as a preprocessing step to standardize the data, and augmentation was implemented to generate training data that can enhance the model's capacity. The augmentation technique used involved translating keypoints in four directions: right, left, up, and down the frame. The methods implemented are LSTM and BiLSTM, and the final testing results led to selecting the one with the best performance. Hyperparameter tuning was also conducted to find the optimal hyperparameters for the model. In this experiment, it was found that LSTM slightly outperformed BiLSTM with an accuracy of 53%, macro-f1 score of 51%, and weighted-f1 score of 51%. These results were obtained when the data had been normalized and augmented, and the architecture with the best hyperparameters was utilized.
Item Type: | Thesis (Other) |
---|---|
Uncontrolled Keywords: | LSTM, Pengenalan Citra, Visual-to-Speech, Normalisasi, Bahasa Isyarat, Image Recognition, Visual-to-Speech, Normalization, Sign Language |
Subjects: | T Technology > T Technology (General) T Technology > T Technology (General) > T57.5 Data Processing T Technology > T Technology (General) > T58.62 Decision support systems |
Divisions: | Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Informatics Engineering > 55201-(S1) Undergraduate Thesis |
Depositing User: | Tsania Az Zahra |
Date Deposited: | 07 Aug 2023 06:59 |
Last Modified: | 07 Aug 2023 06:59 |
URI: | http://repository.its.ac.id/id/eprint/102673 |
Actions (login required)
View Item |