Pengenalan Pelafalan Huruf Hijaiyyah Berbasis Speech-to-text Menggunakan Model Deep Learning

Hafizh, Fayyadh (2024) Pengenalan Pelafalan Huruf Hijaiyyah Berbasis Speech-to-text Menggunakan Model Deep Learning. Other thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 5025201164-Undergraduate_Thesis.pdf] Text
5025201164-Undergraduate_Thesis.pdf - Accepted Version
Restricted to Repository staff only until 1 October 2026.

Download (8MB) | Request a copy

Abstract

Dalam mempelajari bahasa lain khususnya bahasa Arab, Computer Assisted Language Learning (CALL) menjadi salah satu sistem yang dapat membantu selama pembelajaran berlangsung dengan memanfaatkan teknologi yang sedang berkembang saat ini. Deteksi kesalahan pelafalan merupakan salah satu aspek paling krusial dalam Computer-Assisted Language Learning (CALL). Dalam pembelajaran bahasa khususnya bahasa Arab, seringkali orang-orang merasa kesulitan dalam mengetahui kebenaran dari pelafalan huruf hijaiyyah yang mereka lafalkan. Hal serupa juga terjadi pada orang tua atau guru yang kesulitan dalam menentukan metode pembelajaran huruf hijaiyyah kepada anaknya. Maka dari itu, penggunaan CALL dapat membantu mereka yang sedang belajar bahasa Arab dengan memanfaatkan model speech-to-text sebagai tool untuk mengenali pelafalan yang diucapkan. Model speech-to-text dikembangkan dengan menggunakan tiga arsitektur berbasis transformer, antara lain Wav2Vec2, HuBERT, dan SEW-D. Dataset yang digunakan dikumpulkan dari dua sumber yang berbeda dengan jumlah 84 label yang terdiri dari 28 huruf dan 3 harakat atau tanda baca. Fine-tuning dilakukan untuk ketiga model dengan menggunakan dataset yang sudah dibersihkan dari outlier dan dilakukan augmentasi. Terdapat empat skenario pengujian yang dilakukan, antara lain uji coba jenis model beserta augmentasi, uji coba hyperparameter tuning, uji coba k-fold cross validation, dan uji coba pemisahan input. Berdasarkan serangkain pengujian yang telah dilakukan, performa model terbaik jatuh kepada HuBERT dengan augmentasi data dan hyperparameter terbaik untuk learning rate 1e4 dan batch size 32. Hasil terbaik yang didapatkan dengan uji coba k-fold cross validation menggunakan hyperparameter terbaik pada pengujian sebelumnya dengan akurasi 88,7% dan nilai metrik akurasi huruf dan harakat 92,1% untuk klasifikasi pada umumnya. Pengujian model HuBERT terbaik dengan pemisahan input memberikan nilai WER 15% untuk kasus ideal dan 89% untuk kasus yang buruk.
=================================================================================================================================
In learning other languages, especially Arabic, Computer Assisted Language Learning (CALL) is a system that can help during learning by utilizing technology that is currently developing. Detection of pronunciation errors is one of the most crucial aspects in ComputerAssisted Language Learning (CALL). When learning languages, especially Arabic, people often find it difficult to know the correct pronunciation of the hijaiyyah letters that they pronounce. The same thing also happens to parents or teachers who have difficulty determining the method of teaching hijaiyyah letters to their children. Therefore, using CALL can help those who are learning Arabic by utilizing the speech-to-text model as a tool for recognizing spoken pronunciation. The speech-to-text model was developed using three transformer-based architectures, including Wav2Vec2, HuBERT, and SEW-D. The dataset used was collected from two different sources with a total of 84 labels consisting of 28 letters and 3 characters or punctuation marks. Fine-tuning was carried out for the three models using a dataset that had been cleaned of outliers and augmented. There are four test scenarios carried out, including model type and augmentation trials, hyperparameter tuning trials, k-fold cross validation trials, and input separation trials. Based on a series of tests that have been carried out, the best model performance goes to HuBERT with data augmentation and the best hyperparameters for a learning rate of 1e-4 and batch size 32. The best results were obtained with the k-fold cross validation test using the best hyperparameter in the previous test with accuracy 88.7% and the accuracy metric value of letters and syllables is 92.1% for single input classification. Testing the best HuBERT model with input separation gives a WER value of 15% for the ideal case and 89% for the bad case.

Item Type: Thesis (Other)
Uncontrolled Keywords: huruf hijaiyyah, speech recognition, speech-to-text, transformer, deep learning, hijaiyyah letters
Subjects: Q Science > QA Mathematics > QA336 Artificial Intelligence
Q Science > QA Mathematics > QA76.87 Neural networks (Computer Science)
T Technology > T Technology (General) > T57.5 Data Processing
Divisions: Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Informatics Engineering > 55201-(S1) Undergraduate Thesis
Depositing User: Fayyadh Hafizh
Date Deposited: 04 Sep 2024 02:40
Last Modified: 04 Sep 2024 02:40
URI: http://repository.its.ac.id/id/eprint/110504

Actions (login required)

View Item View Item