Konversi Teks Dari Gambar Ke Suara Berbahasa Indonesia Berbasis Optical Character Recognition (OCR) Dan Text To Speech (TTS) Untuk Aksesibilitas Informasi

Wicaksono, Benedictus Bimo Cahyo (2024) Konversi Teks Dari Gambar Ke Suara Berbahasa Indonesia Berbasis Optical Character Recognition (OCR) Dan Text To Speech (TTS) Untuk Aksesibilitas Informasi. Other thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 5025201097-Undergraduate_Thesis.pdf] Text
5025201097-Undergraduate_Thesis.pdf - Accepted Version
Restricted to Repository staff only until 1 October 2026.

Download (4MB) | Request a copy

Abstract

Teknologi optical character recognition (OCR) dan text to speech (TTS) telah mengalami perkembangan signifikan dalam memberikan solusi bagi aksesibilitas informasi, terutama bagi penyandang disabilitas. Di Indonesia, tantangan aksesibilitas ini dirasakan oleh kelompok masyarakat dengan keterbatasan penglihatan atau kesulitan membaca, yang memerlukan alternatif komunikasi efektif. Penelitian ini mengusulkan implementasi dan integrasi OCR dan TTS sebagai metode untuk mengonversi teks dalam gambar menjadi suara, sehingga memungkinkan penyandang disabilitas untuk mengakses informasi dengan mandiri.
Melalui analisis dataset yang meliputi teks tercetak dan digital, teknologi OCR dikembangkan untuk mengidentifikasi dan mengubah teks dalam gambar menjadi bentuk elektronik. Selanjutnya, TTS dengan Transformer diterapkan untuk mengubah teks elektronik menjadi ucapan alami manusia dalam bahasa Indonesia sehingga mudah untuk dimengerti. Penelitian ini menggunakan metode pembelajaran mesin lanjutan, dengan fokus pada model deep learning seperti PaddleOCR dan Transformer, untuk memproses dan menghasilkan suara manusia yang alami. Hyperparameter tuning dilakukan dengan menggunakan grid search untuk mencari parameter optimal dengan tujuan mendapatkan performa model terbaik.
Pengujian dilakukan dengan menggunakan character error rate (CER), word error rate (WER), dan mean opinion score (MOS). Hasil evaluasi menunjukkan bahwa didapatkan model OCR terbaik dengan CER 11,416, yang diperoleh dengan parameter optimal epoch 50. Untuk model TTS, hasil terbaik diperoleh dengan WER 4,143 dan nilai MOS rata-rata 4,6, dengan parameter optimal berupa learning rate 1e-05, batch size 8, epoch 40, warmup steps 1.000, dan gradient accumulation steps 8. Dengan demikian, sistem ini diharapkan mampu membantu meningkatkan kemandirian aksesibilitas informasi bagi penyandang disabilitas.
========================================================================================================================
The technologies of optical character recognition (OCR) and text to speech (TTS) have seen significant advancements in providing solutions for information accessibility, especially for people with disabilities. In Indonesia, accessibility challenges are felt by communities with visual impairments or reading difficulties, who require effective alternative communication methods. This study proposes the implementation and integration of OCR and TTS as a method to convert text in images into speech, allowing individuals with disabilities to access information independently.
By analyzing datasets that include printed and digital text, OCR technology is developed to identify and convert text in images into electronic form. Subsequently, TTS with Transformer is applied to convert electronic text into natural human speech in Indonesian, making it easy to understand. This research employs advanced machine learning methods, focusing on deep learning models such as PaddleOCR and Transformer, to process and produce natural human voices. Hyperparameter tuning is conducted using grid search to find the optimal parameters aiming for the best model performance.
Testing is carried out using character error rate (CER), word error rate (WER), and mean opinion score (MOS). Evaluation results show that the best OCR model is achieved with a CER of 11.416, obtained with the optimal parameter of 50 epochs. For the TTS model, the best results are obtained with a WER of 4.143 and an average MOS of 4.6, with optimal parameters being a learning rate of 1e-05, batch size of 8, 40 epochs, 1,000 warmup steps, and 8 gradient accumulation steps. Therefore, this system is expected to help improve the independence of information accessibility for people with disabilities.

Item Type: Thesis (Other)
Subjects: T Technology > T Technology (General) > T57.5 Data Processing
Divisions: Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Informatics Engineering > 55201-(S1) Undergraduate Thesis
Depositing User: Benedictus Bimo Cahyo Wicaksono
Date Deposited: 02 Aug 2024 05:57
Last Modified: 02 Aug 2024 05:57
URI: http://repository.its.ac.id/id/eprint/110514

Actions (login required)

View Item View Item