Sintesis Ucapan (Natural Speech Synthesis) Ekspresif Bahasa Indonesia Berbasis Hidden Markov Model (HMM)

Anggrayni, Elok (2019) Sintesis Ucapan (Natural Speech Synthesis) Ekspresif Bahasa Indonesia Berbasis Hidden Markov Model (HMM). Masters thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 02311550010007_Master_Thesis.pdf] Text
02311550010007_Master_Thesis.pdf - Accepted Version
Restricted to Repository staff only until 1 October 2025.

Download (5MB) | Request a copy

Abstract

HMM-based speech synthesis system (HTS) telah dikembangkan di beberapa negara seperti Jepang, Inggris, Vietnam, dan Pakistan. Bahasa Indonesia tergolong sebagai under-resourced language karena penggunaannya dalam bidang komunikasi digital masih kurang. Pada penelitian ini dibuat sistem sintesis suara Bahasa Indonesia berbasis Hidden Markov Model (HMM) pada basis data ekspresif dengan memperhatikan unsur prosodi. Teknik HMM dipakai untuk pemodelan fitur akustik untuk menghasilkan bunyi ujaran sekaligus memodelkan perangkaian fitur akustik tersebut hingga menjadi bunyi ujaran yang memiliki makna utuh sebagai kalimat. Sintesis suara ucapan ekspresif berbasis HMM diaplikasikan untuk ekspresi bahagia, marah dan sedih dengan gaya berbicara yang dapat dimodelkan dengan baik menggunakan algoritma dan training yang sama dengan pengolahan sintesis suara ucapan natural tanpa modifikasi apapun. Selain itu, untuk fitur spektral dan prosodi secara langsung dan bersamaan dimodelkan menggunakan HMMs sehingga dapat dilakukan modifikasi parameter dan menambahkan karakteristik baru dalam sintetis suara ekspresif. Dalam penelitian ini diperoleh basis data ekspresif dalam bahasa Indonesia sejumlah 655 kalimat yang sesuai dengan kaidah keseimbangan fonetik (phonetically balanced). Eksperimen dilakukan menggunakan 2 basis data pembicara pada proses pelatihan (fyat dan mdpa) dengan beberapa variasi kalimat pelatihan untuk mensintesis 50 kalimat. Variasi diberikan pada jenis gaya emosional dan jumlah kalimat pelatihan untuk mengetahui perubahan dan nilai kualitas sinyal suara dari masing-masing gaya emosional. Suara sintesis dibangkitkan dengan metode speaker dependent (SD). Kualitas sintesis suara diuji berdasarkan pengujian subjektif dan objektif. Pengujian objektif dengan metode Mel-Cepstral Distortion (MCD) pada log frekuensi dasar menunjukkan hasil terbaik untuk intonasi bahagia, marah, dan memiliki nilai sebesar 5.94, 4.56, dan 5.09. Pengujian subjektif dilakukan dengan metode Mean Opinion Score (MOS) dan preference test yang diberikan kepada 14 orang naracoba. Nilai MOS terbaik untuk intonasi bahagia, marah, dan sedih diperoleh nilai tertinggi, yaitu 2.65/5.00, 2.91/5.00, dan 4.09/5.00. Nilai preference test terbaik untuk intonasi bahagia, marah, dan sedih diperoleh nilai tertinggi, yaitu 77%, 61%, dan 82%. Hasil uji objektif dan subjektif menunjukkan bahwa kualitas suara sintesis yang dihasilkan masih buruk, dimana suara yang dihasilkan terasa mengganggu untuk didengarkan namun tidak menghilangkan makna dari kalimat yang diujarkan.
=================================================================================================================================
HMM-based speech synthesis system (HTS) has been applied in several countries, such as Japan, English, Vietnam, and Pakistan. Bahasa Indonesia is categorized as under-resourced language because the development itself in digital communication is still rare. This research aims to develop of HMM-based speech synthesis system applied to Bahasa Indonesia expressive speech scorpus with considering prosody information. Hidden Markov Model (HMM) technique is used for modeling acoustic features to produce speech synthesis. It is also for modeling the acoustic feature to become speech synthesis system that have full meaning as sentences. HMM-based expressive speech synthesis system applied to happiness, anger, and sadness with speaking style which can be modeled properly using same algorithm and training as well as natural speech synthesis system without any modification. Spectral and prosody features are simultaneously modeled using HMMs so that parameters can be modified and added new characteristics in expressive speech synthesis system. We constructed 655 expressive Bahasa Indonesia speech corpus based on the phonetically balanced in which contains speech database and its transcription. The experiment is using two training speakers (fyat and mmht) with some variation in the number of sentences and the type of sentence which used in the the training part to synthesize 25 sentences. The generated speech utterances were then evaluated to determine its naturalness. The synthesized speech is generated using Speaker Dependent (SD). After the synthetic voice were synthesized, we evaluate using objective and subjective test to measure the synthesized speech quality. In objective test is using Mel-Cepstral Distortion (MCD) method earn the best score for happiness, anger, and sadness with score 5.94, 4.56, and 5.09, respectively. Subjective test with Mean Opinion Score (MOS) and preference test are assessed by fourteen respondents. The result of MOS for happiness, anger, and sadness are 2.65/5.00, 2.91/5.00, dan 4.09/5.00, respectively. The best result of preference test for happiness, anger, and sadness are 77%, 61%, and 82%. The result shown that synthesized expressive speech is slightly annoying but not affect the meaning of the sentence.

Item Type: Thesis (Masters)
Uncontrolled Keywords: Bahasa Indonesia, Hidden Markov Model (HMM), HMM-based speech synthesis system (HTS), sintesis suara ekspresif Bahasa Indonesia, expressive speech synthesis system
Subjects: T Technology > TK Electrical engineering. Electronics Nuclear engineering > TK5102.9 Signal processing.
Divisions: Faculty of Industrial Technology and Systems Engineering (INDSYS) > Physics Engineering > 30101-(S2) Master Thesis
Depositing User: Elok Anggrayni
Date Deposited: 12 Jul 2023 08:11
Last Modified: 12 Jul 2023 08:11
URI: http://repository.its.ac.id/id/eprint/98435

Actions (login required)

View Item View Item