Prayogi, Yanuar Risah (2015) Modifikasi metode ekstraksi fitur mel frequency cepstral coefficient untuk identifikasi pembicara pada lingkungan berderau menggunakan residu endpoint detection. Masters thesis, Institut Teknologi Sepuluh Nopember.
Preview |
Text
5113201031-Undergraduate_Thesis.pdf Download (2MB) | Preview |
Abstract
Salah satu permasalahan pada sistem identifikasi pembicara adalah fitur yang dihasilkan kurang tahan terhadap derau. Di lingkungan berderau, kinerja sistem identifikasi pembicara bisa turun secara signifikan. Hal ini disebabkan oleh perbedaan lingkungan ketika pelatihan dan pengujian. Salah satu metode ekstraksi fitur yang digunakan untuk identifikasi pembicara dan sensitif terhadap derau adalah Mel Frequency Cepstral Coefficient (MFCC). Di lingkungan bersih, kinerja yang dihasilkan oleh metode MFCC sangat tinggi, tetapi turun drastis ketika berada di lingkungan berderau.
Pada penelitian ini diusulkan memodifikasi metode MFCC menggunakan residu dari algoritma deteksi endpoint. Hasil dari algoritma deteksi endpoint adalah speech dan nonspeech (residu). Nonspeech atau residu ini biasanya tidak dipakai pada proses berikutnya. Pada sinyal suara yang berderau, residu dari algoritma deteksi endpoint sebagian besar diisi oleh derau itu sendiri sehingga bisa dijadikan informasi derau. Residu tersebut diekstrak untuk mendapatkan besaran (magnitude) frekuensi derau. Besaran frekuensi derau digunakan untuk menghilangkan derau pada sinyal utama atau speech.
Uji coba menggunakan 5 tipe derau dengan 7 tingkat SNR. Tipe derau yang digunakan adalah f16, hfchannel, pink, volvo, dan white. Sedangkan tingkat SNR yang digunakan adalah bersih, 25, 20, 15, 10, 5, dan 0 dB. Hasil uji coba menunjukkan bahwa metode yang diusulkan unggul pada mayoritas pembicara. Selain itu metode yang diusulkan juga unggul pada semua tipe derau dan unggul hampir pada semua tingkat SNR. Metode yang diusulkan menunjukkan rata-rata akurasi sebesar 14.69% lebih tinggi dari metode MFCC, 2.74% dari MFCC+Spectral Subtraction (SS), dan 6.4% dari MFCC+wiener.
===================================================================================================
One of the problems in the speaker identification system is a feature that generated less resistant to noise. In the noisy environment, the speaker identification system performance can drop significantly. It is caused by environmental differences when training and testing. One feature extraction method used to identify the speaker and sensitive to noise is Mel frequency cepstral coefficient (MFCC). In a clean environment, the performance generated by MFCC method is very high, but dropped dramatically when in the noisy environment.
In this study, we propose to modify the MFCC method using endpoint detection residues. Results of endpoint detection algorithm is speech and nonspeech (residue). Nonspeech or residues are usually not used in the next process. At the noisy signal, the residue of endpoint detection algorithm is filled by the noise itself so that it can be used as information noise. The residue is extracted to get the magnitude of the noisy signal. Magnitude of the noisy signal is used to remove noise on the main signal or speech.
The experiments using 5 types of noise with 7 levels of SNR. The type of noise that used is f16, hfchannel, pink, volvo, and white. While the level of SNR that used is clean, 25, 20, 15, 10, 5, and 0 dB. Experimental results show that the proposed method superior to the majority of the speakers. In addition the proposed method is also superior to all types of noise and superior in nearly all levels of SNR. The proposed method shows the average accuracy 14.69% higher than MFCC, 2.74% higher than MFCC+Spectral Subtraction (SS), and 6.4% higher than MFCC+wiener.
Item Type: | Thesis (Masters) |
---|---|
Additional Information: | RTIf 006.454 Pra m |
Uncontrolled Keywords: | identifikasi pembicara; lingkungan berderau; Mel Frequency Cepstral Coefficient (MFCC); residu endpoint detection |
Subjects: | T Technology > TK Electrical engineering. Electronics Nuclear engineering > TK7895.S65 Speech recognition systems |
Divisions: | Faculty of Information Technology > Informatics Engineering > 55101-(S2) Master Thesis |
Depositing User: | - Taufiq Rahmanu |
Date Deposited: | 17 Oct 2019 08:11 |
Last Modified: | 17 Oct 2019 08:11 |
URI: | http://repository.its.ac.id/id/eprint/71252 |
Actions (login required)
View Item |