Klasifikasi Emosi Suara Manusia Menggunakan Metode Extreme Learning Machine dan Extreme Gradient Boosting

Ainurrochman, Ainurrochman (2024) Klasifikasi Emosi Suara Manusia Menggunakan Metode Extreme Learning Machine dan Extreme Gradient Boosting. Masters thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 6025202001-Master_Thesis.pdf] Text
6025202001-Master_Thesis.pdf - Accepted Version
Restricted to Repository staff only until 1 October 2026.

Download (2MB) | Request a copy

Abstract

Penggunaan emosi suara untuk mendeteksi jenis emosi suara manusia mulai
dikembangkan. Hal ini dapat dilakukan karena setiap suara yang diucapkan oleh
manusia selalu memiliki sebuah gambaran emosi yang sedang dialami. Deteksi
emosi suara ini bertujuan untuk menganalisa jenis suara manusia berdasarkan
emosinya dan dapat dikembangkan kedalam model sistem rawat pasien jarak jauh
untuk mendeteksi tingkat dan jenis emosi pasien.
Data TESS (Toronto Emotional Speech Set) digunakan sebagai data yang
akan dianalisa. Data ini berisikan 200 kata yang diucapkan oleh dua aktris berusia
26 dan 64 tahun dengan mengekspresikan tujuh jenis emosi (anger, disgust, feat,
happiness, pleasant surprise, sadness, and neutral) pada masing-masing kata. Data
inilah yang diolah dan dijadikan sebagai Knowledge Base dan uji implementasi
untuk membuktikan tingkat akurasi model. Deteksi emosi suara dilakukan dengan
menggunakan 5 fitur suara dalam proses identifikasi, antara lain Energy, MFCC
(Mel Frequency Cepstral Coefficients), Intensity, Jitter, Shimmer dan Harmonics-
toNoise. Fitur suara didapatkan dengan melakukan proses ekstraksi menggunakan
library librosa dan parselmouth yang kemudian disimpan kedalam bentuk file csv.
Data fitur yang terekstrak dinormalisasi menggunakan fungsi
StandardScaler. Deep Learning ELM (Extreme Learning Machine) digunakan
untuk mendapatkan nilai probabilitas pada setiap jenis emosi, lalu diekstrak
kembali menjadi sebuah fitur baru yaitu fitur utterance-level. Fitur utterance-level
kemudian dijadikan fitur tambahan untuk diprediksi dengan menggunakan fungsi
viii
klasifikasi XGBoost (Extreme Gradient Boosting) untuk mengklasifikasi jenis
emosi suara. Pada beberapa penelitian sebelumnya, teknik pengenalan suara yang
serupa digunakan untuk mengidentifikasi jenis emosi suara menggunakan dataset
IEMOCAP (The Interactive Emotional Dyadic Motion Capture) dataset, ELM,
utterance-level dan kernel ELM sebagai fungsi klasifikasi dengan variasi fitur yang
menghasilkan nilai akurasi tertinggi sebesar 82.18%. Adapun penelitian
sebelumnya yang menyebutkan bahwa penggunaan XGBoost dapat meningkatkan
performa komputasi pada proses klasifikasi. Oleh sebab itu, dengan menggunakan
TESS dataset, dan menerapkan teknik ELM, utterance-level, dan memprediksi
emosi menggunakan fungsi klasifikasi XGBoost serta pemilihan fitur yang relatif
signifikan dengan emosi suara manusia dalam studi ini dapat meningkatkan tingkat akurasi dan dapat diadopsi dengan mudah. Hasil dari penelitian menunjukkan bahwa metode ELM-XGBoost dengan menggunakan fitur utterance-level sebagai fitur tambahan dapat mendapatkan nilai akurasi model sebesar 99.59% dengan nilai F1 Score sebesar 99.59% dan nilai akurasi uji implementasi sebesar 100% dengan menggunakan 140 data file suara.
=======================================================================================================================
The use of voice emotion to identify human speech emotion was starting to
develop. This can be done because every speech spoken by humans always has a
picture of the emotion that is being experienced. This voice emotion detection aims
to analyze the types of human voices based on their emotions and can be developed
into a remote patient care system to detect the level and type of patient emotion.
TESS data (Toronto Emotional Speech Set) was used as data to be analyzed.
This data contains 200 words uttered by two actresses aged 26 and 64 by expressing
seven types of emotions (anger, disgust, fear, happiness, pleasant surprise, sadness,
and neutral) in each word. This data is processed and used as Knowledge Base and
implementation test to prove the level of accuracy of the model. Voice emotion
detection is done by using 5 voice features in the identification process, including
Energy, MFCC (Mel Frequency Cepstral Coefficients), Intensity, Jitter, Shimmer,
and Harmonics-toNoise. Speech features are obtained by carrying out an extraction
process using the librosa and parselmouth libraries which saved into csv files.
Extracted feature data goes to the normalization process using the
StandardScaler function. Deep Learning ELM (Extreme Learning Machine) is used
to get probability values for each type of emotion, then extracted back into a new
feature called utterance-level feature. The utterance-level feature is the feature that
we are using for the prediction process by XGBoost (Extreme Gradient Boosting)
classification function to classify the speech emotion types. In several previous
studies, a similar speech recognition technique was used to identify the type of voice
x
emotion using the IEMOCAP (The Interactive Emotional Dyadic Motion Capture)
dataset, ELM, utterance-level, and the ELM kernel as a classification function with
sufficient feature and variations which resulted the in the highest accuracy value of
82.18%. The previous research stated that the use of XGBoost can improve
computational performance in the classification process. Therefore utilizing TESS
dataset and applying ELM, utterance-level, predicting emotions with XGBoost
classification, and selecting features that are relatively significant to human voice
emotions in this study can increase the level of accuracy and can be adopted easily.
The results of the research show that the ELM-XGBoost method using the
utterance-level feature as an additional feature can get a model accuracy value of
99.59% with an F1 Score value of 99.59% and an implementation test accuracy
value of 100% using 140 sound file data.

Item Type: Thesis (Masters)
Uncontrolled Keywords: Extreme Gradient Boosting, Extreme Learning Machine, Klasifikasi Emosi Suara, Toronto Emotional Speech Test, Utterance-level, Speech Emotion Analysis
Subjects: T Technology > T Technology (General)
Divisions: Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Informatics Engineering > 55101-(S2) Master Thesis
Depositing User: Ainurrochman Ainurrochman
Date Deposited: 06 Aug 2024 04:26
Last Modified: 06 Aug 2024 04:26
URI: http://repository.its.ac.id/id/eprint/111736

Actions (login required)

View Item View Item