Explainable Sentiment Lexicon Embedding dengan Bidirectional Encoder Representations from Transformers untuk Deteksi Kebohongan Bahasa Lisan

Haq, Thoha Ikhwanul (2025) Explainable Sentiment Lexicon Embedding dengan Bidirectional Encoder Representations from Transformers untuk Deteksi Kebohongan Bahasa Lisan. Masters thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 6025231011-Master_Thesis.pdf] Text
6025231011-Master_Thesis.pdf - Accepted Version
Restricted to Repository staff only

Download (3MB)

Abstract

Klasifikasi biner antara kejujuran dan kebohongan merupakan salah satu hambatan dalam penyelidikan kriminal, karena pernyataan yang diberikan terdakwa tidak sepenuhnya benar maupun sepenuhnya salah. Ambiguitas dalam tingkat kejujuran suatu pernyataan tersebut memerlukan penggunaan metode yang lebih mendalam, seperti model yang dapat dijelaskan (explainable models). Explainable models, khususnya SHapley Additive exPlanations (SHAP), dapat membantu menganalisis pernyataan secara rinci serta mempersempit ruang lingkup informasi untuk keperluan investigasi yang lebih menyeluruh.
Data yang digunakan dalam penelitian ini berasal dari Miami University Deception Database, yang terdiri atas berbagai pernyataan beserta derajat kejujurannya, dan dianalisis berdasarkan fitur linguistiknya. Penelitian ini menggunakan Bidirectional Encoder Representations from Transformers (BERT) Embeddings untuk memperoleh pemahaman kontekstual terhadap pernyataan, serta Sentiment Lexicons untuk memberikan pengetahuan yang spesifik terhadap domain kebohongan. Hasil penelitian menunjukkan bahwa embedding 2-Gram menghasilkan nilai koefisien determinasi (R²) tertinggi, dengan kemampuan menangkap konteks lebih baik dibandingkan embedding 1-Gram, serta lebih umum dan stabil dibandingkan embedding 3-Gram dan 4-Gram. Setiap varian dari BERT Embedding terbukti secara signifikan lebih efektif dibandingkan embedding kata umum seperti GloVe, Word2Vec, dan FastText.
Nilai SHAP mampu mengidentifikasi derajat kejujuran kata-kata dalam sebuah pernyataan dan memfokuskan perhatian pada bagian-bagian yang bersifat krusial dalam pengambilan keputusan. Hasil ini menunjukkan potensi indikator bahasa yang mengarah pada kejujuran atau penipuan, seperti kata "something" dan "our". Hasil ini dapat membantu manusia untuk memfokuskan perhatian pada aspek-aspek utama dalam proses investigasi dan intervensi.

===
The binary classification of truth versus lies can hinder criminal investigations, as statements are often deliberately constructed to be neither entirely true nor entirely false. This ambiguity in veracity requires a more nuanced analytical approach. Explainable models such as SHapley Additive exPlanations (SHAP) offer valuable insight by breaking down statements and identifying key components, thereby enabling a more focused and effective investigation.
This study analyses data from the Miami University Deception Database, which contains a range of statements annotated for veracity, focusing on their linguistic characteristics. To enhance contextual understanding, Bidirectional Encoder Representations from Transformers (BERT) embeddings are used, while sentiment lexicons are integrated to incorporate domain-specific insights.
The results indicate that the 2-Gram embedding achieved the highest R² (coefficient of determination), effectively capturing more contextual information than the 1-Gram embedding while maintaining greater generality than the 3-Gram and 4-Gram variants. All BERT embedding variants significantly outperformed traditional word embeddings such as GloVe, Word2Vec, and FastText. Additionally, SHAP values was effective in identifying critical elements within statements by isolating key decision-making and influential components.
These results reveal potential linguistic indicators of deception or truthfulness, such as the words “something” and “our”. Identifying such key terms can assist investigators in narrowing their focus to critical areas for further examination and intervention.

Item Type: Thesis (Masters)
Subjects: H Social Sciences > HM Sociology > HM24 Social prediction.
Q Science > QA Mathematics > QA336 Artificial Intelligence
T Technology > T Technology (General)
T Technology > T Technology (General) > T57.5 Data Processing
Divisions: Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Informatics Engineering > 55101-(S2) Master Thesis
Depositing User: Thoha Ikhwanul Haq
Date Deposited: 04 Aug 2025 11:26
Last Modified: 04 Aug 2025 11:26
URI: http://repository.its.ac.id/id/eprint/124969

Actions (login required)

View Item View Item