Permasalahan Diskriminasi Gender pada Ekstraksi Fitur Berita Kriminalitas Online di Indonesia Menggunakan Debiasing Word Embedding

Sulastri, Miftakhul Janah (2024) Permasalahan Diskriminasi Gender pada Ekstraksi Fitur Berita Kriminalitas Online di Indonesia Menggunakan Debiasing Word Embedding. Masters thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 6026221024-Master_Thesis.pdf] Text
6026221024-Master_Thesis.pdf - Accepted Version
Restricted to Repository staff only until 1 October 2026.

Download (3MB) | Request a copy

Abstract

Isu gender merupakan permasalahan global yang memerlukan perhatian serius, termasuk dalam konteks kriminalitas. Data menunjukkan Asia dan Afrika merupakan wilayah dengan tingkat kekerasan tertinggi terhadap perempuan, begitupun di Indonesia kasus kekerasan terhadap perempuan meningkat pada tahun 2021. Dalam era informasi digital, media berita memiliki peran penting dalam membentuk pandangan masyarakat mengenai isu-isu gender. Penggambaran mengenai gender pada pelaku dan korban dalam berita tersebut dapat memicu munculnya stereotipe masyarakat terhadap gender tertu dan memungkinkan adanya diskriminasi terhadap gender. Model word embedding dalam analisis dan deteksi bias cukup sering digunakan. Oleh karena itu, Penelitian ini bertujuan untuk mengurangi bias yang muncul pada dataset dalam hasil ekstraksi fitur berupa vector representasi kata. Ekstraksi fitur menggunakan model FastText dan Word2Vec untuk menghasilkan vektor pada setiap representasi gender dari teks berita. Identifikasi bias pada vektor representasi gender menggunakan visualisasi PCA, perhitungan gender portion, dan analogi kata, menunjukkan adanya bias yang mengarah pada salah satu gender. Sehingga untuk mengatasi hal tersebut, diterapkan metode hard debiasing dengan menyamakan jarak kesamaan pada vektor yang selanjutnya diterapkan normalisasi dan equalisasi. Evaluasi hasil representasi kata sebelum dan sesudah debiasing menunjukkan untuk gender portion dengan visualisasi PCA mampu mengurangi kecondongan gender dengan nilai yang hampir seimbang yaitu diantara 49% untuk “lakilaki” atau “perempuan” dan 51% untuk “lakilaki” atau “perempuan”. Akurasi perubahan gender portion setelah debiasing adalah 84% untuk Word2Vec dan 83% untuk FastText. Namun analogi kata tidak cocok digunakan untuk evaluasi pada penelitian ini.
=====================================================================================================================================
Gender issues are a global problem that requires serious attention, including in the context of criminality. Data shows that Asia and Africa are regions with the highest levels of violence against women, and in Indonesia, cases of violence against women increased in 2021. In the digital information era, news media play a crucial role in shaping public views on gender issues. The depiction of gender concerning perpetrators and victims in news can trigger the emergence of societal stereotypes and potentially lead to gender discrimination. Word embedding models are often used in bias analysis and detection. Therefore, this research aims to reduce bias in datasets resulting from feature extraction in the form of word representation vectors. Feature extraction uses FastText and Word2Vec models to produce vectors for each gender representation from news texts. Bias identification in gender representation vectors using PCA visualization, gender portion calculation, and word analogy reveals a bias towards one gender. To address this, hard debiasing methods are applied by equalizing similarity distances in vectors, followed by normalization and equalization. Evaluation of word representations before and after debiasing shows that for gender portion with PCA visualization, it is possible to reduce gender bias to a nearly balanced value, around 49% for “male” or “female” and 51% for “male” or “female”. The accuracy of gender portion changes after debiasing is 84% for Word2Vec and 83% for FastText. However, word analogy is not suitable for evaluation in this research.

Item Type: Thesis (Masters)
Uncontrolled Keywords: FastText, Word2Vec, Fairness in Gender, Hard Debiasing, Gender Portion, Analogi
Subjects: T Technology > T Technology (General)
T Technology > T Technology (General) > T57.5 Data Processing
T Technology > T Technology (General) > T57.74 Linear programming
T Technology > T Technology (General) > T59.7 Human-machine systems.
Divisions: Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Information System > 59101-(S2) Master Thesis
Depositing User: Miftakhul Janah Sulastri
Date Deposited: 28 Jul 2024 12:20
Last Modified: 28 Jul 2024 12:20
URI: http://repository.its.ac.id/id/eprint/109167

Actions (login required)

View Item View Item