Recognizing Textual Entailment pada Bahasa Indonesia Menggunakan Bidirectional Long Short-Term Memory dengan Word-Pair-Dependency

Putra, I Made Suwija (2024) Recognizing Textual Entailment pada Bahasa Indonesia Menggunakan Bidirectional Long Short-Term Memory dengan Word-Pair-Dependency. Doctoral thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 7025211013-Dissertation.pdf] Text
7025211013-Dissertation.pdf - Accepted Version
Restricted to Repository staff only

Download (13MB) | Request a copy

Abstract

Bahasa Indonesia memiliki variasi kosa kata dan bentuk sintaksis yang beragam, sehingga menjadi salah satu bahasa yang banyak digunakan. Kekayaan Bahasa Indonesia ini bisa menjadi tantangan dalam pengembangan teknologi Natural Language Processing (NLP), terutama dalam tugas mengidentifikasi hubungan antara fragmen teks yang berbeda penulisannya namun memiliki makna yang sama. Dalam bidang NLP, tugas ini disebut Recognizing Textual Entailment (RTE). Penelitian RTE pada Bahasa Indonesia sudah dimulai pada tahun 2018. Namun, saat ini tingkat identifikasi entailment masih berada di tingkat permukaan kata (leksikal). Dengan demikian, hasilnya kemungkinan menjadi bias ketika aplikasi NLP menemui penulisan kalimat yang menggunakan variasi rangkaian kata (sintaksis). Penelitian ini mengajukan pendekatan RTE pada Bahasa Indonesia dengan menggunakan arsitektur deep learning untuk menghasilkan model pembelajaran RTE. Arsitektur terdiri dari rangkaian proses yang diawali dengan pembentukan input menjadi rangkaian kata (word-pair-dependency) di masing-masing fragmen kalimat, yaitu kalimat premis (P) dan hipotesis (H). Proses word-pair-dependency menghasilkan individu-individu Biplet (head-dependent) yang selanjutnya diproses circular padding sebelum masuk ke sentence encoding layer untuk diubah menjadi vektor fitur kata menggunakan word embedding Glove 50 dimensi. Vektor fitur selanjutnya diproses individual cross-comparisons antar Biplet (h-d) di P dan H untuk membentuk vektor baru yang mempertahankan unsur sintaksis antar kalimat. Vektor baru yang terbentuk selanjutnya diproses alignment cross-comparison di matching layer sebelum dipelajari oleh Bidirectional Long Short-Term Memory (BiLSTM) sebagai algoritma pembelajaran neural network dua arah, dengan optimasi penyesuaian bobot oleh multi-head attention mechanism di information aggregation layer. Classifier layer merupakan bagian akhir arsitektur akan menarik kesimpulan melalui fungsi aktivasi Softmax. Percobaan dikerjakan dengan menggunakan dataset yang dibangun di penelitian ini, yaitu SNLI Indo dengan jumlah data training dan testing masing-masing sebanyak 549.365 dan 9.822 pasang kalimat. Hasil akhir penelitian ini adalah menghasilkan model RTE yang mampu mengklasifikasikan hubungan inferensi antar kalimat premis dan hipotesis berdasarkan hubungan entailment, kontradiksi, atau netral. Model RTE yang diusulkan menghasilkan kinerja yang baik dengan nilai presisi (P) sebesar 79%, recall (R) sebesar 79%, akurasi testing (te-acc) sebesar 79%, dan F1-Score sebesar 79%. Selain itu berdasarkan dari analisis heat map, ablasi dan komparasi yang dilakukan, model RTE yang diusulkan mampu untuk memperhatikan unsur sintaksis kalimat.
===============================================================================================
The Indonesian language has a rich vocabulary and diverse syntactic forms, making it one of the most widely used languages. This linguistic richness can pose challenges in developing Natural Language Processing (NLP) technology, especially for tasks that involve identifying relationships between text fragments written differently but with the same meaning. In NLP, this task is called Recognizing Textual Entailment (RTE). RTE studies in Indonesian began in 2018. However, the current level of entailment identification is primarily at the word level (lexical), leading to potential biases when NLP applications encounter sentences with varied word sequences (syntactic). This study proposes an RTE approach for Indonesian using deep learning architecture to develop an effective RTE model. The architecture involves several processes, starting with forming the input into a series of words (word-pair-dependency) for each sentence fragment, namely the premise (P) and hypothesis (H) sentences. The word-pair-dependency process generates Biplet (head-dependent) individuals, which are then processed with circular padding before entering the sentence encoding layer to be converted into word feature vectors using GloVe 50-dimensional word embedding. These feature vectors undergo individual cross-comparisons between Biplets (h-d) in P and H to form new vectors that maintain the syntactic elements between sentences. The new vectors are then processed by alignment cross-comparison in the matching layer before being learned by Bidirectional Long Short-Term Memory (BiLSTM), a two-way neural network learning algorithm, with weight adjustment optimization by a multi-head attention mechanism in the information aggregation layer. The classifier layer, the final part of the architecture, draws conclusions using the Softmax activation function. Experiments were conducted using a dataset built for this study, SNLI Indo, with 549,365 sentence pairs for training and 9,822 pairs for testing. The final result of this research is an RTE model capable of classifying inference relationships between premise and hypothesis sentences based on entailment, contradiction, or neutrality. The proposed RTE model demonstrates good performance with a precision (P) value of 79%, recall (R) value of 79%, testing accuracy (te-acc) of 79%, and F1-Score of 79%. Additionally, based on heat map analysis, ablation study, and comparison analysis, the proposed RTE model effectively considers the syntactic elements in sentences.

Item Type: Thesis (Doctoral)
Uncontrolled Keywords: Bahasa Indonesia, BiLSTM, Biplet, multi-head attention, recognizing textual entailment, teknologi, word-pair-dependency, Indonesian, BiLSTM, Biplet, multi-head attention, recognizing textual entailment, technology, word-pair-dependency
Subjects: T Technology > T Technology (General) > T58.5 Information technology. IT--Auditing
Divisions: Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Informatics Engineering > 55001-(S3) PhD Thesis (Comp Science)
Depositing User: I Made Suwija Putra
Date Deposited: 01 Aug 2024 02:23
Last Modified: 01 Aug 2024 02:23
URI: http://repository.its.ac.id/id/eprint/111540

Actions (login required)

View Item View Item