Implementasi Passage Retrieval Pada Sistem Pencarian Ayat Al-Qur’an Dengan Menggunakan Sentence Transformer Dan Data Augmentation

Dzakwan, Muhammad (2025) Implementasi Passage Retrieval Pada Sistem Pencarian Ayat Al-Qur’an Dengan Menggunakan Sentence Transformer Dan Data Augmentation. Other thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 5027201065-Undergraduate_Thesis.pdf] Text
5027201065-Undergraduate_Thesis.pdf - Accepted Version
Restricted to Repository staff only

Download (8MB) | Request a copy

Abstract

Pencarian ayat Al-Qur'an berbasis pertanyaan merupakan tantangan kompleks yang membutuhkan pemahaman mendalam tentang semantik dan konteks bahasa. Penelitian ini mengembangkan sistem passage retrieval untuk pencarian ayat Al-Qur'an dengan mengintegrasikan sentence transformer, terjemahan, dan parafrasa menggunakan arsitektur bi-encoder dan cross-encoder. Sistem yang diusulkan menggunakan lima variasi encoder, dengan Encoder-5 yang menggabungkan text-embedding-ada-002 dan gpt-3.5-turbo-instruct menunjukkan performa terbaik (MAP@10: 0.221; MRR: 0.393). Dataset yang digunakan berasal dari Qur'an QA 2023, dengan proses augmentasi data menghasilkan peningkatan 30 kali lipat dari 251 menjadi 7530 pertanyaan. Evaluasi model terjemahan menunjukkan model Affairs unggul dengan skor BLEU 89.84 dan BERTScore 95.8, sementara model parafrasa mempertahankan BERTScore di atas 90 meskipun dengan variasi BLEU yang lebih rendah. Analisis statistik mengkonfirmasi signifikansi peningkatan performa dengan p-value 0.2823 pada α=0.5, meskipun dengan variasi efektivitas pada berbagai skenario pengujian. Hasil confusion matrix menunjukkan model berbasis OpenAI mencapai tingkat true positive lebih dari 80% pada data dev dan train. Kombinasi terjemahan dan parafrasa terbukti meningkatkan fleksibilitas sistem dalam menangani variasi pertanyaan, dengan model berbahasa Indonesia memberikan performa optimal. Sistem yang dikembangkan mendemonstrasikan efektivitas dalam mengidentifikasi dan ranking ayat-ayat yang relevan, membuka peluang untuk pengembangan sistem tanya jawab Al-Qur'an yang lebih komprehensif. Penelitian ini merekomendasikan pengembangan lebih lanjut melalui integrasi sumber tafsir, perluasan dukungan bahasa, dan eksplorasi arsitektur model terbaru.
=====================================================================================================================================
Question-based Quranic verse retrieval presents a complex challenge that requires deep understanding of semantics and language context. This research develops a passage retrieval system for Quranic verses by integrating sentence transformers, translation, and paraphrasing using bi-encoder and cross-encoder architectures. The proposed system employs five encoder variations, with Encoder-5 combining text-embedding-ada-002 and gpt-3.5-turbo-instruct showing the best performance (MAP@10: 0.221; MRR: 0.393). The dataset, sourced from Qur'an QA 2023, underwent data augmentation resulting in a 30-fold increase from 251 to 7,530 questions. Translation model evaluation shows the Affairs model excelling with BLEU score of 89.84 and BERTScore of 95.8, while the paraphrase model maintains BERTScore above 90 despite lower BLEU score variations. Statistical analysis confirms performance improvement significance with p-value 0.2823 at α=0.5, though effectiveness varies across testing scenarios. Confusion matrix results show OpenAI-based models achieving true positive rates exceeding 80% on dev and train data. The combination of translation and paraphrasing proves to enhance system flexibility in handling question variations, with Indonesian language models providing optimal performance. The developed system demonstrates effectiveness in identifying and ranking relevant verses, opening opportunities for more comprehensive Quranic question-answering system development. This research recommends further development through tafsir source integration, language support expansion, and exploration of newer model architectures.

Item Type: Thesis (Other)
Uncontrolled Keywords: Passage Retrieval, Pencarian Ayat Al-Qur’an, Sentence Transformer, Augmentasi Data, Terjemahan, Parafrasa, Bi-Encoder, Cross-Encoder
Subjects: B Philosophy. Psychology. Religion > BP Islam. Bahaism. Theosophy, etc
P Language and Literature > PJ Semitic
Q Science
T Technology > T Technology (General) > T57.5 Data Processing
Z Bibliography. Library Science. Information Resources > ZA Information resources
Divisions: Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Information Technology > 59201-(S1) Undergraduate Thesis
Depositing User: Muhammad Dzakwan
Date Deposited: 27 Jul 2025 01:32
Last Modified: 27 Jul 2025 01:32
URI: http://repository.its.ac.id/id/eprint/121646

Actions (login required)

View Item View Item