Prasetya, Darren and Navastara, Dini Adni and Purwitasari, 3Diana Perbandingan Kinerja Sistem Tanya Jawab Hukum Indonesia Dengan LLM Open-Source Berbasis RAG. Institute of Electrical and Electronics Engineers. (Unpublished)
![]() |
Text
5025211162-article_POMITS.pdf - Accepted Version Restricted to Repository staff only Download (347kB) | Request a copy |
Abstract
Masalah hukum seringkali menjadi sumber tantangan dalam kehidupan masyarakat awam. Banyak individu tidak memiliki kemampuan atau pengetahuan yang memadai untuk mengatasi permasalahan ini. Oleh karena itu, sistem tanya jawab otomatis seringkali diusulkan sebagai solusi. Salah satu pendekatan yang menjanjikan adalah sistem Retrieval-Augmented Generation (RAG), yang mengintegrasikan pengambilan informasi hukum dengan Large Language Model (LLM). Namun, belum ada penelitian yang mengeksplorasi aplikasi RAG pada ranah hukum Indonesia. Penelitian ini bertujuan untuk mengembangkan sistem RAG yang dikhususkan untuk hukum Indonesia dengan menggunakan dataset Belgian Statutory Article Retrieval Dataset (BSARD) yang diterjemahkan dan dipetakan ke hukum Indonesia yang diambil dari https://peraturan.go.id. Penelitian ini memiliki tiga tahapan proses: menyiapkan dan menyusun dataset lengkap tentang undang-undang Indonesia, merancang pemetaan antara pertanyaan hukum dan pasal yang relevan, serta membandingkan hasil dari model open-source yang dilatih dengan Bahasa Indonesia dalam aplikasi RAG untuk sistem tanya-jawab pada hukum Indonesia. Penelitian ini memanfaatkan model open-source yang dilatih dengan Bahasa Indonesia seperti Cendol 7B, Qwen2.5 8B, SEA-LION3.5 8B, dan SahabatAI Gemma2 9B.
Hasil dari perbandingan performa model open-source menunjukkan bahwa model SahabatAI Gemma2 9B memiliki performa tertinggi pada metrik leksikal seperti BLEU dengan skor 12,09, ROGUE-1 dengan skor 39,69, ROGUE-2 dengan skor 17,58, dan ROGUE-L dengan skor 29,17. Kemudian, pada metrik Embedding Cosine Similarity, Qwen 2.5 8B mencapai performa tertinggi dengan skor 94.1. Dalam evaluasi menggunakan kumpulan metrik LLM-as-a-Judge, model SEA-LION 3.5 8B menunjukkan performa tertinggi pada tiga kategori: akurasi, halusinasi, dan kegunaan. Secara spesifik, model ini mendapatkan skor akurasi tertinggi saat dinilai oleh LLM Judge GPT-4o dengan nilai 61,13 dan DeepSeek R1 dengan nilai 73,59, serta nilai tertinggi untuk halusinasi dengan nilai 72,81 dan kegunaan dengan nilai 71,77. Di sisi lain, untuk metrik relevansi, SahabatAI mencapai nilai tertinggi dengan nilai 79,61.
Item Type: | Article |
---|---|
Subjects: | T Technology > T Technology (General) > T57.5 Data Processing T Technology > T Technology (General) > T59.7 Human-machine systems. |
Divisions: | Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Informatics Engineering > 55201-(S1) Undergraduate Thesis |
Depositing User: | Darren Prasetya |
Date Deposited: | 21 Jul 2025 01:50 |
Last Modified: | 21 Jul 2025 01:50 |
URI: | http://repository.its.ac.id/id/eprint/120162 |
Actions (login required)
![]() |
View Item |