Optimasi Named Entity Recognition Menggunakan IndoBERT-ALC untuk Klasifikasi dan Identifikasi Entitas Hukum pada Dokumen Hukum Indonesia: Studi Kasus Perceraian

Dina, Aghnia Bella (2025) Optimasi Named Entity Recognition Menggunakan IndoBERT-ALC untuk Klasifikasi dan Identifikasi Entitas Hukum pada Dokumen Hukum Indonesia: Studi Kasus Perceraian. Masters thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 6025231072-Master_Thesis.pdf] Text
6025231072-Master_Thesis.pdf - Accepted Version
Restricted to Repository staff only

Download (3MB) | Request a copy

Abstract

Dokumen putusan pengadilan mengandung informasi hukum yang kompleks dan terstruktur, termasuk entitas penting seperti nama para pihak yang berperkara, tanggal kejadian, dan rujukan hukum. Namun, penggunaan bahasa hukum yang kaku dan formal dalam dokumen tersebut sering kali menyulitkan pemahaman bagi masyarakat umum dan memperlambat proses identifikasi informasi penting oleh praktisi hukum. Dengan penerapan Named Entity Recognition (NER), hakim, profesional hukum, dan publik dapat lebih mudah mengenali serta mengekstraksi entitas hukum dari dokumen putusan, sehingga mempercepat analisis hukum, meningkatkan akses informasi hukum, dan mendukung pengambilan keputusan yang lebih efektif. Untuk menjawab tantangan ini, penelitian ini mengusulkan model NER dengan mengintegrasikan arsitektur berbasis transformer dengan Attention Layer, Bidirectional Long Short-Term Memory (BiLSTM), dan Conditional Random Field (CRF) guna menghasilkan representasi kontekstual yang lebih akurat terhadap entitas hukum. Model berbasis transformer yang digunakan dalam penelitian ini adalah IndoBERT (Indonesia Bidirectional Encoder Representations from Transformers), karena kemampuannya yang telah disesuaikan secara khusus untuk memahami konteks Bahasa Indonesia. BiLSTM ditambahkan untuk memanfaatkan informasi urutan kata dari kedua arah (kiri dan kanan), sehingga memperkuat pemahaman konteks lokal di sekitar entitas. Sementara, CRF digunakan pada lapisan akhir untuk meningkatkan accuracy pelabelan urutan dengan mempertimbangkan dependensi antar label. Attention Layer berperan penting dalam meningkatkan kemampuan model untuk fokus pada kata kunci yang relevan di konteks hukum, sehingga dapat mengenali entitas yang sering kali sulit dideteksi dengan pendekatan standar. Hasil evaluasi menunjukkan bahwa model yang diusulkan mencapai f1-score sebesar 95%, mengungguli 140% model dasar seperti BiLSTM dan IndoBERT). Temuan ini menunjukkan efektivitas model dalam memahami bahasa hukum dan potensinya untuk mendukung ekstraksi entitas secara otomatis di ranah hukum.
===================================================================================================================================
Court decision documents contain complex and structured legal information, including critical entities such as the names of litigating parties, dates, and legal references. However, the formal and rigid language used in these documents often makes it difficult for the general public to understand their content and for legal practitioners to efficiently identify key elements. With the implementation of Named Entity Recognition (NER), judges, legal professionals, and the public can more easily recognize and extract important legal entities from court decisions, thereby accelerating legal analysis, improving access to legal information, and enabling more effective decision-making. To address this challenge, this study proposes an NER model by integrating a transformer-based architecture with an Attention Layer, Bidirectional Long Short-Term Memory (BiLSTM), and Conditional Random Field (CRF) to generate more accurate contextual representations of legal entities. The transformer-based model used in this study is IndoBERT (Indonesia Bidirectional Encoder Representations from Transformers) , due to its capability of being specifically adapted to understand the context of the Indonesian language. BiLSTM is added to capture word sequence information in both directions (left and right), thereby strengthening the local contextual understanding around entities. Meanwhile, CRF is employed in the final layer to enhance sequence labeling accuracy by considering dependencies between labels. The Attention Layer plays a crucial role in improving the model’s ability to focus on relevant keywords within the legal context, thus enabling the recognition of entities that are often difficult to detect using standard approaches. Evaluation results show that our proposed model achieves an F1-SCORE score of 95%, outperforming baseline models such as BiLSTM and basic Transformer architectures by more than 140% in terms of F1-score . These findings demonstrate the effectiveness of the model in understanding legal language and its potential support automated entity extraction within the legal domain.

Item Type: Thesis (Masters)
Uncontrolled Keywords: Attention Layer, BiLSTM, CRF, IndoBERT, Named Entity Recognition.
Subjects: T Technology > T Technology (General) > T57.5 Data Processing
Divisions: Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Informatics Engineering > 55101-(S2) Master Thesis
Depositing User: Aghnia Bella Dina
Date Deposited: 05 Aug 2025 02:46
Last Modified: 07 Aug 2025 01:40
URI: http://repository.its.ac.id/id/eprint/126327

Actions (login required)

View Item View Item