Deteksi Disharmoni dalam Dokumen Peraturan Perundang-undangan dengan Model Klasifikasi Tranformer

Abdillah, Surya (2024) Deteksi Disharmoni dalam Dokumen Peraturan Perundang-undangan dengan Model Klasifikasi Tranformer. Other thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 5025201229-Undergraduate_Thesis.pdf] Text
5025201229-Undergraduate_Thesis.pdf - Accepted Version
Restricted to Repository staff only until 1 October 2026.

Download (8MB) | Request a copy

Abstract

Disharmoni Peraturan Perundang-undangan merupakan permasalahan adanya kontradiksi dalam peraturan. Permasalahan ini dapat mengakibatkan disfungsi hukum dimana peraturan yang ada tidak dapat menjadi pedoman bagi masyarakat dalam berperilaku. Pada konteks pemilihan umum, salah satu disharmoni yang pernah terjadi adalah pada Peraturan Komisi Pemilihan Umum Nomor 6 Tahun 2018 dengan Peraturan Menteri Dalam Negeri Nomor 18 Tahun 2018 terkait pelarangan keikutsertaan anggota Lembaga Kemasyarakatan Desa sebagai anggota partai politik. Solusi saat ini berupa judicial review memakan waktu dan tenaga yang cukup besar, sehingga diperlukan pendekatan lain. Salah satu pendekatan yang dapat digunakan adalah dengan pemanfaatan Natural Language Inference. Namun, untuk melakukan hal tersebut diperlukan adanya pemadanan dokumen, sehingga dapat menentukan pasangan dokumen yang perlu diperiksa.
Tahapan dalam penelitian ini terbagi menjadi empat tahap, yakni pengumpulan dan praproses data, pemadanan dokumen, pelatihan model deteksi disharmoni, serta evaluasi dan analisis hasil uji coba. Pengumpulan data dilakukan dengan melakukan web scraping pada web JDIH KPU. Dokumen yang telah didapatkan diuraikan menjadi bunyi ayat secara manual. Berikutnya, dilakukan praproses bunyi ayat sesuai dengan kebutuhan pada algoritma yang digunakan. Pada tahap kedua, digunakan tiga pendekatan, yakni pemodelan topik, ekstraksi kata kunci, dan peringkasan teks. Algoritma yang digunakan adalah LDA, BERTopic, RAKE, KeyBERT, K-Means, dan TextRank Gensim. Padanan dokumen pada ekstraksi kata kunci dan peringkasan teks didasari pada nilai similarity Jaccard dan cosine. Tahap ketiga berupa pelatihan pada model pre-trained berbasis Transformer. Setelah itu, dilakukan tahap terakhir berupa evaluasi dan analisis pada hasil uji coba yang dilakukan.
Penelitian ini mendapatkan hasil pemilihan algoritma terbaik adalah LDA, KeyBERT, dan K-Means pada pendekatan pemodelan topik, ekstraksi kata kunci, dan peringkasan teks secara berurutan. Pendekatan pemadanan dokumen yang terbaik adalah peringkasan teks dengan nilai recall sebesar 0,3195. Pada pelatihan model, parameter terbaik adalah batch size 128 dan penggunaan data IndoNLI, augmentasi, dan pseudo-label. Nilai akurasi yang didapatkan adalah 0,9831. Berdasarkan uji coba yang dilakukan, pengumpulan data dapat dilakukan dengan web scraping web JDIH KPU. Tahapan setiap pendekatan dalam pemadanan dokumen memiliki kemiripan, yakni terdiri dari persiapan data, pemanggilan fungsi, dan pembentukan kelompok dokumen. Setiap pendekatan pemadanan dokumen yang diujikan memiliki kelebihan dan kekurangannya masing-masing, baik dari segi metrik evaluasi maupun potensi penerapannya. Penelitian ini juga menunjukkan semakin besar nilai batch size dalam pelatihan berdampak baik pada performa model. Selain itu, penggunaan data latih yang semakin sesuai dengan tugas terbukti meningkatan performa.
=================================================================================================
Disharmony of Legislation is a problem of contradictions within regulations. This issue can lead to legal dysfunction, where existing regulations cannot serve as a guide for public behavior. In the context of elections, one instance of disharmony that has occurred is between Peraturan Komisi Pemilihan Umum Nomor 6 Tahun 2018 and Peraturan Menteri Dalam Negeri Nomor 18 Tahun 2018 regarding the prohibition of participation of Lembaga Kemasyarakatan Desa members as members of political parties. Current solution, judicial review requires significant time and effort, necessitating alternative approaches. One such approach is the utilization of Natural Language Inference. However, to implement this, a document matching is needed to determine the document pairs that need to be examined.
The stages of this research are divided into four phases: data collection and preprocessing, document matching, training the disharmony detection model, and evaluation and analysis. Data collection is carried out through web scraping on the JDIH KPU website. The obtained documents are manually broken down into article sentences. Next, the preprocessing of the article sentences is done according to the needs of the algorithms used. In the second phase, three approaches are used: topic modeling, keyword extraction, and text summarization. The algorithms used are LDA, BERTopic, RAKE, KeyBERT, K-Means, and Gensim TextRank. Document matching in keyword extraction and text summarization is based on Jaccard and cosine similarity values. The third phase involves training a pre-trained Transformer-based model. Finally, the last phase is the evaluation and analysis of the test results.
This research found that the best algorithm selection is LDA, KeyBERT, and K-Means for topic modeling, keyword extraction, and text summarization approaches, respectively. The best document matching approach is text summarization with a recall value of 0.3195. For model training, the best parameters are a batch size of 128 and the use of IndoNLI, augmentation, and pseudo-label data. The achieved accuracy is 0.9831. Based on the conducted tests, data collection can be done through web scraping on the JDIH KPU website. The stages of each approach in document matching have similarities, consisting of data preparation, function invocation, and document group formation. Each document matching approach tested has its own strengths and weaknesses in terms of evaluation metrics and potential application. This research also shows that increasing the batch size in training positively impacts model performance. Additionally, using training data that aligns more closely with the task has been proven to enhance performance.

Item Type: Thesis (Other)
Uncontrolled Keywords: Deteksi Disharmoni, Peraturan Perundang-undangan, Pemodelan Topik, Ekstraksi Kata Kunci, Peringkasan Teks, Disharmony Detection, Regulation, Topic Modeling, Keywords Extraction, Text Summarization
Subjects: T Technology > T Technology (General) > T385 Visualization--Technique
T Technology > T Technology (General) > T57.5 Data Processing
Divisions: Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Informatics Engineering > 55201-(S1) Undergraduate Thesis
Depositing User: Surya Abdillah
Date Deposited: 02 Aug 2024 01:51
Last Modified: 02 Aug 2024 01:51
URI: http://repository.its.ac.id/id/eprint/111760

Actions (login required)

View Item View Item