Penanganan Ketidakseimbangan Data pada Deteksi Karakter Manuskrip Aksara Jawa menggunakan Generative Sampling

Faizin, Muhammad 'Arif (2025) Penanganan Ketidakseimbangan Data pada Deteksi Karakter Manuskrip Aksara Jawa menggunakan Generative Sampling. Masters thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 6025231092-Master_Thesis.pdf] Text
6025231092-Master_Thesis.pdf
Restricted to Repository staff only

Download (5MB) | Request a copy

Abstract

Pelestarian manuskrip menjadi penting dalam menjaga warisan budaya dan informasi berharga dari masa lalu. Namun, proses digitalisasi manuskrip terutama dalam konteks aksara Jawa memunculkan sejumlah tantangan, termasuk masalah ketidakseimbangan data yang memengaruhi deteksi karakter.
Penelitian ini mengusulkan pendekatan generative sampling untuk mengatasi ketidakseimbangan data pada proses deteksi karakter aksara Jawa. Metode generative sampling yang diusulkan pada penelitian ini terbagi menjadi dua tahap. Pertama, tahap sintetis data melalui model generatif berbasis Generative Adversarial Networks (GANs) menggunakan adaptasi Improved BAGAN-GP dan InfoGAN yang berfokus untuk menghasilkan data pada kelas minoritas. Pada tahap kedua, dilakukan sampling pada dataset deteksi objek menggunakan strategi teknik oversampling dan undersampling pada tingkat dokumen untuk menyeimbangkan data. Hasil dari metode generative sampling kemudian dilatih menggunakan YOLOv5 sebagai dasar untuk model deteksi.
Evaluasi dari metode generative sampling dilakukan dari tahap generatif, klasifikasi dan deteksi untuk memastikan setiap proses berjalan dengan baik. Pada tahap generatif, kemampuan mempelajari persebaran data dievaluasi dengan menggunakan nilai Fréchet Inception distance (FID), Inception Score (IS) dan beberapa jenis nilai FID. Terdapat pengujian variasi dan kontrol data terhadap karakter yang dihasilkan menggunakan pengamatan kualitatif sebagai evaluasi terhadap variasi data yang dihasilkan. Evaluasi pada tahapan klasifikasi dilakukan dengan nilai presisi, recall, dan F1-score untuk memastikan karakter yang dihasilkan dan sampling yang diterapkan berpengaruh terhadap dataset. Evaluasi pada deteksi karakter dilakukan dengan nilai presisi, recall, dan mean average precision (mAP) dengan mAP50 dan mAP50-95 untuk menunjukkan pengaruh secara global.
Hasil evaluasi generatif menunjukkan metode yang diusulkan mampu menghasilkan karakter pada kelas minoritas dengan menurunkan nilai FID pada kelas minoritas ekstrem hingga 178,33. Pengamatan kualitatif juga menunjukkan variasi data yang dihasilkan dapat dikontrol dengan baik. Eksplorasi pada klasifikasi juga dapat menunjukkan peningkatan pada performa klasifikasi secara signifikan. Penggunaan data generatif dengan oversampling menunjukkan peningkatan dengan nilai presisi 84,10%, recall 84,13%, dan F1-score 83,59%. Selain itu, penerapan sintetis data pada deteksi objek secara strategis mampu meningkatkan performa model secara optimal. Penerapan oversampling dengan penyisipan acak tanpa berpotongan menunjukkan peningkatan dengan nilai presisi 97,0%, recall 74,2%, mAP50 83,0%, dan mAP50-95 75,6%. Hal ini membuktikan penggunaan metode generative sampling mampu menangani permasalahan ketidakseimbangan data pada kasus deteksi karakter manuskrip aksara Jawa.
===========================================================================================================================================
Manuscript preservation is important in maintaining cultural heritage and valuable information from the past. However, the process of digitizing manuscripts especially in the context of Javanese script raises a number of challenges, including the problem of data imbalance that affects character detection.
This research proposes a generative sampling approach to overcome data imbalance in the Javanese script character detection process. The generative sampling method proposed in this research is divided into two stages. First, the data synthesis stage through a generative model based on Generative Adversarial Networks (GANs) using Improved BAGAN-GP and InfoGAN adaptations that focus on generating data on minority classes. In the second stage, sampling is performed on the object detection dataset using a strategy of oversampling and undersampling techniques at the document level to balance the data. The results of the generative sampling method are then trained using YOLOv5 as the basis for the detection model.
Evaluation of the generative sampling method is carried out from the generative, classification and detection stages to ensure that each process works properly. In the generative stage, the ability to learn the distribution of data is evaluated using the Fréchet Inception distance (FID), Inception Score (IS) and several variations of the FID value. There is variation testing and data control of the generated characters using qualitative observations as an evaluation of the generated data variations. Evaluation at the classification stage is carried out with precision, recall, and F1-score values to ensure that the characters produced and the sampling applied affect the dataset. Evaluation at the detection stage is done with precision, recall, and mean average precision (mAP) values with mAP50 and mAP50-95 limits to show the global influence of the method on object detection.
The generative evaluation results show that the proposed method is able to generate characters in the minority class by lowering the FID value in the extreme minority class to 178.33. Qualitative observations also show that the variation of the generated data can be well controlled. Exploration on classification can also show significant improvement on classification performance. The use of generative data with oversampling showed improvement with a precision of 84.10%, recall of 84.13%, and F1-score of 83.59%. In addition, the application of data synthetics to object detection can strategically improve model performance optimally. The application of oversampling with random insertion without intersecting shows improvement with a precision value of 97.0%, recall 74.2%, mAP50 83.0%, and mAP50-95 75.6%. This proves that the use of generative sampling method is able to handle the problem of data imbalance in the case of Javanese manuscript character detection.

Item Type: Thesis (Masters)
Uncontrolled Keywords: deteksi karakter, generative adversarial networks (GAN), generative sampling, ketidakseimbangan data, manuskrip aksara jawa
Subjects: Q Science > QA Mathematics > QA336 Artificial Intelligence
Q Science > QA Mathematics > QA76.87 Neural networks (Computer Science)
T Technology > TK Electrical engineering. Electronics Nuclear engineering > TK7882.P3 Pattern recognition systems
Divisions: Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Informatics Engineering > 55101-(S2) Master Thesis
Depositing User: Muhammad `arif Faizin
Date Deposited: 01 Aug 2025 06:46
Last Modified: 01 Aug 2025 06:46
URI: http://repository.its.ac.id/id/eprint/124877

Actions (login required)

View Item View Item