Pengembangan Ekstraksi Fitur Ortografi, Morfologi, dan Semantik untuk POS Tagging Bahasa Indonesia

Alfian, Muhammad (2025) Pengembangan Ekstraksi Fitur Ortografi, Morfologi, dan Semantik untuk POS Tagging Bahasa Indonesia. Doctoral thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 7025221023-Doctoral.pdf] Text
7025221023-Doctoral.pdf - Accepted Version
Restricted to Repository staff only

Download (3MB) | Request a copy

Abstract

Pengenalan kelas kata atau Part-of-Speech (POS) tagging merupakan proses krusial yang dapat memberikan banyak pengaruh terhadap proses analisis teks lain. Perkembangan POS Tagging bahasa Indonesia saat ini telah mencapai nilai akurasi yang tinggi (91,77%) dengan metode BiLSTM. Namun, nilai tersebut masih belum optimal karena sulitnya menentukan kelas kata yang mempunyai makna ganda (ambiguitas) dan out-of-vocabulary (OOV). Selain itu, tidak adanya korpus terstandar (gold standard corpus) juga menjadi salah satu penyebabnya. Berbeda dengan model POS Tagging bahasa Inggris, model tersebut dilatih dengan korpus yang besar (±1.000.000 kata), sehingga model tersebut dapat mencapai nilai kinerja 98% dengan pendekatan berbasis Deep Learning. Masalah mengenai korpus dan problematika kata ambigu dan OOV menghambat capaian penelitian POS Tagging Bahasa Indonesia. Oleh karena itu, penelitian ini mengusulkan pengembangan ekstraksi fitur berbasis ciri ejaan, morfologi, dan semantik untuk mengatasi problematika kata ambigu dan OOV. Penelitian ini mengusulkan arsitektur baru untuk ekstraksi fitur sebagai masukan model BiLSTM. Selain itu, penelitian ini juga mengusulkan pengembangan korpus POS Tagging bahasa Indonesia dengan mendeteksi dan mengoreksi inkonsistensi anotasi. Proses koreksi dilakukan terhadap korpus yang sudah ada dengan melibatkan pakar bahasa yang kompeten di bidang linguistik. Hasil uji coba menunjukkan kinerja model POS Tagging mengalami peningkatan yang signifikan (±10%) dibandingkan model dasar. Model BiLSTM-OMS yang diusulkan terbukti dapat meningkatkan nilai kinerja hingga mencapai nilai 95,83%. Peningkatan terjadi secara signifikan (±26%) pada nilai kinerja kasus OOV dengan nilai akurasi 88,48%. Proses koreksi korpus berhasil dilakukan dengan melibatkan 15 pakar yang menghasilkan korpus terstandar yang terdiri dari 30.960 kata yang diekstrak dari 3.175 kalimat. Korpus yang telah dikoreksi memiliki kinerja yang lebih baik dibandingkan sebelum dikoreksi. Peningkatan kinerja yang signifikan (±14%) terjadi pada kasus Ambigu.
=======================================================================================================================================
Part-of-speech (POS) tagging is a crucial process that can have a significant impact on other text analysis processes. The development of Indonesian POS tagging has achieved an accuracy rate of 91.77% using the BiLSTM method. However, this value is not yet optimal due to the difficulty of determining the class of words with multiple meanings (ambiguity) and those that are not in the vocabulary (OOV). The absence of a standard corpus is also a contributing factor. The English POS tagging model, for example, is trained with a large corpus of around 1,000,000 words, enabling it to achieve a performance value of 98% with a deep learning-based approach. Problems regarding the corpus, as well as issues with ambiguous words and OOV, hinder Indonesian POS tagging research. Therefore, this study proposes developing feature extraction based on spelling, morphology and semantics to overcome these issues. A new architecture for feature extraction is proposed as input for deep learning-based methods (BiLSTM). Additionally, the study proposes developing an Indonesian POS tagging corpus by detecting and correcting annotation errors. This process involved language experts who are competent in the field of linguistics, and was carried out on existing corpora. The test results show that the performance of the POS tagging model has improved significantly by ±10% compared to the base model. The proposed BiLSTM-OMS model was proven to improve performance to 95.83%. There was also a significant improvement in the performance of out-of-vocabulary (OOV) cases, with an accuracy of 88.48%. The corpus correction process involved 15 experts and resulted in a standardised corpus consisting of 30,960 words extracted from 3,175 sentences. The corrected corpus performed better than the uncorrected corpus. A significant improvement in performance (±14%) was observed in the ambiguous case.

Item Type: Thesis (Doctoral)
Uncontrolled Keywords: BiLSTM, Deep Learning, ekstraksi fitur, POS Tagging, BiLSTM, Deep Learning, feature extraction
Subjects: P Language and Literature > P Philology. Linguistics
P Language and Literature > P Philology. Linguistics > P325 Semantics.
Q Science > QA Mathematics > QA336 Artificial Intelligence
Q Science > QA Mathematics > QA76.758 Software engineering
Q Science > QA Mathematics > QA76.87 Neural networks (Computer Science)
R Medicine > R Medicine (General) > R858 Deep Learning
Divisions: Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Informatics Engineering > 55001-(S3) PhD Thesis (Comp Science)
Depositing User: Muhammad Alfian
Date Deposited: 28 Jan 2026 08:01
Last Modified: 28 Jan 2026 08:01
URI: http://repository.its.ac.id/id/eprint/130823

Actions (login required)

View Item View Item