Identifikasi Informasi Prosedural dari Berita Menggunakan Model Hibrid Berbasis Transformer dan Teknik Oversampling

Java, Muhammad Iskandar (2025) Identifikasi Informasi Prosedural dari Berita Menggunakan Model Hibrid Berbasis Transformer dan Teknik Oversampling. Masters thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of Muhammad Iskandar Java_BukuTesis.pdf] Text
Muhammad Iskandar Java_BukuTesis.pdf - Accepted Version
Restricted to Repository staff only until 1 April 2027.

Download (3MB) | Request a copy

Abstract

Informasi prosedural, yang menjelaskan proses atau metode bagaimana suatu peristiwa terjadi, merupakan informasi yang sangat berharga di berbagai bidang seperti pendidikan, jurnalisme, dan penelitian. Meskipun kemajuan (Natural Language Processing) NLP telah memungkinkan untuk mengklasifikasikan teks dengan lebih cepat dan akurat, penelitian terkait identifikasi informasi prosedural pada berita masih terbatas. Sebagian besar studi sebelumnya berfokus pada dokumen teknis, manual pengguna, atau ilmiah yang terstruktur dan eksplisit, sementara teks berita bersifat naratif dan deskriptif, dengan informasi prosedural yang sering tersirat dan tersebar yang menjadikan proses identifikasi menjadi lebih sulit. Untuk menjawab permasalahan tersebut, penelitian ini mengusulkan pendekatan baru dengan menggabungkan dua model berbasis Transformer, untuk menghasilkan representasi fitur semantik pada level kalimat dan level kontekstual. Kedua representasi fitur tesebut digabungkan untuk dimanfaatkan dalam identifikasi apakah kalimat tersebut mengandung unsur prosedural atau tidak. Selain itu, teknik oversampling menggunakan model Text-To-Text Transfer Transformer (T5) diterapkan pada kelas minoritas dalam dataset pelatihan untuk memperkaya variasi data dan meningkatkan kinerja pelatihan model. Hasil eksperimen menunjukkan bahwa gabungan model terbaik yaitu XLNet + RoBERTa dengan pendekatan hirarkis, mencapai F1-score sebesar 75,33%, mengungguli baik single maupun hybrid model lainnya. Pendekatan ini menunjukkan potensi signifikan untuk meningkatkan kinerja identifikasi informasi prosedural dari teks berita.
==================================================================================================================================
Procedural information, which describes the processes or methods by which an event occurs, is highly valuable in various fields such as education, journalism, and research. Although advancements in Natural Language Processing (NLP) have enabled faster and more accurate for text classification, research on detecting procedural information from news texts remains limited. Most previous studies have focused on technical documents, user manuals, or scientific texts that are structured and explicit. In contrast, news texts are narrative and descriptive, with procedural information often being implicit and scattered, making the identification process more challenging. To address this issue, this study proposes a novel approach by combining two Transformer-based models to generate semantic feature representations at both the sentence and contextual levels. These representations are then combined to identify whether a sentence contains procedural elements. Additionally, an oversampling technique using the Text-To-Text Transfer Transformer (T5) model is applied to the minority class in the training dataset to enrich data variation and improve model performance. The experimental results demonstrate that the best-performing model combination, XLNet + RoBERTa, achieved an F1-score of 75,33% using a hierarchical approach, outperforming other single and hybrid models. This approach shows significant potential to enhance the accuracy of procedural information identification from news texts.

Item Type: Thesis (Masters)
Uncontrolled Keywords: klasifikasi teks, informasi prosedural, oversampling, transformer, text classification, procedural information
Subjects: Q Science > QA Mathematics > QA336 Artificial Intelligence
Q Science > QA Mathematics > QA75 Electronic computers. Computer science. EDP
Q Science > QA Mathematics > QA76.6 Computer programming.
Divisions: Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Informatics Engineering > 55101-(S2) Master Thesis
Depositing User: Muhammad Iskandar Java
Date Deposited: 06 Feb 2025 01:39
Last Modified: 06 Feb 2025 01:39
URI: http://repository.its.ac.id/id/eprint/118289

Actions (login required)

View Item View Item