Ekstraksi Informasi Named Entity Recognition Menggunakan Metode Transformer Pada Klasifikasi Jenis Pengaduan Dari Data Twitter

Aryani, Aulia Eka Putri (2023) Ekstraksi Informasi Named Entity Recognition Menggunakan Metode Transformer Pada Klasifikasi Jenis Pengaduan Dari Data Twitter. Other thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 05111940000044-Undergraduate_Thesis.pdf] Text
05111940000044-Undergraduate_Thesis.pdf - Accepted Version
Restricted to Repository staff only until 1 September 2025.

Download (5MB) | Request a copy

Abstract

Pesatnya perkembangan teknologi informasi memungkinkan manusia menggunakan media sosial seperti Twitter untuk mendapatkan berita dan acara terkini, termasuk pengaduan. Pengaduan seperti mati listrik, pdam tidak mengalir, internet lambat, jalan rusak, atau pengaduan lainnya sering kali terlewatkan dan tidak terdata. Sistem dibuat untuk memfasilitasi pihak berwenang dan masyarakat dalam penyebaran informasi pengaduan dengan cepat dan akurat supaya penanganan dan pencegahan dapat dilakukan. Untuk memperoleh data dengan cepat, streaming melalui API Twitter dapat digunakan, dan untuk memperoleh data yang akurat, dapat dilakukan pengenalan entitas lokasi sebelum melakukan klasifikasi jenis pengaduan. Tugas Akhir ini mengusulkan penggunaan metode Transformer sebagai metode pengenalan entitas bernama dalam klasifikasi jenis pengaduan karena ia telah dilatih untuk mempelajari semantik pada kalimat menggunakan data korpus yang besar melalui pembuatan pretrained language model dan dapat diaplikasikan dengan mudah dan cepat pada tugas khusus seperti pengenalan entitas bernama melaui fine-tuning. XLNet memanfaatkan XL-) Transformer untuk menangkap konteks dari kedua arah dengan memaksimalkan kemungkinan atas semua permutasi kata dari urutan permutasi. Bidirectional Encoder Representations from Transformers (BERT) memanfaatkan Transformer untuk menangkap konteks dari kedua arah dengan bidirectional encoder serta stategi pelatihan masked language model dan next sentence prediction yang diusulkan. Tahapan penelitian terbagi menjadi pembuatan model, pengambilan informasi secara real-time, dan visualisasi data. Tahapan pembuatan model terdiri atas crawling data Twitter, praproses teks, pelabelan manual, dan pelatihan model. Tahapan pengambilan informasi secara real-time terdiri atas streaming data Twitter, praproses teks, pengenalan entitas bernama, klasifikasi, ekstraksi relasi, pencarian latitude dan longitude, serta penyimpanan hasil pemrosesan. Hasil dari pemrosesan pengaduan akan divisualisasikan melalui peta dalam bentuk aplikasi web menggunakan framework Laravel dan bantuan API Google Maps. Hasil uji coba menunjukkan bahwa rata-rata perhitungan precision, recall, dan f-measure untuk pengenalan entitas bernama menggunakan BERT sebagai metode Transformer terbaik dibandingkan dengan XLNet sebesar 94,75%, 96,63%, dan 95,63%. Rata-rata perhitungan precision, recall, dan f-measure untuk klasifikasi jenis pengaduan dengan CNN pada data tweet setelah dikenali entitasnya dengan BERT sebesar 93,31%, 85,66%, dan 88,82%.
=========================================================================================================================================
The rapid development of information technology allows humans to use social media such as Twitter to get the latest news and events, including complaints. Complaints such as power outages, non-flowing water supply, slow internet, damaged roads, or other complaints are missed and not recorded. The system was created to facilitate the authorities and the public in disseminating complaint informations quickly and accurately so that handling and prevention can be carried out. To obtain data quickly, streaming through the Twitter API can be used, and to obtain data accurately, identification of location entities can be carried out before classifying the types of complaints. This final project proposes the use of the Transformer method as a named entity recognition method in the complaints classification because it has been trained to study the semantics of sentences using a large corpus of data through the creation of a pretrained language model and can be applied easily and quickly to specific tasks such as identifying named entities through fine-tuning. XLNet leverages (XL-)Transformers to capture bidirectional contexts by maximizing the likelihood over all permutations of the factorization order. Bidirectional Encoder Representations from Transformers (BERT) utilizes the Transformer to capture context from bidirections with the proposed bidirectional encoder as well as masked language model and next sentence prediction training strategies. The stages of this research are divided into model building, real-time information retrieval, and data visualization. The model building stage consists of crawling Twitter data, text preprocessing, manual labeling, and model training. The real-time information retrieval stage consists of Twitter data streaming, text preprocessing, named entity recognition, classification, relation extraction, latitude and longitude search, and processing results storage. The results of complaint processing will be visualized through a map in the form of a web application using the Laravel framework and the help of the Google Maps API. The test results show that the average precision, recall, and f-measure calculations for named entity recognition using BERT as the best Transformer method compared to XLNet are 94.75%, 96.63%, and 95.63%. The average precision, recall, and f-measure calculations for the classification of types of complaints with CNN on tweet data after the entities are identified with BERT are 93.31%, 85.66%, and 88.82%.

Item Type: Thesis (Other)
Uncontrolled Keywords: Twitter, Klasifikasi Pengaduan, Pengenalan Entitas Bernama, Transformer, Twitter, Complaint Classification, Named Entity Recognition, Transformer.
Subjects: T Technology > T Technology (General)
T Technology > T Technology (General) > T57.5 Data Processing
Divisions: Faculty of Information Technology > Informatics Engineering > 55201-(S1) Undergraduate Thesis
Depositing User: Aulia Eka Putri Aryani
Date Deposited: 15 Aug 2023 07:18
Last Modified: 15 Aug 2023 07:18
URI: http://repository.its.ac.id/id/eprint/103436

Actions (login required)

View Item View Item