Ekstraksi Informasi pada Dokumen Teks Menggunakan Metode Named-Entity Recognition untuk Sistem Autofill Formulir Lowongan SIM Magang MyITS StudentConnect

Hadinata, Kevin Christian (2022) Ekstraksi Informasi pada Dokumen Teks Menggunakan Metode Named-Entity Recognition untuk Sistem Autofill Formulir Lowongan SIM Magang MyITS StudentConnect. Undergraduate thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 05111840000066-Undergraduate_Thesis.pdf]
Preview
Text
05111840000066-Undergraduate_Thesis.pdf - Accepted Version

Download (1MB) | Preview

Abstract

Sistem Informasi Manajemen (SIM) Magang MyITS StudentConnect adalah suatu platform yang dibuat untuk memenuhi kebutuhan penyebaran informasi magang dalam lingkungan mahasiswa Institut Teknologi Sepuluh Nopember (ITS). Dalam perkembangannya, diperlukan suatu sistem yang efektif dan efisien untuk pengisian informasi lowongan yang akan diunggah oleh pihak Pengembangan Kewirausahaan dan Karir(PK2) dalam lingkungan ITS. Oleh karena itu, suatu sistem autofill dirasa perlu untuk dapat meningkatkan efisiensi dalam pengisian lowongan magang. Sistem ini bekerja dengan cara memindai dokumen lowongan magang yang diunggah dan mengisikan informasi yang didapat dari dokumen lowongan tersebut dalam format lowongan yang sesuai dengan modul SIM Magang myITS Student Connect.\\\\

Untuk melakukan ekstraksi informasi dari dokumen yang diunggah, dilakukan pemindaian data teks menggunakan teknik Optical Character Recognition (OCR). Lalu, untuk klasifikasi, digunakan metode Named-Entity Recognition (NER), yang merupakan salah satu metode Natural Language Processing yang dapat mengklasifikasikan informasi berdasarkan entitasnya. Hasil ekstraksi informasi tersebut kemudian dimasukkan ke dalam kolom-kolom form yang tersedia sesuai dengan format modul Magang myITS StudentConnect. Hasil dari penelitian ini diharapkan dapat meningkatkan kinerja dan efisiensi SIM Magang dalam melakukan pendistribusian informasi terkait magang yang tersedia untuk kalangan mahasiswa-mahasiswa ITS.

Dilakukan pengamatan performa terhadap ketepatan analisa NER dengan menggunakan data latih berupa poster lowongan magang sebanyak 24 buah. Setelah itu, didapatkan hasil berupa optimizer Adam dengan epochs sebanyak 1000 yang dapat bekerja dengan performa paling baik dengan nilai precision 0.53023, recall 0.56755, dan f1-score 0.54565.
================================================================================================
MyITS StudentConnect Internship Management Information System (SIM) is a platform created to support the internship process for Institut Teknologi Sepuluh Nopember (ITS) students. In its development, an effective and efficient system is needed to fill vacancies information uploaded by the Entrepreneurship and Career Development (PK2) of ITS. Therefore, an autofill system is necessary to increase efficiency in filling internship vacancies. This system works by scanning the uploaded internship vacancy document and filling in the information obtained on the internship vacancy form.

The text data is scanned using the Optical Character Recognition (OCR) technique to extract information from uploaded documents. Then, for classification, the Named-Entity Recognition (NER) method is used, which is one of the Natural Language Processing methods that can classify information based on its entity. The information extraction results are then entered into the available form fields according to the format of the myITS StudentConnect Internship module. The results of this study are expected to improve the performance and efficiency of the Internship SIM in distributing information related to internships available to ITS students.

The system's accuracy is observed using the model trained from 24 internship vacancies posters. After that, the results obtained are Adam optimizer with 1000 epochs which can work with the best performance with precision values of 0.53023, recall 0.56755, and f1-score 0.54565.

Item Type: Thesis (Undergraduate)
Uncontrolled Keywords: Autofill System, Named Entity Recognition, Natural Language Processing, Optical Character Recognition, Sistem Pengisian Otomatis.
Subjects: T Technology > T Technology (General) > T58.6 Management information systems
T Technology > T Technology (General) > T58.8 Productivity. Efficiency
Divisions: Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Informatics Engineering > 55201-(S1) Undergraduate Thesis
Depositing User: KEVIN CHRISTIAN HADINATA
Date Deposited: 13 Feb 2022 16:27
Last Modified: 06 Nov 2024 03:42
URI: http://repository.its.ac.id/id/eprint/93898

Actions (login required)

View Item View Item