Implementasi Transformer Dan RAG Untuk Otomatisasi Akuisisi Informasi Dari Publikasi Akademik: Konstruksi Chatbot Berbasis Web Berorientasi PDF

Hutagalung, Ruth Johana (2024) Implementasi Transformer Dan RAG Untuk Otomatisasi Akuisisi Informasi Dari Publikasi Akademik: Konstruksi Chatbot Berbasis Web Berorientasi PDF. Other thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 5022201128-Undergraduate_Thesis.pdf] Text
5022201128-Undergraduate_Thesis.pdf - Accepted Version
Restricted to Repository staff only until 1 October 2026.

Download (6MB) | Request a copy

Abstract

Dalam konteks tantangan berkelanjutan yang dihadapi oleh peneliti dan komunitas akademis dalam menyerap serta menginterpretasi konten publikasi ilmiah yang kompleks dan luas, yang memerlukan tingkat pemahaman konseptual yang tinggi dan keterlibatan kognitif yang intens, integrasi paradigma pembelajaran mesin dengan spesialisasi Jaringan Saraf Transformer ke dalam sistem otomatisasi menjanjikan peningkatan signifikan dalam efisiensi akuisisi informasi ilmiah. Large Language Models (LLM) menunjukkan kapabilitas yang mengesankan tetapi dihadapkan pada kendala seperti halusinasi, pengetahuan yang usang, serta proses penalaran yang tidak transparan dan sulit dilacak. Retrieval Augmented Generation (RAG) muncul sebagai solusi potensial dengan menggabungkan pengetahuan dari basis data eksternal. Penelitian ini mengimplementasikan dan mengintegrasikan model OpenAI GPT-4 dan Pinecone ke dalam framework NextJs untuk membangun sebuah website chatbot berorientasi PDF. Analisis kuantitatif mengungkapkan variasi kinerja sistem dalam beberapa dimensi evaluasi. Tingkat context precision mencapai 0.79, menandakan efektivitas yang baik, sementara answer relevancy menunjukkan performa unggul dengan nilai 0.83. Kemampuan context recall dan answer correctness menampilkan hasil yang cukup memuaskan, masing-masing dengan skor 0.68 dan 0.7. Meskipun demikian, aspek faithfulness memperoleh skor 0.51, mengindikasikan kebutuhan akan penyempurnaan signifikan dalam area ini untuk meningkatkan kinerja sistem secara keseluruhan. Integrasi berkas PDF pada sistem mengakibatkan peningkatan signifikan dari tingkat keakuratan jawaban sebesar 0.2, dari 0.5 pada tahap pre-implementasi menjadi 0.7 pada tahap post-implementasi.
====================================================================================================================================
In the context of the ongoing challenges faced by researchers and the academic community in assimilating and interpreting the content of complex and extensive scientific publications, which require a high level of conceptual understanding and intensive cognitive engagement, the integration of machine learning paradigms with the specialization of Transformer Neural Networks into automation systems promises significant improvements in the efficiency of scientific information acquisition. Large Language Models (LLMs) demonstrate impressive capabilities but face obstacles such as hallucinations, outdated knowledge, and reasoning processes that are non-transparent and difficult to track. Retrieval Augmented Generation (RAG) has emerged as a promising solution by combining knowledge from external databases. This research implements and integrates OpenAI GPT-4 model and Pinecone into the NextJs framework to build a PDF-oriented chatbot website. Quantitative analysis reveals performance variations across several evaluation dimensions. The context precision rate achieves 0.79, indicating good effectiveness, while answer relevancy demonstrates superior performance with a value of 0.83. Context recall ability and answer correctness display satisfactory results, with scores of 0.68 and 0.7 respectively. However, the faithfulness aspect obtains a score of 0.51, indicating a need for significant improvement in this area to enhance overall system performance. The integration of PDF files into the system resulted in a significant increase in answer correctness by 0.2, from 0.5 at the pre-implementation stage to 0.7 at the post-implementation stage.

Item Type: Thesis (Other)
Uncontrolled Keywords: Transformers, RAG, Website, Chatbot, Transformers, RAG, Website, Chatbot
Subjects: T Technology > T Technology (General) > T58.8 Productivity. Efficiency
T Technology > T Technology (General) > T59.7 Human-machine systems.
Divisions: Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Electrical Engineering > 20201-(S1) Undergraduate Thesis
Depositing User: Ruth Johana Hutagalung
Date Deposited: 04 Aug 2024 13:24
Last Modified: 17 Sep 2024 06:41
URI: http://repository.its.ac.id/id/eprint/110526

Actions (login required)

View Item View Item