Pembuatan Model Bahasa Medik Berbahasa Indonesia Dengan Menggunakan Teknik Masked Language Model Pada BERT

Arasyi, Firqa Aqila Noor (2021) Pembuatan Model Bahasa Medik Berbahasa Indonesia Dengan Menggunakan Teknik Masked Language Model Pada BERT. Undergraduate thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 05211740000127_Undergraduate_Thesis.pdf] Text
05211740000127_Undergraduate_Thesis.pdf - Accepted Version
Restricted to Repository staff only until 1 October 2023.

Download (2MB) | Request a copy
[thumbnail of 05211740000127_Undergraduate_Thesis.pdf] Text
05211740000127_Undergraduate_Thesis.pdf
Restricted to Repository staff only

Download (2MB) | Request a copy

Abstract

Pembuatan Language Model (LM) untuk domain yang lebih spesifik belum banyak dilakukan terutama dalam teks berbahasa Indonesia. Disisi lain jenis teks dalam Bahasa Indonesia juga sangat beragam seperti teks berita, politik, sains, finansial, ekonomi, kedokteran, dan berbagai jenis teks lainnya. Namun banyaknya jenis teks tersebut belum terdapat model bahasa yang spesifk untuk mengatasi permasalahan terkait domain tersebut. Oleh karena itu, penelitian ini bertujuan untuk melakukan pembuatan Language Model (LM) untuk domain spesifik yaitu kedokteran. Model yang digunakan adalah model BERT. Data yang digunakan dalam penelitian ini adalah data yang diambil dari kumpulan jurnal di bidang kedokteran berbahasa Indonesia. Pada tahap evaluasi penelitian ini menggunakan dataset terjemahan dan hanya akan diuji untuk permasalahan klasifikasi teks. Penelitian ini menghasilkan sebuah model yang kami namai sebagai MedBERT. Penelitian ini juga berhasil menunjukan bahwa language model yang telah dilatih dalam teks latih didomain yang lebih spesifik memiliki performa yang lebih baik daripada model yang dilatih dalam teks latih yang lebih general. Uji performa dari model MedBERT yang kami hasilkan memiliki performa yang kompetitif jika dibandingkan dengan language model berbahasa Indonesia lainnya yang lebih general seperti IndoBERT dan IndoLEM. Model MedBERT yang dihasilkan juga memiliki performa yang jauh lebih baik jika dibandingkan dengan model bahasa multilingual seperti mBERT dan XLM-RoBERTa dengan selisih akurasi sekitar 2% - 10% lebih baik daripada kedua model tersebut. Hasil evaluasi nilai akurasi tertinggi yang didapatkan oleh model MedBERT adalah 42 persen.
================================================================================================
Creating Language Model (LM) for more specific domains has not been done much, especially in Indonesian texts. On the other hand, the types of texts in Indonesian are also very diverse, such as news texts, politics, science, finance, economics, medicine, and various other types of texts. However, there are many types of texts that do not have a specific language model to solve problems related to this domain. Therefore, this study aims to make a Language Model (LM) for a specific domain, namely medicine. The model used is the BERT model. The data used in this study is data taken from a collection of journals in the field of medicine in Indonesian language. At the evaluation stage, this research uses a translation dataset and will only be tested for text classification problems. This research resulted in a model which we named as MedBERT. This study also succeeded in showing that language models that have been trained in training texts in more specific domains have better performance than models trained in more general training texts. The performance test of our MedBERT model has a competitive performance when compared to other more general Indonesian language models such as IndoBERT and IndoLEM. The resulting MedBERT model also has a much better performance when compared to multilingual language models such as mBERT and XLM-RoBERTa with an accuracy difference of about 2% - 10% better than the two models. The evaluation result of the highest accuracy value obtained by the MedBERT model is 42 percent.

Item Type: Thesis (Undergraduate)
Uncontrolled Keywords: Language Model, BERT, MedBERT, Klasifikasi Teks Language Model, BERT, MedBERT, Text Classification
Subjects: T Technology > T Technology (General) > T57.8 Nonlinear programming. Support vector machine. Wavelets. Hidden Markov models.
Divisions: Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Information System > 57201-(S1) Undergraduate Thesis
Depositing User: Firqa Aqila Noor Arasyi
Date Deposited: 19 Aug 2021 07:50
Last Modified: 01 Mar 2022 07:30
URI: http://repository.its.ac.id/id/eprint/88310

Actions (login required)

View Item View Item