Identifikasi Entitas Bernama dalam Domain Medis pada Layanan Konsultasi Kesehatan Berbahasa Indonesia Menggunakan Algoritme Bidirectional-LSTM-CRF

Kusumawati, Katarina Nimas (2022) Identifikasi Entitas Bernama dalam Domain Medis pada Layanan Konsultasi Kesehatan Berbahasa Indonesia Menggunakan Algoritme Bidirectional-LSTM-CRF. Other thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 05211840000020-Undergraduate_Thesis.pdf]

Text
05211840000020-Undergraduate_Thesis.pdf
Restricted to Repository staff only
Download (5MB) | Request a copy

Abstract

Teknologi bidang kesehatan semakin berkembang pesat. Contohnya adalah pengembangan platform konsultasi kesehatan secara daring yang menjadi solusi untuk meningkatkan jangkauan akses layanan kesehatan. Penggunaan platform yang meningkat saat pandemi mengakibatkan peningkatan kebutuhan akan dokter aktif melakukan konsultasi. Di Indonesia, rerata jumlah dokter adalah 0.4 dokter per seribu penduduk. Pengguna yang paling banyak menggunakan aplikasi layanan konsultasi kesehatan adalah ibu-ibu yang bertanya mengenai tumbuh kembang anak. Maka dari itu, maka penelitian ini dapat dikerucutkan pada topik ibu dan anak. Solusi yang dapat digunakan untuk menghadapi animo masyarakat yang semakin tinggi adalah menerapkan teknologi Natural Language Processing dan Artificial Intelligence. Teknologi ini dapat digunakan untuk menekan biaya, memberikan alternatif saran ke database, memberikan jawaban yang sesuai, serta memungkinkan pengguna mencari solusi sesuai dengan permasalahan yang ada. Hal tersebut dapat diotomasi menggunakan identifikasi entitas bernama atau Named Entity Recognition (NER). Identifikasi entitas bernama merupakan bagian dari information extraction yang digunakan untuk mengidentifikasi entitas pada domain medis misalnya entitas anatomi, protein, dan gen. Permasalahan yang dihadapi dalam pengimplementasian solusi tersebut adalah belum banyak dataset bahasa Indonesia untuk identifikasi entitas bernama yang sesuai dengan konteks platform konsultasi kesehatan dengan topik yang diambil adalah mengenai kehamilan dan anak. Maka dari itu perlu pengembangan dataset bidang medis dalam bahasa Indonesia. Dalam pelaksanaan penelitian, data yang digunakan diambil dari platform konsultasi kesehatan daring yang bagian tanya jawab dengan dokter dapat diakses secara bebas. Data dilabel secara manual dengan pengawasan ahli. Entitas yang digunakan diambil dari artikel ilmiah dan pendapat ahli. Data dilatih dengan model Bi-LSTM-CRF serta menghasilkan accuracy sebesar 0.9968. Terdapat model state-of-the-art yaitu fine tuned XLM-R yang telah dilakukan fine tuning memiliki nilai accuracy sebesar 0.9851. Namun dengan menggunakan metrik F1 score, performa model fine tuned XLM-R mendapatkan nilai paling tinggi pada tiap tagnya dibandingkan model Bi-LSTM-CRF. Model yang memiliki nilai F1 score yang lebih tinggi pada tiap tagnya pada saat pelatihan adalah model fine tuned XLM-R. Model yang memiliki performa terbaik pada saat prediksi data berdasarkan accuracy adalah Bi-LSTM-CRF. Model yang memiliki performa terbaik pada saat prediksi data pertanyaan dan jawaban berdasarkan F1 score tiap tagnya adalah fine tuned XLM-R. Antara data jawaban dan pertanyaan, data yang memiliki nilai paling baik saat prediksi adalah data jawaban. Model yang memiliki performa terbaik pada saat prediksi data kehamilan dan anak berdasarkan F1 score tiap tagnya adalah fine tuned XLM-R. Antara data kehamilan dan anak, data yang memiliki nilai yang paling baik saat prediksi data adalah data kehamilan. Data yang sangat sedikit menyebabkan tag protein dan spesies mendapatkan hasil 'nan' pada F1 score. Faktor yang menyebabkan F1 score pada suatu tag mendapat nilai yang tinggi antara lain data banyak dan bentuk data yang seragam (variasi yang sedikit).
==============================================================================================================================
Health technology is growing rapidly. An example is the development of an online health consultation platform which is a solution to increase the reach of access to health services. The increased use of platforms during the pandemic has resulted in an increased need for active doctors to conduct consultations. In Indonesia, the average number of doctors is 0.4 doctors per thousand population. The users who use the health consultation service application the most are mothers who ask about child development. Therefore, this research can be narrowed down to the topic of mothers and children. The solution that can be used to deal with the increasing public interest is to apply Natural Language Processing and Artificial Intelligence technology. This technology can be used to reduce costs, provide alternative suggestions to the database, provide appropriate answers, and allow users to find solutions according to existing problems. This can be automated using Named Entity Recognition (NER). Identification of named entities is part of information extraction which is used to identify entities in the medical domain such as anatomical entities, proteins, and genes. The problem faced in implementing the solution is that there are not many Indonesian datasets to identify named entities that are in accordance with the context of the health consultation platform with the topic being taken on pregnancy and children. Therefore, it is necessary to develop a dataset in the medical field in Indonesian. In conducting the research, the data used was taken from an online health consultation platform where the question and answer section with doctors can be accessed freely. Data is manually labeled with expert supervision. The entities used are taken from scientific articles and expert opinions. The data is trained with the Bi-LSTM-CRF model and produces an accuracy of 0.9968. There is a state-of-the-art model, namely the fine tuned XLM-R which has been fine-tuned and has an accuracy value of 0.9851. However, by using the F1 score metric, the performance of the fine tuned XLM-R model gets the highest value for each tag compared to the Bi-LSTM-CRF model. The model that has a higher F1 score for each tag during training is the fine tuned XLM-R model. The model that has the best performance when predicting data based on accuracy is Bi-LSTM-CRF. The model that has the best performance when predicting question and answer data based on the F1 score for each tag is the fine tuned XLM-R. Between answer data and questions, the data that has the best value when predicting is the answer data. The model that has the best performance when predicting pregnancy and child data based on the Fl score for each tag is the fine tuned XLM-R. Between pregnancy and child data, the data that has the best value when predicting data is pregnancy data. Very little data causes protein and species tags to get 'nan' results on the F1 score. Factors that cause the F1 score on a tag to get a high score include a lot of data and a uniform form of data (little variation).

Item Type:	Thesis (Other)
Additional Information:	RSSI 005.1 Kus i-1 2022
Uncontrolled Keywords:	Biomedical Named Entities. Bidirectional Long Short Term Memory. Conditional Random Field. / Biomedical Named Entities. Bidirectional Long Short Term Memory. Conditional Random Field.
Subjects:	H Social Sciences > HD Industries. Land use. Labor > HD30.213 Management information systems. Dashboards. Enterprise resource planning.
Divisions:	Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Information System > 57201-(S1) Undergraduate Thesis
Depositing User:	Mr. Marsudiyana -
Date Deposited:	03 Jun 2026 02:16
Last Modified:	03 Jun 2026 02:16
URI:	http://repository.its.ac.id/id/eprint/133501

Actions (login required)

View Item