Visualisasi Ontologi Penyakit berbasis Web dengan Pemrosesan Teks Konsultasi Kesehatan Daring

Raihan, Muhammad (2023) Visualisasi Ontologi Penyakit berbasis Web dengan Pemrosesan Teks Konsultasi Kesehatan Daring. Other thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 05111940000100-Undergraduate_Thesis.pdf] Text
05111940000100-Undergraduate_Thesis.pdf - Accepted Version
Restricted to Repository staff only until 1 September 2025.

Download (4MB) | Request a copy

Abstract

Pandemi Corona Virus yang melanda Indonesia pada tahun 2019 (COVID-19) telah mengubah perilaku masyarakat menjadi lebih digital sehingga diperlukan sebuah sistem yang menunjang bidang kesehatan dalam mengidentifikasi mandiri penyakit yang diidap oleh masyarakat berdasarkan gejala yang dirasakan. Perlu diingat bahwa aplikasi yang ingin dibentuk hanya bersifat sugesti untuk mendorong pasien agar segera berkonsultasi dengan tenaga ahli dokter. Aplikasi yang dibentuk diharapkan dapat interaktif sehingga memudahkan pengguna dalam proses identifikasi mandiri. Tahap pertama yang dilakukan adalah melakukan penandaan Named-Entity Recognition (NER) ke dalam teks jawaban dokter dalam dataset Forum konsultasi Kesehatan Daring Alodokter untuk mengidentifikasi istilah medis yang tergolongkan menjadi: anatomi tubuh (ANAT), zat kimia atau obat-obatan (CHEM), kelainan yang terjadi (DISO), dan prosedur mengatasi penyakit (PROC). Tahap kedua adalah melakukan penyeragaman kata untuk mengatasi ambiguitas yang terdapat dalam data hasil penandaan. Penyeragaman akan dilaksanakan dengan bantuan word embedding untuk menemukan pasangan kata yang bermakna sama tetapi memiliki penulisan yang berbeda, lalu pasangan kata akan divalidasi kebenarannya sebelum diaplikasikan kembali dalam data hasil penandaan NER. Tahap selanjutnya, data akan kembali disaring untuk mengambil kata yang memiliki frekuensi melewati batas tertentu untuk digunakan sebagai variasi uji coba terhadap ontologi yang dibentuk. Selanjutnya, data yang telah disaring akan dikonversi menjadi format turtle agar dapat divisualisasikan dalam aplikasi web. Disisi lain, pengembangan aplikasi web dilaksanakan menggunakan FLASK dan terdiri dari tiga buah halaman yaitu halaman beranda, halaman tabel ontologi, dan halaman visualisasi ontologi menggunakan WebVOWL. Data yang sudah berformat turtle, salah satu format penulisan ontologi, akan digunakan sebagai basis data untuk melakukan visualisasi ontologi ataupun memberikan informasi hubungan dalam bentuk tabel. Uji coba dilaksanakan untuk mengukur performa dari model NER yang telah dilatih. Berdasarkan penelitian yang telah dilakukan, diketahui model BERT (Bidirectional Encoder Representations from Transformers) memiliki nilai evaluasi yang lebih tinggi dibanding model ROBERTa (Robustly Optimized BERT Pretraining Approach) dalam metrik precision, recall, dan f1 score dengan nilai berturut-turut 0,683, 0,802, dan 0,738. Diketahui juga bahwa penambahan jumlah iterasi pelatihan dapat menimbulkan penurunan performa model dalam melakukan prediksi. Selanjutnya, dilaksanakan uji coba fungsionalitas ontologi untuk menemukan ontologi yang dapat memberikan informasi lengkap serta efisien. Dalam uji coba ontologi, ditemukan bahwa ontologi yang dibentuk dalam penelitian ini dapat memperlihatkan hasil yang tepat sebanyak 46 buah dari 50 buah sampel yang terpilih secara acak untuk seluruh variasi uji coba berdasarkan batas frekuensi kemunculan kata sebanyak tiga buah variasi sehingga ontologi terbaik dipilih berdasarkan jumlah objek yang paling sedikit di antara yang lain yaitu ontologi dengan batas kemunculan kata sebanyak lima kali. Terakhir, dilaksanakan uji coba ketergunaan aplikasi web visualisasi ontologi dengan menggunakan metode Single Ease Question (SEQ) dan System Usability Scaling (SUS). Uji coba ketergunaan bertujuan untuk mengevaluasi efektivitas dan efisiensi aplikasi visualisasi ontologi berbasis web. Metode SEQ berhasil mengukur nilai rata-rata untuk responden berlatar belakang ilmu komputer sebesar 6,5 untuk perintah pertama dan 3,75 untuk perintah kedua. Sedangkan untuk responden tanpa latar belakang ilmu komputer memiliki hasil 6,33 untuk perintah pertama dan 2,33 untuk perintah kedua. Seluruh nilai evaluasi dalam metode SEQ memiliki skala 1 hingga 7. Metode SUS berhasil mengukur nilai rata-rata untuk responden berlatar belakang ilmu komputer sebesar 56,9 dari 100 dan untuk responden tanpa latar belakang ilmu komputer sebesar 44,2 dari 100.
=============================================================================================================================
The Corona Virus pandemic that hit Indonesia in 2019 (COVID-19) has transformed societal behavior to become more digital, necessitating a system that supports the healthcare sector in self-identifying diseases based on the symptoms experienced by the public. It should be noted that the intended application is merely suggestive to encourage patients to consult with medical experts. The developed application is expected to be interactive, making it easier for users to self-identify. The first step undertaken is the Named-Entity Recognition (NER) tagging into doctor's responses in the Alodokter online health consultation forum dataset to identify medical terms classified into: body anatomy (ANAT), chemicals or drugs (CHEM), occurring disorders (DISO), and disease treatment procedures (PROC). The second step involves standardizing words to address ambiguity in the tagging results. Standardization will be carried out with the assistance of word embeddings to find word pairs with the same meaning but different spellings, and these word pairs will be validated for accuracy before being reapplied to the NER tagging results data. Next, the data will be filtered again to select words with a frequency surpassing a certain threshold for use as trial variations for the formed ontology. Subsequently, the filtered data will be converted into the turtle format for visualization in the web application. On the other side, the development of the web application is carried out using FLASK and consists of three pages: the homepage, the ontology table page, and the ontology visualization page using WebVOWL. The data, already in turtle format, one of the ontology writing formats, will be used as the database for ontology visualization or providing relationship information in the form of tables. The trial is conducted to measure the performance of the trained NER model. Based on the conducted research, it is known that the BERT (Bidirectional Encoder Representations from Transformers) model has higher evaluation values than the ROBERTa (Robustly Optimized BERT Pretraining Approach) model in terms of precision, recall, and f1 score with values of 0.683, 0.802, and 0.738, respectively. It is also found that an increase in the number of training iterations can lead to a decrease in the model's performance in making predictions. Next, a trial is carried out to test the functionality of the ontology to find an ontology that can provide complete and efficient information. In the ontology trial, it is found that the ontology formed in this study can produce accurate results for 46 out of 50 randomly selected samples for all trial variations based on a word frequency occurrence threshold of three variations. Therefore, the best ontology is selected based on the smallest number of objects, which is the ontology with a word occurrence threshold of five times. Finally, usability trials for the web-based ontology visualization application are conducted using the Single Ease Question (SEQ) and System Usability Scaling (SUS) methods. The usability trial aims to evaluate the effectiveness and efficiency of the web-based ontology visualization application. The SEQ method successfully measures the average score for respondents with a computer science background, which is 6.5 for the first command and 3.75 for the second command. For respondents without a computer science background, the scores are 6.33 for the first command and 2.33 for the second command. All evaluation scores in the SEQ method range from 1 to 7. The SUS method successfully measures the average score for respondents with a computer science background, which is 56.9 out of 100, and for respondents without a computer science background, the score is 44.2 out of 100.

Item Type: Thesis (Other)
Uncontrolled Keywords: Pengenalan Entitas Bernama, BERT, Ontologi, Format Data Turtle, Penyakit Beresiko Tinggi Named-Entity Recognition, BERT, Ontology, Turtle Data Format, High Risk Disease
Subjects: R Medicine > R Medicine (General) > R858 Deep Learning
T Technology > T Technology (General) > T57.5 Data Processing
Divisions: Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Informatics Engineering > 55201-(S1) Undergraduate Thesis
Depositing User: Muhammad Raihan
Date Deposited: 13 Sep 2023 09:53
Last Modified: 13 Sep 2023 09:53
URI: http://repository.its.ac.id/id/eprint/101924

Actions (login required)

View Item View Item