Mayasari, Rakhmah Wahyu (2021) Pengelompokan Topik Publikasi Menggunakan Hierarchical Dirichlet Process (HDP), Latent Dirichlet Allocation (LDA), Dan LDA2VEC (Studi Kasus: Publikasi Terkait COVID-19). Masters thesis, Institut Teknologi Sepuluh Nopember.
Text
06211850012004-Master_Thesis.pdf - Accepted Version Download (1MB) |
Abstract
COVID-19 merupakan penyakit yang ditimbulkan oleh virus corona, dimana hampir seluruh negara menjadi negara terdampak. Efek yang mendunia ini membuat banyak ilmuan melakukan penelitian terkait COVID-19. Dari semua penelitian yang telah dipublikasi ingin diketahui topik-topik apa saja yang telah dilakukan oleh peneliti diberbagai negara. Data yang digunakan adalah abstrak dari publikasi terkait COVID-19 mulai Januari 2020 sampai dengan Agustus 2020. Pengambilan data dilakukan dengan scraping pada web resmi science direct. Data abstrak yang diperoleh kemudian dilakukan praproses data dengan menghilangkan punktuation, melakukan data lower, Lemmatizer, dan stopwords.
Selanjutnya data yang sudah bersih siap untuk dilakukan analisis pengelompokan menggunakan metode teks mining untuk mendapatkan alokasi topik-topik dari abstrak terkait COVID-19, sehingga dapat digunakan sebagai acuan penelitian kedepan. Metode yang digunakan adalah Hierarchical Dirichlet Process (HDP), Latent Dirichlet Allocation (LDA), dan LDA2vec. Dari hasil analisis yang dilakukan, diperoleh hasil bahwa berdasarkan skor coherence metode yang terbaik adalah LDA, dimana jumlah topik optimumnya adalah 14.
====================================================================================================================================
COVID-19 is a disease caused by the novel coronavirus, in which almost all countries are affected. This worldwide effect has led many researchers to conduct research related to COVID-19. It is wanted to know what topics have been carried out from all the studies published by researchers in various countries. This research analyzes the data crawled from full abstracts of publications related to COVID-19 start January to August 2020. The data collected by scraping it on the official Science Direct web. The abstract's text was crawled and then preprocessed by eliminating punctuation, lowering text, lemmatizer, and stopword. Furthermore, clean data is ready for analysis using the text mining method to allocate topics and be used as future research information. The methods used are the Hierarchical Dirichlet Process (HDP), Latent Dirichlet Allocation (LDA) approaches, and LDA2vec. From the results of the analysis carried out, it is found that based on the coherence score the best method is LDA, where the optimum number of topics is 14.
Item Type: | Thesis (Masters) |
---|---|
Additional Information: | RTSt 519.53 May p-1 2021 |
Uncontrolled Keywords: | Hierarchical Dirichlet Process, Latent Dirichlet Allocation, LDA2vec, Topic modeling |
Subjects: | Q Science > QA Mathematics > QA278.55 Cluster analysis |
Divisions: | Faculty of Science and Data Analytics (SCIENTICS) > Statistics > 49101-(S2) Master Thesis |
Depositing User: | - Davi Wah |
Date Deposited: | 27 Jun 2023 03:06 |
Last Modified: | 27 Jun 2023 03:33 |
URI: | http://repository.its.ac.id/id/eprint/98234 |
Actions (login required)
View Item |