Analisis Topik dan Author pada Jurnal Bahasa Inggris dengan Menggunakan Metode Author-Topik Model dan Gaussian Latent Dirichlet Allocation(GLDA)

Supriyanto, Muchammad Andhika (2019) Analisis Topik dan Author pada Jurnal Bahasa Inggris dengan Menggunakan Metode Author-Topik Model dan Gaussian Latent Dirichlet Allocation(GLDA). Other thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 05211540000085-Undergraduate_Theses.pdf]
Preview
Text
05211540000085-Undergraduate_Theses.pdf

Download (2MB) | Preview

Abstract

Penggunaan Author-Topic Model telah banyak dilakukan pada bidang machine learning khususnya natural language processing. Metode ini pertama kali digunakan untuk mengetahui bidang penelitian dari seorang penulis dengan melihat topik dari dokumen yang telah ditulisnya. Meskipun model ini banyak digunakan, penerapannya masih memiliki banyak kekurangan. Hal yang paling menonjol adalah ketidakmampuan Latent Dirichlet Allocation (LDA) sebagai dasar dari Author-Topic Model untuk menangkap kata yang belum pernah terlihat dalam data training pada saat melakukan percobaan dari suatu dokumen uji dalam menentukan distribusi kata suatu topik atau biasa disebut out of vocabulary(OOV). OOV membuat topik yang didapat dari suatu dokumen uji tidak sesuai dengan yang diinginkan. Hal tersebut dapat terjadi karena kata-kata penting yang terdapat pada dokumen uji tidak dapat ditangkap oleh LDA. Maka dari itu, pada tugas akhir ini menggunakan Gaussian Latent Dirichlet Allocation (GLDA) pada author-topic model untuk menyelesaikan permasalahan yang ada pada LDA dengan mengubah jenis kata menjadi vektor kata. Metode GLDA ini digunakan untuk pembanding dari penelitian sebelumnya. Pembuatan author-topic model terbaik dari kedua metode dilakukan dengan menghitung nilai perplexity dan topic coherence untuk setiap metode. Hasil yang didapat menggambarkan bahwa penggunaan GLDA dapat mendapatkan hasil modelling yang lebih stabil disetiap iterasi. Namun, hasil yang didapatkan dari kemampuan kedua model dalam memberikan prediksi terhadap author dari dokumen baru memiliki persamaan. Pada kedua model terlihat bahwa persentase prediksinya tidak berbeda jauh. Hal tersebut disebabkan karena penggunaan data dengan jenis kata yang terlali sedikit dan pembersihan data yang kurang baik. Sehingga membuat distribusi kata pada setiap topiknya terlihat tidak sesuai dengan topik dari dokumen tersebut.
=================================================================================================================================
The use of Author-Topic Model has been widely used in the field of machine learning, especially natural language processing. This method was first used to find out the research field of an author by looking at the topic of the document he had written. Although this model is widely used, its application still has many disadvantages. The most prominent thing is the inability of Latent Dirichlet Allocation (LDA) as the basis of the Author-Topic Model to capture words that have never been seen in training data when conducting experiments from a test document in determining word distribution of a topic or commonly called out of vocabulary (OOV). OOV makes the topic obtained from a test document not as desired. This can happen because the important words contained in the test document cannot be captured by the LDA. Therefore, in this final assignment use the Dirichlet Allocation Latent Gaussian (GLDA) on the author-topic model to solve the problems that exist on the LDA by changing the type of word into a word vector. This GLDA method is used for comparison from previous studies. Making the best author-topic model of the two methods is done by calculating the perplexity value and topic coherence for each method. The results obtained illustrate that the use of GLDA can get more stable modeling results in each iteration. However, the results obtained from the ability of the two models to provide predictions to the author of the new document have similarities. In both models it can be seen that the percentage of predictions is not very different. This is due to too little use of data types and poor data cleaning. so that the distribution of words on each topic does not appear to fit the topic of the document.

Item Type: Thesis (Other)
Additional Information: RSSI 005.741 Sup a-1 2019
Uncontrolled Keywords: ACL, ATM, GLDA, LDA, OOV
Subjects: T Technology > T Technology (General)
Divisions: Faculty of Information Technology > Information System > 57201-(S1) Undergraduate Thesis
Depositing User: Muchammad Andhika Supriyanto
Date Deposited: 01 Mar 2024 07:25
Last Modified: 01 Mar 2024 07:25
URI: http://repository.its.ac.id/id/eprint/64244

Actions (login required)

View Item View Item