Machmudah, Hana (2023) Penambangan Topik dengan Metode Joint Spherical Tree and Text Embedding (JOSH) pada Teks Berita Berbahasa Indonesia. Other thesis, Institut Teknologi Sepuluh Nopember.
Text
05111940000072-Non_Degree.pdf - Accepted Version Restricted to Repository staff only until 1 October 2025. Download (3MB) | Request a copy |
Abstract
Pengguna internet di Indonesia semakin meningkat dari tahun ke tahun. Pada tahun 2018, menurut hasil survei Asosiasi Penyelenggara Jasa Internet Indonesia (APJII), pengguna internet di Indonesia telah mengalami peningkatan sebesar 64.8% dari tahun sebelumnya. Dengan adanya peningkatan pengguna internet tersebut mampu mendorong pertumbuhan media online dan mengubah perilaku akses berita dari media manual ke media online. Dengan begitu, pertumbuhan media online akan bertambah besar sehingga perlu dilakukan pengelompokkan berita-berita agar dapat mempermudah pengguna dalam memahami dan menganalisis berita-berita yang memiliki kesamaan. Pengelompokkan dengan menemukan data teks yang tersembunyi dan menemukan hubungan antar kata dari sebuah korpus disebut dengan topic mining. Pada Tugas Akhir ini dilakukan penambangan topik dengan menggunakan hierarchical topic mining. Hierarchical topic mining yaitu mengambil topik hierarki yang dijelaskan oleh nama kategori sebagai petunjuk dan bertujuan untuk mengambil satu set istilah yang koheren dan representatif pada setiap kategori sehingga membentuk deskripsi yang jelas tentang kategori tersebut. Penelitian ini menggunakan metode Joint Spherical Tree and Text Embedding (JOSH) yaitu metode yang menggunakan ruang bulat untuk pemodelan topik dengan menanamkan struktur pohon ke dalam ruang bola di mana setiap kategori dikelilingi oleh istilah perwakilannya melalui kesamaan arah dalam ruang bola. Penelitian ini menggunakan teks berita berbahasa Indonesia yang didapatkan melalui proses scraping dari detik.com dan Petakabar. Hasil topic mining terbaik dengan nilai evaluasi 0,7882. Selanjutnya dilakukan pembuatan model multilabel klasifikasi Long Short Term Memory (LSTM). Hasil klasifikasi yang didapatkan adalah dengan nilai hamming loss terbaik 0,9229 dan nilai recall score terbaik 0,9982.
=================================================================================================================================
Internet users in Indonesia are increasing from year to year. In 2018, according to the results of a survey by the Indonesian Internet Service Providers Association (APJII), internet users in Indonesia have increased by 64.8% from the previous year. With an increase in internet users, it is able to encourage the growth of online media and change the behavior of news access from manual media to online media. That way, the growth of online media will increase so that it is necessary to group news in order to make it easier for users to understand and analyze news that has something in common. Grouping by finding hidden text data and finding relationships between words from a corpus is called topic mining. In this Final Project, topic mining is carried out using hierarchical topic mining. Hierarchical topic mining is taking hierarchical topics described by category names as clues and aims to retrieve a coherent and representative set of terms in each category so as to form a clear description of the category. This study uses the Joint Spherical Tree and Text Embedding (JOSH) method, which is a method that uses spherical space for topic modeling by embedding a tree structure into a spherical space where each category is surrounded by its representative terms through the same direction in the spherical space. This research uses news texts in Indonesian which are obtained through the scraping process from detik.com and Petakabar. The best topic mining results with an evaluation value of 0.7882. Next, a multi-label model for Long Short Term Memory (LSTM) classification was carried out. The classification results obtained are with the best hamming loss value of 0.9229 and the best recall score value of 0.9982.
Item Type: | Thesis (Other) |
---|---|
Uncontrolled Keywords: | Topic Mining, Berita, Petakabar, LSTM, Topic Mining, News, JOSH, Petakabar |
Subjects: | T Technology > T Technology (General) > T57.5 Data Processing |
Divisions: | Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Informatics Engineering > 55201-(S1) Undergraduate Thesis |
Depositing User: | Hana Machmudah |
Date Deposited: | 04 Aug 2023 03:36 |
Last Modified: | 05 Sep 2023 02:22 |
URI: | http://repository.its.ac.id/id/eprint/100970 |
Actions (login required)
View Item |