Penambangan Topik dengan Metode Joint Spherical Tree and Text Embedding (JOSH) pada Teks Berita Berbahasa Indonesia

Machmudah, Hana (2023) Penambangan Topik dengan Metode Joint Spherical Tree and Text Embedding (JOSH) pada Teks Berita Berbahasa Indonesia. Other thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 05111940000072-Non_Degree.pdf] Text
05111940000072-Non_Degree.pdf - Accepted Version
Restricted to Repository staff only until 1 October 2025.

Download (3MB) | Request a copy

Abstract

Pengguna internet di Indonesia semakin meningkat dari tahun ke tahun. Pada tahun 2018, menurut hasil survei Asosiasi Penyelenggara Jasa Internet Indonesia (APJII), pengguna internet di Indonesia telah mengalami peningkatan sebesar 64.8% dari tahun sebelumnya. Dengan adanya peningkatan pengguna internet tersebut mampu mendorong pertumbuhan media online dan mengubah perilaku akses berita dari media manual ke media online. Dengan begitu, pertumbuhan media online akan bertambah besar sehingga perlu dilakukan pengelompokkan berita-berita agar dapat mempermudah pengguna dalam memahami dan menganalisis berita-berita yang memiliki kesamaan. Pengelompokkan dengan menemukan data teks yang tersembunyi dan menemukan hubungan antar kata dari sebuah korpus disebut dengan topic mining. Pada Tugas Akhir ini dilakukan penambangan topik dengan menggunakan hierarchical topic mining. Hierarchical topic mining yaitu mengambil topik hierarki yang dijelaskan oleh nama kategori sebagai petunjuk dan bertujuan untuk mengambil satu set istilah yang koheren dan representatif pada setiap kategori sehingga membentuk deskripsi yang jelas tentang kategori tersebut. Penelitian ini menggunakan metode Joint Spherical Tree and Text Embedding (JOSH) yaitu metode yang menggunakan ruang bulat untuk pemodelan topik dengan menanamkan struktur pohon ke dalam ruang bola di mana setiap kategori dikelilingi oleh istilah perwakilannya melalui kesamaan arah dalam ruang bola. Penelitian ini menggunakan teks berita berbahasa Indonesia yang didapatkan melalui proses scraping dari detik.com dan Petakabar. Hasil topic mining terbaik dengan nilai evaluasi 0,7882. Selanjutnya dilakukan pembuatan model multilabel klasifikasi Long Short Term Memory (LSTM). Hasil klasifikasi yang didapatkan adalah dengan nilai hamming loss terbaik 0,9229 dan nilai recall score terbaik 0,9982.
=================================================================================================================================
Internet users in Indonesia are increasing from year to year. In 2018, according to the results of a survey by the Indonesian Internet Service Providers Association (APJII), internet users in Indonesia have increased by 64.8% from the previous year. With an increase in internet users, it is able to encourage the growth of online media and change the behavior of news access from manual media to online media. That way, the growth of online media will increase so that it is necessary to group news in order to make it easier for users to understand and analyze news that has something in common. Grouping by finding hidden text data and finding relationships between words from a corpus is called topic mining. In this Final Project, topic mining is carried out using hierarchical topic mining. Hierarchical topic mining is taking hierarchical topics described by category names as clues and aims to retrieve a coherent and representative set of terms in each category so as to form a clear description of the category. This study uses the Joint Spherical Tree and Text Embedding (JOSH) method, which is a method that uses spherical space for topic modeling by embedding a tree structure into a spherical space where each category is surrounded by its representative terms through the same direction in the spherical space. This research uses news texts in Indonesian which are obtained through the scraping process from detik.com and Petakabar. The best topic mining results with an evaluation value of 0.7882. Next, a multi-label model for Long Short Term Memory (LSTM) classification was carried out. The classification results obtained are with the best hamming loss value of 0.9229 and the best recall score value of 0.9982.

Item Type: Thesis (Other)
Uncontrolled Keywords: Topic Mining, Berita, Petakabar, LSTM, Topic Mining, News, JOSH, Petakabar
Subjects: T Technology > T Technology (General) > T57.5 Data Processing
Divisions: Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Informatics Engineering > 55201-(S1) Undergraduate Thesis
Depositing User: Hana Machmudah
Date Deposited: 04 Aug 2023 03:36
Last Modified: 05 Sep 2023 02:22
URI: http://repository.its.ac.id/id/eprint/100970

Actions (login required)

View Item View Item