Peringkasan Otomatis Teks Twitter Dengan Eliminasi Data Non-Topik Terkait Covid-19 Menggunakan Pemodelan Topik dan Extractive Summarization

Damayanti, Putri (2021) Peringkasan Otomatis Teks Twitter Dengan Eliminasi Data Non-Topik Terkait Covid-19 Menggunakan Pemodelan Topik dan Extractive Summarization. Masters thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 05111950010001-Buku_Tesis.pdf] Text
05111950010001-Buku_Tesis.pdf - Accepted Version
Restricted to Repository staff only

Download (2MB) | Request a copy

Abstract

Krisis Covid-19 yang sedang marak di dunia termasuk Indonesia telah
menjadi topik hangat media sosial seperti akun twitter Suara Surabaya sebagai salah
satu cara penyebaran informasi. Dikarenakan informasi yang disediakan akun
tersebut bervariasi dan tidak hanya berfokus pada Covid-19, maka diperlukan
ringkasan atau kesimpulan untuk memudahkan masyarakat mengetahui
perkembangan terkini. Permasalahan variasi bahasan pada teks twitter dapat
diselesaikan dengan pemodelan topik untuk mengeliminasi data yang tidak sesuai
sebelum dilakukan peringkasan. Teks twitter memiliki keterbatasan kata sehingga
proses word embedding atau representasi kata menjadi vektor dengan pendekatan
bag-of-words kurang sesuai. Oleh karena itu, pada penelitian ini dilakukan
peringkasan otomatis yang didahului praproses dengan variasi word embedding dan
pemodelan topik sehingga diperoleh teks twitter yang fokus di topik tertentu.
Kemudian beberapa teks twitter dalam satu topik tertentu akan diringkas menjadi
satu dokumen.
Tiga tahap utama dalam penelitian ini termasuk (1) preproses dengan word
embedding, (2) pemodelan topik, (3) serta peringkasan otomatis. Penelitian ini
membandingkan kombinasi beberapa metode dari setiap proses. Pada peroses (1)
preproses menggunakan beberapa metode word embedding yaitu TF-IDF,
Word2Vec, dan FastText. Pada proses (2) menggunakan beberapa metode
pemodelan topik yaitu LSI, LDA dan HDP. Proses (3) peringkasan otomatis
menggunakan metode TextRank, Weighted PageRank dan Okapi BM25. Contoh
kombinasi adalah TF-IDF, LSI dan TextRank. Setiap metode dari setiap prosesvii
akan dikombinasikan satu sama lain sehingga akan terbentuk 27 kombinasi metode.
Hasil peringkasan otomatis diuji menggunakan metode ROUGE-1, ROUGE-2 dan
ROUGE-L. Dari penelitian ini didapatkan bahwa metode pemodelan topik dapat
digunakan sebagai metode eliminasi data untuk peringkasan. Metode word
embedding yang terbaik adalah TFIDF dan Word2Vec, metode pemodelan topik
yang terbaik adalah LDA dan metode peringkasan otomatis yang terbaik adalah
Okapi BM25.
==============
Covid-19 crisis that is happening in the world including Indonesia has
become a hot topic of social media such as Suara Surabaya twitter account that
become a way of distributing information. Suara Surabaya account has many
variant of information, not only Covid-19, therefore summarization is needed to
help people get summary of Covid-19 information. This variant of information
problems can be solved by using topic modelling for eliminate data that are not
match with the topic before automatic summarization process. Twitter text have
limited character so word embedding process with bag-of-words model that
commonly used for text processing is not quite right anymore. Therefore, in this
study, an automatic summarization was preceded by a preprocessing with variations
of word embedding and modeling of topics in order to obtain a twitter text that
focuses on a particular topic. Then some Twitter texts in one particular topic will
be summarized into one document.
Three main stages in this study include (1) preprocessing with word
embedding, (2) topic modeling, (3), and summarizing. Various methods will be
explored to obtain representative summary results, namely TF-IDF, Word2Vec, and
FastText in Phase-1, LSI, LDA, and Hierarchical Dirichlet Process in Phase-2 and
BM25, MS-Entropy, PageRank, and TextRank in Phase-3. The results of the
automatic compression are tested using the ROUGE-1, ROUGE-2, and ROUGE-L
methods. From this research, it was found that the topic modeling method can be
used as a method of data elimination for summarization. The best word embeddingix
methods are TFIDF and Word2Vec, the best topic modeling method is LDA and
the best automatic summarization method is Okapi BM25.

Item Type: Thesis (Masters)
Uncontrolled Keywords: Extractive summarization, Pemodelan topik, Covid19 Extractive summarization, Topic Modelling, Covid19
Subjects: T Technology > T Technology (General)
T Technology > T Technology (General) > T57.5 Data Processing
Divisions: Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Informatics Engineering > 55101-(S2) Master Thesis
Depositing User: Putri Damayanti
Date Deposited: 27 Feb 2021 07:00
Last Modified: 27 Feb 2021 07:00
URI: http://repository.its.ac.id/id/eprint/82956

Actions (login required)

View Item View Item