Opinion Mining Berbasis Two Pass Classifier Dan Bayesian Untuk Menentukan Topik Dan Subtopik Di Dalam Peringkasan Otomatis Teks Twitter

Muttaqi, Muhammad Mirza (2022) Opinion Mining Berbasis Two Pass Classifier Dan Bayesian Untuk Menentukan Topik Dan Subtopik Di Dalam Peringkasan Otomatis Teks Twitter. Masters thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 05111850010035-Master_Thesis.pdf] Text
05111850010035-Master_Thesis.pdf - Accepted Version
Restricted to Repository staff only until 1 April 2025.

Download (7MB) | Request a copy

Abstract

Salah satu trending topic di Twitter pada saat ini yaitu wabah pandemi Covid-19 atau biasa disebut dengan penyakit coronavirus 2019. Banyaknya tweet yang membahas Covid-19 ini, menyebabkan pengguna ingin mengetahui informasi ini secara menyeluruh. Namun, seringkali teks yang panjang dari tweet maupun kolom komentar membutuhkan waktu membaca lebih lama dan mempersulit mencari informasi kunci sebagai Penentuan Topik. Penelitian terkait peringkasan teks membutuhkan pengklasifikasian data teks tweet dan khusus tweet bertema Covid-19 menggunakan melakukan eliminasi data non Covid-19 untuk memastikan kesesuaian topik. Akan tetapi ada kemungkinan suatu tweet dapat dikategorikan menjadi multi-topik. Sehingga beberapa kalimat yang memiliki kemiripan karakter pada topik akan dikategorikan sebagai subtopik. Data - data yang tidak sesuai dengan topik maupun topik tertentu akan menjadi noise dan merusak hasil peringkasan. Sehingga eliminasi data yang tidak sesuai dengan topik maupun topik perlu dilakukan. Kontribusi dari penelitian ini adalah metode peringkasan otomatis menggunakan opinion mining dan K-Means yang dapat digunakan untuk sentiment analysis sekaligus entity recognition agar pengelompokan topik lebih signifikan. Opinion Mining digunakan untuk mengekstrak atau mengklasifikasikan polaritas sentimen. Polaritas sentimen ini berupa “positif” atau “negatif” pada suatu entitas atau aspek. Proses klasifikasi menggunakan metode two-pass classifier untuk sentimen positif dan negatif, serta Bayesian sebagai metode pelabel entitas – entitas. Setelah itu, label-label tersebut dikelompokkan dengan K-means sehingga terbentuk topik-topik dan beberapa tweet yang mempunyai kemiripan entitas topik dikelompokan ke dalam topik. Dan menyajikan informasi khusus mengenai covid-19 beserta dampaknya. Dari hasil evaluasi menggunakan TextRank, Okapi BM25 dan PageRank, proses opinion mining menghasilkan nilai yang lebih tinggi dibandingkan dengan Latent Semantic Indexing (LSI), selisih rata-rata 0,53
===================================================================================================================================
One of the trending topics on Twitter at the moment is the Covid-19 pandemic outbreak or commonly referred to as the 2019 coronavirus disease. The number of tweets discussing Covid-19 has caused users to want to know this information thoroughly. However, often the long texts of tweets and comment columns require longer reading time and make it difficult to find key information such as Topic Determination. Research related to text summarization requires classifying tweet text data and specifically Covid-19-themed tweets using eliminating non-Covid-19 data to ensure topic suitability. However, there is a possibility that a tweet can be categorized into multi-topics. So that some sentences that have similar characters on the topic will be categorized as subtopics. Data that does not match the topic or specific topic will become noise and damage the summary results. So the elimination of data that does not match the topic or topic needs to be done. This research proposes an automatic summarization method using opinion mining that can be used for sentiment analysis as well as entity recognition so that the topic grouping is more significant. Opinion Mining is used to extract or classify sentiment polarity. This sentiment polarity is in the form of "positive" or "negative" on an entity. The classification process uses a two-pass classifier method for positive and negative sentiments, as well as Bayesian as a method of labeling entities. After that, the labels are grouped so that topics are formed and tweets that have similar entities are grouped into topics. From the evaluation results using TextRank, Okapi BM25 and PageRank, the opinion mining process produces higher scores than Latent Semantic Indexing (LSI), with an average difference of 0.53

Item Type: Thesis (Masters)
Uncontrolled Keywords: Opinion Mining, Sentiment Analysis, Entity Recognition, Peringkasan Dokumen, pemodelan topik Opinion Mining, Sentiment Analysis, Entity Recognition, Document Summary, topic modeling
Subjects: Q Science > QA Mathematics > QA76.9.D343 Data mining. Querying (Computer science)
Divisions: Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Informatics Engineering > 55101-(S2) Master Thesis
Depositing User: Muhammad Mirza Muttaqi
Date Deposited: 22 Feb 2023 01:03
Last Modified: 22 Feb 2023 01:03
URI: http://repository.its.ac.id/id/eprint/97658

Actions (login required)

View Item View Item