Zaqiyah, Ana Alimatus (2021) Pembangkitan Kata Menggunakan Metode Deep Learning Dengan Perluasan Representasi Vektor Kata Berbasis Topik Dan Struktur Pada Dataset Review. Masters thesis, Institut Teknologi Sepuluh Nopember.
Text
05111950010032-Master_Thesis.pdf - Accepted Version Restricted to Repository staff only Download (2MB) | Request a copy |
Abstract
Sistem deteksi review spam perlu dilakukan untuk mendeteksi review palsu,
komentar hanya pada brand, pengiklanan produk lain, pertanyaan atau pernyataan
yang tidak relevan (non-review) dengan produk yang ditampilkan. Sebagian besar
spam review yang tersedia diberi label sebagai review palsu, padahal teks non-spam
yang bukan review palsu dapat berisi pernyataan non-review. Karena kelangkaan
menemukan pernyataan non-review, terdapat kondisi yang tidak seimbang antara
non-spam sebagai kelas major dan spam yang terdiri dari pernyataan non-review
sebagai kelas minor. Penambahan review palsu untuk menambahkan teks spam
tidak efektif karena memiliki topik yang mirip dengan non-spam seperti beberapa
kata opini tentang fitur produk. Jadi, pembangkitan kata pernyataan non-review
lebih baik untuk dilakukan guna menambahkan teks spam. Masalah pada
pembangkitan kata adalah metode berbasis jaringan saraf dan representasi vektor
kata yang memerlukan banyak data pembelajaran, dan model pretrained yang ada
menghasilkan teks dengan topik dan konteks berbeda dengan pernyataan nonreview.
Tujuan penelitian ini adalah mengusulkan model pembangkitan kata
dengan perluasan representasi vektor kata berbasis topik dan struktur pada dataset
spam review. Perluasan yang dimaksudkan adalah penambahan korpus latih
tambahan namun tidak dilakukan secara langsung ataupun acak, melainkan dengan
seleksi berdasarkan topik dan struktur kalimat pada spam non-review produk.
Perluasan berbasis topik menyeleksi hasil pemodelan topik non-review yang dipilih
dari review palsu. Perluasan berbasis struktur mengidentifikasi struktur kata nonopini dari tag part-of-speech pada teks review yang tidak berlabel. Struktur tersebut
mewakili konteks spam non-review dalam teks review yang tidak berlabel.
Representasi vektor kata menjadi masukan pada arsitektur deep learning
pembangkitan kata. Hasil pembangkitan kata dinilai kecocokannya dengan dataset
asli spam non-review menggunakan metrik BLEU (Bi-Lingual Evaluation
Understudy).
Hasil pengujian menunjukkan bahwa ada kenaikan nilai BLEU sebesar ±
0.027 dan kenaikan nilai BLEU diatas 0.5 sebesar ± 18.8% sebagai evaluasi
kualitas kecocokan hasil pembangkitan kata dan data asli spam non-review. Selain
itu, hasil klasifikasi menggunakan data dari hasil metode usulan memberikan hasil
deteksi spam yang lebih baik dengan penambahan rata-rata nilai recall sebesar
ii
38.05 % dibandingkan dengan klasifikasi menggunakan data asli yang tidak
seimbang. Dari hasil tersebut, dapat disimpulkan bahwa metode yang diusulkan
menghasilkan pembangkitan kata yang lebih baik daripada metode sebelumnya
dengan mengatasi ketidaksesuaian hasil pembangkitan kata yang tidak relevan dan
juga metode usulan berhasil membuat deteksi spam review yang mengenali spam
dengan lebih baik.
====================================================================================
Spam detection frequently categorizes product reviews as spam and nonspam. The spam reviews may contain texts of fake reviews and non-review
statements describing unrelated things about products. Most of the publicly
available spam reviews are labelled as fake reviews, while non-spam texts that are
not fake reviews could contain non-review statements. It is crucial to notice those
non-review statements since they convey misperception to consumers. Non-review
statements are hardly found, and those statements of large and long texts often need
to be manually labelled, which is time-consuming. Because of the rareness in
finding non-review statements, there is an imbalanced condition between non-spam
as a major class and spam that consists of the non-review statement as a minor class.
Augmenting fake reviews to add spam texts is ineffective because they have similar
content to non-spam such as some opinion words of product features. Thus, the text
generation of non-review statements is preferable for adding spam texts. Some text
generation issues are the frequent neural network-based methods require much
learning data, and the existing pretrained models produce texts with different topic
and contexts to non-review statements.
Therefore, we propose a text generation model with content and structurebased expansion of the word vector representation in spam review dataset.
Structure-based expansion identifies the feature structures of non-opinion words
from part-of-speech tags. Those features represent the context of spam reviews in
unlabeled texts. Then, content-based expansion appoints selected topic modeling
results of non-review statements from fake reviews. The word vector representation
becomes an input in word generation deep learning architecture. The results of the
word generation were assessed for their correspondence with the original nonreviewed spam dataset using the BLEU (Bi-Lingual Evaluation Understudy)
metric.
Our experiments resulted an improvement on the metric value of ± 0.027
BLEU score and an increase in the BLEU score above 0.5 of ± 18.8%. The metric
value indicates that the generated texts are not quite identical to the trained texts of
non-review statements. In addition, the results of the classification using data from
the proposed method provide better spam detection results with an increase of
average recall value of 38.05% compared to the classification using unbalanced
original data. From these results, it can be concluded that the proposed method
produces better text generation than the previous method by overcoming the
iv
mismatch of irrelevant text generation results and also the proposed method
succeeded in making spam review detection that recognizes spam better.
Item Type: | Thesis (Masters) |
---|---|
Uncontrolled Keywords: | Product Review, Part-of Speech, Text Generation, Topic Modeling, Word Embedding. Review Produk, Spam Review, Pembangkitan Kata, Pemodelan Topik, Part-of Speech. |
Subjects: | Q Science Q Science > Q Science (General) Q Science > Q Science (General) > Q325.5 Machine learning. Support vector machines. T Technology > T Technology (General) T Technology > T Technology (General) > T57.5 Data Processing |
Divisions: | Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Informatics Engineering > 55101-(S2) Master Thesis |
Depositing User: | Ana Alimatus Zaqiyah |
Date Deposited: | 27 Feb 2021 08:47 |
Last Modified: | 27 Feb 2021 08:47 |
URI: | http://repository.its.ac.id/id/eprint/82965 |
Actions (login required)
View Item |