Pembangkitan Kata Menggunakan Metode Deep Learning Dengan Perluasan Representasi Vektor Kata Berbasis Topik Dan Struktur Pada Dataset Review

Zaqiyah, Ana Alimatus (2021) Pembangkitan Kata Menggunakan Metode Deep Learning Dengan Perluasan Representasi Vektor Kata Berbasis Topik Dan Struktur Pada Dataset Review. Masters thesis, Institut Teknologi Sepuluh Nopember.

[img] Text
05111950010032-Master_Thesis.pdf - Accepted Version
Restricted to Repository staff only

Download (2MB) | Request a copy

Abstract

Sistem deteksi review spam perlu dilakukan untuk mendeteksi review palsu, komentar hanya pada brand, pengiklanan produk lain, pertanyaan atau pernyataan yang tidak relevan (non-review) dengan produk yang ditampilkan. Sebagian besar spam review yang tersedia diberi label sebagai review palsu, padahal teks non-spam yang bukan review palsu dapat berisi pernyataan non-review. Karena kelangkaan menemukan pernyataan non-review, terdapat kondisi yang tidak seimbang antara non-spam sebagai kelas major dan spam yang terdiri dari pernyataan non-review sebagai kelas minor. Penambahan review palsu untuk menambahkan teks spam tidak efektif karena memiliki topik yang mirip dengan non-spam seperti beberapa kata opini tentang fitur produk. Jadi, pembangkitan kata pernyataan non-review lebih baik untuk dilakukan guna menambahkan teks spam. Masalah pada pembangkitan kata adalah metode berbasis jaringan saraf dan representasi vektor kata yang memerlukan banyak data pembelajaran, dan model pretrained yang ada menghasilkan teks dengan topik dan konteks berbeda dengan pernyataan nonreview. Tujuan penelitian ini adalah mengusulkan model pembangkitan kata dengan perluasan representasi vektor kata berbasis topik dan struktur pada dataset spam review. Perluasan yang dimaksudkan adalah penambahan korpus latih tambahan namun tidak dilakukan secara langsung ataupun acak, melainkan dengan seleksi berdasarkan topik dan struktur kalimat pada spam non-review produk. Perluasan berbasis topik menyeleksi hasil pemodelan topik non-review yang dipilih dari review palsu. Perluasan berbasis struktur mengidentifikasi struktur kata nonopini dari tag part-of-speech pada teks review yang tidak berlabel. Struktur tersebut mewakili konteks spam non-review dalam teks review yang tidak berlabel. Representasi vektor kata menjadi masukan pada arsitektur deep learning pembangkitan kata. Hasil pembangkitan kata dinilai kecocokannya dengan dataset asli spam non-review menggunakan metrik BLEU (Bi-Lingual Evaluation Understudy). Hasil pengujian menunjukkan bahwa ada kenaikan nilai BLEU sebesar ± 0.027 dan kenaikan nilai BLEU diatas 0.5 sebesar ± 18.8% sebagai evaluasi kualitas kecocokan hasil pembangkitan kata dan data asli spam non-review. Selain itu, hasil klasifikasi menggunakan data dari hasil metode usulan memberikan hasil deteksi spam yang lebih baik dengan penambahan rata-rata nilai recall sebesar ii 38.05 % dibandingkan dengan klasifikasi menggunakan data asli yang tidak seimbang. Dari hasil tersebut, dapat disimpulkan bahwa metode yang diusulkan menghasilkan pembangkitan kata yang lebih baik daripada metode sebelumnya dengan mengatasi ketidaksesuaian hasil pembangkitan kata yang tidak relevan dan juga metode usulan berhasil membuat deteksi spam review yang mengenali spam dengan lebih baik. ==================================================================================== Spam detection frequently categorizes product reviews as spam and nonspam. The spam reviews may contain texts of fake reviews and non-review statements describing unrelated things about products. Most of the publicly available spam reviews are labelled as fake reviews, while non-spam texts that are not fake reviews could contain non-review statements. It is crucial to notice those non-review statements since they convey misperception to consumers. Non-review statements are hardly found, and those statements of large and long texts often need to be manually labelled, which is time-consuming. Because of the rareness in finding non-review statements, there is an imbalanced condition between non-spam as a major class and spam that consists of the non-review statement as a minor class. Augmenting fake reviews to add spam texts is ineffective because they have similar content to non-spam such as some opinion words of product features. Thus, the text generation of non-review statements is preferable for adding spam texts. Some text generation issues are the frequent neural network-based methods require much learning data, and the existing pretrained models produce texts with different topic and contexts to non-review statements. Therefore, we propose a text generation model with content and structurebased expansion of the word vector representation in spam review dataset. Structure-based expansion identifies the feature structures of non-opinion words from part-of-speech tags. Those features represent the context of spam reviews in unlabeled texts. Then, content-based expansion appoints selected topic modeling results of non-review statements from fake reviews. The word vector representation becomes an input in word generation deep learning architecture. The results of the word generation were assessed for their correspondence with the original nonreviewed spam dataset using the BLEU (Bi-Lingual Evaluation Understudy) metric. Our experiments resulted an improvement on the metric value of ± 0.027 BLEU score and an increase in the BLEU score above 0.5 of ± 18.8%. The metric value indicates that the generated texts are not quite identical to the trained texts of non-review statements. In addition, the results of the classification using data from the proposed method provide better spam detection results with an increase of average recall value of 38.05% compared to the classification using unbalanced original data. From these results, it can be concluded that the proposed method produces better text generation than the previous method by overcoming the iv mismatch of irrelevant text generation results and also the proposed method succeeded in making spam review detection that recognizes spam better.

Item Type: Thesis (Masters)
Uncontrolled Keywords: Product Review, Part-of Speech, Text Generation, Topic Modeling, Word Embedding. Review Produk, Spam Review, Pembangkitan Kata, Pemodelan Topik, Part-of Speech.
Subjects: Q Science
Q Science > Q Science (General)
Q Science > Q Science (General) > Q325.5 Machine learning.
T Technology > T Technology (General)
T Technology > T Technology (General) > T57.5 Data Processing
Divisions: Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Informatics Engineering > 55101-(S2) Master Thesis
Depositing User: Ana Alimatus Zaqiyah
Date Deposited: 27 Feb 2021 08:47
Last Modified: 27 Feb 2021 08:47
URI: https://repository.its.ac.id/id/eprint/82965

Actions (login required)

View Item View Item