Fitur Leksikon Dan Stochastic Gradient Descent Untuk Analisis Sentimen Kasus Ulasan Candi Nusantara

Noviani, Erina Fika (2021) Fitur Leksikon Dan Stochastic Gradient Descent Untuk Analisis Sentimen Kasus Ulasan Candi Nusantara. Masters thesis, Institut Teknologi Sepuluh November.

[thumbnail of 6025212001-Master_Thesis.pdf] Text
6025212001-Master_Thesis.pdf - Accepted Version
Restricted to Repository staff only until 1 April 2026.

Download (8MB) | Request a copy

Abstract

Banyak pengunjung yang meninggalkan ulasan untuk memberi rekomendasi suatu tempat wisata. Terdapat banyak platform yang menyediakan fitur tempat menulis ulasan, salah satu di antaranya adalah Tripadvisor. Komentar dengan sentimen positif yang dituliskan pengujung sering tidak konsisten dengan rating yang diberikan. Rating pada Tripadvisor tidak akurat dalam menentukan sentimen positif dan negatif dari ulasan. Adanya leksikon membantu penilaian kata dalam ulasan sentimen positif meskipun komentar tersebut diberikan rating rendah. Jika analisis sentimen diterapkan dalam aplikasi bagi manajemen pengelola tempat wisata dengan dana terbatas, maka dibutuhkan sistem klasifikasi ulasan yang tidak membutuhkan domain atau hosting. Stochastic Gradient Descent (SGD) digunakan dalam penelitian karena pada proses klasifikasi, pengambilan data secara acak sesuai untuk pengujian perbandingan hasil polaritas ulasan yang sesuai kelasnya oleh proses leksikon.
Data yang digunakan yaitu ulasan wisatawan Candi di Indonesia pada situs Tripadvisor, khususnya Candi Borobudur, Prambanan, Plaosan, Ijo, dan Mendhut. Ulasan diolah dengan pra-pemprosesan data untuk mengubah data mentah dalam format yang berguna dan efisien. Pra-pemprosesan data terdiri dari beberapa tahap yaitu hapus tanda baca, filtering kata, dan tokenisasi. Pembuatan matriks leksikon untuk pembobotan kata dilakukan dengan data hasil pra-pemprosesan. Data yang didapatkan tidak seimbang, karena terdiri dari 5.129 kelas positif dan 1.027 kelas negatif. Dilakukan resampling untuk menyeimbangkan data dengan metode ROS (Random Over Sampling). Pada tahapan klasifikasi dilakukan perbandingan dari data hasil leksikon dengan pembagian data train dan test 50:50 menggunakan metode SGD dan metode pembanding sejenis.
Didapatkan hasil penelitian, metode SGD mengalami peningkatan hasil akurasi 9,89%, presisi 11%, recall 2,52%, dan f1 score 7,21%. Data leksikon masih mengalami kegagalan karena ketidakjelasan kata ulasan dan arti sebuah kata berbeda-beda berdasarkan konteks kamus yang dimiliki. Misalnya pada SGD memiliki keseluruhan data 5.129 yang selisih keberhasilan 984 dari 499 data leksikon. Meskipun data leksikon mengalami peningkatan hasil evaluasi tetapi keterbatasan kamus yang dimiliki menjadikan data gagal saat proses klasifikasi.
=====================================================================================================================================
Many visitors leave reviews to provide recommendations for tourist attractions. Many platforms provide features for writing reviews, one of which is Tripadvisor. Comments with positive sentiments written by users are often inconsistent with the ratings given. Ratings on Tripadvisor are not accurate in determining positive and negative sentiment from reviews. The existence of a lexicon helps assess words in positive sentiment reviews even if the comment is given a low rating. If sentiment analysis is applied in applications for the management of tourist attractions with limited funds, a review classification system is needed that does not require a domain or hosting. Stochastic Gradient Descent
(SGD) is used in research because, in the classification process, random data collection is suitable for testing comparisons of review polarity results according to class by the lexicon process.
The data used are tourist reviews of temples in Indonesia on the Tripadvisor site, especially Borobudur, Prambanan, Plaosan, Ijo, and Mendhut temples. Reviews are processed by data pre-processing to transform the raw data into a useful and efficient format. Data pre-processing consists of several stages, namely removing punctuation, word filtering, and tokenization. Creating a lexicon matrix for word weighting is done using pre-processed data. The data obtained is not balanced, because it consists of 5,129 positive classes and 1,027 negative classes. Resampling was carried out to balance the data using the ROS (Random Over
Sampling) method. At the classification stage, a comparison of the lexicon data is carried out by dividing the train and test data 50:50 using the SGD method and similar comparison methods.
The research results showed that the SGD method experienced an increase in accuracy of 9.89%, precision of 11%, recall of 2.52%, and f1 score of 7.21%. Lexicon data still experiences failure due to unclear review words and the meaning of a word varies based on the context of the dictionary at hand. For example, SGD has a total of 5,129 data which is a success difference of 984 out of 499 lexicon
data. Even though the lexicon data has improved evaluation results, the limitations of the dictionary make the data fail during the classification process.

Item Type: Thesis (Masters)
Uncontrolled Keywords: Ulasan Candi Nusantara, Analisis Sentimen, Leksikon, dan Stochastic Gradient Descent
Subjects: T Technology > T Technology (General) > T57.5 Data Processing
Divisions: Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Informatics Engineering > 55101-(S2) Master Thesis
Depositing User: Erina Fika Noviani
Date Deposited: 06 Apr 2024 12:48
Last Modified: 06 Apr 2024 12:48
URI: http://repository.its.ac.id/id/eprint/107867

Actions (login required)

View Item View Item