Kombinasi TF-IDF dan Pemilihan Fitur Markov Random Field (MRF) Dalam Perbaikan Kinerja Pengelompokan Twitter Keluhan Pajak

Dellia, Prita (2017) Kombinasi TF-IDF dan Pemilihan Fitur Markov Random Field (MRF) Dalam Perbaikan Kinerja Pengelompokan Twitter Keluhan Pajak. Masters thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 5214201005-Master-Theses.pdf] Text
5214201005-Master-Theses.pdf
Restricted to Repository staff only

Download (1MB) | Request a copy

Abstract

Kesadaran penduduk Indonesia untuk membayar pajak masih rendah. Peningkatan kepatuhan wajib pajak dapat dilakukan dengan memberikan pelayanan yang baik kepada wajib pajak, sehingga aparat pajak harus melakukan perbaikan kualitas pelayanan. Pemanfaatan twitter mendorong munculnya informasi tekstual yang tidak terbatas dan masyarakat dengan mudah mengungkapkan keluhan. Melalui kombinasi metode pembobotan TF-IDF dengan pemilihan fitur Markov Random Field (MRF), data keluhan pajak yang diutarakan masyarakat melalui twitter dapat dianalisis dengan efektif dan efisien. Pemilihan fitur Markov Random Field (MRF) efektif untuk memilih fitur relevan pada data twitter yang mengandung banyak noise. Metode pembobotan Term Frequency - Inverse Document Frequency (TF-IDF) membobot kata dengan mengelompokkan dokumen berdasarkan kata yang sering muncul dalam dokumen secara individu namun jarang muncul pada dokumen lain. Penggunaan metode TF-IDF mendukung kinerja pemilihan fitur MRF untuk menemukan fitur-fitur relevan. Tahapan yang dilakukan pada penelitian yaitu praproses teks dengan case folding, tokenizing, filtering. Setelah itu membobot kata menggunakan TF-IDF dan memilih fitur relevan menggunakan pemilihan fitur Markov Random Field (MRF). Proses pengelompokan dokumen menggunakan K-means clustering dan evaluasi kinerja dilihat melalui nilai Error Rate. Hasil eksperimen menunjukkan TF-IDF mampu mengungguli metode pembobotan term frequency dengan nilai error rate pada tiap parameter beta 0.06, 0.05, 0.04, 0.03, 0.02 masing-masing sebesar 51.76%, 51.56%, 52.86%, 41.81%, 43.02% dan juga pada rata-rata error rate sebesar 47.17%. Penelitian ini berhasil mengelompokkan twitter keluhan pajak menjadi 3 cluster yaitu pelayanan, website dan non-keluhan.
=======================================================================================
Awareness of the Indonesian population to pay taxes is still low. Increased tax compliance can be done by providing good service to the taxpayer, so that the tax authorities should be to improve the quality of service. Twitter utilization encourage the emergence of limitless textual information and public can express complaints easily. Trough combination of TF-IDF weighting method and Markov Random Field (MRF) feature selection, the data of tax complaints raised by the community via twitter can be analyzed effectively and efficiently. Markov Random Field (MRF) feature selection is effective to select relevant features in the data twitter that contains a lot of noise. Term Frequency - Inverse Document Frequency (TF-IDF) weighting the word to classify documents based on words that often appear in the document individually but rarely appears in other documents. The use of TF-IDF method supports the performance of MRF feature selection to find relevant features. An initial stages of this research is text preprocessing using case folding, tokenizing and filtering. After that, weighting the word using TF-IDF and select relevant features using Markov Random Field (MRF) feature selection. The process of grouping documents using K-means clustering and performance evaluation be seen through the value of Error Rate. The experimental results show the TF-IDF outperformed the term frequency weighting method for each parameter of beta 0.06, 0.05, 0.04, 0.03, 0.02 respectively by 51.76%, 51.56%, 52.86%, 41.81%, 43.02% and also the average error rate of 47.17%. This study successfully classify twitter tax complaints into three clusters, namely services, websites and non-complaints.

Item Type: Thesis (Masters)
Uncontrolled Keywords: clustering; keluhan pajak; markov random field; TF-IDF; tax complaints
Subjects: Q Science > QA Mathematics > QA278 Cluster Analysis. Multivariate analysis. Correspondence analysis (Statistics)
Divisions: Faculty of Information Technology > Information System > 59101-(S2) Master Thesis
Depositing User: Prita Dell Prita Dellia
Date Deposited: 30 Mar 2017 03:38
Last Modified: 22 Dec 2017 01:13
URI: http://repository.its.ac.id/id/eprint/2701

Actions (login required)

View Item View Item