Deteksi Akun Spammer Berdasarkan Hashtag Dan Aktifitas Komunitas Pada Twitter

Priyatno, Arif Mudi (2020) Deteksi Akun Spammer Berdasarkan Hashtag Dan Aktifitas Komunitas Pada Twitter. Masters thesis, institut teknologi sepuluh nopember.

[img] Text
05111850010039_Master_Thesis.pdf - Accepted Version
Restricted to Repository staff only

Download (2MB) | Request a copy

Abstract

Spammer meniru pola perilaku pengguna yang sah untuk menghindari terdeteksi oleh pendeteksi spam. Spammer membuat banyak account palsu dan berkolaborasi satu sama lain untuk membentuk komunitas. Kolaborasi antar account menggunakan tweet berbeda-beda tetapi menggunakan hashtag untuk mencapai tujuan. Kolaborasi tweet berbeda ini akan membuat seperti hashtag natural yang banyak diperbincangkan orang di Twitter. Kolaborasi ini mempersulit deteksi account spammer karena berada di antara account legitimate yang membuat tweet dengan hashtag. Penelitian ini mengusulkan pengembangan ekstraksi fitur berdasarkan hashtag dan aktivitas komunitas untuk mendeteksi account spammer di Twitter. Proses penentuan komunitas menggunakan perangkat lunak gephi dengan data following account yang membuat tweet pada account Twitter Komisi Pemberantasan Korupsi Republik Indonesia dari tanggal 01 Agustus 2018 hingga 10 September 2019. Data tersebut dilakukan proses ekstraksi fitur account, tweet, dan komunitas. Tweet dilakukan dengan menggunakan hashtag. Hashtag digunakan oleh spammer untuk meningkatkan popularitas. Pada fitur account, tweet, dan komunitas dilakukan seleksi fitur untuk mendapatkan fitur optimal dengan menggunakan Recursive Feature Elimination. Hasil seleksi fitur digunakan untuk mendapatkan nilai legitimate atau spammer menggunakan multi-layer perceptron. Hasil nilai dilakukan penggabungan dengan menggunakan pembobotan untuk penentuan spammer. Hasil percobaan menunjukkan bahwa pengembangan ekstraksi fitur berdasarkan hashtag dan aktivitas komunitas berhasil untuk mendeteksi account spammer di Twitter. Metode yang diusulkan mendapatkan nilai akurasi, recall, presisi, dan g-mean masing-masing 90,6%, 88,0%, 3,2%, dan 16,7%. Hasil fitur seleksi pada fitur tweet setiap pembagian persentase dataset tidak mengalami perubahan yaitu 6 fitur. Pada fitur tweet terdapat fitur jumlah hashtag dan unique hashtag. Unique hashtag yang tinggi menunjukan bahwa account melakukan hashtag berbeda-beda yang tidak memiliki keterkaitan terhadap spammer. Hal ini membuktikan bahwa hashtag digunakan oleh spammer dalam aktivitasnya. Bobot fitur account dan tweet memiliki keseimbangan dalam keberhasilan penentuan spammer. Fitur komunitas dilihat berdasarkan bobot yang digunakan, dengan hasil yang bagus yaitu lebih kecil dari 0,3. ================================================================================================================== Spammers imitate legitimate user behavior patterns to avoid being detected by spam detectors. Spammers create lots of fake accounts and collaborate with each other to form communities. Collaboration between accounts uses different tweets but using hashtags to achieve goals. This different tweet collaboration will make it look like a natural hashtag that many people talk about on Twitter. This collaboration makes it difficult to detect spammers' accounts because they are among legitimate accounts that tweet with hashtags. This research proposed the development of feature extraction based on hashtags and community activities to detect spammer accounts on Twitter. The process of determining the community uses Gephi software by using the following account data which tweeted on the Indonesian Republic's Corruption Eradication Commission's Twitter account from 01 August 2018 to 10 September 2019. Data was extracted about the account, tweet, and community. Tweets done contain a hashtag. Hashtags are used by spammers to increase popularity. Features about accounts, tweets, and community features are selected to get optimal features using Recursive Feature Elimination. The feature selection results are used to get legitimate values or spammers using multi-layer perceptron. The results of the value are merged using weighting to determine the spammer's account. The experimental results show that the development of feature extraction based on hashtags and community activities has succeeded in detecting spammers' accounts on Twitter. The proposed method obtains accuracy, recall, precision, and g-mean with 90.6%, 88.0%, 3.2% and 16.7% respectively. The results of the selection feature on the tweet feature per division of the dataset does not change, namely 6 features. In the tweet feature there is a hashtag and unique hashtag feature. High unique hashtags indicate that accounts have different hashtags that are not related to spammers. This proves that the hashtag is used by spammers in their activities. The weight of account and tweet features has a balance in determining the success of spammers. Community features based on weights are used that good results are smaller than 0.3.

Item Type: Thesis (Masters)
Uncontrolled Keywords: Spammer, Komunitas, Hashtag, Twitter, multi-layer perceptron, Spammers, Community, Hashtag, Twitter, multi-layer perceptron
Subjects: Q Science > QA Mathematics > QA76.87 Neural networks (Computer Science)
Q Science > QA Mathematics > QA76.9.D343 Data mining
Z Bibliography. Library Science. Information Resources > ZA Information resources > Z699.5 Information storage and retrieval systems
Divisions: Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Informatics Engineering > (S2) Master Thesis
Depositing User: arif mudi priyatno
Date Deposited: 15 Aug 2020 05:16
Last Modified: 15 Aug 2020 05:16
URI: http://repository.its.ac.id/id/eprint/78225

Actions (login required)

View Item View Item