Penyaringan Surel Bersifat Spam Dengan Menggunakan Online Active Ensemble Learning

Naufal, Muhammad Rafif Fadhil and Putri, Lia Kharisma (2024) Penyaringan Surel Bersifat Spam Dengan Menggunakan Online Active Ensemble Learning. Project Report. [s.n], [s.l.]. (Unpublished)

[thumbnail of 5025201034_5025201273-Project_Report.pdf] Text
5025201034_5025201273-Project_Report.pdf - Accepted Version
Restricted to Repository staff only

Download (1MB) | Request a copy

Abstract

Surel merupakan salah satu bentuk komunikasi yang sangat umum digunakan di seluruh dunia. Hal ini mengakibatkan traffic keluar-masuk surel yang berkembang di tiap tahunnya. Salah satu masalah yang sering terjadi pada surel adalah adanya surel yang bersifat spam. Spam merupakan surel yang tidak diinginkan oleh penerimanya dan biasanya berisi iklan, penipuan, atau konten yang tidak senonoh. Penyaringan surel merupakan salah satu upaya mewujudkan Pembangunan Berkelanjutan (SDGs). Pada Penelitian ini, akan dibuat sebuah model untuk melakukan penyaringan surel bersifat spam dengan menggunakan metode Online Active Ensemble Learning. Metode ini merupakan perpaduan antara online active learning dengan model klasifikasi ensemble. Model ini akan diimplementasikan menggunakan bahasa pemrograman Python. Dataset yang digunakan penelitian ini merupakan dataset public bernama enron-spam. Dataset ini terdiri dari kumpulan email 6 pegawai Enron. Total email yang terdapat pada dataset ini adalah 33.716 email. Hasil eksperimen menunjukkan bahwa model yang menggunakan metode Online Active Ensemble Learning memiliki performa yang lebih baik dibandingkan dengan model single learning. Hal ini ditunjukkan dengan nilai akurasi, presisi, recall, dan f1-score yang lebih tinggi. Selain itu, penggunaan resource yang dibutuhkan untuk melakukan prediksi dan learning juga lebih rendah, sehingga semakin mendukung efisiensi dan keberlanjutan. Kesimpulannya, metode Online Active Ensemble Learning dapat digunakan untuk melakukan penyaringan surel bersifat spam dengan performa yang baik dan efisien dalam penggunaan resource, sehingga turut berkontribusi terhadap pencapaian beberapa SDGs.
============================================================================================================================
Email is one of the most common forms of communication used worldwide, leading to a growing volume of incoming and outgoing email traffic each year. One of the recurring issues with email is the presence of spam, which refers to unwanted emails typically containing advertisements, scams, or inappropriate content. Email filtering is one approach to realizing Sustainable Development Goals (SDGs). In this research, a model will be developed to filter spam emails using the Online Active Ensemble Learning method, which combines online active learning with ensemble classification models. This model will be implemented using the Python programming language. The dataset used in this study is a public dataset called enron-spam, consisting of a collection of emails from six Enron employees totaling 33,716 emails. Experimental results indicate that the model utilizing the Online Active Ensemble Learning method outperforms single learning models, as evidenced by higher accuracy, precision, recall, and f1-score values. Additionally, the resource requirements for prediction and learning are lower, further supporting efficiency and sustainability. In conclusion, the Online Active Ensemble Learning method can be employed for effective and resource-efficient spam email filtering, thereby contributing to the achievement of several SDGs.

Item Type: Monograph (Project Report)
Uncontrolled Keywords: Sentiment Analysis, Query Expansion, Bidirectional Encoder Representation from Transformer, Term Frequency-Inverse Document Frequency
Subjects: T Technology > T Technology (General) > T57.5 Data Processing
T Technology > T Technology (General) > T57.8 Nonlinear programming. Support vector machine. Wavelets. Hidden Markov models.
Divisions: Faculty of Information and Communication Technology > Informatics > 55201-(S1) Undergraduate Thesis
Depositing User: Muhammad Rafif Fadhil Naufal
Date Deposited: 28 Mar 2024 07:40
Last Modified: 29 Apr 2024 05:34
URI: http://repository.its.ac.id/id/eprint/107850

Actions (login required)

View Item View Item