Pembuatan Dataset untuk Model Deteksi Malware pada Linux

Kosim, Stefanus Albert (2023) Pembuatan Dataset untuk Model Deteksi Malware pada Linux. Other thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 05111940000096-Undergraduate_Thesis.pdf] Text
05111940000096-Undergraduate_Thesis.pdf - Accepted Version
Restricted to Repository staff only until 1 September 2025.

Download (4MB) | Request a copy

Abstract

Malware merupakan suatu program yang dimasukkan ke dalam sistem dengan tujuan untuk mengganggu keamanan, integritas, atau ketersediaan dari data korban, aplikasi, ataupun sistem operasi. Setiap hari, ditemukan lebih dari 450.000 malware yang sudah diselidiki dan diklasifikasi berdasarkan karakteristiknya. Saat ini, penelitian yang mengembangkan model deteksi malware pada sistem operasi Linux masih menggunakan dataset sendiri dengan menjalankan malware dalam jumlah yang kecil. Pada penelitian ini akan dilakukan pembuatan dataset dengan menggunakan Cuckoo Sandbox sebagai alat untuk analisis malware dinamik dengan bantuan Sysmon sebagai alat untuk mencatat perilaku program di dalam syslog, dan situs VirusShare sebagai sumber dari malware. Dataset yang dihasilkan terdiri dari 22.784 berkas yang dieksekusi dengan rincian 10.414 merupakan berkas benignware dan 12.370 merupakan berkas malware. Isi dari dataset berupa perilaku program yang dicatat oleh Sysmon dan ditarik menggunakan modul pada Cuckoo. Terdapat perbedaan data pada dataset di sistem operasi Linux dengan Windows karena adanya perbedaan konfigurasi dan pengembangan aplikasi Sysmon. Perbedaan data ini mungkin menyebabkan rendahnya hasil prediksi malware jika menggunakan model yang dilatih dengan dataset di sistem operasi Windows. Dataset yang dihasilkan melalui penelitian ini diharapkan dapat berkontribusi pada pengembangan model deteksi malware yang lebih akurat untuk sistem operasi Linux.
=====================================================================================================================================
Malware is a program that is inserted into a system, with the intent of compromising the confidentiality, integrity, or availability of the victim’s data, applications, or operating system or otherwise annoying or disrupting the victim. According to AV-Test 2022, more than 450,000 new malware and potentially unwanted application are examined and classified according to their characteristics. Currently, research on developing malware detection models for Linux operating systems still relies on proprietary datasets by executing a small number of malware samples. This research will generate a dataset using Cuckoo Sandbox as a tool for automated malware analysis. Sysmon as a tool to monitor and log system activity to syslog, and VirusShare website as a source of malware. The resulting dataset contains 22,784 executable files,categorized into benignware (10,414) and malware (12,370), with program behavior recorded by Sysmon and visualized using Cuckoo's modules. Discrepancies between Linux and Windows datasets in terms of Sysmon configuration and application development may lead to diminished prediction results when using Windows-trained models. We hope that the dataset will help machine learning researchers for malware detection, especially, Linux-based malware.

Item Type: Thesis (Other)
Uncontrolled Keywords: Malware, Dataset, Cuckoo Sandbox, Linux, Sysmon, Malware, Dataset, Cuckoo Sandbox, Linux, Sysmon
Subjects: T Technology > T Technology (General) > T57.5 Data Processing
T Technology > T Technology (General) > T57.74 Linear programming
Divisions: Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Informatics Engineering > 55201-(S1) Undergraduate Thesis
Depositing User: Stefanus Albert Kosim
Date Deposited: 11 Sep 2023 03:05
Last Modified: 11 Sep 2023 03:05
URI: http://repository.its.ac.id/id/eprint/102268

Actions (login required)

View Item View Item