Pengembangan Aplikasi Desktop Deteksi Malware Berbasis Machine Learning Dengan Data Windows Event Log

Mamahit, Christhoper Marcelino (2024) Pengembangan Aplikasi Desktop Deteksi Malware Berbasis Machine Learning Dengan Data Windows Event Log. Other thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 5025201249-Undergraduate_Thesis.pdf] Text
5025201249-Undergraduate_Thesis.pdf - Accepted Version
Restricted to Repository staff only until 1 April 2026.

Download (10MB) | Request a copy

Abstract

Digitalisasi telah meningkatkan penggunaan barang digital dalam kehidupan sehari-hari yang disertai juga dengan berkembangnya ancaman siber, salah satu bentuknya adalah malware. Malware merupakan serangan siber yang banyak ditemui dan dapat mempengaruhi banyak perangkat, dimasukkan ke dalam perangkat target tanpa sepengetahuan pemiliknya. Pada sistem operasi Windows, terdapat layanan bernama Sysmon yang mampu mencatat aktivitas sistem ke dalam Windows Event Log, yaitu data berisi informasi penting terkait peristiwa-peristiwa yang terjadi di komputer. Informasi pada data event log tersebut dapat dimanfaatkan untuk mengenali aktivitas-aktivitas yang terjadi di sistem termasuk untuk mendeteksi keberadaan aktivitas yang mencurigakan atau malware. Karena data event log besar dan kompleks, algoritma machine learning pun turut digunakan untuk memproses data tersebut. Sayangnya, deteksi malware dengan machine learning masih minim diterapkan langsung pada data dinamis di lingkungan nyata. Oleh karena itu, Tugas Akhir ini bertujuan untuk mengimplementasikan deteksi malware menggunakan algoritma machine learning pada lingkungan nyata milik pengguna dengan berfokus pada optimasi pembacaan data event log serta analisis efektivitas dan efisiensi model terkait. Penulis melakukan retraining karena uji coba model yang sudah jadi pada data dari lingkungan nyata memberikan hasil False Positive yang dominan. Retraining model terdiri dari variasi tiga algoritma, yaitu Local Outlier Factor, Isolation Forest, dan One Class SVM, serta dua jenis dataset, yaitu data event log penelitian dan data event log gabungan (gabungan data dari penelitian sebelumnya dan data dari komputer target). Seleksi model terbaik melewati tiga tahapan, yaitu seleksi performa berdasarkan metrik recall, precision, dan f1-score, lalu dilanjutkan dengan mcnemar test, dan diakhiri dengan pembuktian apakah model bisa mendeteksi event benign pada komputer target. Pada akhirnya, diperoleh algoritma Local Outlier Factor dengan data training gabungan sebagai model terbaik. Berdasarkan hasil uji coba dan analisis yang telah dilakukan pada penelitian ini, disimpulkan bahwa untuk membaca event log dengan optimal, strategi yang dilakukan adalah dengan membaca event dari yang paling baru (menggunakan parameter EvtQueryReverseDirection) dan memanfaatkan variabel offset sebagai titik stop untuk memastikan tiap event log dibaca hanya satu kali (tidak redundan). Selain itu, model machine learning memiliki keefektifan untuk mendeteksi file malware VirusShare dengan akurasi f1-score 0.9988, namun hanya berhasil menghentikan 9.9% dari keseluruhan malicious event tersebut. Di sisi efisiensi, untuk tiap event, model secara rata-rata membutuhkan waktu deteksi selama 0.3 detik dan waktu untuk terminate selama 1.31 detik sehingga totalnya adalah 1.61 detik untuk sebuah event diproses dari creation, deteksi, sampai termination.
=================================================================================================================================
Digitalization has caused an increase of digital devices daily use which is also accompanied by the growing of cyber threats, one form of which is malware. Malware is a common cyberattack that can affect many devices, that is injected into a targeted device without the owner’s awareness. In the Windows operating system, there is a service called Sysmon that can record system activity into the Windows Event Log, which is data containing important information related to events that occur on the computer. The information in the event log data can be used to recognize activities that occur on the system including detecting suspicious activities or malware existence. Because event log data is large and complex, machine learning (ML) algorithms are also used to process this data. Unfortunately, malware detection using machine learning is still rarely applied to dynamic data in real world situations. Therefore, this research aims to implement malware detection using machine learning algorithms in real-world environments by focusing on optimizing event log data gathering and analyzing the effectiveness and efficiency of related ML model. The author conducted retraining because existing model testing on data from the real-world environment gave dominant False Positive results. The retraining contains variations of three algorithms, namely are Local Outlier Factor, Isolation Forest, and One Class SVM, as well as two types of datasets, namely event log data from previous research and combined event log data (a combination of data from previous research and data from the target computer). The selection of the best model goes through three stages, namely performance selection based on recall, precision and f1-score metrics, then continued with a mcnemar test, and ending with proving whether the model can detect benign events on the target computer. In the end, the Local Outlier Factor algorithm with with combined data training was obtained as the best model. Based on the test results and analysis conducted in this research, it is concluded to read event logs optimally, the strategy is to read the event from the most recent (using the EvtQueryReverseDirection parameter) and utilize the offset variable as a stop point to ensure that each event log is read only once (not redundant). In addition, the machine learning model has the effectiveness to detect VirusShare files with an f1-score accuracy of 0.9988 but only succeeded in stopping 9.9% of the events. On the efficiency side, for each event, the model on average requires detection time of 0.3 seconds and time terminate of 1.31 seconds so that the total is 1.61 seconds for an event processed from creation, detection, to termination.

Item Type: Thesis (Other)
Uncontrolled Keywords: Malware, Machine learning, Sysmon, Windows Event Log
Subjects: T Technology > T Technology (General)
T Technology > T Technology (General) > T57.5 Data Processing
T Technology > T Technology (General) > T58.5 Information technology. IT--Auditing
Divisions: Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Informatics Engineering > 55201-(S1) Undergraduate Thesis
Depositing User: Christhoper Marcelino Mamahit
Date Deposited: 17 Jan 2024 08:09
Last Modified: 17 Jan 2024 08:09
URI: http://repository.its.ac.id/id/eprint/105522

Actions (login required)

View Item View Item