Penggunaan Data Kotor Dalam Melatih Model Berbasis Recurrent Neural Network (RNN) Untuk Mendeteksi Intrusi Berbasis Jaringan

Prabowo, Angela Oryza (2024) Penggunaan Data Kotor Dalam Melatih Model Berbasis Recurrent Neural Network (RNN) Untuk Mendeteksi Intrusi Berbasis Jaringan. Other thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 5025201022-Undergraduate_Thesis.pdf] Text
5025201022-Undergraduate_Thesis.pdf - Accepted Version
Restricted to Repository staff only until 1 October 2026.

Download (7MB) | Request a copy

Abstract

Dengan berkembangnya internet dan teknologi, keamanan sistem menjadi perhatian utama. Serangan terhadap sistem dapat terjadi karena adanya kesempatan untuk memanfaatkan celah keamanan. Sistem deteksi intrusi (IDS) berbasis jaringan (NIDS) mampu mendeteksi serangan sebelum mencapai korbannya. Dalam membangun sebuah NIDS, pendekatan berdasarkan anomali menjadi pilihan karena dapat mendeteksi serangan zero-day atau serangan yang belum pernah teridentifikasi sebelumnya. Oleh karena itu, penggunaan Deep Learning (DL) dengan arsitektur Recurrent Neural Network (RNN) menjadi pilihan yang tepat karena kemampuannya dalam mendeteksi anomali pada data berbentuk rangkaian. Namun, memperoleh dataset yang memadai menjadi tantangan. Hal ini dikarenakan membutuhkan cukup banyak waktu untuk membersihkan data trafik jaringan dari serangan-serangan yang ada di dalamnya. Oleh karena itu, penting untuk memahami seberapa besar pengaruh data kotor dalam data latih terhadap performa model NIDS yang akan dibangun. Dalam Tugas Akhir ini, kami akan menggunakan data trafik jaringan yang sah sebagai data latih, dan menambahkannya dengan data trafik yang berbahaya (data kotor) untuk menganalisis pengaruhnya terhadap performa model. Berdasarkan uji skenario yang dilakukan di penelitian, model LSTM dengan teknik pra-pemrosesan lanjutan memberikan performa terbaik untuk keseluruhan protokol ketika dilatih menggunakan data kotor. Rata-rata nilai f2-score yang diperoleh model ini mampu meraih 0,870. Noise yang ditambahkan ke dalam data latih sendiri dimulai dari 0%, 0,1%, 0,2%, dan 0,3%. Model ini mengalami perubahan nilai f2-score dengan gradien hanya sebesar 0,007 seiring ditambahkannya noise ke dalam data latih. Hal ini berarti tidak terjadi penurunan yang signifikan terhadap performa model terkait dalam mendeteksi serangan.
=================================================================================================================================
With the development of the internet and technology, system security has become a major concern. Attacks on systems can occur due to opportunities to exploit security vulnerabilities. Network-based Intrusion Detection Systems (NIDS) are capable of detecting attacks before they reach their targets. When building an NIDS, an anomaly-based approach is preferred as it can detect zero-day attacks or previously unidentified attacks. Therefore, the use of Deep Learning (DL) with Recurrent Neural Network (RNN) architecture is the appropriate choice due to its ability to ability to detect anomalies in sequential data. However, obtaining adequate datasets poses a challenge. This is because it takes a considerable amount of time to clean network traffic data from the malicious ones (noisy data). Therefore, it is important tounderstand the impact of noisy data in the training dataset on the performance of the NIDS model to be built. In this Final Project, we will use legitimate network traffic data as the training dataset and inject it with malicious network traffic data (noisy data) to analyze its impact on the model's performance. Based on scenario tests conducted in the study, the LSTM model with advanced pre-processing technique provided the best performance for the entire protocol when trained using noisy dataset. The average f2-score value obtained by this model was 0,870. The noise added to the training data itself starts from 0%, 0,1%, 0,2%, and 0,3%. This model experienced a change in f2-score value with a gradient of only 0,007 as noise was added to the training data. This means that there is no significant decrease in the performance of the related model in detecting attacks.

Item Type: Thesis (Other)
Uncontrolled Keywords: Deep Learning, Network Traffic, NIDS, Noisy Datasets, RNN
Subjects: Q Science > Q Science (General) > Q325.5 Machine learning. Support vector machines.
Q Science > Q Science (General) > Q337.5 Pattern recognition systems
T Technology > T Technology (General) > T57.5 Data Processing
Divisions: Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Informatics Engineering > 55201-(S1) Undergraduate Thesis
Depositing User: Angela Oryza Prabowo
Date Deposited: 09 Jul 2024 12:34
Last Modified: 09 Jul 2024 12:34
URI: http://repository.its.ac.id/id/eprint/108218

Actions (login required)

View Item View Item