Weighted KNN Menggunakan Grey Relational Analysis untuk Solusi Nilai yang Absen pada Prediksi Kesalahan Perangkat Lunak Lintas Ranah

Ulumi, Desepta Isna (2018) Weighted KNN Menggunakan Grey Relational Analysis untuk Solusi Nilai yang Absen pada Prediksi Kesalahan Perangkat Lunak Lintas Ranah. Masters thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 5116201018-Master_Thesis.pdf]
Preview
Text
5116201018-Master_Thesis.pdf

Download (1MB) | Preview

Abstract

Prediksi kesalahan perangkat lunak memiliki peranan penting dalam mendeteksi komponen yang paling rentan terjadi kesalahan perangkat lunak. Beberapa penelitian telah berupaya meningkatkan akurasi prediksi kesalahan perangkat lunak agar dapat mengelola sumber daya (manusia, biaya dan waktu) lebih baik. Namun penelitian sebelumnya masih membuat model prediksi kesalahan perangkat lunak untuk ranah tertentu saja. Belum terdapat penanganan dataset yang lintas ranah.
Penelitian ini memperbaiki model prediksi kesalahan perangkat lunak agar dapat menangani dataset yang digabung (lintas ranah) dengan jumlah fitur yang berbeda-beda. Agar jumlah fitur tiap dataset seimbang maka pengisian nilai yang absen akibat penggabungan dataset lintas ranah dilakukan. Penelitian ini mengembangkan metode weighted KNN untuk mengisi nilai yang absen tersebut. Dataset yang diperlengkapi tesebut selanjutnya diklasifikasi menggunakan naive bayes dan random forest. Penelitian ini juga mencari kumpulan fitur apa yang relevan dalam mendeteksi defect dengan cara melakukan analisis perbandingan metode seleksi fitur.
Untuk pengujian, penelitian ini menggunakan tujuh dataset NASA public MDP (Modular toolkit for Data Preprocessing). Hasil pengujian menunjukkan bahwa data tidak imbang (imbalance) menghasilkan nilai balance terbaik jika metode naive bayes dikombinasi dengan metode seleksi fitur information gain (IG) atau symmetric uncertainty (SU), yaitu 0.4975. Hasil pengujian juga menunjukkan bahwa data imbang (balance) menghasilkan nilai balance terbaik jika metode random forest dikombinasi dengan metode seleksi fitur gain ratio (GR), yaitu 0.7795. Secara umum, hasil klasifikasi dengan masing-masing tujuh dataset NASA public MDP relative tidak jauh berbeda dari hasil klasifikasi data lintas ranah dimana hasil klasifikasi lintah ranah adalah 0.4975. Bahkan hasil ini masih diatas dari hasil klasifikasi atas dataset PC2, yaitu 0.4033.
================================================================================================
Defect prediction plays important roles in detecting vulnerable component within a software. Some researches have tried to improve the accuration of software defect prediction so that it helps developer to manage resources (human, cost, and time) better. Those researches focus on building the software defect prediction model only for a specific domain. Research on cross-project domain has not been carried out before.
This research developed a software defect prediction model for cross-project domain. Thus, the domain contains datasets with different number of features. To extend shorted features in a dataset, the method calculates the missing values. This research developed a method, called weighted KNN, to fill in the missing value. The refill datasets are then classified using naive bayes and random forest. This research also conducted a feature selection process to select relevant featues for detecting defects by means of a comparative analysis of methods of selection of features.
For the experimentation, this research used seven NASA public dataset MDPs. The results show that for imbalance data, naïve bayes combined with information gain (IG) or symmetric uncertainty (SU) feature selection produced the best balance, i.e. 0.4975. It also shows that for balance data, random forest combined with gain ratio (GR) produced the best balance, i.e. 0.7795. In general, the developed method performed relatively alike the previous method, which classifiy only specific domain, i.e. 0.4975. It even outperformed previous method for dataset PC2, i.e. 0.4033.

Item Type: Thesis (Masters)
Additional Information: RTIf 006.42 Ulu w-1 2019
Uncontrolled Keywords: Kesalahan perangkat lunak, NASA public MDP, weighted KNN, naive bayes, random forest
Subjects: Q Science > QA Mathematics > QA278.55 Cluster analysis
T Technology > T Technology (General)
Divisions: Faculty of Information and Communication Technology > Informatics > 55101-(S2) Master Thesis
Depositing User: Desepta Isna Ulumi
Date Deposited: 02 Jul 2021 08:33
Last Modified: 02 Jul 2021 08:33
URI: http://repository.its.ac.id/id/eprint/60424

Actions (login required)

View Item View Item