Perbaikan Prediksi Kesalahan Perangkat Lunak Menggunakan Seleksi Fitur Dan Cluster-Based Classification

Muhamad, Fachrul Pralienka Bani (2017) Perbaikan Prediksi Kesalahan Perangkat Lunak Menggunakan Seleksi Fitur Dan Cluster-Based Classification. Masters thesis, Institut Teknologi Sepuluh Nopember.

[img]
Preview
Text
5115201044-Master_Thesis.pdf - Published Version

Download (3MB) | Preview

Abstract

Nilai balance pada hasil prediksi kesalahan perangkat lunak perlu menjadi perhatian, karena pada umumnya persebaran label kelas true dan false pada dataset kesalahan perangkat lunak cenderung tidak seimbang. Nilai balance diperoleh dari hasil tarik-ulur (trade-off) antara nilai probability detection (pd) dan probability false alarm (pf). Peneliti sebelumnya telah mengusulkan metode untuk memprediksi kesalahan perangkat lunak, yaitu cluster-based classification (CBC) yang diintegrasikan dengan entropy-based discretization (EBD) di tujuh dataset NASA public MDP. Hasil penelitian sebelumnya menunjukkan nilai rata-rata balance adalah 67,65% dengan 83,3% pd dan 40,3% pf. Penelitian ini mengusulkan perbaikan nilai balance dari hasil prediksi kesalahan perangkat lunak pada metode CBC, dengan mengintegrasikan metode seleksi fitur. Adapun metode seleksi fitur yang akan diintegrasikan dengan CBC yaitu gain ratio (GR), information gain (IG), one-r (OR), relief-f (RFF), dan symmetric uncertainty (SU). Hal ini didasarkan pada penelitian sebelumnya, dimana model prediksi dengan fitur yang redundan dan tidak relevan pada dataset kesalahan perangkat lunak dapat menurunkan nilai pd dan meningkatkan nilai pf, sehingga nilai balance cenderung menurun. Berdasarkan hasil penelitian dengan menggunakan tujuh dataset NASA public MDP, ditunjukkan bahwa CBC yang dikombinasikan dengan metode seleksi fitur IG dapat menghasilkan nilai rata-rata balance paling tinggi jika dibandingkan dengan rata-rata nilai balance di metode seleksi fitur lainnya, yaitu 63,73%. Jika dibandingkan dengan metode CBC pada penelitian sebelumnya di lima dataset yang sama, maka usulan kombinasi metode CBC dengan seleksi fitur IG dapat menghasilkan nilai rata-rata balance 0,52% yang lebih rendah, yaitu 63,91% pada usulan metode dan 64,43% pada penelitian sebelumnya. Namun, metode yang diusulkan dapat menghasilkan nilai balance yang lebih baik pada 3 dari 5 dataset, yaitu CM1 (69,05%), MW1 (62,90%), dan PC4 (72,70%). ==================================================================== The balance values in software fault prediction results should be of con cern, since in most cases the distribution of true and false label labels on the software fault dataset tends to be unbalanced. The balance value is obtained from the trade - off between probability detection (pd) and probability false alarm (pf). Previous r esearchers have proposed a method for predicting software errors, namely cluster - based classification (CBC) which is integrated with entropy - based discretization (EBD) in 7 NASA public MDP datasets. The results of the previous study showed that the average balance value was 67.65 % with 83.3% pd and 40.3 % pf. This study proposes an improvement of balance value in software fault prediction results using CBC, by integrating feature selection methods. The feature selection methods that will be integrated on CBC are gain ratio (GR), information gain (IG), one - r (OR), relief - f (RFF), and symmetric uncertainty (SU). Based on the previous research, predictive models with redundant and irrelevant features in the software fault dataset can decrease the pd value an d increase the pf value, so that the balance value tends to decrease. Based on the research using 7 NASA public MDP datasets, it was shown that CBC which combined with IG can yield the highest average value of balance when compared to other feature select ion m ethod in this research, i.e. 63. 73% balance. When it compared to CBC in previous study using the same 5 NASA datasets, the proposed combination can result in 0.52% lower balance average, i.e. 63,91 % on proposed method and 64,43 % on previous research . However, the proposed method can yield better balance values in 3 of 5 datasets, i . e . CM1 (69.05%), MW1 (62.90%), and PC4 (72.70%).

Item Type: Thesis (Masters)
Uncontrolled Keywords: Cluster-based classification, Entropy-based discretization, Kesalahan perangkat lunak, NASA public MDP, Seleksi Fitur.
Subjects: T Technology > T Technology (General)
Divisions: Faculty of Information Technology > Informatics Engineering > (S2) Master Theses
Depositing User: Muhamad Fachrul Pralienka Bani
Date Deposited: 12 Dec 2017 03:47
Last Modified: 06 Mar 2019 03:31
URI: http://repository.its.ac.id/id/eprint/47177

Actions (login required)

View Item View Item