Perbaikan Prediksi Kesalahan Perangkat Lunak Menggunakan Seleksi Fitur Dan Cluster-Based Classification

Muhamad, Fachrul Pralienka Bani (2017) Perbaikan Prediksi Kesalahan Perangkat Lunak Menggunakan Seleksi Fitur Dan Cluster-Based Classification. Masters thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 5115201044-Master_Thesis.pdf]
Preview
Text
5115201044-Master_Thesis.pdf - Published Version

Download (3MB) | Preview

Abstract

Nilai balance pada hasil prediksi kesalahan perangkat lunak perlu menjadi perhatian, karena pada umumnya persebaran label kelas true dan false pada dataset kesalahan perangkat lunak cenderung tidak seimbang. Nilai balance diperoleh dari hasil tarik-ulur (trade-off) antara nilai probability detection (pd) dan probability false alarm (pf). Peneliti sebelumnya telah mengusulkan metode untuk memprediksi kesalahan perangkat lunak, yaitu cluster-based classification (CBC) yang diintegrasikan dengan entropy-based discretization (EBD) di tujuh dataset NASA public MDP. Hasil penelitian sebelumnya menunjukkan nilai rata-rata balance adalah 67,65% dengan 83,3% pd dan 40,3% pf.

Penelitian ini mengusulkan perbaikan nilai balance dari hasil prediksi kesalahan perangkat lunak pada metode CBC, dengan mengintegrasikan metode seleksi fitur. Adapun metode seleksi fitur yang akan diintegrasikan dengan CBC
yaitu gain ratio (GR), information gain (IG), one-r (OR), relief-f (RFF), dan symmetric uncertainty (SU). Hal ini didasarkan pada penelitian sebelumnya, dimana model prediksi dengan fitur yang redundan dan tidak relevan pada dataset kesalahan perangkat lunak dapat menurunkan nilai pd dan meningkatkan nilai pf, sehingga nilai balance cenderung menurun. Berdasarkan hasil penelitian dengan menggunakan tujuh dataset NASA public MDP, ditunjukkan bahwa CBC yang dikombinasikan dengan metode seleksi fitur IG dapat menghasilkan nilai rata-rata balance paling tinggi jika dibandingkan dengan rata-rata nilai balance di metode seleksi fitur lainnya, yaitu 63,73%. Jika dibandingkan dengan metode CBC pada penelitian sebelumnya di lima dataset yang sama, maka usulan kombinasi metode CBC dengan seleksi fitur IG dapat menghasilkan nilai rata-rata balance 0,52% yang lebih rendah, yaitu 63,91% pada
usulan metode dan 64,43% pada penelitian sebelumnya. Namun, metode yang diusulkan dapat menghasilkan nilai balance yang lebih baik pada 3 dari 5 dataset, yaitu CM1 (69,05%), MW1 (62,90%), dan PC4 (72,70%).

====================================================================

The balance values in software fault prediction results should be of
con
cern, since in most cases the distribution of true and false label labels on the
software
fault
dataset tends to be unbalanced. The balance value is obtained from
the trade
-
off between probability detection (pd) and probability false alarm (pf).
Previous r
esearchers have proposed a method for predicting software errors, namely
cluster
-
based classification (CBC) which is integrated with entropy
-
based
discretization (EBD) in 7 NASA public MDP datasets. The results of the previous
study showed that the average
balance
value was
67.65
% with 83.3% pd and
40.3
%
pf.
This study proposes an improvement
of
balance value
in
software fault
prediction results
using
CBC, by integrating feature selection methods. The feature
selection methods that will be integrated
on
CBC are gain ratio (GR), information
gain (IG), one
-
r (OR), relief
-
f (RFF), and symmetric uncertainty (SU). Based on
the previous research, predictive models with redundant and irrelevant features in
the software fault dataset can decrease the pd value an
d increase the pf value, so
that
the balance value tends to decrease.
Based on the
research
using 7 NASA public MDP datasets, it was shown
that CBC which combined with IG can yield the highest average value of balance
when compared to other feature select
ion m
ethod in this research, i.e. 63.
73%
balance. When it compared to CBC in previous study using the same
5
NASA
datasets, the proposed combination can result
in 0.52% lower balance average, i.e.
63,91
%
on proposed method and
64,43
%
on previous research
.
However, the
proposed method can yield better balance values in 3 of 5 datasets, i
.
e
.
CM1
(69.05%), MW1 (62.90%), and PC4 (72.70%).

Item Type: Thesis (Masters)
Uncontrolled Keywords: Cluster-based classification, Entropy-based discretization, Kesalahan perangkat lunak, NASA public MDP, Seleksi Fitur.
Subjects: T Technology > T Technology (General)
Divisions: Faculty of Information Technology > Informatics Engineering > 55101-(S2) Master Thesis
Depositing User: Muhamad Fachrul Pralienka Bani
Date Deposited: 12 Dec 2017 03:47
Last Modified: 06 Mar 2019 03:31
URI: http://repository.its.ac.id/id/eprint/47177

Actions (login required)

View Item View Item