Pengembangan Metode Decision Tree Dengan Diskritisasi Data Dan Splitting Atribut Menggunakan Heirarchical Clustering Dan Dispersion Ratio

Setyawan, Dimas Ari (2020) Pengembangan Metode Decision Tree Dengan Diskritisasi Data Dan Splitting Atribut Menggunakan Heirarchical Clustering Dan Dispersion Ratio. Masters thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 05111850010043-Master_Thesis.pdf]
Preview
Text
05111850010043-Master_Thesis.pdf

Download (1MB) | Preview

Abstract

Pada umumnya metode decision tree menggunakan information gain pada proses splitting, tetapi dalam perkembangannya information gain mempunyai kelemahan ketika dataset memiliki atribut unik seperti id-product untuk setiap record dan distribusi kelas yang imbalance. Pada umumnya data yang digunakan untuk klasifikasi decision tree memiliki 2 tipe yaitu numerik dan nominal. Proses pelatihan decision tree pada tipe data numerik meggunakan proses diskritisasi data untuk memperoleh interval data sehingga memudahkan dalam pembangunan tree. Diskritisasi data numerik dengan equal interval memiliki kelemahan yaitu distribusi data yang tidak seimbang.
Kelemahan metode information gain pada proses splitting dapat ditangai dengan penggunaan metode dispersion ratio yang tidak tergantung pada distribusi kelas, tetapi pada distribusi frekuensi. Metode dispersion ratio hanya bisa digunakan untuk splitting data tipe nominal. Sehigga data yang bertipe numerik akan dilakukan diskritisasi data menggunakan metode hierarchical clustering untuk memperoleh cluster data yang seimbang. Oleh karena itu, penelitian ini mengembangkan metode decision tree dengan disktritisasi data dan splitting atribut menggunakan hierarchical clustering dan dispersion ratio. Data yang digunakan pada penelitian ini diambil dari UCI machine learning repository, yang memilki dua tipe data numerik dan nominal. Ada dua tahap pada penelitian ini yaitu, pertama data yang bertipe numerik dilakukan diskritisasi menggunakan hierarchical clustering dengan 3 metode yaitu single link, complete link, dan average link. Kedua, data hasil diskritisasi digabung kembali kemudian dilakukan pembentukan tree dengan splitting atribut menggunakan dispersion ratio dan di evaluasi dengan 7-fold cross validation.
Dari hasil evaluasi yang diperoleh, proses diskritisasi data dengan hierarchical clustering dapat meningkatkan prediksi sebesar 14,6% dibandingkan dengan data tanpa diskritisasi. Sedangkan proses splitting atribut dengan dispersion ratio dari data hasil diskritisasi hierarchical clustering dapat meningkatkan prediksi sebesar 6,15 %.
====================================================================================================================
Generally, the decision tree method uses the information gain in the splitting process, but in its development the information gain has weaknesses when the dataset has unique attributes such as ID-product for each record and the distribution of the imbalance class. Generally, the data used for the decision tree classification has two types: numeric and nominal. The process of decision tree training in the numeric data type uses the data diskritization process to obtain the data interval to facilitate the development of the tree. Numerical data diskritization with equal intervals has a weakness i.e. unbalanced data distribution.
The downside of the information gain method in the splitting process can be handled by the use of a dispersion ratio method that does not depend on the class distribution, but on the frequency distribution. The dispersion ratio method can only be used to splitting nominal type data. The numeric data Sehigga will be performed data diskritization using the hierarchical clustering method to obtain a balanced data cluster. Therefore, this research develops the decision tree methods with data disktritization and splitting attributes using hierarchical clustering and dispersion ratio. The data used in this research is derived from the UCI machine learning Repository, which has two types of numerical and nominal data. There are two stages in this research that is, the first numeric-type data is done discretization using hierarchical clustering with 3 methods i.e. single link, complete link, and average link. Second, the data is disritated result recombined then done tree formation with splitting attribute using dispersion ratio and evaluation with 7-fold cross validation.
From the results of the evaluation, data diskritization process with hierarchical clustering can increase the prediction by 14.6% compared to data without disritization. While the splitting attribute process with the dispersion ratio of the results data is discrete hierarchical clustering can increase the prediction by 6.15%.

Item Type: Thesis (Masters)
Uncontrolled Keywords: Decision Tree, Hierarchical Clustering, Dispersion Ratio
Subjects: T Technology > T Technology (General) > T57.5 Data Processing
Divisions: Faculty of Information and Communication Technology > Informatics > 55101-(S2) Master Thesis
Depositing User: Dimas Ari Setyawan
Date Deposited: 14 Aug 2020 08:32
Last Modified: 20 Jun 2023 14:50
URI: http://repository.its.ac.id/id/eprint/78216

Actions (login required)

View Item View Item