Reduksi Dimensi Fitur Menggunakan Algoritma ALOFT Untuk Pengelompokan Dokumen

Hani`ah, Mamluatul (2016) Reduksi Dimensi Fitur Menggunakan Algoritma ALOFT Untuk Pengelompokan Dokumen. Undergraduate thesis, Institut Teknologi Sepuluh Nopember.

[img]
Preview
Text
5114201027-master theses.pdf - Accepted Version

Download (1MB) | Preview
[img]
Preview
Text
5114201027-paperpdf.pdf - Accepted Version

Download (441kB) | Preview
[img]
Preview
Text
5114201027-presentationpdf.pdf - Presentation

Download (953kB) | Preview

Abstract

Pengelompokan dokumen masih memiliki tantangan dimana semakin besar dokumen maka akan menghasilkan fitur yang semakin banyak. Sehingga berdampak pada tingginya dimensi dan dapat menyebabkan performa yang buruk terhadap algoritma clustering. Cara untuk mengatasi masalah ini adalah dengan reduksi dimensi. Metode reduksi dimensi seperti seleksi fitur dengan metode filter telah digunakan untuk pengelompokan dokumen. Akan tetapi metode filter sangat tergantung pada masukan pengguna untuk memilih sejumlah n fitur teratas dari keseluruhan dokumen, metode ini sering disebut variable rangking (VR). Cara mengatasi masalah ini adalah dengan Algoritma ALOFT (At Least One FeaTure) dimana ALOFT dapat menghasilkan sejumlah set fitur secara otomatis tanpa adanya parameter masukan dari pengguna. Algoritma ALOFT pada penelitian sebelumnya digunakan untuk klasifikasi dokumen, metode filter yang digunakan pada algoritma ALOFT adalah metode filter yang membutuhkan adanya label pada kelas sehingga metode filter tersebut tidak dapat digunakan untuk pengelompokan dokumen. Oleh karena itu, pada penelitian ini diusulkan metode reduksi dimensi fitur dengan menggunakan variasi metode filter pada algoritma ALOFT untuk pengelompokan dokumen. Proses pencarian kata dasar pada penelitian ini dilakukan dengan menggunakan kata turunan yang disediakan oleh Kateglo (kamus, tesaurus, dan glosarium). Fase reduksi dimensi dilakukan dengan menggunakan metode filter seperti Document Frequency (DF), Term Contributtion (TC), Term Variance Quality (TVQ), Term Variance (TV), Mean Absolute Difference (MAD), Mean Median (MM), dan Arithmetic Mean Geometric Mean (AMGM). Selanjutnya himpunan fitur akhir dipilih dengan algoritma ALOFT. Tahap terakhir adalah pengelompokan dokumen menggunakan dua metode clustering yang berbeda yaitu k-means dan hierarchical agglomerative clustering (HAC). Kualitas dari cluster yang dihasilkan dievaluasi dengan menggunakan metode silhouette coefficient. Pengujian dilakukan dengan cara membandingkan nilai silhouette coefficient dari variasi metode filter pada ALOFT dengan pemilihan fitur secara VR. Berdasarkan pengujian variasi metode filter pada ALOFT untuk pengelompokan dokumen didapatkan bahwa kualitas cluster yang dihasilkan oleh metode usulan dengan menggunakan algoritma k-means mampu memperbaiki hasil dari metode VR. Kualitas cluster yang didapat memiliki kriteria “Baik” untuk filter TC, TV, TVQ, dan MAD dengan rata – rata silhouette lebih dari 0,5. ========== Document clustering still have a challenge when the volume of document increases, the dimensionality of term features increases as well. this contributes to the high dimensionality and may cause deteriorates performance and accuracy of clustering algorithm. The way to overcome this problem is dimension reduction. Dimension reduction methods such as feature selection using filter method has been used for document clustering. But the filter method is highly dependent on user input to select number of n top features from the whole document, this method often called variable ranking (VR). ALOFT (At Least One feature) Algorithm can generate a number of feature set automatically without user input. In the previous research ALOFT algorithm used on classification documents so the filter method require labels on classes. Such filter method can not be used on document clustering. This research proposed feature dimension reduction method by using variations of several filter methods in ALOFT algorithm for document clustering. Before the dimension reduction process first step that must be done is the preprocessing phase then calculate the weight of term using tfidf. filter method used in this study are such Document Frequency (DF), Term contributtion (TC), Term Variance Quality (TVQ), Term Variance (TV), Mean Absolute Difference (MAD), Mean Median (MM), and Arithmetic Mean geometric Mean (AMGM). Furthermore, the final feature set selected by the algorithm ALOFT. The last phase is document clustering using two different clustering methods, k-means and agglomerative hierarchical clustering (HAC). Quality of cluster are evaluated using coefficient silhouette. Experiment is done by comparing value of silhouette coefficient from variation of filter method in ALOFT with feature selection in VR. Experiment results showed that the proposed method using k-means algorithm able to improve results of VR methods. This research resulted quality of cluster with criteria of "Good" for filter TC, TV, TVQ, and MAD with average silhouette width (ASW) more than 0.5

Item Type: Thesis (Undergraduate)
Additional Information: RTIf 006.312 Han r 3100016068193
Uncontrolled Keywords: Reduksi dimensi, metode filter, ALOFT, pengelompokan dokumen, dimension reduction, filter method, ALOFT, document clustering
Subjects: Q Science > QA Mathematics > QA76.9.D343 Data mining
Divisions: Faculty of Information Technology > Informatics Engineering > 55101-(S2) Master Thesis
Depositing User: - Davi Wah
Date Deposited: 28 Nov 2019 09:02
Last Modified: 28 Nov 2019 09:02
URI: http://repository.its.ac.id/id/eprint/71894

Actions (login required)

View Item View Item