Reduksi Dimensi Fitur Menggunakan Algoritma ALOFT Untuk Pengelompokan Dokumen

Hani`ah, Mamluatul (2016) Reduksi Dimensi Fitur Menggunakan Algoritma ALOFT Untuk Pengelompokan Dokumen. Undergraduate thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 5114201027-master theses.pdf]
Preview
Text
5114201027-master theses.pdf - Accepted Version

Download (1MB) | Preview
[thumbnail of 5114201027-paperpdf.pdf]
Preview
Text
5114201027-paperpdf.pdf - Accepted Version

Download (441kB) | Preview
[thumbnail of 5114201027-presentationpdf.pdf]
Preview
Text
5114201027-presentationpdf.pdf - Presentation

Download (953kB) | Preview

Abstract

Pengelompokan dokumen masih memiliki tantangan dimana semakin besar
dokumen maka akan menghasilkan fitur yang semakin banyak. Sehingga
berdampak pada tingginya dimensi dan dapat menyebabkan performa yang buruk
terhadap algoritma clustering. Cara untuk mengatasi masalah ini adalah dengan
reduksi dimensi. Metode reduksi dimensi seperti seleksi fitur dengan metode filter
telah digunakan untuk pengelompokan dokumen. Akan tetapi metode filter sangat
tergantung pada masukan pengguna untuk memilih sejumlah n fitur teratas dari
keseluruhan dokumen, metode ini sering disebut variable rangking (VR). Cara
mengatasi masalah ini adalah dengan Algoritma ALOFT (At Least One FeaTure)
dimana ALOFT dapat menghasilkan sejumlah set fitur secara otomatis tanpa
adanya parameter masukan dari pengguna. Algoritma ALOFT pada penelitian
sebelumnya digunakan untuk klasifikasi dokumen, metode filter yang digunakan
pada algoritma ALOFT adalah metode filter yang membutuhkan adanya label pada
kelas sehingga metode filter tersebut tidak dapat digunakan untuk pengelompokan
dokumen.
Oleh karena itu, pada penelitian ini diusulkan metode reduksi dimensi fitur
dengan menggunakan variasi metode filter pada algoritma ALOFT untuk
pengelompokan dokumen. Proses pencarian kata dasar pada penelitian ini
dilakukan dengan menggunakan kata turunan yang disediakan oleh Kateglo
(kamus, tesaurus, dan glosarium). Fase reduksi dimensi dilakukan dengan
menggunakan metode filter seperti Document Frequency (DF), Term Contributtion
(TC), Term Variance Quality (TVQ), Term Variance (TV), Mean Absolute
Difference (MAD), Mean Median (MM), dan Arithmetic Mean Geometric Mean
(AMGM). Selanjutnya himpunan fitur akhir dipilih dengan algoritma ALOFT.
Tahap terakhir adalah pengelompokan dokumen menggunakan dua metode
clustering yang berbeda yaitu k-means dan hierarchical agglomerative clustering
(HAC).
Kualitas dari cluster yang dihasilkan dievaluasi dengan menggunakan
metode silhouette coefficient. Pengujian dilakukan dengan cara membandingkan
nilai silhouette coefficient dari variasi metode filter pada ALOFT dengan pemilihan
fitur secara VR. Berdasarkan pengujian variasi metode filter pada ALOFT untuk
pengelompokan dokumen didapatkan bahwa kualitas cluster yang dihasilkan oleh
metode usulan dengan menggunakan algoritma k-means mampu memperbaiki hasil
dari metode VR. Kualitas cluster yang didapat memiliki kriteria “Baik” untuk filter
TC, TV, TVQ, dan MAD dengan rata – rata silhouette lebih dari 0,5. ========== Document clustering still have a challenge when the volume of document
increases, the dimensionality of term features increases as well. this contributes to
the high dimensionality and may cause deteriorates performance and accuracy of
clustering algorithm. The way to overcome this problem is dimension reduction.
Dimension reduction methods such as feature selection using filter method has been
used for document clustering. But the filter method is highly dependent on user
input to select number of n top features from the whole document, this method often
called variable ranking (VR). ALOFT (At Least One feature) Algorithm can
generate a number of feature set automatically without user input. In the previous
research ALOFT algorithm used on classification documents so the filter method
require labels on classes. Such filter method can not be used on document
clustering.
This research proposed feature dimension reduction method by using
variations of several filter methods in ALOFT algorithm for document clustering.
Before the dimension reduction process first step that must be done is the
preprocessing phase then calculate the weight of term using tfidf. filter method used
in this study are such Document Frequency (DF), Term contributtion (TC), Term
Variance Quality (TVQ), Term Variance (TV), Mean Absolute Difference (MAD),
Mean Median (MM), and Arithmetic Mean geometric Mean (AMGM).
Furthermore, the final feature set selected by the algorithm ALOFT. The last phase
is document clustering using two different clustering methods, k-means and
agglomerative hierarchical clustering (HAC).
Quality of cluster are evaluated using coefficient silhouette. Experiment is
done by comparing value of silhouette coefficient from variation of filter method in
ALOFT with feature selection in VR. Experiment results showed that the proposed
method using k-means algorithm able to improve results of VR methods. This
research resulted quality of cluster with criteria of "Good" for filter TC, TV, TVQ,
and MAD with average silhouette width (ASW) more than 0.5

Item Type: Thesis (Undergraduate)
Additional Information: RTIf 006.312 Han r 3100016068193
Uncontrolled Keywords: Reduksi dimensi, metode filter, ALOFT, pengelompokan dokumen, dimension reduction, filter method, ALOFT, document clustering
Subjects: Q Science > QA Mathematics > QA76.9.D343 Data mining. Querying (Computer science)
Divisions: Faculty of Information Technology > Informatics Engineering > 55101-(S2) Master Thesis
Depositing User: - Davi Wah
Date Deposited: 28 Nov 2019 09:02
Last Modified: 28 Nov 2019 09:02
URI: http://repository.its.ac.id/id/eprint/71894

Actions (login required)

View Item View Item