Seleksi Fitur Pada Pengelompokan Dokumen Dengan Random Projection - Gram Schmidt Orthogonalization dan Algoritma Harmony Search

Machmud, Muhammad (2017) Seleksi Fitur Pada Pengelompokan Dokumen Dengan Random Projection - Gram Schmidt Orthogonalization dan Algoritma Harmony Search. Masters thesis, Institut Teknologi Sepuluh Nopember.

[img]
Preview
Text
5114201035-Master-Theses.pdf - Published Version

Download (1MB) | Preview

Abstract

Proses pengelompokan dokumen sangat tergantung pada keberadaan fitur kata tiap dokumen dan kemiripan antar fitur kata tersebut. Fitur kata pada suatu dokumen terkadang merupakan fitur noise, redundant, maupun fitur kata yang tidak relevan sehingga menyebabkan hasil akhir proses pengelompokan dokumen menjadi bias. Selain itu, pengelompokan dokumen dengan metode klasik kurang bisa menghasilkan kelompok dokumen yang mampu merepresentasikan kemiripan isi pada tiap-tiap kelompok dokumen. Pada penelitian ini diusulkan seleksi fitur pada pengelompokan dokumen dengan Random Projection Gram Schmidt Orthogonalization (RPGSO) dan Algoritma Harmony Search (HS). Dengan metode RPGSO akan didapatkan tingkat kepentingan tiap-tiap fitur kata untuk semua dokumen. Pada algoritma HS, dilakukan proses pengelompokan dokumen berdasarkan urutan fitur-fitur kata dari RPGSO dengan fitness function berupa Average Distance of Documents to the cluster Centroid (ADDC). Untuk mendapatkan kelompok dokumen dengan kriteria evaluasi yang paling baik, proses pengelompokan dokumen dengan algoritma HS ini diiterasi untuk jumlah fitur yang berbeda sesuai urutan yang dihasilkan dari proses RP-GSO. Uji coba dilaksanakan terhadap tiga buah dataset dokumen berita dengan evaluasi menggunakan kriteria F-Measure. Berdasarkan uji coba tersebut, metode usulan mampu menghasilkan kelompok dokumen dengan rata-rata F-Measure lebih tinggi 9.50% dibandingkan dengan menggunakan seluruh fitur. Uji coba juga menunjukkan bahwa kelompok dokumen yang dihasilkan dari metode usulan memiliki rata-rata F-Measure lebih tinggi 8.40% dibandingkan K-Means yang menggunakan Cosine Similarity, dan jika dibandingkan dengan K-Means yang menggunakan Euclidean Distance, metode usulan mampu menghasilkan kelompok dokumen dengan rata-rata F-Measure lebih tinggi sampai 120.05%. ====================================================================================== Document clustering procceses are depends on the quality of its term features and the similarity between those features. Sometimes the features of the document is a noise, redundant, or irrelevant and its cause the result of document clustering is bias. Furthermore, classical clustering method was unable to generate clusters of documents that is represent the similarity of its contents. In this study, we propose feature selection in document clustering using Random Projection Gram Schmidt Orthogonalization (RPGSO) and Harmony Search (HS) algorithm. With using RPGSO methods we will obtain the rank of term features of all documents. Then, we cluster the document based on the rank of features using HS algorithm with fitness function is Average Distance of Documents to the cluster Centroid (ADDC). To produce the clusters of documents which the best evaluation criteria, the clustering algorithm will be iterated for different number of features based on RPGSO rank. The methode has been tested to three datasets of news documents with F-Measure as evaluation criteria,. Based on the testing result, the proposed method generates clusters of documents with average of F-Measure criteria that 9.50% higher than use all features of documents in datasets.The testing result also shown that the proposed method generate clusters of documents with average of F-Measure criteria that 8.40% higher than K-Means method with Cosine Similarity and 120.05% higher than K-Means method with Euclidean Distance.

Item Type: Thesis (Masters)
Uncontrolled Keywords: Seleksi Fitur; Pengelompokan Dokumen; Random Projection Gram Schmidt Orthogonalization; Harmony Search; Feature Selection; Document Clustering; Random Projection Gram Schmidt Orthogonalization; Harmony Search
Subjects: Q Science > QA Mathematics > QA184 Algebra, Linear
Q Science > QA Mathematics > QA75 Electronic computers. Computer science. EDP
Q Science > QA Mathematics > QA76 Computer software
Q Science > QA Mathematics > QA278 Cluster Analysis. Multivariate analysis. Correspondence analysis (Statistics)
Z Bibliography. Library Science. Information Resources > ZA Information resources > Z699.5 Information storage and retrieval systems
Z Bibliography. Library Science. Information Resources > ZA Information resources > ZA4050 Electronic information resources
Divisions: Faculty of Information Technology > Informatics Engineering > 55101-(S2) Master Thesis
Depositing User: MACHMUD -
Date Deposited: 29 Mar 2017 01:59
Last Modified: 05 Mar 2019 06:00
URI: http://repository.its.ac.id/id/eprint/1950

Actions (login required)

View Item View Item