Klasterisasi Fitur Dengan Menggunakan Informasi Global Berbasis Ensemble Feature Selection Pada Klasifikasi Dokumen Teks

Aryuni, Mediana (2006) Klasterisasi Fitur Dengan Menggunakan Informasi Global Berbasis Ensemble Feature Selection Pada Klasifikasi Dokumen Teks. Masters thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 5104201007-Master_Thesis.pdf] Text
5104201007-Master_Thesis.pdf
Restricted to Repository staff only

Download (8MB) | Request a copy

Abstract

Klasifikasi dokumen teks merupakan salah satu metode yang digunakan untuk sistem pengorganisasian dan manajemen informasi. Seiring perkembangan informasi di Internet yang pesat, peningkatan efektifitas serta efisiensi dari manajemen dan pengorganisasian dokumen teks menjadi hal yang krusial, sehingga diperlukan pengklasifikasi dokumen teks yang memiliki model klasifikasi yang sederhana dengan akurasi yang tinggi. Klasterisasi fitur (kata) dapat mengurangi feature space dengan menggabungkan kata-kata yang mirip menjadi sebuah klaster sehingga terbentuk model klasifikasi yang lebih sederhana. Sedangkan metode ensemble yang terdiri dari beberapa pengklasifikasi dasar dapat meningkatkan akurasi klasifikasi dibandingkan dengan sistem pengklasifikasi tunggal, terutama apabila pengklasifikasi dasarnya akurat dan sangat beragam (diverse). Adapun dua hal yang penting dalam penerapan metode ensemble meliputi pembuatan pengklasifikasi dasar dan penggabungan hasil klasifikasi dari tiap-tiap pengklasifikasi dasar menjadi hasil klasifikasi akhir. Tujuan penelitian yang dituangkan dalam tesis ini berkaitan dengan pembuatan aplikasi klasifikasi dokumen teks menggunakan algoritma klasterisasi fitur yang melibatkan informasi global berbasis ensemble feature selection pada sistem pengklasifikasi dasarnya. Metodologi penelitian yang dilakukan meliputi praproses dokumen teks yang luarannya disimpan pada tabel hasil pengindeksan, pembangkitan feature subspaces untuk setiap pengklasifikasi dasar menggunakan metode random subspaces yang disertai perbaikan secara iteratif dengan algoritma genetika, implementasi algoritma klasterisasi fitur berbasis informasi global pada pengklasifikasi dasar sebagai metode pengurangan fitur pada vektor dokumen, dan integrasi hasil klasifikasi dari setiap pengklasifikasi dasar untuk memperoleh hasil klasifikasi akhir menggunakan teknik integrasi static selection dan majority voting. Aplikasi yang telah berhasil diimplementasikan diuji coba dengan menggunakan dataset Newsgroup (20NG). Hasil uji coba menunjukkan bahwa aplikasi yang dikembangkan selain mampu mengurangi waktu komputasi proses klasifikasi juga dapat meningkatkan akurasi klasifikasi. Penerapan algoritma klasterisasi fitur berbasis informasi global membuat pengklasifikasi dasar memiliki waktu komputasi klasifikasi relatif lebih cepat dibandingkan pengklasifikasi dasar yang tidak menerapkan klasterisasi fitur. Untuk klasifikasi dokumen teks ke dalam 2 kategori dan 3 kategori berturut-turut memberikan penghematan waktu sebesar 1.18 detik dan 27.04 detik. Selain itu, hasil uji coba menunjukkan bahwa metode ensemble feature selection yang disertai perbaikan fitur yang melibatkan algoritma genetika memiliki akurasi yang relatif lebih baik dibandingkan dengan pengklasifikasi tunggal. Untuk uji coba klasifikasi ke dalam 2 kategori dan 3 kategori, teknik integrasi static selection dapat meningkatkan akurasi ratarata berturut-turut sebesar 10% dan 10.66%. Sedangkan teknik integrasi majority voting untuk uji coba yang sama dapat meningkatkan akurasi rata-rata berturut-turut sebesar 10% dan 12%.
=======================================================================================================================================
Text classifier for organizing and managing information is expected to have a simple classification model with high accuracy. Feature (word) clustering can reduce feature spaces by joining similar words into one cluster. The ensemble method is an approach where several classifiers are created from the training data which can be often more accurate than any of the single classifiers, especially if the base classifiers are both accurate and are different one each other. There are two important questions in the ensemble method: (a) how to generate the base classifiers of an ensemble, and (b) how to integrate the individual base classifiers into one final classifier. The objective of this research is concerned with the development of a text categorization system that employs feature clustering using global information based on ensemble feature selection. The research methodology adopted consists of text documents preprocessing, feature subspaces generation using the genetic algorithm-based iterative refinement, implementation of base classifiers by applying feature clustering using global information, and classification result integration of each base classifier using both the static selection and majority voting methods. Newsgroup (20NG) dataset is used for the experiments. Experimental results show that the computational time consumed in classifying the dataset into 2 and 3 categories using the feature clustering method based on global information is 1.18 and 27.04 seconds faster in compared to those that do not employs the feature selection method, respectively. Experimental results also show that using static selection method, the ensemble feature selection method with genetic algorithm-based iterative refinement produce 10% and 10.66% better accuracy in compared to those produced by the single classifier in classifying the dataset into 2 and 3 categories, respectively. Whilst, using the majority voting method for the same experiment, the similar ensemble method produce 10% and 12% better accuracy than those produced by the single classifier, respectively.

Item Type: Thesis (Masters)
Additional Information: RTIf 005.1 Ary k 2006 3100006028295 (WEEDING)
Uncontrolled Keywords: klasterisasi fitur, informasi global, klasifikasi, ensemble feature selection, feature clustering, global information, classification
Subjects: Q Science > QA Mathematics > QA402.5 Genetic algorithms. Interior-point methods.
Divisions: Faculty of Industrial Technology > Informatics Engineering > 55101-(S2) Master Thesis
Depositing User: Anis Wulandari
Date Deposited: 29 Apr 2026 09:32
Last Modified: 29 Apr 2026 09:32
URI: http://repository.its.ac.id/id/eprint/132926

Actions (login required)

View Item View Item