Rizki, Afian Syafaadi (2017) Perbandingan Stemmer Bahasa Indonesia dan Dampaknya pada Penggalian Teks Bahasa Indonesia, Studi Kasus Pengelompokan Keluhan Pelanggan PLN. Masters thesis, Institut Teknologi Sepuluh Nopember.
Preview |
Text
5214201201_Master_Thesis.pdf - Published Version Download (3MB) | Preview |
Abstract
Stemming merupakan salah satu tahap yang dilakukan pada proses penggalian informasi dari teks. Proses stemming adalah proses untuk mengubah bentuk kata menjadi kata dasar. Metode stemmer dapat dievaluasi dengan dua cara, yang pertama adalah mengukur seberapa akurat metode stemmer untuk mengubah kata menjadi kata dasar. Cara yang kedua adalah mengukur seberapa besar pengaruh yang diberikan metode stemmer pada performa penggalian informasi, misalnya berapa persentase kenaikan hasil klasifikasi dokumen dengan menerapkan metode stemmer. Pada penelitian ini akan dibandingkan metode-metode stemmer Bahasa Indonesia dan satu metode stemmer Bahasa Inggris. Metode stemmer yang digunakan yaitu porter confix striping stemmer, nazief stemmer, arifin stemmer, fadillah stemmer, asian stemmer, enhanced confix stripping stemmer, dan arifiyanti stemmer. Metode pengelompokan data yang digunakan adalah k-means sedangkan untuk mengevaluasi hasil pengelompokan data/ cluster, digunakan davies bouldin index (DBI). Untuk mengukur performa metode-metode stemmer dalam mengubah kata menjadi kata dasar digunakan metode evaluasi paice yang meliputi perhitungan indeks understemming dan overstemming. Selain itu, digunakan pengujian t terhadap rata-rata nilai DBI untuk mengetahui signifikansi dari peningkatan performa pengelompokan data. Hasil penelitian menunjukkan bahwa metode stemmer yang paling akurat adalah enhached confix stripping stemmer dengan nilai understemming 0,06845 dan nilai overstemming 0,00116, sedangkan performa terendah adalah porter confix striping stemmer dengan nilai understemming 0,22661 dan nilai overstemming 0,0. Untuk metode stemmer yang mampu meningkatkan performa clustering secara signifikan adalah metode arifiyanti stemmer dengan rata-rata DBI 8,673 dan p-value 0.01496, metode asian stemmer dengan rata-rata DBI 8,696 dan p-value 0.00018, dan metode nazief stemmer dengan rata-rata DBI 8,759, dan p-value 0.01405.
=============================================================================================
Stemming is one of the stages performed for extracting information from a text. The stemming process is a process of converting a word into its root. The stemmer method can be evaluated in two ways, the first is to measure how accurate the method is in converting a word into its root. The second way is to measure how much influence the stemmer method has in improving the performance of information retrieval, for example, how much is the improvement of document classification result by applying stemmer method. In this study the researcher compared the stemming methods of Indonesian language and an English stemmer method. The stemmer methods used were porter confix stripping stemmer, nazief stemmer, arifin stemmer, fadillah stemmer, asian stemmer, enhanced confix stripping stemmer, and arifiyanti stemmer. The method used for clustering the data was k-means while to evaluate the result of cluster, this study used davies bouldin index (DBI). To measure the performance of stemmer methods in converting words into roots, paice evaluation method was used, which included calculation of understemming and overstemming index. In addition, a t-test against the average values of DBI was performed to find out the significance of the improved performance in data clustering. The results show that the most accurate stemmer method was enhanced confix stripping stemmer with understemming value of 0.06845 and overstemming value of 0.00116, while the lowest performance wasporter confix stripping stemmer with understemming value of 0.22661 and overstemming value of 0.0. The stemming methods which can significantly improve data clustering performance werearifiyanti stemmer with the average of DBI 8.673 and p-valueof 0.01496, asian stemmer with the average of DBI 8.696 and p-valueof 0.00018, and nazief stemmer with the average of DBI 8.759, and p-valueof 0.01405.
Item Type: | Thesis (Masters) |
---|---|
Uncontrolled Keywords: | Stemming Bahasa Indonesia, text mining, information retrieval, Confix Stripping Stemmer, k-means, paice evaluation |
Subjects: | T Technology > T Technology (General) > T58.62 Decision support systems |
Divisions: | Faculty of Information Technology > Information System > 59101-(S2) Master Thesis |
Depositing User: | Afian Syafaadi Rizki |
Date Deposited: | 13 Nov 2017 07:47 |
Last Modified: | 05 Mar 2019 07:44 |
URI: | http://repository.its.ac.id/id/eprint/43254 |
Actions (login required)
View Item |