Pengembangan Metode Stemmer untuk Bahasa Bali dengan Pendekatan Rule-Based dan N-Gram Stemming

Subali, Made Agus Putra (2019) Pengembangan Metode Stemmer untuk Bahasa Bali dengan Pendekatan Rule-Based dan N-Gram Stemming. Masters thesis, Institut Teknologi Sepuluh Nopember.

[img] Text
05111750010017-Master_Thesis.pdf - Published Version
Restricted to Repository staff only

Download (3MB) | Request a copy

Abstract

Dalam bahasa Bali dikenal adanya kata dasar dan kata turunan. Kata turunan sering disebut dengan istilah kata berimbuhan. Istilah imbuhan dapat disejajarkan dengan afiks. Kata berafiks dalam bahasa Bali dapat dibedakan menurut tempatnya melekat pada bentuk dasar atau asal, yaitu prefiks, sufiks, infiks, konfiks, simulfiks, dan kombinasi afiks. Proses untuk mengekstraksi kata dasar dari kata berafiks dikenal dengan istilah stemming. Penelitian terdahulu stemming bahasa Bali pernah dilakukan dengan menggunakan metode rule-based, tapi afiks yang diluluhkan hanya prefiks dan sufiks, sedangkan variasi afiks lain tidak diluluhkan, seperti infiks, konfiks, simulfiks, dan kombinasi afiks. Penelitian tentang stemming menggunakan pendekatan rule-based telah diterapkan di berbagai bahasa yang berbeda. Metode rule-based memiliki kelebihan jika diterapkan pada domain yang sederhana, maka rule-based mudah untuk diverifikasi dan divalidasi, tapi memiliki kelemahan saat diterapkan pada domain dengan level kompleksitas yang tinggi, apabila sistem tidak dapat mengenali rules, maka tidak ada hasil yang diperoleh. Untuk mengatasi kelemahan stemming menggunakan metode rule-based, kami menggunakan metode n-gram stemming, dimana kata berafiks dan kata dasar diubah ke bentuk n-gram, kemudian tingkat kemiripan antara n-gram kata berafiks dan kata dasar diukur menggunakan metode dice coefficient, apabila tingkat kemiripannya memenuhi nilai ambang batas yang ditentukan, maka kata dasar ditampilkan. Pada penelitian ini, kami mengembangkan metode stemmer yang meluluhkan seluruh variasi afiks pada bahasa Bali dengan mengombinasikan pendekatan rule-based dan metode n-gram stemming. Berdasarkan pengujian yang telah dilakukan untuk sepuluh query yang ditulis benar dari lima belas query metode yang diusulkan memperoleh rerata akurasi stemming lebih baik 85,83% dari metode terdahulu 56,67%, untuk pengujian dua puluh dokumen cerita rerata akurasi stemming metode yang diusulkan lebih baik 79,26% dari metode terdahulu 56,13%. Sedangkan untuk pengujian lima query dari lima belas query metode n-gram stemming dapat mengenali kata-kata berafiks diluar rules, dimana terdapat beberapa kata berafiks yang ditulis salah serta adanya kata yang mengalami proses disimilasi. ==========In Balinese there are known stem word and derivative word. The derivative word is often referred as the inflected word. The inflected word can be equal to afiixes. The affixes in Balinese can be distinguished by its place in the stem word, such as prefix, suffix, infix, confix, simulfiks, and combinations of affixes. The process of extracting the stem word from the inflected word is known as stemming. The previous research on Balinese stemming has done using a rule-based method, but the affixes were removed only prefix and suffix, while other variations of affixes were not removed, such as infix, confix, simulfiks, and combinations of affixes. The research on stemming using the rule-based approach has applied in several different languages. The rule-based method has advantages when applied to a simple field, rule-based is easy to verify and validate, but it has weaknesses when applied to domains with a high level of complexity if the system can not recognize the rules, no results are obtained. To overcome the weaknesses using rule-based, we used n-gram stemming method, where the inflected word and the stem word are converted to n-gram form, then level of similarity between n-gram of the inflected word and n-gram of the stem word is measured using the dice coefficient method, when the level of similarity achieved a threshold value, then the stem word is displayed. In this study, we develop a stemmer method where removing all variations of affixes in the Balinese by combining the rule-based approach and the n-gram stemming method. The experiment for ten queries was written correctly from fifteen queries where the proposed method got 85,83% and the previous method got 56,67%. The another experiment for twenty documents, the stemming accuracy of the proposed method got 79,26% and the previous method got 56,13%. While the experiment for five queries from fifteen queries the n-gram stemming could recognize several inflected words outside the rules like the words were written incorrectly and also the words with dissimilation process.

Item Type: Thesis (Masters)
Uncontrolled Keywords: N-Gram Stemming, Rule-Based Stemming, Stemmer Bahasa Bali, Balinese stemmer, n-gram stemming, rule-based stemming
Subjects: T Technology > T Technology (General) > T57.5 Data Processing
Divisions: Faculty of Information and Communication Technology > Informatics > 55101-(S2) Master Thesis
Depositing User: Made Agus Putra Subali
Date Deposited: 21 Jan 2019 06:35
Last Modified: 21 Jan 2019 06:35
URI: http://repository.its.ac.id/id/eprint/60307

Actions (login required)

View Item View Item