Pengembangan Bilingual Thesaurus Secara Otomatis pada Bahasa Indonesia-Bahasa Arab

Sholikah, Rizka Wakhidatus (2020) Pengembangan Bilingual Thesaurus Secara Otomatis pada Bahasa Indonesia-Bahasa Arab. Doctoral thesis, Institut Teknologi Sepuluh Nopember.

Thesaurus merupakan sumber referensi untuk mendapatkan informasi tentang suatu kata beserta relasi semantiknya dalam suatu bahasa tertentu. Adapun untuk penggunaan thesaurus dengan dua bahasa dibutuhkan bilingual thesaurus. Di Indonesia kebutuhan bilingual thesaurus cukup besar, terutama untuk bahasa Indonesia-bahasa Arab. Kebutuhan ini terdapat pada bidang pendidikan keagamaan, jurnalistik, dan bidang linguistik lainnya. Pengembangan thesaurus secara manual membutuhkan banyak waktu dan tenaga, serta sangat bergantung pada subjektifitas dari setiap ahli bahasa. Pengembangan thesaurus secara otomatis diharapkan akan lebih objektif, lebih efisien, dan lebih mudah dilakukan pemeliharaan. Hanya saja kedua bahasa tergolong low-resource language yang ketersediaan parallel corpus-nya terbatas.
Disertasi ini mengusulkan pengembangan bilingual thesaurus secara otomatis pada bahasa Indonesia-bahasa Arab dengan memanfaatkan monolingual corpus dan comparable corpus. Metode usulan pada pengembangan bilingual thesaurus antar low-resource language ini mengintegrasikan informasi dari monolingual corpus dan comparable corpus, tanpa tergantung pada ketersediaan parallel corpus. Fokus relasi kata dalam penelitian ini hanya pada kata benda (noun), sebab distribusinya di dalam thesaurus dominan. Penelitian ini dibagi ke dalam empat tahapan utama yaitu ekstraksi relasi hierarchical, ekstraksi relasi equivalent, ekstraksi relasi associative, dan concept mapping. Dalam rangka meningkatkan coverage pada ekstraksi relasi hierarchical, penelitian ini mengusulkan sebuah metode inference yang diintegrasikan dengan pattern-based matching. Pada proses ekstraksi relasi equivalent diusulkan pendekatan supervised yang memanfaatkan resource dari high-resource language untuk mengatasi keterbatasan data berlabel pada low-resource language. Sementara itu pada ekstraksi relasi associative diusulkan sebuah metode yang mampu menghasilkan relasi associative yang konsisten dan tidak redundant. Pada tahapan concept mapping idealnya dibutuhkan parallel-corpora atau kamus bilingual. Akan tetapi pada low-resource language ketersediaannya terbatas. Sehingga diusulkan metode concept mapping yang memanfaatkan ketersediaan sumber daya lain berupa comparable corpora yang jumlahnya lebih banyak dan lebih mudah didapatkan. Masukkan dari sistem besar adalah Wikipedia bahasa Indonesia dan Wikipedia bahasa Arab, sedangkan luarannya berupa satu kesatuan bilingual thesaurus yang telah terhubung antara bahasa Indonesia dengan bahasa Arab. Hasil uji coba dan analisis pada setiap tahapan menunjukkan bahwa metode usulan mampu menghasilkan performa yang lebih baik dibandingkan dengan baseline methods. Sementara itu uji coba yang dilakukan pada keseluruhan bilingual thesaurus menunjukkan bahwa pembangunan bilingual thesaurus secara otomatis mampu menghasilkan pasangan relasi yang rasional dan memperkenalkan vocabulary baru yang dapat digunakan untuk memperkaya existing resource.


Thesaurus is a resource that provide information about a word and its semantic relations in a particular language. As for the use of a thesaurus which involves two different languages, a bilingual thesaurus is needed. In Indonesia, the need for a bilingual thesaurus is quite large, especially for Indonesian-Arabic. The need for a bilingual thesaurus can be seen in various fields such as religious education, journalism, and other linguistic fields. Manual thesaurus development requires a lot of time and effort, and is very dependent on the subjectivity of each linguist. Automatic thesaurus development is expected to be more objective, more efficient, and easier to maintain. However, both languages are classified as low-resource languages with limited parallel corpus availability. So that the new strategy is needed to built bilingual thesaurus automatically between low-resource language.
This dissertation proposes the development of an automatic bilingual thesaurus in Indonesian-Arabic by utilizing a monolingual corpus and a comparable corpus. The proposed method for developing a bilingual thesaurus between low-resource languages integrates information from the monolingual corpus and the comparable corpus, without heavily rely on the parallel corpus. The focus of word relations in this study is only on nouns, because their distribution in the thesaurus is dominant. This research is divided into four main stages: extraction of hierarchical relations, extraction of equivalent relations, extraction of associative relations, and concept mapping. In order to increase coverage on the extraction of hierarchical relations, this study proposes an inference method that is integrated with pattern-based matching. In the process of equivalent relation extraction, a supervised approach is proposed that utilizes resources from the high-resource language to overcome the limitations of data labeled in the low-resource language. Meanwhile, in the extraction of associative relations, a method is proposed that is able to produce associative relationships that are consistent and not redundant. At the concept mapping stage, ideally a parallel-corpora or bilingual dictionary is needed. However, in low-resource languages, the availibilty of these resources are limited. So a concept mapping method is proposed that utilizes the availability of the comparable corpora which are easier to obtain. The input of the system is the Indonesian Wikipedia and the Arabic Wikipedia, while the output is a bilingual thesaurus Indonesian and Arabic. The result of experiment and analysis at each stage show that the proposed method is able to produce better performance than the baseline method. Meanwhile, the experiment that carried out on the entire bilingual thesaurus show that the automatic development of a bilingual thesaurus is able to produce rational relations pairs and also introduce new vocabulary that can be used to enrich existing resources.

Item Type: Thesis (Doctoral)
Uncontrolled Keywords: bilingual thesaurus, bahasa Indonesia, bahasa Arab, semantic relation, multi-task learning, relasi semantik
Subjects: Q Science
Q Science > QA Mathematics > QA336 Artificial Intelligence
Q Science > QA Mathematics > QA76.87 Neural networks (Computer Science)
Q Science > QA Mathematics > QA76.9.D343 Data mining. Querying (Computer science)
Divisions: Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Informatics Engineering > 55001-(S3) PhD Thesis (Comp Science)
Depositing User: Rizka Wakhidatus Sholikah
Date Deposited: 24 Aug 2020 03:48
Last Modified: 31 May 2023 08:32

