Yamin, Muh (2025) Ekstraksi Jenis Dan Fungsi Kata Berdasarkan Sintaksis Dan Semantik Untuk Membangun Mesin Translasi Bahasa Indonesia, Tolaki, Dan Inggris. Doctoral thesis, Institut Teknologi Sepuluh Nopember.
![]() |
Text
7025211018-Disertation.pdf - Accepted Version Restricted to Repository staff only until 1 April 2027. Download (6MB) | Request a copy |
Abstract
Penggunaan bahasa Tolaki berada pada urutan pertama di Provinsi Sulawesi Tenggara dan suku Tolaki berada di urutan ke 34 dari seluruh suku bangsa di Indonesia dengan jumlah penduduk sumber data BPS pada tahun 2022 sekitar 425.938 jiwa, namun saat ini menghadapi ancaman kepunahan dengan status "Red = endangered" (EGIDS 6b-9). Anak-anak tidak lagi memiliki norma belajar yang kuat dalam menggunakan bahasa ini, sehingga diperlukan upaya pelestarian melalui teknologi translasi. Penelitian sebelumnya yang menggunakan metode translasi Statistical Machine Translation (SMT) dan Rule Based Machine Translation (RBMT) masih menghasilkan output terjemahan yang kurang optimal, SMT sering mengalami kesulitan dalam menangani struktur sintaksis bahasa Tolaki yang kompleks, sedangkan RBMT terbatas dalam menangkap makna semantik bahasa Tolaki secara mendalam. Tujuan penelitian ini untuk mengekstraksi kata-kata dalam bahasa Tolaki dan Indonesia menggunakan ekstraksi sintaksis guna menentukan fungsi kata dan ekstraksi semantik untuk mengidentifikasi jenis kata dalam kalimat. Metode Hybrid Machine Translation (HybridMT) menggabungkan dua metode translasi yaitu SMT menggunakan pendekatan berbasis statistik untuk menghasilkan terjemahan berdasarkan pola data yang telah dilatih, dan RBMT memanfaatkan aturan linguistik untuk memahami struktur dan makna kalimat. Penelitian ini mengusulkan metode HybridMT yang menggabungkan keunggulan SMT dan RBMT untuk meningkatkan akurasi dan kualitas terjemahan. Evaluasi kinerja dilakukan menggunakan metrik BLEU yang menunjukkan peningkatan performa pada epoch ke-9 hingga ke-15 dengan skor SMT: 0.8256, RBMT: 0.6687, dan HybridMT: 0.9371. Hasil evaluasi lebih lanjut terhadap metode HybridMT menunjukkan akurasi rata-rata yang mendekati nilai 1, sehingga memberikan kinerja yang lebih baik dibandingkan metode lainnya. Ketersediaan korpus dan dataset yang berjumlah 401.469 data, dengan sekitar <5% di antaranya merupakan kata polisemi, serta pembagian data sebesar 80% untuk pelatihan dan 20% untuk pengujian. Sebagai implementasi dari penelitian ini, telah dikembangkan aplikasi berbasis web bernama TolkITS sebagai smart dictionary dengan menggunakan metode HybridMT yang menunjukkan hasil terjemahan yang lebih baik dengan nilai presisi: 0.7231, nilai recall: 0.7000, nilai F1-measure: 0.7114, dan nilai akurasi: 0.9417.
Item Type: | Thesis (Doctoral) |
---|---|
Uncontrolled Keywords: | Sintaksis, Semantik, BLEU, SMT, RBMT, HybridMT, Syntax, Semantics |
Subjects: | T Technology > T Technology (General) > T58.5 Information technology. IT--Auditing |
Divisions: | Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Informatics Engineering > 55001-(S3) PhD Thesis (Comp Science) |
Depositing User: | Muh Yamin |
Date Deposited: | 07 Feb 2025 03:08 |
Last Modified: | 07 Feb 2025 03:08 |
URI: | http://repository.its.ac.id/id/eprint/118509 |
Actions (login required)
![]() |
View Item |