Rizqi, Umy Chasanah Noor (2017) Pembentukan Tesaurus pada Cross-lingual Text dengan Pendekatan Constraint Satisfaction Problem. Undergraduate thesis, Institut Teknologi Sepuluh Nopember.
Preview |
Text
5113100082-Undergraduate_Theses.pdf - Published Version Download (3MB) | Preview |
Abstract
Pencarian dokumen adalah hal yang esensial dalam bidang text mining. Dokumen tugas akhir dan tesis sering kali
disediakan dalam dua bahasa, yaitu bahasa Indonesia dan Inggris. Dalam pencarian, setiap mahasiswa memiliki kecenderungan mencari dokumen dengan menggunakan kata kunci dengan bahasa tertentu. Tujuan dari pembuatan Tugas Akhir ini adalah untuk membangun cross-lingual tesaurus bahasa Indonesia dan bahasa Inggris dengan pendekatan Constraint Satisfaction Problem. Dalam penelitian ini digunakan data Tugas Akhir serta Tesis mahasiswa FTIF, Jaringan Cerdas Multimedia, Statistika dan Teknik Multimedia Jaringan di Institut Teknologi Sepuluh Nopember.
Pada pengolahan dokumen dilakukan beberapa langkah yaitu document alignment, ekstraksi kata, pembobotan kata, dan
pembentukan informasi co-occurrence, yang selanjutnya dilakukan Constraint Satisfaction Problem dengan backtracking sebagai solusi pencarian yang merupakan perbaikan dari metode bruteforce. Pembobotan menggunakan TF-IDF (term frequency – inverse document frequency) Hasil dari proses pembangunan tesaurus, pada proses document alignment membutuhkan waktu terlama dalam pembangunan tesaurus, yaitu 10.745 detik, sedangkan yang tercepat adalah proses Penghitungan Relevance Weight dengan waktu 10 detik. Tesaurus yang dibentuk dengan menggunakan CSP menghasilkan precision 91,38% sedangkan tesaurus yang dibentuk tanpa menggunakan CSP menghasilkan precision 45,23%. Pencarian dokumen menggunakan tesaurus menghasilkan recall 86,67% precision 100% dan akurasi 86,67%.
======================================================================================================================== Document search is essential in text mining. The final project and thesis document are often provided in two languages, there are Indonesian and English. To search document, each student has a tendency to search for documents by using keywords in a particular language. The purpose of this Final Project is to build cross-lingual thesaurus of Indonesian and English with approach of Constraint Satisfaction Problem. In this research used final project and thesis document FTIF, Multimedia and Network, Statistics and Multimedia Network Technique departement at Sepuluh Nopember Institute of Technology.
In the document processing, there are several steps, there are word extraction, document alignment, weighting, and co-occurrence, which is then performed by the Constraint Satisfaction Problem with backtracking as its search solution which is an improvement of bruteforce method. Weighting using TF-IDF (term frequency - inverse document frequency)
The result of the development process thesaurus on document alignment process takes the longest time in the development of thesaurus, which is 10.745 seconds, while the fastest is the process of Calculating Relevance Weight with time 10 seconds. The thesaurus formed by using CSP produces 91.38% precision whereas the thesaurus formed without using CSP produces precision 45.23%. The search document uses a thesaurus yielding 86,67% precision 100% recall and 86.67% accuracy.
Item Type: | Thesis (Undergraduate) |
---|---|
Uncontrolled Keywords: | Backtracking, Co-occurrence, Constraint Satisfaction Problem , Cross-lingual, Tesaurus |
Subjects: | L Education > LT Textbooks |
Divisions: | Faculty of Information Technology > Informatics Engineering > 55201-(S1) Undergraduate Thesis |
Depositing User: | Umy Chasanah Noor Rizqi |
Date Deposited: | 31 Aug 2017 02:12 |
Last Modified: | 05 Mar 2019 07:01 |
URI: | http://repository.its.ac.id/id/eprint/42824 |
Actions (login required)
View Item |