Suyaningrum, Dwi Ari (2020) Pembobotan Term Ekspansi Query Berbasis Word Embeddings Dan Inverse Book Frequency Untuk Pencarian Dokumen. Masters thesis, Institut Teknologi Sepuluh Nopember Surabaya.
Preview |
Text
05111850010047-Master_Thesis.pdf Download (1MB) | Preview |
Abstract
Penelitian pembobotan term TF-IDF dilakukan untuk mencari seberapa penting term dalam dokumen. Namun, TF-IDF tidak dapat mengatasi permasalahan dokumen yang memiliki beberapa topik. Pembobotan term IBF yang digabungkan dengan TF-IDF dapat mengatasi permasalahan tersebut. Pembobotan IBF menganggap term yang sering muncul pada banyak dokumen dan kategori akan bernilai kecil dan dianggap kurang penting.
Pencarian dokumen relevan dapat ditingkatkan dengan melakukan query expansion (QE) dengan word embeddings (WE). Penelitian QE yang telah dilakukan sebelumnya memilih term kandidat untuk dijadikan term hasil ekspansi query berdasarkan kedekatan semantiknya yang memiliki tingkat korelasi tinggi dengan query asli. Namun, tidak semua term dari hasil ekspansi query tersebut dianggap penting untuk dilakukan retrieve dokumen. Beberapa term hasil QE mungkin tidak berguna atau tidak relevan meskipun memiliki tingkat korelasi yang tinggi dengan query aslinya. Hal ini juga memungkinkan dapat mengurangi kualitas kemiripan dari hasil dokumen yang diretrieve, terutama ketika ada term QE yang lebih tidak relevan daripada yang relevan. Permasalahan yang muncul adalah cara memilih term hasil QE yang terbaik untuk meningkatkan kualitas hasil pencarian dokumen.
Penelitian ini mengusulkan sebuah metode baru pembobotan term pada hasil ekspansi query berdasarkan tingkat korelasi term terhadap query dan frekuensi term menggunakan metode word embeddings dan Inverse Book Frequency (IBF) untuk pencarian dokumen relevan. Term hasil QE dari WE dihitung pembobotannya dengan penggabungan metode TF-IDF dan IBF (TF-IDF-IBF). Bobot term hasil QE didapatkan dengan mengalikan nilai similaritas term dari WE dengan nilai bobot TF-IDF-IBF term tersebut. Tahap selanjutnya adalah memilih term QE yang memiliki bobot terbesar sebanyak 5 untuk digunakan pada proses pencarian dokumen. Metode baru pembobotan term digunakan untuk mendapatkan term hasil QE yang memiliki korelasi tinggi dengan query asli sekaligus merupakan term yang representatif dalam dokumen dan digunakan untuk proses pencarian dokumen.
Metode baru yang diusulkan dapat menghasilkan nilai precision, recall, dan F-Score yang lebih tinggi dengan menambahkan pemilihan QE terlebih dahulu sebelum proses pencarian dokumen, yaitu dengan f-score sebesar 0,743. Kinerja sistem yang didapatkan dapat lebih optimal jika menggunakan parameter jumlah pemilihan term hasil QE yang kecil. Semakin besar pemilihan parameter, dapat menghasilkan dokumen yang kurang relevan terhadap query asli.
Item Type: | Thesis (Masters) |
---|---|
Uncontrolled Keywords: | Query Expansion, Word Embeddings, pembobotan Term, TF, IDF, IBF, Query Expansion, Word Embeddings, Term Weighting, TF, IDF, IBF |
Subjects: | Z Bibliography. Library Science. Information Resources > ZA Information resources > Z699.5 Information storage and retrieval systems Z Bibliography. Library Science. Information Resources > ZA Information resources |
Divisions: | Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Informatics Engineering > 55101-(S2) Master Thesis |
Depositing User: | Dwi Ari Suryaningrum |
Date Deposited: | 15 Aug 2020 05:22 |
Last Modified: | 05 Jun 2023 15:07 |
URI: | http://repository.its.ac.id/id/eprint/78248 |
Actions (login required)
View Item |