Najib, Ahmad Choirun (2020) Perangkingan Entitas Linked Open Data Menggunakan Pendekatan Resolusi Entitas Untuk Peningkatan Relevansi Pencarian Entitas pada Dataset Halal Nutrition Food. Masters thesis, Institut Teknologi Sepuluh Nopember.
![]() |
Text
05211850010006-Undergraduate_Thesis.pdf Download (4MB) |
Abstract
Banyaknya jumlah keragaman data memberikan peran penting dalam menyajikan informasi secara komprehensif dari sebuah entitas agar dapat memberikan informasi kepada pengguna dengan sebaik mungkin. Halal Nutrition Food http://halal.addi.is.its.ac.id merupakan produk riset berupa aplikasi yang menyediakan informasi produk makanan halal yang telah diintegrasikan dengan dataset 10 lembaga halal dunia dan OpenFoodFacts yang merupakan situs penyedia informasi produk makanan dengan platform crowdsourcing. Dampak integrasi data yang telah dilakukan mengakibatkan duplikasi entitas dan menurunkan relevansi pada pencarian entitas. Sehingga penguna harus melakukan pengecekan berulang pada setiap entitas yang muncul pada hasil pencarian untuk mendapatkan informasi yang dicari. Pada tesis ini melakukan peningkatan relevansi pencarian dengan pendekatan Entity Resolution (ER). Pendekatan ER dilakukan dengan penggunaan graph embedding Node2vec yang melakukan transformasi setiap node menjadi luaran berupa sekumpulan vektor yang representatif. Luaran ini digunakan untuk mengetahui pasangan antar node yang memiliki kesamaan dengan node sumber. Pasangan antar node ini akan dijadikan sebagai kandidat untuk dilakukan resolusi dan prediksi link. Hasil luaran akan digunakan sebagai input dalam proses perangkingan berupa PageRank dan LinkCount. Proses perangkingan dilakukan dengan pendekatan query-independent (QI) dan query-dependent (QD). QI dihitung menggunakan algoritma PageRank dan LinkCount. Sedangkan QD dihitung menggunakan pembobotan Term Frequency Inverse Entity Frequency (TF-IEF) yang menghitung kemiripan dokumen berdasarkan kata kunci tertentu, kemudian fungsi perangkingan dihitung menggunakan BM25. Kombinasi perhitungan QI dan QD akan menghasilkan skor final yang akan dijadikan bobot acuan dalam perangkingan entitas untuk meningkatkan relevansi pencarian. Hasil pada tesis ini menunjukkan bahwa faktor yang paling dominan yaitu nilai skor dependen, kemudian diikuti oleh skor independen. Semakin besar nilai skor dependen maka semakin besar peluang muncul sebuah dokumen untuk ditampilkan pada sistem dan menjadi hasil pencarian yang relevan. Semakin besar nilai skor independen akan mempengaruhi peringkat rangking dari dokumen pada hasil pencarian. Penggunaan ER untuk perangkingan memiliki peran yang penting dalam melakukan pembobotan rangking pada setiap dokumen melalui relasi-relasi yang terbentuk (owl:sameAs dan rdfs:seeAlso) pada proses graph embedding melalui similarity pada hasil embedding dan koten dokumen. Hasil pendekatan ER terbukti dapat meningkatkan relevansi pencarian entitas pada linked open data.
=================================================================================================================================
A large amount of data diversity provides an essential role in presenting information comprehensively from an entity to provide information to users as well as possible. Halal Nutrition Food http://halal.addi.is.its.ac.id is a research product in the form of an application that provides information on halal food products that have been integrated with a dataset of 10 global halal institutions and OpenFoodFacts which is a food product information provider site with a crowdsourcing platform. The impact of data integration that has been done results in duplication of entities and decreases relevance in entity search. Hence, users must repeatedly check on each entity that appears in the search results to get the information sought. In this thesis, the relevance of searching increases the Entity Resolution (ER) approach. The ER approach is carried out using graph embedding called Node2vec, which transforms each node into output in the form of a representative set of vectors. This output is used to find pairs between nodes that have similarities to the source node. This pair of nodes will be used as a candidate for link resolution and prediction. The outputs are used as input in the ranking process to produce PageRank and LinkCount scores. The ranking process is carried out with a query-independent (QI) and query-dependent (QD) approach. QI is calculated using the PageRank and LinkCount algorithm. Whereas QD is calculated using the Weighting Frequency Inverse Entity Frequency (TF-IEF), which calculates the similarity of documents based on certain keywords, then the ranking method uses the BM25 ranking function. The combination of QI and QD calculations will produce a final score, which will be used as a reference weight in ranking the entities to increase the relevance of the search. The results of this thesis show that the most dominant factor is the dependent score, followed by an independent score. The higher the value of the dependent score, the more elevated the chance of a document to appear on the system and become relevant search results. The higher the value of the independent score will affect the ranking rank of the document in the search results. The use of the entity resolution method for ranking has an essential role in the weighting the ranking score of each document through the relations formed (owl: sameAs and rdfs: seeAlso) in the graph embedding proses through similarity process using the results of vector embedding and the content of documents. The results of the ER approach are proven to be able to increase the relevance of entity search in linked open data.
Item Type: | Thesis (Masters) |
---|---|
Additional Information: | RTSI 006.312 Naj p-1 |
Uncontrolled Keywords: | Rangking entitas, resolusi entitas, linked open data, rangking produk, produk makanan, halal |
Subjects: | Q Science > QA Mathematics > QA76 Computer software Q Science > QA Mathematics > QA76.9.I52 Information visualization Q Science > QA Mathematics > QA76.9D338 Data integration |
Divisions: | Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Information System > 59101-(S2) Master Thesis |
Depositing User: | Ahmad Choirun Najib |
Date Deposited: | 12 Mar 2025 04:15 |
Last Modified: | 12 Mar 2025 04:15 |
URI: | http://repository.its.ac.id/id/eprint/74649 |
Actions (login required)
![]() |
View Item |