Lukluk, Muhammad (2018) Penggabungan Data Akademik Berbasis Entity Resolution Menggunakan Markov Logic Networks. Masters thesis, Institut Teknologi Sepuluh Nopember.
Preview |
Text
07111650067001-Master_Thesis-WM.pdf - Accepted Version Download (4MB) | Preview |
Abstract
Entity Resolution (ER) adalah permasalahan identifikasi objek yang mengacu pada entitas dunia nyata yang sama ke dalam satu bentuk representasi. Dalam konteks basis data, ER juga dikenal sebagai record linkage untuk menentukan rekord yang mengacu pada entitas yang sama, pendekatan probabilistik statistik dari jenis ER ini disebut probabilistic record linkage (PRL), dan PRL ini telah digunakan untuk berbagai permasalah ER, termasuk pendekatan turunannya yang menggunakan machine learning sebagai perbaikan metodenya. Namun pendekatan probabilistik ini memiliki satu masalah pada ER untuk menangani data kosong yang umumnya terjadi pada dataset yang tidak handal (unreliable), data yang unreliable tersebut menyebabkan ketidakmenentuan dan dapat mengurangi kualitas hasil akhir. Penelitian ini membahas pendekatan alternatif PRL menggunakan Markov Logic Networks (MLN) untuk inferensi kesesuaian pasangan rekord dalam dataset yang unreliable, terutama untuk dataset dengan tingkat data kosongnya (missing rate) tinggi. Pendekatan yang diusulkan terinspirasi oleh model matching dependencies (MDS) yang secara formal telah diperkenalkan untuk mengatasi dataset yang unreliable. Eksperimentasi pada dataset dunia nyata yang diambil dari Universitas Islam Negeri Maulana Malik Ibrahim Malang dilakukan dengan hasil tingkat akurasi 0,977 mendekati 0,986 pada metode sebelumnya yang dapat berguna untuk integrasi data bertahap.
===================================================================================================
Entity resolution (ER) is the problem of identifying objects referring to the same real-world entity into a single representation. In the context of the database, ER is also known as record linkage to determine records that refer to the same entities, the statistical probabilistic approach of this type of ER is called probabilistic record linkage (PRL), and PRL has been used for variety ER problems, including derivatives that use machine learning as an improvement. However, this probabilistic approach has one problem in ER for dealing with missing data that commonly occur in unreliable datasets, such unreliable data can lead to more uncertainty and can reduce the quality of the final result. This paper discusses an alternative approach of PRL using a Markov logic networks (MLN) to infer the matching of record pairs in unreliable datasets, especially for datasets with a high rate of missing data. The proposed approach is inspired by a model of matching dependencies (MDS) that has been formally introduced to address unreliable datasets. Experimentation on real-world datasets taken from State Islamic University of Maulana Malik Ibrahim Malang is done with the result of accuracy of 0.977 approaching 0.986 on the previous method which can be useful for gradual data integration.
Item Type: | Thesis (Masters) |
---|---|
Additional Information: | RTE 006.42 Luk p-1 2018 |
Uncontrolled Keywords: | entity resolution, probabilistic record linkage, matching dependencies, markov logic networks, data integration |
Subjects: | T Technology > T Technology (General) > T57.5 Data Processing |
Divisions: | Faculty of Electrical Technology > Electrical Engineering > 20101-(S2) Master Thesis |
Depositing User: | M. Lukluk |
Date Deposited: | 08 Aug 2021 08:35 |
Last Modified: | 08 Aug 2021 08:35 |
URI: | http://repository.its.ac.id/id/eprint/55302 |
Actions (login required)
View Item |