Ekstraksi Entitas Geospatial pada Artikel Wikipedia Bertipe Kejadian

Sofbrina, Rizvi (2020) Ekstraksi Entitas Geospatial pada Artikel Wikipedia Bertipe Kejadian. Other thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 05111640000037-Undergraduate_Thesis.pdf]
Preview
Text
05111640000037-Undergraduate_Thesis.pdf

Download (4MB) | Preview

Abstract

Wikipedia merupakan ensiklopedia yang sangat banyak digunakan. Pada Wikipedia sendiri sudah tersedia jutaan artikel terkait peristiwa atau kejadian. Untuk mempermudah memodelkan informasi menjadi terstruktur dapat memanfaatkan metadata yang telah disediakan oleh DBpedia.org. Namun, hingga saat ini masih terdapat metadata artikel yang belum dapat memberikan informasi yang mudah diperoleh oleh pengguna termasuk informasi spasial yang berada pada artikel bertipe kejadian. Oleh karena itu, maka pada penelitian ini akan dibuat suatu aplikasi yang dapat membantu orang dalam mendapatkan informasi spasial pada artikel Wikipedia bertipe kejadian. Dalam pembuatan aplikasi diperlukan ekstraksi entitas geospasial. Masalah ini dapat diatasi dengan melakukan beberapa tahap proses ekstraksi. Proses ekstraksi melibatkan tiga tahap, yaitu ekstraksi DBpedia, ekstraksi infobox Wikipedia dan ekstraksi raw text deskripsi utama Wikipedia. Hasil ekstraksi disimpan pada triple store Apache Jena Fuseki dalam bentuk pasangan triplets yang merupakan entitas data dengan susunan subject-predicate-object, dengan ontology yang sudah disediakan oleh DBpedia. Pasangan triplets ini selanjutnya dapat digunakan untuk menjawab query tentang spasial suatu artikel Wikipedia. Hasil dari pengerjaan penelitian ini adalah memperluas jangkauan ekstraksi entitas geospasial sehingga entitas geospasial yang terdapat pada plain text dapat dikenali. Berdasarkan uji coba yang dilakukan, hasil query spasial yang dilakukan pada triple store Apache Jena Fuseki aplikasi ini memberikan hasil lebih banyak dibandingkan hasil query pada SPARQL Endpoint DBpedia dikarenakan entitas yang diperoleh tidak bersumber pada DBpedia saja namun juga dari infobox dan raw text deskripsi utama Wikipedia.
====================================================================================================
Wikipedia is a widely used encyclopedia. On Wikipedia itself, there are articles related to events. To make it easier to model information into a structured form, it can utilize the metadata provided by dbpedia.org. However, until now, there are still metadata of event type articles that have not been able to provide information that is easily obtained by users, including spatial information of the articles. Therefore, this final project will create an application that can help people in getting spatial information on Wikipedia articles of type events. In making the application required the extraction of geospatial entities. This problem can be overcome by doing several stages of the extraction process. The extraction process has done in three ways: DBpedia extraction, Wikipedia infobox extraction, the raw text extraction of the main description in Wiki's articles. The extraction results are stored in Apache Jena Fuseki triplestore within the form of triplets, which consisted of data entities in a subject-predicate-object arrangement. It used schema or ontology that has been provided by DBpedia. These triplets can then be used to answer queries about spatial Wikipedia articles. The purpose of this work is to expand the coverage of geospatial entities extraction in raw text. The testing process is done by comparing the results obtained from this work with SPARQL Endpoint Dbpedia in the same keywords of query. Based on testing, the results of spatial queries carried out in the Apache Jena Fuseki of this application gives more results than the query result on SPARQL Endpoint DBpedia because the entity was obtained not only from DBpedia but also from infobox and raw text extraction of the main description in articles of Wiki.

Item Type: Thesis (Other)
Additional Information: RSIf 005.74 Sof e-1 • Sofbrina, Rizvi
Uncontrolled Keywords: Apache Jena Fuseki, DBpedia, Geospasial, Ontologi, SPARQL, Wikipedia, Geospatial, Ontology.
Subjects: T Technology > T Technology (General) > T58.6 Management information systems
Divisions: Faculty of Information and Communication Technology > Informatics > 55201-(S1) Undergraduate Thesis
Depositing User: Rizvi Sofbrina
Date Deposited: 12 Aug 2020 03:18
Last Modified: 28 May 2023 16:38
URI: http://repository.its.ac.id/id/eprint/77533

Actions (login required)

View Item View Item