Ekstraksi Informasi untuk Rekonstruksi Multidomain Ontologi Bahasa Indonesia dengan Pendekatan Berbasis Machine Learning dan Map Reduce

Santoso, Joan (2020) Ekstraksi Informasi untuk Rekonstruksi Multidomain Ontologi Bahasa Indonesia dengan Pendekatan Berbasis Machine Learning dan Map Reduce. Doctoral thesis, Institut Teknologi Sepuluh Nopember.

[img] Text
07111360012001-Disertation.pdf - Accepted Version
Restricted to Repository staff only

Download (7MB) | Request a copy

Abstract

umlah dan ukuran data yang ada di internet terus berkembang hingga mencapai jumlah yang cukup besar. Unstructured data di internet memberikan peluang untuk mengubah informasi menjadi sebuah representasi pengetahuan yang dapat dipahami oleh komputer. Big Data Processing menjadi fenomena yang hangat sebab jumlah data yang besar dan banyaknya variasi jenis data yang ada di internet menyebabkan para peneliti mulai berlomba-lomba untuk melakukan penelitian bagaimana cara melakukan ekstraksi untuk mengubah data tersebut menjadi informasi dengan cepat. Salah satu jenis pengetahuan yang banyak digunakan adalah ontologi. Ontologi yang digunakan sebagai sumber pengetahuan terbagi menjadi dua buah, yaitu open domain dan closed domain. Pada sistem yang berbasis closed domain, informasi pengetahuan yang ada hanya berfokus pada satu topik permasalahan tertentu seperti kesehatan, hukum, dan beberapa kasus yang lain. Untuk sistem open domain, pengetahuan yang ada tidak terfokus pada pada satu topik permasalahan saja tetapi dapat pada beberapa bidang. Sehingga di sistem ini memberikan sebuah tantangan terbesar yaitu bagaimana sebuah sistem dapat selalu menambah pengetahuan yang dimilikinya dengan informasi yang terus bertambah di dunia maya. Dalam disertasi ini diusulkan sebuah metode ekstraksi informasi untuk rekonstruksi multidomain ontologi Bahasa Indonesia dengan pendekatan berbasis machine learning dan Map Reduce. Usulan metode di disertasi diharapkan dapat memberikan kontribusi di bidang ekstraksi informasi yang khususnya digunakan dalam pengembangan multidomain ontologi di Bahasa Indonesia. Di disertasi ini seluruh data akan dikategorisasikan dengan menggunakan algoritme klasifikasi teks dengan Naive Bayes. Hal ini dilakukan agar data dapat dikategorikan sesuai dengan topik yang terdapat di dokument tersebut. Metode ekstraksi informasi ini dibagi menjadi dua tahap, yaitu Concept Extraction dan Relation Extraction. Concept extraction dilakukan dengan tujuan untuk mendapatkan entitas yang ada di dalam data, sedangkan relation extraction digunakan untuk mendapatkan relasi semantik antar entitas tersebut. Concept extraction dilakukan dengan menggunakan algoritme Shallow Parsing dan Named Entity Recognition. Sedangkan relation extraction dilakukan dengan menggunakan pendekatan berbasis lexico syntatic pattern dan mapping dari external knowledge. ================================================================================================================== The amount and size of data available on the internet continues to grow until it reaches a fairly large amount. Unstructured data on internet provides an opportunity to transform information into a representation of knowledge that can be understood by computers. Big Data Processing is widely discussed nowadays because of the large amount of data and the large variety of types of data available on internet. This problem is causing researchers to start competing to conduct research on how to extract to convert data into information quickly. One type of knowledge that is widely used is ontology. The ontology used as a source of knowledge is divided into two, namely open domain and closed domain. In a closed-domain based system, existing knowledge only focuses on one particular problem topic, such as health, law, and several other cases. For open-domain systems, existing knowledge is not focused on just one problem topic but can be in several fields. Hence in this system, the biggest challenge that arises is how a system can always update its knowledge with information that continues to grow in cyberspace. An information extraction is proposed this dissertation with a machine learning and Map Reduce based approach. The proposed method expected to be able to contribute in the field of information extraction which is specifically used in the reconstrution of multidomain ontology in Indonesian. All data will be categorized using a text classification algorithm, that is Naive Bayes. This procees is used so that the data can be categorized according to the topics that appears in the document. This information extraction is divided into two stages, namely concept extraction and relation extraction. Concept extraction is done with the aim of getting the entities that appears in the data, while relation extraction is used to get the semantic relations between the concepts. Concept extraction is done using the Shallow Parsing algorithm and Named Entity Recognition. Whereas the relation extraction is performed using a lexico syntatic pattern and mapping from external knowledge.

Item Type: Thesis (Doctoral)
Uncontrolled Keywords: Ontologi, Big Data Processing, Klasifikasi Teks, Information Extraction, Named Entity Recognition, Shallow Parsing, Relation Extraction, Ontology, Text Classification
Subjects: T Technology > T Technology (General) > T57.5 Data Processing
T Technology > TK Electrical engineering. Electronics Nuclear engineering > TK5105.546 Computer algorithms
T Technology > TK Electrical engineering. Electronics Nuclear engineering > TK5105.88815 Semantic Web
Divisions: Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Electrical Engineering > 20001-(S3) PhD Thesis
Depositing User: Joan Santoso
Date Deposited: 22 Aug 2020 03:14
Last Modified: 22 Aug 2020 03:14
URI: https://repository.its.ac.id/id/eprint/79177

Actions (login required)

View Item View Item