Pendeteksian Nama Lokasi Dari Informasi Publik Pada Media Sosial Kota Surabaya Berbasis Named-Entity Recognition

Kumala, Hanum Fitriani Ayu (2017) Pendeteksian Nama Lokasi Dari Informasi Publik Pada Media Sosial Kota Surabaya Berbasis Named-Entity Recognition. Undergraduate thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 5213100098-Undergraduate-Theses.pdf] Text
5213100098-Undergraduate-Theses.pdf
Restricted to Repository staff only

Download (7MB) | Request a copy

Abstract

Media sosial saat ini sangat berkembang seiring dengan jumlah pengguna yang terus meningkat di seluruh dunia, termasuk Indonesia. Seperti pada media sosial facebook, terdapat kurang lebih 65 juta pengguna Facebook aktif untuk wilayah Indonesia. Hal tersebut membuktikan bahwa media sosial memiliki informasi yang melimpah dan dapat menjadi sumber informasi yang berharga. Di sisi lain, penyajian informasi oleh media sosial saat ini dirasa kurang efektif sehingga kurang relevan.
Untuk itu diperlukan sistem untuk mengolah informasi yang ada. Named Entity Recognition atau NER merupakan salah satu teknik berbasis entitas yang dikembangkan untuk melakukan pengolahan tersebut, supaya informasi yang diberikan menjadi lebih relevan bagi pengguna. Pada penelitian ini, dikembangkan suatu modul Named Entity Recognition yang secara spesifik mengolah informasi-informasi seputar kota Surabaya yang dibagi oleh masyarakat melalui media sosial yaitu Facebook fanpage E100. Informasi yang diidentifikasi dengan mengunakan NER dalam penelitian ini adalah entitas lokasi yang ada dalam teks status Facebook.
Penggunaan Named Entity Recognition dilakukan dalam beberapa tahapan. Tahapan tersebut diawali dengan pencarian nama-nama lokasi kota Surabaya yang didapat dari Open Street Map dan Dinas PU Bina Marga. Selanjutnya, diperlukan praproses data yang berupa penghapusan kata-kata lokasi yang duplikat, pemuatan data teks, matching data teks dengan lokasi, tokenization, labeling dengan program maupun manual, serta pembagian dataset training dan testing berdasarkan cross validation. Pada penelitian ini ditemukan bahwa pada proses labeling dengan program kurang efisien jika dibandingkan dengan proses labeling secara manual.
Selain hal tersebut, dalam menentukan feature extractor apa saja yang digunakan untuk menghasilkan performa yang optimal, digunakan metode seleksi forward selection serta backward elimination. Dari hasil percobaan didapatkan 2 model terbaik yang menghasilkan rata-rata F-Measure sebesar 0.93604 dan 0.9377. Selain itu, berdasarkan hasil analisa model juga didapatkan 9 feature extractor yang dirasa penting dalam pembuatan model NER pada studi kasus ini.

========================================================================================

Social media nowadays is highly developed as the number of users continues to increase around the world, including Indonesia. As on facebook social media, there were approximately 65 million active users to Indonesia. From this data, it is proved that social media has a huge number of information stored and can be a valuable source of information. On the other hand, the presentation of information by social media today is less effective so it is less relevant.
In this case, it is necessary to provide a system that able to process the information available. Named Entity Recognition or NER is an entity based technique that was developed to perform such processing, so that the information provided more relevant to users. In this study, we developed a Named Entity Recognition module which specifically processing the information about the city of Surabaya, which is shared by the public through social media namely E100 Facebook Fanpage. The information identified by using NER in this study is a location entity which exists in the Facebook status text.
The use of Named Entity Recognition is done in several stages. The first step is finding the location names of city of Surabaya from Open Street Map and the Department of Public Works. The next step is data preprocessing include removing the words of duplicate locations, loading text data, matching the text data with the location, tokenization, and labeling through programs and manual approach, as well as dividing the dataset into training and testing dataset based on cross validation. This study found that in the process of labeling through program is less efficient than the labeling process through manual approach.
In addition to that, in determining what feature extractors are used to produce optimal performance, we use forward selection methods and backward elimination methods. From the experiment results, obtained 2 best models that generates average F-Measure value of 0.93604 and 0.9377. In addition, based on the results of the model analysis we also obtained 9 feature extractors which are considered to be essential for NER modeling in this case study.

Item Type: Thesis (Undergraduate)
Uncontrolled Keywords: Media Sosial; Surabaya; Named Entity Recognition; Social Media; Named Entity Recognition; Indonesian Named Entity Recognition
Subjects: Q Science > QA Mathematics > QA75 Electronic computers. Computer science. EDP
T Technology > T Technology (General)
Divisions: Faculty of Information Technology > Information System > 57201-(S1) Undergraduate Thesis
Depositing User: HANUM FITRIANI AYU KUMALA
Date Deposited: 17 Mar 2017 08:34
Last Modified: 19 Dec 2017 07:42
URI: http://repository.its.ac.id/id/eprint/1784

Actions (login required)

View Item View Item