Pengambilan Konten Utama Pada Website Pemerintah Daerah Menggunakan Pendekatan Template-Based dan Klasifikasi Naive-Baye

Hariyadi, Fajara Kurniawan Nasrullah (2018) Pengambilan Konten Utama Pada Website Pemerintah Daerah Menggunakan Pendekatan Template-Based dan Klasifikasi Naive-Baye. Masters thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 05211550012003-Master_Thesis.pdf]
Preview
Text
05211550012003-Master_Thesis.pdf - Accepted Version

Download (5MB) | Preview

Abstract

Internet dan World Wide Web dapat memberikan kemampuan penting yang dapat mendorong kemampuan yang dimiliki oleh pemerintahan. Hal tersebut adalah kemampuan yang dapat membuat pemerintah lokal dapat mendistribusikan informasi serta warga negara dapat menerima informasi terkini mengenai urusan pemerintah lokal dengan biaya yang murah dan mudah. Hal ini lebih sering disebut dengan E-Government. Penggunaan E-Government di Indonesia sendiri sudah didukung penuh oleh instruksi Presiden Republik Indonesia.

Egovbench adalah aplikasi monitoring dan pengukuran performa dari website dan media sosial resmi dari pemerintah daerah di Indonesia. Untuk melakukan tugasnya tersebut egovbench harus melakukan proses pengambilan informasi ke setiap halaman web pada setiap situs web resmi yang dimiliki oleh pemerintah daerah.

Setiap halaman web yang ada akan memiliki sebuah main content. main content adalah sebuah bagian, segmen atau blok yang berisi konten yang berupa teks atau dalam bentuk multimedia yang berada pada sebuah halaman web yang bukan merupakan halaman web landing atau beranda dan bersifat unik pada satu halaman web. Informasi-informasi penting mengenai pemerintahan daerah umumnya berada di dalam main content sehingga diperlukan web content extractor untuk mengambil informasi-infomrasi tersebut.
Pada penelitian ini, untuk mengatasi permasalahan mengenai pengambilan main content tersebut, dilakukan penggabungan antara dua pendekatan yang telah ada yaitu pendekatan template-based dan pendekatan machine learning dengan menggunakan Na’ıve-Bayes Classifier. Umumnya penelitian terdahulu yang dilakukan masih menggunakan satu tipe pendekatan yaitu antara menggunakan pendekat an template-based atau menggunakan machine learning. Kontribusi dari penelitian ini adalah mengenai bagaimana hasil dari pengambilan main content dengan menggunakan gabungan dua pendekatan antara pendekatan template-based dan pendekatan Klasifikasi Na¨ıve-Bayes.

Tantangan yang dihadapi pada penelitian ini adalah bagaimana struktur halaman web yang dimiliki oleh pemerintah daerah dapat menyulitkan pada tahap pengambilan main content dengan pendekatan template-based terutama efek dari Content Management System (CMS) pada struktur halaman web. Hasil yang didapatkan memperlihatkan bahwa dengan menggunakan bahwa dengan menggunakan gabungan dua tipe pendekatan dapat memberikan hasil yang lebih akurat dalam memprediksi kategori halaman web dengan akurasi yang dicapai sebesar 68% dibandingkan pendekatan yang digunakan saat ini pada egovbench dengan akurasi sebesar 59%.
======================================================================================================
The Internet and the World Wide Web offer capabilities that can help increase government capabilities further. It is a capability that enables local governments to distribute information and citizens can receive up-to-date information about local government affairs at low cost and convenience. These activities is commonly referred as E-Government. The use of E-Government in Indonesia itself is fully supported by the instruction of the President of the Republic of Indonesia.
Egovbench Is a monitoring and performance measurement application of official website and social media from local government in Indonesia. For egovbench do this task, egovbench need to take information on every web page on every official website of local government.
Every web page will have a main content. Main content is a section, segment or block that contains text or multimedia on single web page that is not a landing page of web site or homepage and is unique to single web page. Important information about local governance generally lies within main content thus the need of web content extractor to extract that information.
In this research, we combine the two approaches that already existed, template-based approach and machine learning approach using Naïve-Bayes Classifier, to solve the problem of extracting main content from the webpage. Generally, previous research that has been conducted is using one type of approach, it is either using a template-based approach or using machine learning approach. The contribution of this research is on how the results of the main content extraction using a combination of two approaches between the template-based approach and the Naïve-Bayes Classification approach.
The challenge that this research faced is mainly come from the structure of web pages in official website owned by local government which hamper the template-based approach especially the effect of Content Management System on web page structures. The results show that using a combination of two types of approaches can yield more accurate results in predicting web page categories with an accuracy of 68% compared to current approach in egovbench with an accuracy of 59%.

Item Type: Thesis (Masters)
Additional Information: RTSI 004.6 Har p-1 3100018078753
Uncontrolled Keywords: web content extractor, template-based, machine learning
Subjects: T Technology > T Technology (General) > T57.5 Data Processing
T Technology > TK Electrical engineering. Electronics Nuclear engineering > TK5105.888 Web sites--Design. Web site development.
Divisions: Faculty of Information and Communication Technology > Information Systems > 59101-(S2) Master Thesis
Depositing User: Fajara Kurniawan N.H.
Date Deposited: 21 Oct 2020 01:33
Last Modified: 21 Oct 2020 01:34
URI: http://repository.its.ac.id/id/eprint/55671

Actions (login required)

View Item View Item