Kompresi Multilevel Pada Meta Heuristik Focused Web Crawler

Santoso, Dian Septiani (2019) Kompresi Multilevel Pada Meta Heuristik Focused Web Crawler. Masters thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 5116201029-Master_Thesis.pdf]
Preview
Text
5116201029-Master_Thesis.pdf

Download (2MB) | Preview

Abstract

Focused Web Crawler merupakan metode pencarian website yang sesuai dengan
pencarian yang diingikan oleh user. Karena berbasis pencarian atau pencocokan maka
diperlukan metode untuk menghasilkan pencarian yang memiliki tingkat kecocokan
yang baik. Untuk mendapatkan kecocokan yang baik maka diperlukan waktu yang lebih
lama dibandingkan pencarian web crawler pada umumnya dengan memakai alogaritma
DFS (Depth First Search) maupun BFS (Breadth First Search). Untuk mengatasi hal
tersebut maka muncul sebuah ide pencarian Focused Web Crawler dengan
menggunakan metode metaheuristik pencarian cuckoo yang digabung dengan pencarian
pada data history pencarian yang disimpan. Namun dengan adanya penyimpanan data
pada setiap kali pencarian link maka data akan semakin bertambah,oleh karena itu
diperlukan sebuah cara untuk mengurangi kebutuhan ruang penyimpanan.
Cara yang dilakukan untuk mengurangi ruang penyimpanan dan tidak mengurangi
nilai informasi dari data penyimpanan sebelumnya adalah dengan melakukan kompresi
data. Dalam penelitian ini diusulkan metode kompresi data dengan melakukan kompresi
multilevel menggunakan dua metode kompresi yaitu pengurangan kata dan kompresi
string berbasis kamus. Dari hasil percobaan didapatkan rasio penghematan rata-rata
sebesar 36.4%.
Untuk menguji hasil dari kompresi data yaitu dengan melakukan perbandingan hasil
pencarian link menggunakan metode Knutt Morris Pratt (KMP) dari data yang belum
terkompresi dengan data yang telah terkompresi. Hasilnya didapatkan bahwa
maksimum presisi dengan nilai 1 dan recall sebesar 0.73 masih bisa didapatkan dengan
metode yang diusulkan.
===============================================================================================
Focused Web Crawler is a search method of a website that matches the search
desired by the user. Because it's search-based or matching it's necessary to generate a
search that has a good match rate. To get a good match it takes longer time than web
crawler search in general by using DFS (Depth First Search) algorithm and BFS
(Breadth First Search). To overcome this then comes to a search idea Focused Web
Crawler by using metaheuristic method of cuckoo search combined with a search on
search history data stored. But with the storage of data on each time the link search will
increase the data, therefore needed a way to reduce storage space needs.
The way that is done to reduce storage space and does not reduce the value of
information from previous data storage is to perform data compression. In this study
proposed data compression method by doing multilevel compression using two methods
of compression ie reduction of words and dictionary based string compression. It is
expected that by doing multilevel compression, the data will be maximally compressed
and does not reduce the value of information from existing data. From the experimental
results obtained an average savings ratio of 36.4%.
To test the results of data compression that is by comparing the link search
results using the Knutt Morris Pratt method (KMP) from data that has not been
compressed with compressed data. The results obtained that the maximum precision
with a value of 1 and recall of 0.73 can still be obtained by the proposed method.

Item Type: Thesis (Masters)
Additional Information: RTIf 006.76 San k-1 2019
Uncontrolled Keywords: Focused Web Crawler, Pencarian Metaheuristik,Pencarian Cuckoo, Kompresi multilevel, Kompresi Berbasis Kamus, Pencarian link, Knutt Morris Pratt
Subjects: T Technology > T Technology (General) > T58.5 Information technology. IT--Auditing
Divisions: Faculty of Information Technology > Informatics Engineering > 55101-(S2) Master Thesis
Depositing User: Septiani S Dian
Date Deposited: 10 Jun 2021 03:57
Last Modified: 10 Jun 2021 03:57
URI: http://repository.its.ac.id/id/eprint/60419

Actions (login required)

View Item View Item