Perdana, Rizal Setya (2015) Pemilihan Kata Kunci Untuk Deteksi Kejadian Trivial Menggunakan Autocorrelation Wavelet Coefficients Pada Peringkasan Dokumen Twitter. Masters thesis, Institut Technology Sepuluh Nopember.
Preview |
Text
5113201020-Master Thesis.pdf - Published Version Download (2MB) | Preview |
Abstract
Sistem peringkasan multi-dokumen (Multi-document Summarization) pada
microblog Twitter tengah menjadi perhatian para peneliti beberapa tahun terakhir.
Proses peringkasan dilakukan pada kumpulan dokumen Twitter (tweet) yang
merepresentasikan kejadian penting (non-trivial) bertujuan untuk mendapatkan inti
kejadian dari kumpulan dokumen tersebut. Permasalahan yang mendasari
dilakukannya peringkasan tweet adalah pengguna harus membaca sejumlah tweet
secara manual untuk memahami suatu kejadian (event), sedangkan pengguna
Twitter memiliki batasan waktu untuk membaca seluruh tweet terkait kejadian.
Pemisahan kejadian biasa (trivial) dengan kejadian penting (non-trivial) dilakukan
untuk mengeliminasi tweet trivial sehingga dapat meningkatkan kualitas hasil
peringkasan kejadian. Salah satu cara untuk menentukan suatu kejadian dianggap
sebagai kejadian trivial dapat dilakukan dengan melakukan pemilihan kata kunci
yang dianggap merepresentasikan kejadian trivial. Kejadian yang berulang secara
periodik dianggap sebagai suatu kejadian trivial.
Pendeteksian kejadian dilakukan dengan memanfaatkan pola-pola temporal
atau sinyal dari data Twitter dalam bentuk sinyal wavelet untuk mendeteksi
kemunculan kejadian penting. Wavelet analysis merupakan metode yang sering
digunakan untuk mendeteksi perubahan dan puncak pada sinyal sehingga dapat
dimanfaatkan untuk mendeteksi kemunculan suatu kejadian pada Twitter. Namun
pendekatan tersebut tidak menjamin apakah kejadian-kejadian yang dideteksi
merupakan kejadian yang berulang secara periodik atau tidak. Pada penelitian ini
diajukan sebuah cara pendeteksian terhadap kejadian berulang secara periodik
dengan melakukan pemilihan kata kunci trivial berdasarkan perhitungan korelasi
(autocorrelation) pada wavelet coefficient kata kunci. Setelah mendapatkan kata
kunci trivial maka dilakukan eliminasi terhadap tweet yang mengandung kata kunci
trivial. Peringkasan multi-dokumen Twitter berdasarkan metode clustering tweet
dilakukan untuk mengelompokkan kejadian yang sama kedalam sebuah cluster.
Pemilihan kata kunci trivial tersebut pada peringkasan tweet diharapkan mampu
memilih kejadian penting sehingga dapat meningkatkan kualitas hasil ringkasan.
Penelitian menunjukkan bahwa nilai confidence boundary yang digunakan
adalah sebesar 0.20 dan nilai minimum korelasi 27 untuk mendapatkan kata kunci
trivial. Hasil clustering yang didahului proses eliminasi kata kunci trivial
menghasilkan akurasi lebih baik yaitu 12 cluster dengan nilai sihlouette sebesar
0.45.
=========================================================================================================
Multi-document summarization system on Twitter is a new topic of
researchers in recent years. One of summarization is applied in Twitter's document
(tweets) to the results of the detection of a significant event (non-trivial) to obtain
information that includes a collection of tweets that represents an event. Underlying
issues does summarization is needed in tweet because Twitter's users should read
manually to understand from an event, whereas Twitter users have limit time to read
all related tweets.
Separation of normal incidence (trivially) with important events (nontrivial)
done to eliminate the trivial tweets in order to improve the quality of the results of
summarization of events. One way to determine an important event or not can be
done by choosing keywords that are considered to represent an important event.
Periodically recurring events regarded as a trivial incident that required a special
method to detect the occurrence of such events for the next eliminated.
Event detection is done by exploiting temporal patterns or signals of Twitter
data in the form of signal wavelet to detect the emergence of important events.
Wavelet analysis is a method often used to detect changes and peaks in the signal
so it can be used to detect the occurrence of an event on Twitter. However, such
approaches do not guarantee whether the detected events are periodically recurring
events or not.
This study aimed at detecting the occurrence of a repeated periodically for
important events keyword selection by calculating the correlation (autocorrelation)
in the wavelet coefficients in multi-document peringkasan Twitter tweets based
clustering methods. The selection of the keywords in a tweet peringkasan expected
to choose important events so as to improve the quality of the summaries.
Item Type: | Thesis (Masters) |
---|---|
Additional Information: | RTIf 006.312 Per p |
Uncontrolled Keywords: | peringkasan, autocorrelation, Twitter, event detection, K-Medoids |
Subjects: | H Social Sciences > HM Sociology > HM742 Online social networks. Q Science > QA Mathematics > QA76.9.D343 Data mining. Querying (Computer science) |
Divisions: | Faculty of Information and Communication Technology > Informatics > 55101-(S2) Master Thesis |
Depositing User: | Mr. Tondo Indra Nyata |
Date Deposited: | 28 Jun 2019 02:15 |
Last Modified: | 07 May 2024 04:27 |
URI: | http://repository.its.ac.id/id/eprint/63337 |
Actions (login required)
View Item |