Ranggianto, Narandha Arya (2023) Peringkasan Teks dengan Pendekatan Abstraktif dan Ekstraktif Pada Ulasan Perjalanan Berbahasa Indonesia. Masters thesis, Institut Teknologi Sepuluh Nopember.
Text
6025211010-Master_Thesis.pdf - Accepted Version Restricted to Repository staff only until 1 October 2025. Download (2MB) | Request a copy |
Abstract
Peringkasan teks otomatis dapat membantu pembaca dalam memahami inti informasi ulasan, dimana terdapat dua pendekatan yaitu ekstraktif dan abstraktif. Pendekatan ekstraktif melakukan peringkasan dengan memilih kalimat langsung, sedangkan pendekatan abstraktif melakukan peringkasan dengan cara melakukan parafrase hasil yang lebih ringkas. Namun pendekatan abstraktif memiliki kelemahan untuk menghadapi multi-dokumen pada ulasan karena model pre-trained memiliki jumlah input token yang terbatas dan membutuhkan data yang besar. Hal tersebut menghasilkan ringkasan dengan informasi utama yang sedikit.
Penggabungan model dapat mengatasi masalah tersebut karena model yang terbaik akan digunakan sebagai hasil peringkasan akhir. Namun, penggabungan model masih menggunakan pendekatan supervised sehingga diperlukan data tambahan dan membutuhkan komputasi yang besar. Oleh karena itu, penelitian ini menggabungkan abstraktif dan ekstraktif dengan model unsupervised untuk penambahan informasi hasil ringkasan. Pendekatan ekstraktif yang diusulkan menggunakan clustering dan kombinasi skoring dari 4 fitur: relevansi, keterbaruan informasi/novelty, posisi, dan sentiment-keyword (RKiPS). Clustering berfungsi untuk mengurangi topik yang tidak penting dalam ulasan. Fitur relevansi untuk menghitung kedekatan kalimat dengan topik utama dalam dokumen. Fitur keterbaruan informasi dihitung untuk mengurangi rendudansi sebuah kalimat. Fitur posisi merupakan fitur untuk menentukan kalimat penting berdasarkan posisi kalimat. Sedangkan fitur sentimen untuk mendapatkan kalimat yang berisi sebuah opini menggunakan model VADER. Kemudian fitur keyword menggunakan model YAKE yang berfungsi untuk mendapatkan sebuah kata penting berupa n-gram.
Pada penelitian ini menggunakan nilai evaluasi yaitu ROUGE-1, ROUGE-2, ROUGE-L, dan BERTScore. Penghapusan topik menggunakan clustering untuk menghapus kalimat yang tidak penting dari hasil tokenisasi memberikan penambahan nilai ROUGE sebesar 0.14%-0.15%. Pada pembangunan ringkasan dengan pendekatan ekstraktif untuk model clustering dan fitur relevansi, fitur keterbaruan informasi/novelty, fitur posisi, dan fitur sentiment-keyword (RKiPS) menghasilkan performa ROUGE dan BERTScore dengan peningkatan 0.17%-1.45% dibandingkan dengan model skoring fitur relevansi, fitur keterbaruan informasi/novelty, dan fitur posisi (RKiP) serta metode unsupervised lainnya yaitu Textrank, BERT Ekstraktif, dan Textteaser. Kemudian penggabungan pendekatan abstraktif (BERT atau GPT2) dan ekstraktif (model clustering dan RKiPS) menghasilkan peningkatan sebesar 0.46%-4.56% dibandingkan pendekatan abstraktif atau ekstraktif saja. Berdasarkan hal tersebut, penggabungan abstraktif dan ekstraktif menghasilkan pengaruh yang baik dan ringkasan yang informatif.
======================================================================================================================================
Automatic text summarization can help readers understand the main information, where there are two approaches, namely extractive and abstractive. The extractive approach summarizes by choosing direct sentences, while the abstractive approach summarizes by paraphrasing results that are more concise. However, the abstractive approach has the disadvantage of dealing with multiple documents in the review because the pre-trained model has a limited number of input tokens and requires large data. This results in a summary that lacks information.
Combining models can overcome the problem because the best model will be used as the final summary result. However, model combining still uses a supervised approach so that additional data is needed and requires large computations. Therefore, this study combines abstractive and extractive apporaches based on unsupervised model to add summary information. The proposed extractive approach uses clustering and a combination of scoring from 4 features: relevance, novelty, position, and sentiment-keyword (RKiPS). Clustering serves to reduce unimportant topics in the review. Relevance feature to calculate the proximity of sentences to the main topic in the document. The novelty feature is calculated to reduce the redundancy of a sentence. Positional feature is a feature to determine important sentences based on sentence position. While the sentiment feature is to get a sentence that contains an opinion using VADER model. Then the keyword feature uses the YAKE model which functions to get an important word in the form of n-grams.
In this study, evaluation values were used, namely ROUGE-1, ROUGE-2, ROUGE-L, and BERTScore. Deleting topics using clustering to remove unnecessary sentences from the tokenization results improves a ROUGE value of 0.14% -0.15%. In the construction of a summary with an extractive approach for clustering models and combination features: relevance, novelty, position, and sentiment-keyword (RKiPS) results in ROUGE and BERTScore performance with an increase of 0.17% -1.45% compared to combination features: relevance, novelty, and position (RKiP) as well as other unsupervised methods namely Textrank, Extractive BERT, and Textteaser. Then the combination of abstractive approaches (BERT or GPT2) and extractives (clustering and RKiPS model) resulted in an increase of 0.46%-4.56% compared to only abstractive or extractive approach. Based on this, the combination of abstractive and extractive results in a good impact and informative summary.
Item Type: | Thesis (Masters) |
---|---|
Uncontrolled Keywords: | peringkasan teks, ekstraktif, abstraktif, bert, gpt2, clustering, sentiment, keyword |
Subjects: | Q Science > QA Mathematics > QA336 Artificial Intelligence Q Science > QA Mathematics > QA76.9.D343 Data mining. Querying (Computer science) |
Divisions: | Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Informatics Engineering > 55101-(S2) Master Thesis |
Depositing User: | Narandha Arya Ranggianto |
Date Deposited: | 05 Aug 2023 08:37 |
Last Modified: | 05 Aug 2023 08:37 |
URI: | http://repository.its.ac.id/id/eprint/101729 |
Actions (login required)
View Item |