Lailia, Salma Rahma (2023) Mengidentifikasi Tweet Terkait Bencana Alam Dalam Bahasa Indonesia Dengan Mempelajari Korpus Tweet Bahasa Inggris. Other thesis, Institut Teknologi Sepuluh Nopember.
Text
05111942000016-Undergraduate_Thesis.pdf - Accepted Version Restricted to Repository staff only until 1 September 2025. Download (3MB) | Request a copy |
Abstract
Media sosial telah tumbuh menjadi bagian yang tak terpisahkan dari kehidupan. Twitter adalah salah satu media sosial yang digunakan oleh semua orang untuk berinteraksi, dan mendapatkan lebih banyak fakta tentang sikap manusia, kecenderungan, ide, dan perasaan pada setiap kesempatan yang mempengaruhi masyarakat, termasuk terjadinya kejadian bencana alam. Lokasi indonesia pada pertemuan tiga lempeng tektonik, yaitu plat indo-austrarian, lempeng pasifik, dan lempeng eurasia, membuat Indonesia sering dihantam oleh bencana alam. Penggunaan media social seperti twitter dapat memberikan banyak fakta, bersama dengan catatan tentang informasi bencana, perasaan korban, dan pergerakan orang-orang yang merasakan kejadian itu. Penelitian ini menunjukkan sebuah tweet berisi kejadian terjadinya bencana alam dengan memanfaatkan tweet yang dihasilkan oleh pengguna twitter. Jumlah dataset Indonesia tweet yang terbatas membuat pembelajaran ini menggunakan dua dataset yang berbeda Bahasa (Inggris tweet dan Indonesia tweet). Kedua dataset tweets digunakan untuk mengklasifikasikan tweets yang menyebutkan bencana alam. Dataset bahasa Inggris ditandai sebagai 1 untuk “berisi terjadinya kejadian bencana alam” atau 0 untuk “tidak berisi terjadinya kejadian bencana alam”. Dataset Indonesia tweet ditandai secara manual oleh tiga anotator, yaitu 1 untuk “berisi terjadinya kejadian bencana alam” atau 0 untuk “tidak berisi terjadinya kejadian bencana alam”. Tweet akan melewati proses pembersihan data. Kemudian, dataset akan diproses menggunakan ektraksi kata kunci TF-IDF dan Word2Vec untuk mendapatkan kata kunci terkait. Dataset Inggris tweet kemudian diklasifikasikan menggunakan BiLSTM. Algoritma jaringan saraf berulang yang dapat mendeteksi informasi ke depan dan ke belakang dari tweet. Model yang diperoleh dari dataset Inggris tweet digunakan sebagai referensi untuk mengklasifikasikan dataset Indonesia tweet. Dalam pembelajaran ini, diujikan dalam 2 skenario pengujian. Skenario 1 dengan enam lapisan BilSTM, dan Skenario 2 dengan empat lapisan BilSTM. Pengujian tersebut akan menggunakan ukuran batch sebesar 8, 32, dan 64. Kinerja terbaik dicapai dengan menggunakan Word2Vec + BiLSTM Skenario 1 dibandingkan dengan ekstraksi kata kunci dengan Skenario BiLSTM lainnya. Akurasi data pelatihan yang diperoleh adalah 82,77%, dan akurasi data tes adalah 61,16%. Model Word2Vec + BiLSTM dalam Skenario 1 terjadi overfitting karena rata-rata akurasi dari data pelatihan jauh lebih tinggi daripada akurasi rata-rata uji. Hasil percobaan menunjukkan bahwa Word2Vec adalah metode ekstraksi kata kunci yang lebih efektif daripada TF-IDF. Ini karena Word2Vec + BiLSTM dalam Skenario 1 lebih mampu mempelajari hubungan sintaksis dan semantik antar kata, yang memungkinkannya mengekstraksi kata kunci yang lebih bermakna
=====================================================================================================================================
Social media has grown into an inseparable part of life. Twitter is one of the social media that everyone uses to interact, and get more facts about human attitudes, tendencies, ideas, and feelings on every occasion that affects society, including occurrences of natural disasters. The location of Indonesia at the meeting of three tectonic plates, namely the Indo-Australian plate, the Pacific plate, and the Eurasian plate, makes Indonesia frequently hit by natural disasters. The use of social media such as twitter can provide a lot of facts, along with records of disaster information, the feelings of the victim, and the movements of the people who feel the event. The research shows a tweet containing the occurrence of a natural disaster using the tweet generated by users of Twitter. The limited number of Indonesian tweet datasets makes this learning use two different data sets Language (English tweet dan Bahasa tweet). Both tweets datasets were used to classify tweets that mentioned natural disasters. The English dataset is marked as 1 for “containing occurrences of natural disasters” or 0 for “not containing occurrence of a natural disaster”. The Indonesian dataset of tweets is manually marked by three anotators, i.e. 1 for “contains the occurrence of a natural disaster event” or 0 for “does not contain the occurence of natural disasters event”. Tweet will go through the data cleaning process. Then, the dataset will be processed using TF-IDF and Word2Vec keyword extraction to obtain related keywords. The English dataset of tweets was then classified using BiLSTM. A recurrent neural network algorithm that can detect forward and backward information from tweets. The model obtained from the English tweet dataset is used as a reference to classify the Bahasa tweet dataset. In this study, it is tested in two test scenarios. Scenario 1 with six layers of BilSTM, and Scenario 2 with four layers. The test will use batch sizes of 8, 32, and 64. The best performance is achieved by using Word2Vec + BiLSTM Scenario 1 compared to keyword extraction with other Scenarios. The accuracy of the training data obtained was 82.77%, and the accurability of the test data was 61.16%. The Word2Vec + BiLSTM model in Scenario 1 occurs overfitting because the average accuracy of the training data is much higher than the test averages. Experimental results show that Word2Vec is a more effective keyword extraction method than TF-IDF. This is because Word2Vec + BiLSTM in Scenario 1 is better able to study syntax and semantic relationships between words, which allows it to extract more meaningful keywords
Item Type: | Thesis (Other) |
---|---|
Uncontrolled Keywords: | Natural Disaster, Pre-Processing, Text Extraction, Twitter, Text Classification; Ekstraksi Fitur, Klasifikasi Teks, Natural Disaster, Pre-Processing, Twitter |
Subjects: | T Technology > T Technology (General) > T57.5 Data Processing |
Divisions: | Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Informatics Engineering > 55201-(S1) Undergraduate Thesis |
Depositing User: | Salma Rahma Lailia |
Date Deposited: | 04 Aug 2023 06:37 |
Last Modified: | 25 Aug 2023 08:49 |
URI: | http://repository.its.ac.id/id/eprint/100670 |
Actions (login required)
View Item |