Pengelompokan Deskripsi Teks Dengan K-means Untuk Temu Kembali Data Video Menggunakan Kombinasi Klasifikasi Dan Perhitungan Jarak

Ayatullah, Ahmad Hafidh (2023) Pengelompokan Deskripsi Teks Dengan K-means Untuk Temu Kembali Data Video Menggunakan Kombinasi Klasifikasi Dan Perhitungan Jarak. Masters thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 6025211037-Master_Thesis.pdf] Text
6025211037-Master_Thesis.pdf - Accepted Version
Restricted to Repository staff only until 1 April 2025.

Download (14MB) | Request a copy

Abstract

Temu kembali berbasis hasil klasifikasi memerlukan proses pengelompokan data deskripsi teks untuk menentukan kelas topik. Pada penelitian ini, metode clustering K- means digunakan untuk mengelompokkan data deskripsi teks menjadi beberapa cluster topik. Setiap cluster mewakili satu kelas topik. Selanjutnya, input deskripsi teks dari user diklasifikasikan menggunakan metode Long short-term memory (LSTM) untuk menemukan data video dengan kelas yang sama di dalam database. Dataset yang digunakan adalah Microsoft Research Video Description Corpus (MRVDC) berbahasa Indonesia. Microsoft Research Video Description Corpus (MRVDC) merupakan kumpulan data video yang dikembangkan oleh Microsoft Research, yang berisi ekspresi parafrase dari suatu peristiwa baik dalam bahasa Inggris dan bahasa lainnya. Metode word embedding menggunakan BERT, FastText, dan Word2Vec. Perhitungan jarak menggunakan Cosine Similarity, Jaccard, Euclidean Distance, dan Manhattan Distance. Penelitian ini mendapatkan pengelompokan data topik dengan 180 cluster dari hasil Silhouette coefficient yang paling optimal yaitu k=180 tanpa PCA. Klasifikasi LSTM dengan fastText mendapatkan hasil tertinggi pada akurasi training sebesar 78.1% dan akurasi validation sebesar 84,15 %. Hasil pengukuran jarak tertinggi adalah Word2Vec CBOW dan Cosine Similarity dengan nilai rata-rata 0,812, kemudian BERT dan Cosine Similarity dengan nilai rata-rata 0,810
===================================================================================================================================
Retrieval based on classification results requires grouping text description data to determine class topics. This study uses the k-means clustering method to group data description texts into several cluster topics. Each cluster represents one topic class. then, text description input from the user is classified with the Long short-term memory (LSTM) method to find video data with the same class in the database. The dataset uses Microsoft Research Video Description Corpus (MRVDC) in Indonesian. Microsoft Research Video Description Corpus (MRVDC) is a video dataset developed by Microsoft Research, which contains paraphrased expressions of events in both English and other languages. The word embedding methods used are BERT, FastText, and Word2Vec. Distance calculations used are Cosine Similarity, Jaccard, Euclidean Distance, and Manhattan Distance. This study obtains topic grouping with 180 clusters from the most optimal Silhouette coefficient results of k = 180 without PCA. LSTM classification with fastText gets the highest results on training accuracy of 78.1% and accuracy validation of 84.15%. The highest distance measurement results are Word2Vec CBOW and Cosine Similarity with average value of 0.812, then BERT and Cosine Similarity with average value of 0.810

Item Type: Thesis (Masters)
Uncontrolled Keywords: Video data retrieval, Clustering, Classification, Microsoft Temu kembali data video, Clustering, Klasifikasi, Microsoft Research Video Description Corpus, Word Embedding, Pengukuran Jarak, Research Video Description Corpus, Word Embedding, Distance calculation
Subjects: Q Science > QA Mathematics > QA75 Electronic computers. Computer science. EDP
Divisions: Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Informatics Engineering > 55101-(S2) Master Thesis
Depositing User: Ahmad Hafidh Ayatullah
Date Deposited: 27 Feb 2023 01:15
Last Modified: 27 Feb 2023 01:15
URI: http://repository.its.ac.id/id/eprint/97641

Actions (login required)

View Item View Item