Hutauruk, Edgar Andrew (2022) Semantic Similarity Menggunakan Deep Learning Dan Text Pretrained Model Bidirectional Representations From Transformers (Bert) Untuk Identifikasi Kemiripan Topik Pertanyaan (Dataset Quora). Other thesis, Institut Teknologi Sepuluh Nopember.
![]() |
Text
05111740000166-Undergraduate_Thesis.pdf Restricted to Repository staff only Download (3MB) | Request a copy |
Abstract
Semantic Similarity pada teks merupakan salah satu tugas dari proses Natural Language Processing (NLP). Deteksi Kesamaan tekstual sebagian besar algoritmanya didasarkan pada pencocokan kata ke kata, pencocokan kalimat/paragraf, dan pencocokan seluruh dokumen dengan pembelajaran deep learning. Akan tetapi untuk menentukan sebuah model yang memiliki akurasi yang baik dan dapat menghindari over fit diperlukan sebuah dataset yang cukup besar, dikarenakan semakin banyak variasi dataset yang dilatih akan memberikan model yang memiliki hasil yang lebih baik. Bidirectional Representation from Transformers (BERT) merupakan sebuah solusi yang dapat dimanfaatkan pada dataset, BERT dirancang untuk melatih representasi dua arah yang mendalam dari teks yang tidak berlabel dengan mengkondisikan bersama pada konteks dari kiri dan kanan di semua lapisan. Dalam penelitian ini, pendekatan yang diusulkan dengan menggabungkan Convolutional Neural Network (CNN) dan Long Short-Term Memory Network (LSTM) untuk mengukur Kesamaan semantik antara dua pertanyaan dengan menggunakan BERT sebagai pretrained model utama dan akan dibandingkan dengan suatu metode yang dinamakan paraphrase mining.
=================================================================================================================================
Text Semantic similarity is one of the tasks of Natural Language Processing (NLP). Textual Similarity Detection is mostly done based on word to word match, sentence/paragraph matching, and whole document matching with deep learning. However, to determine a model with good accuracy and can avoid overfitting requires a dataset, because the more variations of the dataset will provide a model that has better results. Bidirectional Representation from Transformers (BERT) is a solution that can be leveraged on datasets, BERT is designed to train an in-depth two-way representation of unlabeled text by co-conditioning the context from left and right across all layers. In this study, the proposed approach combines Convolutional Neural Network (CNN) and Long Short-Term Memory Network (LSTM) to measure the semantic similarity between two questions using BERT as a pretrained model and will be compared with a method called paraphrase mining.
Item Type: | Thesis (Other) |
---|---|
Uncontrolled Keywords: | BERT, CNN, LSTM, Paraphrase Mining, Pretrained Model, Semantic Similarity. |
Subjects: | T Technology > T Technology (General) > T58.5 Information technology. IT--Auditing |
Divisions: | Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Informatics Engineering > 55201-(S1) Undergraduate Thesis |
Depositing User: | Mr. Marsudiyana - |
Date Deposited: | 10 Oct 2025 06:33 |
Last Modified: | 10 Oct 2025 06:33 |
URI: | http://repository.its.ac.id/id/eprint/128552 |
Actions (login required)
![]() |
View Item |