Deteksi Korespondensi Audio dan Visual menggunakan metode Convolutional Neural Networks

Andrean, Ronald (2019) Deteksi Korespondensi Audio dan Visual menggunakan metode Convolutional Neural Networks. Other thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 05111540000174-Undergraduate_Theses.pdf] Text
05111540000174-Undergraduate_Theses.pdf - Accepted Version
Restricted to Repository staff only

Download (2MB) | Request a copy

Abstract

Deep Neural Networks, yang merupakan tiruan dari sistem syaraf pada otak binatang, telah mengalami banyak perkembangan dan memperoleh banyak kesuksesan pada berbagai bidang seperti Computer Vision, Biomedic, Text Processing, Signal Processing, dan lain-lain. Walaupun dengan banyaknya perkembangan pada area deep learning, kebanyakan neural networks masih terkhusukan pada satu jenis data masukan. Penerapan metode pembelajaran lintas modal memungkinkan pembelajaran menggunakan lebih dari satu jenis masukan. Hal ini memungkinkan neural networks untuk memiliki kemampuan memproses masukan dari banyak sensor kognitif seperti manusia. Pada tugas akhir ini, penulis melakukan pembelajaran lintas modal dari gambar dan suara menggunakan Convolutional Neural Networks untuk mendeteksi korespondensi audio dan visual dari sebuah video. Dataset yang digunakan adalah video yang diambil dari YouTube sebagai bahan sumber dan melakukan Audio-Visual Correspondence (AVC) sebagai fungsi obyektif pelatihan dengan menggunakan metode self-supervision. Proses pelatihan dilakukan tanpa menggunakan label sama sekali. Penulis juga menunjukkan bahwa sumber suara pada video dapat dilokalisasikan dengan menggunakan metode ini. Metode ini memperoleh hasil lokalisasi terbaik dengan akurasi sebesar 64,69%.
====================================================================================================================================
Deep Neural Networks, which is an imitation of neuron system in animal brain, has been through a lot of developments and has achieved some great successes in various field such as Computer Vision, Biomedic, Text Processing, Signal Processing, etc. Despite the advancements in deep learning area, most neural networks remain specialized on a single input data type. Cross-modal learning has enabled the usage of multiple input data type. it gives neural networks an ability to correlate the input from different cognitive sensors like humans do. In this undergraduate thesis, we do a cross-modal learning from images and audio using Convolutional Neural Networks to detect correspondence between audio and visual of a video. We use videos from YouTube as our source material and employ Audio-Visual Correspondence (AVC) as the training objective with self-supervision method. There is no label used during the training proses. We also show that the sound source in a video can be localized using this method. This method achieves best localization output with an accuracy of 64,69%.

Item Type: Thesis (Other)
Additional Information: RSIf 004.35 And d-1 2019 3100019081426
Uncontrolled Keywords: Audio-Visual Correspondence, Convolutional Neural Network, lintas modal, lokalisasi, self-supervision, suara, video, YouTube
Subjects: Q Science > QA Mathematics > QA336 Artificial Intelligence
Q Science > QA Mathematics > QA76.87 Neural networks (Computer Science)
T Technology > TK Electrical engineering. Electronics Nuclear engineering > TK5102.9 Signal processing.
Divisions: Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Informatics Engineering > 55201-(S1) Undergraduate Thesis
Depositing User: Ronald Andrean
Date Deposited: 10 Dec 2025 08:05
Last Modified: 10 Dec 2025 08:05
URI: http://repository.its.ac.id/id/eprint/66917

Actions (login required)

View Item View Item