Marisa, Stela (2024) Pembangkitan Musik dari Data Teks Menggunakan Model Music-Large Language Model META AI Versi 2. Other thesis, Institut Teknologi Sepuluh Nopember.
Text
5002201054_Undergraduate_Thesis.pdf - Accepted Version Restricted to Repository staff only until 1 October 2026. Download (1MB) | Request a copy |
Abstract
Banyak pencipta lagu muda memulai karyanya dari sebuah lirik yang terinsipirasi dari sebuah kisah atau perjalanan hidup sebelum menjadi sebuah karya musik. Namun, menjadikan sebuah lirik ke dalam musik perlu melibatkan beberapa pakar musik yang membutuhkan waktu lama dan biaya yang mahal. Di satu sisi, pencipta lagu perlu mempersiapkan sebuah draft melodi untuk ditawarkan kepada para pakar musik yang cocok. Oleh karena itu, penelitian Tugas Akhir ini mengusulkan model pembangkitan musik dari model MusicLM yang diintegrasikan dengan Large Language Model META AI yang disingkat menjadi MusicLLaMA. Penelitian ini bertujuan untuk membangkitkan
musik dari teks atau caption yang diberikan. Model yang diusulkan terdiri atas tiga modul utama antara lain: (i) Contrastive Language-Audio Pretraining (CLAP) untuk menangkap korelasi antara audio musik dan teks, (ii) EnCodec untuk proses encoding audio menjadi embedding audio, dan (iii) LLaMA untuk mengekstrak konteks input teks atau caption dan audio menjadi embedding kontekstual audio-teks. Penelitian Tugas Akhir ini menguji model yang diusulkan pada data primer dan data sekunder. Pengujian data primer dilakukan pada dataset yang dikhususkan pada musik yang memiliki genre sangat berbeda. Sedangkan, pengujian data sekunder dilakukan pada data publik text-to-music generation yang telah memiliki ground truth dari ahli. Secara umum, hasil eksperimen menunjukkan bahwa model yang diusulkan mampu menghasilkan audio yang lebih baik dibandingkan model pembandingnya seperti MusicGen dan MusicLM berdasarkan metrik MSE dan FAD. Terlebih saat hanya berfokus pada audio musik saja, model yang diusulkan mampu menghasilkan audio yang lebih baik dibandingkan yang lain.
===============================================================
Many young songwriters start their work with lyrics inspired by a story or life journey before turning it into a piece of music. Indeed, a lot of music experts need to be involved in composing lyrics into music which is very costly. Also, songwriters must prepare melody drafts before offering them to the right music composers. Therefore, this study proposes
a music generation model from MusicLM that integrates with Large Language Models META AI or MusicLLaMA. The goal of this study is to generate music from given texts or captions. The proposed model contains three main modules: (i) Contrastive Language-Audio Pretraining (CLAP) to capture the correlation between music audio and text, (ii) EnCodec as an encoding process from audio to audio embedding, (iii) LLaMA to extract the context of text or caption and audio input into contextual audio-text embedding. In this study, we tested the proposed model on two different datasets; one for only music and another one for more general. We crawled a few music dataset within contrast genres for the primary dataset. Secondary dataset is from public text-to-music generation dataset. Overall, the proposed model performed better than the baseline models such as MusicGen and MusicLM. Furthermore, when only focusing on music, the proposed model return better audio than the baseline ones.
Item Type: | Thesis (Other) |
---|---|
Uncontrolled Keywords: | Pembangkitan musik, text-to-music, large language model, audio sequence, music. |
Subjects: | Q Science > QA Mathematics > QA336 Artificial Intelligence Q Science > QA Mathematics > QA76.87 Neural networks (Computer Science) |
Divisions: | Faculty of Mathematics and Science > Mathematics > 44201-(S1) Undergraduate Thesis |
Depositing User: | Stela Marisa |
Date Deposited: | 06 Aug 2024 07:13 |
Last Modified: | 06 Aug 2024 07:13 |
URI: | http://repository.its.ac.id/id/eprint/113888 |
Actions (login required)
View Item |