Analisis Cluster Lagu Berdasarkan Topic Modeling Lirik Lagu dengan Latent Dirichlet Allocation dan Probabilistic Latent Semantic Analysis

Yogianty, Meisy Nathania (2025) Analisis Cluster Lagu Berdasarkan Topic Modeling Lirik Lagu dengan Latent Dirichlet Allocation dan Probabilistic Latent Semantic Analysis. Other thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 5003211088-Undergraduate_Thesis.pdf] Text
5003211088-Undergraduate_Thesis.pdf - Accepted Version
Restricted to Repository staff only

Download (7MB) | Request a copy

Abstract

Musik telah menjadi bagian yang tak dapat dipisahkan dari kehidupan sehari-hari, kemudahan akses melalui layanan streaming makin menguatkan peran musik dalam hidup sehari-hari. Namun, fenomena ‘paradox of choice’ menjadi tantangan bagi pengguna untuk memilih lagu yang sesuai preferensi. Penelitian ini bertujuan untuk mengembangkan dan mengevaluasi metode pengelompokkan lagu berdasarkan tema lirik dan karakteristik lagu. Dengan menggunakan dataset gabungan berisi 2.300 lagu, penelitian ini menerapkan metode topic modeling Latent Dirichlet Allocation (LDA) dan Probabilistic Latent Semantic Analysis (PLSA) untuk identifikasi tema lirik. Tema yang dihasilkan kemudian dikombinasikan dengan variabel numerik (tahun rilis, tempo, dan durasi) untuk dikelompokkan menggunakan algoritma K-Means clustering dengan Gower’s distance. Hasil analisis menunjukkan tantangan utama terdapat satu tema yang mendominasi kumpulan lirik lagu, yaitu ‘Cinta dan hubungan’, sehingga menyebabkan kualitas clustering awal menjadi lebih rendah dibandingkan dengan clustering tanpa variabel tema lirik. Penelitian ini menunjukkan bahwa pendekatan menghapus beberapa kata kunci teratas dari tema dominan terbukti efektif secara signifikan. Hasil clustering terbaik dihasilkan dari kombinasi LDA dengan penghapusan 30 kata kunci teratas berhasil membentuk 3 cluster yang informatif dengan silhouette score 0,5028, di mana pengelompokan lagu tidak hanya terlihat berdasarkan tahun rilis, tetapi juga berdasarkan komposisi tema dalam cluster yang unik. Dalam perbandingan dengan tema hasil pemodelan PLSA, tema dari pemodelan LDA terbukti lebih baik untuk digunakan dalam clustering lagu. Kesimpulannya, penelitian ini membuktikan bahwa clustering lagu berdasarkan tema lirik dapat dilakukan dengan efektif, selama terdapat strategi pendekatan yang cermat untuk mengatasi ketidakseimbangan tema dalam data.
=================================================================================================================================
Music has become an indispensable part of daily life, with its role further solidified by the convenient access offered by music streaming services. However, the 'paradox of choice' phenomenon poses a challenge for users to select songs that match their preferences. This research aims to develop and evaluate a method for clustering songs based on their lyrical themes and musical characteristics. Using a combined dataset of 2,300 songs, this study applies Latent Dirichlet Allocation (LDA) and Probabilistic Latent Semantic Analysis (PLSA), to identify lyrical themes. These themes were combined with numerical variables (year, tempo, and duration) and grouped using K-Means clustering algorithm with Gower's distance to handle mixed data types. The analysis showed a primary challenge: the massive dominance of a single generic theme, ‘Love and relationships’, which caused the initial clustering quality to be lower than a model without the lyrical theme variable. This study demonstrates that an intervention strategy of removing the top-n keywords from the dominant theme proved to be significantly effective. The optimal clustering result, achieved by combining LDA with removing top 30 keywords, successfully formed 3 informative clusters with a silhouette score of 0.5028. These clusters were distinguished not only by released era but also by their unique thematic compositions. In a direct comparison, themes derived from LDA proved to be more effective for song clustering than those from PLSA. In conclusion, this research confirms that effective song clustering based on lyrical themes is feasible, provided that a meticulous strategic approach is implemented to address the thematic imbalance inherent in the data.

Item Type: Thesis (Other)
Uncontrolled Keywords: Clustering, Latent Dirichlet Allocation, Lirik Lagu, Probabilistic Latent Semantic Analysis, Topic Modeling, Clustering, Latent Dirichlet Allocation, Probabilistic Latent Semantic Analysis, Song Lyrics, Topic Modeling
Subjects: Q Science > Q Science (General) > Q325.5 Machine learning. Support vector machines.
Q Science > QA Mathematics > QA278.55 Cluster analysis
Divisions: Faculty of Science and Data Analytics (SCIENTICS) > Statistics > 49201-(S1) Undergraduate Thesis
Depositing User: Meisy Nathania Yogianty
Date Deposited: 01 Aug 2025 09:03
Last Modified: 01 Aug 2025 09:03
URI: http://repository.its.ac.id/id/eprint/125182

Actions (login required)

View Item View Item