Wiliyanti, Wiliyanti (2025) Eksplorasi Fusi Data Multimodal pada Selebaran Produk Retail untuk Fine-Grained Classification. Masters thesis, Institut Teknologi Sepuluh Nopember.
| ![[thumbnail of 6025231028-Master_Thesis.pdf]](http://repository.its.ac.id/style/images/fileicons/text.png) | Text 6025231028-Master_Thesis.pdf - Accepted Version Restricted to Repository staff only Download (5MB) | Request a copy | 
Abstract
Pemantauan harga, jenis dan promo produk adalah analisa yang sering dilakukan untuk melihat strategi pemasaran suatu produk. Selebaran iklan produk baik cetak maupun digital adalah sumber utama untuk mendapatkan informasi harga dan promosi yang dilakukan oleh kompetitor. Namun, selebaran iklan yang tidak terstruktur dan multi-modal (terdiri dari gambar dan teks) serta terdiri dari banyak jenis produk yang sangat mirip, membuat proses identifikasi dan pencocokan produk menjadi lebih sulit untuk dikenali oleh sistem secara otomatis. Masalah ini bisa diselesaikan dengan melakukan deteksi produk yang mengacu pada tugas klasifikasi yang membedakan antara kategori yang sangat mirip, atau subkategori dalam satu kelas utama ( fine-grained classification). Kombinasi antara gambar dan teks dalam data selebaran produk memungkinkan penerapan klasifikasi dengan menggabungkan informasi dari berbagai modalitas (gambar dan teks) atau disebut fusi data multimodal. Pada klasifikasi fusi data multimodal, penentuan teknik fusi data sangat berpengaruh terhadap perfoma model. Sehingga untuk mendapatkan integrasi yang efektif dari data multimodal pada suatu domain dibutuhkan eksplorasi terhadap teknik fusi yang akan digunakan dalam proses klasifikasi. Penelitian ini mengeksplorasi dua skenario pada teknik hybrid fusion, dengan skenario pertama yaitu kombinasi penggunaan fitur ekstraksi teks DistilBERT dan hasil klasifikasi model ResNet50, serta skenario kedua yaitu penggunaan fitur ekstraksi gambar ResNet50 dan hasil klasifikasi teks model DistilBERT. Eksplorasi ini dilakukan untuk melihat bagaimana efektivitas dari perubahan metode dalam pembangunan fusi data multimodal dan performa model klasifikasi yang dihasilkan. Dataset penelitian terdiri dari kumpulan selebaran produk retail yang berisi gambar produk dan deskripsi iklan dari dataset Retail Products Classification 2023. Hasil eksperimen menunjukkan bahwa skenario fusi multimodal dengan pendekatan hybrid fusion dengan skenario pertama memberikan performa terbaik dengan akurasi 98,5%, presisi 95,3%, recall 94,7%, dan F1-score 95,0%. Hasil ini merepresentasikan peningkatan signifikan sebesar 7,54% untuk akurasi dan 15,85% untuk F1-score dibandingkan penelitian sebelumnya.
===================================================================================================================================
Monitoring product prices, types, and promotions is a common analytical approach used to evaluate marketing strategies. Advertising leaflets, both printed and digital, serve as primary sources for gathering information on competitor pricing and promotional campaigns. However, these leaflets are often unstructured and multimodal, comprising both images and text, and typically feature a wide variety of visually similar products. This condition makes the automatic identification and matching process more challenging for computational systems. This problem can be addressed through product detection tasks based on fine-grained classification, which focuses on distinguishing highly similar categories or subcategories within a broader class. The presence of both image and text modalities in product leaflets supports the application of multimodal data fusion for classification purposes, where information from different sources is combined to enhance decision-making. In multimodal classification, the choice of fusion technique plays a crucial role in determining model effectiveness. Therefore, identifying the most suitable fusion method is essential for achieving optimal integration of multimodal data in a given domain. This study investigates two hybrid fusion scenarios. The first scenario combines text feature extraction from DistilBERT with classification results from the ResNet50 image model. The second scenario integrates image feature extraction from ResNet50 with classification results from the DistilBERT text model. These experiments aim to examine the impact of different fusion structures on model performance and evaluate the effectiveness of each method in constructing a robust multimodal classification framework. The dataset used in this research is derived from the Retail Products Classification 2023 dataset, which consists of product leaflet images and corresponding advertising descriptions. Experimental results demonstrate that the first hybrid fusion scenario achieved the best performance, with an accuracy of 98.5 percent, precision of 95.3%, recall of 94.7%, and F1-score of 95.0%. These results represent a significant improvement of 7.54% in accuracy and 15.85% in F1-score compared to previous studies.
| Item Type: | Thesis (Masters) | 
|---|---|
| Uncontrolled Keywords: | DistilBERT, Fine-grained classification, multimodal, ResNet50, Retail Products | 
| Subjects: | T Technology > T Technology (General) > T59.7 Human-machine systems. | 
| Divisions: | Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Informatics Engineering > 55101-(S2) Master Thesis | 
| Depositing User: | Wiliyanti . | 
| Date Deposited: | 05 Aug 2025 01:52 | 
| Last Modified: | 05 Aug 2025 01:52 | 
| URI: | http://repository.its.ac.id/id/eprint/126594 | 
Actions (login required)
|  | View Item |