Deteksi Kekerabatan Menggunakan Hybrid Vision Transformer Mamba Berbasis Mikroekspresi

Fibriani, Ike (2025) Deteksi Kekerabatan Menggunakan Hybrid Vision Transformer Mamba Berbasis Mikroekspresi. Doctoral thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 7022201005-Dissertation.pdf] Text
7022201005-Dissertation.pdf - Accepted Version
Restricted to Repository staff only until 1 April 2027.

Download (3MB) | Request a copy

Abstract

Deteksi kekerabatan berbasis mikroekspresi wajah adalah analisis biometrik yang bertujuan untuk mengidentifikasi hubungan keluarga melalui pola-pola subtil pada ekspresi wajah. Mikroekspresi, yang hanya berlangsung dalam milidetik, mencerminkan elemen genetik dan emosional yang tidak dapat diamati dengan mata telanjang, menjadikannya sumber informasi yang sangat bernilai untuk tugas ini. Penelitian ini mengusulkan model hybrid baru bernama ViTMa, yang mengintegrasikan Vision Transformer (ViT) dan algo- ritma optimasi Mamba untuk meningkatkan akurasi dan efisiensi pengenalan hubungan kekerabatan. Vision Transformer digunakan untuk mengekstraksi fitur spasial mikroekspresi secara mendalam, sedangkan algoritma Mamba mengoptimalkan parameter model secara adaptif menggunakan pendekatan metaheuristik. Model ini didukung oleh arsitektur Siamese Neural Network, yang dirancang untuk membandingkan pasangan gambar wajah secara lang- sung melalui strategi fitur fusi kuadratik dan multiplikasi, sehingga dapat menangkap hubungan kekerabatan dengan lebih presisi. Dataset yang digunakan dalam penelitian ini terdiri atas dataset lokal Indonesia (LaIndo) yang mencakup berbagai hubungan kekerabatan, yaitu ibu-anak perempuan (MD), ibu-anak laki- laki (MS), ayah-anak perempuan (FD), ayah-anak laki-laki (FS), saudara laki-laki (BB), saudara perempuan (SS), dan saudara laki-laki-perempuan (SiBs). Selain itu, dataset ini juga dilengkapi dengan dataset Families in the Wild (FIW). Evaluasi model menun- jukkan bahwa pendekatan hybrid ViTMa dengan backbone B16 dan strategi fusi fitur kuadratik serta multiplikasi menghasilkan akurasi terbaik sebesar 85,18%, melebihi metode lain seperti L16 (67,99%), B32 (72,98%), dan L32 (71,69%). Selain itu, hasil eksperimen menunjukkan bahwa model ini efektif dalam mengatasi bias akibat ketidakseimbangan jumlah data antar kategori hubungan kekerabatan, yang sering menjadi tantangan dalam pengembangan sistem biometrik. Penelitian ini memberikan kontribusi signifikan salah satunya adalah pengembangan model hybrid ViTMa yang mengintegrasikan keunggulan Vision Transformer dan Mamba untuk menangkap pola mikroekspresi secara efisien, pemanfaatan dataset lokal Indonesia untuk meningkatkan relevansi model terhadap populasi dengan karakteristik budaya dan genetik unik; dan penerapan strategi fusi fitur kuadratik dan multiplikasi untuk meningkatkan efisiensi komputasi sekaligus memperbaiki akurasi klasifikasi. Hasil penelitian ini menunjukkan bahwa ViTMa secara konsisten mengungguli metode berbasis CNN tradisional dalam tugas deteksi kekerabatan melalui mikroekspresi. Dengan kemampuannya yang unggul dalam mengenali hubungan kekerabatan secara akurat dan efisien, ViTMa membuka peluang baru untuk mengembangkan sistem pengenalan biometrik yang lebih adaptif dan relevan, khususnya untuk populasi lokal. Dengan akurasi tinggi dan efisiensi yang ditawarkan, ViTMa memiliki potensi besar untuk diaplikasikan pada berbagai bidang, seperti keamanan, forensik, dan analisis hubungan genetik berbasis wajah.
==================================================================================================================================
Facial microexpression-based kinship detection is an innovative approach in biometric analysis that aims to identify family relationships through subtle patterns in facial expressions. Microexpressions, which last only a fraction of a second, reflect genetic and emotional elements that cannot be observed with the naked eye, making them a highly valuable source of information for this task. This research proposes a new hybrid model named ViTMa, which integrates Vision Transformer (ViT) and Mamba optimization algorithm to improve the accuracy and efficiency of kinship recognition. The Vision Transformer is used to deeply extract microexpression spatial features, while the Mamba algorithm adaptively optimizes model parameters using a metaheuristic approach. The model is supported by the Siamese Neural Network architecture, which is designed to directly compare pairs of facial images through quadratic and multiplicative feature fusion strategies, thereby capturing kinship relationships with greater precision. The dataset used in this study consists of a local Indonesian dataset (LaIndo) that includes various kinship relationships, such as mother-daughter (MD), mother-son (MS), father-daughter (FD), father-son (FS), brother (BB), sister (SS), and brother-sister (SiBs). In addition, this dataset is also complemented by the Families in the Wild (FIW) dataset. Model evaluation showed that the hybrid ViTMa approach with the backbone B16 and quadratic and multiplicative feature fusion strategies yielded the best accuracy of 85.18%, exceeding other methods such as L16 (67.99%), B32 (72.98%), and L32 (71.69%). In addition, experimental results show that this model is effective in overcoming bias due to the imbalance in the amount of data between kinship categories, which is often a challenge in the development of biometric systems. This research makes a significant contribution, one of which is the development of a hybrid model. ViTMa model that integrates the advantages of Vision Transformer and Mamba to efficiently capture microexpression patterns, the utilization of local Indonesian datasets to increase the model’s relevance to populations with unique cultural and genetic characteristics; and the application of quadratic and multiplicative feature fusion strategies to increase computational efficiency while improving classification accuracy. The results of this study show that ViTMa consistently outperforms traditional CNN-based methods in the task of kinship detection through microexpression. With its superior ability to accurately and efficiently recognize kinship relationships, ViTMa opens up new opportunities to develop more adaptive and relevant biometric recognition systems, especially for local populations. With its high accuracy and efficiency, ViTMa has great potential to be applied in various fields, such as security, forensics, and face-based genetic relationship analysis.

Item Type: Thesis (Doctoral)
Uncontrolled Keywords: Dataset LaIndo, Deteksi kekerabatan, Efisiensi Komputasi, Fusi fitur, Mamba, Mikroekspresi wajah, Siamese Neural Network, Vision Transformer, Vitma, Computational Efficiency, Facial microexpression, Fusion features, Kinship detection, LaIndo dataset, Vision transformer, Vitma
Subjects: Q Science > QA Mathematics > QA336 Artificial Intelligence
Q Science > QA Mathematics > QA76.87 Neural networks (Computer Science)
Divisions: Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Electrical Engineering > 20001-(S3) PhD Thesis
Depositing User: IKE FIBRIANI
Date Deposited: 03 Feb 2025 04:07
Last Modified: 03 Feb 2025 04:07
URI: http://repository.its.ac.id/id/eprint/117673

Actions (login required)

View Item View Item