Hajar, Zhafira (2026) Adaptive Transfer Learning untuk Skeleton-Based Human Action Recognition di Lingkungan Pengawasan Industri Lintas Domain. Masters thesis, Institut Teknologi Sepuluh Nopember.
|
Text
6026232008-Master_Thesis.pdf - Accepted Version Restricted to Repository staff only Download (15MB) | Request a copy |
Abstract
Pabrik manufaktur pintar merekam rekaman CCTV berdurasi panjang dari pekerja manusia, tetapi para supervisor masih meninjau video-video tersebut secara manual. Proses peninjauan manual ini memakan waktu dan tenaga, serta menjadi tidak efisien ketika skala pabrik semakin besar. Tesis ini mengkaji bagaimana memanfaatkan kembali dataset laboratorium yang memiliki pelabelan yang baik untuk mendukung skeleton-based human action recognition di lingkungan pabrik nyata yang hanya memiliki label terbatas. Penelitian ini menggunakan video Electronic Device Assembly (EDA) sebagai source domain berlabel dan CCTV pabrik semen Additon sebagai target domain. Kedua domain tersebut berbeda dalam sudut pandang kamera, latar belakang, dan perilaku pekerja, sehingga menimbulkan kesenjangan yang jelas pada distribusi fitur kerangka tubuh. Pipeline yang diusulkan dimulai dari video mentah dari kedua pabrik. Pipeline ini memotong setiap frame Additon menjadi satu wilayah workstation, kemudian menerapkan YOLO-Pose untuk mengekstraksi upper-body skeleton keypoints pada setiap frame pekerja di kedua domain. Metode ini hanya menambahkan rotasi virtual pitch–yaw pada kerangka EDA untuk meniru sudut pandang kamera atas milik Additon. Maximum Mean Discrepancy (MMD) digunakan untuk mengukur kesenjangan distribusi sebelum dan sesudah augmentasi, serta untuk memandu pemilihan sudut pandang. Konfigurasi akhir dengan pitch 60° dan yaw 0° menghasilkan jarak MMD paling kecil sambil tetap mempertahankan geometri sendi yang realistis. Berdasarkan rangkaian kerangka tersebut, penelitian ini melatih model bidirectional LSTM tujuh kelas menggunakan fixed-length windows. Model ini pertama kali dilatih hanya menggunakan window EDA, kemudian menjalani supervised fine-tuning dengan sejumlah kecil window Additon berlabel, sementara sampel EDA tetap disertakan di setiap batch. Model dasar yang hanya dilatih pada EDA mencapai weighted F1-score sebesar 0,708 pada data Additon dan hampir tidak pernah mendeteksi kelas Waiting. Setelah fine-tuning, akurasi meningkat menjadi 0,927 dan weighted F1-score mencapai 0,922, dengan peningkatan yang jelas pada kelas Waiting dan Other. Model hasil adaptasi tetap mampu mengenali ketujuh aksi EDA dan menghasilkan activity timeline yang stabil pada klip Additon yang belum pernah dilihat sebelumnya. Hasil ini menunjukkan bahwa viewpoint-aware skeleton augmentation yang dikombinasikan dengan supervised fine-tuning mampu menjembatani kesenjangan domain pada CCTV industri sambil tetap menjaga privasi, karena sistem hanya menggunakan koordinat kerangka dan bukan frame RGB mentah.
========================================================================================================================
Smart manufacturing plants record long CCTV streams of human workers, yet supervisors still inspect these videos by hand. This manual review consumes time and effort and does not scale when factories expand. This thesis studies how to reuse a well-labeled laboratory dataset to support skeleton-based human action recognition in a real factory that has only sparse labels. The work uses Electronic Device Assembly (EDA) videos as the labeled source domain and Additon cement factory CCTV as the target domain. Both domains differ in camera viewpoint, background, and worker behavior, which creates a clear gap in their skeleton feature distributions. The proposed pipeline starts from raw videos from both factories. It crops each Additon frame into a single workstation region, then applies YOLO-Pose to extract upper-body skeleton keypoints for every worker frame in both domains. The method augments only the EDA skeletons with virtual pitch–yaw rotations that mimic the top-view camera of Additon. Maximum Mean Discrepancy (MMD) quantifies the distribution gap before and after augmentation and guides the choice of viewpoint. The final configuration, with pitch 60° and yaw 0°, gives the smallest MMD distance while keeping realistic joint geometry. On top of these skeleton sequences, the study trains a seven-class bidirectional LSTM model on fixed-length windows. The model first learns only from EDA windows, then undergoes supervised fine-tuning with a small set of labeled Additon windows while EDA samples remain in each batch. A base model trained only on EDA reaches a weighted F1 score of 0.708 on Additon and almost never detects Waiting. After fine-tuning, accuracy rises to 0.927 and weighted F1 reaches 0.922, with clear gains for both Waiting and Other. The adapted model still recognizes all seven EDA actions and produces stable activity timelines on unseen Additon clips. These results show that viewpoint-aware skeleton augmentation combined with supervised fine-tuning can bridge the domain gap for industrial CCTV while keeping privacy, since the system uses only skeleton coordinates and not raw RGB frames.
| Item Type: | Thesis (Masters) |
|---|---|
| Uncontrolled Keywords: | skeleton-based human action recognition, transfer learning, domain adaptation, Maximum Mean Discrepancy, industrial CCTV, LSTM, skeleton-based human action recognition, transfer learning, domain adaptation, Maximum Mean Discrepancy, industrial CCTV, LSTM |
| Subjects: | T Technology > T Technology (General) > T57.5 Data Processing T Technology > T Technology (General) > T58.6 Management information systems |
| Divisions: | Faculty of Intelligent Electrical and Informatics Technology (ELECTICS) > Information System > 59101-(S2) Master Thesis |
| Depositing User: | Zhafira Hajar |
| Date Deposited: | 23 Jan 2026 07:46 |
| Last Modified: | 23 Jan 2026 07:46 |
| URI: | http://repository.its.ac.id/id/eprint/130236 |
Actions (login required)
![]() |
View Item |
