Basuki, Ruri Suko (2016) Semi-Automatic Video Object Extraction Menggunakan Alpha Matting Berbasis Motion Estimation. Doctoral thesis, Institut Teknologi Sepuluh Nopember.
Preview |
Text
2210301008-Disertation.pdf - Published Version Download (2MB) | Preview |
Abstract
Ekstraksi objek merupakan pekerjaan penting dalam aplikasi video editing,
karena objek independen diperlukan untuk proses compositing. Proses ekstraksi
dilakukan dengan image matting diawali dengan mendefinisikan scribble manual
untuk mewakili daerah foreground dan background, sedangkan daerah unknown
ditentukan dengan estimasi alpha.
Permasalahan dalam image matting adalah piksel dalam daerah unknown
tidak secara tegas menjadi bagian foreground atau background. Sedangkan dalam
domain temporal, scribble tidak memungkinkan untuk didefinisikan secara
independen di seluruh frame. Untuk mengatasi permasalahan tersebut, diusulkan
metode ekstraksi objek dengan tahapan estimasi adaptive threshold untuk alpha
matting, perbaikan akurasi image matting, dan estimasi temporal constraint untuk
propagasi scribble. Algoritma Fuzzy C-Means (FCM) dan Otsu diaplikasikan untuk
estimasi adaptive threshold.
Dengan FCM hasil evaluasi menggunakan Means Squared Error (MSE)
menunjukkan bahwa rata-rata kesalahan piksel di setiap frame berkurang dari
30.325,10 menjadi 26.999,33, sedangkan dengan Otsu menjadi 28.921,70. Kualitas
matting yang menurun akibat perubahan intensitas pada image terkompresi
diperbaiki menggunakan Discrete Cosine Transform (DCT-2D). Algoritma ini
menurunkan Root Means Squared Error (RMSE) dari 16.68 menjadi 11.44. Estimasi
temporal constraint untuk propagasi scribble dilakukan dengan memprediksi motion
vector dari frame sekarang ke frame selanjutnya. Prediksi motion vector yang
v
dilakukan menggunakan exhaustive search diperbaiki dengan mendefinisikan matrik
yang berukuran dinamis terhadap ukuran scribble, motion vector ditentukan dengan
Sum of Absolute Difference (SAD) antara frame sekarang dan frame berikutnya.
Hasilnya ketika diaplikasikan pada ruang warna RGB dapat menurunkan rata-rata
kesalahan piksel setiap frame dari 3.058,55 menjadi 1.533,35, sedangkan dalam
ruang waktu HSV menjadi 1.662,83.
KiMoHar yang merupakan framework yang diusulkan meliputi tiga hal
sebagai berikut. Pertama adalah image matting dengan adaptive threshold FCM
dapat meningkatkan akurasi sebesar 11.05 %. Kedua, perbaikan kualitas matting
pada image terkompresi menggunakan DCT-2D meningkatkan akurasi sebesar
31.41%. Sedangkan yang ketiga, estimasi temporal constraint pada ruang warna
RGB meningkatkan akurasi 56.30%, dan dalam ruang HSV 52.61%.
========================================================================================================
It is important to have object extraction in video editing application because
compositing process is necessary for independent object. Extraction process is
performed by image matting which is defining manual scribble to represent the
foreground and background area, and alpha estimation to determine the unknown
area.
In image matting, there are problem which are pixel in unknown area is not
firmly being the part of foreground or background, whereas, in temporal domain, it is
not possible to define the scribble independently in whole frame. In order to
overcome the problem, object extraction model with adaptive threshold estimation
phase for alpha matting, accuracy improvement for image matting, and temporal
constraint estimation for scribble propagation is proposed. Fuzzy C-Means (FCM)
Algorithm and Otsu are applied for adaptive threshold estimation.
By FCM,the evaluationresult byusingMeansSquaredError(MSE) showsthatthe
averageerrorof pixelsineachframeis reducedfrom30.325,10 to 26.999,33, while in the
use of Otsu, the result shows 28.921,70. The matting quality is reducing since the
intensity changing in compressed image improved by Discrete Cosine Transform
(DCT-2D). The algorithm reduces Root Means Squared Error (RMSE) value from
16.68 to 11.4. Temporal constraint estimation for scribble propagation is performed
by predicting motion vector from recent frame and forward. Motion vector prediction
performed using exhaustive search is improved by defining the matrix in dynamic size
to scribble; motion vector is determined by Sum of Absolute Difference (SAD)
v
between recent frame and forward. In its application to RGB space, it results the
averageerrorof pixelsineachframe from 3.058,55 to 1.533,35, and 1.662,83 in HSV
time space.
KiMoHar, the proposed framework, includes three things which are: First,
image matting by adaptive threshold FCM increases the accuracy to 11.05%. Second,
matting quality improvement in compressed image by DCT-2D increases the
accuracy to 31,41%. Three, temporal constraint estimation in RGB space increases
the accuracy to 56.30%, and 52.61% in HSV space.
Item Type: | Thesis (Doctoral) |
---|---|
Additional Information: | RDE 621.387 Bas s |
Uncontrolled Keywords: | Video Object Extraction, Alpha Matting, Temporal Constraint Estimation, Motion Estimation |
Subjects: | T Technology > TA Engineering (General). Civil engineering (General) > TA1637 Image processing--Digital techniques |
Divisions: | Faculty of Industrial Technology > Electrical Engineering > 20001-(S3) PhD Thesis |
Depositing User: | Mr. Tondo Indra Nyata |
Date Deposited: | 06 Mar 2018 02:32 |
Last Modified: | 26 Dec 2018 06:55 |
URI: | http://repository.its.ac.id/id/eprint/51442 |
Actions (login required)
View Item |