A Convolutional Neural Network With Transfer Learning For Chlorophyll-A Concentrations Retrieval In Mesotrophic Lakes Using Sentinel-3 Imagery

Syariz, Muhammad Aldila (2022) A Convolutional Neural Network With Transfer Learning For Chlorophyll-A Concentrations Retrieval In Mesotrophic Lakes Using Sentinel-3 Imagery. Doctoral thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 03111960012002-Disertation.pdf]

Text
03111960012002-Disertation.pdf - Accepted Version
Restricted to Registered users only
Download (4MB) | Request a copy

Abstract

Konsentrasi klorofil-a merupakan salah satu indikator utama dari kualitas air danau yang mewakili fitoplankton pada badan air. Untuk melakukan pengamatan kualitas air danau secara reguler, para peneliti mengambil sampel air secara langsung dan menganalisanya pada sebuah laboratori yang profesional. Akan tetapi, sampel air ini hanya ada pada titik-titik pengambilan sampel sehingga pengamatan kualitas air pada seluruh bagian danau menjadi sangat sulit. Perkembangan dari sensor dan teknologi penginderaan jauh dapat membantu peneliti untuk melakukan hal tersebut.

Pengestimasian konsentrasi klorofil-a pada badan air danau dibagi menjadi dua metode, yaitu metode empiris dan analitik, dimana didapatkan bahwa kedua metode tersebut mengalami kesulitan dalam banyaknya perbedaan karakteristik dari air pada metode empiris dan dalam hal kompleks dari formula radiative transfer pada metode analitik. Beberapa studi mengajukan dan mengembangkan penggunaan dari model berbasis artificial neural networks (ANNs) untuk memecahkan kedua permasalahan tersebut. Akan tetapi, model tersebut tidak menggunakan informasi spasial dan spektral yang ada pada citra satelit serta tidak mempertimbangkan permasalahan kurang cukupnya data in situ untuk melakukan proses training pada model. Untuk itu, para peneliti menggunakan proses augmentasi data, dimana proses tersebut dapat memperkaya data in situ. Akan tetapi, permasalahan overfitting kemungkinan besar akan terjadi karena adanya beda pada banyaknya jumlah data di tiap interval konsentrasi klorofil-a.

Pada studi ini, sebuah model yang berbasis pada convolutional neural networks (CNNs) dengan nama WaterNet diajukan, dimana model ini memaksimalkan informasi spektral dan spasial dari suatu citra. Model ini juga merupakan sebuah permodelan end-to-end yang efektif dan efisien karena mengintegrasi ekspansi informasi spektral, ekstraksi fitur spasial, dan estimasi konsentrasi klorofil-a pada satu model yang sama. Lalu, two-stage training yang merupakan sebuah proses training yang berbasis pada transfer learning juga diajukan untuk mengatasi permasalahan kurang cukupnya data in situ. Two-stage training ini terdiri dari tahap pre-training dan tahap transfer-learning. Pada tahap pre-training, proses training dilakukan pada WaterNet dengan menggunakan data konsentrasi klorofil-a yang diekstraksi dari formula yang telah ada. Setelah itu, proses training akan kembali dilakukan terhadap WaterNet dengan menggunakan data in situ yang didapatkan pada saat survei di Danau Laguna pada lima waktu yang berbeda. Sebelum tahap kedua ini, data augmentasi dan rebalancing perlu dilakukan untuk memperkaya dan menyeimbangkan data in situ. Maka dari itu, terdapat tiga data in situ yang berbeda dalam studi ini, yaitu data original (data in situ tanpa proses augmentasi dan rebalancing), data teraugmentasi (data in situ dengan proses augmentasi) dan data terseimbangkan (data in situ dengan proses augmentasi dan rebalancing). Secara ringkas, metode yang diajukan adalah WaterNet, two-stage training, dan data rebalancing.

Pada eksperimen, citra Sentinel-3 yang waktu akuisisinya sama dengan pengambilan data in situ di Danau Laguna digunakan untuk melakukan proses training dan untuk mengevaluasi WaterNet. Proses training dilakukan dengan skema validasi menyilang dengan jumlah 10 bagian. Hal ini berarti bahwa data in situ terseimbangkan akan dibagi menjadi 10 bagian dimana tiap bagian secara bergantian akan dijadikan sebagai data validasi dan bagian yang lain sebagai data training. Untuk mengestimasi pengurangan masalah overfitting, proses testing akan dilakukan pada WaterNet dengan menggunakan data in situ yang diambil di Danau Victoria yang memiliki karakteristik yang sama dengan Danau Laguna.

Pada evaluasi, WaterNet yang telah dilakukan proses two-stage training dengan menggunakan data in situ terseimbangkan mengestimasi konsentrasi klorofil-a di Danau Laguna dengan rata-rata root mean squared error (RMSE) sebesar 0.372 μg/L. Lebih jauh lagi, performa dari WaterNet ini dikomparasi dengan beberapa keadaan: 1) WaterNet yang telah dilakukan proses training dengan cara lama menggunakan data simulasi dan data in situ terseimbangkan untuk menunjukkan keefektifan two-stage training; 2) WaterNet dilakukan proses two-stage training dengan data original dan data teraugmentasi untuk memberikan gambaran keuntungan ketika menggunakan data terseimbangkan; dan tiga model ANNs akan dibuat dan dilakukan proses two-stage training menggunakan data in situ untuk menunjukkan efek penting tentang penggunaan informasi spasial dan spektral secara bersamaan. Hasil evaluasi menyatakan bahwa performa model pada ketiga keadaan adalah sebegai berikut: 1) 2.144 μg/L (hanya menggunakan data simulasi) dan 1.298 μg/L (hanya menggunakan data in situ teraugmentasi); 2) 0.752 μg/L (menggunakan data original) dan 0.954 μg/L (menggunakan data teraugmentasi); and 1.370 μg/L (Type A), 1.429 μg/L (Type B), dan 1.374 μg/L (Type C); dalam hal rata-rata RMSE. Selain itu, pada tahap testing, WaterNet memiliki performa yang lebih baik daripada model pengestimasi konsentrasi klorofil-a yang telah dibuat dengan metode empiris, yaitu model dua-band, tiga-band, dan normalized differentiate chlorophyll-a index (NDCI).
=====================================================================================================
Chlorophyll-a (Chla) concentrations, which serves as a phytoplankton’s substitute in inland waters, is one of leading indicators for water quality. Generally, water samples are analysed in professional laboratories, and Chla concentrations are measured regularly for the purpose of water quality monitoring. However, the limited spatial water sampling and labour-sensitive data collection make the global and long-term monitoring difficult. The developments of remote-sensing optical sensors and technologies make the long-term monitoring of Chla concentrations for an entire water body to be achievable.

The retrieval of Chla concentrations relies on empirical or analytical analyses, which generally experience difficulties from the diversity of inland waters in statistical analyses and the complexity of radiative transfer equations in analytical analyses, respectively. Previous studies proposed the utilization of artificial neural networks (ANNs) to alleviate these problems. However, ANNs they do not fully utilize the spatial and spectral information of remote sensing images in neural networks and do not consider the problem of insufficient in situ labelled data during model training which make the trained models inapplicable. In addition, a data augmentation can be used to enrich the in situ labelled data, however, an overfitting problem may arise due to higher density in a specific Chla concentration interval and lesser density in the other intervals.

In this study, a novel convolutional neural networks (CNNs) for Chla concentration retrieval called WaterNet is proposed which utilizes both spectral and spatial information of remote sensing images. In addition, an end-to-end structure that integrates feature extraction, band expansion, and Chla estimation into the neural network leads to an efficient and effective Chla concentration retrieval. A two-stage training method which based on transfer learning technique is also proposed to ease the problem of insufficient in situ samples. The proposed training method contains pre-training stage and transfer-learning stage. In the model pre-training stage, the WaterNet is pre-trained and initialized by using samples derived from an existing Chl-a concentration model. The pre-trained WaterNet is then retrained or refined by using the proposed transfer learning with in situ samples collected in five different campaigns during early 2019 in Laguna Lake of the Philippines. Before the transfer learning, data augmentation and rebalancing methods are conducted to enrich the variability and to near-uniformly distribute the in situ samples in Chla concentration space, respectively. Therefore, there are three different in situ labelled data: original data (no augmentation and rebalancing is applied), augmented data (only augmentation), and augmented-rebalanced data (augmentation and rebalancing is applied). For summary, the proposed methods in this study are WaterNet, two-stage training, and data rebalancing.

In experiments, Sentinel-3 images with the same acquisition days of in situ measurements over Laguna Lake in the Philippines were used to train and evaluate WaterNet locally. The training was conducted in a 10-fold cross validation scheme, meaning that the augmented-rebalanced in situ labelled data is divided into 10 folds where each fold is consecutively set as validation data while the others as training data. To estimate the alleviation of model overfitting, the trained WaterNet was tested by using in situ dataset in Lake Victoria of Uganda obtained in 2019, which has similar tropical state with Laguna Lake. In evaluation, WaterNet which trained by the two-stage training using simulated and augmented-rebalanced in situ labelled data, estimated Chla concentrations in Laguna Lake waters with average root mean squared error (RMSE) of 0.372 μg/L. Furhtermore, the performance was compared to several conditions: 1) WaterNet was trained by a common one stage training, either only using simulated or augmented-rebalanced in situ labelled data, to highlight the effectiveness of two-stage training; 2) WaterNet was trained by the two-stage training using simulated and augmented in situ labelled data, to display the leverage of data rebalancing; and 3) three ANNs models (Type A: 1 hidden layer; Type B: 2 hidden layers, Type C: 3 hidden layers) was trained the two-stage training using simulated and augmented-rebalanced in situ labelled data, to show the important impact of spectral variation in neighbourhood pixels that are considered in WaterNet. The results revealed that the Chla concentrations estimation accuracy in the three conditions were 1) 2.144 μg/L (using simulated labelled data only) and 1.298 μg/L (using in situ labelled data only); 2) 0.752 μg/L (using original data) and 0.954 μg/L (using augmented data); and 1.370 μg/L (Type A), 1.429 μg/L (Type B), and 1.374 μg/L (Type C); in terms of average RMSE. This implies the effectiveness of the proposed methods compared to the other related conditions in the Chla concentrations estimation. Moreover, in testing, the trained WaterNet outperformed the other existing Chla concentrations retrieval models in empirical method, including two-band, three-band, and normalized differentiate Chla index (NDCI).

Item Type:	Thesis (Doctoral)
Uncontrolled Keywords:	artificial neural network, chlorophyll-a concentration, lake, overfitting, transfer learning, jaringan neural buatan, konsentrasi klorofil-a, danau, pemindahan pembelajaran
Subjects:	G Geography. Anthropology. Recreation > G Geography (General) > G70.5.I4 Remote sensing G Geography. Anthropology. Recreation > GE Environmental Sciences
Divisions:	Faculty of Civil, Planning, and Geo Engineering (CIVPLAN) > Civil Engineering > 22001-(S3) PhD Thesis
Depositing User:	Muhammad Aldila Syariz
Date Deposited:	10 Feb 2022 01:02
Last Modified:	11 Sep 2025 06:29
URI:	http://repository.its.ac.id/id/eprint/93239

Actions (login required)

View Item