Klasifikasi Data Temporal Dengan Respon Imbalance Menggunakan Two-Phase Stratified Random Forest (Tpsrf) Studi Kasus: Fase Pertumbuhan Padi Di Lamongan

Suryono, Hady (2023) Klasifikasi Data Temporal Dengan Respon Imbalance Menggunakan Two-Phase Stratified Random Forest (Tpsrf) Studi Kasus: Fase Pertumbuhan Padi Di Lamongan. Doctoral thesis, Institut Teknologi Sepuluh Nopember.

[thumbnail of 06211860010001-Dissertation.pdf] Text
06211860010001-Dissertation.pdf - Accepted Version
Restricted to Repository staff only until 1 October 2025.

Download (4MB) | Request a copy

Abstract

Penelitian ini mengembangkan metode Random Forest (RF) yang memberikan solusi permasalahan data imbalance yang terjadi pada data fase pertumbuhan padi. Data yang digunakan berasal dari survei Kerangka Sampel Area (KSA), namun memiliki keterbatasan, yaitu kurangnya informasi area non sampel sehingga digunakan data citra satelit untuk meningkatkan coverage sample dari 5% sampel KSA. Data temporal pada citra satelit Landsat-8 dikumpulkan dalam interval waktu 16 hari untuk melihat perubahan kelas pada fase pertumbuhan padi. Pada tahap pre-processing, hasil eksplorasi data KSA menunjukkan bahwa terdapat respon imbalance. Oleh sebab itu digunakan pendekatan baru yang membutuhkan dua fase dalam tahap bootstrap dari metode RF yang disebut Two-Phase Stratified Random Forest (TPSRF). Fase pertama pada metodologi TPSRF dilakukan dengan menentukan kelas mayor dan kelas minor yang kemudian dilanjutkan dengan fase kedua yaitu membagi jumlah obyek kelas minor dan jumlah obyek kelas mayor ke masing-masing kelas sebanyak dan dimana adalah banyaknya kelas. Kajian terkait prosedur pembentukan model klasifikasi TPSRF dilakukan untuk memperoleh hasil berupa algoritma TPSRF dan pembuktian teori konsistensi TPSRF sebagai tujuan pertama penelitian. Simulasi menjadi tujuan penelitian selanjutnya untuk mengevaluasi performa dari model Classification and Regression Tree (CART), Support Vector Machine (SVM), RF dan TPSRF. Evaluasi performa dari model menggunakan kriteria pengukuran yaitu akurasi, presisi, sensitifitas dan spesifisitas pada kasus proporsi data yang sangat tidak seimbang, tidak seimbang dan hampir seimbang. Untuk tujuan penelitian ke-3, dilakukan penerapan pada data fase pertumbuhan padi di Kabupaten Lamongan, Jawa Timur, Indonesia, pada tahun 2019, hasilnya TPSRF memberikan overall accuracy (OA) yang lebih baik daripada metode CART, SVM, dan RF sehingga akurasi dapat ditingkatkan menjadi 80.49%. Peningkatan akurasi ini dapat bermanfaat untuk BPS sebagai alternatif metode klasifikasi pada fase pertumbuhan padi.
==================================================================================================================================
This study developed the Random Forest (RF) method which provides a solution to the data imbalance problem that occurs in the rice growth phase data. The data used comes from the Area Sampling Framework (KSA) survey, but has limitations, namely the lack of non-sample area information so that satellite imagery data is used to increase sample coverage of 5% of the KSA sample. Temporal data on Landsat-8 satellite imagery were collected at intervals of 16 days to see class changes in the rice growth phase. At the pre-processing stage, the exploration results for KSA data show that there is an imbalance response. Therefore a new approach is used which requires two phases in the bootstrap stage of the RF method called the Two-Phase Stratified Random Forest (TPSRF). The first phase of the TPSRF methodology is carried out by determining the major class and minor class which is then followed by the second phase, namely dividing the number of minor class objects and the number of major class objects into each class as many as and where K is the number of classes. Studies related to the procedure for establishing the TPSRF classification model were carried out to obtain results in the form of the TPSRF algorithm and proof of the TPSRF consistency theory as the first objective of the study. Simulation is the goal of further research to evaluate the performance of the Classification and Regression Tree (CART), Support Vector Machine (SVM), RF and TPSRF models. Evaluation of the performance of the model uses measurement criteria, namely accuracy, precision, sensitivity and specificity in the case of very unbalanced, unbalanced and almost balanced data proportions. For the purpose of the 3rd research, it was applied to data on the growth phase of rice in Lamongan Regency, East Java, Indonesia, in 2019, the results of TPSRF provide better overall accuracy (OA) than the CART, SVM, and RF methods so that accuracy can be improved to 80.49%. This increase in accuracy can be useful for BPS as an alternative method of classification in the rice growth phase.

Item Type: Thesis (Doctoral)
Uncontrolled Keywords: klasifikasi, two-phase stratified bootstrap, random forest, imbalance data, classification, imbalance data
Subjects: Q Science > Q Science (General) > Q325.5 Machine learning.
Divisions: Faculty of Science and Data Analytics (SCIENTICS) > Statistics > 49001-(S3) PhD Thesis
Depositing User: Hady Suryono
Date Deposited: 25 Aug 2023 06:14
Last Modified: 25 Aug 2023 06:14
URI: http://repository.its.ac.id/id/eprint/104866

Actions (login required)

View Item View Item