Archive | 2019

Perbandingan Metode Regresi Logistik dan Random Forest untuk Klasifikasi Data Imbalanced (Studi Kasus: Klasifikasi Rumah Tangga Miskin di Kabupaten Karangasem, Bali Tahun 2017)

 

Abstract


Penelitian ini bertujuan untuk mendapatkan model terbaik untuk klasifikasi data imbalanced, yaitu\xa0 rumah tangga sampel Susenas Maret 2017 di Kabupaten Karangasem, ke dalam kategori miskin atau tidak. Metode yang digunakan adalah Regresi Logistik dan Random Forest dimana masing-masing diterapkan skema cross validation (CV), yaitu stratified 5-fold CV, skema under sampling, oversampling dan combine sampling untuk mengatasi masalah data imbalanced serta proses feature selection. Hasil penelitian menunjukkan bahwa penerapan skema under sampling, oversampling dan combine sampling pada model Regresi Logistik memberikan efek meningkatnya rata-rata nilai sensitivity dan turunnya rata-rata nilai akurasi dan specificity. Sedangkan pada model Random Forest, efek tersebut hanya terlihat dari hasil skema under sampling saja. Proses feature selection dapat menurunkan varian nilai akurasi, specificity, sensitivity dan AUC pada model Regresi Logistik dan Random Forest hanya pada skema tertentu. Model terbaik secara keseluruhan adalah model model Regresi Logistik dengan skema combine sampling dan tanpa proses feature selection dengan rata-rata nilai akurasi, specificity, sensitivity dan AUC masing-masing sebesar 78,13%, 79,16%, 64,44% dan 77,77%.

Volume 16
Pages 58-73
DOI 10.20956/JMSK.V16I1.6494
Language English
Journal None

Full Text