Dalam statistik, R-kuadrat (R²) merupakan metrik yang banyak digunakan untuk menilai daya prediksi model regresi. Konsep dasar R² adalah menjelaskan seberapa efektif variabel menjelaskan variasi variabel dependen. Namun, membingungkan karena kita sering melihat kasus di mana R² melebihi 1 atau turun di bawah 0, jadi perlu untuk menggali lebih dalam matematika di balik ini.
R² adalah ukuran kesesuaian model dan idealnya harus berada di antara 0 dan 1. Ketika metrik ini tidak sesuai dalam rentang ini, biasanya hal ini menunjukkan bahwa ada masalah dengan model tersebut.
Menurut definisi, R² adalah proporsi variasi yang dijelaskan. Ketika kesesuaian model sangat baik, R² mendekati 1, yang menunjukkan bahwa model tersebut mampu memprediksi hasil angka regangan dengan sangat baik. Jika R² adalah 0, artinya model tidak dapat menjelaskan variasi dan kinerja prediksi sama dengan nilai rata-rata.
Dalam kasus tertentu, R² mungkin kurang dari 0. Ini biasanya terjadi ketika hasil prediksi lebih buruk daripada hasil yang diamati. Ini dapat terjadi, misalnya, ketika model yang Anda gunakan tidak sesuai dengan data dengan benar atau tidak menyertakan istilah intersep. Pada saat ini, R² negatif, yang berarti bahwa hasil prediksi dari pemasangan model tidak sebaik yang menggunakan nilai rata-rata data.
Ketika R² kurang dari 0, ini menunjukkan bahwa model yang dipilih mungkin tidak tepat, atau bahkan prediksi yang lebih sederhana dari model, seperti menggunakan nilai rata-rata, mungkin lebih prediktif.
Sangat jarang R² melebihi 1, tetapi dapat terjadi dalam beberapa aplikasi model. Hal ini terutama terkait dengan metode pemasangan yang dipilih dan kompleksitas model. Misalnya, ketika perhitungan yang salah digunakan atau pembatasan diterapkan secara tidak tepat, R² suatu model mungkin ternyata berada di luar rentang yang diharapkan. Hal ini sering kali merupakan hasil dari pemilihan model matematika yang salah atau membuat asumsi yang salah.
R² cenderung tidak menurun karena lebih banyak variabel yang disertakan dalam model, sehingga kemungkinan banyak model akan mengalami overfitting. Inilah sebabnya mengapa R² mungkin tampak membaik ketika menambahkan variabel, tetapi mungkin tidak benar-benar meningkatkan daya prediksi yang sebenarnya. Untuk menghindari fenomena ini, sebaiknya gunakan R² yang disesuaikan, yang menyesuaikan dengan jumlah variabel dalam model, sehingga membuat estimasi lebih ketat.
R² yang disesuaikan memperhitungkan jumlah variabel dan karenanya lebih mencerminkan kekuatan prediksi model yang sebenarnya saat variabel ditambahkan di masa mendatang.
R² dapat digunakan untuk membandingkan kinerja berbagai model, namun, hanya mengandalkan metrik tunggal ini untuk membuat keputusan tidaklah cukup. Konteks berbagai model, sifat data, dan uji statistik lainnya harus dipertimbangkan secara komprehensif. Misalnya, meskipun nilai R² tinggi, kita tetap perlu mengoreksi kemungkinan kesalahan dalam asumsi model untuk menghindari kesimpulan yang menyesatkan.
KesimpulanR² adalah alat yang sangat berharga dalam membangun model, tetapi nilainya harus ditafsirkan dengan hati-hati. Dalam beberapa kasus, indikator ini mungkin berada di luar kisaran normal, sehingga diperlukan pertimbangan lebih lanjut tentang alasan yang mendasari dan karakteristik data. Bagaimana kita dapat menggunakan dan memahami indikator statistik ini dengan benar untuk membangun model yang lebih akurat?