En estadística, R-cuadrado (R²) es una métrica ampliamente utilizada para evaluar el poder predictivo de un modelo de regresión. El concepto básico de R² es explicar con qué eficacia la variable explica la variación de la variable dependiente. Sin embargo, es confuso que a menudo veamos casos en los que R² supera 1 o cae por debajo de 0, por lo que es necesario profundizar en las matemáticas detrás de esto.
R² es una medida de la bondad del ajuste de un modelo y, idealmente, debería estar entre 0 y 1. Cuando esta métrica no encaja dentro de este rango, generalmente indica que hay un problema con el modelo.
Por definición, R² es la proporción de variación que se explica. Cuando el ajuste del modelo es muy bueno, R² está cerca de 1, lo que indica que el modelo es capaz de predecir muy bien los resultados del número de deformación. Si R² es 0, significa que el modelo no puede explicar la variación y el rendimiento de la predicción es el mismo que la media.
¿Por qué R² es menor que 0?En ciertos casos, R² puede ser menor que 0. Esto suele ocurrir cuando los resultados previstos son peores que los observados. Esto puede ocurrir, por ejemplo, cuando el modelo que utiliza no se ajusta correctamente a los datos o no incluye un término de intersección. En este momento, R² es negativo, lo que significa que los resultados de la predicción del ajuste del modelo no son tan buenos como los que utilizan el valor promedio de los datos.
¿Por qué R² es mayor que 1? Es algo raro que R² supere 1, pero puede ocurrir en algunas aplicaciones del modelo. Esto está relacionado principalmente con el método de ajuste elegido y la complejidad del modelo. Por ejemplo, cuando se utilizan cálculos incorrectos o se aplican restricciones de forma inapropiada, el R² de un modelo puede resultar fuera del rango esperado. Esto suele ser el resultado de elegir un modelo matemático equivocado o de hacer suposiciones incorrectas.Cuando R² es menor que 0, esto indica que el modelo elegido puede ser inadecuado, o incluso que una predicción más simple del modelo, como usar la media, puede ser más predictiva.
R² tiende a no disminuir a medida que se incluyen más variables en el modelo, por lo que es probable que muchos modelos se sobreajusten. Es por esto que R² puede parecer que mejora al agregar variables, pero en realidad puede que no aumente el poder predictivo real. Para evitar este fenómeno, lo ideal es utilizar el R² ajustado, que ajusta el número de variables en el modelo, haciendo la estimación más rigurosa.
El R² ajustado tiene en cuenta el número de variables y, por lo tanto, refleja mejor el verdadero poder predictivo del modelo a medida que se agregan variables en el futuro.
R² se puede utilizar para comparar el rendimiento de diferentes modelos, sin embargo, confiar únicamente en esta única métrica para tomar decisiones no es suficiente. El contexto de los diferentes modelos, la naturaleza de los datos y otras pruebas estadísticas deben considerarse de forma exhaustiva. Por ejemplo, incluso si el valor R² es alto, todavía necesitamos corregir posibles errores en los supuestos del modelo para evitar conclusiones engañosas.
ConclusiónR² es una herramienta muy valiosa en la construcción de modelos, pero su valor debe interpretarse con cautela. En algunos casos, este indicador puede estar fuera del rango normal, por lo que es necesario considerar más a fondo las razones subyacentes y las características de los datos. ¿Cómo podemos utilizar y comprender correctamente estos indicadores estadísticos para construir un modelo más preciso?