Em estatística, R-quadrado (R²) é uma métrica amplamente utilizada para avaliar o poder preditivo de modelos de regressão. O conceito básico do R² é explicar a eficácia com que as variáveis explicam a variação do coeficiente de resposta. Porém, o que confunde é que muitas vezes vemos situações em que o R² vai ultrapassar 1 ou cair abaixo de 0, por isso é necessário nos aprofundarmos na lógica matemática por trás disso.
R² é uma medida de ajuste do modelo e idealmente deve estar entre 0 e 1. Quando esta métrica não se enquadra neste intervalo, geralmente indica um problema com o modelo.
Por definição, R² é a proporção da variação explicada. Quando o modelo se ajusta muito bem, R² está próximo de 1, indicando que o modelo pode prever os resultados do número de deformação extremamente bem. E se R² for 0, significa que o modelo não consegue explicar a variação e o desempenho da previsão é igual à média.
Sob certas circunstâncias, R² pode ser inferior a 0. Isso geralmente ocorre quando os resultados previstos são piores que os resultados observados. Isto pode ocorrer, por exemplo, quando o modelo utilizado não se ajusta corretamente aos dados ou não inclui um termo de interceptação. Neste momento, R² mostra um valor negativo, o que significa que os resultados de previsão do ajuste do modelo não são tão bons quanto usar o valor médio dos dados para prever.
Quando R² é menor que 0, indica que o modelo selecionado pode ser inadequado, ou mesmo um modelo simples de predição - como usar a média, pode ser mais preditivo.
É um pouco raro que R² exceda 1, mas isso pode acontecer em algumas aplicações de modelo. Isto está relacionado principalmente ao método de ajuste escolhido e à complexidade do modelo. Por exemplo, quando são utilizados cálculos incorretos ou restrições são aplicadas de forma inadequada, o R² de um modelo pode ficar fora do intervalo esperado. Muitas vezes, isso é o resultado da escolha do modelo matemático errado ou de suposições erradas.
À medida que mais variáveis são incluídas no modelo, o R² tende a não diminuir, tornando muitos modelos potencialmente superajustados. É por isso que o R² pode parecer melhorar ao adicionar variáveis, mas pode não aumentar realmente o poder preditivo real. Para evitar esse fenômeno, o ideal é utilizar o R² ajustado, que se ajusta ao número de variáveis do modelo, tornando a avaliação mais rigorosa.
O R² ajustado leva em consideração o número de variáveis e, portanto, reflete melhor o verdadeiro poder preditivo do modelo quando as variáveis são adicionadas posteriormente.
R² pode ser usado para comparar o desempenho de diferentes modelos, porém confiar apenas nesta métrica para tomar decisões não é suficiente. O contexto dos diferentes modelos, a natureza dos dados e outros testes estatísticos devem ser considerados. Por exemplo, mesmo que o valor R² seja elevado, ainda precisamos corrigir possíveis erros nas suposições do modelo para evitar conclusões enganosas.
R² é uma ferramenta valiosa na construção de modelos, mas seu valor deve ser interpretado com cautela. Em alguns casos, este indicador pode estar fora do intervalo normal, pelo que é necessária uma análise mais aprofundada das razões subjacentes e das características dos dados. Como podemos usar e compreender corretamente esses indicadores estatísticos para construir um modelo mais preciso?