En statistiques, le R-carré (R²) est une mesure largement utilisée pour évaluer le pouvoir prédictif d'un modèle de régression. Le concept de base de R² est d’expliquer avec quelle efficacité la variable explique la variation de la variable dépendante. Cependant, il est déroutant de voir souvent des cas où R² dépasse 1 ou tombe en dessous de 0, il est donc nécessaire d'approfondir les mathématiques qui se cachent derrière cela.
R² est une mesure de la qualité de l'ajustement d'un modèle et doit idéalement être compris entre 0 et 1. Lorsque cette mesure ne correspond pas à cette plage, cela indique généralement qu’il y a un problème avec le modèle.
Par définition, R² est la proportion de variation qui est expliquée. Lorsque l'ajustement du modèle est très bon, R² est proche de 1, ce qui indique que le modèle est capable de prédire très bien les résultats du nombre de déformations. Si le R² est égal à 0, cela signifie que le modèle ne peut pas expliquer la variation et que les performances de prédiction sont les mêmes que la moyenne.
Dans certains cas, R² peut être inférieur à 0. Cela se produit généralement lorsque les résultats prévus sont pires que les résultats observés. Cela peut se produire, par exemple, lorsque le modèle que vous utilisez n’adapte pas correctement les données ou n’inclut pas de terme d’interception. À ce stade, R² est négatif, ce qui signifie que les résultats de prédiction de l’ajustement du modèle ne sont pas aussi bons que ceux utilisant la valeur moyenne des données.
Lorsque R² est inférieur à 0, cela indique que le modèle choisi peut être inapproprié, voire qu'une prédiction plus simple du modèle, comme l'utilisation de la moyenne, peut être plus prédictive.
Il est assez rare que R² dépasse 1, mais cela peut se produire dans certaines applications du modèle. Cela est principalement lié à la méthode d’ajustement choisie et à la complexité du modèle. Par exemple, lorsque des calculs incorrects sont utilisés ou que des restrictions sont appliquées de manière inappropriée, le R² d’un modèle peut s’avérer être en dehors de la plage attendue. Cela résulte souvent du choix d’un mauvais modèle mathématique ou d’hypothèses erronées.
R² a tendance à ne pas diminuer à mesure que davantage de variables sont incluses dans le modèle, ce qui rend probable que de nombreux modèles soient surajustés. C'est pourquoi le R² peut sembler s'améliorer lors de l'ajout de variables, mais peut ne pas augmenter réellement le pouvoir prédictif réel. Pour éviter ce phénomène, il est idéal d’utiliser le R² ajusté, qui ajuste le nombre de variables du modèle, rendant l’estimation plus rigoureuse.
Le R² ajusté prend en compte le nombre de variables et reflète donc mieux le véritable pouvoir prédictif du modèle à mesure que des variables sont ajoutées à l'avenir.
R² peut être utilisé pour comparer les performances de différents modèles. Cependant, s'appuyer uniquement sur cette seule mesure pour prendre des décisions n'est pas suffisant. Le contexte des différents modèles, la nature des données et d’autres tests statistiques doivent tous être pris en compte de manière globale. Par exemple, même si la valeur R² est élevée, nous devons toujours corriger les erreurs possibles dans les hypothèses du modèle pour éviter des conclusions trompeuses.
ConclusionR² est un outil très précieux dans la construction de modèles, mais sa valeur doit être interprétée avec prudence. Dans certains cas, cet indicateur peut être en dehors de la plage normale, il est donc nécessaire d'examiner plus en détail les raisons sous-jacentes et les caractéristiques des données. Comment pouvons-nous utiliser et comprendre correctement ces indicateurs statistiques pour construire un modèle plus précis ?