En statistiques, le coefficient de corrélation de Pearson (PCC) est un coefficient de corrélation qui mesure la relation linéaire entre deux ensembles de données. Ce coefficient est le rapport entre la covariance de deux variables et le produit de leurs écarts types. Il s'agit en fait d'une mesure standardisée de la covariance, de sorte que le résultat est toujours compris entre −1 et 1. Cela signifie que cela peut nous aider à comprendre la relation entre les variables, mais uniquement dans le contexte de la corrélation linéaire.
« Si le coefficient de corrélation de Pearson de deux variables est de 1, alors il existe une corrélation positive parfaite entre elles. »
Par exemple, supposons que nous examinions la relation entre l’âge et la taille des élèves d’une école primaire. On s’attend à ce que le coefficient de corrélation de Pearson pour ces deux variables soit supérieur à 0 mais inférieur à 1, car il n’est pas réaliste d’avoir exactement le même âge et la même taille.
Le coefficient de corrélation de Pearson a été développé par Karl Pearson dans les années 1880, sur la base du concept de corrélation proposé par Francis Galton. Il convient de noter que le nom de cette invention reflète la loi de Stigler, qui stipule que « le nom de l'inventeur est souvent ignoré ».
« Le développement des statistiques ne se résume pas seulement à l’évolution des chiffres, mais également à l’exploration des histoires qui se cachent derrière les données. »
D'un point de vue géométrique, le coefficient de corrélation peut être dérivé en considérant le cosinus de l'angle entre les points représentant les deux ensembles de données. Cela permet d'utiliser le coefficient de corrélation de Pearson comme mesure de la corrélation d'un ensemble de données particulier, et sa valeur est comprise entre −1 et 1, 1 étant 1 lorsque tous les points se trouvent sur la même ligne droite.
Le coefficient de corrélation de Pearson est défini comme la covariance de deux variables divisée par le produit de leurs écarts types. Cette forme de définition implique un « produit » qui est la moyenne (le premier élan autour de l'origine) multipliée par la moyenne de la variable aléatoire ; d'où le qualificatif « produit ».
Lorsqu'il est appliqué à une population, le coefficient de corrélation de Pearson est souvent désigné par la lettre grecque ρ (rho) et est appelé coefficient de corrélation de population ou coefficient de corrélation de Pearson de population. Par exemple, considérons une paire de variables aléatoires (X, Y), dont le coefficient de corrélation peut être exprimé comme le produit de la covariance et de l’écart type des variables. Cependant, en raison de la complexité de sa définition, il n’est pas pratique de montrer ici la forme spécifique de la formule.
« La covariance est la clé pour comprendre les interactions entre les variables. »
Lorsque le coefficient de corrélation de Pearson est appliqué à un échantillon, il est généralement représenté par le symbole r et peut être appelé coefficient de corrélation d'échantillon ou coefficient de corrélation de Pearson d'échantillon. Cette valeur est basée sur l’estimation de la covariance et de la variance dans l’échantillon et peut refléter la relation entre les deux variables.
Bien que le coefficient de corrélation de Pearson soit largement utilisé, il ne peut refléter que les relations linéaires et ignore les autres types d’associations, ce qui nous oblige à être particulièrement prudents lors de son utilisation. Les résultats ou modèles spécifiques peuvent varier en fonction du choix des données ou de la méthode d’analyse, qui ne se limite pas au calcul direct des statistiques mais inclut également l’interprétation et l’application.« Les données ne peuvent pas parler d’elles-mêmes, mais leur signification potentielle est révélée par une interprétation appropriée. »
En fin de compte, le coefficient de corrélation de Pearson fournit un outil puissant pour comprendre la relation entre les variables, mais nous devons toujours l’utiliser avec un esprit critique. Avez-vous déjà réfléchi à la possibilité que d’autres facteurs dans votre vie puissent affecter la relation entre les deux variables ?