En estadística, el coeficiente de correlación de Pearson (PCC) es un coeficiente de correlación que mide la relación lineal entre dos conjuntos de datos. Este coeficiente es el cociente entre la covarianza de dos variables y el producto de sus desviaciones típicas. En realidad, es una medida estandarizada de la covarianza, de modo que el resultado siempre está entre -1 y 1. Esto significa que puede ayudarnos a comprender la relación entre variables, pero sólo dentro del contexto de la correlación lineal.
"Si el coeficiente de correlación de Pearson de dos variables es 1, entonces existe una correlación positiva perfecta entre ellas".
Por ejemplo, supongamos que examinamos la relación entre la edad y la altura de los estudiantes de una escuela primaria. Se espera que el coeficiente de correlación de Pearson para estas dos variables sea mayor que 0 pero menor que 1 porque no es realista tener exactamente la misma edad y altura.
El coeficiente de correlación de Pearson fue desarrollado por Karl Pearson en la década de 1880, basado en el concepto de correlación propuesto por Francis Galton. Vale la pena señalar que el nombre de esta invención refleja la Ley de Stigler, que establece que "el nombre del inventor a menudo se ignora".
“El desarrollo de la estadística no es sólo la evolución de los números, sino también la exploración de las historias detrás de los datos”.
Cuando se aplica a una población, el coeficiente de correlación de Pearson a menudo se denota con la letra griega ρ (rho) y se denomina coeficiente de correlación de población o coeficiente de correlación de Pearson de población. Por ejemplo, considere un par de variables aleatorias (X, Y), cuyo coeficiente de correlación puede expresarse como el producto de la covarianza y la desviación estándar de las variables. Sin embargo, debido a la complejidad de su definición, no es conveniente mostrar aquí la forma específica de la fórmula.
“La covarianza es la clave para entender las interacciones entre variables”.
Cuando se aplica el coeficiente de correlación de Pearson a una muestra, generalmente se representa con el símbolo r y puede denominarse coeficiente de correlación de la muestra o coeficiente de correlación de Pearson de la muestra. Este valor se basa en la estimación de la covarianza y la varianza en la muestra y puede reflejar la relación entre las dos variables.
Aunque el coeficiente de correlación de Pearson se utiliza ampliamente, sólo puede reflejar relaciones lineales e ignora otros tipos de asociaciones, lo que requiere que seamos especialmente cuidadosos al utilizarlo. Los resultados o patrones específicos pueden variar dependiendo de la elección de los datos o del método de análisis, que no se limita al cálculo directo de estadísticas sino que también incluye la interpretación y la aplicación.En última instancia, el coeficiente de correlación de Pearson proporciona una herramienta poderosa para comprender la relación entre variables, pero siempre debemos utilizarlo con pensamiento crítico. ¿Alguna vez has considerado si hay otros factores en tu vida que podrían afectar la relación entre las dos variables?“Los datos no pueden hablar por sí mismos, pero su significado potencial se revela a través de una interpretación adecuada”.