Em estatística, o coeficiente de correlação de Pearson (PCC) é um coeficiente de correlação que mede a relação linear entre dois conjuntos de dados. Este coeficiente é a razão entre a covariância de duas variáveis e o produto de seus desvios-padrão. Na verdade, é uma medida padronizada de covariância, de modo que o resultado está sempre entre −1 e 1. Isso significa que ele pode nos ajudar a entender a relação entre variáveis, mas apenas dentro do contexto de correlação linear.
"Se o coeficiente de correlação de Pearson de duas variáveis for 1, então há uma correlação positiva perfeita entre elas."
Por exemplo, suponha que examinamos a relação entre idade e altura dos alunos de uma escola primária. Espera-se que o coeficiente de correlação de Pearson para essas duas variáveis seja maior que 0, mas menor que 1, porque não é realista ter exatamente a mesma idade e altura.
O coeficiente de correlação de Pearson foi desenvolvido por Karl Pearson na década de 1880, com base no conceito de correlação proposto por Francis Galton. Vale ressaltar que o nome desta invenção reflete a Lei de Stigler, que afirma que "o nome do inventor é frequentemente ignorado".
“O desenvolvimento da estatística não é apenas a evolução dos números, mas também a exploração das histórias por trás dos dados.”
Do ponto de vista geométrico, o coeficiente de correlação pode ser derivado considerando o cosseno do ângulo entre os pontos que representam os dois conjuntos de dados. Isso permite que o coeficiente de correlação de Pearson seja usado como uma medida da correlação de um conjunto de dados específico, e seu valor está entre -1 e 1, com 1 sendo 1 quando todos os pontos estão na mesma linha reta.
O coeficiente de correlação de Pearson é definido como a covariância de duas variáveis dividida pelo produto de seus desvios padrão. Esta forma da definição envolve um "produto" que é a média (o primeiro momento em torno da origem) multiplicada pela média da variável aleatória; daí o qualificador "produto".
Quando aplicado a uma população, o coeficiente de correlação de Pearson é frequentemente denotado pela letra grega ρ (rho) e é chamado de coeficiente de correlação populacional ou coeficiente de correlação de Pearson populacional. Por exemplo, considere um par de variáveis aleatórias (X, Y), cujo coeficiente de correlação pode ser expresso como o produto da covariância e do desvio padrão das variáveis. Entretanto, devido à complexidade de sua definição, não é conveniente mostrar aqui a forma específica da fórmula.
“A covariância é a chave para entender as interações entre variáveis.”
Quando o coeficiente de correlação de Pearson é aplicado a uma amostra, ele geralmente é representado pelo símbolo r e pode ser chamado de coeficiente de correlação da amostra ou coeficiente de correlação de Pearson da amostra. Este valor é baseado na estimativa de covariância e variância na amostra e pode refletir a relação entre as duas variáveis.
Embora o coeficiente de correlação de Pearson seja amplamente utilizado, ele só pode refletir relações lineares e ignora outros tipos de associações, o que exige que sejamos particularmente cuidadosos ao usá-lo. Resultados ou padrões específicos podem variar dependendo da escolha dos dados ou do método de análise, que não se limita ao cálculo direto de estatísticas, mas também inclui interpretação e aplicação.“Os dados não podem falar por si mesmos, mas seu significado potencial é revelado por meio de uma interpretação adequada.”
Em última análise, o coeficiente de correlação de Pearson fornece uma ferramenta poderosa para entender a relação entre variáveis, mas devemos sempre usá-lo com pensamento crítico. Você já considerou se há outros fatores em sua vida que podem afetar a relação entre as duas variáveis?