В статистике коэффициент корреляции Пирсона (PCC) — это коэффициент корреляции, который измеряет линейную связь между двумя наборами данных. Этот коэффициент представляет собой отношение ковариации двух переменных к произведению их стандартных отклонений. Фактически это стандартизированная мера ковариации, так что результат всегда находится между −1 и 1. Это означает, что он может помочь нам понять взаимосвязь между переменными, но только в контексте линейной корреляции. р>
«Если коэффициент корреляции Пирсона двух переменных равен 1, то между ними существует идеальная положительная корреляция».
Например, предположим, что мы изучаем взаимосвязь между возрастом и ростом учеников начальной школы. Ожидается, что коэффициент корреляции Пирсона для этих двух переменных будет больше 0, но меньше 1, поскольку нереально иметь абсолютно одинаковый возраст и рост. р>
Коэффициент корреляции Пирсона был разработан Карлом Пирсоном в 1880-х годах на основе концепции корреляции, предложенной Фрэнсисом Гальтоном. Стоит отметить, что название этого изобретения отражает закон Стиглера, который гласит, что «имя изобретателя часто игнорируется». р>
«Развитие статистики — это не только эволюция цифр, но и исследование историй, стоящих за данными».
С геометрической точки зрения коэффициент корреляции можно вывести, рассмотрев косинус угла между точками, представляющими два набора данных. Это позволяет использовать коэффициент корреляции Пирсона в качестве меры корреляции конкретного набора данных, а его значение находится в диапазоне от −1 до 1, где 1 принимается равным 1, когда все точки лежат на одной прямой линии. р>
Коэффициент корреляции Пирсона определяется как ковариация двух переменных, деленная на произведение их стандартных отклонений. Эта форма определения включает в себя «произведение», которое является средним значением (первый импульс вокруг начала координат), умноженным на среднее значение случайной величины; отсюда и квалификатор «произведение». р>
Применительно к популяции коэффициент корреляции Пирсона часто обозначается греческой буквой ρ (ро) и называется популяционным коэффициентом корреляции или популяционным коэффициентом корреляции Пирсона. Например, рассмотрим пару случайных величин (X, Y), коэффициент корреляции которых можно выразить как произведение ковариации и стандартного отклонения переменных. Однако из-за сложности определения приводить здесь конкретную форму формулы нецелесообразно. р>
«Ковариация — это ключ к пониманию взаимодействия между переменными».
Когда коэффициент корреляции Пирсона применяется к выборке, он обычно обозначается символом r и может называться коэффициентом корреляции выборки или коэффициентом корреляции Пирсона выборки. Это значение основано на оценке ковариации и дисперсии в выборке и может отражать взаимосвязь между двумя переменными. р> Хотя коэффициент корреляции Пирсона широко используется, он может отражать только линейные зависимости и игнорирует другие типы ассоциаций, что требует от нас особой осторожности при его использовании. Конкретные результаты или закономерности могут различаться в зависимости от выбора данных или метода анализа, который не ограничивается прямым расчетом статистики, но также включает интерпретацию и применение. р>
«Данные не могут говорить сами за себя, но их потенциальное значение раскрывается посредством правильной интерпретации».
В конечном итоге коэффициент корреляции Пирсона представляет собой мощный инструмент для понимания взаимосвязи между переменными, но мы всегда должны использовать его с критическим мышлением. Задумывались ли вы когда-нибудь о том, есть ли в вашей жизни другие факторы, которые могут повлиять на связь между двумя переменными?