В научных исследованиях и статистическом анализе значение p является важным статистическим понятием, но оно часто сбивает людей с толку. Значение p отражается в ложноположительных тестах, особенно когда мы выполняем тесты нулевой гипотезы, и представляет вероятность того, что наблюдаемые данные являются, по крайней мере, экстремальными, учитывая, что нулевая гипотеза верна. Однако недоразумения и неправильное использование p-значений распространены в математике и смежных науках. Поэтому нам нужно глубже углубиться в то, что на самом деле означает значение p, и в его применение.
Хотя сообщение о значениях p для статистических тестов является обычной практикой во многих научных публикациях, неправильное понимание и неправильное использование значений p стало основной темой.
В статистике каждая гипотеза о неизвестном распределении вероятностей наблюдаемых данных называется статистической гипотезой. Если мы только формулируем гипотезу и цель статистической проверки состоит в том, чтобы проверить, является ли гипотеза разумной, тогда этот тип проверки называется проверкой нулевой гипотезы. Нулевая гипотеза означает, что свойство гипотезы не существует. Обычно нулевая гипотеза предполагает, что какой-то параметр, например корреляция или средняя разница, равен нулю. Когда мы проводим проверку, мы рассчитываем числовую статистику и используем ее, чтобы сделать вывод, являются ли наблюдаемые данные статистически значимыми.
По определению, значение p — это вероятность получения статистики обнаружения, которая, по крайней мере, столь же экстремальна, как и наблюдаемый результат, если нулевая гипотеза верна. Следовательно, чем меньше значение p, тем больше мы можем сомневаться в справедливости нулевой гипотезы. Однако это не означает, что нулевая гипотеза ложна.
Американская статистическая ассоциация заявляет: «Р-значение не измеряет вероятность того, что исследовательская гипотеза верна, а также не измеряет вероятность того, что данные были сгенерированы случайным образом».
Значение p широко используется при проверке статистических гипотез. Перед проведением исследования исследователь выбирает модель (нулевую гипотезу) и уровень значимости α (чаще всего 0,05). Если значение p меньше α, это означает, что наблюдаемые данные достаточно несовместимы с нулевой гипотезой, и мы можем ее отвергнуть. Однако многие статистики подняли проблему неправильного использования и неправильной интерпретации значений p, например, рассматривая любое значение p менее 0,05 как подтверждающее альтернативную гипотезу.
Другие статистики рекомендуют отказаться от p-значений и больше сосредоточиться на других методах вывода статистики, таких как доверительные интервалы, отношения правдоподобия или факторы Байеса.
Обычно для расчета значения p требуется определить статистику теста, односторонний или двусторонний тест, который выбрал исследователь, и данные. Если нулевая гипотеза верна, значения p должны быть равномерно распределены между 0 и 1, а это означает, что при повторении одного и того же теста вы обычно будете получать разные значения p, даже если нулевая гипотеза верна.
Предположим, вы проводите эксперимент, чтобы проверить, честна ли монета. Результаты показали, что из 20 бросков монеты орел выпал 14 раз. В этом случае нулевая гипотеза состоит в том, что монета честная. Если мы проведем тестирование правого хвоста, то есть сосредоточимся на подтверждении того, смещена ли монета в сторону орла, то значение p будет вероятностью появления как минимум 14 орлов, если монета честная.
Подводя итог, можно сказать, что значения p, несомненно, являются неотъемлемой частью статистики, но мы должны быть осторожны, используя их в качестве инструмента для оценки исследовательских гипотез. Необходимым шагом является тщательное рассмотрение контекста значения p и соответствующего плана исследования. У вас уже есть более глубокое понимание этого числа?