통계 분야에서 p 값은 의심할 여지 없이 가장 인기 있고 논란의 여지가 있는 개념 중 하나입니다. p-값은 귀무 가설이 참일 때 검정 통계량과 같거나 그 이상의 극단적인 결과가 관찰될 확률을 나타냅니다. 이 숫자는 연구 결과를 해석하고 발표하는 데 필수적이지만, 과학계에서는 이를 오용하고 오해하는 경우가 널리 퍼져 있습니다.
미국 통계 협회는 "p-값은 연구 가설이 사실일 확률을 측정하지 않으며 데이터가 무작위적 기회에 의해서만 생성되었을 확률도 측정하지 않는다"고 말합니다.
통계학에서 관찰된 데이터의 분포에 대한 각 가정을 통계적 가설이라고 합니다. 우리가 특정 가설, 즉 귀무 가설을 검정할 때, 우리의 목표는 귀무 가설이 참이라는 가정 하에 이 가설이 참인지 여부를 검정하는 것입니다.
귀무 가설은 일반적으로 연구의 특정 맥락에서 매개변수(상관관계나 평균 차이 등)가 0이라고 나타냅니다. 예를 들어, 검정 통계량 T가 귀무 가설 하에서 표준 정규 분포 N(0, 1)을 따른다고 가정합니다. 귀무 가설을 기각하는 경우 일반적으로 어느 정도 0이 아닌 고려 사항을 지지한다는 것을 의미합니다. 하지만 이는 우리가 알고 있는 데이터의 전체적인 모습을 보여주지는 않습니다.
p-값의 계산은 통계적 검정의 핵심입니다. 관찰치가 분포에서 추출되고 통계량이 계산되는 경우, p-값은 가설이 참일 때 통계량이 참일 확률입니다. 예를 들어, 통계량 t가 관심 있는 결과 통계량인 경우, p-값은 귀무 가설 H0가 주어졌을 때 t보다 작거나 같은 값을 관찰할 확률로 볼 수 있습니다.
귀무 가설 H0는 일반적으로 매개변수가 0임을 의미합니다. 허용된 임계값 α의 경우, p 값이 α보다 작거나 같을 때 귀무 가설을 기각합니다.
가설 검정을 수행할 때 연구자는 유의 수준 α를 미리 설정하며, 보통 0.05입니다. 계산된 p-값이 이 값보다 낮으면, 관찰된 데이터가 귀무 가설과 충분히 양립되지 않아 이를 기각한다는 것을 의미합니다. 하지만 이는 귀무가설이 절대적으로 틀렸다는 것을 의미하지는 않습니다.
미국 통계 협회에서는 p 값이 종종 오용된다고 지적합니다. 특히 일부 학자들은 p-값이 0.05보다 작다는 이유만으로 대안 가설이 타당하다고 가정하는 경향이 있는데, 이는 다른 뒷받침 증거의 중요성을 무시한 것입니다. 많은 통계학자들은 p-값을 가설의 정확성을 측정하는 도구로 보아서는 안 되며, 포괄적인 평가를 내리기 위해 다른 통계적 지표와 결합해야 한다고 주장합니다.
예를 들어, 동전이 공정한지 테스트하고 싶다면, 동전을 20번 던져서 14번 앞면이 나왔다고 가정해 보겠습니다. 우리의 귀무 가설은 동전이 공정하다는 것입니다. 이 경우, 우리는 공정한 동전이 주어졌을 때 몇 번의 앞면이 나올 확률을 알아보기 위해 p-값을 계산합니다. 만약 이 확률이 매우 작다면, 우리는 동전의 공정성을 의심할 이유가 있습니다.
결론“p-값은 가설의 정확성에 대한 진술을 하는 것이 아니라, 특정 모델과 관찰된 데이터의 비호환성의 강도를 테스트합니다.”
p-값은 의심할 여지 없이 과학 연구에 없어서는 안 될 도구 중 하나이지만 주의해서 사용해야 합니다. 연구자의 경우 p값의 특성과 이로 인한 한계를 이해하고, p값을 적절히 해석하고 보고하는 방법을 배우면 데이터를 보다 정확하게 해석하는 데 도움이 됩니다. 그렇다면 과학적 진보를 위해 더 필요한 핵심 평가 기준은 무엇일까?