統計学の分野では、p 値は間違いなく最も人気があり、議論の多い概念の 1 つです。 p 値は、帰無仮説が真である場合に、検定統計量と少なくとも同程度に極端な結果が観測される確率を表します。この数字は研究結果の解釈と発表に極めて重要ですが、科学界ではその誤用や誤解が広まっています。
アメリカ統計学会は、「p 値は、研究仮説が正しい確率や、データが単なる偶然によって生成された確率を測定するものではありません」と述べています。
統計学では、観測データの分布に関する各仮定は統計仮説と呼ばれます。特定の仮説、つまり帰無仮説を検定する場合、その帰無仮説が真であると仮定して、この仮説が真であるかどうかを検定することが目標となります。
帰無仮説は通常、研究の特定の状況においてパラメータ(相関や平均差など)がゼロであることを示します。たとえば、検定統計量 T が帰無仮説の下で標準正規分布 N(0, 1) に従うとします。帰無仮説を棄却する場合、通常は、ゼロ以外の考慮事項をある程度支持することを意味します。しかし、これは私たちが知っているデータの全体像を網羅しているわけではありません。
p 値の計算は統計的検定の中核です。分布から観測値が抽出され、統計が計算される場合、p 値は仮説が正しい場合に統計が真である確率です。たとえば、統計量 t が関心のある結果統計量である場合、p 値は帰無仮説 H0 を与えられた場合に t 以下の値を観測する確率として見ることができます。
帰無仮説 H0 は通常、パラメータがゼロであることを意味します。受け入れられた臨界値 α に対して、p 値が α 以下の場合、帰無仮説は棄却されます。
仮説検定を実施する場合、研究者は有意水準 α を事前に設定し、通常は 0.05 に設定します。計算された p 値がこの値よりも低い場合、観測されたデータは帰無仮説と十分に矛盾しており、帰無仮説を棄却することを意味します。しかし、これは帰無仮説が絶対に間違っていることを意味するものではありません。
アメリカ統計学会は、p値が誤用されることが多いと指摘しています。特に、一部の学者は、他の裏付けとなる証拠の重要性を無視して、p 値が 0.05 未満であるという理由だけで対立仮説が有効であると想定する傾向があります。多くの統計学者は、p 値は仮説の正しさを測るツールとしてではなく、他の統計指標と組み合わせて総合的な評価を行うべきだと主張しています。
たとえば、コインが公平かどうかをテストしたい場合、コインを 20 回投げて 14 回表が出たとします。この場合、帰無仮説はコインが公平であるということです。この場合、公平なコインが与えられた場合に表が出る可能性を調べるために p 値を計算します。この確率が非常に小さい場合、コインの公平性に疑問を抱く理由があります。
結論「p 値は仮説の正しさについて述べるものではなく、むしろ観測されたデータと特定のモデルとの不一致の強さをテストするものです。」
p 値は間違いなく科学研究に欠かせないツールの 1 つですが、注意して使用する必要があります。研究者にとって、p 値の性質とそれがもたらす限界を理解し、p 値を適切に解釈して報告する方法を学ぶことは、データをより正確に解釈するのに役立ちます。この場合、科学の進歩のためにさらに必要な主要な評価基準は何でしょうか?