経済学、社会科学、そしておそらく医学など、さまざまな分野では、p値の使用が暗黙の了解となっているようです。しかし、この数字の解釈はしばしば議論を呼んでいます。多くのデータ サイエンティストや研究者は、p 値の真の意味は誤解されることが多く、学術界では曖昧になっていると述べています。したがって、p 値と帰無仮説の関係についていくつかの重要な疑問が生じます。
p 値は、帰無仮説に基づいた確率の尺度であり、帰無仮説が正しい場合に観測された検定統計量がどの程度極端になるかを反映します。
統計的定義によれば、帰無仮説とは、通常、特定の効果または差異が存在しないと仮定してテストされる仮説です。たとえば、ある特定の症状に対する薬の有効性をテストする研究の場合、帰無仮説は「薬には効果がない」となる可能性があります。 p 値は、この仮説を定量化するために使用されるツールです。具体的には、仮説が正しい場合に、ある結果またはより極端な結果が得られる確率を表します。 p 値が非常に小さい場合、帰無仮説を前提とすると、観察された結果が発生する可能性が極めて低いことを示し、研究者が帰無仮説を棄却するよう促す可能性があります。
2016 年に、アメリカ統計学会 (ASA) は、「p 値は研究仮説が正しい確率を測定するものではなく、データが偶然に発生した確率を示すものでもない」という声明を発表しました。< /p>
これに対して、多くの学者や統計学者がp値の使用の再評価を求めています。彼らは、p 値は証拠の大きさや結果の重要性を表すものではなく、仮説を却下または受け入れるための唯一の基準として使用すべきではないと主張しています。特に複数の試験が実施された場合やサンプルサイズが小さい場合には、誤解を招く結論が出る可能性が高くなります。
実際には、研究者は「有意水準」を設定することが多く、通常は 0.05 です。これは、p 値が 0.05 未満の場合、研究者は帰無仮説を棄却することを意味します。この標準は統計コミュニティで広く使用されていますが、その背後には多くの問題が潜んでいます。この標準を使用する研究では、テスト設計や測定品質などの他の関連要因が無視されることがあり、データ結果の解釈が誤ってしまうことがあります。
「精神衛生や臨床医学などの分野では、研究者は合理的な結論を確実に得るために、設計のあらゆる側面を考慮する必要があります。」
一方で、p値の大きさは結果の信頼性をある程度反映します。他方、意思決定の根拠として単一の数値に頼ることにはリスクがあり、次のような現象につながる可能性があります。 「p値フック」など。この場合、研究者は、データ分析において、真の状況を客観的に反映するのではなく、データを有意なものにするためにデータを調整またはフィルタリングしようとする可能性があります。
p 値はサンプル データから導き出された数値だけではなく、サンプル全体の解釈も含まれることに注意してください。したがって、研究では p 値の報告に加えて、信頼区間、効果サイズなどの他の統計指標にも焦点を当てる必要があります。これらの統計ツールは、より包括的な分析結果を提供するのに役立ちます。
多くの統計学者は、結論を導くためにp値だけに頼るのではなく、信頼区間や尤度比などの他の推論統計手法にもっと注意を払うべきだと示唆している。
このような議論は、経済学やその他の科学分野における統計手法の再考を促しました。 2019年、ASAは科学研究における統計的手法の使用を検討するための特別グループを結成しました。彼らは、異なる不確実性の尺度が互いに補完し合うことができると指摘し、「p値と有意性検定が正しく適用され解釈されると、データから導き出される結論の厳密さを向上させることができる」と強調しています。したがって、適切な統計ツールを見つけてデータを正しく解釈することが特に重要です。
全体として、p 値と帰無仮説の関係は単純で明確ではなく、科学的手法と理論の交差点が多く含まれています。おそらく本当の課題は、p 値をどのように計算または解釈するかだけではなく、研究において p 値が正しく合理的に使用されるようにする方法です。 p 値の大きさに頼って意思決定するのではなく、研究で p 値を適切に使用する方法について考えたことはありますか?