在統計學的領域中,p值無疑是最受關注也最具爭議的概念之一。p值代表在零假設為真時,觀察到的檢驗統計量至少那麼極端的結果的概率。這個數字對於研究結果的解讀和學術發表有著至關重要的意義,但它的誤用和誤解在科學界中廣泛存在。
美國統計協會指出:「p值並不衡量研究假設為真的概率,或者數據僅由隨機機會產生的概率。」
在統計學中,每一個對觀察數據分布的假設被稱為統計假設。當我們檢驗一個特定的假設,即零假設時,我們的目標是在假設成立的情況下檢驗這個假設是否成立。
零假設通常認為在研究的特定背景下某個參數(例如相關性或均值差異)為零。舉例來說,假設一個檢驗統計量T在零假設下遵循標準正態分布N(0, 1),如果我們拒絕零假設,通常意味著我們在某種程度上支持一個非零的考慮。但這完全不涵蓋我們知道的數據的整體情況。
p值的計算是統計檢驗的核心。如果從某一分布中抽取觀測數據並計算出一個統計量,p值則是這個統計量在假設為真的情況下的分布概率。舉例來說,如果統計量t是我們關注的結果,p值可被看作在零假設H0成立的情況下,觀察到小於或等於t的概率。
零假設H0通常是指某一參數為零,對於接受的臨界值α值,當p值小於或等於α時,我們會拒絕零假設。
在進行假設檢驗時,研究人員會事先設定顯著性水平α,通常取0.05。如果計算出的p值低於此值,這意味著觀察的數據與零假設存在足夠的不相容性,進而拒絕該假設。但這並不意味著零假設的絕對錯誤。
美國統計協會指出,p值經常被誤用。特別是一些學者傾向於單憑p值小於0.05就認為替代假設成立,而忽略了其他支持證據的重要性。許多統計學家建議不應將p值視為衡量假設正確性的工具,而應該結合其他統計指標來進行全面評估。
舉例來說,如果要檢驗一枚硬幣是否公正,設想我們進行了20次拋擲,結果出現14次正面,我們的零假設是硬幣是公正的。在這個情境下,我們計算p值,以了解在硬幣公正的前提下,出現如此多正面的概率。如果這個概率非常小,我們就有理由懷疑硬幣的公正性。
「p值並不對假設的正確性做出評價,而是檢驗觀察數據與特定模型不相容性的強度。」
p值在科學研究中無疑是不可或缺的工具之一,但其使用需謹慎。對於研究者來說,理解p值的本質、它所帶來的局限性,並學會如何適度解釋和報告p值,將有助於更正確地解讀數據。在這樣的情況下,科學的進步更需要哪些關鍵的評估標準呢?