在统计学的领域中,p值无疑是最受关注也最具争议的概念之一。 p值代表在零假设为真时,观察到的检验统计量至少那么极端的结果的概率。这个数字对于研究结果的解读和学术发表有着至关重要的意义,但它的误用和误解在科学界中广泛存在。
美国统计协会指出:「p值并不衡量研究假设为真的概率,或者数据仅由随机机会产生的概率。」
在统计学中,每一个对观察数据分布的假设被称为统计假设。当我们检验一个特定的假设,即零假设时,我们的目标是在假设成立的情况下检验这个假设是否成立。
零假设通常认为在研究的特定背景下某个参数(例如相关性或均值差异)为零。举例来说,假设一个检验统计量T在零假设下遵循标准正态分布N(0, 1),如果我们拒绝零假设,通常意味着我们在某种程度上支持一个非零的考虑。但这完全不涵盖我们知道的数据的整体情况。
p值的计算是统计检验的核心。如果从某一分布中抽取观测数据并计算出一个统计量,p值则是这个统计量在假设为真的情况下的分布概率。举例来说,如果统计量t是我们关注的结果,p值可被看作在零假设H0成立的情况下,观察到小于或等于t的概率。
零假设H0通常是指某一参数为零,对于接受的临界值α值,当p值小于或等于α时,我们会拒绝零假设。
在进行假设检验时,研究人员会事先设定显著性水平α,通常取0.05。如果计算出的p值低于此值,这意味着观察的数据与零假设存在足够的不相容性,进而拒绝该假设。但这并不意味着零假设的绝对错误。
美国统计协会指出,p值经常被误用。特别是一些学者倾向于单凭p值小于0.05就认为替代假设成立,而忽略了其他支持证据的重要性。许多统计学家建议不应将p值视为衡量假设正确性的工具,而应该结合其他统计指标来进行全面评估。
举例来说,如果要检验一枚硬币是否公正,设想我们进行了20次抛掷,结果出现14次正面,我们的零假设是硬币是公正的。在这个情境下,我们计算p值,以了解在硬币公正的前提下,出现如此多正面的概率。如果这个概率非常小,我们就有理由怀疑硬币的公正性。
「p值并不对假设的正确性做出评价,而是检验观察数据与特定模型不相容性的强度。」
p值在科学研究中无疑是不可或缺的工具之一,但其使用需谨慎。对于研究者来说,理解p值的本质、它所带来的局限性,并学会如何适度解释和报告p值,将有助于更正确地解读数据。在这样的情况下,科学的进步更需要哪些关键的评估标准呢?