在统计学中,多重比较问题是指在同时考虑一组统计推断或估计根据观察值选择的一组参数时所面临的挑战。当比较的数量增加时,错误推论的可能性也随之增加。为了解决这一问题,研究人员开发了各种统计技术,例如要求对每个比较使用更严格的显著性门槛,以弥补所进行推论的数量。
随着研究的推进,统计学家越来越重视多重比较问题,这已成为活跃的研究领域。
多重比较问题在1950年代首次受到广泛关注,当时的统计学家如图基(Tukey)和谢费(Scheffé)开展了一系列的研究。在接下来的几十年内,许多程序和方法相继被提出,以应对这一问题。 1996年,第一届国际多重比较程序会议在特拉维夫举行,至今这一领域仍在不断发展。
多重比较出现于统计分析涉及多个同时进行的统计测试时。虽然通常对起每个测试的信心水平进行单独表述,但往往希望对整个同时测试的信心水平进行评估。当未能考虑多重比较的影响时,可能会有重大的现实后果。
例如,在比较新教学法与传统教学法的效果时,随着比较的特征数目增加,有可能仅由于随机取样误差,治疗组和控制组在某些属性上出现差异。
当涉及多重比较时,我们的信心往往会被削弱。假设在5%置信水平进行了一次测试,如果对应的虚无假设为真,那么错误拒绝虚无假设的机会只有5%。然而,如果有100个测试在相同的5%水准下进行且所有虚无假设均为真,则预期的错误拒绝数(即假阳性或第一类错误)为5。在这种情况下,至少出现一个错误拒绝的概率大约为99.4%。
为了应对多重比较问题,各种控制程序应运而生。最著名的是博费罗尼校正(Bonferroni correction),这是为了控制整体家庭错误率(FWER)或假发现率(FDR)而进行的调整。当进行m个独立比较时,整体家庭错误率可以由特定的公式计算得出,如下所示:
ᾱ = 1 - (1 - α)ᵐ
这表明,随着比较数量的增加,整体家庭错误率也会随之增加。除了博费罗尼校正,还存在其他一些方法。例如,霍姆-博费罗尼方法(Holm-Bonferroni method)提供了比简单博费罗尼校正具有更大的功效,通过对最低p值进行严格检验,再对较高的p值进行逐步减少的检验来实现。
在一些情况下,如基因组学中,研究人员可能需要进行数千甚至数万个测试。尤其在基因关联研究中,可能会出现非重复的问题,即结果在一个研究中具有强烈的统计显著性,但在随后的研究中未能复制。这样的非重复现象的原因多样,但未能充分考虑多重比较的后果是其中之一。
在某些情况下,研究被认为是探索性的,控制假发现率(FDR)的方法可能会更受青睐。假发现率被定义为在所有显著测试中假阳性的预期比例,这使得研究者可以识别出一组“候选阳性”,以便在后续研究中进行更严格的评估。
然而,项目“p-hacking”也成为了一个普遍问题,即在意图和无意中进行多次未调整的比较,以期找到显著的结果。
在分析大量测试结果的一开始,面临的基本问题是是否有证据表明任何替代假设是成立的。一种简单的元测试可以使用泊松分布来对每个假设的显著结果进行建模。如果观察到的阳性结果数量明显高于预期,则表明在显著结果中存在某些真正的阳性。
多重比较问题是一个复杂且重要的议题,尤其是在当今数据驱动的研究环境中。我们必须仔细考虑统计推论的有效性,未来的研究是否依然会困惑于多重比较过程的挑战呢?