在統計學中,多重比較問題是指在同時考慮一組統計推斷或估計根據觀察值選擇的一組參數時所面臨的挑戰。當比較的數量增加時,錯誤推論的可能性也隨之增加。為了解決這一問題,研究人員開發了各種統計技術,例如要求對每個比較使用更嚴格的顯著性門檻,以彌補所進行推論的數量。
隨著研究的推進,統計學家越來越重視多重比較問題,這已成為活躍的研究領域。
多重比較問題在1950年代首次受到廣泛關注,當時的統計學家如圖基(Tukey)和謝費(Scheffé)開展了一系列的研究。在接下來的幾十年內,許多程序和方法相繼被提出,以應對這一問題。1996年,第一屆國際多重比較程序會議在特拉維夫舉行,至今這一領域仍在不斷發展。
多重比較出現於統計分析涉及多個同時進行的統計測試時。雖然通常對起每個測試的信心水平進行單獨表述,但往往希望對整個同時測試的信心水平進行評估。當未能考慮多重比較的影響時,可能會有重大的現實後果。
例如,在比較新教學法與傳統教學法的效果時,隨著比較的特徵數目增加,有可能僅由於隨機取樣誤差,治療組和控制組在某些屬性上出現差異。
當涉及多重比較時,我們的信心往往會被削弱。假設在5%置信水平進行了一次測試,如果對應的虛無假設為真,那麼錯誤拒絕虛無假設的機會只有5%。然而,如果有100個測試在相同的5%水準下進行且所有虛無假設均為真,則預期的錯誤拒絕數(即假陽性或第一類錯誤)為5。在這種情況下,至少出現一個錯誤拒絕的概率大約為99.4%。
為了應對多重比較問題,各種控制程序應運而生。最著名的是博費羅尼校正(Bonferroni correction),這是為了控制整體家庭錯誤率(FWER)或假發現率(FDR)而進行的調整。當進行m個獨立比較時,整體家庭錯誤率可以由特定的公式計算得出,如下所示:
ᾱ = 1 - (1 - α)ᵐ
這表明,隨著比較數量的增加,整體家庭錯誤率也會隨之增加。除了博費羅尼校正,還存在其他一些方法。例如,霍姆-博費羅尼方法(Holm-Bonferroni method)提供了比簡單博費羅尼校正具有更大的功效,通過對最低p值進行嚴格檢驗,再對較高的p值進行逐步減少的檢驗來實現。
在一些情況下,如基因組學中,研究人員可能需要進行數千甚至數萬個測試。尤其在基因關聯研究中,可能會出現非重複的問題,即結果在一個研究中具有強烈的統計顯著性,但在隨後的研究中未能複製。這樣的非重複現象的原因多樣,但未能充分考慮多重比較的後果是其中之一。
在某些情況下,研究被認為是探索性的,控制假發現率(FDR)的方法可能會更受青睞。假發現率被定義為在所有顯著測試中假陽性的預期比例,這使得研究者可以識別出一組“候選陽性”,以便在後續研究中進行更嚴格的評估。
然而,項目“p-hacking”也成為了一個普遍問題,即在意圖和無意中進行多次未調整的比較,以期找到顯著的結果。
在分析大量測試結果的一開始,面臨的基本問題是是否有證據表明任何替代假設是成立的。一種簡單的元測試可以使用泊松分佈來對每個假設的顯著結果進行建模。如果觀察到的陽性結果數量明顯高於預期,則表明在顯著結果中存在某些真正的陽性。
多重比較問題是一個複雜且重要的議題,尤其是在當今數據驅動的研究環境中。我們必須仔細考慮統計推論的有效性,未來的研究是否依然會困惑於多重比較過程的挑戰呢?