近似貝葉斯計算(ABC)是一種計算方法,根植於貝葉斯統計學,用於估計模型參數的後驗分佈。在所有基於模型的統計推斷中,似然函數扮演著核心角色,因為它表達了在特定統計模型下觀察到數據的概率,從而量化了數據對特定參數值的支持程度。對於簡單模型,通常可以導出似然函數的解析公式。但對於更複雜的模型,解析公式可能難以獲得,或者計算似然函數的成本非常高昂。ABC方法繞過了似然函數的評估,以此擴大了可考慮的統計推斷模型範圍。
ABC方法數學基礎扎實,但不可避免地做出了一些假設和近似,這些假設的影響需要仔細評估。
不僅如此,ABC的更廣泛應用範圍也加大了參數估計和模型選擇的挑戰。近年來,ABC在生物科學領域逐漸受到重視,尤其是在種群遺傳學、生態學、流行病學和系統生物學等問題的分析中。
ABC的早期想法可以追溯到1980年代。1984年,唐納德·魯賓討論貝葉斯語句的解釋時,描述了從後驗分佈獲得樣本的假設抽樣機制。這一方案更多的是一種概念性的思想實驗,用於展示在推斷參數的後驗分佈時所作的操作。
隨著時間的推移,ABC的方法逐漸得以發展。彼得·迪格爾和理查德·格拉頓在1984年建議使用系統模擬方案來近似似然函數,特別是在其解析形式不可行的情況下。他們的方案依賴於在參數空間中定義一個網格,並對每個網格點進行幾次模擬以近似計算似然。
ABC被視為推斷的貝葉斯版本,並引入了許多基於蒙特卡羅的方法來從ABC後驗分佈中進行抽樣。
因此,ABC方法不僅改變了參數估計的方式,也為生物、環境和系統科學等領域開啟了新視野。
ABC方法的一個常見形式與貝葉斯定理息息相關。貝葉斯定理將某個特定參數值的條件概率與給定數據的概率之間的關係進行了明確的鏈接。通常,在許多應用中,評估似然函數會變得計算上成本高昂,這推動了ABC方法的誕生。
ABC拒絕算法是所有基於ABC的方法的核心。這一基本形式首先根據先驗分佈隨機抽取一組參數點。對於選定的參數值,根據指定的統計模型模擬數據集。如果生成的數據集與觀察數據相差過大,則丟棄該參數值。
生成符合要求的數據集的概率隨著數據的維度增大而下降,這使得基本ABC方法的計算效率顯著減少。常見的做法是使用摘要統計來取代高維度的數據集。
如果摘要統計對於模型參數的充分性得以滿足,則這種方法不會引入任何誤差,因為根據定義,充分性意味著數據中有關參數的所有信息均被摘要統計捕捉。
這使得ABC在推斷複雜模型時成為了一種高效且有效的選擇。
舉例來說,一個雙穩態系統可以通過受測量噪音的隱馬爾可夫模型(HMM)來描述。這類模型被廣泛應用於多種生物系統中。以果蠅的音速刺猬轉錄因子(Shh)行為為例,通過HMM可進行建模。該模型由兩個狀態A和B組成,轉移概率定義為參數θ。基於此模型進行參數的後驗推斷,ABC方法展現了它的實用性。
最後,分析這些方法的有效性提示我們,在不斷進化的統計推斷領域,近似貝葉斯計算將如何影響未來的研究和實際應用,我們又該如何適應這些變化呢?