在當今數據驅動的世界,預測模型的準確性越來越受到重視,而其中一個關鍵的問題便是如何將分類器的分數轉化為真實的類別機率。這些機率不僅是預測結果的體現,更是評估模型可靠性的關鍵指標。
「一個預測者如果為某事件賦予30的概率,那麼在長期來看,實際發生的比例應該也接近30。」
在分類問題中,模型的校準是提高預測可靠性的重要步驟。即使一個分類器在分離各個類別方面表現良好,但其預測的概率可能與真實情況相去甚遠。因此,進行校準可以幫助改善這些估計值。
許多評估指標被提出來衡量分類器產生的概率的校準程度。基礎工作的例子包括預期校準誤差(Expected Calibration Error, ECE)。值得注意的是,進入2020年代,諸如自適應校準誤差(Adaptive Calibration Error, ACE)和基於測試的校準誤差(Test-based Calibration Error, TCE)這些指標應運而生,它們解決了ECE在高集中度的情況下可能出現的局限性。
在這些進展中,估算校準指數(Estimated Calibration Index, ECI)作為2020年代的重大突破之一,其拓展了ECE的概念,為模型校準提供了更加細緻的測量,特別是針對模型過於自信或不足的情形。最初為二元設定而設的ECI,隨後也適用於多類別設置,提供對模型校準的局部和整體洞察。
「透過一系列實驗,Famiglini等人展示了該框架在提供對模型校準水平更準確的理解方面的有效性,並討論了減少校準評估偏見的策略。」
除了基本的校準方法,還有一些專門的單變量校準方法可以用於將分類器分數轉化為兩類案例的類別概率,包括指派值法、貝葉斯方法、等距回歸、Platt縮放和貝葉斯分箱至定量(BBQ)校準等。
在概率預測與預測的領域中,常用的評估工具之一是Brier分數,這用來衡量一組預測的預測準確性,即所分配概率的幅度是否符合觀察結果的相對頻率。這與準確性和精確性有所不同,正如丹尼爾·卡尼曼所述,「如果你給所有發生的事件賦予0.6的概率,給所有未發生的事件賦予0.4的概率,則你的校準是完美的,但你的識別能力卻是糟糕的。」
在回歸分析中,校準問題指的是如何使用已知數據來對另一變量進行預測,這種反向回歸有時可以被稱為切片反向回歸。對於多類別的情況,則需要採用適當的多變量校準方法來將分類器分數轉化為類別概率。
「舉例來說,使用樹輪或放射性碳進行物品的年代測定,是我們對已知年齡與觀察之間的關係進行建模的典範。」
然而,模型在將已知年齡與觀察結果關聯時,應該著重於最小化觀察誤差還是日期誤差,這兩種方法所產生的結果會有所不同,尤其在進行外推時,其差異將隨著距離已知結果的遠近而加劇。
綜合以上種種,模型的校準不僅能提升預測的準確性,還能增強使用者對結果的信心。在日益自動化的決策過程中,如何有效地將模型的分數轉化為真實的類別概率,成為未來研究的重要課題。面對這些策略和方法,讀者不禁要思考:在審視模型預測的準確性時,我們應該著重於哪些指標或步驟來確保模型的可信度呢?