在当今数据驱动的世界,预测模型的准确性越来越受到重视,而其中一个关键的问题便是如何将分类器的分数转化为真实的类别机率。这些机率不仅是预测结果的体现,更是评估模型可靠性的关键指标。
「一个预测者如果为某事件赋予30的概率,那么在长期来看,实际发生的比例应该也接近30。」
在分类问题中,模型的校准是提高预测可靠性的重要步骤。即使一个分类器在分离各个类别方面表现良好,但其预测的概率可能与真实情况相去甚远。因此,进行校准可以帮助改善这些估计值。
许多评估指标被提出来衡量分类器产生的概率的校准程度。基础工作的例子包括预期校准误差(Expected Calibration Error, ECE)。值得注意的是,进入2020年代,诸如自适应校准误差(Adaptive Calibration Error, ACE)和基于测试的校准误差(Test-based Calibration Error, TCE)这些指标应运而生,它们解决了ECE在高集中度的情况下可能出现的局限性。
在这些进展中,估算校准指数(Estimated Calibration Index, ECI)作为2020年代的重大突破之一,其拓展了ECE的概念,为模型校准提供了更加细致的测量,特别是针对模型过于自信或不足的情形。最初为二元设定而设的ECI,随后也适用于多类别设置,提供对模型校准的局部和整体洞察。
「透过一系列实验,Famiglini等人展示了该框架在提供对模型校准水平更准确的理解方面的有效性,并讨论了减少校准评估偏见的策略。」
除了基本的校准方法,还有一些专门的单变量校准方法可以用于将分类器分数转化为两类案例的类别概率,包括指派值法、贝叶斯方法、等距回归、Platt缩放和贝叶斯分箱至定量(BBQ)校准等。
在概率预测与预测的领域中,常用的评估工具之一是Brier分数,这用来衡量一组预测的预测准确性,即所分配概率的幅度是否符合观察结果的相对频率。这与准确性和精确性有所不同,正如丹尼尔·卡尼曼所述,「如果你给所有发生的事件赋予0.6的概率,给所有未发生的事件赋予0.4的概率,则你的校准是完美的,但你的识别能力却是糟糕的。」
在回归分析中,校准问题指的是如何使用已知数据来对另一变量进行预测,这种反向回归有时可以被称为切片反向回归。对于多类别的情况,则需要采用适当的多变量校准方法来将分类器分数转化为类别概率。
「举例来说,使用树轮或放射性碳进行物品的年代测定,是我们对已知年龄与观察之间的关系进行建模的典范。」
然而,模型在将已知年龄与观察结果关联时,应该着重于最小化观察误差还是日期误差,这两种方法所产生的结果会有所不同,尤其在进行外推时,其差异将随着距离已知结果的远近而加剧。
综合以上种种,模型的校准不仅能提升预测的准确性,还能增强使用者对结果的信心。在日益自动化的决策过程中,如何有效地将模型的分数转化为真实的类别概率,成为未来研究的重要课题。面对这些策略和方法,读者不禁要思考:在审视模型预测的准确性时,我们应该着重于哪些指标或步骤来确保模型的可信度呢?