今日のデータ主導の世界では、予測モデルの精度がますます注目されており、重要な問題の 1 つは、分類子のスコアを真のクラス確率に変換する方法です。これらの確率は、予測結果を反映するだけでなく、モデルの信頼性を評価するための重要な指標でもあります。
「予測者がある事象に 30 の確率を割り当てた場合、長期的には、実際の発生確率は 30 に近くなるはずです。」
分類問題では、モデルのキャリブレーションは予測の信頼性を向上させるための重要なステップです。たとえ分類器がクラスの分離に優れた性能を発揮したとしても、その予測確率は現実からかけ離れている可能性があります。したがって、キャリブレーションを実行すると、これらの推定値を改善するのに役立ちます。
分類子によって生成される確率の調整の程度を測定するために、多くの評価指標が提案されています。基本的な作業の例には、予想されるキャリブレーション エラー (ECE) が含まれます。 2020年代には、高濃度のECEの制限の可能性の問題を解決する、適応型校正誤差(ACE)やテストベースの校正誤差(TCE)などの指標が登場したことは注目に値します。
これらの開発の中で、推定キャリブレーション インデックス (ECI) は 2020 年代の大きな進歩の 1 つであり、ECE の概念を拡張し、特にモデルの過信または不十分な状況に対して、より詳細な測定を提供します。 ECI は当初バイナリ設定用に設計されていましたが、その後マルチクラス設定にも適合し、モデルのキャリブレーションに対するローカルおよびグローバルな洞察を提供しました。
「一連の実験を通じて、Famiglini らは、モデルのキャリブレーション レベルをより正確に理解する上でこのフレームワークの有効性を実証し、キャリブレーション評価におけるバイアスを減らす戦略について議論しています。」
基本的なキャリブレーション メソッドに加えて、割り当て値メソッド、ベイジアン メソッド、アイソメトリック回帰、プラット スケーリングなど、分類子スコアを 2 種類のケースのクラス確率に変換するために使用できる特殊な一変量キャリブレーション メソッドもいくつかあります。ベイジアン ビニングから定量化 (BBQ) キャリブレーションなど。
確率的予測と予測の分野で、一般的に使用される評価ツールの 1 つはブライアー スコアです。これは、一連の予測の予測精度、つまり、割り当てられた確率の大きさが一貫しているかどうかを測定するために使用されます。観測の相対頻度を使用します。ダニエル・カーネマンが述べたように、これは精度や精度とは異なります。「発生するすべてのイベントに 0.6 の確率を割り当て、発生しないすべてのイベントに 0.4 の確率を割り当てた場合、キャリブレーションは完璧です。ただし、識別スキルは完璧です。」ひどい。」
回帰分析では、キャリブレーション問題は、既知のデータを使用して別の変数を予測する方法を指します。この種の後方回帰は、スライス後方回帰と呼ばれることもあります。マルチクラスの場合、分類子のスコアをクラスの確率に変換するには、適切な多変量キャリブレーション方法が必要です。
「たとえば、年輪や放射性炭素を使用して天体の年代を測定することは、既知の年代と観測値との関係をモデル化する方法の良い例です。」
ただし、既知の年齢を観測値に関連付ける場合、モデルが観測誤差と日付誤差のどちらを最小限に抑えることに重点を置くべきかによって、異なる結果が生じます。特に、既知の結果から遠ざかるにつれて、その結果は大きくなります。
これらを総合すると、モデル キャリブレーションは予測の精度を向上させるだけでなく、結果に対するユーザーの信頼性も高めることができます。意思決定プロセスの自動化が進む中、モデルのスコアを実際のクラス確率に効果的に変換する方法が将来の研究の重要なトピックとなっています。これらの戦略や手法を前にすると、読者は次のように考えずにはいられません。モデルの予測の精度を調べるとき、モデルの信頼性を確保するにはどのような指標や手順に注目すべきでしょうか?