統計学では、R 二乗 (R²) は回帰モデルの予測力を評価するために広く使用されている指標です。 R² の基本概念は、変数が応答係数の変動をどの程度効果的に説明するかを説明することです。ただし、混乱を招くのは、R² が 1 を超えるか 0 を下回る状況がよく見られるため、この背後にある数学的論理を詳しく調べる必要があることです。
R² はモデルの適合性の尺度であり、理想的には 0 から 1 の間である必要があります。このメトリクスがこの範囲内に収まらない場合は、通常、モデルに問題があることを示しています。
定義により、R² は説明された変動の割合です。モデルが非常によく適合している場合、R² は 1 に近く、モデルがひずみ番号の結果を非常によく予測できることを示しています。 R² が 0 の場合、モデルでは変動を説明できず、予測パフォーマンスは平均と同じであることを意味します。
特定の状況下では、R² が 0 未満になることがあります。これは通常、予測結果が観測結果よりも悪い場合に発生します。これは、たとえば、使用されたモデルがデータに正しく適合しないか、切片項が含まれていない場合に発生する可能性があります。このとき、R² は負の値を示します。これは、モデル フィッティングの予測結果がデータの平均値を使用して予測するほど良好でないことを意味します。
R² が 0 未満の場合、選択したモデルが不適切である可能性があるか、平均を使用するなどの単純な予測モデルの方が予測性が高い可能性があることを示します。
R² が 1 を超えることはほとんどありませんが、一部のモデル アプリケーションでは発生する可能性があります。これは主に、選択したフィッティング方法とモデルの複雑さに関係します。たとえば、誤った計算が使用されたり、制約が不適切に適用されたりすると、モデルの R² が予想範囲外になる場合があります。これは多くの場合、間違った数学モデルを選択したり、間違った仮定を立てたりした結果です。
モデルに含まれる変数が増えるほど、R² は減少しない傾向があり、多くのモデルが過剰適合する可能性があります。これが、変数を追加すると R² が向上しているように見えても、実際の予測力が実際には向上しない可能性がある理由です。この現象を回避するには、モデル内の変数の数を調整して評価をより厳密にする調整済み R² を使用することが理想的です。
調整された R² は変数の数を考慮するため、後で変数が追加された場合にモデルの真の予測力をより適切に反映します。
R² を使用してさまざまなモデルのパフォーマンスを比較できますが、この単一の指標のみに依存して意思決定を行うだけでは十分ではありません。さまざまなモデルのコンテキスト、データの性質、その他の統計的テストをすべて考慮する必要があります。たとえば、R² 値が高い場合でも、誤解を招く結論を避けるために、モデルの仮定に含まれる可能性のあるエラーを修正する必要があります。
R² はモデル構築において貴重なツールですが、その値は注意して解釈する必要があります。場合によっては、この指標が通常の範囲外になる可能性があるため、根本的な理由とデータの特性をさらに検討する必要があります。より正確なモデルを構築するために、これらの統計指標を正しく使用および理解するにはどうすればよいでしょうか?