통계학에서 R 제곱(R²)은 회귀 모형의 예측 능력을 평가하는 데 널리 사용되는 지표입니다. R²의 기본 개념은 변수가 종속 변수의 변동을 얼마나 효과적으로 설명하는지 설명하는 것입니다. 그러나 R²이 1을 넘거나 0보다 작아지는 경우를 종종 보는 것은 혼란스러우므로, 이러한 문제의 이면에 있는 수학적 원리를 더 깊이 파헤쳐볼 필요가 있습니다.
R²는 모델의 적합도를 측정하는 기준으로 이상적으로는 0과 1 사이여야 합니다. 이 지표가 범위에 맞지 않으면 일반적으로 모델에 문제가 있음을 나타냅니다.
정의에 따르면 R²은 설명되는 변동의 비율입니다. 모형의 적합도가 매우 좋은 경우 R²은 1에 가까워지며, 이는 모형이 변형률 수의 결과를 매우 잘 예측할 수 있음을 나타냅니다. R²이 0인 경우, 모델이 변동을 설명할 수 없고 예측 성능이 평균과 동일함을 의미합니다.
어떤 경우에는 R²가 0보다 작을 수 있습니다. 이는 일반적으로 예측된 결과가 관찰된 결과보다 나쁠 때 발생합니다. 예를 들어, 사용하는 모델이 데이터에 올바르게 적합하지 않거나 절편 항이 포함되지 않은 경우 이러한 문제가 발생할 수 있습니다. 이때 R²은 음수입니다. 즉, 모델 적합의 예측 결과는 데이터의 평균값을 사용한 예측 결과만큼 좋지 않음을 의미합니다.
R²이 0보다 작은 경우, 선택한 모델이 부적절하거나 평균을 사용하는 등 모델의 간단한 예측이 더 예측적일 수 있음을 나타냅니다.
R²가 1을 초과하는 경우는 드물지만, 모델의 일부 응용 프로그램에서는 발생할 수 있습니다. 이는 주로 선택한 피팅 방법과 모델의 복잡성과 관련이 있습니다. 예를 들어, 잘못된 계산을 사용하거나 제한 사항을 부적절하게 적용하는 경우 모델의 R²가 예상 범위를 벗어날 수 있습니다. 이는 종종 잘못된 수학적 모델을 선택하거나 잘못된 가정을 하는 결과입니다.
모델에 포함되는 변수가 많아질수록 R²는 감소하지 않는 경향이 있어 많은 모델이 과적합될 가능성이 높습니다. 따라서 변수를 추가하면 R²가 향상되는 것처럼 보일 수 있지만 실제 예측 능력은 증가하지 않을 수 있습니다. 이러한 현상을 피하기 위해서는 모델의 변수 개수를 조정하여 추정치를 더욱 엄격하게 만드는 조정된 R²을 사용하는 것이 이상적입니다.
조정된 R²은 변수의 수를 고려하므로 나중에 변수가 추가됨에 따라 모델의 실제 예측력을 더 잘 반영합니다.
R²는 다양한 모델의 성능을 비교하는 데 사용할 수 있지만, 이 단일 지표에만 의존하여 의사 결정을 내리는 것은 충분하지 않습니다. 다양한 모델의 맥락, 데이터의 특성, 기타 통계적 검정 등을 모두 종합적으로 고려해야 합니다. 예를 들어, R² 값이 높더라도 오해의 소지가 있는 결론을 내리지 않으려면 모델 가정에서 발생할 수 있는 오류를 수정해야 합니다.
결론R²는 모델 구축에 있어서 매우 귀중한 도구이지만, 그 가치는 신중하게 해석되어야 합니다. 어떤 경우에는 이 지표가 정상 범위를 벗어날 수 있으므로, 근본적인 이유와 데이터 특성에 대한 추가 고려가 필요합니다. 이러한 통계적 지표를 올바르게 사용하고 이해하여 더 정확한 모델을 구축하려면 어떻게 해야 할까요?