RMSE (root mean squared error) 대 표준 편차를 해석하는 방법은 무엇입니까?


21

예상 값을 제공하는 모델이 있다고 가정 해 봅시다. 그 값의 RMSE를 계산합니다. 그리고 실제 값의 표준 편차입니다.

이 두 값 (분산)을 비교하는 것이 이치에 맞습니까? 내가 생각하는 것은 RMSE와 표준 편차가 비슷하거나 동일하다면 내 모델의 오류 / 분산은 실제로 진행되는 것과 동일합니다. 그러나 이러한 값을 비교하는 것이 합리적이지 않으면이 결론이 잘못 될 수 있습니다. 내 생각이 사실이라면, 그것이 차이를 일으키는 원인을 설명 할 수 없기 때문에 모델이 가능한 한 우수하다는 것을 의미합니까? 나는 마지막 부분이 잘못되었거나 적어도 대답하기 위해 더 많은 정보가 필요하다고 생각합니다.

답변:


22

의 우리의 응답이 있다고 가정 해 봅시다 우리의 예측 값은 Y 1 , ... , Y n은 .와이1,,와이와이^1,,와이^

(사용 표본 분산 보다는 N - 1 편의상)입니다 11MSE가1 인동안 n n i = 1 (yi ˉ y )21나는=1(와이나는와이¯)2. 따라서 표본 분산은 평균 주위에서 반응이 얼마나 달라지는 지, MSE는 예측 주위에서 반응이 얼마나 달라지는지를 나타냅니다. 전체 평균 ˉ y 를우리가 생각한가장 간단한 예측 변수라고 생각하면 MSE를 반응의 표본 분산과 비교하여 모델에서 얼마나 많은 변동을 설명했는지 확인할 수 있습니다. 이것이 바로선형 회귀 분석에서R2값의 기능입니다.1나는=1(와이나는와이^나는)2와이¯아르 자형2

다음 그림을 고려하십시오. 의 표본 분산은 수평선 주위의 변동성입니다. 모든 데이터를 Y 축 에 투영하면 이것을 볼 수 있습니다. MSE 값은 회귀 직선의 평균 제곱 거리, 회귀 직선의 주위 즉 변동성 (즉, 인 y를 I ). 따라서 표본 분산으로 측정 된 변동성은 수평선에 대한 평균 제곱 거리이며 회귀선까지의 평균 제곱 거리보다 훨씬 큽니다. 와이나는와이와이^나는여기에 이미지 설명을 입력하십시오


5

나는(와이나는와이^나는)2,

나는(와이나는와이¯)21,
와이¯와이나는

와이^나는=와이¯와이¯

와이^나는

나는(와이나는와이^나는)2,

계산하기 가장 쉬운 방법입니다.


@Chaconne의 답변에 대해 언급 할 특권은 없지만 그의 마지막 진술에 오타가 있는지 의심합니다. "라인까지의 평균 제곱 거리보다 실질적으로 적습니다". 그러나 그의 답변 그림에서 선으로 y 값을 예측하는 것은 매우 정확합니다. 이는 MSE가 작고 평균값이있는 "예측"보다 훨씬 우수하다는 것을 의미합니다.
Xiao-Feng Li

3

1나는=1(와이나는와이¯)2

1나는=1(와이나는와이^나는)2

이 주장은 RMSE뿐만 아니라 다른 오류 측정에도 적용되지만, RMSE는 수학 공식이 유사하기 때문에 SD와 직접 비교하기에 특히 매력적입니다.


이것은 단지 차이점을 설명하는 것이 아니라 비교가 어떻게 유용 할 수 있는지 설명하기 때문에 가장 좋은 대답입니다.
한스
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.