“판정 계수”와“평균 제곱 오차”의 차이점은 무엇입니까?


32

회귀 문제의 경우 사람들이 "결정 계수"(일명 R 제곱)를 사용하여 정규화에 적합한 페널티 계수를 찾는 등의 모델 선택을 수행하는 것을 보았습니다.

그러나 회귀 정확도의 척도로 "평균 제곱 오류"또는 "근 평균 제곱 오류"를 사용하는 것도 일반적입니다.

이 둘의 주요 차이점은 무엇입니까? 그것들은 "정규화"와 "회귀"태스크를 위해 상호 교환 적으로 사용될 수 있습니까? 그리고 머신 러닝, 데이터 마이닝 작업과 같은 실제 주요 용도는 무엇입니까?

답변:


40

R2=1SSESST, where SSE is the sum of squared error (residuals or deviations from the regression line) and SST is the sum of squared deviations from the dependent's Y mean.

MSE=SSEnm, where n is the sample size and m is the number of parameters in the model (including intercept, if any).

R2 is a standardized measure of degree of predictedness, or fit, in the sample. MSE is the estimate of variance of residuals, or non-fit, in the population. The two measures are clearly related, as seen in the most usual formula for adjusted R2 (the estimate of R2 for population):

Radj2=1(1R2)n1nm=1SSE/(nm)SST/(n1)=1MSEσy2.


2
I thought MSE is the avg of the errors, which means MSE = SSE/n, on what occasions do we use MSE=SSE/(n-m)? Please explain. Thanks
Sincole Brans

@SincoleBrans Please see en.wikipedia.org/wiki/Mean_squared_error, section "Regression".
ttnphns

I'm a bit confused. The results in martin-thoma.com/regression show that a model can be good (compared to some other models) with R^2, but at the same time bad with MSE. Could you explain that?
Martin Thoma
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.