근 평균 제곱 오차 및 평균 바이어스 편차에 대한 개념적 이해


13

RMSE (root Mean Squared Error) 및 MBD (Mean Bias Deviation)에 대한 개념적인 이해를 원합니다. 필자의 데이터 비교를 위해 이러한 측정 값을 계산 한 결과, RMSE가 높고 (예 : 100kg) MBD가 낮다는 (예 : 1 % 미만) 나는 종종 당황했습니다.

더 구체적으로, 나는 이러한 측정의 수학을 열거하고 논의하는 참조 (온라인이 아닌)를 찾고 있습니다. 이 두 측정 값을 계산하는 데 일반적으로 허용되는 방법은 무엇이며 저널 논문에 어떻게보고해야합니까?

이 게시물의 맥락에서이 두 측정 값의 계산을 설명하는 데 사용할 수있는 "장난감"데이터 세트를 갖는 것이 실제로 도움이 될 것입니다.

예를 들어, 조립 라인에서 생성 된 200 개 위젯의 질량 (kg)을 찾아야한다고 가정합니다. 또한 이러한 위젯의 질량을 예측하려고하는 수학적 모델이 있습니다. 이 모델은 경험적 일 필요는 없으며 물리적 기반 일 수 있습니다. 실제 측정과 모델 사이의 RMSE와 MBD를 계산하여 RMSE가 100kg이고 MBD가 1 %라는 것을 알았습니다. 이것이 개념적으로 무엇을 의미하며,이 결과를 어떻게 해석 할 수 있습니까?

이제이 실험의 결과에서 RMSE가 10kg이고 MBD가 80 %라고 가정합니다. 이것이 무엇을 의미하며이 실험에 대해 무엇을 말할 수 있습니까?

이 측정의 의미는 무엇이며, 두 가지 (함께 취한)는 무엇을 의미합니까? RMSE와 관련하여 MBD가 제공하는 추가 정보는 무엇입니까?


2
니콜라스 우리 사이트를 둘러 봤어? stats.stackexchange.com/a/17545 에서 시작한 다음 질문에 추가 한 태그 중 일부를 살펴보십시오.
whuber

@ whuber : 고마워 whuber !. 나는 사이트를 둘러 보았지만 나 자신의 연구의 맥락에서 실제로 무엇을 의미하는지 이해하는 것이 여전히 어렵다는 것을 안다.
Nicholas Kinar

답변:


21

이러한 개념은 설명하기 쉽다고 생각합니다. 여기에 설명해 드리겠습니다. 필자는 저의 저서 "의사, 간호사 및 임상의를위한 생체 통계의 필수 요소"를 포함하여 많은 초등 통계 책을 다루고 있다고 확신합니다.

중간에 황소 눈을 가진 대상을 생각하십시오. 평균 제곱 오차는 대상과 중심의 화살 샷에서 평균 제곱 거리를 나타냅니다. 이제 화살이 중심에서 균등하게 흩어지면 사수에는 조준 바이어스가 없으며 평균 제곱 오차는 분산과 같습니다.

그러나 일반적으로 화살표는 대상에서 떨어진 지점 주위로 흩어질 수 있습니다. 화살표 중심에서 화살표의 평균 제곱 거리는 분산입니다. 이 센터는 저격수가 조준 할 때 볼 수 있습니다. 이 사수 중심 또는 조준점에서 목표 중심까지의 거리는 치우침의 절대 값입니다.

빗변의 제곱이 양변의 제곱의 합인 직각 삼각형을 생각하십시오. 따라서 화살표에서 목표까지의 제곱 거리는 화살표에서 목표점까지의 거리의 제곱과 목표의 중심과 목표점 사이의 거리의 제곱입니다. 이러한 모든 제곱 거리를 평균하면 바이어스 제곱과 분산의 합으로 평균 제곱 오류가 발생합니다.


감사합니다; 이것은 대단히 감사합니다. RMSE와 MBD의 차이점을 이해하는 것이 여전히 약간의 어려움을 겪고 있습니다. 내가 알기로 RMSE는 모델이 실험 데이터에 얼마나 가까운 지 정량화하지만 MBD의 역할은 무엇입니까? 어쩌면 내 오해가 용어와 관련이있을 수 있습니다.
Nicholas Kinar

1
당신이 부르는 평균 바이어스 편차는 내가 설명한 바이어스 용어입니다. 조준점이 목표에서 얼마나 멀리 떨어져 있는지 측정합니다. 바이어스는 샷을 부정확하게 만드는 데 기여합니다.
Michael R. Chernick

다시 한번 감사드립니다, 마이클 RMSE가 높고 MBD가 낮 으면 좋은 모델이라는 것을 의미합니까?
Nicholas Kinar

높은 RMSE와 낮은 MBD는 단지 큰 편향이 아닌 큰 분산 때문에 모델이 좋지 않다고 말합니다. RMSE는 모델의 우수성을 결정하는 숫자입니다.
마이클 R. 체 르닉

1
@bbadyalina : 위 / 아래 및 왼쪽 / 오른쪽이 독립적 인 것과 같은 방식으로 독립적 인 정보 조각입니다. 당신의 질문은 "점이 수직으로 중앙에 있고 왼쪽으로 가면 중간에 있습니까?" 라고 묻는 것과 같습니다. 또는 "점이 높지만 가운데가 수평이면 가운데에 있습니까?"
naught101

1

RMSE는 예측 모델이 실제 데이터보다 얼마나 우수한지 측정하는 방법입니다. RMSE가 작을수록 모델 동작의 더 좋은 방법입니다. 즉, 훈련 세트가 아닌 새 데이터 세트에서 테스트했지만 다시 0에서 1 사이의 범위에서 0.37의 RMSE는 더 나은 모델로서 0.01의 RMSE를 갖는 것에 비해 많은 오류를 설명합니다. BIAS는 과대 평가 또는 과소 평가를위한 것입니다.


자세한 내용과 예제를 제공해 주시겠습니까? OP는 그의 추정 문제와 비교하여 100의 RMSE의 의미에 대한 직관적 인 설명을 찾고 있습니다.
Xi'an

이것은 많은 직관을 제공하지 않는 것 같습니다. 더 설명해 주시겠습니까?
Glen_b-복지 주 모니카

0

내가 알 수있는 한, RMSE는 모델과 관찰 사이의 오류에 대한 정확한 값을 제공하지만 BIAS는 오류 값 (RMSE보다 정확하지 않음)을 제공 할뿐만 아니라 모델이 모델이 관측 값을 과소 평가하거나 과대 평가하는 경우 양의 바이어스 또는 음의 바이어스.


아니요. RMSE를 모델의 "정밀도"로 생각할 수 있습니다. 예를 들어 예측 오류에 얼마나 많은 산포가 있는지 (참고 : 정밀도는 분산의 역수-높은 분산 = 낮은 정밀도) 그리고 바이어스를 모델의 체계적 오류 (예 : 모든 오류의 평균값)로 생각할 수 있습니다. "정확성"이라는 작품은이 둘의 모호한 조합이므로 많은 혼란을 야기합니다.
naught101
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.