MAE를 최소화하면 평균이 아닌 중앙값을 예측하게되는 이유는 무엇입니까?


19

로부터 예측 : 원리와 연습 롭 J Hyndman 조지 Athanasopoulos에 의해 교과서 , 특히 정확도 측정 섹션 :

MAE를 최소화하는 예측 방법은 중앙값을 예측하고 RMSE를 최소화하면 평균을 예측합니다.

누군가 MAE를 최소화하면 평균이 아닌 중앙값을 예측하는 이유를 직관적으로 설명 할 수 있습니까? 그리고 이것이 실제로 무엇을 의미합니까?

고객에게 "평균 예측을보다 정확하게하거나 매우 부정확 한 예측을 피하기 위해 더 중요한 것은 무엇입니까?"라고 물었습니다. 그는 평균 예측을보다 정확하게하려면 우선 순위가 더 높다고 말했다. 따라서이 경우 MAE 또는 RMSE를 사용해야합니까? 이 인용을 읽기 전에 MAE가 그러한 조건에 더 좋을 것이라고 믿었습니다. 그리고 지금 나는 의심한다.

답변:


17

에프 하고 단일 숫자를 사용하여 요약한다고 가정합니다.

통계 클래스에서 의 기대치를 사용하여에프 단일 숫자 요약으로 사용하면 예상되는 제곱 오차를 최소화 할 수 됩니다.

에프

이를 위해 Hanley et al.의 "중간 값을 최소 편차 위치로 시각화"를 권장 합니다. (2001, 미국 통계 학자 ) . 그들은 종이와 함께 작은 애플릿 을 설정했지만 불행히도 현대 브라우저에서는 더 이상 작동하지 않지만 논문의 논리를 따를 수 있습니다.

엘리베이터 뱅크 앞에 서 있다고 가정하십시오. 이들은 동일 간격으로 배치 될 수 있거나, 엘리베이터 도어들 사이의 일부 거리는 다른 것보다 클 수있다 (예를 들어, 일부 엘리베이터는 고장 일 수있다). 앞에있는 엘리베이터는 엘리베이터 중 하나가 될 때 최소 예상 산책을 가지고 서 있어야 하지 도착할 합니까? 이 예상 보행은 예상 절대 오차의 역할을합니다!

엘리베이터 A, B 및 C가 3 대 있다고 가정합니다.

  • A 앞에서 기다리는 경우 A에서 B까지 (B가 도착하면) 또는 A에서 C로 (C가 도착하면) 걸어야 할 수 있습니다. B를 지나야합니다!
  • B 앞에서 기다리는 경우 B에서 A (A가 도착한 경우) 또는 B에서 C (C가 도착한 경우)로 걸어야합니다.
  • C 앞에서 기다리는 경우 C에서 A로 걸어 가야합니다 (A가 도착하면) -B를 통과 하거나 C에서 B로 가십시오 (B가 도착하면).

첫 번째 및 마지막 대기 위치에서 첫 번째 위치의 AB, 마지막 위치의 BC-거리가 여러 개 있어야합니다. . 도착하는 엘리베이터 경우 합니다. 따라서 가장 좋은 방법은 세 개의 엘리베이터가 어떻게 배열되어 있는지에 관계없이 중간 엘리베이터 앞에서는 것입니다.

Hanley 등의 그림 1은 다음과 같습니다.

Hanley et al., 그림 1

이것은 세 개 이상의 엘리베이터로 쉽게 일반화됩니다. 또는 먼저 도착할 확률이 다른 엘리베이터에. 또는 실제로 무수히 많은 엘리베이터가 있습니다. 따라서이 논리를 모든 이산 분포에 적용한 다음 한계에 도달하여 연속 분포에 도달 할 수 있습니다.

예측으로 다시 돌아가려면 특정 미래 시간 버킷에 대한 포인트 예측의 기본이되는 (일반적으로 암시적인) 밀도 예측 또는 예측 분포가 있으며 단일 숫자 포인트 예측을 사용하여 요약합니다. 위의 주장은 왜 예측 밀도의 중앙값을 보여줍니다에프^예상되는 절대 오차 또는 MAE를 최소화하는 포인트 예측입니다. (더 정확하게 말하면, 엘리베이터 중앙값은 고유하게 정의되지 않을 수 있기 때문에 모든 중앙값이 할 수 있습니다-엘리베이터 예에서 이는 짝수 의 엘리베이터 를 갖는 것에 해당합니다 .)

물론 중앙값이 예상과 상당히 다를 수 있습니다. 에프^비대칭입니다. 한 가지 중요한 예는 소량 , 특히 입니다. 실제로, 매출이 0 % 일 가능성이 50 % 이상인 경우 (예 : 매출이 모수로 포아송 분포 된 경우)λln2그런 다음 평평한 0을 예측하여 예상되는 절대 오차를 최소화합니다. 이는 매우 간헐적 인 시계열 일지라도 직관적이지 않습니다. 나는 이것에 관한 작은 논문을 썼다 ( Kolassa, 2016, International Journal of Forecasting ).

따라서 위의 두 경우와 같이 예측 분포가 비대칭 적이라고 생각되면 편향 예상 예측을 얻으려면 사용하십시오 . 분포를 대칭으로 가정 할 수있는 경우 (일반적으로 대량 시리즈의 경우) 중앙값과 평균이 일치하며, 를 사용하면 편견없는 예측으로 안내 할 수 있으며 MAE를 이해하기가 더 쉽습니다.

마찬가지로, 최소화하면 대칭 분포에서도 예측이 편향 될 수 있습니다. 이 초기 답변은 비대칭 적으로 분포 된 양의 (통상적으로 분포 된) 계열을 사용하여 시뮬레이션 된 예를 포함하며 MSE, MAE 또는 MAPE를 최소화할지 여부에 따라 세 가지 다른 포인트 예측을 사용하여 포인트 예측할 수 있습니다.


9

Stephan 답변은 절대 평균 오차를 최소화하는 것이 왜 중앙값을 제공하는지에 대한 직관적 인 설명을 제공합니다. 이제 어떤 MSE, MAE 또는 MAPE를 사용해야하는지에 대한 답을 구하십시오.

MAE는 강력 하여 특이 치에 덜 민감합니다. 백만 번 이상 오류가 발생하는 시리즈를 상상해보십시오. MSE에서는 예측을 백만 / N 번 끌어 당기고 (여기서 N은 포인트 수) MAE는 1 단위 만 끌어옵니다.

불행하게도, MAE는 독특하지 않으므로 정신 분열병 적 행동이 나타날 수 있습니다.

따라서 먼저 MSE를 만든 다음 MSE 매개 변수를 사용하여 MAE 회귀를 시작하는 것이 좋습니다.

어쨌든 두 예측을 비교하십시오. 매우 다른 경우 데이터에 냄새가 있습니다.

여기에 이미지 설명을 입력하십시오여기에 이미지 설명을 입력하십시오

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.