에프 하고 단일 숫자를 사용하여 요약한다고 가정합니다.
통계 클래스에서 의 기대치를 사용하여에프 단일 숫자 요약으로 사용하면 예상되는 제곱 오차를 최소화 할 수 됩니다.
에프
이를 위해 Hanley et al.의 "중간 값을 최소 편차 위치로 시각화"를 권장 합니다. (2001, 미국 통계 학자 ) . 그들은 종이와 함께 작은 애플릿 을 설정했지만 불행히도 현대 브라우저에서는 더 이상 작동하지 않지만 논문의 논리를 따를 수 있습니다.
엘리베이터 뱅크 앞에 서 있다고 가정하십시오. 이들은 동일 간격으로 배치 될 수 있거나, 엘리베이터 도어들 사이의 일부 거리는 다른 것보다 클 수있다 (예를 들어, 일부 엘리베이터는 고장 일 수있다). 앞에있는 엘리베이터는 엘리베이터 중 하나가 될 때 최소 예상 산책을 가지고 서 있어야 하지 도착할 합니까? 이 예상 보행은 예상 절대 오차의 역할을합니다!
엘리베이터 A, B 및 C가 3 대 있다고 가정합니다.
- A 앞에서 기다리는 경우 A에서 B까지 (B가 도착하면) 또는 A에서 C로 (C가 도착하면) 걸어야 할 수 있습니다. B를 지나야합니다!
- B 앞에서 기다리는 경우 B에서 A (A가 도착한 경우) 또는 B에서 C (C가 도착한 경우)로 걸어야합니다.
- C 앞에서 기다리는 경우 C에서 A로 걸어 가야합니다 (A가 도착하면) -B를 통과 하거나 C에서 B로 가십시오 (B가 도착하면).
첫 번째 및 마지막 대기 위치에서 첫 번째 위치의 AB, 마지막 위치의 BC-거리가 여러 개 있어야합니다. . 도착하는 엘리베이터 경우 합니다. 따라서 가장 좋은 방법은 세 개의 엘리베이터가 어떻게 배열되어 있는지에 관계없이 중간 엘리베이터 앞에서는 것입니다.
Hanley 등의 그림 1은 다음과 같습니다.
이것은 세 개 이상의 엘리베이터로 쉽게 일반화됩니다. 또는 먼저 도착할 확률이 다른 엘리베이터에. 또는 실제로 무수히 많은 엘리베이터가 있습니다. 따라서이 논리를 모든 이산 분포에 적용한 다음 한계에 도달하여 연속 분포에 도달 할 수 있습니다.
예측으로 다시 돌아가려면 특정 미래 시간 버킷에 대한 포인트 예측의 기본이되는 (일반적으로 암시적인) 밀도 예측 또는 예측 분포가 있으며 단일 숫자 포인트 예측을 사용하여 요약합니다. 위의 주장은 왜 예측 밀도의 중앙값을 보여줍니다에프^예상되는 절대 오차 또는 MAE를 최소화하는 포인트 예측입니다. (더 정확하게 말하면, 엘리베이터 중앙값은 고유하게 정의되지 않을 수 있기 때문에 모든 중앙값이 할 수 있습니다-엘리베이터 예에서 이는 짝수 의 엘리베이터 를 갖는 것에 해당합니다 .)
물론 중앙값이 예상과 상당히 다를 수 있습니다. 에프^비대칭입니다. 한 가지 중요한 예는 소량 카운트 데이터 , 특히 간헐 시계열 입니다. 실제로, 매출이 0 % 일 가능성이 50 % 이상인 경우 (예 : 매출이 모수로 포아송 분포 된 경우)λ ≤ ln2그런 다음 평평한 0을 예측하여 예상되는 절대 오차를 최소화합니다. 이는 매우 간헐적 인 시계열 일지라도 직관적이지 않습니다. 나는 이것에 관한 작은 논문을 썼다 ( Kolassa, 2016, International Journal of Forecasting ).
따라서 위의 두 경우와 같이 예측 분포가 비대칭 적이라고 생각되면 편향 예상 예측을 얻으려면 rmse를 사용하십시오 . 분포를 대칭으로 가정 할 수있는 경우 (일반적으로 대량 시리즈의 경우) 중앙값과 평균이 일치하며, 매 를 사용하면 편견없는 예측으로 안내 할 수 있으며 MAE를 이해하기가 더 쉽습니다.
마찬가지로, 맵을 최소화하면 대칭 분포에서도 예측이 편향 될 수 있습니다. 이 초기 답변은 비대칭 적으로 분포 된 양의 (통상적으로 분포 된) 계열을 사용하여 시뮬레이션 된 예를 포함하며 MSE, MAE 또는 MAPE를 최소화할지 여부에 따라 세 가지 다른 포인트 예측을 사용하여 포인트 예측할 수 있습니다.