오류 측정을 해석하는 방법?


41

특정 데이터 세트에 대해 Weka에서 분류를 실행 중이며 공칭 ​​값을 예측하려고하면 출력에 정확하고 잘못 예측 된 값이 구체적으로 표시됩니다. 그러나 이제 숫자 속성으로 실행하고 출력은 다음과 같습니다.

Correlation coefficient                 0.3305
Mean absolute error                     11.6268
Root mean squared error                 46.8547
Relative absolute error                 89.2645 %
Root relative squared error             94.3886 %
Total Number of Instances               36441 

이것을 어떻게 해석합니까? 나는 각 개념을 인터넷 검색을 시도했지만 통계가 내 전문 분야에 전혀 없기 때문에 많이 이해하지 못합니다. 통계 측면에서 ELI5 유형의 답변에 크게 감사드립니다.

답변:


52

의이 같은 관심의 진정한 가치를 나타내는하자 와 같은 일부 알고리즘을 사용하여 추정 된 값 θ를 .θθ^

상관 관계는 많은 방법 알려 θ가 관련이 있습니다. 그 사이 값 범 - 11 , 0는 전혀 관련이 없다를, 1은 매우 강한 선형 관계이고, - 1 관계 선형 역수 (IE는 더 큰 값 θ는 작은 값을 나타낸다 θ 마찬가지 또는 그 참조). 아래에는 그림의 상관 관계가 나와 있습니다.θθ^11011θθ^

상관 예

(출처 : http://www.mathsisfun.com/data/correlation.html )

평균 절대 오차는 다음과 같습니다.

MAE=1Ni=1N|θ^iθi|

루트 평균 제곱 오차가 있습니다 :

RMSE=1Ni=1N(θ^iθi)2

상대 절대 오차 :

RAE=i=1N|θ^iθi|i=1N|θ¯θi|

θ¯θ

루트 상대 제곱 오류 :

RRSE=i=1N(θ^iθi)2i=1N(θ¯θi)2

θ

MAERMSEMSEθθ^θ

RAERRSEθ(θ¯θi)2|θ¯θi|θθθ

슬라이드 도 확인하십시오 .


설명해 주셔서 감사합니다! 다양한 알고리즘의 성능을 평가하려고합니다. 예를 들어,이 다른 결과 (상관 관계 : 0.3044, MAE : 10.832, MSE : 47.2971, RAE : 83.163 %, RSE : 95.2797 %)를 얻고 첫 번째 출력과 비교하려고하면 수행 할 수 있습니다. 보다 나은?
FloIancu

5
더 큰 상관 관계와 더 작은 오차 추정값을 가진 모델을 선택해야합니다. 보시다시피, 모델 성능에 대한 여러 측정 값이 있으며 몇 가지 측정 값이 있으며 때로는 다른 답변을 제공합니다. 그것은 당신이 얻는 "예 / 아니오"종류의 대답이 거의 아닙니다. 이론을 따라 잡으면 모델 선택 작업이 쉬워지고 강의 등을 확인할 수 있습니다 .

대단히 감사합니다! 당신이 나에게 많은 도움을 주었기 때문에 나는 당신의 답장을 답변으로 표시했습니다!
FloIancu

1
@Tim 평균 절대 오차는 아마도 MAE로 줄여야합니다 :)
Antoine

1
@MewX 어떤 종류의 참조를 찾고 있습니까? 기본적으로 재조정 된 RMSE입니다. 그것에 대해 할 말이 많지 않습니다 ...
Tim
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.