통계적 유의성을 사용하여 서로 다른 두 모델의 정확도를 비교하는 방법


10

시계열 예측 작업을하고 있습니다. 두 개의 데이터 세트 및 있습니다. 세 가지 예측 모델이 있습니다. 이러한 모델은 모두 데이터 세트 의 샘플을 사용하여 학습되며 성능은 데이터 세트 의 샘플을 사용하여 측정됩니다 . 성능 지표가 MSE (또는 다른 것)라고 가정 해 봅시다. 데이터 세트 대해 측정 할 때 해당 모델의 MSE 는 및 입니다. 한 모델의 개선이 다른 모델보다 개선되었음을 테스트하려면 어떻게해야합니까?D1={x1,x2,....xn}D2={xn+1,xn+2,xn+3,....,xn+k}M1,M2,M3D1D2D2MSE1,MSE2,MSE3

예를 들어 , , 및 MSE가 계산되는 데이터 세트 의 총 샘플 수는 2000이라고 , 및 이 크게 다른지 어떻게 테스트 할 수 . 누군가이 문제에 나를 도울 수 있다면 크게 감사하겠습니다.MSE1=200MSE2=205MSE3=210D2MSE1MSE2MSE3

답변:


1

위의 링크 된 게시물 중 하나는 가능성 비율 테스트를 사용하는 것으로 추정되지만 모델이 작동하려면 모델이 서로 중첩되어 있어야합니다 (예 : 모델 중 하나의 모든 매개 변수는 테스트하려는 모델에 있어야 함) .

RMSE는 모델이 데이터를 얼마나 잘 적합시키는지를 나타내는 척도입니다. 그러나 가능성 비율도 마찬가지입니다. 첸 부인은 특정 인물에 대한 가능성은 모든 매개 변수를 가진 사람이 자신이 가진 결과를 가질 확률이라고 말합니다. 데이터 집합의 공동 가능성은 Chen 부인의 가능성 * Gundersen 부인의 가능성 * Johnson 부인의 가능성 * ... 등입니다.

공변량 또는 임의의 수의 공변량을 추가해도 실제로 우도 비율을 악화시킬 수는 없다고 생각합니다. 그러나 중요하지 않은 양만큼 가능성 비율을 향상시킬 수 있습니다. 더 잘 맞는 모델은 가능성이 높습니다. 모델 A가 모델 B에 더 잘 맞는지 공식적으로 테스트 할 수 있습니다. 어떤 소프트웨어를 사용하든 어떤 종류의 LR 테스트 기능을 사용할 수 있지만 기본적으로 LR 테스트 통계는 -2 * 우도의 로그 차이이며 df = 숫자의 차이와 함께 카이-제곱 분포됩니다. 매개 변수

또한 두 모델의 AIC 또는 BIC를 비교하고 가장 낮은 모델을 찾는 것도 허용됩니다. AIC 및 BIC는 기본적으로 여러 매개 변수에 대해 벌칙이 적용되는 로그 가능성입니다.

RMSE에 t- 검정을 사용할지 잘 모르겠으며, 해당 영역에서 수행 된 이론적 인 작업을 찾을 수 없다면 실제로 그것에 대해 기대어 말 것입니다. 기본적으로 RMSE의 값이 어떻게 비정형 적으로 분포되어 있는지 알고 있습니까? 잘 모르겠습니다. 여기에 몇 가지 추가 토론이 있습니다.

http://www.stata.com/statalist/archive/2012-11/index.html#01017


0

이 답변은 사실을 고려하지 않습니다. 데이터는 시계열을 형성하지만 이것이 문제가 될 것이라고 생각하지 않습니다.

RMSE를 사용할 때이 게시물은 t- 검정 사용을 제안합니다. 모델의 RMSE의 유의성 테스트

Pearson의 상관 관계를 사용하여 적합도를 평가할 수도 있습니다. 이 게시물에 따르면 Wolfe의 t-Test를 사용하여 다음을 수행 할 수 있습니다. 상관 관계 증가의 통계적 유의성

나는 현재 같은 문제에 대해 배우려고합니다. 좀 더 자세한 답변을 부탁드립니다.


0

이 작업을 수행하는 두 가지 주요 방법이 있지만 먼저 하나만 선택하려는 아이디어에 이의를 제기합니다. 아마도 세 가지 개별 모델의 앙상블 모델이 모두 최고의 성능을 달성 할 것입니다.

가장 좋은 방법은 모델을 사용하여 평가 지표 주위의 신뢰 구간을 얻는 것입니다. 이것은 일반적으로 부트 스트랩 ( 또는 Poisson 부트 스트랩 )을 통해 수행됩니다 .

다른 방법은 통계 테스트를 사용하는 것입니다. 모든 검정은 서로 다른 가정을하며 단일 점 평가가 아닌 분포에서 얻은 값 또는 표본을 비교하는 데 종종 사용됩니다. 이러한 통계적 테스트 중 다수는 공식적으로 독립성을 요구하며, 시계열 데이터에 대해 동일한 모델 또는 여러 모델의 여러 결과를 비교할 때 일반적으로 필요하지 않습니다.

특히 시계열 예측을 사용하면 교차 유효성 검사를 통해 백 테스팅을 수행하고 매번 열차 및 테스트 오류를 ​​평가해야합니다 ( ). 이 작업을 수행 할 때 모델이 모두 비슷한 성능을 발휘하여 미분 할 통계 테스트가 필요한지 의심됩니다. 대부분 큰 차이가있을 것입니다.

또한 과거 평가 메트릭 (실제와 예측을 비교)만으로는 예측 평가에 충분하지 않습니다. 알려진 과거 데이터에 완벽하게 맞지만 미래에 대한 이전의 믿음과 일치하고 다른 하나는 명확하게 위반되는 두 가지 예측 (예 : 하나가 사라지지만 일어날 수 없다고 믿을만한 이유가있는 경우) 그것은 당신의 이전과 더 잘 어울립니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.