(이 질문은 Philosophy SE에 더 적합한 것처럼 보일 수 있습니다. 통계학자가 Box 및 Shmueli의 진술에 대한 나의 오해를 분명히 할 수 있기를 바랍니다.
ARIMA 명성의 George Box는 다음과 같이 말했습니다.
"모든 모델이 잘못되었지만 일부는 유용합니다."
Galit Shmueli는 유명한 논문 인 "설명하거나 예측하기 위해"에서 다음 과 같이 주장한다.
설명과 예측은 동일하지 않으며 일부 모델은 예측이 좋지 않은 경우에도 설명을 잘 수행합니다.
나는 이것들이 원칙에 어긋난다 고 생각한다.
모형이 잘 예측되지 않으면 유용합니까?
더 중요한 것은, 모델이 잘 설명하고 있지만 반드시 잘 예측하지 못하는 경우 어떤 식 으로든 사실이어야합니다 (즉, 잘못되지 않아야 함). 그러면 Box의 "모든 모델이 잘못되었습니다"라는 메시는 어떻습니까?
마지막으로, 모델이 잘 설명하지만 잘 예측하지 못하면 어떻게 과학적일까요? 대부분의 과학적 경계 기준 (검증주의, 허위주의 등)은 과학적 진술이 예측력 또는 구어체를 가져야 함을 암시합니다. 이론 또는 모델은 경험적으로 테스트 (또는 위조) 될 수있는 경우에만 정확합니다. 미래의 결과를 예측해야합니다.
내 질문 :
- Box의 진술과 Shmueli의 아이디어는 실제로 모순되거나, 또는 모델이 아직 예측력을 갖지 않아도 여전히 유용 할 수있는 것을 놓치고 있습니까?
- Box와 Shmueli의 진술이 모순 되지 않으면 모델이 잘못되어 잘 예측되지 않고 설명력이 있다는 것은 무엇을 의미합니까? 다르게 말하자면 : 정확성과 예측 능력을 모두 빼앗아 가면 모델의 남은 것은 무엇입니까?
모형에 설명력이 있지만 예측력이없는 경우 어떤 경험적 검증이 가능합니까? Shmueli는 설명을 위해 AIC를 사용하고 예측을 위해 BIC를 사용하는 등의 것을 언급하지만 문제가 어떻게 해결되는지는 알 수 없습니다. 예측 모델을 사용하면 AIC, BIC, 또는 정규화 등을 사용할 수 있지만 궁극적으로 샘플 테스트 및 생산 성능에서 모델의 품질이 결정됩니다. 그러나 잘 설명하는 모델의 경우 손실 함수가 어떻게 모델을 실제로 평가할 수 있는지 알 수 없습니다. 과학 철학에는 과소 결정 의 개념이 있습니다.L L p < 0.05 p < 0.1 p < 0.01주어진 데이터 세트 에 대해 데이터에 맞는 방식으로 항상 일부 분포 (또는 분포의 혼합)와 손실 함수 을 신중하게 선택할 수 있습니다 (따라서 설명 할 수 있음). 또한, 임계치가 모델이 적절하게 데이터를 임의로 설명 주장 누군가 미만이어야 (종류, P 값 등, 이유는 아닌 또는 ?).
- 위의 내용을 바탕으로 샘플 테스트가 불가능하기 때문에 잘 설명하지만 잘 예측하지 못하는 모델을 어떻게 객관적으로 검증 할 수 있습니까?