지난 주말에 R (1st edition)로 Faraway의 교과서 선형 모델을 읽었습니다 . Faraway에는 "통계 전략 및 모델 불확실성"이라는 장이있었습니다. 그는 매우 복잡한 모델을 사용하여 인위적으로 일부 데이터를 생성했다고 설명하고 (158 페이지), 학생들에게 데이터를 모델링하고 학생들의 예측 결과 와 읽은 결과를 비교하도록 요청했습니다 . 불행히도 대부분의 학생들은 테스트 데이터를 과도하게 맞추고 예측 된 값을 완전히 벗어났습니다. 이 현상을 설명하기 위해 그는 나에게 매우 인상적인 것을 썼습니다.
"모델이 너무 다른 이유는 학생들이 다양한 방법으로 여러 가지 방법을 적용했기 때문입니다. 일부는 변형하기 전에 변수 선택을 수행했고, 다른 것들은 반대를 반대했습니다. 일부는 모델을 변경 한 후에도 방법을 반복했지만 다른 것들은 그렇지 않았습니다. 것을 사용하는 학생들의 여러 가지와 분명히 뭔가 잘못 찾을 수 없습니다 그들이 한 일에 있습니다. 한 학생은 계산에 실수를 자신의 값을 예측하지만, 나머지 부분에서 분명히 아무 문제가 없었다. 이 과제에 대한 성능은 보여주지 않았다 시험과 관련이 있습니다. "
모델 예측 정확도가 최고의 모델 성능을 선택하는 데있어 '골든 기준'이라는 사실을 알게되었습니다. 내가 실수하지 않으면, 이것은 Kaggle 대회에서 사용되는 인기있는 방법이기도합니다. 그러나 여기서 Faraway는 모델 예측 성능 과 관련이없는 다른 특성을 관찰했습니다.통계의 능력과 관련된. 다시 말해, 예측력 측면에서 최상의 모델을 구축 할 수 있는지 여부는 실제 경험에 따라 결정되지 않습니다. 대신 그것은 거대한 '모델 불확실성'에 의해 결정됩니다 (맹검? 내 질문은 : 실제 데이터 분석에서도 마찬가지입니까? 아니면 매우 기본적인 것과 혼동 되었습니까? 이것이 사실이라면 실제 데이터 분석에 대한 의미는 엄청납니다. 데이터 뒤에 "실제 모델"을 모르면 경험이 많거나 경험이 부족한 통계학자가 수행 한 작업간에 본질적인 차이가 없습니다. 유효한 훈련 자료.