교차 검증이 과적 합을 방지하기에 충분합니까?


17

데이터가 있고 교차 유효성 검사 (5 배라고 함)를 사용하여 분류 (이 데이터에서 임의의 포리스트라고 가정)를 실행하면 내 방법에 적합하지 않다고 결론 내릴 수 있습니까?

답변:


20

전혀. 그러나 교차 검증은 분석법이 어느 정도 적합하는지 평가하는 데 도움이됩니다.

예를 들어, 회귀의 R- 제곱 훈련 데이터가 0.50이고 교차 검증 된 R- 제곱이 0.48 인 경우 과적 합이 거의없고 기분이 좋습니다. 반면에 교차 검증 된 R- 제곱이 0.3에 불과한 경우 모델 관계의 상당 부분이 과적 합으로 인해 발생하며 실제 관계가 아닙니다. 이 경우 성능 저하를 수용하거나 과적 합을 줄이면서 다른 모델링 전략을 시도 할 수 있습니다.


8
나는이 대답이 정신적으로 정확하다고 생각하지만, 두 번째 단락에서 과잉 적합이라는 특성에 동의하지 않습니다. 기차 오류-테스트 오류> 일부 한계가있을 때 오버 피팅이 발생한다고 생각하지 않습니다. 대신 모델의 복잡성이 약간 증가 하면 홀드 아웃 오류가 증가 하는 상황으로 피팅을 초과 특성화 합니다. 기차와 테스트 오류를 ​​비교할 필요가있는 경우 종종 적합 하지 않은 모델이됩니다.
Matthew Drury

7

교차 검증은 과적 합을 최소화하는 우수하지만 완벽하지는 않은 기술입니다.

보유한 데이터가 예측하려는 데이터를 대표하지 않는 경우 외부 데이터에 대해 교차 검증이 제대로 수행되지 않습니다!

교차 유효성 검사에 결함이있는 두 가지 구체적인 상황은 다음과 같습니다.

  • 과거를 사용하여 미래를 예측하는 경우 : 과거 관측치가 미래 관측치와 동일한 분포를 가진 동일한 모집단에서 나올 것이라고 가정하는 것이 종종 큰 가정입니다. 과거에서 가져온 데이터 세트에 대한 교차 검증은이를 방지하지 못합니다.
  • 수집 한 데이터에는 편차가 있습니다. 관찰 한 데이터는 관찰하지 않은 데이터와 체계적으로 다릅니다. 예를 들어 설문 조사를 선택한 사람들의 응답 편견에 대해 알고 있습니다.

3
데이터 집합이 실제 모집단을 제대로 나타내지 않는 것은 일반적으로 별도의 과도한 문제로 간주됩니다. 물론, 교차 검증이이를 해결하지 않는 것이 맞습니다.
Cliff AB

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.