교차 검증 작업 방법을 올바르게 설명했습니다. 실제로 교차 검증은 모델을 최적화하는 데 사용되지만 "실제"검증은 수행되지 않기 때문에 결국 합리적인 검증 세트를 갖는 것이 '행운'입니다.
@Simon Stelling이 그의 의견에서 말한 것처럼 교차 검증은 추정 오차를 낮추게 될 것입니다 (데이터를 지속적으로 재사용하기 때문에 의미가 있습니다). 그러나 다행스럽게도 모든 모델에 해당하므로 재앙을 피할 수 있습니다 (예 : 오차는 단지 줄어 듭니다) 교차 검증 된 기준에서 가장 잘 수행되는 모델을 선택하면 일반적으로 "실제"에 가장 적합합니다.
특히 parsimoneous 모델을 찾는 경우 더 낮은 오차를 약간 수정하는 데 사용되는 방법은 교차 검증 된 오류가 (교차 검증 된) 최적에서 하나의 SD 내에있는 가장 작은 모델 / 간단한 방법을 선택하는 것입니다. 교차 검증 자체는 휴리스틱이므로주의해서 사용해야합니다 (옵션 인 경우 튜닝 매개 변수에 대해 오류를 표시하십시오 : 허용 가능한 결과가 있는지 여부를 알 수 있습니다).
오류의 하향 편향이 주어지면 교차 유효성 검사에서 나온 오류를 언급하지 않고 교차 유효성 검사에서 오류 또는 기타 성능 측정을 게시 하지 않는 것이 중요합니다 (진실이 있지만 : 성능 측정은 원본 데이터 집합의 성능을 확인하여 얻은 것이므로 교차 검증을 언급하면 실제로 더 많은 가치를 얻을 수 있습니다 . 유효성 검사 세트가 있으므로 문제가되지 않습니다.
마지막 경고 : 모델 피팅으로 인해 일부 경쟁 업체가 발생하는 경우 나중에 유효성 검사 세트에서 성능을 살펴 보는 것이 좋지만 최종 모델 선택을 기반으로 하지 마십시오 . 양심이지만 검증 세트를보기 전에 "최종"모델을 선택해야합니다.
두 번째 질문 : Simon은 자신의 의견에 필요한 모든 답변을 주었지만 그림을 완성하기를 원한다고 생각합니다. 종종 바이어스 편차 트레이드 오프가 발생합니다. 평균적으로 정확한 결과 (편견 없음)에 도달 할 경우, 가격은 일반적으로 각 개별 계산에서 각 계산과 상당히 거리가 멀다는 것입니다 (높은 분산). 예전에는 편견이 nec plus ultra였으며, 요즘에는 때때로 (작은) 편견을 받아 들였습니다 (따라서 계산의 평균이 올바른 결과를 초래할 것이라는 것을 모릅니다) 분산이 낮아집니다. 경험에 따르면 10 배 교차 검증으로 잔액이 허용되는 것으로 나타났습니다. 편견은 모델 최적화에만 문제가됩니다. 유효성 검사 세트에서 이후에 (편견없이) 기준을 추정 할 수 있기 때문입니다. 따라서 교차 유효성 검사를 사용하지 않는 이유는 거의 없습니다.