k- 폴드 CV를 사용하여 회귀 모델 중에서 선택하는 경우 일반적으로 표준 오류 SE와 함께 각 모델에 대해 개별적으로 CV 오류를 계산하고 CV 오류가 가장 낮은 모델의 1 SE 내에서 가장 간단한 모델을 선택합니다 (1 표준 오류 규칙 (예 : 여기 참조 ). 그러나 최근 에이 방법으로 변동성을 과대 평가하고 있으며 두 모델 A와 B 중 하나를 선택하는 특정 경우에는 다른 방식으로 진행해야한다고 들었습니다.
- 길이 의 각 폴드 에 대해 두 모델 예측 간의 점별 차이를 계산 한 다음 폴드
- 평소와 같이 평균 를 접고,이 CV 차이 오차 (표준 오차와 함께)를 일반화 오차 추정기로 사용합니다.
질문 :
- 이것이 당신에게 의미가 있습니까? CV 오류를 일반화 오류의 추정 자로 사용하는 데는 이론적 인 이유가 있습니다 (이러한 이유는 모르지만 그 이유는 알고 있습니다!). 이 "차이"CV 오류를 사용하는 데 이론적 인 이유가 있는지 전혀 모르겠습니다.
- 이것이 둘 이상의 모델 비교로 일반화 될 수 있는지 모르겠습니다. 모든 모델 쌍에 대한 차이를 계산하는 것은 위험 해 보입니다 (복수 비교?) : 둘 이상의 모델이있는 경우 어떻게 하시겠습니까?
편집 : 내 수식이 완전히 잘못되었고 올바른 메트릭이 여기 에 설명 되어 있으며 훨씬 더 복잡합니다. 글쎄, 나는 맹목적으로 공식을 적용하기 전에 여기에 물었습니다. @Bay의 답변으로 이해해 주셔서 감사합니다. 설명 된 올바른 측정법은 매우 실험적이므로 신뢰할 수있는 일꾼 인 CV 오류를 고수하겠습니다.