중첩 된 교차 유효성 검사를 수행하고 있습니다. 일대일 교차 검증이 바이어스 될 수 있음을 읽었습니다 (이유를 기억하지 마십시오).
leave-one-out 교차 검증을 위해 더 긴 런타임과 별도로 10 배 교차 검증 또는 leave-one-out 교차 검증을 사용하는 것이 더 낫습니까?
중첩 된 교차 유효성 검사를 수행하고 있습니다. 일대일 교차 검증이 바이어스 될 수 있음을 읽었습니다 (이유를 기억하지 마십시오).
leave-one-out 교차 검증을 위해 더 긴 런타임과 별도로 10 배 교차 검증 또는 leave-one-out 교차 검증을 사용하는 것이 더 낫습니까?
답변:
@SubravetiSuraj의 답변에 약간만 추가하면됩니다 (+1)
교차 검증은 훈련 세트가 더 커지면 대부분의 통계 모델이 향상되기 때문에 비관적으로 편향된 성능 추정치를 제공합니다. 이는 k- 폴드 교차 검증이 100 %가 아니라 사용 가능한 데이터의 100 * (k-1) / k %에 대해 훈련 된 모델의 성능을 추정 함을 의미합니다. 따라서 교차 검증을 수행하여 성능을 추정 한 다음 운영 용도로 모든 데이터에 대해 훈련 된 모델을 사용하면 교차 검증 추정치보다 약간 더 성능이 우수합니다.
각 접이식에 사용 된 학습 세트와 전체 데이터 세트 간의 크기 차이는 단일 패턴이기 때문에 일대일 교차 검증은 거의 편향되지 않습니다. Luntz와 Brailovsky (러시아어)의 논문이 있습니다.
Luntz, Aleksandr 및 Viktor Brailovsky. "인식의 통계 절차에서 얻은 문자의 추정에." Technicheskaya Kibernetica 3.6 (1969) : 6-12.
참조
판별 분석에서의 오류율 추정 Peter A. Lachenbruch 및 M. Ray Mickey Technometrics Vol. 10, Iss. 1,1968
그러나 일대일 교차 검증은 거의 편향되지 않지만 분산이 높은 경향이 있습니다 (따라서 동일한 분포에서 다른 초기 데이터 샘플로 추정을 반복하면 추정치가 매우 다릅니다). 추정기의 오차는 편향과 분산의 조합이므로, 일대일 교차 검증이 10 배 교차 검증보다 나은지 여부는 두 수량에 따라 다릅니다.
이제 모델이 작은 데이터 세트에 적합하면 모형 적합에 대한 분산이 높아지는 경향이 있습니다 (사용 된 특정 훈련 샘플에서 잡음 / 샘플링 인공물에 더 민감하기 때문에). 즉, 훈련 세트의 크기가 LOOCV보다 작기 때문에 제한된 양의 데이터 만있는 경우 10 배 교차 검증은 편차가 높을 수 있습니다 (더 높은 편차뿐만 아니라). 따라서 k- 폴드 교차 검증은 분산 문제를 가질 수 있지만 다른 이유가 있습니다. 이것이 데이터 세트의 크기가 작을 때 LOOCV가 더 나은 이유입니다.
그러나 LOOCV를 사용하는 주된 이유는 선형 회귀, 대부분의 커널 방법, 가장 가까운 이웃 분류기 등 일부 모델의 경우 계산 비용이 저렴하고 데이터 세트가 매우 작지 않으면 사용하지 않기 때문 입니다. 계산 예산에 맞거나 부트 스트랩 추정 및 배깅에 더 적합한 경우 10 배 교차 검증.
내 의견으로는, 작은 훈련 데이터 세트가있을 때 교차 유효성 검사가 더 좋습니다. 이 경우 나머지 데이터를 사용하여 모델을 학습하는 데 실제로 10 배를 만들 수는 없습니다.
반면에 많은 양의 훈련 데이터가있는 경우 교차 검증을 생략하기위한 반복이 너무 많고 하이퍼 파라미터를 튜닝하기 위해 이러한 많은 결과를 고려하기 때문에 10 배 교차 검증이 더 나은 방법입니다. 그런 좋은 생각이 아닙니다.
ISL에 따르면, 일회성 제거와 k 배 교차 검증 사이에는 항상 바이어스-분산 트레이드 오프가 존재합니다. LOOCV (One CV 제외)에서는 각 트레이닝 세트에 n-1 개의 예제가 포함되어 있으므로 각 바이어스마다 거의 전체 트레이닝 세트를 사용하고 있기 때문에 바이어스가 적고 분산이 높은 테스트 오류 추정값을 얻습니다. 이것은 훈련 세트들 사이에 많은 중첩이 존재하기 때문에 분산도 더 높아지고, 따라서 시험 오차 추정치들은 서로 밀접하게 관련되어 있고, 이는 시험 오차 추정치의 평균값이 분산이 더 클 것이라는 것을 의미한다.
k- 폴드 CV의 경우 정반대입니다. 훈련 세트간에 겹치는 부분이 상대적으로 적기 때문에 테스트 오류 추정값의 상관 관계가 낮아서 평균 테스트 오류 값이 LOOCV만큼 큰 차이를 갖지 않습니다.