K- 폴드 교차 검증 (CV)은 임의로 데이터를 K 파티션으로 나눕니다. 차례로 K 부분 중 하나를 테스트 사례로 잡고 다른 K-1 부분을 학습 데이터로 묶습니다. Leave One Out (LOO)은 N 개의 데이터 항목을 가져 와서 N- 폴드 CV를 수행하는 특별한 경우입니다. 어떤 의미에서, 홀드 아웃은 K 폴드 중 하나만 테스트로 선택하고 모든 K 폴드를 회전하지 않는 특별한 경우입니다.
내가 아는 한, 10 배 CV는 데이터를 효율적으로 사용하고 불운 한 파티션 선택을 피하는 데 도움이되기 때문에 거의 데 리거입니다. 홀드 아웃은 데이터를 효율적으로 사용하지 않으며 LOO는 강력하지는 않지만 (또는 이와 비슷한) 10 배 정도만 맞습니다.
데이터에 둘 이상의 범주가 포함되어 있고 하나 이상의 범주가 나머지 범주보다 훨씬 작은 경우 K 랜덤 파티션의 일부가 작은 범주를 전혀 포함하지 않을 수 있으며, 이는 나쁘게됩니다. 각 파티션을 합리적으로 대표하려면 계층화를 사용하십시오. 데이터를 범주로 나누고 각 범주에서 무작위로 비례하여 선택하여 임의의 파티션을 만드십시오.
K- 폴드 CV의 이러한 모든 변형은 데이터를 대체하지 않고 선택합니다. 부트 스트랩은 대체 할 데이터를 선택하므로 동일한 데이텀이 여러 번 포함될 수 있으며 일부 데이터가 전혀 포함되지 않을 수 있습니다. (각 파티션마다 N / K 항목이있는 K-fold와 달리 각 "파티션"에는 N 개의 항목이 있습니다.)
(하지만 CV에서 부트 스트랩이 어떻게 사용되는지 정확히 모른다는 점을 인정해야합니다. 테스트와 CV의 원칙은 훈련 한 데이터를 테스트하지 않도록하는 것입니다. 실제 기술과 계수가 어떻게 작동하는지에 대한보다 현실적인 아이디어.)
편집 : "Hold Out is not efficiency"를 "Hold Out이 데이터를 효율적으로 사용하지 않습니다"로 대체하여 설명에 따라 설명을 명확하게합니다.