중첩 교차 검증-훈련 세트에서 kfold CV를 통한 모델 선택과 어떻게 다릅니 까?


10

나는 종종 사람들이 5x2 교차 유효성 검사에 대해 중첩 된 교차 유효성 검사 의 특별한 경우를 봅니다.

첫 번째 숫자 (여기서는 5)는 내부 루프의 접기 수를 나타내고 두 번째 숫자 (여기서는 2)는 외부 루프의 접기 수를 나타냅니다? 그렇다면 이것이 "전통적인"모델 선택 및 평가 방식과 어떻게 다릅니 까? "전통적인"이라는 말은

  • 데이터 세트를 별도의 교육 (예 : 80 %) 및 테스트 세트로 분할
  • 트레이닝 세트에서 하이퍼 파라미터 튜닝 및 모델 선택을 위해 k- 폴드 교차 검증 (예 : k = 10)을 사용하십시오.
  • 테스트 세트를 사용하여 선택한 모델의 일반화 성능 평가

k = 2 인 경우 테스트 및 트레이닝 세트의 크기가 동일하다는 점을 제외하고 5x2가 정확히 동일하지 않습니까?


1
이 경우에는 80/20이 아닌 외부 루프에서 50/50 분할을 사용한다는 점을 제외하면 동일합니다. 일반적으로 일반화 성능에 대한 더 나은 추정치를 제공하며 특히 비교적 작은 표본 크기에서 선호되어야합니다. 내 경험에 따르면 중첩 CV조차도 성능 평가는 많이 다릅니다. 일반화 성능을 제대로 평가하려면 중첩 된 CV를 여러 번 수행하는 것이 좋습니다.
조지

감사합니다. 그러나 작은 훈련 세트의 경우 내부 및 외부 루프의 접기 수를 늘릴 것입니다. 차이를 줄일 수 있지만 바이어스도 증가시킬 수 있습니다

일반적으로 5x2 중첩 CV를 수행하는 대신 일반적으로 k = 5 또는 10으로 (k-1) xk를 수행합니다. 샘플 수가 적은 경우에는 폴드 수를 늘리는 대신 작은 k 값으로 이동합니다. .
조지

1
나는 당신이 그것을 완전히 잘못하기보다는 거꾸로 가지고 있다고 생각하지만, 받아 들인 대답은 내가 언급하려는 출처와 일치하지 않을 수 있습니다. Raschka의 Python Machine Learning에서 "특정 유형의 중첩 교차 유효성 검사는 5x2 교차 유효성 검사라고도합니다." 2는 하이퍼 파라미터 튜닝을위한 내부 루프를, 5는 바이어스되지 않은 모델 성능 추정을위한 외부 루프를 나타냅니다. 그래픽 3의 컬러 사본은 시나리오 3에서 찾을 수 있습니다. sebastianraschka.com/faq/docs/evaluate-a-model.html
Austin

답변:


13

5x2cv는 문헌에서 보았을 때 항상 2 배의 5 회 반복을 나타냅니다. 중첩이 전혀 없습니다. 2 번 (열차와 시험 사이에 50/50 분할), 4 번 더 반복하십시오. 5x2cv는 Dietterich의 감독 된 분류 학습 알고리즘 을 일반화 오류의 추정치뿐만 아니라 해당 오류 의 분산 의 추정치 (통계 테스트를 수행하기 위한)를 얻는 방법으로 비교하기위한 대략적인 통계 테스트 논문으로 대중화되었습니다. )


감사! 내부 루프가 다른 모델을 선택하는 경우 사람들이 일반적으로하는 일을 알고 있습니까? 이 경우 평균 모델 성능을 계산하는 것은 약간 이상합니다. 모델이 "불안정한"것으로 폐기 하시겠습니까?

3
내부 루프는 하이퍼 파라미터를 다르게 선택할 가능성이 높습니다. 하이퍼 파라미터를 선택하기 위해 중첩 교차 검증을 사용하지 않고 일반화 오류에 대한 적절한 추정치 만 얻을 수 있습니다 (최고의 하이퍼 파라미터가 있음). 중첩 된 cv는 하나 또는 다른 알고리즘을 결정하는 데 사용됩니다. 참조 stats.stackexchange.com/questions/136296/... 또는 stats.stackexchange.com/questions/65128/... (다른 사람의 사이에서)
자크 Wainer

오, 알 겠어요. 그러면 그게 말이됩니다! 사람들이 다르게 사용한다고 생각했습니다. 그때 질문을 닫을 수있을 것 같아요.

2

외부 루프에서 2 번 반복하면 전체 열차 세트에서 5 배 CV를 2 번 반복합니다. 폴드로 나눌 때마다 다를 수 있습니다.

이는 주로 한 모델이 다른 모델보다 통계적으로 유의미한 성능을 보이는지에 대한 통계 테스트를 실행하는 것과 같이 모델 성능을 더 잘 평가하는 데 사용됩니다.

데이터 세트가 크고 특이 치가없는 경우 중첩 CV는 중요하지 않습니다. 데이터에 특이 치가있는 경우 이러한 특이 치의 접힘 / 접힘에 따라 교차 유효성 검사 성능이 크게 다를 수 있습니다. 따라서 CV를 여러 번 반복합니다.


좋은 지적. 전통적인 접근 방식 (훈련 세트에서 테스트 / 트레인 분할 및 k- 폴드 CV)에서는 모델을 평가하기 위해 1 배만있는 반면 5x2 CV에서는 평균 2 배로 평균 성능을 계산할 수 있습니다.
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.