답변:
당신이 말한 것처럼 흑백 답변은 없습니다. 나는 일반적으로 데이터를 두 부분으로 나누지 않지만 대신 k- 폴드 크로스 검증과 같은 방법을 사용합니다.
k- 폴드 교차 검증에서는 데이터를 무작위로 k 부분으로 나누고 모델을 k-1 부분에 맞추고 왼쪽 부분의 오류를 테스트합니다. 각 부품을 하나씩 빼는 과정을 k 번 반복합니다. 모형 오류의 표시로 각 반복에서 평균 오류를 취할 수 있습니다. 다른 모델의 예측력을 비교하려는 경우 실제로 효과적입니다.
k- 폴드 교차 검증의 한 가지 극단적 인 형태는 테스트를 위해 하나의 데이터 포인트 만 남기고 나머지 모든 포인트에 모델을 맞추는 일반화 된 교차 검증입니다. 그런 다음 각 데이터 포인트를 하나씩 제외하고 프로세스를 n 번 반복하십시오. 나는 일반적으로 일반 교차 검증보다 k- 폴드 교차 검증을 선호합니다 ... 개인적인 선택
실제로는 데이터의 양, 특정 방법의 비용 및 결과를 정확히 원하는 방법에 따라 다릅니다.
몇 가지 예 :
데이터가 거의없는 경우 교차 검증 (k-fold, leave-one-out 등)을 사용하려고 할 수 있습니다. 모델은 어쨌든 훈련하고 테스트하는 데 많은 리소스를 소비하지 않을 것입니다. 데이터를 최대한 활용하는 좋은 방법입니다
많은 양의 데이터가 있습니다. 아마도 상당히 큰 테스트 세트를 원할 수도 있습니다. 일부 이상한 샘플이 결과에 많은 변화를 줄 가능성은 거의 없습니다. 얼마나 많은 데이터를 가져와야합니까? 그것은 당신의 데이터와 모델에 전적으로 달려 있습니다. 예를 들어 음성 인식에서 너무 많은 데이터 (3000 문장이라고 가정)를 사용하는 경우 실시간 요인 7-10이 일반적이므로 실험에 며칠이 걸립니다. 너무 적게 걸리면 선택한 스피커 (훈련 세트에서 허용되지 않음)에 너무 의존합니다.
또한 많은 경우에 검증 / 개발도 설정하는 것이 좋습니다!
1:10 테스트 : 열차 비율은 둥글게 보이기 때문에 인기가 있고, 1 : 9는 10 배 CV로 인해 인기가 있으며, 1 : 2는 둥글고 부트 스트랩을 다시 조립하기 때문에 인기가 있습니다. 때로는 몇 년 전과 같이 몇 년 전과 같이 일부 데이터 별 기준에서 테스트를받습니다.
일반적인 규칙은 다음과 같습니다. 열차가 충분히 커야 정확도가 크게 떨어지지 않아야하며 테스트는 임의의 변동을 막을 수있을 정도로 커야합니다.
여전히 CV를 선호하는데, 이는 또한 오류 분포를 제공하기 때문입니다.
k- 폴드 답변의 확장으로서 k의 "일반적인"선택은 5 또는 10입니다. leave-one-out 방법은 너무 보수적 인 모델을 생성하는 경향이 있습니다. 참고로, 다음은 그 사실에 대한 참조입니다.
Shao, J. (1993), Cross-Validation에 의한 선형 모델 선택, 미국 통계 협회 저널, Vol. 88, No. 422, 486-494 쪽