답변:
영향을 미치는 요소는 모델 이 얼마나 안정적 인지 또는 더 정확하게는 대리자의 예측입니다.
모델이 완전히 안정적인 경우 모든 대리 모델은 동일한 테스트 사례에 대해 동일한 예측을 생성합니다. 이 경우 반복 / 반복이 필요하지 않으며 개선되지 않습니다.
예측의 안정성을 측정 할 수있는 방법은 다음과 같습니다.
그런 다음 결과를 세분화 할 추가 반복 횟수를 결정하십시오.
물론 5 번의 반복을 실행 한 다음 원하는 최종 반복 횟수를 결정할 수 있습니다.
(측면 참고 : 나는 일반적으로> 약 1000 대리 모델을 사용하므로 반복 / 반복 횟수는 약 100-125입니다).
통계 학자에게 질문을하면 그들의 답변은 "의존"의 한 형태 일 것입니다.
그것은 달려있다 . 모형의 유형 (좋은 점 cbeleites!)과는 별도로 훈련 세트 포인트 수와 예측 변수 수는? 모델이 분류 용인 경우 클래스 불균형이 크면 반복 횟수가 증가합니다. 또한 기능 선택 절차를 리샘플링하는 경우 더 많은 리샘플링을 위해 편향합니다.
이 맥락에서 사용 된 리샘플링 방법의 경우 (전통적인 부트 스트랩과 달리) 분포 평균의 "정확한"추정치를 얻기 위해서는 충분한 반복 만 필요하다는 것을 기억하십시오. 그것은 주관적이지만 모든 대답이 될 것입니다.
1 초 동안 2 개의 클래스로 분류하는 경우, 모델의 정확도가 약 0.80이 될 것으로 예상 / 희망한다고 가정하십시오. 리샘플링 과정의 정확도 추정치 (예를 들어 샘플링되기 때문에 p
), 표준 오차가 될 sqrt[p*(1-p)]/sqrt(B)
곳 B
재 샘플링 수가있다. 를 들어 B = 10
, 정확도의 표준 오차는 0.13에 대해와 함께 B = 100
이 0.04에 관한 것입니다. 이 공식을이 특정한 경우에 대한 대략적인 지침으로 사용할 수 있습니다.
또한이 예제에서는 정확도의 분산이 0.50에 가까워 질수록 최대화되므로 표준 오차는 학습자가 약한 모델보다 낮아야하기 때문에 정확한 모델은 복제가 덜 필요합니다.
HTH,
맥스