최종 데이터 (생산 준비) 모델을 완전한 데이터 또는 훈련 세트에 대해서만 훈련해야합니까?


23

훈련 세트에 대해 여러 모델을 훈련시키고 교차 검증 세트를 사용하여 최상의 모델을 선택하고 테스트 세트에서 성능을 측정했다고 가정합니다. 이제 최종 최고의 모델이 하나 있습니다. 사용 가능한 모든 데이터 또는 훈련 세트에 대해서만 훈련 된 선박 솔루션에 대해 교육해야합니까? 후자의 경우 왜?

업데이트 : @ P.Windridge가 지적했듯이 재교육 모델을 배송하는 것은 기본적으로 유효성 검사없이 모델을 배송하는 것을 의미합니다. 그러나 우리는 테스트 세트 성능을보고 할 수 있으며, 그 후에는 최상의 모델과 더 많은 데이터를 사용하기 때문에 성능이 향상 될 것으로 기대되는 완전한 데이터에 대해 모델을 재교육 할 수 있습니다. 그러한 방법론에서 어떤 문제가 발생할 수 있습니까?


외부 규제 환경에서 일하고 있습니까? (즉 , 검증 된 모델을 배송 해야 하며, 귀하의 질문은 단지 가상 일 뿐이지 만 어쨌든 논의 할 가치가 있습니다.) 편집 : 좋아 당신이 당신의 게시물을 편집 참조하십시오.
P.Windridge

테스트 데이터가 모집단을 대표한다고 생각합니까 / 개발 샘플에없는 모집단의 일부를 커버하십니까? 원래 개발 샘플이 어떤 식으로 부족합니까?
P.Windridge

@ P.Windridge 글쎄, 내 질문은 단지 가상입니다. 두 번째 의견에 대해 나는 엔지니어가 대표가 아닌 데이터를 제공하면서 좋은 모델을 훈련시킬 것으로 기 대해서는 안된다고 생각합니다.
Yurii

1
유효성 검사없이 모델을 배송하는 많은 상황을 상상할 수 없습니다. 오히려 테스트 샘플의 크기를 줄이는 방법을 찾고 싶습니다 (여전히 검증하기에 충분히 클 수 있습니다!). 더 흥미로운 토론은 / all / 데이터를 기반으로 모델의 / select / 장단점에 대해 논의한 다음 하위 샘플을 사용하여 학습 한 다음 나머지를 검증하는 것입니다.
P.Windridge

1
비슷한 질문 = stats.stackexchange.com/questions/174026/... 내가 좀 더 논의를 사용할 수 있다고 생각하지만,
P.Windridge

답변:


15

전체 샘플을 다시 작성하면 거의 항상 더 나은 모델을 얻을 수 있습니다. 그러나 다른 사람들이 말했듯이 당신은 검증이 없다. 이는 데이터 분할 방식의 근본적인 결함입니다. 데이터가 전체 모델에서 샘플 차이를 직접 모델링 할 수있는 기회를 잃어 버렸을뿐만 아니라 전체 샘플이 15,000 명을 넘지 않는 한 불안정합니다. 이것이 정확성과 안정성을 달성하기 위해 (샘플 크기에 따라) 100 번의 10 배 교차 검증이 필요한 이유이며, 강력한 내부 검증을위한 부트 스트랩이 더 나은 이유입니다. 부트 스트랩은 또한 기능 선택 작업이 얼마나 어렵고 임의적인지를 보여줍니다.

생물 의학 연구 섹션 10.11의 Biostatistics에서 '외부'검증과 관련된 문제에 대해 자세히 설명했습니다 .


내 분야의 용어 (분석 화학)는 훈련을 시작하기 전에 ( 내부 ) 수행하는 데이터를 내부적으로 검증 하는 것을 고려할 것 입니다. 외부 검증은 전용 검증 연구와 링 시험 사이에서 시작됩니다.
cbeleites는

0

다시 훈련 할 필요가 없습니다. 결과를보고 할 때는 테스트 데이터 결과가 훨씬 잘 이해되므로 항상보고해야합니다. 테스트 데이터 세트를 통해 샘플이 아닌 데이터에서 모델이 얼마나 잘 수행되는지를보다 정확하게 확인할 수 있습니다.


4
테스트 세트 성능을보고 한 후 최상의 모드와 더 많은 데이터를 사용하기 때문에 성능 향상을 기대하는 완전한 데이터에 대한 모델을 재교육 할 수 있습니다. 내 추리에 결함이 있습니까?
Yurii

테스트 후 더 많은 데이터 를 수집 한 다음 데이터 를 다시 분할하고 다시 학습 한 다음 다시 테스트 한 다음 다시 테스트 한 결과를 테스트 할 수 있습니다.
우마르

6
전체 샘플을 추정하지 않으면 효율성이 높아질 수 있습니다. 이것은 정당화되지 않습니다. 위의 Yurii 의견에 동의합니다.
Richard Hardy

@RichardHardy, 내 의견에 무엇이 잘못 되었습니까?
우마르

내 마지막 주석에 나와 있습니다. 모형을 추정하기 위해 모든 데이터를 사용하지 않으면 최고의 효율성을 달성 할 수 있습니다. 왜 그럴까요?
Richard Hardy
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.