별도의 모델링 / 검증 세트를 사용하여 회귀 모델을 작성할 때 검증 데이터를 "재순환"하는 것이 적절합니까?


13

모델링 / 검증 관찰간에 80/20 분할이 있다고 가정합니다. 모델을 모델링 데이터 세트에 적합 시켰으며 유효성 검증 데이터 세트에서보고있는 오류에 익숙합니다. 향후 관측 값을 채점하기 위해 모델을 롤아웃하기 전에 유효성 검사를 모델링 데이터와 다시 결합하여 100 % 데이터에 대한 매개 변수 추정치를 업데이트하는 것이 적절합니까? 나는 이것에 대한 두 가지 관점을 들었습니다.

  1. 내가 수행 한 유효성 검사는 모델 구조, 즉 내가 적용한 예측 변수 및 변환 집합에 대한 유효성 검사였습니다. 추정값을 업데이트하는 데 사용할 수있을 때 데이터의 20 %를 테이블에 남겨 두는 것은 이치에 맞지 않습니다.

  2. 내가 수행 한 검증은 부분적으로 모델링 데이터 세트에서 계산 한 모수 추정치의 검증이었습니다. 모형 적합을 업데이트하면 추정치가 변경되었으며 더 이상 업데이트 된 모형의 성능을 테스트 할 객관적인 방법이 없습니다.

나는 항상 논쟁 # 1을 따랐지만, 최근에는 여러 사람들이 # 2를 주장하는 것을 들었습니다. 다른 사람들이 이것에 대해 어떻게 생각하는지보고 싶었습니다. 이 주제에 관한 문헌이나 다른 곳에서 좋은 토론을 보셨습니까?

답변:


6

옵션 1이 올바른 것입니다. 검증 데이터 세트를 추가하여 모델의 매개 변수를 업데이트 할 수 있습니다.

그게 답입니다. 이제 토론 해 봅시다. 부트 스트래핑의 k- 폴드 크로스 밸리데이션을 수행했다면 위의 옵션 1이라는 사실이 더 명확합니다 (그리고 당신은 그렇게해야합니다-귀하의 질문에서 명확하지 않습니다).

5 배 교차 검증에서는 보유한 데이터를 동일한 크기의 5 개의 임의 세트로 나눕니다. 이를 A, B, C, D 및 E라고하겠습니다. 그런 다음 A, B, C 및 D와 같은 4 가지 세트에서 모델의 모델 (모델 자체)의 매개 변수를 배우고 테스트하거나 검증합니다. 다섯 번째 모델 E. 그러나 다른 세트를 테스트 / 검증 (예 : D)으로 선택하고 다른 세트 (A, B, C 및 E)를 사용하여 학습합니다. D에서 테스트하고 반복하십시오.

예측 모델의 오류는 5 가지 테스트의 평균 오류이며 예측 오류가 학습 및 테스트 세트에 어떤 영향을 미치는지에 대한 이해가 있습니다. 가장 좋은 시나리오에서는 5 가지 오차 측정치가 모두 비슷하며 향후에 해당 수준에서 모델이 수행 될 것임을 확신 할 수 있습니다.

그러나 어떤 모델 ?? 각 학습 세트에 대해 모델마다 다른 매개 변수가 있습니다. A, B, C, D를 사용하여 학습하면 매개 변수 세트 P1을 생성하고 A, B, C, E를 사용하여 학습하며 매개 변수 세트 P2를 P5까지 학습합니다. 그들 중 누구도 당신의 모델이 아닙니다.

테스트 한 것은 모델을 구성 하는 프로 시저 의 예상 오류 , 학습 세트가 A, B, C, D 및 A, B, C, E 등을 수행했을 때 수행 한 절차입니다. 예상되는 오류가있는 모델을 생성하는이 절차입니다.

최종 모델은 무엇입니까? 사용 가능한 모든 데이터 (A, B, C, D 및 E)에서 절차를 적용합니다. 이전에 생성 한 적이없는 매개 변수 세트 P0이있는 새 모델 (파라미터 P0을 결정하는 데 모든 데이터를 "사용"했으므로)을 테스트 할 데이터가 없지만 향후 수행 될 합리적인 기대치가 있습니다. 동일한 절차를 사용하여 구성된 다른 모델 (P1, P2 ...)과 같은 데이터.

교차 검증 또는 부트 스트랩을 수행하지 않은 경우 (부트 스트랩은 설명하기가 다소 복잡합니다.이 토론에서 제외)? 하나의 학습 / 검증 분할과 하나의 오류 측정 만 수행하면 어떻게됩니까? 그런 다음 인수 2는 다소 정확할 수 있지만 더 큰 문제가 있습니다. 모델의 오차는 한 가지만 측정 할 수 있으며 해당 오차가 모델을 검증하는 데 사용 된 데이터에 얼마나 의존하는지 알 수 없습니다. 운 좋게도 20 % 유효성 검사 세트는 특히 예측하기 쉽습니다. 여러 가지 오차 측정을 수행하지 않은 경우 예측 모델의 예상 오차율이 향후 데이터에 대해 동일하게 유지된다고 가정하는 것은 매우 위험합니다.

"더 큰 위험"은 무엇입니까? 미래의 데이터에 대해 오류가 기본적으로 동일하다고 가정하거나 모델을 학습하기 위해 더 많은 데이터를 추가하면 어떤 방식 으로든 모델을 "고정시키고"오류율이 증가한다고 가정합니까? 나는 이것에 어떻게 대답 해야할지 모르겠지만 더 많은 데이터로 인해 악화되는 모델을 의심 할 것입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.