짧은 대답 : 두 가지 유효성 검사 기술에는 여러 가지 모델의 교육 및 테스트가 포함됩니다.
최선을 다하는 방법에 대한 긴 대답 : 물론 그것은 달려 있습니다. 그러나 여기에 리샘플링 유효성 검사에 대한 결정을 안내하는 데 사용하는 몇 가지 생각이 있습니다. 저는 화학량 론자이므로 이러한 전략과 용어는 분석 화학 문제와 관련이 있습니다.
내 생각을 조금 설명하기 위해, 나는대로 검증 생각 측정 으로 모델의 품질, 교육의 측정 매우 강력한 비유이 리드를 측정의 모든 다른 종류 - 모델 매개 변수를.
유효성 검사와 관련하여 이러한 접근 방식에는 두 가지 관점이 있습니다.
리샘플링 유효성 검사의 일반적인 관점은 다음과 같습니다. 리샘플링 된 데이터 세트 (때로 대리 데이터 세트 또는 서브 세트라고 함)는 실제 (실제) 데이터 세트와 실질적으로 동일합니다.
따라서 대리 데이터 세트에 맞는 "대리 모델"은 실제 데이터 세트 전체에 맞는 모델과 실질적으로 동일합니다. 그러나 일부 샘플은 서로 게이트 데이터 세트에서 제외되며 모델은 이들과 독립적입니다. 따라서 누락되거나 부트 스트랩이없는 샘플을 서로 게이트 모델에 대한 독립 검증 세트로 사용하고 결과를 전체 데이터 모델의 근사값으로 사용합니다.
그러나 대리 모델은 종종 전체 데이터 모델과 동일하지 않습니다. 훈련에 사용 된 샘플 수가 적습니다 (부트 스트랩의 경우에도 다른 샘플 수는 적음). 학습 곡선이 증가하는 한 대체 모델은 전체 데이터 모델보다 평균적으로 약간 더 나쁩니다. 이것은 리샘플링 유효성 검사의 잘 알려진 비관적 편향입니다. 낙관적 편향으로 끝나는 경우 일반적으로 좌 / 우 테스트 세트가 모델과 무관하다는 지표입니다.
두 번째 관점은 리샘플링 된 데이터 세트가 전체 데이터 세트의 교란 된 버전이라는 것입니다. 대리 모델 (또는 좌 / 우 샘플에 대한 예측)이 전체 데이터 모델과 어떻게 다른지 검토 한 후 훈련 데이터와 관련하여 모델 안정성에 대해 알려줍니다.
이러한 관점에서, 대리 모델은 반복 측정과 유사합니다. 당신의 임무가 전체 광석의 일부 미네랄의 함량을 측정하는 것이라고 가정하십시오. 광석은 균질하지 않습니다. 따라서 서로 다른 위치에서 실제 샘플을 채취 한 후 전체 내용과 열차 전체의 변형을 살펴 봅니다. 마찬가지로 모델이 안정적이지 않다고 생각되면 대리 모델의 전체 성능과 변형을 볼 수 있습니다.
당신이 그 생각을 더 받아들이면, 당신의 접근법 (1)은 크기 다른 샘플들에 대해 동일한 모델의 예측이 얼마나 많은지에 대해 알려줍니다 . 귀하의 접근 방식 (2)은 일반적인 접근 방식에 더 가깝습니다. 그러나 Momo가 이미 쓴 것처럼 검증은 일반적으로 알 수없는 경우의 성능을 측정하려고합니다. 따라서 이미 모델에 알려진 사례로는 테스트가 수행 되지 않도록 주의해야합니다 . 다시 말해, 남은 사례 만 테스트됩니다. (a) 유한 한 (작은) 표본 크기 (테스트 및 훈련 모두)로 인한 변동을 가능한 한 잘 측정하고 평균화하기 위해 여러 번 반복됩니다 (각 모델마다 서로 다른 사례 집합이 제외됨). .엔
나는 보통 사례를 재 표본한다 (예 : 한 건 = 한 환자의 모든 측정). 그런 다음 가방 외부는 훈련 데이터에서 측정이 수행되지 않는 모든 환자 입니다. 한 사례의 측정치가 다른 사례의 측정치보다 서로 유사하다는 것을 알고있는 경우 유용합니다 (적어도이 가능성을 배제 할 수는 없습니다).
리샘플링 유효성 검사를 통해 알 수없는 샘플의 성능을 측정 할 수 있습니다 . 또한 알려지지 않은 미래 샘플 (계측 편차)에 대한 성능을 측정하려면 "미래에"측정 된 테스트 세트, 즉 모든 훈련 샘플을 측정 한 후 특정 시간이 필요합니다. 분석 화학에서, 예를 들어 기기의 교정을 얼마나 자주 다시 수행해야하는지 (각 결정, 매일, 매주, 매월, ...) 확인하려는 경우에 필요합니다.
부트 스트랩과 교차 검증 용어 :
- 교체를 통한 리샘플링을 종종 부트 스트랩이라고합니다.
- 교체 교차 검증없이 리샘플링
둘 다 일종의 계층화를 가질 수 있습니다. 역사적으로, 교차 검증을위한 분할 (적어도 화학량 론에서)은 종종 임의적이지 않은 방식으로 수행되었습니다. 사례가 거의없고 (실제 샘플) 전체 데이터 범위가 포함되도록하려는 경우 회귀.
두 기술 모두 일반적으로 여러 번 반복 / 반복됩니다. 역사적 이유로 그리고 적어도 화학량 론에서 k- 폴드 교차 검증은 종종 k 모델 훈련 및 테스트를 의미합니다 (각각 훈련에 포함되지 않은 데이터의 1 / kth로 테스트 됨). 이러한 임의 분할이 반복되면 사람들은 반복 또는 교차 검증을 반복합니다.
또한, 고유의 샘플 수 (약) 선택 될 수있다 : 교차 검증을 위해 통해 의 -fold 또는 leave-의 교차 검증 -out. 부트 스트랩의 경우 개보다 많거나 적은 샘플을 서브 샘플에 그릴 수 있습니다 (드물게는 수행되지 않음).케이케이엔엔엔
- 부트 스트랩은 중복 측정을 먼저 제거하는 일부 모델 피팅 기술에는 적합하지 않습니다.
- 부트 스트랩의 일부 변형 (예 : .632-bootstrap 및 .632 + -bootstrap)
부트 스트랩 리샘플링은 반복 폴드 교차 검증 보다 우수합니다 (더 빠른 수렴, 적은 반복 횟수) . 적은 분산하지만 반복 된보다 바이어스했다 밖으로의 부트 스트랩 : 내가 다루는 데이터의 종류에 대한 연구에서, 그러나, 우리는 약간의 전반적인 차이를 발견 -fold 교차 검증을.케이케이