“부트 스트랩 유효성 검사”(일명“리샘플링 교차 유효성 검사”) 절차는 무엇입니까?

"부트 스트랩 유효성 검사"/ "리샘플링 교차 유효성 검사"는 처음이지만 이 질문 에 대한 답변으로 논의되었습니다 . 시뮬레이션 데이터의 크기가 실제 데이터와 동일한 크기가 될 때까지 대체로 리샘플링하여 주어진 시뮬레이션 데이터 세트가 실제 데이터에서 생성되는 실제 데이터와 시뮬레이션 데이터의 두 가지 유형의 데이터를 수집합니다. 이러한 데이터 유형을 사용하는 두 가지 접근법을 생각할 수 있습니다. (1) 모델을 한 번 맞추고 많은 시뮬레이션 된 데이터 세트에서 여러 번 평가합니다. (2) 시뮬레이션 된 많은 데이터 세트 각각을 사용하여 모델을 여러 번 맞추고, 실제 데이터와 비교할 때마다 평가합니다. 어느 쪽이 가장 좋습니까?

— 마이크 로렌스
소스

짧은 대답 : 두 가지 유효성 검사 기술에는 여러 가지 모델의 교육 및 테스트가 포함됩니다.

최선을 다하는 방법에 대한 긴 대답 : 물론 그것은 달려 있습니다. 그러나 여기에 리샘플링 유효성 검사에 대한 결정을 안내하는 데 사용하는 몇 가지 생각이 있습니다. 저는 화학량 론자이므로 이러한 전략과 용어는 분석 화학 문제와 관련이 있습니다.

내 생각을 조금 설명하기 위해, 나는대로 검증 생각 측정 으로 모델의 품질, 교육의 측정 매우 강력한 비유이 리드를 측정의 모든 다른 종류 - 모델 매개 변수를.

유효성 검사와 관련하여 이러한 접근 방식에는 두 가지 관점이 있습니다.

리샘플링 유효성 검사의 일반적인 관점은 다음과 같습니다. 리샘플링 된 데이터 세트 (때로 대리 데이터 세트 또는 서브 세트라고 함)는 실제 (실제) 데이터 세트와 실질적으로 동일합니다.
따라서 대리 데이터 세트에 맞는 "대리 모델"은 실제 데이터 세트 전체에 맞는 모델과 실질적으로 동일합니다. 그러나 일부 샘플은 서로 게이트 데이터 세트에서 제외되며 모델은 이들과 독립적입니다. 따라서 누락되거나 부트 스트랩이없는 샘플을 서로 게이트 모델에 대한 독립 검증 세트로 사용하고 결과를 전체 데이터 모델의 근사값으로 사용합니다.
그러나 대리 모델은 종종 전체 데이터 모델과 동일하지 않습니다. 훈련에 사용 된 샘플 수가 적습니다 (부트 스트랩의 경우에도 다른 샘플 수는 적음). 학습 곡선이 증가하는 한 대체 모델은 전체 데이터 모델보다 평균적으로 약간 더 나쁩니다. 이것은 리샘플링 유효성 검사의 잘 알려진 비관적 편향입니다. 낙관적 편향으로 끝나는 경우 일반적으로 좌 / 우 테스트 세트가 모델과 무관하다는 지표입니다.
두 번째 관점은 리샘플링 된 데이터 세트가 전체 데이터 세트의 교란 된 버전이라는 것입니다. 대리 모델 (또는 좌 / 우 샘플에 대한 예측)이 전체 데이터 모델과 어떻게 다른지 검토 한 후 훈련 데이터와 관련하여 모델 안정성에 대해 알려줍니다.
이러한 관점에서, 대리 모델은 반복 측정과 유사합니다. 당신의 임무가 전체 광석의 일부 미네랄의 함량을 측정하는 것이라고 가정하십시오. 광석은 균질하지 않습니다. 따라서 서로 다른 위치에서 실제 샘플을 채취 한 후 전체 내용과 열차 전체의 변형을 살펴 봅니다. 마찬가지로 모델이 안정적이지 않다고 생각되면 대리 모델의 전체 성능과 변형을 볼 수 있습니다.

당신이 그 생각을 더 받아들이면, 당신의 접근법 (1)은 크기 다른 샘플들에 대해 동일한 모델의 예측이 얼마나 많은지에 대해 알려줍니다 . 귀하의 접근 방식 (2)은 일반적인 접근 방식에 더 가깝습니다. 그러나 Momo가 이미 쓴 것처럼 검증은 일반적으로 알 수없는 경우의 성능을 측정하려고합니다. 따라서 이미 모델에 알려진 사례로는 테스트가 수행 되지 않도록 주의해야합니다 . 다시 말해, 남은 사례 만 테스트됩니다. (a) 유한 한 (작은) 표본 크기 (테스트 및 훈련 모두)로 인한 변동을 가능한 한 잘 측정하고 평균화하기 위해 여러 번 반복됩니다 (각 모델마다 서로 다른 사례 집합이 제외됨). . $n$
나는 보통 사례를 재 표본한다 (예 : 한 건 = 한 환자의 모든 측정). 그런 다음 가방 외부는 훈련 데이터에서 측정이 수행되지 않는 모든 환자 입니다. 한 사례의 측정치가 다른 사례의 측정치보다 서로 유사하다는 것을 알고있는 경우 유용합니다 (적어도이 가능성을 배제 할 수는 없습니다).

리샘플링 유효성 검사를 통해 알 수없는 샘플의 성능을 측정 할 수 있습니다 . 또한 알려지지 않은 미래 샘플 (계측 편차)에 대한 성능을 측정하려면 "미래에"측정 된 테스트 세트, 즉 모든 훈련 샘플을 측정 한 후 특정 시간이 필요합니다. 분석 화학에서, 예를 들어 기기의 교정을 얼마나 자주 다시 수행해야하는지 (각 결정, 매일, 매주, 매월, ...) 확인하려는 경우에 필요합니다.

부트 스트랩과 교차 검증 용어 :

교체를 통한 리샘플링을 종종 부트 스트랩이라고합니다.
교체 교차 검증없이 리샘플링

둘 다 일종의 계층화를 가질 수 있습니다. 역사적으로, 교차 검증을위한 분할 (적어도 화학량 론에서)은 종종 임의적이지 않은 방식으로 수행되었습니다. 사례가 거의없고 (실제 샘플) 전체 데이터 범위가 포함되도록하려는 경우 회귀.

두 기술 모두 일반적으로 여러 번 반복 / 반복됩니다. 역사적 이유로 그리고 적어도 화학량 론에서 k- 폴드 교차 검증은 종종 k 모델 훈련 및 테스트를 의미합니다 (각각 훈련에 포함되지 않은 데이터의 1 / kth로 테스트 됨). 이러한 임의 분할이 반복되면 사람들은 반복 또는 교차 검증을 반복합니다.

또한, 고유의 샘플 수 (약) 선택 될 수있다 : 교차 검증을 위해 통해 의 -fold 또는 leave-의 교차 검증 -out. 부트 스트랩의 경우 개보다 많거나 적은 샘플을 서브 샘플에 그릴 수 있습니다 (드물게는 수행되지 않음). $k$ $k$ $n$ $n$ $n$

부트 스트랩은 중복 측정을 먼저 제거하는 일부 모델 피팅 기술에는 적합하지 않습니다.
부트 스트랩의 일부 변형 (예 : .632-bootstrap 및 .632 + -bootstrap)

부트 스트랩 리샘플링은 반복 폴드 교차 검증 보다 우수합니다 (더 빠른 수렴, 적은 반복 횟수) . 적은 분산하지만 반복 된보다 바이어스했다 밖으로의 부트 스트랩 : 내가 다루는 데이터의 종류에 대한 연구에서, 그러나, 우리는 약간의 전반적인 차이를 발견 -fold 교차 검증을. $k$ $k$

— cbeleites는 모니카를 지원합니다
소스

긴 대답이 좋습니다.

— Momo

(+1) 훌륭한 관점. 대리라는 용어가 계속 사용된다고 확신합니다.

— steffen

@ 스티븐 감사합니다. 나는 결코이 용어를 발명 한 사람이 아니다. 나는 U. Braga-Neto (일부 : ncbi.nlm.nih.gov/pubmed/14960464 )의 논문에서 처음 만난 것 같아요. 그러나 나는

— 즉시이

시뮬레이트 된 데이터에 대한 질문의 발언에 관해. 부트 스트랩 자체에는 시뮬레이션 된 데이터가 포함되지 않습니다. 시뮬레이트 된 데이터는 부트 스트랩 방법이 특정 문제에서 작동하는지 평가하는 방법으로 사용됩니다. 그러나 부트 스트랩 자체는 부트 스트랩 샘플을 기반으로 데이터를 재사용하는 것입니다. 원래 데이터 세트에서 대체로 무작위로 선택된 샘플. 여기에는 일반적으로 n 개의 재 샘플링이 필요합니다. 여기서 n은 원본 샘플의 크기입니다. Monte Carlo는 실제로 컴퓨터에서 부트 스트랩 샘플을 생성하여 부트 스트랩 분포를 추정하는 방법으로 들어갑니다.

— Michael R. Chernick

"최상의"에 대해서는 잘 모르지만 (어쩌면 용도에 따라 다름) 부트 스트랩 유효성 검사를 사용하여 다음과 같은 방식으로 새 데이터의 오류를 추정합니다 (원하는 경우 세 번째 방법).

원래 데이터 (크기 N)에서 N 개의 관측치에 대한 훈련 세트를 교체합니다.
모델을 학습 데이터에 맞 춥니 다.
가방 외부 (oob) 샘플에서 모델 평가

부족한 것이 항상 명확하게 정의 된 것은 아닙니다. 종종 훈련 세트의 일부가 아닌 모든 관찰 결과입니다. 훈련 세트의 일부가 아닌 전체 예측 변수 벡터를 실현하는 oob 샘플에서만 관측치를 얻는 것이 더 엄격합니다 (이 방법으로 사용함) (특히 많은 요인이있는 경우 유용합니다). 더 엄격한 방법은 모형에서 선택한 예측 변수에 대해 예측 변수를 다르게 구현 한 관측치 만 포함 된 oob 샘플을 사용하는 것입니다 (특히 모델이 일부 변수 선택 절차 (예 : 나무)에서 발견되는 경우에 유용합니다).

그런 다음 일반적으로 이것을 여러 번 k 반복하고 k- 폴드에 대한 결과를 집계합니다 (평균 또는 중간 또는 통계가 편리한 모든 것). 이 방법으로 선택한 모델은 옵션 2에서와 같이 전체 데이터 세트에 맞춰 과적 합 경향이 있는지 추가로 측정 할 수 있습니다 (성능 측정은 부트 스트랩 샘플에서 너무 멀지 않아야 함).

더 많은 모델이나 매개 변수 그리드 또는 이와 유사한 것이있는 경우 모든 훈련 세트에 모두 적용하고 각 oob 샘플에서 모두 평가합니다. 트레이닝 세트를 두 번 사용하지 않고 모든 모델 또는 튜닝 파라미터 조합에 대해 새로운 트레이닝 / 우브 페어를 그릴 수도 있습니다.

예를 들어 벤치마킹 실험의 설계 및 분석을 참조하십시오 .

— 모모
소스