검증 및 모델 선택을위한 부트 스트랩 이해


13

부트 스트랩 의 기본 원리가 어떻게 작동하는지 이해하고 있지만 모델 선택에 부트 스트랩을 사용하거나 과적 합을 피하는 방법을 잘 모르겠습니다.

예를 들어, 모델 선택의 경우 부트 스트랩 샘플에서 가장 낮은 오차 (아마도 편차)를 산출하는 모델을 선택 하시겠습니까?

모델 선택 또는 검증에 부트 스트랩을 사용하는 방법에 대해 설명하는 텍스트가 있습니까?

편집 : 이 질문의 뒷부분에 대한 자세한 내용은 스레드와 @ mark999의 답변을 참조하십시오 .


@suncoolsu 선택할 모델 A, B 및 C가있는 경우 1) 예측 정확도 / 순위에 관심이 있고 2) 보류 할 데이터가 충분하지 않은 경우 일반적으로 교차 검증 또는 부트 스트랩을 사용하여 모델을 선택합니다. 유효성 검사 세트. 이것이 좋은 생각이 아닌 이유는 무엇입니까? (그리고 중첩 유효성 검사가 기능 선택 등에 중요하다는 것을 알고 있습니다).
B_Miner

스레드 에서 @ mark999의 대답은 여전히 과적 합에 대처하면서 전체 데이터 세트에서 모델을 학습하는 솔루션으로 부트 스트랩 유효성 검증을 제안합니다. 그 대답은이 질문에 큰 영향을 미쳤으며, 그 실의 원래 질문도이 질문에 맥락을 추가해야합니다.
Amelio Vazquez-Reina

1
죄송합니다. 아마도 통계학 자일 것입니다. 그러나 교차 유효성 검사와 부트 스트랩은 서로 다른 두 가지로 생각합니다. 교차 검증은 훌륭하며 완료되어야합니다 (그리고 부트 스트랩도). 그러나 A, B, C (세 모델 만) 중에서 선택하는 것과 같은 시나리오에서는 BIC가 더 나은 선택 일 수 있습니다. 내가 말했듯이, 해결책은 당면한 문제에 달려 있으며 여러 접근법이 적절 할 수 있습니다.
suncoolsu

2
AIC는 일반적으로 BIC보다 덜 적합하지 않습니다.
Frank Harrell

답변:


14

먼저 모델 선택이 실제로 필요한지 결정하거나 모델링 만하면됩니다. 대부분의 상황에서 차원에 따라 유연한 종합 모델을 적합하게하는 것이 좋습니다.

부트 스트랩은 모델의 성능을 평가하는 좋은 방법입니다. 추정 할 가장 간단한 것은 분산입니다. 원래 시점까지 부트 스트랩은 아직 실현되지 않은 새로운 데이터에 대해 주어진 모델링 절차의 향후 성능을 예상 할 수 있습니다.

리샘플링 (부트 스트랩 또는 교차 검증)을 사용하여 모델 튜닝 매개 변수를 선택하고 모델을 추정하는 경우 이중 부트 스트랩 또는 중첩 교차 검증이 필요합니다.

일반적으로 부트 스트랩은 교차 검증보다 더 적은 모델 적합 (보통 약 300)이 필요합니다 (안정성을 위해 10 배 교차 검증은 50-100 회 반복되어야 함).

일부 시뮬레이션 연구는 http://biostat.mc.vanderbilt.edu/rms 에서 찾을 수 있습니다.


2
와우, 나는 10 배 CV가 50-100 번 반복되어야한다는 것을 몰랐습니다! 마지막 프로젝트를 다시 방문하여 대신 부트 스트랩 테스트를 시도해야합니다. 이 웹 사이트를 사랑하십시오 : 나는 매일 무언가를 배웁니다!
Wayne

감사합니다 @ 프랭크! 같은 수의 매개 변수를 가진 후보 모델 세트가 있다고 가정 해 보겠습니다. 부트 스트랩 추정에서 분산이 낮은 모델이 더 나은 후보 (총 손실 또는 위험이 모두 동일하다고 가정)에서 과적 합에 맞서고 있습니까?
Amelio Vazquez-Reina

나는 그것을 가정하지는 않지만 가능합니다.
Frank Harrell

좋은 답변, 감사합니다! 부트 스트랩을 모델 유효성 검사에 사용할 수 있으며 교차 유효성 검사를 여러 번 반복해야한다는 것을 몰랐습니다. 이 방법의 또 다른 장점은 다음과 같습니다. 교차 유효성 검사를 수행하려면 접는 횟수를 미리 (주관적으로) 결정해야합니다 (일반적으로 10). 그러나 이것이 훌륭한 방법이지만 교차 검증만큼 인기가없는 이유는 무엇입니까?
SiXUlm

부트 스트랩 모델 유효성 검사는 상당히 인기가 있지만 교차 유효성 검사는 더 오래 지속되었습니다. 그러나 당신이 말했듯이 cv에서 # 폴드를 선택하는 데는 임의의 자유가 있습니다.
Frank Harrell

3

모델 평균화 를 위해 부트 스트랩 사용을 고려하십시오 .

아래의 논문은 부트 스트랩 모델 평균화 접근법을 (보다 일반적으로 사용되는) 베이지안 모델링 평균화와 비교하고 모델 평균화를 수행하기위한 레시피를 제시하므로 도움이 될 수 있습니다.

미립자 물질 대기 오염 및 사망률의 시계열 연구에서 평균화되는 부트 스트랩 모델


대부분의 경우 모델 평균화를 위해 부트 스트랩을 권장하지 않습니다. 부트 스트랩은 새 프로 시저 작성 방법을 알려주는 것이 아니라 하나의 모델링 프로 시저가 수행되는 방식을 알려주는 데 가장 좋습니다. 그러나 여기에는 예외가 있습니다.
Frank Harrell

@ 프랭크 하렐-합의. 내가 참조한 논문은 때때로 작업하는 영역에 적용되며, 언급 한 시나리오에 대해 부트 스트랩을 사용했습니다. 샘플링 오류로 인한 특정 모델의 변동성 평가. 그러나 모델 선택 자체 로 인한 불확실성 은 평가하기가 더 어려우며 부트 스트랩 모델 평균화 접근법은 특히 베이지안 모델 평균화에 대한 문제를 재구성 할 경험 / 배경이없는 자신과 같은 실무자에게 도움이 될 수 있습니다.
Josh Hemann

2
아니요, 부트 스트랩은 모델을 미리 알지 못해 발생하는 손상을 평가하는 데 탁월합니다. 그렇다고 반드시 불확실한 모델 집합에 대한 평균화와 같은 것을 개선하기 위해 반드시 부트 스트랩을 사용해야한다는 것을 의미하지는 않습니다. 이런 방식으로 부트 스트랩을 사용해야하는 경우 평균 모델의 성능을 정직하게 평가하려면 이중 부트 스트랩이 필요합니다. 임의 포리스트는 부트 스트랩을 사용하여 평균화되는 모델 형식입니다.
Frank Harrell

이중 부트 스트랩에 대한 좋은 지적. 논문의 저자는 나는 이것에 대해 논문까지 후속을 참조 : 부트 스트랩-후 부트 스트랩 대기 오염 사망률 연구를위한 모델 선택의 모델 불확실성을 줄이기위한 모델 평균화
조쉬 Hemann을

좋은. 그것은 종종 과잉이라는 것을 기억하십시오. 종종 주제 중심의 전체 모델을 제시하고 너무 적합 할 경우 수축 (벌칙)을 사용하는 것이 가장 좋습니다. 하지만 여전히 하나의 모델입니다.
Frank Harrell
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.