홀드 아웃 방법 (데이터를 교육 및 테스트로 분할)이 기존 통계에 사용되지 않는 이유는 무엇입니까?

12

교실에서 데이터 마이닝에 노출 할 때 모델 성능을 평가하는 방법으로 홀드 아웃 방법이 도입되었습니다. 그러나 선형 모델에서 첫 수업을 들었을 때 이것은 모델 검증 또는 평가의 수단으로 소개되지 않았습니다. 저의 온라인 조사에서도 교차점이 보이지 않습니다. 고전 통계에서 홀드 아웃 방법이 사용되지 않는 이유는 무엇입니까?

— tirkquest
소스

22

보다 생산적인 질문은 "내가 배운 고전 통계에서 왜 사용되지 않았는가?"입니다.

교육 수준 (들)에 따라, 선택하는 과정 내용 (및 이용 가능한 시간)은 다양한 요소의 조합으로 인한 것일 수 있습니다. 중요한 주제는 종종 다른 주제를 다른 이유로 가르쳐야하므로 나중에 주제에서 다루어지기를 바랍니다.

어떤 의미에서는 적어도 여러 사람들이이 개념을 오랫동안 사용해왔다. 일부 지역에서는 다른 지역보다 더 흔했습니다. 통계의 많은 사용에는 예측 또는 모델 선택이 주요 구성 요소 (또는 경우에 따라)로 포함되지 않으며,이 경우 홀드 아웃 샘플의 사용은 예측이 주요 포인트 일 때보 다 덜 중요 할 수 있습니다. 아마도 일부 관련 응용 프로그램에서보다 초기 단계에서 더 널리 사용되었을 것입니다. 그러나 그것은 알려지지 않은 것과 동일하지 않습니다.

예측에 중점을 둔 영역을 살펴보면 모델을 추정하는 데 사용하지 않은 데이터를 예측하여 모델 평가의 개념이 확실하지는 않습니다 (일반적이지는 않지만). 예를 들어 가장 최근 데이터의 샘플 외부 예측 성능이 특히 중요한 경우와 같이 1980 년대에했던 시계열 모델링을 통해이 작업을 확실히 수행했습니다.

최소한 일부 데이터를 제외한다는 개념은 회귀 (삭제 된 잔차, PRESS, jacknife 등) 및 이상치 분석에 사용되었습니다.

이러한 아이디어 중 일부는 아직까지도 좋은 결과를 가져 왔습니다. Stone (1974) [1]은 1950 년대와 60 년대의 교차 검증에 관한 논문 (제목에 단어 포함)을 언급 한 것이다. 아마도 당신의 의도에 더 가깝게, 그는 Simon (1971)이 "시공 샘플"과 "유효 샘플"이라는 용어를 사용했다고 언급하지만 "Larson (1931)은 교육 배수에서 샘플의 무작위 분할을 사용했다"고 지적합니다. -회귀 연구 ".

예를 들어 70 년대와 80 년대의 통계 문헌에서 교차 검증 및 예측 기반의 통계 사용과 같은 주제가 상당히 빈번해졌지만 많은 기본 아이디어는 꽤 오랫동안 사용되었습니다. 그때.

[1] : Stone, M., (1974)
"통계 검증 선택 및 통계 예측 평가"
, Royal Statistical Society. 시리즈 B (방법론) , Vol. 36, 2 번, pp. 111-147

— Glen_b-복귀 모니카
소스

M. Stone은 저와 아담과 이브를 통하지 않는 한 저와도 관련이 없습니다.

— Mark L. Stone

11

Glen_b의 답변을 보완하기 위해 고전 통계는 종종 최적 의 데이터 사용, 최적의 테스트, 최적의 추정기, 충분 성 등에 중점을 두었 습니다.이 이론적 프레임 워크에서는 정보의 일부를 사용하지 않는 것이 정당화하기가 어렵습니다. ! 이 전통의 일부는 홀드 아웃이 실제로 어려운 작은 샘플이있는 상황을 강조하는 것입니다.

피셔는 예를 들어 주로 유전학 및 농업 실험을 통해 일했으며 그 분야에서는 소수의 관찰이 규칙이었습니다. 그래서 그는 주로 작은 데이터 세트에서 이러한 문제에 노출되었습니다.

— 크 제틸 비 할보 르센
소스

6

나는 고전 통계와 기계 학습 사이의 응용 분야에서 대답 할 것입니다 : 화학 분석, 즉 화학 분석에 대한 통계. 홀드 아웃이 일반적인 머신 러닝 수업만큼 중요하지 않은 두 가지 시나리오를 추가하겠습니다.

시나리오 1 :

여기서 중요한 한 가지 포인트는 훈련과 테스트를 위해 작은 샘플 크기가 무엇인지에 근본적인 차이가 있음을 인식하는 것입니다.

훈련의 경우, 일반적으로 사례 수의 비율 : 모델 복잡성 (매개 변수 수) 문제 (자유도)
테스트를 위해서는 절대 테스트 사례 수가 중요합니다.
테스트 절차의 품질은 모델과 독립적이어야합니다. 이는 독립적 인 테스트 사례를 통한 검증으로 블랙 박스로 처리됩니다.

주장에 필요한 두 번째 요점은 독립적 인 테스트 사례가 중요한 상황이 지나치게 적합하다는 것입니다. 모형이 충분히 복잡하지 않은 경우 (바이어스 분산, 따라 ), 잔차는 독립적 인 경우만큼 총 예측 오차에 대해 많은 것을 알 수 있습니다. $\gg$

이제 "고전적인"선형 모델에 대한 통계 강의는 종종 일 변량 모델을 강조합니다. 일 변량 선형 모형의 경우 훈련 표본 크기는 작지 않을 수 있습니다. 훈련 표본 크기는 일반적으로 모형 복잡도와 비교하여 판단되며 선형 모형에는 오프셋과 기울기의 두 매개 변수 만 있습니다. 분석 화학에서 우리는 실제로 일 변량 선형 교정을위한 교정 샘플이 10 개 이상 있어야한다는 표준이 있습니다. 이는 모델 불안정성이 문제가되지 않는 상황을 보장하므로 보류가 필요하지 않습니다.

그러나 기계 학습과 화학 분석 (예 : 질량 분석에서 10⁴ "채널")에 사용되는 현대식 다중 채널 검출기의 경우 모델 안정성 (예 : 편차)이 중요한 문제입니다. 따라서 홀드 아웃 또는 더 나은 리샘플링이 필요합니다.

시나리오 2 :

완전히 다른 상황은 더 쉬운 (잔여)와보다 정교한 성능 측정의 조합으로 홀드 아웃을 건너 뛸 수 있다는 것입니다. 그 홀드 아웃 (임의로)의 의미에서의 옆 부분 설정 참고 데이터 세트 및 훈련에서 이것을 제외 것은 없는 독립 테스트를 달성 할 수있는 동등. 분석 화학에서, 홀드 아웃으로 측정 할 수없는 시간에 따른 성능 저하 (계측 드리프트) 측정 및 실제 산업 환경에서 센서 성능 (예 : 센서 보정)을 설정하는 전용 검증 실험이 수행 될 수 있습니다. 실험실에서 교정 샘플을 수행했습니다). 참조 /stats//a/104750/4598 독립 테스트와 홀드 아웃에 대한 자세한 내용

— SX에 불만족
소스

위의 sceanario 1에서 (bias << variance)라고 말한 것 같습니까? 수정 해주세요!

— kjetil b halvorsen

1

@kjetilbhalvorsen no, 그녀는 그 단락 (충분하지 않은 모델)에서 부족한 것을 언급하고 있기 때문에.

— Marc Claesen

@kjetilbhalvorsen; Marc Claesen이 맞습니다. 문제가 제대로 해결되지 않은 상황이라는 것을 강조했습니다.

— SX에 불만족 claeites

확인. 요구 사항을 충족시키기 위해 일부 편지

— kjetil b halvorsen