훈련 세트는 얼마나 필요합니까?


24

최소 임계 값 일반화 정확도를 얻기 위해 분류기 (이 경우 LDA)를 훈련시키는 데 필요한 훈련 샘플 수를 결정하는 데 사용되는 일반적인 방법이 있습니까?

뇌-컴퓨터 인터페이스에서 일반적으로 필요한 교정 시간을 최소화하고 싶어서 묻습니다.


2
user2030669, @cbeleites 아래 답변은 훌륭하지만 대략적인 경험으로 볼 때 기능의 경우 (샘플) 수의 6 배 이상이 필요합니다.
BGreene

2
... 각 수업에서. 나는 또한 5p 및 3p / class의 권장 사항을 보았습니다.
cbeleites는 Monica

답변:


31

찾고있는 검색어는 "학습 곡선"으로, 훈련 표본 크기의 함수로 (평균) 모델 성능을 제공합니다.

학습 곡선은 많은 것들에 달려 있습니다.

  • 분류 방법
  • 분류기의 복잡성
  • 수업이 얼마나 잘 분리되어 있는지

(저는 2 클래스 LDA의 경우 이론적 검정력 계산을 도출 할 수 있다고 생각합니다. 그러나 중요한 사실은 데이터가 실제로 "동일한 COV 다변량 정규"가정을 충족시키는 지 여부입니다. 기존 데이터의 가정 및 리샘플링).

  • =


고려해야 할 또 다른 측면은 일반적으로 좋은 분류자를 훈련시키는 것만으로는 충분하지 않지만 분류자가 양호하다는 것을 증명해야한다는 것입니다. 따라서 주어진 정밀도로 검증에 필요한 샘플 크기도 계획해야합니다. 이러한 결과를 수많은 테스트 사례 (예 : 생산자 또는 소비자의 정확도 / 정확도 / 민감도 / 양의 예측 값)에서 성공의 일부로 제공해야하며 기본 분류 작업이 다소 쉬운 경우,이 방법을 교육하는 것보다 더 독립적 인 사례가 필요할 수 있습니다. 좋은 모델입니다.

경험적으로, 훈련을 위해 표본 크기는 일반적으로 모델 복잡성 (사례 수 : 변이 수)과 관련하여 논의되는 반면, 시험 표본 크기에 대한 절대 한계는 성능 측정의 필요한 정밀도를 위해 제공 될 수 있습니다.

다음은 이러한 내용을 자세히 설명하고 학습 곡선을 구성하는 방법에 대한
논문입니다 . Beleites, C. 및 Neugebauer, U. 및 Bocklitz, T. 및 Krafft, C. 및 Popp, J .: 표본 크기 계획 분류 모델. Anal Chim Acta, 2013, 760, 25-33.
DOI : 10.1016 / j.aca.2012.11.007
arXiv에 허용되는 원고 : 1211.1323

이것은 쉬운 분류 문제를 보여주는 "티저 (teaser)"입니다 (분류 문제에서 실제로 이와 같은 쉬운 구별이 있지만 다른 클래스는 구별하기가 훨씬 어렵습니다). 티저 샘플 크기 계획 용지

테스트 샘플 크기가 병목 현상이고 더 큰 훈련 샘플 크기로 인해 더 복잡한 모델을 구성 할 수 있기 때문에 더 많은 훈련 사례가 얼마나 필요한지 결정하기 위해 더 큰 훈련 샘플 크기로 외삽하려고 시도하지 않았으므로 외삽이 의심됩니다. 내가 가진 종류의 데이터 세트에 대해서는 반복적으로 접근하여 많은 새로운 사례를 측정하고 개선 된 양, 더 많은 사례를 측정하는 등을 보여줍니다.

이 문서는 다를 수 있지만 필요한 수의 샘플을 추정하기 위해 더 높은 샘플 크기로 외삽 법을 사용하는 논문에 대한 문헌 참조가 문서에 포함되어 있습니다.


LDA에 정규화 체계를 사용하면 더 작은 교육 세트로 작업 할 수 있습니까?
Lunat1c

1
@ user2036690,보다 교묘 한 모델 (더 적은 기능)은 더 적은 교육 샘플이 필요합니다. 덜 중요한 기능의 영향을 줄이면 정규화 체계는 필요한 샘플 수에 영향을 미치지 않습니다. 기능 합리화의 일부는 더 작은 훈련 세트를 허용 할 수 있습니다
BGreene

1
그러나 각 모델 비교는 실제로 통계 테스트이므로 데이터 중심 기능 선택에는 막대한 양의 샘플이 필요합니다. 그러나 전문 지식에 의한 기능 선택은 즉시 도움이 될 수 있습니다. @BGreene : 정규화로 표본 크기 요구 사항을 줄이는 데 도움이되지 않는 이유를 확장 할 수 있습니까 (예 : 조건이 잘못된 공분산 행렬의 능선 고려)? IMHO는 놀라운 일을 할 수는 없지만 도움이 될 수 있습니다.
cbeleites는 Monica

서사시 토론에 들어 가지 않고, 나는 융기 또는 다른 형벌 회귀보다는 Friedman의 정규화 공식을 언급하고있었습니다. 그러나 올가미에서와 같이 두 가지 방법으로 계수가 0으로 줄어들지 않으므로 차원이 영향을받지 않으므로 결과적으로 위에서 언급 한 잘못된 행렬을 피하는 데 필요한 샘플 크기에 영향을 미치지 않습니다. 이것이
엉망인

@BGreene : 엉망이 아닙니다. 다시 물었습니다. 흥미로운 질문은 데이터 중심 방식으로 계수를 0으로 설정하여 전체 df / 복잡성이 얼마나 줄어드는가 입니다. 어쨌든, 우리는 다른 이야기로 표류하고 있습니다.
cbeleites는 Monica

4

훈련 표본 크기에 대해 묻는 것은 모델 검증을 위해 데이터를 보류한다는 것을 의미합니다. 이것은 샘플 크기가 엄청나게 불안정한 프로세스입니다. 부트 스트랩을 사용한 강력한 내부 검증이 종종 선호됩니다. 해당 경로를 선택하면 하나의 샘플 크기 만 계산하면됩니다. @cbeleites가 아주 훌륭하게 언급했듯이 이것은 종종 "후보 변수 당 이벤트"평가이지만, 검사 할 기능이 없더라도 이진 결과의 확률을 정확하게 예측하려면 최소 96 개의 관측치가 필요합니다. Y = 1 인 실제 한계 확률을 추정 할 때 0.95의 신뢰 한계 오차 0.1.].

정확도 평가 (예 : 브리 어 점수 및 로그 우도 / 편차)에 대해 적절한 점수 규칙을 고려해야합니다. 또한 구성원 확률 추정과는 반대로 관측치를 분류하고 싶습니다. 후자는 회색 영역을 허용하므로 거의 항상 더 유용합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.