최소 임계 값 일반화 정확도를 얻기 위해 분류기 (이 경우 LDA)를 훈련시키는 데 필요한 훈련 샘플 수를 결정하는 데 사용되는 일반적인 방법이 있습니까?
뇌-컴퓨터 인터페이스에서 일반적으로 필요한 교정 시간을 최소화하고 싶어서 묻습니다.
최소 임계 값 일반화 정확도를 얻기 위해 분류기 (이 경우 LDA)를 훈련시키는 데 필요한 훈련 샘플 수를 결정하는 데 사용되는 일반적인 방법이 있습니까?
뇌-컴퓨터 인터페이스에서 일반적으로 필요한 교정 시간을 최소화하고 싶어서 묻습니다.
답변:
찾고있는 검색어는 "학습 곡선"으로, 훈련 표본 크기의 함수로 (평균) 모델 성능을 제공합니다.
학습 곡선은 많은 것들에 달려 있습니다.
(저는 2 클래스 LDA의 경우 이론적 검정력 계산을 도출 할 수 있다고 생각합니다. 그러나 중요한 사실은 데이터가 실제로 "동일한 COV 다변량 정규"가정을 충족시키는 지 여부입니다. 기존 데이터의 가정 및 리샘플링).
고려해야 할 또 다른 측면은 일반적으로 좋은 분류자를 훈련시키는 것만으로는 충분하지 않지만 분류자가 양호하다는 것을 증명해야한다는 것입니다. 따라서 주어진 정밀도로 검증에 필요한 샘플 크기도 계획해야합니다. 이러한 결과를 수많은 테스트 사례 (예 : 생산자 또는 소비자의 정확도 / 정확도 / 민감도 / 양의 예측 값)에서 성공의 일부로 제공해야하며 기본 분류 작업이 다소 쉬운 경우,이 방법을 교육하는 것보다 더 독립적 인 사례가 필요할 수 있습니다. 좋은 모델입니다.
경험적으로, 훈련을 위해 표본 크기는 일반적으로 모델 복잡성 (사례 수 : 변이 수)과 관련하여 논의되는 반면, 시험 표본 크기에 대한 절대 한계는 성능 측정의 필요한 정밀도를 위해 제공 될 수 있습니다.
다음은 이러한 내용을 자세히 설명하고 학습 곡선을 구성하는 방법에 대한
논문입니다 . Beleites, C. 및 Neugebauer, U. 및 Bocklitz, T. 및 Krafft, C. 및 Popp, J .: 표본 크기 계획 분류 모델. Anal Chim Acta, 2013, 760, 25-33.
DOI : 10.1016 / j.aca.2012.11.007
arXiv에 허용되는 원고 : 1211.1323
이것은 쉬운 분류 문제를 보여주는 "티저 (teaser)"입니다 (분류 문제에서 실제로 이와 같은 쉬운 구별이 있지만 다른 클래스는 구별하기가 훨씬 어렵습니다).
테스트 샘플 크기가 병목 현상이고 더 큰 훈련 샘플 크기로 인해 더 복잡한 모델을 구성 할 수 있기 때문에 더 많은 훈련 사례가 얼마나 필요한지 결정하기 위해 더 큰 훈련 샘플 크기로 외삽하려고 시도하지 않았으므로 외삽이 의심됩니다. 내가 가진 종류의 데이터 세트에 대해서는 반복적으로 접근하여 많은 새로운 사례를 측정하고 개선 된 양, 더 많은 사례를 측정하는 등을 보여줍니다.
이 문서는 다를 수 있지만 필요한 수의 샘플을 추정하기 위해 더 높은 샘플 크기로 외삽 법을 사용하는 논문에 대한 문헌 참조가 문서에 포함되어 있습니다.
훈련 표본 크기에 대해 묻는 것은 모델 검증을 위해 데이터를 보류한다는 것을 의미합니다. 이것은 샘플 크기가 엄청나게 불안정한 프로세스입니다. 부트 스트랩을 사용한 강력한 내부 검증이 종종 선호됩니다. 해당 경로를 선택하면 하나의 샘플 크기 만 계산하면됩니다. @cbeleites가 아주 훌륭하게 언급했듯이 이것은 종종 "후보 변수 당 이벤트"평가이지만, 검사 할 기능이 없더라도 이진 결과의 확률을 정확하게 예측하려면 최소 96 개의 관측치가 필요합니다. Y = 1 인 실제 한계 확률을 추정 할 때 0.95의 신뢰 한계 오차 0.1.].
정확도 평가 (예 : 브리 어 점수 및 로그 우도 / 편차)에 대해 적절한 점수 규칙을 고려해야합니다. 또한 구성원 확률 추정과는 반대로 관측치를 분류하고 싶습니다. 후자는 회색 영역을 허용하므로 거의 항상 더 유용합니다.