답변:
여러 논문은
드문 경우에 한해 기능 수와 샘플 크기의 함수로 알려진 오류 분포가 있습니다.
주어진 인스턴스 및 기능 집합의 오류 표면은 기능 간의 상관 관계 (또는 부족)의 함수입니다.
이 백서 는 다음을 제안합니다.
취할 수있는 또 다른 (임시) 접근법은 동일한 데이터 세트에서 다른 샘플 크기에 대한 학습 곡선을 그리고이를 사용하여 다른 샘플 크기에서 분류기 성능을 예측하는 것입니다. 논문에 대한 링크 는 다음과 같습니다 .
내 경험에서 : 하나의 경우, 많은 클래스가있는 매우 작은 (300 이미지) 실제 데이터베이스로 작업했으며 심각한 데이터 불균형 문제가 있었고 SIFT, HOG, Shape context, SSIM, GM의 9 가지 기능을 사용했습니다. 및 4 개의 DNN 기반 기능. 다른 경우에는 매우 큰 데이터베이스 (> 1M 이미지)로 작업하고 HOG 기능 만 사용했습니다. 인스턴스 수와 높은 정확도를 달성하는 데 필요한 기능 수 사이에는 직접적인 관계가 없다고 생각합니다. 그러나 클래스 수, 클래스 간 유사성 및 동일한 클래스 내 변형 (이 세 매개 변수)은 기능 수에 영향을 줄 수 있습니다. 많은 클래스를 가진 더 큰 데이터베이스를 가지고 있고 클래스 간의 유사성이 높고 동일한 클래스 내에서 큰 변형을 가질 때 높은 정확도를 달성하려면 더 많은 기능이 필요합니다. 생각해 내다:
그것은 달려 있지만 ... 물론 그 대답은 당신을 아무데도 데려 가지 않습니다.
그는 모델 복잡성에 대한 경험의 규칙입니다. 데이터에서 학습-VC 차원
"거의"각 모델 매개 변수에 대해 10 개의 데이터 포인트가 필요합니다. 그리고 모델 매개 변수의 수는 피처의 수와 유사 할 수 있습니다.
파티에 늦었지만 휴리스틱이 있습니다.
각 클래스에서 20 개의 인스턴스에 대한 이진 분류 문제, 사용할 기능 수에 대한 상한이 있습니까?
선형 분류기 교육 을 위해 클래스 및 기능 당 3-5 개의 독립적 인 사례가 권장됩니다. 이 제한은 안정적으로 안정적인 모델을 제공하지만 좋은 모델을 보장하지는 않습니다 (이것은 불가능합니다 : 모델이없는 일반화 성능을 달성 할 수없는 정보가없는 데이터가있을 수 있습니다)
그러나 시나리오만큼 작은 표본 크기의 경우 교육보다는 검증 (검증) 이 병목 현상이며 검증은 모델 복잡성에 비해 사례가 아닌 절대 테스트 사례 수에 따라 달라집니다. 경험상 ≈ 100 테스트가 필요합니다. 분모의 경우 폭이 10 %를 넘지 않는 신뢰 구간을 갖는 비율을 추정합니다.
불행히도 이것은 기본적으로 응용 프로그램에 대한 경험적 학습 곡선을 얻을 수 없다는 것을 의미합니다. 정확하게 측정 할 수 없으며 실제로는 모델을 제한하여 작은 샘플 크기에 반응하기 때문에 실제로 외삽하는 데 큰 어려움이 있습니다. 복잡성-샘플 크기가 커짐에 따라이를 완화 할 수 있습니다.
자세한 내용은 Beleites, C. 및 Neugebauer, U. 및 Bocklitz, T. and Krafft, C. 및 Popp, J .: 분류 모델의 표본 크기 계획을 참조하십시오. Anal Chim Acta, 2013, 760, 25-33.
DOI : 10.1016 / j.aca.2012.11.007
arXiv에 허용되는 원고 : 1211.1323
이러한 권장 사항 (분광학 데이터, 의료 응용 분야)에 가까운 것은 없었습니다. 내가하는 것은 모델링과 검증 프로세스의 일환으로 모델 안정성을 매우 면밀히 측정하는 것입니다.