기능 수와 인스턴스 수에 대한“거짓의 규칙”은 무엇입니까? (소규모 데이터 세트)


17

기능 수와 관측 수에 대한 휴리스틱이 있는지 궁금합니다. 분명히 많은 피처가 관측치 수와 같으면 모형이 과적 합 될 것입니다. 스파 스 방법 (LASSO, 탄력적 그물)을 사용하여 모델을 줄이기 위해 여러 기능을 제거 할 수 있습니다.

내 질문은 (이론적으로) : 모델 선택을 평가하기 위해 메트릭을 사용 하기 전에 최적 의 피처 수 와 관측 수를 관련시키는 경험적 관측이 있습니까?

예를 들어, 각 클래스에 20 개의 인스턴스가있는 이진 분류 문제의 경우 사용할 기능 수에 대한 상한이 있습니까?

답변:


13

여러 논문은

드문 경우에 한해 기능 수와 샘플 크기의 함수로 알려진 오류 분포가 있습니다.

주어진 인스턴스 및 기능 집합의 오류 표면은 기능 간의 상관 관계 (또는 부족)의 함수입니다.

이 백서 는 다음을 제안합니다.

  • 상관되지 않은 피처의 경우 최적 피처 크기는 (여기서 N 은 샘플 크기 임)1
  • 피처 상관이 증가하고 최적 피처 크기가 √에 비례하게 됨상관 관계가 높은 기능의 경우 N

취할 수있는 또 다른 (임시) 접근법은 동일한 데이터 세트에서 다른 샘플 크기에 대한 학습 곡선을 그리고이를 사용하여 다른 샘플 크기에서 분류기 성능을 예측하는 것입니다. 논문에 대한 링크 는 다음과 같습니다 .


2
Hua 논문에 대한 결정적인 가정이 누락되어이 답변이 다소 오해의 소지가 있음을 발견했습니다. 링크 된 논문에서 모든 정보를 고려 하십시오. 실제로 기대할 수있는 것은 아닙니다. IMHO 이것은 IMHO의 가장 일반적인 유형의 비 상관 "기능"이 정보 측정 채널이므로 명확하게 설명해야합니다.
cbeleites는

Wrt. 학습 곡선 : OP는 아마도 소수의 경우에서 유용한 정밀도로 측정 할 수 없기 때문에 2x20 경우에는 사용할 수 없을 것입니다. Hua는 이것을 간단히 언급했으며 아래 답변에서 연결 한 논문에서이 난이도에 대해 자세히 논의했습니다.
cbeleites는

8

내 경험에서 : 하나의 경우, 많은 클래스가있는 매우 작은 (300 이미지) 실제 데이터베이스로 작업했으며 심각한 데이터 불균형 문제가 있었고 SIFT, HOG, Shape context, SSIM, GM의 9 가지 기능을 사용했습니다. 및 4 개의 DNN 기반 기능. 다른 경우에는 매우 큰 데이터베이스 (> 1M 이미지)로 작업하고 HOG 기능 만 사용했습니다. 인스턴스 수와 높은 정확도를 달성하는 데 필요한 기능 수 사이에는 직접적인 관계가 없다고 생각합니다. 그러나 클래스 수, 클래스 간 유사성 및 동일한 클래스 내 변형 (이 세 매개 변수)은 기능 수에 영향을 줄 수 있습니다. 많은 클래스를 가진 더 큰 데이터베이스를 가지고 있고 클래스 간의 유사성이 높고 동일한 클래스 내에서 큰 변형을 가질 때 높은 정확도를 달성하려면 더 많은 기능이 필요합니다. 생각해 내다:


@Bashar Haddad : 내가 컴퓨터 비전과 ML을 처음 접했을 때 내가 틀렸다면 HOG 기능이 실제로 높은 차원의 벡터가 아닙니다 (제 경우에는 1764 차원 HOG 기능을 얻었습니다). 9 개의 피처를 말하고 그 중 하나가 HOG라고 할 때 실제로 HOG를위한 높은 차원의 피처 공간을 얻지 못하고 있습니까?
수학 Math

1
문헌에서 이들은 피쳐라는 단어를 사용하여 피쳐 유형 또는 치수 인덱스를 나타냅니다. 6 개의 피처를 사용한다고 말하면 6 개의 피처 유형을 사용한다는 의미입니다. 각각은 (1 x D) 벡터입니다. Hog 피처 유형에 대해 이야기하는 경우 각 차원은 피처가 될 수 있습니다.
Bashar Haddad

2

그것은 달려 있지만 ... 물론 그 대답은 당신을 아무데도 데려 가지 않습니다.

그는 모델 복잡성에 대한 경험의 규칙입니다. 데이터에서 학습-VC 차원

"거의"각 모델 매개 변수에 대해 10 개의 데이터 포인트가 필요합니다. 그리고 모델 매개 변수의 수는 피처의 수와 유사 할 수 있습니다.


2

파티에 늦었지만 휴리스틱이 있습니다.

각 클래스에서 20 개의 인스턴스에 대한 이진 분류 문제, 사용할 기능 수에 대한 상한이 있습니까?

  • 선형 분류기 교육 을 위해 클래스 및 기능 당 3-5 개의 독립적 인 사례가 권장됩니다. 이 제한은 안정적으로 안정적인 모델을 제공하지만 좋은 모델을 보장하지는 않습니다 (이것은 불가능합니다 : 모델이없는 일반화 성능을 달성 할 수없는 정보가없는 데이터가있을 수 있습니다)

  • 그러나 시나리오만큼 작은 표본 크기의 경우 교육보다는 검증 (검증) 이 병목 현상이며 검증은 모델 복잡성에 비해 사례가 아닌 절대 테스트 사례 수에 따라 달라집니다. 경험상 ≈ 100 테스트가 필요합니다. 분모의 경우 폭이 10 %를 넘지 않는 신뢰 구간을 갖는 비율을 추정합니다.

    불행히도 이것은 기본적으로 응용 프로그램에 대한 경험적 학습 곡선을 얻을 수 없다는 것을 의미합니다. 정확하게 측정 할 수 없으며 실제로는 모델을 제한하여 작은 샘플 크기에 반응하기 때문에 실제로 외삽하는 데 큰 어려움이 있습니다. 복잡성-샘플 크기가 커짐에 따라이를 완화 할 수 있습니다.

    자세한 내용은 Beleites, C. 및 Neugebauer, U. 및 Bocklitz, T. and Krafft, C. 및 Popp, J .: 분류 모델의 표본 크기 계획을 참조하십시오. Anal Chim Acta, 2013, 760, 25-33.
    DOI : 10.1016 / j.aca.2012.11.007

    arXiv에 허용되는 원고 : 1211.1323

  • 이러한 권장 사항 (분광학 데이터, 의료 응용 분야)에 가까운 것은 없었습니다. 내가하는 것은 모델링과 검증 프로세스의 일환으로 모델 안정성을 매우 면밀히 측정하는 것입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.