특징 수와 관측 수


25

특징의 수와 "견고한"분류기를 훈련시키는 데 필요한 관측치 사이의 관계에 대한 논문 / 책 / 아이디어가 있습니까?

예를 들어 훈련 세트로 2 개의 클래스에서 1000 개의 피처와 10 개의 관측치가 있고 테스트 세트로 10 개의 다른 관측치가 있다고 가정합니다. 분류기 X를 훈련시키고 테스트 세트에서 90 %의 감도와 90 %의 특이성을 부여합니다. 이 정확도에 만족하고 좋은 분류 기준이라고 말할 수 있다고 가정 해 봅시다. 다른 한편으로, 나는 10 점만을 사용하여 1000 변수의 함수를 근사했습니다. 매우 강력하지 않은 것처럼 보일 수 있습니까?

답변:


20

여기서 주목 한 것은 차원의 저주 또는 p >> n 문제입니다 (여기서 p는 예측 변수이고 n은 관측 값입니다). 이 문제를 해결하기 위해 수년에 걸쳐 개발 된 많은 기술이있었습니다. AIC 또는 BIC 를 사용 하여 예측 변수가 더 많은 모델에 불이익을 줄 수 있습니다 . 교차 검증을 사용하여 임의의 변수 세트를 선택하고 그 중요성을 평가할 수 있습니다 . 당신은 사용할 수 있습니다 능선 회귀 , 올가미 , 또는 탄성 그물 에 대한 정규화를 . 또는 많은 수의 예측 변수를 잘 처리 하는 지원 벡터 시스템 또는 임의 포리스트 와 같은 기술을 선택할 수 있습니다 .

솔직히이 솔루션은 해결하려는 문제의 특정 특성에 따라 다릅니다.


9

+110.000001나는나는, 많은 교육 데이터가 유용한 분류기를 제공하지 않습니다. 하루가 끝나면 지정된 수의 기능에 필요한 샘플 양은 데이터가 분산되는 방식에 따라 달라집니다. 일반적으로 기능이 많을수록 데이터 분포를 적절하게 설명하는 데 더 많은 데이터가 필요합니다. (운이 좋지 않은 경우 피처 수에 기하 급수적-Zach가 언급 한 차원의 저주 참조).

정규화를 사용하는 경우 원칙적으로 (상한) 일반화 오류는 기능 수와 무관합니다 (Vapnik의 지원 벡터 시스템 작업 참조). 그러나 정규화 매개 변수에 대한 좋은 값을 찾는 문제가 남아 있습니다 (교차 유효성 검사가 편리함).


9

당신은 아마도 Runge 역설 과 같은 문제에 취약한 고전적인 모델링에 대해 지나치게 인상을 받았기 때문에 사후 처리에서 약간의 parsimony 조정이 필요합니다.
그러나 머신 러닝의 경우 모델 최적화의 목표로 견고성을 포함하려는 아이디어는 전체 도메인의 핵심 일뿐입니다 (보이지 않는 데이터의 정확도로 표현됨). 따라서 모델이 잘 작동한다는 것을 알기 만하면 (예를 들어 CV에서) 귀찮게 할 이유가 없을 것입니다.


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.