SVM, 임의 포리스트 또는 다른 분류기를 말하는 분류기를 훈련시키고 싶습니다. 데이터 세트의 기능 중 하나는 1000 수준의 범주 형 변수입니다. 이 변수의 레벨 수를 줄이는 가장 좋은 방법은 무엇입니까? R에는 드문 수준을 결합 combine.levels()
하는 Hmisc 패키지 에서 호출되는 기능이 있지만 다른 제안을 찾고있었습니다.
범주 형 변수가 순서가 없습니까? 대략 몇 건의 사례가 있습니까? 범주 형 변수에 대한 빈도 분포는 무엇입니까?
—
Jeromy Anglim
레벨은 주문되지 않습니다. 약 10,000 개의 관측치가 있습니다. 빈도 분포는 다음과 같습니다. 레벨 A는 관측치의 약 11 %에 나타납니다. 레벨 B가 8 %로 나타납니다. 레벨 c가 5 %로 나타납니다. 이 수준 중 약 15 개가 데이터 세트에서 관측치의 50 %를 차지합니다.
—
sabunime