명목 또는 서수 데이터에서 범주 수를 줄이는 방법을 찾기 위해 고심하고 있습니다.
예를 들어, 여러 명목 및 순서 요인이있는 데이터 집합에 회귀 모델을 작성한다고 가정 해 보겠습니다. 이 단계에는 아무런 문제가 없지만, 종종 공칭 기능이 훈련 세트에서 관찰되지 않지만 유효성 검사 데이터 세트에 존재하는 상황이 자주 발생합니다. 이로 인해 모델에 보이지 않는 경우가 제시 될 때 자연스럽게 오류가 발생합니다. 범주를 결합하려는 또 다른 상황은 관측치가 거의없는 범주가 너무 많을 때입니다.
그래서 내 질문은 :
- 나는 그들이 대표하는 이전의 실제 배경 정보를 기반으로 많은 명목 (및 서수) 범주를 결합하는 것이 가장 좋을 수도 있지만 체계적인 방법 (
R
패키지가 바람직 함)이 있습니까? - 컷오프 임계 값 등과 관련하여 어떤 지침과 제안을 하시겠습니까?
- 문학에서 가장 인기있는 해결책은 무엇입니까?
- 소규모 명목 카테고리를 새로운 "기타"카테고리로 결합하는 것 외에 다른 전략이 있습니까?
다른 제안이 있으시면 언제든지 차임하십시오.