선형 회귀 분석을 위해 범주 형 피쳐를 코딩 할 때 규칙이 있습니다. 더미의 수는 공선 성을 피하기 위해 총 레벨 수보다 하나 작아야합니다.
의사 결정 트리에 대해 비슷한 규칙이 있습니까 (태그, 부스트)? 파이썬의 표준 연습은 n
레벨을 n
인형 (sklearns ' OneHotEncoder
또는 Pandas' pd.get_dummies
) 으로 확장 하여 저에게 최적이 아닌 것처럼 보이기 때문에 이것을 묻습니다 .
의사 결정 트리의 범주 형 기능을 코딩하는 모범 사례로 무엇을 제안 하시겠습니까?
randomForest
이 자동으로 코딩 되는 R에서 모델링하지 않는 한n
공선 성이 RF의 문제가 아니기 때문에 인형 과 함께 가야 합니까?