k 레벨의 범주 변수가 더미 인코딩에서 k-1 변수로 인코딩되어야한다는 사실을 알고 있습니다 (다중 값 범주 변수의 경우와 유사). 다른 회귀 방법, 주로 선형 회귀, 페널티 선형 회귀 (Lasso, Ridge, ElasticNet), 트리 기반 (임의 포리스트) , 그래디언트 부스팅 머신).
선형 회귀에서 다중 공선 성 문제가 발생한다는 것을 알고 있습니다 (실제로 아무런 문제없이 OHE를 사용하여 선형 회귀를 적용했지만).
그러나 더미 인코딩을 모두 사용해야하며 one-hot 인코딩을 사용하면 결과가 어떻게 잘못됩니까?
저는 (카디널리티가 높은) 범주 형 변수가 여러 개인 회귀 모델의 예측에 중점을두기 때문에 신뢰 구간에 관심이 없습니다.