약 20 열 (20 가지 기능)이있는 원시 데이터가 있습니다. 그 중 10 개는 연속적인 데이터이고 10 개는 범주 형입니다. 범주 형 데이터 중 일부는 50 개의 서로 다른 값 (미국)을 가질 수 있습니다. 데이터를 사전 처리 한 후 10 개의 연속 열이 10 개의 준비된 열이되고 10 개의 범주 형 값은 200 개의 1- 핫 인코딩 된 변수가됩니다. 이 200 + 10 = 210 기능을 모두 신경망에 넣으면 200-one-hot 기능 (10 범주 열)이 10 개의 연속 기능을 완전히 지배하게 될 것입니다.
아마도 한 가지 방법은 열을 함께 "그룹화"하는 것입니다. 이것이 유효한 관심사이며이 문제를 처리하는 표준 방법이 있습니까?
(나는 중요하지 않다고 생각하지만 Keras를 사용하고 있습니다.)