범주 형 속성과 숫자 형 속성을 조합 한 경우 일반적으로 범주 형 속성을 하나의 핫 벡터로 변환합니다. 내 질문은 그 벡터를 그대로두고 표준화 / 정규화를 통해 수치 속성을 스케일링합니까? 아니면 하나의 핫 벡터를 수치 속성과 함께 스케일링해야합니까?
범주 형 속성과 숫자 형 속성을 조합 한 경우 일반적으로 범주 형 속성을 하나의 핫 벡터로 변환합니다. 내 질문은 그 벡터를 그대로두고 표준화 / 정규화를 통해 수치 속성을 스케일링합니까? 아니면 하나의 핫 벡터를 수치 속성과 함께 스케일링해야합니까?
답변:
숫자 형식으로 변환 된 모델은 다른 숫자 데이터와는 달리 핫 인코딩 된 열에 다르게 반응하지 않습니다. 따라서 다른 열을 준비하기 위해 어떤 이유로 든 {0,1} 값을 정규화하는 명확한 선례가 있습니다.
그렇게하는 효과는 모델 클래스와 적용하는 정규화 유형에 따라 달라 지지만 신경망을 훈련 할 때 1- 핫-인코딩 된 범주 형 데이터에 대해 평균 0, 표준 1로 스케일링 할 때 약간의 개선이있었습니다.
거리 측정법에 따라 모델 클래스에도 차이가있을 수 있습니다.
불행히도, 이러한 종류의 선택의 대부분과 마찬가지로, 종종 두 가지 접근법을 시도하고 최상의 메트릭을 가진 방법을 사용해야합니다.