하나의 핫 벡터가 숫자 속성으로 스케일링되어야 함


20

범주 형 속성과 숫자 형 속성을 조합 한 경우 일반적으로 범주 형 속성을 하나의 핫 벡터로 변환합니다. 내 질문은 그 벡터를 그대로두고 표준화 / 정규화를 통해 수치 속성을 스케일링합니까? 아니면 하나의 핫 벡터를 수치 속성과 함께 스케일링해야합니까?

답변:


11

숫자 형식으로 변환 된 모델은 다른 숫자 데이터와는 달리 핫 인코딩 된 열에 다르게 반응하지 않습니다. 따라서 다른 열을 준비하기 위해 어떤 이유로 든 {0,1} 값을 정규화하는 명확한 선례가 있습니다.

그렇게하는 효과는 모델 클래스와 적용하는 정규화 유형에 따라 달라 지지만 신경망을 훈련 할 때 1- 핫-인코딩 된 범주 형 데이터에 대해 평균 0, 표준 1로 스케일링 할 때 약간의 개선이있었습니다.

거리 측정법에 따라 모델 클래스에도 차이가있을 수 있습니다.

불행히도, 이러한 종류의 선택의 대부분과 마찬가지로, 종종 두 가지 접근법을 시도하고 최상의 메트릭을 가진 방법을 사용해야합니다.


1
문구는 약간 불분명했다. Ohe 이외의 열을 정규화 한 경우 핫 인코딩 된 열만 정규화한다고 말하고 있습니까?
Info5ek

Info5ek @ : 나는 것을 말하고 있습니다 하나의 뜨거운 인코딩 된 열을 정상화하는 것이 더, 당신은 이미 다른 열을 위해 그 일을하는 경우 다음 당신은뿐만 아니라 그것을 시도를 제공 할 수 있습니다. 이에 대한 고정 된 규칙은 없으며, 너무 많은 문제는 당면한 문제에 달려 있습니다.
Neil Slater
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.