Vowpal Wabbit 또는 일부 인수 분해 시스템이 클릭률 경쟁 ( Kaggle ) 을 수상한 ML 알고리즘과 같이 기능이 '해시'되었다고 언급하면 실제로 모델에 어떤 의미가 있습니까? 인터넷 추가의 ID를 나타내는 변수가 있는데 '236BG231'과 같은 값을 사용합니다. 그런 다음이 기능은 임의의 정수로 해시된다는 것을 이해합니다. 그러나 내 질문은 다음과 같습니다.
- 이제 모델에서 사용되는 정수를 정수 (숫자) 또는
- 해시 값이 실제로 여전히 범주 형 변수로 처리되고 핫 인코딩 된 것입니까? 따라서 해싱 트릭은 어떻게 든 큰 데이터로 공간을 절약하는 것입니까?