해싱 트릭-실제로 일어나는 일


12

Vowpal Wabbit 또는 일부 인수 분해 시스템이 클릭률 경쟁 ( Kaggle ) 을 수상한 ML 알고리즘과 같이 기능이 '해시'되었다고 언급하면 ​​실제로 모델에 어떤 의미가 있습니까? 인터넷 추가의 ID를 나타내는 변수가 있는데 '236BG231'과 같은 값을 사용합니다. 그런 다음이 기능은 임의의 정수로 해시된다는 것을 이해합니다. 그러나 내 질문은 다음과 같습니다.

  • 이제 모델에서 사용되는 정수를 정수 (숫자) 또는
  • 해시 값이 실제로 여전히 범주 형 변수로 처리되고 핫 인코딩 된 것입니까? 따라서 해싱 트릭은 어떻게 든 큰 데이터로 공간을 절약하는 것입니까?

답변:


7

두 번째 글 머리 기호는 기능 해싱의 가치입니다. 데이터를 스파 스하기위한 해싱 및 하나의 핫 인코딩으로 공간이 절약됩니다. 해시 알고리즘에 따라 차원 축소의 일종으로 작용하는 다양한 충돌 정도를 가질 수 있습니다.

또한 Kaggle 기능 해싱의 특정 경우와 하나의 핫 인코딩은 기능의 확장 / 엔지니어링에 도움이됩니다. 기능의 가능한 모든 튜플 (보통 2 차, 때로는 3 차)을 충돌로 해시하여 종종 예측 가능한 상호 작용을 명시 적으로 생성합니다. 그러나 개별 기능은 그렇지 않습니다.

대부분의 경우 LR의 기능 선택 및 탄력적 순 정규화와 결합 된이 기술은 하나의 숨겨진 계층 NN과 매우 유사하게 작동하므로 경쟁에서 매우 잘 수행됩니다.


따라서 one-hot-encoding은 해시 된 값에서만 사용됩니다. * 공간을 절약하고 차원 축소 (주어진 충돌)를 일으킬 수 있습니다. 그 맞습니까?
B_Miner

1
하나의 호스트 인코딩은 해싱 기능의 필수 부분은 아니지만 예측력이 뛰어 나기 때문에 종종 함께 사용됩니다. 하나의 핫 인코딩을 생각하는 한 가지 방법은 기능을 N 개의 이산 값 집합에서 N 개의 이진 질문으로 변환하는 것입니다. 기능 J가 2 또는 3인지 여부가 4가 아닌지 아는 것은 아마도 중요하지 않을 것입니다. One Hot은 그 구별을 구체적으로 만듭니다. 이는 RF와 같은 앙상블 접근 방식이 특징의 중단 점을 스캔하여 그 구별을 찾는 선형 모델에 많은 도움이됩니다.
cwharland
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.