신경망과 같은 많은 기계 학습 알고리즘은 숫자를 처리 할 것으로 예상합니다. 따라서 범주 형 데이터가 있으면 변환해야합니다. 범주 적으로 말하자면, 예를 들어 :
자동차 브랜드 : Audi, BMW, Chevrolet ... 사용자 ID : 1, 25, 26, 28 ...
사용자 ID는 숫자이지만 레이블 일 뿐이며 연령이나 금액과 같은 연속성 측면에서 아무 의미가 없습니다.
따라서 기본 접근 방식은 이진 벡터를 사용하여 범주를 인코딩하는 것으로 보입니다.
아우디 : 1, 0, 0 ... BMW : 0, 1, 0 ... 시보레 : 0, 0, 1 ...
카테고리가 적을 때 괜찮지 만 그 이상으로는 조금 비효율적입니다. 예를 들어, 인코딩 할 사용자 ID가 10,000 개인 경우 10,000 개의 기능입니다.
문제는 더 좋은 방법이 있습니까? 아마도 확률과 관련이 있습니까?