영화 M에 대한 물류 분류기를 만들고 싶다고 가정 해 보겠습니다. 내 특징은 사람의 나이, 성별, 직업, 위치와 같은 것입니다. 훈련 세트는 다음과 같습니다.
- 연령 성별 직업 위치 좋아요 (1) / 싫음 (0)
- 23 M 소프트웨어 미국 1
- 24F 닥터 영국 0
등등 .... 이제 내 질문은 어떻게 기능을 확장하고 표현해야 하는가입니다. 내가 생각한 한 가지 방법 : 나이를 연령 그룹으로 나눕니다. 18-25, 25-35, 35 이상, 성별은 M, F, 위치는 미국, 영국, 기타입니다. 이제이 모든 값에 대해 이진 피처를 작성하십시오. 따라서 연령에는 각각 연령 그룹 등에 해당하는 3 개의 이진 피처가 있습니다. 따라서 미국의 28 세 남성은 010 10100 (010-> 연령 그룹 25-35, 10-> 남성, 100-> 미국)으로 표시됩니다.
여기서 기능을 나타내는 가장 좋은 방법은 무엇입니까? 또한, 나는 일부 예에서 나타났습니다. 예를 들어 성별은 남성과 여성에 대해 0.0045와 -.0.0045의 두 값으로 표시됩니다. 나는 이런 식으로 스케일링 / 비정형 화하는 방법에 대한 단서가 없습니까?