범주 형 데이터와 숫자 형 데이터 모두에 분류 문제가 있습니다. 내가 직면하고있는 문제는 내 범주 데이터가 고정되어 있지 않다는 것입니다. 즉, 예측하려는 레이블을 가진 새로운 후보자가 미리 관찰되지 않은 새로운 범주를 가질 수 있습니다.
예를 들어 내 범주 데이터가 있다면, sex
, 유일하게 가능한 라벨이 없을 것 female
, male
그리고 other
, 더 무엇을 중요. 그러나 나의 범주 형 변수는 city
내가 예측하려는 사람이 나의 분류자가 보지 못했던 새로운 도시를 가질 수 있다는 것입니다.
이 용어로 분류를 수행 할 수있는 방법이 있는지 또는이 새로운 범주 형 데이터를 고려하여 훈련을 다시 수행해야하는지 궁금합니다.
city
어떤 기능에 따라 숫자 로 변환 할 수 있습니까? 이와 같이city' = f(latitude, longitude)
모든 도시에 새로운 가치를 창출 할 수 있습니다