200,000 개 이상의 샘플과 샘플 당 약 50 개의 기능으로 데이터 세트를 작성하고 있습니다. 10 개의 연속 변수와 다른 40 개는 범주 형 변수 (국가, 언어, 과학 분야 등)입니다. 이러한 범주 형 변수의 경우 예를 들어 150 개의 다른 국가, 50 개의 언어, 50 개의 과학 분야 등이 있습니다.
지금까지 내 접근 방식은 다음과 같습니다.
가능한 값이 많은 각 범주 형 변수에 대해이 값을 갖는 10000 개 이상의 표본이있는 변수 만 사용하십시오. 이것은 150이 아닌 5-10 개의 범주로 줄어 듭니다.
각 범주 형에 대한 더미 변수를 작성하십시오 (10 개국의 경우 각 샘플에 대해 이진 벡터 크기 10 추가).
이 데이터를 사용하여 임의의 포리스트 분류 자 (매개 변수를 교차 유효성 검사하는 등)를 제공하십시오.
현재이 접근법을 사용하면 65 %의 정확도 만 얻을 수 있으며 더 많은 것을 할 수 있다고 생각합니다. 특히 나는 1)에 만족하지 않는다. 왜냐하면 그들이 덜 대표되는 값들은 좀 더 차별적 일 수 있기 때문에 그들이 가지고있는 샘플의 수에 따라 "최소 관련 값"을 임의로 제거해서는 안된다고 생각하기 때문에 나는 만족스럽지 않다. 반면, RAM은 가능한 모든 값을 유지하여 500 열 * 200000 행을 데이터에 추가 할 여유가 없습니다.
이 범주 형 변수에 대처할 제안이 있습니까?