현재 작업중 인 프로젝트에 대해 다른 분류 방법을 탐색 중이며 랜덤 포레스트 시도에 관심이 있습니다. 나는 갈수록 나 자신을 교육하려고 노력하고 있으며 CV 커뮤니티가 제공하는 도움에 감사하겠습니다.
데이터를 훈련 / 테스트 세트로 나누었습니다. R에서 random forest를 사용한 실험 (randomForest 패키지 사용)에서 나는 작은 클래스에 대해 높은 분류 오류로 어려움을 겪고 있습니다. 불균형 데이터에 대한 임의 포리스트의 성능에 관한 이 백서를 읽었 으며 저자는 임의 포리스트를 사용할 때 클래스 불균형을 처리하는 두 가지 방법을 제시했습니다.
1. 가중 무작위 숲
2. 균형 잡힌 무작위 숲
R 패키지는 클래스의 가중치를 허용하지 않습니다 (R 도움말 포럼에서 classwt 매개 변수가 올바르게 수행되지 않고 향후 버그 수정으로 예정되어 있음을 읽었습니다). 옵션 2가 남아 있습니다. 임의 포리스트의 각 반복에 대해 각 클래스에서 샘플링 된 개체 수
더 큰 클래스에 대한 정보를 너무 많이 잃어 미래 데이터의 성능이 저하되는 것처럼 느끼므로 임의 포리스트에 대해 동일한 샘플 크기를 설정하는 것이 불안합니다. 더 큰 클래스를 다운 샘플링 할 때 오 분류 율이 향상되는 것으로 나타 났지만 임의의 포리스트에서 불균형 한 클래스 크기를 처리하는 다른 방법이 있는지 궁금했습니다.