계층 적 구조를 갖는 고차원 그룹화 된 데이터 (50 개의 숫자 입력 변수)에 임의 포리스트를 사용하고 있습니다. 70 개의 서로 다른 개체의 30 개 위치에서 6 개의 복제로 데이터를 수집하여 12600 개의 데이터 포인트를 생성했으며, 이는 독립적이지 않습니다.
oob 오류는 훈련 중에 하나의 개체에서 데이터를 남기고 훈련 된 임의의 포리스트로 남은 개체의 결과를 예측할 때 발생하는 오류보다 훨씬 작기 때문에 임의 포리스트가 데이터에 너무 적합합니다. 또한 나는 상관 잔차가 있습니다.
임의 포리스트가 독립적 인 데이터를 기대하기 때문에 과적 합이 발생했다고 생각합니다. 데이터의 계층 구조에 대해 임의의 포리스트에 알릴 수 있습니까? 또는 강력한 상호 작용 구조로 고차원 그룹화 된 데이터를 처리 할 수있는 또 다른 강력한 앙상블 또는 축소 방법이 있습니까?
내가 더 잘 할 수있는 힌트가 있습니까?