답변:
랜덤 포리스트의 변수 중요도는 다음과 같이 계산됩니다.
그런 다음 단일 열의 값이 변경되고 MSE가 다시 계산됩니다. 예를 들어 열 (Col1)이 1,2,3,4 값을 사용하고 값을 임의로 치환하면 4,3,1,2가됩니다. 결과적으로 MSE1이됩니다. 그런 다음 MSE, 즉 MSE1-MSE의 증가는 변수의 중요성을 나타냅니다.
차이는 양수일 것으로 예상되지만 음수 인 경우 랜덤 순열이 더 잘 작동했음을 나타냅니다. 변수가 예측에 중요한 역할을하지 않는 것으로 추론 될 수있다.
도움이 되었기를 바랍니다!
자세한 설명은 다음 링크를 참조하십시오!
/programming/27918320/what-does-negative-incmse-in-randomforest-package-mean
이것은 임의의 변동 일 수 있습니다 (예 : 작은 ntree가있는 경우).
그렇지 않은 경우, 데이터에 심각한 양의 역설이 있음을 나타낼 수 있습니다. 즉, 거의 동일한 예측 변수를 가지고 있고 결과가 매우 다른 개체 쌍입니다. 이 경우 모델이 실제로 의미가 있는지 두 번 확인하고 더 많은 속성을 가져 와서 해결할 수있는 방법을 생각하기 시작합니다.