변수 중요도 랜덤 포레스트 음수


답변:


5

랜덤 포리스트의 변수 중요도는 다음과 같이 계산됩니다.

  1. 처음에는 모형의 MSE가 원래 변수로 계산됩니다.
  2. 그런 다음 단일 열의 값이 변경되고 MSE가 다시 계산됩니다. 예를 들어 열 (Col1)이 1,2,3,4 값을 사용하고 값을 임의로 치환하면 4,3,1,2가됩니다. 결과적으로 MSE1이됩니다. 그런 다음 MSE, 즉 MSE1-MSE의 증가는 변수의 중요성을 나타냅니다.

  3. 차이는 양수일 것으로 예상되지만 음수 인 경우 랜덤 순열이 더 잘 작동했음을 나타냅니다. 변수가 예측에 중요한 역할을하지 않는 것으로 추론 될 수있다.

도움이 되었기를 바랍니다!

자세한 설명은 다음 링크를 참조하십시오!

/programming/27918320/what-does-negative-incmse-in-randomforest-package-mean


3

이것은 임의의 변동 일 수 있습니다 (예 : 작은 ntree가있는 경우).

그렇지 않은 경우, 데이터에 심각한 양의 역설이 있음을 나타낼 수 있습니다. 즉, 거의 동일한 예측 변수를 가지고 있고 결과가 매우 다른 개체 쌍입니다. 이 경우 모델이 실제로 의미가 있는지 두 번 확인하고 더 많은 속성을 가져 와서 해결할 수있는 방법을 생각하기 시작합니다.


2
"데이터의 역설"에 대해 좀 더 자세히 설명해 주시겠습니까? 나는 따르지 않았으며 당신이 설명하는 것을 이해하고 싶습니다.
JEquihua
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.