xgboost 모델을 실행했습니다. 의 출력을 해석하는 방법을 정확히 모르겠습니다 xgb.importance
.
게인, 커버 및 주파수의 의미는 무엇이며 어떻게 해석합니까?
또한 Split, RealCover 및 RealCover %는 무엇을 의미합니까? 여기에 몇 가지 추가 매개 변수가 있습니다
기능 중요도에 대해 더 자세히 알려주는 다른 매개 변수가 있습니까?
R 문서에서 Gain은 Information gain과 비슷하며 Frequency는 모든 트리에서 기능이 사용되는 횟수입니다. 나는 표지가 무엇인지 전혀 모른다.
나는 링크에 주어진 예제 코드를 실행했고 (내가 작업중 인 문제에 대해서도 똑같이 시도했지만) 거기에 주어진 분할 정의는 내가 계산 한 숫자와 일치하지 않았다.
importance_matrix
산출:
Feature Gain Cover Frequence
1: xxx 2.276101e-01 0.0618490331 1.913283e-02
2: xxxx 2.047495e-01 0.1337406946 1.373710e-01
3: xxxx 1.239551e-01 0.1032614896 1.319798e-01
4: xxxx 6.269780e-02 0.0431682707 1.098646e-01
5: xxxxx 6.004842e-02 0.0305611830 1.709108e-02
214: xxxxxxxxxx 4.599139e-06 0.0001551098 1.147052e-05
215: xxxxxxxxxx 4.500927e-06 0.0001665320 1.147052e-05
216: xxxxxxxxxxxx 3.899363e-06 0.0001536857 1.147052e-05
217: xxxxxxxxxxxxxx 3.619348e-06 0.0001808504 1.147052e-05
218: xxxxxxxxxxxxx 3.429679e-06 0.0001792233 1.147052e-05