sklearn으로 작성된 의사 결정 트리 분류 모델의 의사 결정 프로세스를 완전히 이해하는 방법을 이해하려고합니다. 내가보고있는 두 가지 주요 측면은 트리의 그래프 표시와 기능의 중요성 목록입니다. 내가 이해하지 못하는 것은 기능 컨텍스트가 트리의 맥락에서 어떻게 결정되는지입니다. 예를 들어, 다음은 중요한 기능 목록입니다.
기능 순위 : 1. FeatureA (0.300237)
FeatureB (0.166800)
FeatureC (0.092472)
추천 D (0.075009)
특징 E (0.068310)
FeatureF (0.067118)
특징 G (0.066510)
FeatureH (0.043502)
특징 I (0.040281)
FeatureJ (0.039006)
FeatureK (0.032618)
특징 L (0.008136)
FeatureM (0.000000)
실제로, "가장 중요한"기능의 일부는 트리 아래로 훨씬 더 내려갈 때까지 나타나지 않으며 트리의 맨 위는 가장 낮은 순위의 기능 중 하나 인 FeatureJ입니다. 나의 순진한 가정은 가장 중요한 기능이 가장 큰 영향을 미치기 위해 나무 꼭대기 근처에 순위가 매겨 질 것이라고 가정했습니다. 그것이 틀렸다면, "중요한"기능을 만드는 것은 무엇입니까?