부분 의존성 플롯에 대한 다른 주제를 읽었으며 대부분은 정확하게 해석 할 수있는 방법이 아니라 다른 패키지로 실제로 플롯하는 방법에 관한 것입니다.
나는 상당한 양의 부분 의존도를 읽고 작성해 왔습니다. 나는 그들이 모델의 다른 모든 변수 (χc)의 평균 영향으로 함수 ƒS (χS)에 대한 변수 χs의 한계 효과를 측정한다는 것을 알고 있습니다. y 값이 높을수록 클래스를 정확하게 예측하는 데 더 큰 영향을 미칩니다. 그러나 나는이 질적 인 해석에 만족하지 않습니다.
내 모델 (임의의 숲)은 두 가지 신중한 클래스를 예측하고 있습니다. "예 나무"및 "나무 없음". TRI는 이에 적합한 변수 인 것으로 입증 된 변수입니다.
내가 생각하기 시작한 것은 Y 값이 올바른 분류 가능성을 보여주고 있다는 것입니다. 예 : y (0.2)는 ~ 30보다 큰 TRI 값이 20 %의 확률로 True Positive 분류를 올바르게 식별 할 수 있음을 보여줍니다.
반대로
y (-0.2)는 <~ 15의 TRI 값에 20 % 확률이 참 부정 분류를 올바르게 식별 할 수 있음을 보여줍니다.
문헌에서 이루어진 일반적인 해석은 "TRI 30보다 큰 값이 모델의 분류에 긍정적 인 영향을주기 시작합니다"라고 들릴 것입니다. 데이터에 대해 너무 많이 말할 수있는 음모에 대해서는 매우 모호하고 무의미합니다.
또한 모든 플롯이 y 축 범위에서 -1에서 1로 줄어 듭니다. 나는 -10에서 10까지의 다른 음모를 보았습니다. 이것은 몇 개의 클래스를 예측하려고합니까?
누군가이 문제에 대해 말할 수 있는지 궁금합니다. 어쩌면 내가이 음모를 해석해야하는지 또는 나를 도울 수있는 몇 가지 문헌을 어떻게 해석해야하는지 보여주십시오. 어쩌면 나는 이것에 대해 너무 많이 읽고 있습니까?
필자는 통계 학습의 요소 인 데이터 마이닝, 추론 및 예측을 매우 철저히 읽었으며 그 출발점은 매우 중요하지만 그에 관한 것입니다.