부분 의존도의 y 축 해석


22

부분 의존성 플롯에 대한 다른 주제를 읽었으며 대부분은 정확하게 해석 할 수있는 방법이 아니라 다른 패키지로 실제로 플롯하는 방법에 관한 것입니다.

나는 상당한 양의 부분 의존도를 읽고 작성해 왔습니다. 나는 그들이 모델의 다른 모든 변수 (χc)의 평균 영향으로 함수 ƒS (χS)에 대한 변수 χs의 한계 효과를 측정한다는 것을 알고 있습니다. y 값이 높을수록 클래스를 정확하게 예측하는 데 더 큰 영향을 미칩니다. 그러나 나는이 질적 인 해석에 만족하지 않습니다.

이 링크는 나의 많은 음모 중 하나를 보여줍니다.  http://imgur.com/RXqlOky

내 모델 (임의의 숲)은 두 가지 신중한 클래스를 예측하고 있습니다. "예 나무"및 "나무 없음". TRI는 이에 적합한 변수 인 것으로 입증 된 변수입니다.

내가 생각하기 시작한 것은 Y 값이 올바른 분류 가능성을 보여주고 있다는 것입니다. 예 : y (0.2)는 ~ 30보다 큰 TRI 값이 20 %의 확률로 True Positive 분류를 올바르게 식별 할 수 있음을 보여줍니다.

반대로

y (-0.2)는 <~ 15의 TRI 값에 20 % 확률이 참 부정 분류를 올바르게 식별 할 수 있음을 보여줍니다.

문헌에서 이루어진 일반적인 해석은 "TRI 30보다 큰 값이 모델의 분류에 긍정적 인 영향을주기 시작합니다"라고 들릴 것입니다. 데이터에 대해 너무 많이 말할 수있는 음모에 대해서는 매우 모호하고 무의미합니다.

또한 모든 플롯이 y 축 범위에서 -1에서 1로 줄어 듭니다. 나는 -10에서 10까지의 다른 음모를 보았습니다. 이것은 몇 개의 클래스를 예측하려고합니까?

누군가이 문제에 대해 말할 수 있는지 궁금합니다. 어쩌면 내가이 음모를 해석해야하는지 또는 나를 도울 수있는 몇 가지 문헌을 어떻게 해석해야하는지 보여주십시오. 어쩌면 나는 이것에 대해 너무 많이 읽고 있습니까?

필자는 통계 학습의 요소 인 데이터 마이닝, 추론 및 예측을 매우 철저히 읽었으며 그 출발점은 매우 중요하지만 그에 관한 것입니다.


플롯은 평균적으로 TRI 30까지의 예 트리 확률을 보여주고 그 후에 증가합니다. 이 링크 는 PDP 이진 분류 및 연속 변수 플롯을 해석하는 방법을 설명합니다.
LazyNearestNeigbour

답변:


13

부분 의존도 플롯의 각 지점은 고정 수준의 TRI가 주어지면 모든 관측치에서 "예 트리"등급에 유리한 평균 투표율입니다.

올바른 분류 확률은 아닙니다. 그것은 정확성, 진정한 부정 및 진정한 긍정적과는 전혀 관련이 없습니다.

문구가 보이면

TRI 30보다 큰 값은 모델 분류에 긍정적 인 영향을주기 시작합니다.

숨이 차서 말하는 방법입니다

TRI 30보다 큰 값은 TRI 30보다 낮은 값보다 "예 트리"가 더 강하게 예측되기 시작합니다.


2

부분 의존 함수는 기본적으로 해당 변수의 "평균"추세를 제공합니다 (모델의 다른 모든 요소를 ​​통합). "중요한"트렌드의 형태입니다. 다른 예측 변수에서이 그림의 상대 범위를 해석 할 수 있지만 절대 범위는 해석 할 수 없습니다. 희망이 도움이됩니다.


2

y 축 값을 보는 방법은 다른 플롯에서 서로 상대적입니다. 해당 숫자가 다른 값보다 절대 값이 높을 경우 해당 변수가 출력에 미치는 영향이 더 큰 이유가 더 중요합니다.

부분 의존도에 대한 수학과 그 수의 추정 방법에 관심이있는 경우 여기에서 찾을 수 있습니다. http://statweb.stanford.edu/~jhf/ftp/RuleFit.pdf 섹션 8.1

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.