로지스틱 회귀 분석에서 상대 변수 중요도를 p로 정량화하는 방법은 무엇입니까?


11

로지스틱 회귀 모델을 사용하여 온라인 구매자가 일련의 온라인 광고 (예측 자 : Ad1, Ad2 및 Ad3)를 클릭 한 후 제품을 구매할지 (결과 : 구매) 여부를 예측한다고 가정합니다.

결과는 1 (구매) 또는 0 (구매되지 않음)의 이진 변수입니다. 예측 변수는 1 (클릭) 또는 0 (클릭)의 이진 변수입니다. 따라서 모든 변수의 규모가 같습니다.

Ad1, Ad2 및 Ad3의 결과 계수가 0.1, 0.2 및 03이면 Ad3이 Ad2보다 중요하고 Ad2가 Ad1보다 중요하다고 결론을 내릴 수 있습니다. 또한 모든 변수의 규모가 동일하기 때문에 표준화 및 표준화되지 않은 계수가 동일해야하며, 로짓 (log-odds) 수준에 미치는 영향 측면에서 Ad2가 Ad1보다 두 배 중요하다는 결론을 내릴 수 있습니다.

그러나 실제로 우리는 로짓 (log-odds)이 아니라 p (구매 가능성) 수준의 관점에서 변수의 상대적 중요성을 비교하고 해석하는 방법에 더 관심을 기울입니다.

따라서 문제는 다음과 같습니다. p로 ​​이러한 변수의 상대적 중요성을 정량화하는 방법이 있습니까?


기사가 유용하다는 것을 알았습니다 . 여기에는 로지스틱 회귀 모델에서 예측 방법의 중요성을 정의하는 데 사용할 수있는 6 가지 방법과 각 방법과 관련된 장단점이 설명되어 있습니다.
gchaks

답변:


5

선형 모형의 경우 각 모형 모수에 대해 t- 통계량의 절대 값을 사용할 수 있습니다.

또한 임의 포레스트와 같은 것을 사용하고 매우 중요한 기능 중요 목록을 얻을 수 있습니다.

R 체크 아웃 ( http://caret.r-forge.r-project.org/varimp.html )을 사용하는 경우, python 체크 아웃 ( http://scikit-learn.org/stable/auto_examples을 사용하는 경우) /ensemble/plot_forest_importances.html#example-ensemble-plot-forest-importances-py )

편집하다:

로짓에는이를 직접 수행 할 수있는 방법이 없으므로 각 예측 변수에 대해 ROC 곡선을 사용할 수 있습니다.

분류를 위해 각 예측 변수에 대해 ROC 곡선 분석이 수행됩니다. 두 가지 클래스 문제의 경우 클래스를 예측하기 위해 일련의 컷오프가 예측 변수 데이터에 적용됩니다. 각 컷오프에 대해 민감도와 특이도가 계산되고 ROC 곡선이 계산됩니다. 사다리꼴 규칙은 ROC 곡선 아래 면적을 계산하는 데 사용됩니다. 이 영역은 변수 중요도의 척도로 사용됩니다

이것이 R에서 작동하는 방법의 예는 다음과 같습니다.

library(caret)
mydata <- data.frame(y = c(1,0,0,0,1,1),
                 x1 = c(1,1,0,1,0,0),
                 x2 = c(1,1,1,0,0,1),
                 x3 = c(1,0,1,1,0,0))

fit <- glm(y~x1+x2+x3,data=mydata,family=binomial())
summary(fit)

varImp(fit, scale = FALSE)

1
답장을 보내 주셔서 감사합니다! 그렇습니다. 선형 모델과 임의의 포리스트에서는 쉽습니다. 로지스틱 회귀 분석에서 어떻게해야하는지 아십니까? 고마워요!
xyhzc

위의 편집을 참조하십시오.
mike1886

비율 수준 비교에 대한 질문에 여전히 답이없는 것 같습니다. AUC가 x1 만 사용하는 .6과 x2 만 사용하는 .9라는 것을 알더라도 x2의 중요성이 50 % 더 크다고 말할 수는 없습니다. 또한 (1-10 % / 40 %) = 75 % 더 크다고 생각합니다. 감도 나 특이성만으로도 비슷한 것을 할 수 없습니다. 또한 Wald 통계의 적용 가능성에 대한 의문이 있습니다. 표준화 된 계수에 대한 설명이 가장 도움이 될 수 있습니다 (Scott Menard의 온라인 서적 참조).
rolando2

감사합니다 rolando2! 이 질문의 변수는 모두 동일한 메트릭의 측정 값이므로 표준화 된 계수와 표준화되지 않은 계수는 같아야합니다. 또한 표준화 된 계수를 사용하여 로짓 (log-odds) 수준의 변수를 비교할 수 있지만 P (이 경우 온라인 쇼핑객 구매 확률)의 변수를 어떻게 해석 할 수 있습니까? 고마워요!
xyhzc

1
나는 그것이 질문에 대답하는 것을 보지 못했다.
HelloWorld

4

확률 척도에 대한 해석을 구체적으로 요청했기 때문에 : 로지스틱 회귀 분석에서 성공 확률은 다음과 같이 계산됩니다.

π^(x)=exp(β0+βx)1+exp(β0+βx)

β0βx

exp(0.1)1+exp(0.1)=0.52

광고 3 만 클릭 한 사람 :

exp(0.3)1+exp(0.3)=0.57

그러나 사용자가 광고 1 또는 광고 3을 클릭했지만 광고 2도 클릭 한 경우 (이는 소멸스러운 시나리오 인 경우)

exp(0.1+0.2)1+exp(0.1+0.2)=0.57

exp(0.3+0.2)1+exp(0.3+0.2)=0.62

이 경우 확률의 변화는 둘 다 0.05이지만 일반적으로이 변화는 레벨의 다른 조합에 대해 동일하지 않습니다. (예를 들어 위와 동일한 방법을 사용하지만 계수 0.1, 1.5, 0.3을 사용하는 경우이를 쉽게 알 수 있습니다.) 따라서 확률 척도에서 변수의 중요성은 다른 변수의 관측 수준에 따라 다릅니다. 이로 인해 확률 척도에 대한 절대적, 양적 변수 중요도 측정이 어려워 질 수 있습니다 (불가능합니까?).


설명해 주셔서 감사합니다! 그렇다면 예측 변수의 상대적 중요성을 정량화하는 간접적 인 방법이 있다는 것을 알고 있습니까? mike1886은 그의 답변에서 "ROC 곡선 분석"을 언급했지만 rolando2에서 언급 한 몇 가지 문제가 있습니다. 고마워요!
xyhzc
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.