순서 형 로지스틱 회귀 분석


17

이 서수 로지스틱 회귀 분석을 R에서 실행했습니다.

mtcars_ordinal <- polr(as.factor(carb) ~ mpg, mtcars)

이 모델의 요약을 얻었습니다.

summary(mtcars_ordinal)

Re-fitting to get Hessian

Call:
polr(formula = as.factor(carb) ~ mpg, data = mtcars)

Coefficients:
      Value Std. Error t value
mpg -0.2335    0.06855  -3.406

Intercepts:
    Value   Std. Error t value
1|2 -6.4706  1.6443    -3.9352
2|3 -4.4158  1.3634    -3.2388
3|4 -3.8508  1.3087    -2.9425
4|6 -1.2829  1.3254    -0.9679
6|8 -0.5544  1.5018    -0.3692

Residual Deviance: 81.36633 
AIC: 93.36633 

다음 mpg과 같은 계수의 로그 확률을 얻을 수 있습니다 .

exp(coef(mtcars_ordinal))
 mpg 
0.7917679 

그리고 임계 값의 로그 확률은 다음과 같습니다.

exp(mtcars_ordinal$zeta)

       1|2         2|3         3|4         4|6         6|8 
0.001548286 0.012084834 0.021262900 0.277242397 0.574406353 

이 모델에 대한 나의 해석이 올바른지 누군가 말해 줄 수 있습니까?

마찬가지로 mpg한 단위 씩 증가의 카테고리 (1)로부터 이동하는 확률이 carb다른 5 종류의 임의의로가 -0.23로 감소한다. 로그 확률이 ​​임계 값 0.0015를 초과하면 자동차의 예측 값은의 카테고리 2가 carb됩니다. 로그 확률이 ​​임계 값 0.0121을 초과하면 자동차의 예측 값은의 카테고리 3이 carb됩니다.

답변:


10

당신은 확률을 완전히 혼란시키고 확률을 기록합니다. 로그 확률은 계수입니다. 승산은 지수 계수입니다. 게다가 확률 해석 은 다른 방향으로 진행 됩니다. (필자는 제한 종속 변수에 대해 생각 계량 경제학으로 성장하고, 순서 회귀은 ... 음 ... 나에게 즐겁게. 확률 해석) 첫 번째 문을 읽어야 그래서, "다른 이름으로 mpg 증가 하나 개의 단위로, 확률 "5 개 카테고리 중 1 개 카테고리를 관찰 carb 하면 21 % 증가했습니다."

임계 값의 해석이 진행되는 한 모달 예측이 무엇인지 말할 수 있도록 모든 예측 된 곡선을 실제로 그려야합니다.

mpg   <- seq(from=5, to=40, by=1)
xbeta <- mpg*(-0.2335)
logistic_cdf <- function(x) {
  return( 1/(1+exp(-x) ) )
}

p1 <- logistic_cdf( -6.4706 - xbeta )
p2 <- logistic_cdf( -4.4158 - xbeta ) - logistic_cdf( -6.4706 - xbeta )
p3 <- logistic_cdf( -3.8508 - xbeta ) - logistic_cdf( -4.4158 - xbeta )
p4 <- logistic_cdf( -1.2829 - xbeta ) - logistic_cdf( -3.8508 - xbeta )
p6 <- logistic_cdf( -0.5544 - xbeta ) - logistic_cdf( -1.2829 - xbeta )
p8 <- 1 - logistic_cdf( -0.5544 - xbeta )

plot(mpg, p1, type='l', ylab='Prob')
  lines(mpg, p2, col='red')
  lines(mpg, p3, col='blue')
  lines(mpg, p4, col='green')
  lines(mpg, p6, col='purple')
  lines(mpg, p8, col='brown')
  legend("topleft", lty=1, col=c("black", "red", "blue", "green", "purple", "brown"), 
         legend=c("carb 1", "carb 2", "carb 3", "carb 4", "carb 5", "carb 6"))

여기에 이미지 설명을 입력하십시오

세 번째 범주의 파란색 곡선은 선택되지 않았으며 여섯 번째 범주의 자주색 곡선도 없었습니다. 따라서 mpg27 이상의 값에 대해 말할 것이 있으면 가장 가능성이 높은 범주는 1입니다. 18 내지 27, 카테고리 2; 4와 18 사이, 카테고리 4; 그리고 4, 카테고리 8 이하입니다. (여러분이 공부하는 것이 무엇인지 궁금합니다-상용 트럭? 요즘 대부분의 승용차는 mpg> 25 여야합니다). 교차점을보다 정확하게 결정하려고 할 수 있습니다.

또한 1, 2, 3, 4, 6 (스킵 5), 8 (스킵 7)로 분류되는 이상한 카테고리가 있습니다. 5와 7이 의도적으로 빠졌다면 괜찮습니다. 이것들이 carb빠지지 않는 유효한 범주라면 이것은 좋지 않습니다.


"탄수화물 카테고리 1에서 다른 5 카테고리로 이동"을 사용한 방법에 주목하십시오. 이것이 잘못 되었습니까? "mpg가 한 단위 씩 증가함에 따라, 탄수화물의 카테고리 1을 관찰 할 때 다른 5 개의 카테고리를 관찰 할 확률은 21 % 증가합니다." 이는 mpg가 약 5 단위로 증가하면 카테고리 1을 관찰 할 확률이 100 %임을 의미합니다. 그러나 mpg가 5 단위로 증가하면 카테고리 1이 아닌 카테고리 8을 관찰 할 가능성이 높아야합니다.
luciano

3
나는 그림을 추가했다; 나는 그것이 당신의 대답을 이해하기 쉽게 만들 것이라고 생각했습니다. ( mtW 의 문서 BTW 는 데이터가 1974 년 모터 트렌드 문제의 테스트 결과라고 말합니다 .)
gung-Reinstate Monica

누군가 루시아노의 마지막 질문에 대답 해 주시겠습니까? 나는 이것이 매우 흥미로운 것을 안다.
Erosennin 2018 년

1
mpg214515

1
polr모델을로 정의한 것처럼 logit P(Y <= k | x) = zeta_k - eta@StasK의 해석에서 " mpg 한 단위 씩 증가 함에 따라 카테고리 carb 5와 카테고리 5 exp(-(-0.2335)) = 1.26
moremo

3

정렬 된 로짓 모델에서 확률은 특정 임계 값보다 낮은 범주에있을 확률과 동일한 임계 값을 초과하는 범주에있을 확률의 비율을 구성합니다 (예 : 범주 A 또는 B에있을 확률 : C, 카테고리 A 대 B 또는 C에있을 확률).

이에 logit P(Y <= k | x) = zeta_k - eta대한 설명에 지정된 모델 로 연결됩니다 polr(). 따라서 확률 범주는 다른 범주 또는 다른 회귀 변수에 대해 빌드 될 수 있습니다. 후자가 더 일반적인 것은 후자는 같은 범주에 대한 배당률을 비교하지만 다른 회귀 변수와 같음

영형에스(와이케이|엑스)영형에스(와이케이|엑스) = 특급((ηη)).

다른 범주에 대한 승산 비는 다음과 같이 정의됩니다.

odds(yik|xi)odds(yim|xi) = exp(ζkζm),

이 비율은 회귀 자와 무관합니다. 이 속성은 대체 이름으로 연결됩니다 비례 승산 모델로 이어집니다.

이 단순하지만 직관적이지 않은 예에서 다음과 같이 공식화 할 수 있습니다. 회귀 기의 한 단위 증가의 경우 mpg범주 1을 관찰 할 확률과 더 높은 범주를 관찰 할 확률 (또는 특정 임계 값 아래의 범주를 관찰 할 확률). 동일한 임계 값을 초과하는 범주를 관찰 한 경우)에 1.26을 곱하거나 26 % ( exp(-(-0.233 - 0)) = 1.263) 증가했습니다 . 다른 카테고리의 승산 비를 공식화하려는 경우, 예를 들어 카테고리 1 또는 2에있을 확률과 카테고리 1 또는 2에있을 확률을 비교할 수 exp((-6.470) - (-4.415)) = 0.128있습니다. 따라서 후자의 해석은이 특정 설정에서별로 도움이되지 않습니다. 다른 범주에 대한 배당률의 예는 고등학교에 갈 확률과 비교하여 대학에 갈 확률입니다.

(ζkζk1)케이

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.