베타 회귀 분석에서 로짓 링크를 사용하는 이유는 무엇입니까?


14

최근에 저는 베타 회귀 모델을 구현하는 데 관심이있었습니다. 이 결과에는 이산적인 "성공"이라는 의미있는 개념이 없기 때문에이 결과는 이항 적 맥락에 맞지 않을 것입니다. 실제로 결과는 실제로 기간의 비율입니다. 분자는 초 수이며 특정 조건은 조건이 활성화 될 수있는 총 시간 (초) 동안 활성화됩니다. 나는 vagaries에 대해 사과하지만이 정확한 맥락에 너무 집중하고 싶지 않다. 나는 베타 회귀 외에 이러한 프로세스가 모델링 될 수있는 다양한 방법이 있다는 것을 알고 있기 때문에 지금은 이론에 더 관심이있다 그러한 모델을 구현하려는 시도에서 제기 된 질문들 (물론 나는

어쨌든, 내가 찾은 모든 리소스는 베타 회귀가 일반적으로 logit (또는 probit / cloglog) 링크와 log-odds의 변경으로 해석되는 매개 변수를 사용하여 적합하다는 것을 나타 냈습니다. 그러나 아직이 링크를 사용하려는 이유에 대한 실제적인 정당성을 제공하는 참조를 아직 찾지 못했습니다.

최초의 Ferrari & Cribari-Neto (2004) 논문은 정당성을 제공하지 않습니다. 로지 함수는 지수화 된 매개 변수의 승산 비 해석으로 인해 "특히 유용"하다는 점만 주목합니다. 다른 소스는 간격 (0,1)에서 실제 라인으로 매핑하려는 욕구를 암시합니다. 그러나 이미 베타 배포를 가정하고 있다면 그러한 매핑을위한 링크 기능이 필요합니까? 링크 기능은 베타 배포를 시작한다고 가정 할 때 부과되는 제약을 넘어서 어떤 이점을 제공합니까?몇 가지 빠른 시뮬레이션을 실행했으며 확률 질량이 거의 0 또는 1에 가깝게 묶인 베타 분포에서 시뮬레이션 할 때도 ID 링크를 사용하여 (0,1) 간격 외부의 예측을 보지 못했지만 아마도 내 시뮬레이션 병리의 일부를 잡을만큼 일반적이지 않았습니다.

실제로 개인이 베타 회귀 모델 (즉, 승산 비)의 매개 변수 추정치가 "성공"의 승산과 관련하여 암시 적으로 추론하고있는 방식에 기초한 것 같습니다. 즉, 이항 모델 대신 베타 회귀 분석을 사용하고 있습니다. 아마도 이것은 베타와 이항 분포 사이의 관계를 고려할 때 일부 상황에서 적합하지만 이것이 일반적인 경우보다 더 특별한 경우 인 것 같습니다. 에서 질문에 대한 답변 오히려 결과보다 지속적인 비율에 대한 교차비를 해석하기 위해 제공되지만, 말, 로그를 사용하는 것이 아니라, 시도하고 일을 이런 식으로 해석 불필요하게 복잡 될 나에게 보인다 또는 신원 링크 및 % 변화 또는 단위 이동 해석.

그렇다면 왜 베타 회귀 모델에 로짓 링크를 사용합니까? 이항 모델과 관련시키는 것이 단순히 편의상 문제입니까?

답변:


8

링크 함수의 정당성 : 링크 함수 은 모든 입니다 항상 에서 . 예를 들어, 예측은 샘플로만 평가되거나 0 또는 1에 너무 가깝지 않기 때문에 일부 응용 프로그램에서는 그다지 중요하지 않을 수 있습니다. 그러나 일부 응용 프로그램에서는 중요 할 수 있으며 일반적으로 중요한지 미리 알 수 없습니다. 아니. 내가 본 전형적인 문제는 다음을 포함합니다 : 예측을 평가 하여 원래 학습 샘플의 범위를 벗어난 (약간) 새로운 값 또는 적절한 시작 값 찾기. 후자의 경우 다음을 고려하십시오.(μ):(0,1)아르 자형μ^=1(엑스β^)(0,1)엑스

library("betareg")
data("GasolineYield", package = "betareg")
betareg(yield ~ batch + temp, data = GasolineYield, link = make.link("identity"))
## Error in optim(par = start, fn = loglikfun, gr = if (temporary_control$use_gradient) gradfun else NULL,  : 
##   initial value in 'vmmin' is not finite

그러나 물론 두 옵션을 모두 시도하고 ID 링크에 문제가 발생하는지 및 / 또는 모델의 적합성을 개선하는지 여부를 확인할 수 있습니다.

매개 변수 해석 : 링크 기능이있는 모델의 매개 변수를 해석하는 것이 ID 링크가있는 모델보다 더 어려워 실무자가 종종 잘못 이해한다는 데 동의합니다. 그러나 나는 종종 선형 확률 ​​모델 (일반적으로 최소 제곱에 의해 항등 링크를 사용한 이진 회귀)에서 매개 변수의 잘못된 해석을 보았습니다. 예측이 0 또는 1에 가까워지고 실제로 조심해야 할 경우 한계 효과가 일정하다는 가정은 유지할 수 없습니다. 예를 들어, 인 관측치의 경우 의 증가는 의 의 감소로 이어질 수 없습니다.μ^=0.01엑스μ^0.02. 그러나 이러한 시나리오에서는 종종 매우 빈약하게 처리됩니다. 따라서 제한된 응답 모델의 경우 모든 링크 함수 의 매개 변수를 신중하게 해석해야하며 연습이 필요할 수 있다고 주장합니다 . 따라서 나의 일반적인 조언은 (당신의 질문에 링크 된 다른 토론에서 볼 수 있듯이) 관심있는 회귀 구성에 대한 효과를 살펴 보는 것입니다. 이것들은 다른 링크 기능에 대해 이해하기 쉽고 종종 (실제적인 관점에서) 다소 유사합니다 (실제적인 관점에서).


10

로지스틱 회귀 분석 만 이진 결과 데이터를 모델링하는 데 사용할 수있는 것은 아닙니다. 로지스틱 회귀 모형은 1) 결과의 예상 값이 예측 변수의 함수로 로지스틱 곡선을 따르는 경우에 적합합니다. 2) 결과의 분산이 예상 결과 시간에서 1을 뺀 예상 결과 (또는 일부 비율) 3) (2의 결과) 데이터 범위는 0과 1 사이입니다. 이러한 속성은 반드시 Bernoulli 데이터에 적용됩니다. 그러나 과학적 질문에 대답하기위한 실행 가능한 (및 구현하기 쉬운) 수단으로 로지스틱 모델을 즉시 비판하기 전에 탐색 통계 및 플롯을 수행해야합니다.

로지스틱 회귀 모델은 GLM (Generalized Linear Model)의 특수한 경우입니다. 즉, 일관된 모수 추정값과 추정이 모델에 의해 제공됩니다. 로지스틱 모델은 문헌의 여러 곳에서 비율, 순서 변수, 비율, 시험 점수, 순위 및 모든 방식의 비 이진 결과를 모델링하는 데 사용됩니다.

이 답변으로 나중에 질문에 대한 답이 나오지는 않지만 이전의 추론을 언급하면 ​​해결해야 할 오해가 생깁니다.

많은 R 사용자는 로지스틱 모델에 지속적으로 대응하는 데 따른 "경고"를 억제해야한다고 제안했습니다. "길의 중간"방법은로 변경 family=binomial하는 것 family=quasibinomial입니다. 이러한 데이터를 시뮬레이션하고 모델을 피팅하고 올바른 추론을 얻는 예는 다음과 같습니다.

set.seed(123)
## logistic non-binary response
x <- rep(c(-2, 0, 2), each=50)
n <- length(x)
b0 <- 0
b1 <- 0.3
yhat <- plogis(b0 + b1*x)

do.one <- function(){
  e <- rnorm(n, 0, yhat*(1-yhat))
  y <- yhat + e

  yfixed <- pmin(y, 1)
  yfixed <- pmax(yfixed, 0)

  est <- glm(yfixed ~ x, family=quasibinomial())
  ci <- confint.default(est, level = 0.9)
  cov0 <- b0 > ci[1,1] & b0 < ci[1,2]
  cov1 <- b1 > ci[2,1] & b1 < ci[2,2]
  c(cov0, cov1)
}

reg <- replicate(10000, do.one())
rowMeans(reg)

CI의 정확한 90 % 적용


1
로지스틱 회귀 모델에 관한 설명을 높이 평가합니다. 당신은 그것이 종종 가정되는 것보다 더 일반적인 모델이라는 것이 맞습니다. 하지 않는 것 때문에 그러나 나는 대답으로 이것을 받아 들일 주저 확실히 추론만큼의 라인을 개발한다. 로짓 링크가 이진이 아닌 데이터에서 제대로 작동하기 때문에 베타 모델의 로짓 링크에 대한 나의 관심은 근거가없는 것 같습니다. 어느 것이 합리적인 입장이지만 베타 모델에서 로짓을 사용하는 이유 와 해석 방법에 대한 내 질문의 요점을 이해하지 못합니다 .
Ryan Simmons

1
@RyanSimmons 의견을 보내 주셔서 감사합니다. 나는 당신의 추론에 동의합니다. 나는 어떤 "학습의 기회"가 답을 보증하므로 하나의 질문은 "정확성"의 정도에 따라 가능한 많은 대답을 가질 수 있다고 생각합니다. 좋은 질문 인 귀하의 질문에 대해서는 언급하지 않았으므로 "올바른"답변이 아직 표시 될 수 있습니다. 나는 이것에 대해 호기심이 많으므로 주제에 대해 조금 더 읽으려고합니다.
AdamO
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.