최근에 저는 베타 회귀 모델을 구현하는 데 관심이있었습니다. 이 결과에는 이산적인 "성공"이라는 의미있는 개념이 없기 때문에이 결과는 이항 적 맥락에 맞지 않을 것입니다. 실제로 결과는 실제로 기간의 비율입니다. 분자는 초 수이며 특정 조건은 조건이 활성화 될 수있는 총 시간 (초) 동안 활성화됩니다. 나는 vagaries에 대해 사과하지만이 정확한 맥락에 너무 집중하고 싶지 않다. 나는 베타 회귀 외에 이러한 프로세스가 모델링 될 수있는 다양한 방법이 있다는 것을 알고 있기 때문에 지금은 이론에 더 관심이있다 그러한 모델을 구현하려는 시도에서 제기 된 질문들 (물론 나는
어쨌든, 내가 찾은 모든 리소스는 베타 회귀가 일반적으로 logit (또는 probit / cloglog) 링크와 log-odds의 변경으로 해석되는 매개 변수를 사용하여 적합하다는 것을 나타 냈습니다. 그러나 아직이 링크를 사용하려는 이유에 대한 실제적인 정당성을 제공하는 참조를 아직 찾지 못했습니다.
최초의 Ferrari & Cribari-Neto (2004) 논문은 정당성을 제공하지 않습니다. 로지 함수는 지수화 된 매개 변수의 승산 비 해석으로 인해 "특히 유용"하다는 점만 주목합니다. 다른 소스는 간격 (0,1)에서 실제 라인으로 매핑하려는 욕구를 암시합니다. 그러나 이미 베타 배포를 가정하고 있다면 그러한 매핑을위한 링크 기능이 필요합니까? 링크 기능은 베타 배포를 시작한다고 가정 할 때 부과되는 제약을 넘어서 어떤 이점을 제공합니까?몇 가지 빠른 시뮬레이션을 실행했으며 확률 질량이 거의 0 또는 1에 가깝게 묶인 베타 분포에서 시뮬레이션 할 때도 ID 링크를 사용하여 (0,1) 간격 외부의 예측을 보지 못했지만 아마도 내 시뮬레이션 병리의 일부를 잡을만큼 일반적이지 않았습니다.
실제로 개인이 베타 회귀 모델 (즉, 승산 비)의 매개 변수 추정치가 "성공"의 승산과 관련하여 암시 적으로 추론하고있는 방식에 기초한 것 같습니다. 즉, 이항 모델 대신 베타 회귀 분석을 사용하고 있습니다. 아마도 이것은 베타와 이항 분포 사이의 관계를 고려할 때 일부 상황에서 적합하지만 이것이 일반적인 경우보다 더 특별한 경우 인 것 같습니다. 에서 이 질문에 대한 답변 오히려 결과보다 지속적인 비율에 대한 교차비를 해석하기 위해 제공되지만, 말, 로그를 사용하는 것이 아니라, 시도하고 일을 이런 식으로 해석 불필요하게 복잡 될 나에게 보인다 또는 신원 링크 및 % 변화 또는 단위 이동 해석.
그렇다면 왜 베타 회귀 모델에 로짓 링크를 사용합니까? 이항 모델과 관련시키는 것이 단순히 편의상 문제입니까?