Beta / Dirichlet Regression이 일반화 선형 모형으로 간주되지 않는 이유는 무엇입니까?


26

전제는 R 패키지 betareg1의 비 네트에서 인용 한 것 입니다.

또한이 모델은 일반화 된 선형 모델 (GLM; McCullagh and Nelder 1989)과 일부 속성 (예 : 선형 예측 변수, 링크 함수, 분산 매개 변수)을 공유하지만이 프레임 워크의 특별한 경우는 아닙니다 (고정 분산도 아닙니다) )

이 답변 은 또한 사실을 암시합니다.

[...] 반응 변수가 베타로 배포 될 때 적합한 회귀 모델 유형입니다. 일반화 된 선형 모델 과 유사 하다고 생각할 수 있습니다 . 정확히 당신이 찾고있는 것입니다 [...] (강조 광산)

질문 제목에 모든 내용이 나와 있습니다. Beta / Dirichlet Regression이 일반 선형 모델로 간주되지 않는 이유는 무엇입니까?


내가 아는 한, 일반화 선형 모형은 종속 변수에 대한 종속 변수의 기대치를 기반으로 구축 된 모델을 정의합니다.

g Y X β σ 2f 는 기대치를 매핑하는 링크 함수 , 는 확률 분포, 는 결과, 는 예측, 는 선형 모수이고 는 분산입니다.gYXβσ2

f(E(YX))g(βX,Iσ2)

다른 GLM은 평균과 분산 사이의 관계를 부과 (또는 이완)하지만 는 지수 패밀리의 확률 분포 여야합니다. 즉, 올바르게 기억하면 추정의 견고성을 향상시키는 바람직한 특성입니다. Beta 및 Dirichlet 배포판은 지수 군의 일부이므로 아이디어가 없습니다.g


Cribari-Neto, F., & Zeileis, A. (2009). R의 베타 회귀



@amoeba 링크 주셔서 감사합니다, 전에 그 질문을 보지 못했다.
Firebug

2
내가 생각하는 문제가있다 당신은 표준 베타 분포를 작성하는 경우 동안 , 매개 변수 (예 : 제복 (0,1)을 의미한다) 당신이 그것을 작성하는 경우, 다음 베타 분포, 지수 가족입니다 (평균) 및 (분산)의 관점에서는 그렇지 않습니다. 그러나 나는 분포가 지수 가족에 있는지 여부에 대해 그렇게 많이 신경 쓰지 않았습니다. b a = b = 1 μ ϕaba=b=1μϕ
Cliff AB

@CliffAB 아래 Tim의 답변 아래 주석을 읽은 후에는 베타의 매개 변수화가 매개 변수의 비 직교성을 초래하는 것으로 보이며 이는 McCullagh-Nelder GLM의 요구 사항으로 보입니다.
Firebug

1
나는이 짧은 대답 : stats.stackexchange.com/a/18812/28666 이 관련이 있으며 여기에 답변을 추가합니다 ( GLM이 원래 지수 분산 제품군으로 정의 된 이유를 인용).
아메바는

답변:


20

원래 참조를 확인하십시오.

Ferrari, S., & Cribari-Neto, F. (2004). 모델링 속도 및 비율에 대한 베타 회귀. 응용 통계 저널, 31 (7), 799-815.

저자가 지적한 바와 같이, 매개 변수화 된 베타 분포의 매개 변수는 서로 연관되어 있으므로

매개 변수 및 는 일반 선형 회귀 모델의 클래스에서 확인 된 것과 대조적으로 직교하지 않습니다 (McCullagh and Nelder, 1989).ϕβϕ

따라서 모델이 GLM처럼 보이고 GLM처럼 떨리는 반면 프레임 워크에 완벽하게 맞지는 않습니다.


7
+1이지만 더 자세한 답변을 얻는 것이 좋습니다. 나는 개인적으로 따옴표를 이해하지 못합니다 (연결 된 종이를 연 후에도). 왜 이러한 매개 변수는 베타 회귀에 직교하지 않습니다 ..이 GLMS에 필요한 이유는 ... 등?
아메바가 분석 재개 모니카 말한다

3
@amoeba 솔직히, 나는 그것에 대해 자세한 답변을 줄 수있는 사람이 아닙니다. 나는 그런 미묘함에 대해 충분히 이해하기 위해 GLM의 이론에 그다지 관심이 없었습니다. McCullagh와 Nelder는이 요구 사항에 대해 언급했지만 정확한 이유를 확인하려면 해당 책을 확인해야합니다. 누군가 이것이 이것이 왜 문제인지에 대한 자세한 설명을한다면, 나는 그러한 대답에 대한 현상금을 발행하는 것을 고려할 것입니다.
Tim

9
GLM의 직교성 요구 사항이 중요합니다. 즉 , 나머지 가능성을 잘못 지정하지 않아도 걱정없이 방정식 를 추정 할 수 있습니다 . 위의 평균 방정식이 올바르게 지정된 경우 모수 추정값이 일관됩니다. 추가로 분산이 올바르게 지정된 경우 유추가 유효합니다. 그러나 베타 회귀 분석에서는 가 상수 일지라도 두 가지 모델 방정식을 이러한 방식으로 분리 할 수 ​​없습니다 . 일관된 결과를 얻으려면 모든 것이 올바르게 지정되어야합니다. ϕg(μ)=xβϕ
Achim Zeileis

3
@ AchimZeileis 나는 CV에서 당신의 이름을 본 것을 기억합니다. 당신이 말하는 것은 완벽합니다. 어쩌면 당신은 더 많은 근거를 추가하여 귀하의 의견을 답변으로 바꾸고 싶습니까? 내가 말했듯이, 나는 그 질문에 대해 충분히 상세한 답변을 한 사람에게 현상금을 수여하게되어 기쁩니다.
Tim

2
@Tim 시간이 더 있으면 그렇게하려고합니다. 그건 내가 빠른 댓글이 ... 더 나은 아무것도보다 생각하는 이유의
아킴 Zeileis

8

@probabilityislogic의 대답은 올바른 방향입니다.

베타 분포는 두 개의 매개 변수 지수 군에 있습니다. Nelder and Wedderburn (1972) 이 설명한 간단한 GLM 모델 에는 두 모수 지수 패밀리의 분포가 모두 포함되어 있지 않습니다.

N & W의 기사와 관련하여 GLM은 다음 유형의 밀도 함수에 적용됩니다 (이는 나중에 Jørgensen 1987 에서 지수 분산 패밀리 로 명명 됨 ).

π(z;θ,ϕ)=exp[α(ϕ){zθg(θ)+h(z)}+β(ϕ,z)]

추가 링크 함수 및 자연 매개 변수 대한 선형 모델 .θ = f ( μ ) = f ( X β )f()θ=f(μ)=f(Xβ)


따라서 위의 배포판을 다시 작성할 수도 있습니다.

π(z;μ,ϕ)=exp[z(f(μ)α(ϕ))+h(z)α(ϕ)g(f(μ))α(ϕ)+β(ϕ,z)]

두 모수 지수 군은 다음과 같습니다.

f(z;θ1,θ2)=exp[T1(z)η1(θ1,θ2)+T2(z)η2(θ1,θ2)g(θ1,θ2)+h(z)]

비슷하지만 더 일반적으로 보입니다 ( 중 하나 가 일정 하다면 ).θ


차이점은 분명하며 베타 배포판을 GLM 형태로 만드는 것도 불가능합니다.

그러나 나는 더 직관적이고 정통한 답변을 만들기에 충분한 이해가 부족합니다 (다양한 기본 원칙과 훨씬 더 깊고 우아한 관계가있을 수 있다고 생각합니다). GLM 은 최소 제곱 모델 대신 단일 변이 지수 분산 모델 을 사용하여 오차 분포를 일반화하고 링크 함수를 사용하여 평균의 선형 관계를 일반화합니다.

가장 간단하고 직관적 인 직감은 지수에서 분산- 항인 것처럼 보이며 , 이는 모든 것에 곱해 지므로 분산은 따라 변하지 않습니다 . 두 개의 매개 변수 지수 군과 준우도 법인 반면, 분산 모수는 의 함수가 될 수 있습니다.α(ϕ)θθ


N & W 정의 df 의 두 번째 매개 변수 는 분산입니다. 그것은 하나 개의 파라미터 자연 지수 족 연장π ( z ; θ )ϕπ(z;θ)
섹스 투스 엠피 리 쿠스

@amoeba beta는 이변 량 지수 분포입니다. 예 : www2.stat.duke.edu/courses/Spring11/sta114/lec/expofam.pdf
Tim

2
고정 분산으로도 완전히 가능하지 않은지 확실하지 않습니다. 적어도 N & W에 명시된 glm에 따르면 (내가 아는 것은 많은 사람들이 베타 회귀를 해결하기 위해 훨씬 더 어려운 일을한다는 것입니다). 반복 가중 최소 자승의 동일한 경로를 따라 가려고하면 어떻게되는지, 어디에서 잘못되는지를 표시하기 위해 답을 편집하겠습니다.
Sextus Empiricus

2
나는 대답을 다소 편집했다. 1) 가족과 분산 모델에 대한 나의 초기 설명이 잘못되었습니다. GLM은 밀도 함수뿐만 아니라 링크 함수이기 때문에 하나의 모수 지수 군의 모든 분포를 포함 합니다 . 2) 더 직관적 인 관점으로 볼 때 나는 멀지 않아서 멀지 않을 것으로 예상했다. GLM 모델은 피팅 절차의 매트릭스 공식화, 링크 함수 및 분산을 포함한 항을 포함한 로그 우도 함수의 파생물에 가중치를 추가하여 다양한 표현으로 클래식 모델과 관련됩니다 .....
Sextus Empiricus

2
나는 당신의 답변을 약간 편집하기 위해 자유를 얻었습니다. 또한이 답변은 stats.stackexchange.com/a/18812/28666 이 N & W가 왜이 특정 배포 제품군을 사용하고 더 넓은 배포 그룹을 사용하지 않았는지 암시합니다.
amoeba는

2

베타 분포가 지수 분산 계열의 일부라고 생각하지 않습니다 . 이것을 얻으려면 밀도가 필요합니다

f(y;θ,τ)=exp(yθc(θ)τ+d(y,τ))

특정 기능에 대한 및 . 평균은 로, 분산은 됩니다. 매개 변수를 표준 매개 변수라고합니다.c()d()c(θ)θτc(θ)θ

베타 배포판은 이런 식으로 작성 될 수 없습니다. 이것을 볼 수있는 한 가지 방법 은 로그 가능성에 항이 없다는 것입니다 대신 및 가 있습니다.로그 [ y ] 로그 [ 1 y ]ylog[y]log[1y]

fbeta(y;μ,ϕ)=exp(ϕμlog[y1y]+ϕlog[1y]log[B(ϕμ,ϕ(1μ)]log[y1y])

베타가 지수 분산 계열이 아님을 확인하는 또 다른 방법은 로 작성 될 수 있다는 것입니다. 여기서 와 는 독립적이며 둘 다 동일한 척도 모수 (및 감마)로 감마 분포를 따릅니다. 지수 가족입니다). xzy=xx+zxz


1
이 답변은 작성된대로 정확하지 않습니다. 이것을 보는 한 가지 방법은, 제시된 논리에 따르면, 예를 들어, 베르누이 분포와 이항 분포는 지수 패밀리의 클래스에 있지 않을 것입니다.
추기경

2
죄송합니다. 제가 주신 예가 잘못된 것입니다. (경고 : CrossValidated의 정신 산술 및 모바일 사용은 위험 할 수 있습니다!) 그러나 내 요점은 여전히 유효합니다. 이 답변은 "지수 가족"이라는 매우 좁게 "정의 된"개념을 선택하기 때문에 부정확 합니다. 기존의 소스 나 실제 사용보다 훨씬 좁습니다.
추기경

2
흠. Wikipedia 지수 가족 분포 목록에 베타를 표시합니다.
amoeba는 Reinstate Monica

1
사실 - 내가 생각하고 있었는데 자연 지수 가족 특별한 경우입니다 -
probabilityislogic

1
함수 의 매개 변수 도 링크 함수로 설명되며,이 좁은 정의 된 분포 함수는 한 모수 지수 패밀리의 모든 분포를 포함하지만 두 모수 지수 패밀리 중 일부만 포함하여 더 넓어집니다. θ
Sextus Empiricus
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.