베타 회귀 분석이 반응 변수에서 0과 1을 정확히 처리 할 수없는 이유는 무엇입니까?


17

베타 회귀 (즉, 베타 분포 및 일반적으로 로짓 링크 함수가있는 GLM)는 분수, 비율 또는 확률과 같이 0과 1 사이의 값을 취하는 반응 일명 종속 변수를 처리하는 데 권장됩니다 . 결과에 대한 회귀 (비율 또는 분수) 0과 1 사이 입니다.

그러나 베타 회귀 분석은 응답 변수가 적어도 한 번은 0 또는 1이 되 자마자 사용할 수 없다고 주장합니다. 만약 그렇다면, 0 / 1- 팽창 베타 모델을 사용하거나 응답 등을 일부 변환해야합니다 : 1과 0을 포함한 비례 데이터의 베타 회귀 .

내 질문은 : 베타 배포의 어떤 속성이 베타 회귀가 정확한 0과 1을 처리하지 못하게하고 그 이유는 무엇입니까?

나는 것으로 추측하고 01 베타 분포의 지원하지 않습니다. 그러나 모든 모양 매개 변수 α>1β>1 , 0과 1 모두 베타 분포를 지원합니다. 분포가 한쪽 또는 양쪽에서 무한대로 진행되는 작은 모양 매개 변수에 대해서만 가능합니다. 그리고 아마도 표본 데이터는 최적의 적합을 제공 하는 αβ 가 모두 보다 높을 것 1입니다.

이 경우에 그 뜻 한 도 제로 / 사람과 실제로 사용 베타 회귀?

물론 0과 1이 베타 분포를 지원하더라도 정확히 0이나 1을 관찰 할 확률은 0입니다. 그러나 다른 주어진 계산 가능한 값 집합을 관찰 할 가능성이 있으므로 문제가 될 수 있습니까? ( @Glen_b 의이 의견 참조 ).

베타 배포

베타 회귀와 관련하여 베타 분포는 다르게 매개 변수화되지만 ϕ=α+β>2 경우 모든 μ에 대해 에서 여전히 잘 정의되어야합니다 .[0,1]μ

여기에 이미지 설명을 입력하십시오


2
재미있는 질문! Kevin Wright가 이미 작성한 사항 외에는 아무런 대답이 없습니다. 정확한 0과 확률은 병리학 적 사례 (물류 회귀 분석과 같은)이므로 그렇게해서는 안되기 때문에 그다지 흥미롭지 않습니다.
Tim

1
그들이해야하거나 발생하지 않아야하는 경우 @ 팀 글쎄, 나도 몰라,하지만 그들은 않는 것, 다른 사람들이 베타 회귀에 0과 1을 처리하는 방법에 대한 질문을하지 않을, 0 ~ 약되지 쓰기 논문을 꽤 자주 발생 그리고 1 팽창 된 베타 모델 등. 어쨌든, 나는 여전히 Kevin보다 더 자세한 답변을 기대하고 있습니다. 적어도 로그 우도에서 이러한 용어가 어떻게 발생하는지 설명해야합니다.
아메바는 고

1
업데이트 : 아마도 0과 1이 지원에 있다면이 시점의 PDF가 0과 같기 때문에이 값을 관찰 할 가능성은 0입니다. 나는 아직도 이것을 조심스럽게 설명하는 대답을보고 싶습니다.
amoeba는

따라서 응답 변수가 값을 가정 할 때 어떤 분포를 사용해야 합니까? [0,)
혼란

답변:


16

loglikelihood는 log ( 1 - x )를 모두 포함하므로 x = 0 또는 x = 1 일 때 제한이 없습니다 . Smithson & Verkuilen의 " 4. 더 나은 레몬 압착기? 베타-분산 종속 변수를 사용한 최대 가능성 회귀 "( PDF로 직접 링크 )의 방정식 (4)를 참조하십시오 .log(x)log(1x)x=0x=1


3
감사. 이 문서에 대한 직접 PDF 링크 는 다음과 같습니다 . 나는 그 방정식을 볼 수 있습니다. (4) 또는 y i = 1 이되면 고장이 나지만, 이것이 왜 일반적인 일에서 일어나는지 이해하지 못합니다. yi=0yi=1
amoeba는 Reinstate Monica가

3
(+1) 아메바, 그냥 PDF보고 : 대한 모든 베타 분포의 밀도를 1 중 하나입니다 0 또는 + . 두 경우 모두 로그 가능성은 정의되지 않습니다. 등가 자마자 하나가으로 0 또는 1 응답하여, 모든 가능성의 값은 제로 무한대 또는 부정 할 수 우도의 최소값이 실현되는 베타 파라미터 사소 세트가있을 것이다. 따라서 실제 계산이 불가능하고 모델을 식별 할 수 없습니다 (심한 의미에서). 010+01
whuber

1
@whuber의 의견 (지금까지는 알지 못했음)과 함께 이것은 질문에 대한 답변입니다. 요점은 내가 묻는 매개 변수 값의 경우 1에 가능성이 0이라는 것입니다. 01
amoeba는

1
@ whuber 내가 혼란스러워 한 이유는 0을 관찰 할 확률이 이지만 0.5 를 관찰 할 확률이 0이기 때문입니다 ( 구체적으로 는 α = β = 2 로 베타를 취하십시오 ). 그럼에도 불구하고, 0.5 모델과 일치하지만, 0이 아니며, 그것 때문에 가능성 관찰 0.5 0이 아니라 관찰의 가능성 0 ...입니다00.5α=β=20.500.50
아메바는 분석 재개 모니카 말한다

3
@amoeba 가능성은 확률 자체가 아니라 확률 밀도 에 따라 다릅니다 . 때때로, 각 관측 값이 작지만 유한 한 (무한대가 아닌) 구간 ( 예를 들어 , 측정의 정밀도에 의해 결정됨)의 확률을 포함하도록 고려 하거나 매우 좁은 가우시안 (예 : 제로 및 무한 밀도를 제거합니다).
whuber

2

그 이유가 실제로 l o g ( 1 - x ) 의 존재에서 온다는 사실 외에log(x)log(1x) , 나는 이것이 일어나는 이유의 근본 원인을 프레임 화하여 질문에 대한 답변을 보완하려고 노력할 것입니다.

실제로 베타 분포는 "확률 값의 분포를 설명하는 데 사용되는 경우가 많습니다"( wikipedia )입니다. 랜덤 변수 의 N 독립 이진 드로우의 관찰을 아는 것은 이항 분포 의 가능한 경향 의 분포 입니다.pN

결과적으로 베타 회귀에 대한 이해에서 0과 1은 직관적으로 (무한) 확실한 결과에 해당합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.