0과 1 사이의 결과 (비율 또는 분수)에 대한 회귀


41

나는 비 예측 모델 구축 생각하고 , 와 과 . 따라서 비율은 과 사이 입니다.a b a > 0 b > 0 0 1a/baba>0b>001

선형 회귀를 사용할 수는 있지만 자연스럽게 0..1로 제한되지는 않습니다. 관계가 선형이라고 믿을만한 이유는 없지만, 어쨌든 종종 간단한 첫 번째 모델로 사용됩니다.

로지스틱 회귀를 사용할 수는 있지만 일반적으로 0..1 범위의 연속 값을 예측하지 않고 2 상태 결과의 확률을 예측하는 데 사용됩니다.

더 이상 아무것도 모른다면 선형 회귀, 로지스틱 회귀 또는 숨겨진 옵션 c를 사용 하시겠습니까?


4
베타 회귀를 고려 했습니까?
Peter Flom-Monica Monica 복원

답변 한 모든 분들께 감사드립니다. 공부하고 선택해야합니다. 베타와 같은 소리는 시작하기에 적절한 장소입니다. 특히 눈에 잘 맞을 때 특히 그렇습니다.
dfrankow

GLM (poisson link function)을 사용 하여이 작업을 수행했습니다. 분자 a 는 카운트 데이터 (결과)이고 분모 b 는 오프셋 변수입니다. 그런 다음 각 주제 / 관측에 대해 별도의 ab 값이 필요합니다. 이것이 가장 유효한 옵션인지 확실하지 않습니다. 베타 배포판에는 흥미로운 옵션이 있습니다. 그러나 나는 통계가 아닌 이해하기가 어렵다는 것을 알게되었습니다.
MegPophealth

귀하의 깊고 유용한 분석에 감사드립니다. 현재 거의 같은 도전에 직면하고 있지만, 0-1 사이의 연속 비율 범위를 예측하는 대신 -1 사이의 환자 활용 범위를 예측하는 회귀 모델을 작성하고 싶습니다. 그리고 1. 이것은 매우 까다 롭습니다. -1과 1 사이의 연속적인 종속 범위로 회귀 모델을 작성하는 데 적합한 링크 함수를 찾을 수 없었습니다. 따라서 사람들은 수행 할 수있는 작업에 대한 단서를 원합니다. 감사합니다

1
현재로서는 간단한 대답이 있습니다. 응답 를 조정하면 에 대한 링크 가 범위 내에 있으며 원하는 경우 예측보고를 위해 크기를 조정할 수 있습니다. ( y + 1 ) / 2 [ 0 , 1 ]y(y+1)/2[0,1]
Nick Cox

답변:


34

"숨겨진 옵션 c"를 선택해야합니다. 여기서 c는 베타 회귀입니다. 반응 변수가 Beta 로 배포 될 때 적합한 회귀 모델 유형입니다 . 일반화 된 선형 모델 과 유사하다고 생각할 수 있습니다 . 정확히 당신이 찾고있는 것입니다. 이것을 다루는 betaregR 라는 패키지가 있습니다 . 나는 당신이을 사용하는지 모르겠지만 어쨌든 '비 네티'를 읽을 수 없더라도 그것을 구현하는 방법과 함께 주제에 대한 일반적인 정보를 제공 할 것입니다. 그 경우). RR


편집 (많은 나중에) : 빠른 설명을하겠습니다. 나는 질문을 양의 실제 가치의 비율에 대한 것으로 해석합니다. 그렇다면 베타 배포판 인 Gamma로 배포됩니다. 그러나 가 알려진 총계 중 '시험'에서 '성공'수인 경우 연속 비율이 아닌 수 비율 되고 이항 GLM을 사용해야합니다 (예 : 물류) 회귀). R에서 수행하는 방법 은 예를 들어 결과가 소수 일 때 (2 카운트의 비율) R에서 로지스틱 회귀를 수행하는 방법을 참조하십시오 .b a / baba/b

또 다른 가능성은 비율이 표준 선형 모델의 가정을 충족하도록 변환 될 수 있다면 선형 회귀를 사용하는 것입니다. 실제로 작동하는 것에 대해서는 낙관적이지는 않습니다.


1
이 경우 베타 회귀가 왜 바람직한 지 자세히 설명해 주시겠습니까? 그것은 내가 여기에서 자주 볼 수있는 추천이지만, 이론적 근거를 정교하게 다루는 사람은 없습니다.
Matt Parker

4
@MattParker, 베타는 연속 비율의 분포입니다. 반응 변수에 해당하는 것이 있다면 베타가 적합한 분포입니다. 정말 간단합니다. 로지스틱 회귀 분석의 적합치는 확률 (분명히 연속적 임)이지만 반응 변수가 Bernoulli 시행의 집합이 아닌 경우 분포는 이항식 (성공 확률이 일부 Bernoulli 시행 )입니다. 적당한. p
gung-모니 티 복원

3
베타는 사용하기에 "적절한"배포판이라는 점에주의해야합니다. 상당히 유연하고 적절할 수 있지만 모든 경우를 다루지는 않습니다. 따라서 좋은 제안이며 원하는 것이 될 수도 있습니다. 실제로는 0과 1 사이의 지속적인 반응이라는 사실만으로 적절한 분포라고 말할 수는 없습니다.
Dason

1
[0,1]의 삼각 분포는 베타가 아닌 비율의 연속 분포를 나타냅니다. 다른 많은 사람들이있을 수 있습니다. 베타 버전은 매우 유연한 제품군이지만 그에 대한 마법은 없습니다. 로지스틱 회귀 분석은 이진 데이터에 일반적으로 적용되기 때문에 로지스틱 회귀에 대해 좋은 지적을합니다.
Michael Chernick

2
어쩌면 나는 덜 독단적으로 보이려고 노력해야 할 것입니다. 내가 의미하는 바는 DV를 검사하고 그에 따른 분포를 사용한다는 것입니다. 사실, 지속적인 비율의 다른 분포가 있습니다. 기술적으로 베타는 감마와 다른 감마의 합에 대한 비율입니다. 주어진 상황에서 다른 분포 우월 할 수 있습니다. 예를 들어 베타는 0 또는 1의 값을 사용할 수 없으며 (0, 1) 만 사용할 수 있습니다. 그럼에도 불구하고 베타는 2 개의 매개 변수만으로도 잘 이해되고 매우 유연합니다. 나는 연속적인 비율 인 DV를 다루는 경우 일반적으로 시작하기 가장 좋은 곳이라고 주장한다.
gung-모니 티 복원

2

이 쌍을 이루는 표본입니까 아니면 독립적 인 두 집단입니까?

독립 모집단 인 경우 log (M) = log (B) + * log (ratio)를Xi 고려할 수 있습니다 . M이 측정하며 X (A와 B의 모든 값을 포함하는 벡터) 벡터이다 경우 = 1 , (A)의 값이다 경우 = 0 B.의 값M i X i M iXiMiXiMi

이 회귀의 절편은 log (B)이고 기울기는 log (ratio)입니다.

여기 더보십시오 :

Beyene J, Moineddin R. 위치 몫에 대한 비율 파라미터의 신뢰 구간 추정 방법. BMC 의료 연구 방법론. 2005; 5 (1) : 32

편집 : 나는 이것을하기 위해 SPSS 애드온을 작성했습니다. 관심이 있으시면 공유 할 수 있습니다.


1
어떤 방법을 사용 했습니까 (델타, 필러 또는 GLM) 궁금하십니까? BMC 기사가 다른 추정기의 적용 범위에 대한 일부 시뮬레이션을 수행하지 않았다는 사실이 약간 슬프다. BMC 기사를 인용했지만 최근 에 델타 방법을 사용하는 논문 (실제 정당화가없는)을 발견 했기 때문에 상기되었습니다 .
Andy W

1
이 의견을 쓸 때 REGRESSION데이터를 로그 변환 한 후 사용했습니다 . 그 이후로 나는을 사용하는 더 복잡한 버전을 작성했습니다 GLM. 나는 발광 측정을 다루고 있으며 내 테스트에서 로그 링크가있는 감마 회귀는 매개 변수에 대한 불확실성이 가장 적습니다. 내 실제 데이터의 대부분에 대해 로그 링크와 함께 정상, 음 이항 및 감마를 사용했을 때의 대답은 모두 실제로 비슷했습니다 (적어도 필요한 정밀도와 비슷 함)
DocBuckets

0

사실이 아니다. 로지스틱 회귀 분석에 대한 데이터는 이진수 0 또는 1이지만 모형은 예측 변수 , 고려하여 p가 성공 확률을 예측합니다 여기서 는 모형의 예측 변수 수입니다. 실제로 로짓 함수로 인해 선형 모델은 log ( ) 의 값을 예측합니다 . 따라서 p에 대한 예측을 얻으려면 역변환 여기서 는 예측 된 로짓입니다. I = 1 , 2 , . . , k k pXii=1,2,..,kk p=exp(x)p1p xp=exp(x)[1+exp(x)]x


-1. 나는 이것이 어떻게 질문에 대답하는지 알지 못합니다 (또한 는이 답변에서 두 가지 다른 것을 언급하는 데 사용됩니다). p
아메바는

2
-1. @amoeba에 동의합니다. 나는 이것이 왜 업 보트되었는지 의아해합니다. 이진 데이터 0 또는 1을 전혀 가정하지 않지만 0과 1 사이의 측정 비율에 초점을 맞추고 있습니다.
Nick Cox
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.