이항 GLMM (glmer)을 yes-no count가 아닌 백분율에 적용하는 방법은 무엇입니까?


21

종속 변수가 백분율 인 반복 측정 실험이 있고 독립 변수로 여러 요인이 있습니다. 이 설정을 직접 수용하는 것처럼 보이기 때문에 glmerR 패키지 를 사용 lme4하여 로지스틱 회귀 문제 (을 지정하여 family=binomial) 로 취급 하고 싶습니다 .

내 데이터는 다음과 같습니다

 > head(data.xvsy)
   foldnum      featureset noisered pooldur dpoolmode       auc
 1       0         mfcc-ms      nr0       1      mean 0.6760438
 2       1         mfcc-ms      nr0       1      mean 0.6739482
 3       0    melspec-maxp    nr075       1       max 0.8141421
 4       1    melspec-maxp    nr075       1       max 0.7822994
 5       0 chrmpeak-tpor1d    nr075       1       max 0.6547476
 6       1 chrmpeak-tpor1d    nr075       1       max 0.6699825

그리고 내가 원했던 R 명령이 적절합니다.

 glmer(auc~1+featureset*noisered*pooldur*dpoolmode+(1|foldnum), data.xvsy, family=binomial)

이 문제는 명령이 종속 변수가 정수가 아닌 것에 대해 불평한다는 것입니다.

In eval(expr, envir, enclos) : non-integer #successes in a binomial glm!

이 (파일럿) 데이터를 분석하면 이상한 결과를 얻을 수 있습니다.

binomial가족이 정수 (예-아니오)를 기대 하는 이유를 이해 하지만 백분율 데이터를 직접 회귀하는 것이 좋습니다. 이것을하는 방법?


1
10 개 중 5 개는 1000 개 중 500 개와 동일한 정보가 아니기 때문에 나에게는 괜찮지 않은 것 같습니다. "성공"& 하나의 카운트. "실패".
Scortchi-Monica Monica 복원

@ Scortchi 감사합니다, 당신이 옳을 수도 있습니다. 나는 stats.stackexchange.com/questions/77376/… 이 질문과 비슷한 비율 (확률 적 결정에서 파생 된)의 백분율의 지속적인 성격에 대해 부분적으로 생각 했지만 정수 수로의 의미있는 변환을 통해 데이터를 표현할 수 있다고 생각합니다.
Dan Stowell

답변:


22

의 반응 변수로 비율 벡터를 glmer(., family = binomial)사용하려면 weights인수를 사용하여 각 비율로 이어지는 시행 횟수를 설정해야합니다 . 예를 들어 패키지 의 cbpp데이터 사용lme4

glmer(incidence / size ~ period + (1 | herd), weights = size,
   family = binomial, data = cbpp)

총 시행 횟수를 모르는 경우 오류 메시지에 표시된대로 이항 모형이 적합하지 않습니다.


이 작업에 가중치를 사용하는지 여부를 말할 수 없습니다. 그러나 수식 왼쪽에 두 개의 열 행렬 (성공 / 실패)로 데이터를 입력 할 수 있습니다.
ndoogan

그러나 @ndoogan은 원래 질문은 성공 / 실패가 아닌 비율에 관한 것이 었습니다. 위의 코드는 cbpp도움말 페이지 에서 가져온 것처럼 작동 합니다.
Steve Walker

충분합니다. 비록, 내 말은 성공을위한 / (실패 하지 이항 모델의 비율 어디에서 온 분열을 의도)입니다.
ndoogan

+1이지만 독자들은 @BenBolker의 답변 stats.stackexchange.com/questions/189115를 통해 과대 산포를 처리하는 가능한 방법에 대해 보고 싶어 할 것 입니다.
amoeba는 Reinstate Monica

9

(0,1)


2
이항 모형은 비율의 모형입니다. 그러나 시행 횟수를 알고있는 경우에만 적합합니다. 당신이 가진 모든 것이 시행 횟수의 표시가없는 퍼센트라면, 베타 회귀가 적절하다고 생각합니다.
ndoogan

(0,1)

고마워, 이것은 좋은 지적이다. 다른 답변은 서면으로 질문에 대답하기 때문에 받아 들일 수 있지만 베타 회귀에 대한 요점은 잘 정립되어 있으므로 올랐습니다.
Dan Stowell
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.