이 데이터를 이항 glm에 대한 비율로 집계 할 수 있습니까?


11

우리는 60 명의 사람들에게 애틀랜타에 가능한 많은 식당 프랜차이즈를 나열하도록 요청했습니다. 전체 목록에는 70 개가 넘는 식당이 포함되었지만, 10 % 미만의 사람들이 언급 한 식당을 제거하여 45 명을 남겼습니다.이 45 명에 대해서는 프랜차이즈를 등록한 정보원의 비율을 계산하여 관심을 보였습니다. 이 비율을 프랜차이즈의 (로그 변환 된) 광고 예산 및 프랜차이즈가 된 이후의 년의 함수로 모델링합니다.

그래서 나는이 코드를 썼다 :

model <- glm ( cbind (listed, 55-listed) ~ log.budget + years, family = binomial, data = list.45)

예상 한대로 두 변수 모두 강력하고 중요한 효과를 나타냅니다.

그러나 비례 데이터를 OLS 회귀로 모델링해서는 안된다는 것을 알고 있지만 나중에이 코드를 작성했습니다.

model.lm <- lm ( proportion.55 ~ log.budget + years, data = list.45)

이 경우 "예산"은 여전히 ​​중요한 예측 변수이지만 "년"은 상대적으로 약하고 중요하지 않습니다.

집계에 의해 추정치에 대한 신뢰가 인위적으로 부풀려 질까 걱정됩니다. 이항 glm이 모델이 45 * 55 = 2,475 개의 행을 기반으로 데이터를 본질적으로 벡터화하지 않습니까? 실제로 45 개의 식당과 55 명의 정보원 만 있다는 점을 고려할 때 적절합니까? 혼합 효과 모델링이 필요합니까?


4
힌트 : 어떻게되는지 family=quasibinomial
보세요

1
흥미 롭군 추정 된 계수는 동일하지만 표준 오차가 더 보수적입니다 (그리고 유사 이항 모델에서 연도는 중요하지 않습니다). quasibinomial에 대한 도움말 파일을 찾고 있는데 무슨 일인지 설명 할 수 있습니까? 나는 quasibinomial이 과대 산포에 주로 사용된다는 인상을 받았다. . .
제레미 _

3
바로 그거죠. lm와 사이에는 다양한 차이가 glm(...,family=binomial)있지만 중요한 것 중 하나는 이항 GLM이 분산에 대해 강력한 가정을한다는 것입니다. 데이터가 과도하게 분산 되지 않은 경우 집계 / 분리는 차이가 없습니다.
Ben Bolker

1
R 출력은 분산 매개 변수가 8.7 인 것으로 나타났다. 과대 산포에 대해 이것이 무엇을 말하는지 알아 내려고 노력 중입니다. 한편 벤, 나는 당신이 혼합 모델에 대한 많은 배경을 가지고 있음을 알았습니다. 정보 또는 프랜차이즈에 대해 혼합 효과없이 이항 glm을 사용하는 것이 안전합니까 (이 경우 "공식 ID"에 대한 열을 추가하는 동안 모든 데이터를 벡터화해야 할 것입니다)?
제레미 _

답변:


1

와이=엑스1케이1엑스2케이2...엑스케이ln(와이)=ln()+케이1ln(엑스1)+케이2ln(엑스2)...+케이ln(엑스)아르 자형2

이제 변경되지 않은 회귀선 (이상적으로 이변 량 회귀, 예를 들어, 데밍 회귀)이 {0,0}을 통과하지 않으면 조금 더 복잡해지며 보통 최소를 사용하지 않고 오프셋 비례 손실 함수를 최소화합니다 사각형.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.