우리는 60 명의 사람들에게 애틀랜타에 가능한 많은 식당 프랜차이즈를 나열하도록 요청했습니다. 전체 목록에는 70 개가 넘는 식당이 포함되었지만, 10 % 미만의 사람들이 언급 한 식당을 제거하여 45 명을 남겼습니다.이 45 명에 대해서는 프랜차이즈를 등록한 정보원의 비율을 계산하여 관심을 보였습니다. 이 비율을 프랜차이즈의 (로그 변환 된) 광고 예산 및 프랜차이즈가 된 이후의 년의 함수로 모델링합니다.
그래서 나는이 코드를 썼다 :
model <- glm ( cbind (listed, 55-listed) ~ log.budget + years, family = binomial, data = list.45)
예상 한대로 두 변수 모두 강력하고 중요한 효과를 나타냅니다.
그러나 비례 데이터를 OLS 회귀로 모델링해서는 안된다는 것을 알고 있지만 나중에이 코드를 작성했습니다.
model.lm <- lm ( proportion.55 ~ log.budget + years, data = list.45)
이 경우 "예산"은 여전히 중요한 예측 변수이지만 "년"은 상대적으로 약하고 중요하지 않습니다.
집계에 의해 추정치에 대한 신뢰가 인위적으로 부풀려 질까 걱정됩니다. 이항 glm이 모델이 45 * 55 = 2,475 개의 행을 기반으로 데이터를 본질적으로 벡터화하지 않습니까? 실제로 45 개의 식당과 55 명의 정보원 만 있다는 점을 고려할 때 적절합니까? 혼합 효과 모델링이 필요합니까?
lm
와 사이에는 다양한 차이가 glm(...,family=binomial)
있지만 중요한 것 중 하나는 이항 GLM이 분산에 대해 강력한 가정을한다는 것입니다. 데이터가 과도하게 분산 되지 않은 경우 집계 / 분리는 차이가 없습니다.
family=quasibinomial