레벨 당 1 개의 관측치가있는 혼합 모형


12

glmer비즈니스 데이터에 임의 효과 모델을 적용하고 있습니다. 목표는 지역별 변동을 고려하여 총판 별 판매 실적을 분석하는 것입니다. 다음과 같은 변수가 있습니다.

  • distcode: 약 800 레벨의 총판 ID
  • region: 최상위 지리 ID (북쪽, 남쪽, 동쪽, 서쪽)
  • zone: 중간 수준 지리 내에 region약 30 개 수준이 중첩되어 있습니다.
  • territory: zone약 150 단계 내에 중첩 된 저수준 지리

각 유통 업체는 한 지역에서만 운영됩니다. 까다로운 부분은 배포 자당 하나의 데이터 포인트가있는 요약 된 데이터라는 것입니다. 따라서 800 개의 데이터 포인트가 있으며 규칙적인 방식으로 800 개 매개 변수를 맞추려고합니다.

다음과 같이 모델을 장착했습니다.

glmer(ninv ~ 1 + (1|region/zone/territory) + (1|distcode), family=poisson)

메모를 인쇄하지만 문제없이 실행됩니다.

임의의 효과에 대한 그룹화 요소의 수준 번호는 동일 , 관찰의 수 (n)에

이것은 합리적인 일입니까? 나는 모든 계수의 유한 한 추정치를 얻었고 AIC도 부당하지 않습니다. 아이덴티티 링크로 포아송 GLMM을 시도하면 AIC가 훨씬 나빠 지므로 로그 링크는 적어도 좋은 출발점입니다.

적합 값과 반응을 비교하면 본질적으로 완벽하게 맞는 것을 얻습니다. 배포자 당 하나의 데이터 포인트가 있기 때문입니다. 그것이 합리적입니까, 아니면 완전히 바보 같은 일을하고 있습니까?

한 달 동안 데이터를 사용하고 있습니다. 여러 달 동안 데이터를 가져 와서 그러한 방식으로 복제 할 수 있지만 월간 변동 및 가능한 상호 작용에 대한 새로운 용어를 추가해야합니까?


ETA : 위의 모델을 다시 실행했지만 family인수는 없었습니다 (따라서 GLMM이 아닌 가우스 LMM). 이제 lmer다음과 같은 오류가 발생했습니다.

오류 (함수 (fr, FL, start, REML, verbose) : 랜덤 효과에 대한 그룹화 요소의 수준 수는 관측치 수보다 작아야합니다.

그래서 나는 가족을 바꾸는 것이 효과가 없어야하기 때문에 현명한 일을하고 있지 않다고 생각합니다. 그러나 지금 문제는 왜 처음부터 효과가 있 었는가입니다.

답변:


4

개념적 근거에 대한 관측치와 동일한 수의 그룹이 있고, "그룹"이없고, 계산상의 근거가있는 경우 혼합 모형을 적합시키는 것에 동의하지 않을 것입니다. 적어도 LMM의. (저는 LMM과 독점적으로 작업하며 약간 바이어스 될 수도 있습니다. :))

계산 부분 : 예를 들어 표준 LME 모델을 가정하십시오 . 동일한 수의 관측치와 그룹이 있다고 가정하면 ( "단순한"군집, 교차 또는 중첩 효과 등이 없다고 가정) 모든 표본 분산이 행렬 로 이동 하고 는 0이어야합니다. . (이것에 대해 이미 확신했다고 생각합니다.) 라이너 모델의 데이터만큼 많은 매개 변수를 갖는 것과 거의 같습니다. 과도하게 매개 변수화 된 모델이 있습니다. 따라서 회귀는 약간 의미가 없습니다.yN(Xβ,ZDZT+σ2I)Dσ2

(저는 "합리적인"AIC의 의미를 이해하지 못합니다. AIC는 데이터의 과적 합에도 불구하고 여전히 "무엇을 계산하고"있다는 의미에서 계산할 수 있어야합니다.

반면에 glmer(가족을 Poisson으로 지정했다고 가정하십시오) 가 에 어떻게 의존 하는지 나타내는 링크 함수가 있습니다 (Poisson 의 경우 간단한 로그입니다 ). 이러한 경우 초과 분산을 설명 할 수 있도록 스케일 매개 변수를 수정하므로 식별 가능성이 있습니다 (따라서 불평 하는 동안 결과가 나옵니다). 이것은 관찰만큼 많은 그룹을 갖는 문제를 "해결"하는 방법입니다.yXβXβ>0glmer

개념적인 부분 : 나는 이것에 대해 좀 더 "주관적"이라고 생각하지만 조금 더 간단합니다. 혼합 Eff를 사용합니다. 모델에는 오류에 일부 그룹 관련 구조가 있음을 본질적으로 인식했기 때문입니다. 이제 데이터 포인트만큼 많은 그룹이있는 경우 표시 할 구조가 없습니다. "그룹화"로 인한 LM 오류 구조의 편차는 이제 특정 관측점에 기인합니다 (따라서 너무 적합 된 모델이됩니다).

일반적으로 단일 관측 그룹은 약간 혼란스러운 경향이 있습니다. r-sig-mixed-models 메일 링리스트에서 D.Bates를 인용하려면 :

단일 관측 그룹을 포함 또는 제외하는지에 따라 모형 적합에 거의 차이가 없음을 알 수 있습니다. 사용해보십시오.


1
이것은 선형 설정에서별로 의미가없는 것처럼 보이지만 포아송 회귀에 매우 유용 할 수 있습니다 . Ben Bolker가 주제에 대해 언급 한 것에 대한 링크를 추적 할 수 있는지 확인할 것입니다 (그는 Doug Bates와 함께 lme4의 개발자 중 하나입니다).
David J. Harris

그래, 내가 말했듯이 LMM에 대한 생각에 편견이 있고 "개념적 부분"에 대해 언급하고있었습니다. glmer어쨌든 이것이 왜 작동하는지 설명했습니다 (너무 행복하지는 않지만).
usεr11852

8

카운트 데이터를 반응 변수로 과대 산포 한 경우 관측 당 하나의 수준이 매우 유용 할 수 있습니다 . 카운트 데이터가 포아송-로그 정규 분포에서 나올 것으로 예상하는 것과 동일합니다. 즉, 포아송 분포의 람다 모수는 모형의 예측 변수에 의해 완전히 결정되지 않으며 가능성은 로그 정규 분포입니다.

lme4의 개발자 중 한 명인 Ben Bolker는이를 통해 두 개의 튜토리얼과 유사한 예제를 수행했습니다. 합성 데이터를 가진 첫 번째 것은 조금 더 자세히 설명되어 있습니다. 여기 에서 pdf를 찾을 수 있습니다 . 또한 올빼미와 관련된 실제 데이터 (pdf 및 R 코드는 여기 참조 )를 사용하여 탐색 적 데이터 분석을 수행했습니다 .


1
+1. 당신의 말에 동의합니다. 원래 게시물에서 언급했듯이 " 과도 분산 (...)은 관찰만큼 많은 그룹을 갖는 문제를 해결하는 방법입니다. " glmer개념적 방식으로 더 나은 지적을 해주셔서 감사합니다 .
usεr11852

1
링크 주셔서 감사합니다! 그것들을 읽고 내 모델의 적합 값을 자세히 살펴본 후, 무슨 일이 일어나고 있는지 더 잘 알 수 있습니다. 실제로 벤이하는 일이 분석에 적합하지 않다고 생각합니다. 그는과 분산을 허용하기 위해 관찰 수준 변수를 사용하고 있으므로 귀찮은 효과와 같습니다. 내 분석 distributor의 경우 관심있는 효과가 있습니다. 다른 변수를 허용 할 때 배포자가 서로에 대해 어떻게 수행하는지 확인하고 싶습니다. 따라서 과적 합이 중요한 관심사 인 기존 선형 혼합 모델과 비교할 수 있습니다.
Hong Ooi
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.