교차 임의 효과 및 불균형 데이터


10

두 개의 교차 임의 효과가 있다고 생각되는 일부 데이터를 모델링하고 있습니다. 그러나 데이터 세트의 균형이 맞지 않으므로이를 설명하기 위해 수행해야 할 작업이 확실하지 않습니다.

내 데이터는 일련의 이벤트입니다. 클라이언트가 공급자와 만나 작업을 수행 할 때 이벤트가 발생합니다 (성공 여부). 수천 명의 고객과 제공자가 있으며 각 고객과 제공자는 다양한 이벤트 (대략 5-500)에 참여합니다. 각 고객과 공급자는 수준의 기술을 보유하고 있으며 과제가 성공적으로 수행 될 가능성은 두 참가자의 기술에 달려 있습니다. 클라이언트와 공급자가 겹치지 않습니다.

고객 및 제공 업체 인구의 각 차이에 관심이 있으므로 어떤 소스가 성공률에 더 큰 영향을 미치는지 알 수 있습니다. 또한 최고의 데이터 또는 최악의 클라이언트 또는 공급자를 식별하기 위해 실제로 데이터를 보유한 클라이언트 및 공급자 간의 기술의 특정 가치를 알고 싶습니다.

처음에는 성공 확률이 다른 고정 된 효과없이 클라이언트와 공급자의 결합 된 기술 수준에 의해서만 결정된다고 가정합니다. 따라서 x가 클라이언트에 대한 요인이고 y가 공급자에 대한 요인이라고 가정하면 R (패키지 lme4 사용)에 다음과 같이 지정된 모델이 있습니다.

  glmer( success ~ (1 | x) + (1 | y), family=binomial(), data=events)

한 가지 문제는 클라이언트가 공급자에게 고르게 분산되지 않는다는 것입니다. 더 높은 기술 클라이언트는 더 높은 기술 제공 업체와 연결될 가능성이 높습니다. 내 이해는 임의 효과가 모형의 다른 예측 변수와 관련이 없어야한다는 것을 이해하지만 어떻게 설명해야하는지 잘 모르겠습니다.

또한 일부 클라이언트 및 공급자는 10 개 미만의 이벤트가 거의없고 다른 클라이언트 (최대 500 개)는 많기 때문에 각 참가자에 대한 데이터 양이 광범위하게 분포되어 있습니다. 이상적으로는 각 참가자의 기술 추정치 주변의 "신뢰 구간"에 반영됩니다 (여기서 신뢰 구간이라는 용어는 정확하지 않다고 생각합니다).

불균형 데이터로 인해 교차 임의 효과가 문제가됩니까? 그렇다면 고려해야 할 다른 접근 방법은 무엇입니까?

답변:


4

불균형 데이터의 경우, glmer는 불균형 그룹을 처리 할 수 ​​있습니다. 실제로 균형 설계로 제한된 반복 측정 ANOVA와 비교할 때 혼합 모델 접근법을 개발하는 시점이었습니다. 잔차 분산의 추정치를 향상시키기 때문에 이벤트가 적은 클라이언트 또는 공급자 (하나만)를 포함하는 것이 여전히 생략하는 것보다 낫습니다 ( Martin et al. 2011 참조 ).

BLUP ( ranef(model))을 기술의 대리자로 사용하려면 실제로 포인트 예측에 대한 불확실성을 추정해야합니다. 이는 ranef(model, postVar=TRUE)베이지안 프레임 워크에서 사후 분포를 사용 하거나이를 통해 잦은 프레임 워크에서 수행 될 수 있습니다 . 그러나 추가 회귀 모델에서 BLUP을 반응 변수로 사용해서는 안됩니다 . Hadfield et al. (2010) 은 BLUP의 오용 사례와 불확실성을 적절히 고려하기위한 다양한 방법에 대해 설명합니다.

클라이언트와 공급자 간의 기술 상관 관계에 대해이 불균형은 각 임의의 효과로 인한 분산을 정확하게 추정하지 못하므로 매우 강하면 문제가 될 수 있습니다. 랜덤 절편 간의 상관 관계를 쉽게 처리 할 수있는 혼합 모델 프레임 워크가없는 것 같습니다 ( 문제의 공식 표현 은 여기 참조 ). 고객과 제공 업체의 평균 성공이 얼마나 밀접한 관련이있을 수 있습니까?


내 오래된 질문 중 하나를 해결해 주셔서 대단히 감사합니다. 대답은 여전히 ​​관련성이 있으며 지침과 참고 사항을 높이 평가합니다. 그것이 거기에 있다는 것을 알아 차리는데 너무 오래 걸렸습니다. 나는 그것을 해결 표시했습니다.
colonel.triq
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.