두 개의 교차 임의 효과가 있다고 생각되는 일부 데이터를 모델링하고 있습니다. 그러나 데이터 세트의 균형이 맞지 않으므로이를 설명하기 위해 수행해야 할 작업이 확실하지 않습니다.
내 데이터는 일련의 이벤트입니다. 클라이언트가 공급자와 만나 작업을 수행 할 때 이벤트가 발생합니다 (성공 여부). 수천 명의 고객과 제공자가 있으며 각 고객과 제공자는 다양한 이벤트 (대략 5-500)에 참여합니다. 각 고객과 공급자는 수준의 기술을 보유하고 있으며 과제가 성공적으로 수행 될 가능성은 두 참가자의 기술에 달려 있습니다. 클라이언트와 공급자가 겹치지 않습니다.
고객 및 제공 업체 인구의 각 차이에 관심이 있으므로 어떤 소스가 성공률에 더 큰 영향을 미치는지 알 수 있습니다. 또한 최고의 데이터 또는 최악의 클라이언트 또는 공급자를 식별하기 위해 실제로 데이터를 보유한 클라이언트 및 공급자 간의 기술의 특정 가치를 알고 싶습니다.
처음에는 성공 확률이 다른 고정 된 효과없이 클라이언트와 공급자의 결합 된 기술 수준에 의해서만 결정된다고 가정합니다. 따라서 x가 클라이언트에 대한 요인이고 y가 공급자에 대한 요인이라고 가정하면 R (패키지 lme4 사용)에 다음과 같이 지정된 모델이 있습니다.
glmer( success ~ (1 | x) + (1 | y), family=binomial(), data=events)
한 가지 문제는 클라이언트가 공급자에게 고르게 분산되지 않는다는 것입니다. 더 높은 기술 클라이언트는 더 높은 기술 제공 업체와 연결될 가능성이 높습니다. 내 이해는 임의 효과가 모형의 다른 예측 변수와 관련이 없어야한다는 것을 이해하지만 어떻게 설명해야하는지 잘 모르겠습니다.
또한 일부 클라이언트 및 공급자는 10 개 미만의 이벤트가 거의없고 다른 클라이언트 (최대 500 개)는 많기 때문에 각 참가자에 대한 데이터 양이 광범위하게 분포되어 있습니다. 이상적으로는 각 참가자의 기술 추정치 주변의 "신뢰 구간"에 반영됩니다 (여기서 신뢰 구간이라는 용어는 정확하지 않다고 생각합니다).
불균형 데이터로 인해 교차 임의 효과가 문제가됩니까? 그렇다면 고려해야 할 다른 접근 방법은 무엇입니까?