개별 모델과 다중 레벨 모델링을 실행할 때의 장단점은 무엇입니까?
보다 구체적으로, 한 연구에서 국가 내에 내포 된 의사의 진료 관행에 내포 된 환자를 검사했다고 가정합니다. 각 국가에 대해 별도의 모델을 실행하는 것과 3 단계 중첩 모델의 장점 / 단점은 무엇입니까?
개별 모델과 다중 레벨 모델링을 실행할 때의 장단점은 무엇입니까?
보다 구체적으로, 한 연구에서 국가 내에 내포 된 의사의 진료 관행에 내포 된 환자를 검사했다고 가정합니다. 각 국가에 대해 별도의 모델을 실행하는 것과 3 단계 중첩 모델의 장점 / 단점은 무엇입니까?
답변:
질문은 날짜가 있지만 매우 중요하다고 생각합니다. 내가 얻을 수있는 가장 좋은 대답은 Joop J Hox (2010) 책 "Multilevel Analysis Techniques and Applications, Second Edition"입니다.
수준의 설명 변수가 가장 낮은 수준이고 설명 변수가 가장 높은 수준의 2 단계 계층 구조 데이터가 있다고 가정 합니다. 그런 다음 55 페이지에서 다음과 같이 씁니다.q
동일한 데이터에 대한 일반적인 단일 수준 회귀 모델은 절편, 하나의 오차 분산 및 p + q 회귀 기울기 만 추정합니다. 데이터가 그룹으로 묶여 있다고 생각하면 다단계 회귀 모델의 우수성이 분명합니다. 100 개의 그룹이있는 경우 각 그룹에서 일반적인 다중 회귀 모델을 추정하려면 별도로 100 × (1 회귀 차단 + 1 잔차 분산 + p 회귀 기울기)와 q 그룹 수준 변수와의 가능한 상호 작용을 추정해야합니다. 다 수준 회귀 분석은 이러한 잔차에 대한 정규 분포를 가정하여 평균 절편과 그룹 간 잔차 분산을 추정하여 100 개의 절편을 추정합니다. 그러므로, 다단계 회귀 분석은 두 개의 모수 (절편의 평균 및 분산)와 정규성 가정을 추정하여 100 개의 개별 절편을 추정합니다. 회귀 슬로프에도 동일한 단순화가 사용됩니다. 설명 변수 동공 성별에 대해 100 개의 기울기를 추정하는 대신, 그룹 전체의 분산과 함께 평균 기울기를 추정하고 기울기 분포가 정상이라고 가정합니다. 그럼에도 불구하고, 적은 수의 설명 변수가 있더라도, 다단계 회귀 분석은 복잡한 모형을 의미합니다. 일반적으로 우리는 전체 모델을 추정하고 싶지 않습니다. 먼저 계산 문제로 이어질 수 있기 때문에 복잡한 모델을 해석하는 것이 매우 어렵 기 때문입니다.
그것은 설명을위한 것입니다. 이제 29-30 페이지가 귀하의 질문에보다 정확하게 대답 할 것입니다.
100 개의 클래스에 대해 예측 된 절편과 기울기는 표준 일반 최소 제곱 (OLS) 기술을 사용하여 100 개의 클래스 각각에서 100 개의 개별 정규 회귀 분석을 수행 할 경우 얻을 수있는 값과 동일하지 않습니다. 100 개의 개별 OLS 회귀 분석 결과를 다단계 회귀 분석에서 얻은 값과 비교하면 별도의 분석 결과가 더 다양하다는 것을 알 수 있습니다. 이는 100 개 클래스의 회귀 계수에 대한 다단계 추정값이 가중치가 적용되기 때문입니다. 그것들은 소위 Empirical Bayes (EB) 또는 수축 추정치입니다 : 각 등급의 특정 OLS 추정치의 가중 평균 및 모든 유사한 등급에 대해 추정 된 전체 회귀 계수.
결과적으로, 회귀 계수는 전체 데이터 세트의 평균 계수를 향해 다시 축소됩니다. 수축 중량은 추정 된 계수의 신뢰성에 따라 다릅니다. 작은 정확도로 추정 된 계수는 매우 정확하게 추정 된 계수보다 축소됩니다. 추정의 정확도는 두 가지 요인, 즉 그룹 표본 크기와 그룹 기반 추정치와 전체 추정치 사이의 거리에 따라 달라집니다. 소규모 그룹에 대한 견적은 신뢰성이 떨어지고 대규모 그룹에 대한 견적보다 축소됩니다. 다른 것들은 같고, 전체 추정치와 매우 멀리 떨어져있는 추정치는 신뢰성이 낮다고 가정되며, 전체 평균에 가까운 추정치보다 더 많이 축소됩니다. 사용 된 통계적 방법을 경험적 베이 추정이라고합니다. 이 수축 효과로 인해 경험적인 베이 추정기는 편향된다. 그러나 그것들은 보통 더 정확하고 편견보다 종종 더 유용한 속성입니다 (Kendall, 1959 참조).
나는 그것이 만족하기를 바랍니다.
랜덤 효과를 지정하려면 해당 수준의 평균이 정규 분포의 표본이라고 가정합니다. 이 가정이 데이터에 맞지 않으면 고정 효과, AKA 더미 변수로 지정하는 것이 좋습니다. 이런 식으로 평균 (그룹의 평균)에서 그룹 별 이질성을 제어하지만 하위 수준 변수에 대한 응답으로 이질성을 허용하지 않습니다.
하위 수준의 설명 변수에 대한 응답으로 이질성을 예상하는 경우 임의의 계수 모델을 실행하지 않으려면 (여기서 계수가 정규 분포되어 있다는 가정이 필요하지 않은 경우) 별도의 모델이 적합합니다.
(나는 비정규 무작위 효과에 대한 방법이 있지만 lme만큼 널리 사용되거나 액세스 할 수있는 방법은 없다고 생각합니다)
장점 : 군집별로 매개 변수의 차이를 명시 적으로 테스트하는 기능 (즉, 유의성 차이가 큰 차이를 의미하지는 않음)