어떤 조건에서 다단계 / 계층 분석을 사용해야합니까?

36

보다 기본적인 / 전통적 분석 (예 : ANOVA, OLS 회귀 등)과 달리 다단계 / 계층 적 분석을 고려해야하는 조건은 무엇입니까? 이것이 필수로 간주 될 수있는 상황이 있습니까? 다단계 / 계층 분석 사용이 부적합한 상황이 있습니까? 마지막으로, 초보자가 다단계 / 계층 분석을 배울 수있는 좋은 자료는 무엇입니까?

mixed-model multilevel-analysis

— 패트릭
소스

3

참조 : stats.stackexchange.com/a/38430/5739

— StasK

22

데이터 구조가 자연스럽게 계층 적이거나 중첩 된 경우 다중 수준 모델링이 적합합니다. 보다 일반적으로 상호 작용을 모델링하는 방법 중 하나입니다.

자연스런 예는 데이터가 국가, 주, 지구와 같은 조직화 된 구조에서 나온 것으로 그 수준에서 효과를 조사하려는 경우입니다. 이러한 구조에 맞는 또 다른 예는 시간이 지남에 따라 많은 대상으로부터 측정을 반복 한 종단 분석입니다 (예 : 약물 용량에 대한 생물학적 반응). 모델의 한 수준은 시간이 지남에 따라 모든 대상에 대한 그룹 평균 반응을 가정합니다. 그런 다음 모델의 다른 수준에서 그룹 평균의 변동 (무작위 효과)을 허용하여 개별 차이를 모델링 할 수 있습니다.

시작하기에 인기 있고 좋은 책은 회귀 및 다중 레벨 / 계층 모델을 사용하는 Gelman의 데이터 분석 입니다.

— ars
소스

3

이 답변에 이어 두 번째로이 주제에 대한 또 다른 훌륭한 참고 자료 인 가수의 응용 종 데이터 분석 텍스트 < gseacademic.harvard.edu/alda > 를 추가하고 싶습니다 . 종단 분석에만 적용되지만 일반적으로 MLM에 대한 훌륭한 개요를 제공합니다. 또한 Snidjers와 Bosker의 Multilevel Analysis가 좋고 읽기 쉬운 < stat.gamma.rug.nl/multilevel.htm >을 발견했습니다. John Fox는 또한 R에서이 모델들에 대한 좋은 소개를 제공합니다 . < cran.r-project.org/doc/contrib/Fox-Companion/… >.

— Brett

답장을 보내 주셔서 감사합니다. :) 후속 질문으로, 대부분의 데이터를 자연스럽게 계층 적 / 중첩 된 것으로 개념화 할 수 없었습니까? 예를 들어, 대부분의 심리학 연구에는 개인 내에 중첩 된 여러 종속 변수 (질문, 자극 반응 등)가 있으며,이 둘은 두 개 이상의 그룹 (임의로 또는 무작위로 지정되지 않음) 내에 중첩됩니다. 이것이 자연스럽게 계층 적 및 / 또는 중첩 된 데이터 구조를 나타내는 데 동의하십니까?

— 패트릭

다단계 / 계층 적 전문가가 몇 분을 아낄 수 있다면 다른 게시물 ( stats.stackexchange.com/questions/1799/… ) 에서 제기 된 분석 질문에 대해 생각해 볼 수 있다면 매우 감사 할 것 입니다. 특히, 해당 게시물에 요약 된 통증 인식 데이터가 비 계층 적 분석보다 계층 적 분석으로 더 잘 분석 될 것이라고 생각하십니까? 아니면 차이를 만들거나 부적절하지 않습니까? 감사합니다 : D

— Patrick

18

다단계 모델링 센터에는 다단계 모델링 을 위한 무료 온라인 자습서가 있으며 MLwiN 소프트웨어와 STATA 모두에 모델을 맞추기위한 소프트웨어 자습서가 있습니다.

책에서 한 장 이상을 읽지 않았지만 계층 적 선형 모델 : 응용 프로그램 및 데이터 분석 방법 Stephen W. Raudenbush가 Anthony S. Bryk를 강력히 추천합니다. 또한 Springer Use R에 R 소프트웨어를 사용한 멀티 레벨 모델링에 관한 책이 있다고 맹세했습니다! 시리즈, 그러나 나는 지금 그것을 찾을 수없는 것 같습니다 (나는 R 초보자를위한 책을 쓴 같은 사람들이 쓴 것이라고 생각).

편집 : 다중 레벨 모델에 R을 사용하는 것에 관한 책은 Zuur, AF, Ieno, EN, Walker, N., Saveliev, AA, Smith, GM의 R을 사용한 생태학의 혼합 효과 모델 및 확장입니다.

행운을 빕니다

— 앤디여
소스

9

다단계 대 회귀 모델 사용에 대한 또 다른 관점은 다음과 같습니다. Afshartous와 de Leeuw의 흥미로운 논문에서, 모델링의 목적이 예측적일 경우 (즉, 새로운 관측치를 예측하는 경우) 모델 선택이 언제와 다른지 보여줍니다 목표는 추론입니다 (모델과 데이터 구조를 일치 시키려고하는 경우). 내가 말하는 종이는

Afshartous, D., de Leeuw, J. (2005). 다단계 모델의 예측. 에듀 캣. 행동. 통계 학자. 30 (2) : 109–139.

방금 다음 저자들에 의해 다른 관련 논문을 찾았습니다 : http://moya.bus.miami.edu/~dafshartous/Afshartous_CIS.pdf

— 갈 리트 슈무 엘리
소스

6

다음은 다단계 모델이 "필수"인 예입니다. 학생들의 시험 점수를 사용하여 일련의 학교에서 제공하는 교육의 "품질"을 평가한다고 가정합니다. 학교의 질을 정의하는 한 가지 방법은 학생의 특성을 고려한 후 평균 시험 성적에 관한 것입니다. 이를 로 개념화 할 수 있습니다 여기서 는 학교 학생 에 대한 지속적인 시험 점수입니다 . 는 학교 중심의 학생 속성 은 는 이러한 속성에 대한 학교 별 계수이며, 는 학교 품질을 측정하는 "학교 효과"입니다.

y_{i s} = α_{s} + X_{i s}^{'} β_{s} + ϵ_{i s},

$y_{is} = \alpha_s + X_{is}'\beta_s + \epsilon_{is},$

y_{i s}

$y_{is}$

i

$i$

s

$s$

X_{i s}

$X_{is}$

β_{s}

$\beta_s$

α_{s}

$\alpha_s$

ϵ_{i s}

$\epsilon_{is}$ 는 시험 응시 성능에있어 학생 수준의 특질입니다. 여기서 관심 은 속성이 설명 된 후에 학교가 학생들에게 제공하는 "부가가치"를 측정 하는 추정에 중점을 둡니다 . 학생에게 특정한 불리한 점을 다루어야하는 좋은 학교를 처벌하고 싶지 않기 때문에 학생 속성을 고려하려고합니다. 따라서 학교가 학생들에게 제공하는 "부가가치"가 높음에도 불구하고 평균 시험 점수가 낮아집니다.

α_{s}

$\alpha_s$

모델을 손에 넣으면 문제는 추정 중 하나가됩니다. 각 학교에 대해 많은 학교와 많은 데이터가있는 경우 OLS의 훌륭한 속성입니다 ( 대부분 무해한 Angrist and Pischke 참조) ., 현재 검토의 경우)를 사용하여 종속성을 설명하기 위해 표준 오류를 적절히 조정하고 더미 변수와 상호 작용을 사용하여 학교 수준의 효과와 학교 별 절편을 얻는 것이 좋습니다. OLS는 비효율적 일 수 있지만 너무 투명하여 회의론자 청중을 설득하는 것이 더 쉬울 수 있습니다. 그러나 데이터가 특정 방식으로 희소 한 경우 (특히 일부 학교에 대한 관찰이 거의없는 경우) 문제에 대해 더 "구조"를 부과 할 수 있습니다. 추정이 구조없이 수행 된 경우 소규모 표본 학교에서 얻을 수있는 시끄러운 추정치를 개선하기 위해 대규모 표본 학교에서 "강도를 차용"할 수 있습니다. 그런 다음 FGLS를 통해 추정 된 임의 효과 모델로 전환 할 수 있습니다.

이 예에서, 다단계 모델의 사용은 (그러나 궁극적으로 우리가 적합하다고 결정한 경우) 학교 수준의 가로 채기에 대한 직접적인 관심에 의해 동기가 부여됩니다. 물론, 다른 상황에서 이러한 그룹 레벨 매개 변수는 귀찮은 것일 수 있습니다. 당신이 그것들을 조정할 필요가 있는지 (따라서 여전히 어떤 종류의 다단계 모델로 작업 할 것인지) 여부는 특정 조건부 외 생성 가정이 있는지 여부에 달려 있습니다. 이에 대해서는 패널 데이터 방법에 대한 계량 경제학 문헌을 참조하는 것이 좋습니다. 거기에서 대부분의 통찰력은 일반적인 그룹화 된 데이터 컨텍스트로 이어집니다.

— 사이러스 S
소스

1

이것은 오래된 스레드이지만 다음과 같은 경우를 읽으십시오. 더미 변수와 상호 작용이있는 OLS는 언급 한 다른 기술과 같이 힘을 빌리지 않습니다. 분석을 두 부분으로 나누고 두 개의 lm (R 선형 모델) 명령을 사용하여 두 부분을 모델링 한 데이터가 있습니다. 두 부분을 나타내는 더미 변수를 도입 한 다음이 "통합"모델에서 lm을 다시 사용했는데 답은 비슷하지만 같지는 않습니다. 내 질문은 : 대답이 "더 나은"것입니까, 아니면 알고리즘 때문에 단순히 다른 것입니까?

— Wayne

@Wayne : 두 번째에 인형과 전체 상호 작용을 사용한 경우 추정치가 동일해야합니다. 두 번째 방법은 더 높은 자유도를 가정 할 수 있기 때문에 표준 오류가 다를 수 있지만 이것이 올바른 모델링 가정인지 확인하고자합니다.

— 사이러스 S

6

이름에서 알 수 있듯이 데이터가 다른 수준 (개별, 시간 경과, 도메인 등)에서 발생하는 영향이있는 경우 다단계 모델링이 적합합니다. 단일 레벨 모델링은 모든 것이 가장 낮은 레벨에서 발생한다고 가정합니다. 다단계 모델이 수행하는 또 다른 기능은 중첩 된 유닛간에 상관 관계를 도입하는 것입니다. 따라서 동일한 레벨 2 단위 내의 레벨 1 단위는 상관됩니다.

어떤 의미에서 다단계 모델링은 "개별 주의적 오류"와 "생태 학적 오류"사이의 중간 지점을 찾는 것으로 생각할 수 있습니다. 개인 주의적 오류는 예를 들어 교사의 스타일과 학생의 학습 스타일의 호환성과 같은 "커뮤니티 효과"가 무시되는 경우입니다 (효과는 개인 혼자서 오는 것으로 가정되므로 레벨 1에서 회귀를 수행하십시오). 반면 "생태 학적 오류"는 정반대이며, 최고의 교사가 학생들에게 가장 좋은 성적을 냈다고 가정합니다 (1 단계가 필요하지 않도록하려면 2 단계에서 회귀를 수행하십시오). 대부분의 환경에서 어느 것도 적절하지 않습니다 (학생-교사는 "고전적인"예입니다).

학교 예에서는 데이터에 "자연적인"군집 또는 구조가있었습니다. 그러나 이것은 다단계 / 계층 적 모델링의 필수 기능은 아닙니다. 그러나 자연스러운 클러스터링은 수학과 계산을 더 쉽게 만듭니다. 핵심 요소는 다른 수준에서 발생하는 프로세스가 있다는 사전 정보입니다. 실제로 어떤 유닛이 어느 레벨에 있는지 불확실하게 데이터에 다중 레벨 구조를 적용하여 클러스터링 알고리즘을 고안 할 수 있습니다. 따라서 아래 첨자 를 알 수없는 가 있습니다. $y_{ij}$ $j$

— 확률 론적
소스

4

일반적으로 계층 적 베이지안 (HB) 분석을 말하면 데이터가 개별 수준 효과가 완전히 균일하지 않은 경우 (비현실적인 시나리오)가 아니라면 효율적이고 안정적인 개별 수준 추정으로 이어집니다. HB 모델의 효율성 및 안정적인 모수 추정값은 스파 스 데이터가있을 때 (예 : 개별 레벨의 모수 없음보다 obs가 적음) 개별 레벨 추정값을 추정 할 때 실제로 중요합니다.

그러나 HB 모델이 항상 추정하기 쉬운 것은 아닙니다. 따라서 HB 분석은 일반적으로 비 HB 분석보다 우선하지만 과거 경험과 시간 및 비용 측면에서 현재 우선 순위를 기준으로 상대 비용과 이점을 비교해야합니다.

개별 레벨 추정에 관심이 없다면 집계 레벨 모델을 간단하게 추정 할 수 있지만 이러한 상황에서도 개별 레벨 추정을 사용하여 HB를 통해 집계 모델을 추정하는 것은 많은 의미가 있습니다.

요약하면, HB 모델을 맞추는 것이 시간과 인내심을 가지고있는 한 권장되는 접근법입니다. 그런 다음 집계 모델을 벤치 마크로 사용하여 HB 모델의 성능을 평가할 수 있습니다.

자세한 답변을 보내 주셔서 감사합니다. Srikant :) 저는 현재 베이지안 분석에 익숙하지 않지만, 제가 조사하고자하는 주제 중 하나입니다. 계층 적 베이지안 분석이이 페이지에서 논의 된 다른 다단계 / 계층 적 분석과 다른가? 그렇다면 이해 당사자가 더 자세히 배울 수있는 권장 자료가 있습니까?

— 패트릭

분석적 관점에서 HB 분석 = 다단계 모델. 그러나 다중 레벨 모델이라는 용어는 자연스럽게 발생하는 다른 레벨이있을 때 사용됩니다 (@ars의 예 참조). HB 모델이라는 용어는 상황에서 반드시 다른 레벨을 가질 필요가 없을 때 사용됩니다. 예를 들어 다양한 마케팅 변수 (예 : 가격, 광고비 지출 등)에 대한 소비자의 반응을 모델링하는 경우 소비자 수준에서 다음 구조를 가질 수 있습니다. 그리고 인구 수준에서. 참조 : 다른 답변을 참조하십시오.

β_{i} \sim N (\bar{β}, Σ)

$β_i \sim N(\bar{\beta},\Sigma)$

\bar{β} \sim N (., .)

$\bar{\beta} \sim N(.,.)$

4

Snijders와 Bosker, Multilevel Analysis : 기초 및 고급 다단계 모델링 소개를 통해 배웠습니다. 그것은 내가 생각하는 초심자에게 아주 잘 알려져 있습니다. 왜냐하면 나는이 일들이 우려되는 곳에서 나에게 의미가 있기 때문입니다.

나는 Gelman과 Hill도 두 번째로 정말 훌륭한 책이었습니다.

— 크리스 비 일리
소스

1

다단계 모델은 데이터가 계층 적 구조로 중첩 될 때, 특히 종속 변수의 상위 수준 단위간에 유의 한 차이가있는 경우 (예 : 학생 성취 방향은 학생마다, 또한 학생들과 함께 수업하는 클래스간에 차이가있는 경우) 사용해야합니다. 중첩 됨). 이러한 상황에서 관측치는 독립적이 아니라 군집됩니다. 군집화를 고려하지 않으면 모수 추정값의 오차, 편향 유의성 검정 및 널을 유지해야 할 때 널을 기각하는 경향이 과소 평가됩니다. 다단계 모델 사용의 이론적 근거와 분석 수행 방법에 대한 철저한 설명은 다음과 같습니다.

Raudenbush, SW Bryk, AS (2002). 계층 적 선형 모델 : 응용 프로그램 및 데이터 분석 방법. 2 판. Newbury Park, CA : 세이지.

R & B 서적은 저자의 HLM 소프트웨어 패키지와도 잘 통합되어있어 패키지 학습에 많은 도움이됩니다. 다단계 모델이 왜 필요하고 일부 대안 (더 높은 수준의 단위를 더미 코딩하는 것)보다 선호되는지에 대한 설명이 고전 논문에 제공됩니다.

호프만, DA (1997). 계층 선형 모델의 논리 및 이론적 개요. Journal of Management, 23, 723-744.

Google "Hoffman 1997 HLM"을 사용하여 온라인으로 PDF에 액세스하면 Hoffman 용지를 무료로 다운로드 할 수 있습니다.

— StatisticsDoc 컨설팅
소스