이진 데이터와 관련된 분산 및 분할 변화


14

물류 선형 혼합 효과 모델 (무작위 가로 채기)을 사용하여 175 개 학교에서 30 만 명의 학생에 대한 데이터를 분석하고 있습니다. 각 학생은 정확히 한 번만 발생하며 데이터는 6 년에 걸쳐 있습니다.

  1. 지속적인 결과를 위해 VPC / ICC와 비슷한 방식으로 학교와 학생 수준의 차이를 어떻게 분할합니까? 나는 A와 B가 나에게 흥미로운 것처럼 보이는 4 가지 방법을 제안하는 기사를 보았지만 , 이들 중 하나를 사용할 때 어떤 이점 / 단점이 있는지, 물론 다른 방법이 있다면 알고 싶다 그것.

  2. 매년 학교 수준의 잔차를 어떻게 비교할 수 있습니까 (또는 다른 기간)? 지금까지 데이터를 연도별로 나누고 매년 데이터를 기준으로 모델을 실행 하여이 작업을 수행했지만 다음과 같은 이유로 결함이 있다고 생각합니다. i) 연도 별로 나눌 이유가 분명하지 않습니다 . 그리고 ii) 매년 고정 효과 추정치가 다르기 때문에 해마다 무작위 효과를 비교하는 것은 의미가 없을 수 있습니다 (이것은 누군가가 이것을 더 공식적으로 설명 할 수 있다면 정확할 것입니다).

참고 : whuber 및 Macro와의 메타 토론 후에이 질문을 다시 썼습니다.


3
이것이 중요한 개선이라고 생각합니다. 문제는 이제 매우 분명합니다. 지금은 체계적인 답변을 할 시간이 없지만 나중에 답변을 게시하겠습니다.
매크로

3
로지스틱 혼합 효과 모델은 고등학교에서 매우 발전된 주제처럼 보입니다. 고등학교 교과 과정의 일부입니까, 아니면 독립적으로 공부하고 있습니까?
mark999

4
@ mark999 나는 독립적으로 공부하고 있습니다. 실제로 나는 "당신이 이것을 이해할 수있는 방법이 없다" 고 말한 오빠를 잘못 증명하려고 노력하고 있습니다 . 그는 통계학 학위를 받고 있기 때문에 모든 책에 접근 할 수 있습니다.
Joe King

답변:


15

하자 와이나는제이,엑스나는제이 학생 나타내는 응답과 예측 벡터 (각각) 나는 학교에서 제이 .

(1) 이진 데이터의 경우 연속 데이터에 대한 것과 유사한 분산 분해를 수행하는 표준 방법은 저자가 링크에서 방법 D (아래 다른 방법에 대해 언급 할 것) 라고 부르는 것입니다. 선형 모델에 의해 지배되는 기본 연속 변수에서 발생하고 해당 잠재 척도의 분산을 분해합니다. 그 이유는 물류 모델 (및 기타 GLM)이 자연스럽게 이런 방식으로 발생하기 때문입니다.

이것을 보려면 와이나는제이 가 선형 혼합 모형에 의해 지배되도록 정의하십시오 .

와이나는제이=α+엑스나는제이β+η제이+ε나는제이

여기서 는 회귀 계수이고, η jN ( 0 , σ 2 ) 는 학교 수준의 랜덤 효과이고 ε i j 는 잔차 분산 항이며 표준 물류 분포를 갖습니다 . 이제하자α,βη제이(0,σ2)ε나는제이

와이나는제이={1만약   와이나는제이00만약   와이나는제이<0

이제 우리가 가지고있는 로지스틱 CDF를 사용하여 로하자.나는제이=(와이나는제이=1|엑스나는제이,η제이)

pij=1P(yij<0|xij,ηj)=exp{(α+xijβ+ηj)}1+exp{(α+xijβ+ηj)}

이제 양쪽 의 로짓 변환 을 수행하면

log(pij1pij)=α+xijβ+ηj

이것은 로지스틱 혼합 효과 모델입니다. 따라서 로지스틱 모델은 위에서 지정한 잠재 변수 모델과 같습니다. 중요한 참고 사항 :

  • 의 스케일은 식별되지 않습니다. 스케일을 축소해야하지만 상수 s 인 경우 단순히 위의 값을εijs

exp{(α+xijβ+ηj)/s}1+exp{(α+xijβ+ηj)/s}

       따라서 계수와 랜덤 효과는 해당 양만큼 간단하게 확장됩니다 . 그래서, S = 1 을 의미하는 데 사용된다 V R ( ε I , J ) = π 2 / 3 .
      s=1var(εij)=π2/3

이 모델을 사용하고 수량을

σ^η2σ^η2+π2/3

기본 잠재 변수 의 클래스 내 상관 관계를 추정합니다 . 또 다른 중요한 참고 사항 :

  • 경우 로 지정하는 대신, 표준 정규 분포를 갖는, 당신은 혼합 효과가있는 모델을 프로 빗 . 이 경우 σ 2 ηεij
    σ^η2σ^η2+1

링크 한 논문에 언급 된 다른 방법들과 관련하여 :

  • xij

  • (B) 시뮬레이션 방법은 통계 학자에게 직관적으로 호소력을 발휘합니다. 원래의 데이터 규모에서 추정 분산 분해를 제공하지만, 대상에 따라 (i) "방법"에서이를 설명하기가 복잡 할 수 있습니다. 섹션 및 (ii) "보다 표준적인"것을 찾고있는 검토자를 끌 수 있습니다.

  • (C) 데이터가 연속적 인 척하는 것은 아마도 대부분의 확률이 0 또는 1에 가깝지 않으면 끔찍하게 수행되지는 않지만 좋은 생각은 아니지만 아마도 그렇게하면 리뷰어에게 거의 확실하게 적신호를 올릴 것입니다 멀리있어

이제 마지막으로

(2) 고정 효과가 수년에 걸쳐 매우 다른 경우, 잠재적 효과가 다른 척도이기 때문에 수년에 걸친 임의 효과 분산을 비교하는 것이 어려울 수 있다고 생각하는 것이 옳습니다 (이는 비 식별성과 관련이 있습니다) 위에서 언급 한 스케일링 문제).

시간이 지남에 따라 고정 효과를 유지하려면 (단, 시간이 지남에 따라 효과가 많이 변하는 것을보고 싶지 않다면) 랜덤 효과 분산의 변화를 살펴보면 임의의 효과를 사용하여이 효과를 탐색 할 수 있습니다 슬로프 및 더미 변수. 예를 들어, 여러 해에 ICC가 다른지 확인하고 싶다면나는케이=1 연도에 관찰 한 경우 케이 그렇지 않으면 0이고 선형 예측 변수를 다음과 같이 모델링합니다.

α+xijβ+η1jI1+η2jI2+η3jI3+η4jI4+η5jI5+η6jI6

this will give you a different ICCs each year but the same fixed effects. It may be tempting to just use a random slope in time, making your linear predictor

α+xijβ+η1+η2t

but I don't recommend this, since that will only allow your associations to increase over time, not decrease.


이 분산 분할 기술에 대한 링크 된 기사에서 "이 방법은 (0, 1) 응답이 다음과 같은 기본 연속체의 잘림에서 파생 된 경우 합리적 일 수 있습니다. 패스 / 연속 마크 규모에 따라 응답을 실패하지만, 응답이 "사망 또는 투표로 진정, 이산 같은 경우 덜 정당성을 가질 것 같다 . 제 경우에는 후자에 해당하는 집단 따돌림을 다루고 있습니다.
Joe King

@JoeKing, I would say that logistic/probit (and similar) regression models already assume that the data are generated from an underlying continuum, since the model can be shown to be equivalent to that. Therefore, if one is even using such models, then they must find that assumption to be defensible :)
Macro

1
@JoeKing, if you consider this answer definitive please consider accepting :)
Macro

나는 정말로 할 것이다. 지금은 몇 가지 요점에 대해 조금 불확실하며 약간의 시간을 읽은 후 (약 며칠) 조금 더 읽고 데이터를 더 살펴보고 싶습니다. 괜찮으 시다면?
Joe King

@JoeKing 물론-일부 새로운 회원은 알지 못하기 때문에 나는 그것을 지적 할 것이라고 생각했습니다-그것은 당신에게 전혀 압력을 가할 의도가 아닙니다
Macro
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.