모든 커뮤니티에 대해 개별 회귀 분석을 실행해야합니까? 아니면 커뮤니티가 집계 된 모델에서 제어 변수가 될 수 있습니까?


11

DV로 지속적인 자산 인덱스 변수를 사용하여 OLS 모델을 실행하고 있습니다. 내 데이터는 서로 가까운 지리적으로 근접한 3 개의 유사한 커뮤니티에서 집계됩니다. 그럼에도 불구하고 커뮤니티를 제어 변수로 사용하는 것이 중요하다고 생각했습니다. 결과적으로 커뮤니티는 1 % 수준에서 중요합니다 (t 점수 -4.52). 커뮤니티는 3 개의 다른 커뮤니티 중 1 개에 대해 1,2,3으로 코딩 된 명목 / 범주 변수입니다.

내 질문은이 높은 수준의 중요성으로 인해 집단이 아닌 개별적으로 지역 사회에서 회귀를 수행해야한다는 의미입니다. 그렇지 않으면 커뮤니티를 본질적으로 제어 변수로 사용하고 있습니까?


커뮤니티와 임의의 효과로 계층 적 모델을 사용하는 것이 합리적입니까? 지역 사회는 당신의 주요 관심사가 아닌가? 계층 적 모델을 사용하면 장점을 공유 할 수 있습니다.
Wayne

답변:


14

이 질문은 세 가지 관련 모델의 비교를 제안합니다. 비교를 명확히하려면 종속 변수로, 현재 커뮤니티 코드로, 및 를 각각 커뮤니티 1 및 2의 지표로 정의하십시오 . (이 의미 지역 1 대 공동체 2 및 3; 지역 2 대 지역 1, 3 대)X { 1 , 2 , 3 } X 1 X 2 X 1 = 1 X 1 = 0 X 2 = 1 X 2 = 0YX{1,2,3}X1X2X1=1X1=0X2=1X2=0

현재 분석은 다음 중 하나 일 수 있습니다.

Y=α+βX+ε(first model)

또는

Y=α+β1X1+β2X2+ε(second model).

두 경우 모두 은 기대치가없는 동일하게 분포 된 독립 랜덤 변수 세트를 나타냅니다. 두 번째 모델은 의도 된 모델이지만 첫 번째 모델은 해당 질문에 설명 된 코딩에 적합한 모델입니다.ε

OLS 회귀 출력은 오차의 공통 분산 추정치 와 함께 적합 매개 변수 세트 (기호에 "모자"로 표시됨) 입니다. 첫 번째 모델에는 를 과 비교하기위한 한 번의 t- 검정이 있습니다. 두번째 모델있다 하나의 비교 : t-테스트 에 과 서로 비교할 에 . 이 질문은 하나의 t- 검정 만보고하므로 첫 번째 모델을 살펴 보도록하겠습니다. 0 ^ β 1 0 ^ β 2 0β^0β1^0β2^0

이 과 크게 다르다는 결론을 내렸다면 모든 커뮤니티에 대해 = = 로 추정 할 수 있습니다.β^0YE[α+βX+ε]α+βX

커뮤니티 1의 경우 이고 추정치는 와 같습니다 .X=1α+β

커뮤니티 2의 경우 이고 추정치는 와 같습니다 . 과X=2α+2β

커뮤니티 3의 경우 이고 추정치는 와 같습니다 . X=3α+3β

특히, 첫 번째 모델은 커뮤니티 효과가 산술적으로 진행되도록합니다. 커뮤니티 코딩이 커뮤니티를 차별화하는 임의의 방법으로 의도 된 경우, 이 기본 제공 제한은 동일하게 임의적이며 잘못된 것입니다.

두 번째 모델의 예측에 대해 동일한 세부 분석을 수행하는 것이 좋습니다.

커뮤니티 1 ( 및 )의 경우 의 예측 값 은 . 구체적으로 특별히,X1=1X2=0Yα+β1

Y(community 1)=α+β1+ε.

및 인 커뮤니티 2 의 경우 의 예측 값 은 와 같습니다 . 구체적으로 특별히,X1=0X2=1Yα+β2

Y(community 2)=α+β2+ε.

인 커뮤니티 3 의 경우 의 예측 값 은 입니다. 구체적으로 특별히,X1=X2=0Yα

Y(community 3)=α+ε.

세 개의 매개 변수는 두 번째 모델에 의 세 가지 예상 값을 개별적 으로 추정 할 수있는 자유를 효과적으로 부여합니다 . Y t- 검정은 (1) ; 즉, 커뮤니티 1과 3 사이에 차이가 있는지 여부; 및 (2) ; 즉, 지역 2, 또한 (3) 사이의 차이는, 하나는 "콘트라스트"테스트 할 수있을 것인지이다 그들의 차이 때문에이 작동 : 지역 2, 1 상이 있는지 여부를 확인하기 위하여 t-test로를 = 입니다.β1=0β2=0β2β1(α+β2)(α+β1)β2β1

이제 세 가지 개별 회귀의 영향을 평가할 수 있습니다. 그들은 될 것입니다

Y(community 1)=α1+ε1,

Y(community 2)=α2+ε2,

Y(community 3)=α3+ε3.

이것을 두 번째 모델과 비교하면 은 에 동의하고 는 에 동의 하고 은 동의해야합니다 . 따라서 피팅 매개 변수의 유연성 측면에서 두 모델 모두 동일합니다. 그러나이 모델에서 오류 항에 대한 가정은 더 약합니다. 모든 은 독립적이고 동일하게 배포되어야합니다 (iid). 모든 는 iid이고 모든 은 iid 여야 하지만 별도의 회귀 분석 간의 통계적 관계에 대해서는 가정하지 않습니다. α + β 1 α 2 α + β 2 α 3 α ε 1 ε 2 ε 3α1α+β1α2α+β2α3αε1ε2ε3 따라서 별도의 회귀 분석을 통해 추가 유연성을 얻을 수 있습니다.

  • 가장 중요한의 분포 의 다를 수 있습니다 의 다를 수 있습니다 .ε 2 ε 3ε1ε2ε3

  • 어떤 상황에서, 와 관련 될 수있다 . 이 모델들 중 어느 것도 이것을 명시 적으로 다루지 않지만, 적어도 세 번째 모델 (별도의 회귀)은 그 영향을받지 않습니다.ε jεiεj

이러한 추가 유연성은 매개 변수에 대한 t- 검정 결과가 두 번째 모델과 세 번째 모델간에 다를 수 있음을 의미합니다. (그러나 다른 모수 추정값을 초래해서는 안됩니다.)

별도의 회귀 분석이 필요한지 확인하려면 다음을 수행하십시오.

두 번째 모델을 장착하십시오. 커뮤니티에 대한 잔차를, 예를 들어 나란히 박스 플롯 세트 또는 히스토그램 트리오 또는 세 개의 확률 플롯으로 플로팅합니다. 다른 분포 형태와 특히 눈에 띄게 다른 분산의 증거를 찾으십시오. 해당 증거가 없으면 두 번째 모델은 정상입니다. 존재하는 경우 별도의 회귀가 필요합니다.

모형이 다변량 인 경우 (즉, 다른 요인을 포함하는 경우) 유사한 (그러나 더 복잡한) 결론으로 ​​유사한 분석이 가능합니다. 일반적으로, 개별 회귀를 수행하는 것은 커뮤니티 변수 (첫 번째가 아닌 두 번째 모델과 같이 코딩 됨)와의 모든 가능한 양방향 상호 작용을 포함하고 각 커뮤니티에 대해 서로 다른 오류 분포를 허용하는 것과 관련이 있습니다.


-3
  • 모델 선택 (IMHO) 여기에 이미지 설명을 입력하십시오이 권장 될 수 있습니다. 복잡한 모델 (별도 기울기)이 더 강한 페널티를 가지므로 더 간결하고 해석하기 쉬운 모델이 "더 좋을 것"입니다.

1
여기에서 권장하는 것이 무엇인지, 또는이 표가 어떻게 관련되는지는 명확하지 않습니다.
Scortchi-Monica Monica 복원
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.