이 질문은 세 가지 관련 모델의 비교를 제안합니다. 비교를 명확히하려면 종속 변수로, 현재 커뮤니티 코드로, 및 를 각각 커뮤니티 1 및 2의 지표로 정의하십시오 . (이 의미 지역 1 대 공동체 2 및 3; 지역 2 대 지역 1, 3 대)X ∈ { 1 , 2 , 3 } X 1 X 2 X 1 = 1 X 1 = 0 X 2 = 1 X 2 = 0YX∈{1,2,3}X1X2X1=1X1=0X2=1X2=0
현재 분석은 다음 중 하나 일 수 있습니다.
Y=α+βX+ε(first model)
또는
Y=α+β1X1+β2X2+ε(second model).
두 경우 모두 은 기대치가없는 동일하게 분포 된 독립 랜덤 변수 세트를 나타냅니다. 두 번째 모델은 의도 된 모델이지만 첫 번째 모델은 해당 질문에 설명 된 코딩에 적합한 모델입니다.ε
OLS 회귀 출력은 오차의 공통 분산 추정치 와 함께 적합 매개 변수 세트 (기호에 "모자"로 표시됨) 입니다. 첫 번째 모델에는 를 과 비교하기위한 한 번의 t- 검정이 있습니다. 두번째 모델있다 두 하나의 비교 : t-테스트 에 과 서로 비교할 에 . 이 질문은 하나의 t- 검정 만보고하므로 첫 번째 모델을 살펴 보도록하겠습니다. 0 ^ β 1 0 ^ β 2 0β^0β1^0β2^0
이 과 크게 다르다는 결론을 내렸다면 모든 커뮤니티에 대해 = = 로 추정 할 수 있습니다.β^0YE[α+βX+ε]α+βX
커뮤니티 1의 경우 이고 추정치는 와 같습니다 .X=1α+β
커뮤니티 2의 경우 이고 추정치는 와 같습니다 . 과X=2α+2β
커뮤니티 3의 경우 이고 추정치는 와 같습니다 . X=3α+3β
특히, 첫 번째 모델은 커뮤니티 효과가 산술적으로 진행되도록합니다. 커뮤니티 코딩이 커뮤니티를 차별화하는 임의의 방법으로 의도 된 경우, 이 기본 제공 제한은 동일하게 임의적이며 잘못된 것입니다.
두 번째 모델의 예측에 대해 동일한 세부 분석을 수행하는 것이 좋습니다.
커뮤니티 1 ( 및 )의 경우 의 예측 값 은 . 구체적으로 특별히,X1=1X2=0Yα+β1
Y(community 1)=α+β1+ε.
및 인 커뮤니티 2 의 경우 의 예측 값 은 와 같습니다 . 구체적으로 특별히,X1=0X2=1Yα+β2
Y(community 2)=α+β2+ε.
인 커뮤니티 3 의 경우 의 예측 값 은 입니다. 구체적으로 특별히,X1=X2=0Yα
Y(community 3)=α+ε.
세 개의 매개 변수는 두 번째 모델에 의 세 가지 예상 값을 개별적 으로 추정 할 수있는 자유를 효과적으로 부여합니다 . Y t- 검정은 (1) ; 즉, 커뮤니티 1과 3 사이에 차이가 있는지 여부; 및 (2) ; 즉, 지역 2, 또한 (3) 사이의 차이는, 하나는 "콘트라스트"테스트 할 수있을 것인지이다 그들의 차이 때문에이 작동 : 지역 2, 1 상이 있는지 여부를 확인하기 위하여 t-test로를 = 입니다.β1=0β2=0β2−β1(α+β2)−(α+β1)β2−β1
이제 세 가지 개별 회귀의 영향을 평가할 수 있습니다. 그들은 될 것입니다
Y(community 1)=α1+ε1,
Y(community 2)=α2+ε2,
Y(community 3)=α3+ε3.
이것을 두 번째 모델과 비교하면 은 에 동의하고 는 에 동의 하고 은 동의해야합니다 . 따라서 피팅 매개 변수의 유연성 측면에서 두 모델 모두 동일합니다. 그러나이 모델에서 오류 항에 대한 가정은 더 약합니다. 모든 은 독립적이고 동일하게 배포되어야합니다 (iid). 모든 는 iid이고 모든 은 iid 여야 하지만 별도의 회귀 분석 간의 통계적 관계에 대해서는 가정하지 않습니다. α + β 1 α 2 α + β 2 α 3 α ε 1 ε 2 ε 3α1α+β1α2α+β2α3αε1ε2ε3 따라서 별도의 회귀 분석을 통해 추가 유연성을 얻을 수 있습니다.
가장 중요한의 분포 의 다를 수 있습니다 의 다를 수 있습니다 .ε 2 ε 3ε1ε2ε3
어떤 상황에서, 와 관련 될 수있다 . 이 모델들 중 어느 것도 이것을 명시 적으로 다루지 않지만, 적어도 세 번째 모델 (별도의 회귀)은 그 영향을받지 않습니다.ε jεiεj
이러한 추가 유연성은 매개 변수에 대한 t- 검정 결과가 두 번째 모델과 세 번째 모델간에 다를 수 있음을 의미합니다. (그러나 다른 모수 추정값을 초래해서는 안됩니다.)
별도의 회귀 분석이 필요한지 확인하려면 다음을 수행하십시오.
두 번째 모델을 장착하십시오. 커뮤니티에 대한 잔차를, 예를 들어 나란히 박스 플롯 세트 또는 히스토그램 트리오 또는 세 개의 확률 플롯으로 플로팅합니다. 다른 분포 형태와 특히 눈에 띄게 다른 분산의 증거를 찾으십시오. 해당 증거가 없으면 두 번째 모델은 정상입니다. 존재하는 경우 별도의 회귀가 필요합니다.
모형이 다변량 인 경우 (즉, 다른 요인을 포함하는 경우) 유사한 (그러나 더 복잡한) 결론으로 유사한 분석이 가능합니다. 일반적으로, 개별 회귀를 수행하는 것은 커뮤니티 변수 (첫 번째가 아닌 두 번째 모델과 같이 코딩 됨)와의 모든 가능한 양방향 상호 작용을 포함하고 각 커뮤니티에 대해 서로 다른 오류 분포를 허용하는 것과 관련이 있습니다.