선형 회귀는 다음과 같은 결과에 대한 올바른 선택이 아닙니다.
- 결과 변수는 정규 분포가 아닙니다
- 결과 변수가 취할 수있는 값으로 제한됨 (수 데이터는 예측 된 값이 음수가 될 수 없음을 의미 함)
- 방문수가 0 인 빈도가 높은 것으로 보입니다.
카운트 데이터에 대한 제한된 종속 변수 모델
선택할 수있는 추정 전략은 결과 변수의 "구조"에 의해 결정됩니다. 즉, 결과 변수가 취할 수있는 값으로 제한되는 경우 (예 : 제한된 종속 변수 인 경우 ) 예측 된 값이 가능한 결과 범위에 속하는 모델을 선택해야합니다. 때때로 선형 회귀는 제한된 종속 변수 (예 : 이진 로짓 / 프로 빗의 경우)에 대한 근사치이지만 종종 그렇지 않습니다. 일반 선형 모형을 입력하십시오 . 귀하의 경우 결과 변수가 개수 데이터이므로 몇 가지 선택 사항이 있습니다.
- 포아송 모델
- 음 이항 모델
- ZIP (Zero Inflated Poisson) 모델
- ZINB (Zero Inflated Negative Binomial) 모델
선택은 일반적으로 경험적으로 결정됩니다. 아래에서 이러한 옵션 중 하나를 선택하는 것에 대해 간단히 설명하겠습니다.
포아송 대 음 이항
일반적으로 Poisson은 위에서 언급 한 4 가지 데이터 모델의 "일반 워크 호스"모델입니다. 모형의 한계는 조건부 분산 = 조건부 평균이라는 가정으로, 항상 그렇지는 않습니다. 모형이 과도하게 분산 된 경우 (조건부 분산> 조건부 평균) 음 이항 모델을 대신 사용해야합니다. 다행히 음 이항을 실행할 때 출력에는 일반적으로 분산 매개 변수에 대한 통계 테스트가 포함됩니다 (R은이 분산 매개 변수를 "theta ( ), 다른 패키지에서는"알파 "라고 함). 포아송 대 음 이항 사이의 선택에서 귀무 가설은 이고 대립 가설은 입니다.H 0 : θ = 0 H 1 : θ ≠ 0 θθH0: θ = 0H1: θ ≠ 0θ 타는 유의미하고 모형에과 분산의 증거가 있으며 포아송보다 음 이항을 선택합니다. 계수가 통계적으로 유의하지 않으면 포아송 결과를 제시하십시오.
ZIP 대 ZINB
잠재적 인 합병증 중 하나는 인플레이션 제로이며 여기서 문제가 될 수 있습니다. ZIP 및 ZINB가 0으로 팽창 된 모델이 들어오는 곳입니다.이 모델을 사용하여 0 값을 생성하는 프로세스가 0이 아닌 다른 값을 생성하는 프로세스와 분리되어 있다고 가정합니다. 이전과 마찬가지로 ZINB는 결과에 과도한 0이 있고 과도하게 분산 된 경우에 적합하고 ZIP은 결과에 과도한 0이 있지만 조건부 평균 = 조건부 분산이있는 경우에 적합합니다. 제로 팽창 된 모형의 경우 위에 나열된 모형 공변량 외에 결과에서 본 초과 제로를 생성했을 수있는 변수를 고려해야합니다. 다시, 이러한 모델의 출력과 함께 제공되는 통계 테스트가 있습니다 (때로는 명령을 실행할 때 모델을 지정해야 할 수도 있음).데이터에 가장 적합한 모델을 경험적으로 결정하십시오. 관심있는 두 가지 테스트가 있습니다. 첫 번째는 분산 매개 변수 에 대한 계수의 테스트이고 두 번째는 Vuong 테스트라고하는 것으로, 별도의 프로세스에 의해 초과 제로가 생성되는지 여부를 알려줍니다 (예 : 실제로 결과에서 인플레이션이 0입니다).θ
ZIP과 ZINB 사이의 선택을 비교할 때, 분산 매개 변수 의 테스트를 다시 살펴볼 것 입니다. 다시, (ZIP가 더 적합) 및 (ZINB가 더 적합) Vuong 테스트를 통해 Poisson vs. ZIP 또는 NB vs. ZINB간에 결정을 내릴 수 있습니다. 부옹 시험, (포아송 / NB가 더 적합) 및 (ZIP은 / ZINB가 더 적합하다).θH0: θ = 0H1: θ ≠ 0H0: 전자X C E S S 지이자형 r o e s 나는 이야 엔 O t ㅏ R의 예를 들 U l t 영형 f ㅏ s e p a r a t e p r o c e s sz e r o e s i s a r e s u l t o f a s e p a r a t e p r o c e s sH1:전자X C E S S 지e r o e s 나는 이야 ㅏ r e s u l t 오 f ㅏ s e p a r a t e p r o c e s s
다른 사용자는 "일반적인"워크 플로우에 대해 의견을 제시 할 수 있지만 필자의 접근 방식은 데이터를 시각화하고 데이터를 활용하는 것입니다. 귀하의 경우에는, 나는 아마 ZINB 시작 것이고에 계수에 테스트를 모두 실행 가에있는 계수에 대한 테스트 이후, 그리고 부옹 테스트 더 나은 ZIP 및 ZINB와 사이에 있던 일을 말할 것이 Vuong 테스트는 팽창하지 않은 모델을 사용해야하는지 여부를 알려줍니다. θθθ
마지막으로, 나는 R을 사용하지 않지만 UCLA 데이터 분석 예제 페이지 의 IDRE가 이러한 모델을 맞추는 데 도움을 줄 수 있습니다.
[평판이없는 다른 사용자에 의한 편집 의견 :이 백서에서는 Vuong 테스트를 사용하여 무 팽창 모델을 비교해서는 안되는 이유를 설명하고 대안을 제공합니다.
P. Wilson,“제로 인플레이션을 테스트하기 위해 중첩되지 않은 모델에 대한 Vuong 테스트 오용” Economics Letters, 2015, vol. 127, 이슈 C, 51-53 ]