비대칭 데이터를 사용한 회귀

11

인구 통계 및 서비스에서 방문수를 계산하려고합니다. 데이터가 매우 왜곡되어 있습니다.

히스토그램 :

히스토그램

qq 플롯 (왼쪽은 로그) :

qq 플롯-오른쪽은 로그입니다

m <- lm(d$Visits~d$Age+d$Gender+city+service)
m <- lm(log(d$Visits)~d$Age+d$Gender+city+service)

city및 service요인 변수입니다.

모든 변수에 대해 낮은 p 값 ***을 얻지 만 r의 제곱도 .05입니다. 어떻게해야합니까? 지수 또는 다른 것과 같은 다른 모델이 작동합니까?

— pxxd
소스

원래 0의 고주파수라고 생각한 것이 실제로 2의 고주파수라고 생각했기 때문에 데이터 생성 프로세스에 대해 조금 더 말씀해 주시겠습니까? 사람들은 어떤 서비스를 받고 있었으며 분석의 "궁극적 인 목표"는 무엇입니까? 일련의 특성 (예 : 서비스 품질의 척도)을 고려하여 방문 횟수 (수)를 예측하려고합니까? 연구 질문에 답하기 위해 결과를 카운트로 절대적으로 유지해야합니까, 아니면 결과 변수를 더 적지 만 더 큰 범주로 축소 할 수 있습니까?

— Marquis de Carabas

2

카운트 데이터가 있습니다. 이 사이트에서 포아송 회귀를 검색하십시오.

— kjetil b halvorsen

10

선형 회귀는 다음과 같은 결과에 대한 올바른 선택이 아닙니다.

결과 변수는 정규 분포가 아닙니다
결과 변수가 취할 수있는 값으로 제한됨 (수 데이터는 예측 된 값이 음수가 될 수 없음을 의미 함)
방문수가 0 인 빈도가 높은 것으로 보입니다.

카운트 데이터에 대한 제한된 종속 변수 모델

선택할 수있는 추정 전략은 결과 변수의 "구조"에 의해 결정됩니다. 즉, 결과 변수가 취할 수있는 값으로 제한되는 경우 (예 : 제한된 종속 변수 인 경우 ) 예측 된 값이 가능한 결과 범위에 속하는 모델을 선택해야합니다. 때때로 선형 회귀는 제한된 종속 변수 (예 : 이진 로짓 / 프로 빗의 경우)에 대한 근사치이지만 종종 그렇지 않습니다. 일반 선형 모형을 입력하십시오 . 귀하의 경우 결과 변수가 개수 데이터이므로 몇 가지 선택 사항이 있습니다.

포아송 모델
음 이항 모델
ZIP (Zero Inflated Poisson) 모델
ZINB (Zero Inflated Negative Binomial) 모델

선택은 일반적으로 경험적으로 결정됩니다. 아래에서 이러한 옵션 중 하나를 선택하는 것에 대해 간단히 설명하겠습니다.

포아송 대 음 이항

일반적으로 Poisson은 위에서 언급 한 4 가지 데이터 모델의 "일반 워크 호스"모델입니다. 모형의 한계는 조건부 분산 = 조건부 평균이라는 가정으로, 항상 그렇지는 않습니다. 모형이 과도하게 분산 된 경우 (조건부 분산> 조건부 평균) 음 이항 모델을 대신 사용해야합니다. 다행히 음 이항을 실행할 때 출력에는 일반적으로 분산 매개 변수에 대한 통계 테스트가 포함됩니다 (R은이 분산 매개 변수를 "theta ( ), 다른 패키지에서는"알파 "라고 함). 포아송 대 음 이항 사이의 선택에서 귀무 가설은 이고 대립 가설은 입니다. $\theta$ $H_0:\theta=0$ $H_1: \theta≠0$ $\theta$ 타는 유의미하고 모형에과 분산의 증거가 있으며 포아송보다 음 이항을 선택합니다. 계수가 통계적으로 유의하지 않으면 포아송 결과를 제시하십시오.

ZIP 대 ZINB

잠재적 인 합병증 중 하나는 인플레이션 제로이며 여기서 문제가 될 수 있습니다. ZIP 및 ZINB가 0으로 팽창 된 모델이 들어오는 곳입니다.이 모델을 사용하여 0 값을 생성하는 프로세스가 0이 아닌 다른 값을 생성하는 프로세스와 분리되어 있다고 가정합니다. 이전과 마찬가지로 ZINB는 결과에 과도한 0이 있고 과도하게 분산 된 경우에 적합하고 ZIP은 결과에 과도한 0이 있지만 조건부 평균 = 조건부 분산이있는 경우에 적합합니다. 제로 팽창 된 모형의 경우 위에 나열된 모형 공변량 외에 결과에서 본 초과 제로를 생성했을 수있는 변수를 고려해야합니다. 다시, 이러한 모델의 출력과 함께 제공되는 통계 테스트가 있습니다 (때로는 명령을 실행할 때 모델을 지정해야 할 수도 있음).데이터에 가장 적합한 모델을 경험적으로 결정하십시오. 관심있는 두 가지 테스트가 있습니다. 첫 번째는 분산 매개 변수 에 대한 계수의 테스트이고 두 번째는 Vuong 테스트라고하는 것으로, 별도의 프로세스에 의해 초과 제로가 생성되는지 여부를 알려줍니다 (예 : 실제로 결과에서 인플레이션이 0입니다). $\theta$

ZIP과 ZINB 사이의 선택을 비교할 때, 분산 매개 변수 의 테스트를 다시 살펴볼 것 입니다. 다시, (ZIP가 더 적합) 및 (ZINB가 더 적합) Vuong 테스트를 통해 Poisson vs. ZIP 또는 NB vs. ZINB간에 결정을 내릴 수 있습니다. 부옹 시험, (포아송 / NB가 더 적합) 및 (ZIP은 / ZINB가 더 적합하다). $\theta$ $H_0: \theta=0$ $H_1: \theta≠0$ $H_0: Excess$ $zeroes$ $is$ $not$ $a$ $result$ $of$ $a$ $separate$ $process$ $H_1:Excess$ $zeroes$ $is$ $a$ $result$ $of$ $a$ $separate$ $process$

다른 사용자는 "일반적인"워크 플로우에 대해 의견을 제시 할 수 있지만 필자의 접근 방식은 데이터를 시각화하고 데이터를 활용하는 것입니다. 귀하의 경우에는, 나는 아마 ZINB 시작 것이고에 계수에 테스트를 모두 실행 가에있는 계수에 대한 테스트 이후, 그리고 부옹 테스트 더 나은 ZIP 및 ZINB와 사이에 있던 일을 말할 것이 Vuong 테스트는 팽창하지 않은 모델을 사용해야하는지 여부를 알려줍니다. $\theta$ $\theta$

마지막으로, 나는 R을 사용하지 않지만 UCLA 데이터 분석 예제 페이지 의 IDRE가 이러한 모델을 맞추는 데 도움을 줄 수 있습니다.

[평판이없는 다른 사용자에 의한 편집 의견 :이 백서에서는 Vuong 테스트를 사용하여 무 팽창 모델을 비교해서는 안되는 이유를 설명하고 대안을 제공합니다.

P. Wilson,“제로 인플레이션을 테스트하기 위해 중첩되지 않은 모델에 대한 Vuong 테스트 오용” Economics Letters, 2015, vol. 127, 이슈 C, 51-53 ]

— 마르퀴스 데 카라 바스
소스

대다수는 2 ~ 방문입니다. 모든 기록은 1 회 이상 방문

— pxxd

포아송과 감마에 대해 비슷한 QQ 플롯을 얻고 있습니다. 괜찮습니까?

— pxxd

3

1. 결과 변수가 정규 분포 를 따르지 않음 그 자체 로는 선형 회귀에 대한 유효한 인수 가 아닙니다 . 추정기의 좋은 특성 (예 : 일관성 및 점근 적 정규성)을 보장하는 일련의 회귀 가정에는 결과 변수의 정규성 (오류의 정규성조차 포함되지 않음)이 포함되지 않습니다.

— Richard Hardy

2

감마 분포를 사용한 일반 선형 모형을 사용해보십시오. x = 0에서 양수이고 0과 같기 때문에 종속 변수와 비슷할 수 있습니다. 비슷한 경우에 R과 GLM을 약간의 성공으로 사용했습니다.

— 디에고
소스

V i s i t s d

$Visits~d$

1

아니요, 로그 링크를 사용하지 말고 ID 링크를 사용해야한다고 생각합니다. 그러나 먼저 감마 함수가 분포에 얼마나 적합한 지 확인하십시오.

— Diego

0

모든 통계적 가정은 모델의 오차에 관한 것입니다. 요일을 반영하는 6 개의 표시기 시리즈를 사용하여 간단한 모델을 구축하면 훨씬 더 나은 오차 분포를 볼 수 있습니다. 월별 효과와 휴일 효과 (전과 후, 그리고 후에)를 통합하면 오류의 분산이 훨씬 더 좋아질 것입니다. 매월, 매주, 긴 주말 지표를 추가하면 상황이 더 좋아질 것입니다.

봐 현재 및 과거 데이터 주어 손님의 예측 번호의 간단한 방법 과 /stats//search?q=user%3A3382+daily+data을 더 재미있는 읽기.

— IrishStat
소스

1

이 답변은 실제로 묻는 질문과 관련이없는 것 같습니다. 연결을 명시 적으로 만들 수 있습니까?

— whuber

나는 매일 데이터를 제안하기 위해 그의 DVISITS를 가져갔습니다 ... 그렇지 않다면 대답을 철회합니다. 그것이 정말로 횡단면이라면 .. 아마도 그는 주요 분류별로 데이터를 계층화하는 것을 고려해야 할 것이다.

— IrishStat