«count-data» 태그된 질문

카운트 데이터는 전체 양을 나타내는 음이 아닌 정수입니다.

1
카운트 데이터에 왜 제곱근 변환이 권장됩니까?
카운트 데이터가있을 때 제곱근을 취하는 것이 종종 권장됩니다. (CV에 대한 몇 가지 예는 @HarveyMotulsky의 대답은 여기 또는 @whuber의 대답은 여기를 참조하십시오 .) 반면 포아송으로 분포 된 반응 변수가있는 일반화 된 선형 모형을 피팅 할 때 로그는 정식 링크 입니다. 이것은 응답 데이터의 로그 변환을 수행하는 것과 비슷합니다 (더 정확하게 는 …


1
교차 검증 포아송 모델에 대한 오류 메트릭
카운트를 예측하려는 모델을 교차 검증하고 있습니다. 이진 분류 문제인 경우 접기 AUC를 계산하고이 문제가 회귀 문제인 경우 접기 RMSE 또는 MAE를 계산합니다. 포아송 모델의 경우 표본 외 예측의 "정확도"를 평가하기 위해 어떤 오류 메트릭을 사용할 수 있습니까? 예측이 실제 값을 얼마나 잘 정렬하는지 보여주는 AUC의 포아송 확장이 있습니까? 카운트에 대한 …

2
일반화 선형 (혼합) 모델 진단 (특히 잔차)
현재 어려운 카운트 데이터 (종속 변수)에 적합한 모델을 찾는 데 어려움을 겪고 있습니다. 나는 여러 가지 다른 모델을 시도했다 (혼합 효과 모델은 데이터의 나의 종류에 필요한)와 같은 lmer과 lme4아니라 가우시안 (Gaussian) 또는 음 이항 등 다양한 가족과 함께 혼합 효과 모델 선형 일반화로 (로그로 변환). 그러나 결과 피팅을 올바르게 진단하는 …


2
음 이항 분포의 연속 일반화
음 이항 (NB) 분포 는 음이 아닌 정수로 정의되며 확률 질량 함수 k \ in \ mathbb N_0 을 x \ in \ mathbb R _ {\ ge 0}로f(k;r,p)=(k+r−1k)pk(1−p)r.f(k;r,p)=(k+r−1k)pk(1−p)r.f(k;r,p)={\binom {k+r-1}{k}}p^{k}(1-p)^{r}. 바꾸는 음이 아닌 실수에 대한 연속 분포를 고려하는 것이 합리적 입니까? 이항 계수는 (k + 1) \ cdot \ ldots …

4
자살 횟수 데이터에서 계절적 영향을 테스트하는 데 적합한 방법입니까?
미국의 17 년 (1995 년에서 2011 년까지) 자살 사망 관련 사망 증명서 데이터를 보유하고 있습니다. 검토 한 결과, 사용 된 방법이나 결과에 대한 확신이 명확하지 않습니다. 따라서 데이터 세트 내에서 특정 달에 자살이 발생할 가능성이 있는지 여부를 확인할 수 있습니다. 모든 분석은 R에서 수행됩니다. 데이터의 총 자살 건수는 13,909 명입니다. …

9
카운트 <20 인 카운트 데이터의 시계열
나는 최근 결핵 클리닉에서 일하기 시작했습니다. 우리는 현재 치료중인 결핵 사례 수, 시행되는 검사 횟수 등을 논의하기 위해 정기적으로 회의를합니다.이 수치를 모델링하기 시작하여 무언가가 비정상적인지 아닌지 추측하지 않습니다. 불행히도, 시계열에 대한 교육은 거의 없었으며 대부분의 노출은 매우 지속적인 데이터 (주가) 또는 매우 많은 수의 인플루엔자 모델에 노출되었습니다. 그러나 우리는 다음과 …

1
카운트 데이터에 포아송 대 기하 대 음 이항 GLM을 언제 사용해야합니까?
GLM 프레임 워크 내에서 카운트 데이터와 함께 어떤 회귀 유형 (형상, 포아송, 음 이항)을 사용하는 것이 적절할 때 나 자신을 위해 레이아웃하려고합니다 (8 개의 GLM 분포 중 3 개만 카운트 데이터에 사용됩니다. 음의 이항 분포와 포아송 분포 중심을 읽었습니다). 카운트 데이터에 포아송 대 기하 대 음 이항 GLM을 언제 사용해야합니까? …

1
카운트 데이터에서 특이 값 탐지
나는 여러 가지 카운트 데이터 세트에 대한 이상치 탐지와 관련하여 상당히 직설적 인 문제라고 생각했습니다. 특히, 일련의 카운트 데이터에서 하나 이상의 값이 분포의 나머지 카운트에 비해 예상보다 높거나 낮은 지 확인하고 싶습니다. 혼란스러운 요소는 3,500 개의 분포에 대해이 작업을 수행해야하며 일부는 0으로 과도하게 분산 된 포아송에 적합하고 다른 일부는 음 …

3
R에서 제로 팽창 된 음 이항 혼합 효과 모델
R에서 0으로 팽창 된 음 이항 혼합 효과 모델 추정을 제공하는 패키지가 있습니까? 그 말은 : pscl 패키지의 zeroinfl 함수에서와 같이 제로 인플레이션에 대한 이항 모델을 지정할 수있는 제로 인플레이션 : zeroinfl (y ~ X | Z, dist = "네 그빈") 여기서 Z는 제로 인플레이션 모델의 공식입니다. 모형의 카운트 부분에 …

2
카운트 데이터와 과대 산포가있는 회귀 분석에서 포아송 또는 준 포아송?
계산 데이터가 있습니다 (많은 요인에 따라 고객 수를 계산하여 요구 / 제공 분석). 정상적인 오류로 선형 회귀를 시도했지만 QQ 플롯이 실제로 좋지 않습니다. 나는 대답의 로그 변환을 시도했다 : 다시 한 번 나쁜 QQ 플롯. 이제 Poisson Errors로 회귀를 시도하고 있습니다. 모든 중요한 변수가있는 모델을 사용하면 다음과 같은 결과를 얻습니다. …

1
두 카운트의 차이의 중요성
시간 1의 교통 사고 수의 차이가 시간 2의 수와 크게 다른지 여부를 결정하는 방법이 있습니까? 서로 다른 시간에 관측 그룹 간의 차이를 결정하는 다른 방법을 찾았지만 (예 : 포아송 평균 비교) 두 카운트 만 비교할 수는 없습니다. 아니면 시도조차도 무효입니까? 조언이나 지시가 있으면 감사하겠습니다. 나는 후속 조치를 취하게되어 기쁘다.

2
카운트 데이터를 독립 변수로 사용하면 GLM 가정을 위반합니까?
로지스틱 회귀 모델에 적합하면서 카운트 데이터를 공변량으로 사용하고 싶습니다. 내 질문은 : 음수가 아닌 계수를 세는 독립 변수로 사용하여 로지스틱 (및 일반적으로 일반화 된 선형) 모델에 대한 가정을 위반합니까? 나는 문헌에서 많은 양의 데이터를 결과로 사용하지만 공변량으로는 사용하지 않는 것에 관한 많은 참고 문헌을 발견했다. "NE Breslow (1996) 일반화 선형 …

2
카운트의 표준 오차
희귀 질환의 계절별 사건 사례 데이터 세트가 있습니다. 예를 들어, 봄에는 180 건, 여름에는 90 건, 가을에는 45 건, 겨울에는 210 건이 있다고 가정합니다. 이 숫자에 표준 오류를 첨부하는 것이 적절한 지 고민하고 있습니다. 연구 목표는 향후 재발 할 수있는 질병 발생률의 계절적 패턴을 찾고 있다는 점에서 중요하지 않습니다. 따라서 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.