무 팽창 연속 데이터에 대한 가설 테스트


10

다음 문제에 대한 귀하의 조언에 크게 감사드립니다.

나는 많은 제로 (~ 95 %)를 가진 큰 연속 데이터 세트를 가지고 있으며 그것의 특정 하위 집합이 "흥미로운"인지 여부를 테스트하는 가장 좋은 방법을 찾아야합니다. 나머지. 제로 인플레이션은 각 데이터 포인트가 참과 샘플링 제로를 모두 사용하는 카운트 측정을 기반으로한다는 사실에서 비롯되지만 카운트로 가중치가 부여 된 다른 매개 변수를 고려하므로 결과는 연속적입니다 (따라서 카운트가 0 인 경우 결과 또한 0입니다).

가장 좋은 방법은 무엇입니까? 나는 Wilcoxon과 심지어 무차별 대치 검정이이 0으로 치우쳐 불충분하다는 느낌을 받았습니다. 0이 아닌 측정에 중점을두면 매우 중요한 실제 0도 제거됩니다. 카운트 데이터에 대한 비 팽창 모델은 잘 개발되었지만 내 경우에는 적합하지 않습니다.

데이터에 Tweedie 분포를 맞추고 response = f (subset_label)에 glm을 맞추는 것을 고려했습니다. 이론적으로 이것은 실현 가능한 것처럼 보이지만 (a) 이것이 과도하고 (b) 여전히 모든 0이 샘플 0이라고 암시 적으로 가정하는지, 즉 순열과 같은 방식으로 (최상의) 바이어스되는지 여부가 궁금합니다.

직관적으로, 그것은 0의 비율에 기초한 이항 통계와 0이 아닌 값으로 계산 된 Wilcoxon 통계를 합한 일종의 계층 적 설계를 갖는 것처럼 들립니다. 이전의 일부를 기준으로 0). 베이지안 네트워크처럼 들립니다 ...

희망적으로 나는이 문제를 겪은 첫 번째 사람이 아니므로 적절한 기존 기술을 알려 주시면 매우 감사하겠습니다.

많은 감사합니다!


최신 정보. 지금까지, 나는이 논문이 나의 것과 유사한 문제를 다루고 있음을 발견했다 : maths.otago.ac.nz/home/downloads/david_fletcher/…
a11msp

0이 절대 다수를 구성한다는 점을 감안할 때이 매우 단순화 된 근사치가 의미가 있는지 궁금합니다 .1) 각 하위 집합에서 0의 비율을 찾으십시오. 2) 0이 가장 작은 부분 집합에서 모든 0이 참이라고 가정합니다. 3) 각 부분 집합에서 가장 "제로가 많은"데이터 세트에서 0의 비율과 동일한 0의 비율을 제거합니다. 4)이 수정 된 데이터 세트에서 표준 비모수 통계를 실행합니다.
a11msp

첫 번째 주석에서 종이에 대한 하이퍼 링크가 죽은 것 같습니다. 대신 인용을 제공 할 수 있습니까?
coip

1
이것을 지적 해 주셔서 감사합니다 : doi.org/10.1007/s10651-005-6817-1
a11msp

답변:


9

@ msp, 나는 당신이 그 첨부 파일에서 2 단계 모델을보고 있다고 생각합니다 (나는 그것을 읽을 시간이 없었습니다). 이 데이터에 파라 메트릭 모델을 맞추기 위해 (가설 검정을 허용하기 위해) 2 단계를 맞출 수 있지만 2 개의 모델을 갖습니다 (Y는 목표이고 X는 공변량입니다) : P (Y = 0 | X) 및 P (Y | X; Y> 0). 시뮬레이션을 사용하여 이들을 "반입"해야합니다. Gelmans (및 R의 arm 패키지)은이 정확한 모델에 대한이 프로세스를 보여줍니다 (로그 링크와 함께 로지스틱 회귀 및 일반 선형 회귀 사용).

내가 보았고 좋아하는 다른 옵션은 위와 동일하지만 팽창 된 감마 회귀를 제로에 맞추는 것입니다 (그러나 감마 대신 오류로 감마) P (Y | X)에 대한 가설 검정을 위해 함께 가져올 수 있습니다 . R 에서이 작업을 수행하는 방법을 모르지만 SAS NLMIXED에서 할 수 있습니다. 이 게시물을 참조하십시오 .


@B_Miner, 답변 주셔서 대단히 감사합니다. 죄송합니다. 귀하를 평가할만큼 평가가 충분하지 않습니다 ... 링크를 살펴 보겠습니다! 조건부 모델에 대한 나의 유일한 걱정은 0이 두 번째 (연속) 구성 요소에 속할 수 없다고 가정한다는 것입니다. 내 설정이 혼합 모델처럼 느껴지지 않습니까? 어떻게 생각해?
a11msp

나는 이제 Gelman 책에서 제안 된 2 단계 접근법을 복제했습니다. 서브 세트 팩터 (25 레벨)가 서브 세트 레이블로서 역할을하는 경우, 첫 번째 단계는 fit1 = glm (response ~ subset_factor, family = binomial)입니다. 두 번째 단계는 fit2 = lm (response ~ subset_factor, subset = response> 0)입니다. 그런 다음 각 요인 수준에 대한 적합 반응 값의 분포를 얻기 위해 설명 된대로 시뮬레이션을 실행할 수 있습니다. 그러나 나는 이것을 이것을 내가 필요한 것으로 번역하는 방법을 여전히 확신하지 못한다. 즉 (a) 계수가 0이 아닐 확률과 (b) 다른 요인 수준에서 계수 간의 차이의 중요성이다.
a11msp

2 단계 접근법 (2 개의 별도 모델의 젤만 방법)은 2 개의 모집단, 즉 0과 그 이상의 모집단을 가정합니다.
B_Miner

... 그래서 Gelman 방법의 두 모델 중 하나에서 일부 요인 수준의 영향이 유의하고 다른 요인 수준의 영향과 크게 다른 경우 전체적으로 유의하다고 간단히 말하는 것이 적절합니까?
a11msp

1
그렇습니다. 2 단계 접근법 (2 개의 분리 된 모델의 젤만 방법)은 0과 0보다 큰 2 개의 모집단을 가정합니다. 가설 검정과 관련하여 입력의 다양한 수준에 대해 예측 된 값의 관점에서 프레임을 구성하고 경험적으로 구성 할 수 있습니다 각각의 시뮬레이션과 관련된 신뢰 구간? 계수! = 0에 대한 가설 검정의 경우 두 모델 모두에 대해 별도로 검정해야합니다.
B_Miner

2

Fletcher 논문에 대한 유사한 접근 방식은 마케팅 테스트에 사용되며, 여기서 우리는 중재 (예 : 광고)의 효과를 (a) 브랜드 구매 수의 변화 (예 : 0의 비율) 및 (b) a로 임의로 분리 할 수 ​​있습니다. 밴드 구매 빈도의 변화 (판매가 주어진 판매는 전혀 발생하지 않음). 이것은 Fletcher가 논의하는 마케팅 적 맥락과 생태적 맥락에서 견실 한 접근법이며 개념적으로 의미가 있습니다. 실제로, 이것은 (c) 각 구매의 크기 변화로 확장 될 수있다.


감사! 기존의 r 구현을 알고 있는지 궁금합니다.
a11msp

1

정확한 제로 수는 알 수 없지만 0과 관측 된 제로 수 사이에는 제한이 있습니다. 이것은 모델의 베이지안 공식을 사용하여 확실히 처리 할 수 ​​있습니다. 아마도 다중 대치 법이 제로 관측 값의 가중치 (0과 1 사이)를 적절히 변경하기 위해 조정될 수도 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.