다음 문제에 대한 귀하의 조언에 크게 감사드립니다.
나는 많은 제로 (~ 95 %)를 가진 큰 연속 데이터 세트를 가지고 있으며 그것의 특정 하위 집합이 "흥미로운"인지 여부를 테스트하는 가장 좋은 방법을 찾아야합니다. 나머지. 제로 인플레이션은 각 데이터 포인트가 참과 샘플링 제로를 모두 사용하는 카운트 측정을 기반으로한다는 사실에서 비롯되지만 카운트로 가중치가 부여 된 다른 매개 변수를 고려하므로 결과는 연속적입니다 (따라서 카운트가 0 인 경우 결과 또한 0입니다).
가장 좋은 방법은 무엇입니까? 나는 Wilcoxon과 심지어 무차별 대치 검정이이 0으로 치우쳐 불충분하다는 느낌을 받았습니다. 0이 아닌 측정에 중점을두면 매우 중요한 실제 0도 제거됩니다. 카운트 데이터에 대한 비 팽창 모델은 잘 개발되었지만 내 경우에는 적합하지 않습니다.
데이터에 Tweedie 분포를 맞추고 response = f (subset_label)에 glm을 맞추는 것을 고려했습니다. 이론적으로 이것은 실현 가능한 것처럼 보이지만 (a) 이것이 과도하고 (b) 여전히 모든 0이 샘플 0이라고 암시 적으로 가정하는지, 즉 순열과 같은 방식으로 (최상의) 바이어스되는지 여부가 궁금합니다.
직관적으로, 그것은 0의 비율에 기초한 이항 통계와 0이 아닌 값으로 계산 된 Wilcoxon 통계를 합한 일종의 계층 적 설계를 갖는 것처럼 들립니다. 이전의 일부를 기준으로 0). 베이지안 네트워크처럼 들립니다 ...
희망적으로 나는이 문제를 겪은 첫 번째 사람이 아니므로 적절한 기존 기술을 알려 주시면 매우 감사하겠습니다.
많은 감사합니다!