나는 간단하다고 생각하지만 그것을 알아낼 수없는 문제가 있습니다. 나는 종자 수분을보고 있는데, 나는 클러스터에 꽃이 피는 식물 (n = 36)을 가지고 있으며, 각 식물에서 3 개의 꽃 클러스터를 샘플링하고 각 클러스터에서 6 개의 씨앗 포드 (각 식물에서 총 18 개의 씨앗 포드)를 샘플링합니다. 꼬투리는 0에서 최대 4 개의 씨앗을 수분시킬 수 있습니다. 따라서 데이터는 상한으로 계산됩니다. 씨앗의 평균 ~ 10 %가 수분을 공급 받고 있지만 주어진 식물에서 1 ~ 30 % 사이의 데이터가 분산되어 있으며, 물론 3 개의 식물에 4 개의 누락 된 클러스터 복제가 있으므로 완벽하게 대칭이 아닙니다. .
내가 묻는 질문은이 데이터 가이 식물이 종자 세트를 위해 수분 조절기를 필요로한다는 아이디어를 지원하는지 여부입니다.
포드의 씨앗 수에 대한 분포는 수분이 많은 씨앗 포드 (16 개 중 6-9 포드)와 3 개 및 4 개의 수분이 많은 씨앗 포드 (각각 2-4 개)가있는 것처럼 보입니다. 인구의 씨앗이 무작위로 수분을 공급 한 경우에 예상됩니다. 기본적으로, 이것은 제로 팽창 된 데이터에 대한 고전적인 예라고 생각합니다. 먼저 곤충이 꽃을 전혀 방문하지 않거나 전혀 방문하지 않습니다 (하나의 제로 생성기). 그렇다면 다른 분포에서 씨앗의 0-4를 수분시킵니다. 대안적인 가설은 식물이 부분적으로 자생한다는 것이며 모든 씨앗이 수분 될 가능성이 동일 할 것으로 예상됩니다 (이 데이터는 대략 0.1 확률을 암시합니다. 이는 동일한 포드에있는 두 종자에 대한 0.01 확률을 의미합니다). .
그러나 나는 단순히 데이터에 ZIP 또는 ZINB를 수행하지 않고 데이터가 하나 또는 다른 분포에 가장 잘 맞는 것을 보여주고 싶습니다. 나는 어떤 방법을 사용하든 실제로 수분 한 씨앗의 수와 각 식물에서 채취 한 꼬투리의 수를 고려해야한다고 생각합니다. 내가 생각해 낸 가장 좋은 것은 주어진 식물에 대한 수분이 많은 씨앗의 수를 내가 샘플링 한 씨앗 포드의 수에 무작위로 할당하는 부트 스트랩 일을하는 것입니다. 만약 10,000 번하고 얼마나 가능성이 있는지 확인하십시오. 주어진 식물에 대한 실험 데이터는 그 무작위 분포에서 나왔습니다.
나는 이것에 대해 무차별 대대적 인 부트 스트랩보다 훨씬 쉬워야한다고 생각하지만 며칠 동안 생각하고 검색 한 후에 포기하고 있습니다. Poisson 분포는 상한이기 때문에 비교할 수 없으며 예상 분포를 어떻게 든 생성해야하기 때문에 이항이 아닙니다. 이견있는 사람? 그리고 나는 R을 사용하고있어서 조언합니다 (특히 4 개의 공을 포함 할 수있는 16 개의 상자에 10,000 개의 무작위로 n 개의 공을 무작위로 분배하는 방법)이 가장 환영받을 것입니다.
ADDED 9/07/2012 먼저, 모든 관심과 도움에 감사드립니다. 답을 읽으면 내 질문에 약간의 단어를 쓰는 것으로 생각했습니다. 내가 말하고있는 것은 씨앗에 걸쳐 씨앗이 무작위로 수분된다는 가설이 하나 있는데 (현재는 null이라고 생각합니다), 대안 가설은 적어도 수분이 많은 씨앗이있는 씨앗 포드가 더 가능성이 높다는 것입니다 임의의 과정에서 예상되는 것보다 여러 개의 수분 된 종자가 있습니다. 내가 말하고있는 것을 설명하기 위해 세 가지 식물의 실제 데이터를 예제로 제공했습니다. 첫 번째 열은 포드에서 수분이 많은 씨앗의 수이고, 두 번째 열은 해당 씨앗 수를 가진 포드의 빈도입니다.
1 식물 (총 3 종 : 4 % 수분)
num.seeds :: pod.freq
0 :: 16
1 :: 1
2 :: 1
3 :: 0
4 :: 0
식물 2 (총 19 종자 : 26 % 수분)
시드 수 :: pod.freq
0 :: 12
1 :: 1
2 :: 1
3 :: 0
4 :: 4
식물 3 (총 16 종자 : 22 % 수분)
시드 수 :: pod.freq
0 :: 9
1 :: 4
2 :: 3
3 :: 2
4 :: 0
1 번 공장에서는 3 개의 씨앗 만 18 개의 꼬투리에 수분을 공급했고, 1 개의 포드에는 1 개의 씨앗을, 1 개의 포드에는 2 개의 씨앗을 가졌습니다. 포드에 하나의 시드를 무작위로 추가하는 과정을 생각하면 처음 두 시드는 각각 자신의 포드로 이동하지만 세 번째 시드에는 이미 하나의 시드가 있지만 16 개의 포드에는 64 개의 스팟이있는 포드에는 6 개의 스팟이 있습니다. 씨앗이 없으므로 여기에 씨앗이 2 개인 포드의 최고 확률은 6 / 64 = 0.094입니다. 그것은 조금 낮지 만 실제로는 극단적이지 않기 때문에이 식물은 수분이 발생할 확률이 ~ 4 % 인 모든 종자에 대한 무작위 수분의 가설에 적합하다고 말하고 싶습니다. 그러나 식물 2는 나에게 훨씬 더 극단적으로 보입니다 .4 개의 포드는 완전히 수분을 공급했지만 12 개의 포드는 아무것도 없습니다. 나는이 분포의 확률을 직접 계산하는 방법을 잘 모르겠지만 (따라서 부트 스트랩 아이디어) 각 씨앗이 ~ 25 %의 수분 가능성을 가지고 있다면이 분포의 확률은 무작위로 발생한다고 추측합니다. 식물 # 3 정말 모릅니다. 랜덤 분포에 대해 예상 할 수있는 것보다 0과 3이 더 많다고 생각하지만 내 생각은이 씨앗 수에 대한 분포가 식물 # 2의 분포보다 훨씬 가능성이 높다는 것입니다. 그렇게되지 않을 수도 있습니다. 그러나 분명히 나는 모든 식물에서 확실히 알고 싶습니다. 나는 무작위 분포에 대해 예상 할 수있는 것보다 0과 3이 더 많다고 생각하지만 내 생각에이 씨앗 수에 대한이 분포는 식물 # 2에 대한 분포보다 훨씬 많으며 그럴 가능성은 적다. 그러나 분명히 나는 모든 식물에서 확실히 알고 싶습니다. 나는 무작위 분포에 대해 예상 할 수있는 것보다 0과 3이 더 많다고 생각하지만 내 생각에이 씨앗 수에 대한이 분포는 식물 # 2에 대한 분포보다 훨씬 많으며 그럴 가능성은 적다. 그러나 분명히 나는 모든 식물에서 확실히 알고 싶습니다.
결국 나는“종자 꼬투리에 수분이있는 씨앗의 분포가 식물이 단순히 부분적으로 자체적으로 호환되지는 않지만 씨앗 세트에 영향을주기 위해 수분 조절제의 방문이 필요하다는 가설에 적합 (또는 적합하지 않음)”과 같은 문장을 작성하려고합니다. (통계 테스트 결과)” 이것은 실제로 내 미래 지향적 인 섹션의 일부이며, 다음에 수행 할 실험에 대해 이야기하고 있습니다. 그래서 나는 이것이 하나 또는 다른 것으로 필사적이지는 않지만 가능한 경우 나 자신을 알고 싶습니다. 이 데이터로 내가하려고하는 일을 할 수 없다면 저도 알고 싶습니다!
처음에는 데이터가 0으로 팽창 된 모델에 들어가야하는지 보여주는 좋은 테스트가 있는지 궁금하기 때문에 처음에는 다소 광범위한 질문을했습니다. 내가 본 모든 예제는“여기에 0이 많이 있으며 이에 대한 합리적인 설명이 있으므로 0 팽창 모델을 사용하십시오”라고 말하는 것처럼 보입니다. 그것이이 포럼에서 지금하고있는 일이지만, 마지막 장에서 카운트 데이터에 Poisson glm을 사용한 경험이 있었으며, 관리자 중 한 사람은“아니요, glms는 너무 복잡하고 불필요합니다. 우발성 통계표에 의해 생성 된 방대한 우연성 표의 데이터 덤프를 보내주었습니다. 내 모든 요소에 대해 동일한 p 값과 세 개의 유효 자릿수에 대한 상호 작용을 제공했습니다 !! 통계를 명확하고 간단하게 유지하려고합니다. 내 선택을 확실하게 방어 할 수있을만큼 충분히 이해했는지 확인하십시오. 지금은 제로 팽창 모델을 위해 할 수 없다고 생각합니다. 나는 quasibinomial (전체 식물에 pesudoreplicaiton을 제거하기 위해)과 위의 데이터에 대한 혼합 모델을 사용하여 치료를 비교하고 내 주요 실험 질문에 대답했습니다. 동일한 일을하는 것 같습니다. ZINB의 오늘 밤 놀면서 그 성능을 확인하십시오. 나는이 데이터가 처음에 강력하게 군집되어 있거나 0으로 팽창되었다는 것을 분명히 보여줄 수 있다고 생각하고 그에 대한 좋은 생물학적 이유를 제공하며 나중에 ZINB를 꺼내는 것이 훨씬 낫습니다. 하나의 유사 이항 / 혼합 모델과 비교하고 더 나은 결과를 제공하기 때문에 내가 사용해야하는 것입니다. 지금은 제로 팽창 모델에 대해 할 수 없다고 생각합니다. 나는 quasibinomial (전체 식물에 pesudoreplicaiton을 제거하기 위해)과 위의 데이터에 대한 혼합 모델을 사용하여 치료를 비교하고 내 주요 실험 질문에 대답했습니다. 동일한 일을하는 것 같습니다. ZINB의 오늘 밤 놀면서 그 성능을 확인하십시오. 나는이 데이터가 처음에 강력하게 군집되어 있거나 0으로 팽창되었다는 것을 분명히 보여줄 수 있다고 생각하고 그에 대한 좋은 생물학적 이유를 제공하며 나중에 ZINB를 꺼내는 것이 훨씬 낫습니다. 하나의 유사 이항 / 혼합 모델과 비교하고 더 나은 결과를 제공하기 때문에 내가 사용해야하는 것입니다. 지금은 제로 팽창 모델에 대해 할 수 없다고 생각합니다. 나는 quasibinomial (전체 식물에 pesudoreplicaiton을 제거하기 위해)과 위의 데이터에 대한 혼합 모델을 사용하여 치료를 비교하고 내 주요 실험 질문에 대답했습니다. 동일한 일을하는 것 같습니다. ZINB의 오늘 밤 놀면서 그 성능을 확인하십시오. 나는이 데이터가 처음에 강력하게 군집되어 있거나 0으로 팽창되었다는 것을 분명히 보여줄 수 있다고 생각하고 그에 대한 좋은 생물학적 이유를 제공하며 나중에 ZINB를 꺼내는 것이 훨씬 낫습니다. 하나의 유사 이항 / 혼합 모델과 비교하고 더 나은 결과를 제공하기 때문에 내가 사용해야하는 것입니다. 나는 quasibinomial (전체 식물에 pesudoreplicaiton을 제거하기 위해)과 위의 데이터에 대한 혼합 모델을 사용하여 치료를 비교하고 내 주요 실험 질문에 대답했습니다. 동일한 일을하는 것 같습니다. ZINB의 오늘 밤 놀면서 그 성능을 확인하십시오. 나는이 데이터가 처음에 강력하게 군집되어 있거나 0으로 팽창되었다는 것을 분명히 보여줄 수 있다고 생각하고 그에 대한 좋은 생물학적 이유를 제공하며 나중에 ZINB를 꺼내는 것이 훨씬 낫습니다. 하나의 유사 이항 / 혼합 모델과 비교하고 더 나은 결과를 제공하기 때문에 내가 사용해야하는 것입니다. 나는 quasibinomial (전체 식물에 pesudoreplicaiton을 제거하기 위해)과 위의 데이터에 대한 혼합 모델을 사용하여 치료를 비교하고 내 주요 실험 질문에 대답했습니다. 동일한 일을하는 것 같습니다. ZINB의 오늘 밤 놀면서 그 성능을 확인하십시오. 나는이 데이터가 처음에 강력하게 군집되어 있거나 0으로 팽창되었다는 것을 분명히 보여줄 수 있다고 생각하고 그에 대한 좋은 생물학적 이유를 제공하며 나중에 ZINB를 꺼내는 것이 훨씬 낫습니다. 하나의 유사 이항 / 혼합 모델과 비교하고 더 나은 결과를 제공하기 때문에 내가 사용해야하는 것입니다.
그러나 기본 질문에서 너무 산만하게하고 싶지 않습니다. 무작위 분포에서 예상 한 것보다 데이터가 실제로 0으로 팽창했는지 어떻게 알 수 있습니까? 제 경우에는 그에 대한 해답이 저에게 정말로 흥미로운 것입니다. 모델 정당화에 대한 가능한 이점은 보너스입니다.
당신의 모든 시간과 도움에 다시 한번 감사드립니다!
건배, BWGIA