데이터를 테스트 / 증명하는 방법은 0으로 증가합니까?


9

나는 간단하다고 생각하지만 그것을 알아낼 수없는 문제가 있습니다. 나는 종자 수분을보고 있는데, 나는 클러스터에 꽃이 피는 식물 (n = 36)을 가지고 있으며, 각 식물에서 3 개의 꽃 클러스터를 샘플링하고 각 클러스터에서 6 개의 씨앗 포드 (각 식물에서 총 18 개의 씨앗 포드)를 샘플링합니다. 꼬투리는 0에서 최대 4 개의 씨앗을 수분시킬 수 있습니다. 따라서 데이터는 상한으로 계산됩니다. 씨앗의 평균 ~ 10 %가 수분을 공급 받고 있지만 주어진 식물에서 1 ~ 30 % 사이의 데이터가 분산되어 있으며, 물론 3 개의 식물에 4 개의 누락 된 클러스터 복제가 있으므로 완벽하게 대칭이 아닙니다. .

내가 묻는 질문은이 데이터 가이 식물이 종자 세트를 위해 수분 조절기를 필요로한다는 아이디어를 지원하는지 여부입니다.

포드의 씨앗 수에 대한 분포는 수분이 많은 씨앗 포드 (16 개 중 6-9 포드)와 3 개 및 4 개의 수분이 많은 씨앗 포드 (각각 2-4 개)가있는 것처럼 보입니다. 인구의 씨앗이 무작위로 수분을 공급 한 경우에 예상됩니다. 기본적으로, 이것은 제로 팽창 된 데이터에 대한 고전적인 예라고 생각합니다. 먼저 곤충이 꽃을 전혀 방문하지 않거나 전혀 방문하지 않습니다 (하나의 제로 생성기). 그렇다면 다른 분포에서 씨앗의 0-4를 수분시킵니다. 대안적인 가설은 식물이 부분적으로 자생한다는 것이며 모든 씨앗이 수분 될 가능성이 동일 할 것으로 예상됩니다 (이 데이터는 대략 0.1 확률을 암시합니다. 이는 동일한 포드에있는 두 종자에 대한 0.01 확률을 의미합니다). .

그러나 나는 단순히 데이터에 ZIP 또는 ZINB를 수행하지 않고 데이터가 하나 또는 다른 분포에 가장 잘 맞는 것을 보여주고 싶습니다. 나는 어떤 방법을 사용하든 실제로 수분 한 씨앗의 수와 각 식물에서 채취 한 꼬투리의 수를 고려해야한다고 생각합니다. 내가 생각해 낸 가장 좋은 것은 주어진 식물에 대한 수분이 많은 씨앗의 수를 내가 샘플링 한 씨앗 포드의 수에 무작위로 할당하는 부트 스트랩 일을하는 것입니다. 만약 10,000 번하고 얼마나 가능성이 있는지 확인하십시오. 주어진 식물에 대한 실험 데이터는 그 무작위 분포에서 나왔습니다.

나는 이것에 대해 무차별 대대적 인 부트 스트랩보다 훨씬 쉬워야한다고 생각하지만 며칠 동안 생각하고 검색 한 후에 포기하고 있습니다. Poisson 분포는 상한이기 때문에 비교할 수 없으며 예상 분포를 어떻게 든 생성해야하기 때문에 이항이 아닙니다. 이견있는 사람? 그리고 나는 R을 사용하고있어서 조언합니다 (특히 4 개의 공을 포함 할 수있는 16 개의 상자에 10,000 개의 무작위로 n 개의 공을 무작위로 분배하는 방법)이 가장 환영받을 것입니다.

ADDED 9/07/2012 먼저, 모든 관심과 도움에 감사드립니다. 답을 읽으면 내 질문에 약간의 단어를 쓰는 것으로 생각했습니다. 내가 말하고있는 것은 씨앗에 걸쳐 씨앗이 무작위로 수분된다는 가설이 하나 있는데 (현재는 null이라고 생각합니다), 대안 가설은 적어도 수분이 많은 씨앗이있는 씨앗 포드가 더 가능성이 높다는 것입니다 임의의 과정에서 예상되는 것보다 여러 개의 수분 된 종자가 있습니다. 내가 말하고있는 것을 설명하기 위해 세 가지 식물의 실제 데이터를 예제로 제공했습니다. 첫 번째 열은 포드에서 수분이 많은 씨앗의 수이고, 두 번째 열은 해당 씨앗 수를 가진 포드의 빈도입니다.

1 식물 (총 3 종 : 4 % 수분)

num.seeds :: pod.freq

0 :: 16

1 :: 1

2 :: 1

3 :: 0

4 :: 0

식물 2 (총 19 종자 : 26 % 수분)

시드 수 :: pod.freq

0 :: 12

1 :: 1

2 :: 1

3 :: 0

4 :: 4

식물 3 (총 16 종자 : 22 % 수분)

시드 수 :: pod.freq

0 :: 9

1 :: 4

2 :: 3

3 :: 2

4 :: 0

1 번 공장에서는 3 개의 씨앗 만 18 개의 꼬투리에 수분을 공급했고, 1 개의 포드에는 1 개의 씨앗을, 1 개의 포드에는 2 개의 씨앗을 가졌습니다. 포드에 하나의 시드를 무작위로 추가하는 과정을 생각하면 처음 두 시드는 각각 자신의 포드로 이동하지만 세 번째 시드에는 이미 하나의 시드가 있지만 16 개의 포드에는 64 개의 스팟이있는 포드에는 6 개의 스팟이 있습니다. 씨앗이 없으므로 여기에 씨앗이 2 개인 포드의 최고 확률은 6 / 64 = 0.094입니다. 그것은 조금 낮지 만 실제로는 극단적이지 않기 때문에이 식물은 수분이 발생할 확률이 ~ 4 % 인 모든 종자에 대한 무작위 수분의 가설에 적합하다고 말하고 싶습니다. 그러나 식물 2는 나에게 훨씬 더 극단적으로 보입니다 .4 개의 포드는 완전히 수분을 공급했지만 12 개의 포드는 아무것도 없습니다. 나는이 분포의 확률을 직접 계산하는 방법을 잘 모르겠지만 (따라서 부트 스트랩 아이디어) 각 씨앗이 ~ 25 %의 수분 가능성을 가지고 있다면이 분포의 확률은 무작위로 발생한다고 추측합니다. 식물 # 3 정말 모릅니다. 랜덤 분포에 대해 예상 할 수있는 것보다 0과 3이 더 많다고 생각하지만 내 생각은이 씨앗 수에 대한 분포가 식물 # 2의 분포보다 훨씬 가능성이 높다는 것입니다. 그렇게되지 않을 수도 있습니다. 그러나 분명히 나는 ​​모든 식물에서 확실히 알고 싶습니다. 나는 무작위 분포에 대해 예상 할 수있는 것보다 0과 3이 더 많다고 생각하지만 내 생각에이 씨앗 수에 대한이 분포는 식물 # 2에 대한 분포보다 훨씬 많으며 그럴 가능성은 적다. 그러나 분명히 나는 ​​모든 식물에서 확실히 알고 싶습니다. 나는 무작위 분포에 대해 예상 할 수있는 것보다 0과 3이 더 많다고 생각하지만 내 생각에이 씨앗 수에 대한이 분포는 식물 # 2에 대한 분포보다 훨씬 많으며 그럴 가능성은 적다. 그러나 분명히 나는 ​​모든 식물에서 확실히 알고 싶습니다.

결국 나는“종자 꼬투리에 수분이있는 씨앗의 분포가 식물이 단순히 부분적으로 자체적으로 호환되지는 않지만 씨앗 세트에 영향을주기 위해 수분 조절제의 방문이 필요하다는 가설에 적합 (또는 적합하지 않음)”과 같은 문장을 작성하려고합니다. (통계 테스트 결과)” 이것은 실제로 내 미래 지향적 인 섹션의 일부이며, 다음에 수행 할 실험에 대해 이야기하고 있습니다. 그래서 나는 이것이 하나 또는 다른 것으로 필사적이지는 않지만 가능한 경우 나 자신을 알고 싶습니다. 이 데이터로 내가하려고하는 일을 할 수 없다면 저도 알고 싶습니다!

처음에는 데이터가 0으로 팽창 된 모델에 들어가야하는지 보여주는 좋은 테스트가 있는지 궁금하기 때문에 처음에는 다소 광범위한 질문을했습니다. 내가 본 모든 예제는“여기에 0이 많이 있으며 이에 대한 합리적인 설명이 있으므로 0 팽창 모델을 사용하십시오”라고 말하는 것처럼 보입니다. 그것이이 포럼에서 지금하고있는 일이지만, 마지막 장에서 카운트 데이터에 Poisson glm을 사용한 경험이 있었으며, 관리자 중 한 사람은“아니요, glms는 너무 복잡하고 불필요합니다. 우발성 통계표에 의해 생성 된 방대한 우연성 표의 데이터 덤프를 보내주었습니다. 내 모든 요소에 대해 동일한 p 값과 세 개의 유효 자릿수에 대한 상호 작용을 제공했습니다 !! 통계를 명확하고 간단하게 유지하려고합니다. 내 선택을 확실하게 방어 할 수있을만큼 충분히 이해했는지 확인하십시오. 지금은 제로 팽창 모델을 위해 할 수 없다고 생각합니다. 나는 quasibinomial (전체 식물에 pesudoreplicaiton을 제거하기 위해)과 위의 데이터에 대한 혼합 모델을 사용하여 치료를 비교하고 내 주요 실험 질문에 대답했습니다. 동일한 일을하는 것 같습니다. ZINB의 오늘 밤 놀면서 그 성능을 확인하십시오. 나는이 데이터가 처음에 강력하게 군집되어 있거나 0으로 팽창되었다는 것을 분명히 보여줄 수 있다고 생각하고 그에 대한 좋은 생물학적 이유를 제공하며 나중에 ZINB를 꺼내는 것이 훨씬 낫습니다. 하나의 유사 이항 / 혼합 모델과 비교하고 더 나은 결과를 제공하기 때문에 내가 사용해야하는 것입니다. 지금은 제로 팽창 모델에 대해 할 수 없다고 생각합니다. 나는 quasibinomial (전체 식물에 pesudoreplicaiton을 제거하기 위해)과 위의 데이터에 대한 혼합 모델을 사용하여 치료를 비교하고 내 주요 실험 질문에 대답했습니다. 동일한 일을하는 것 같습니다. ZINB의 오늘 밤 놀면서 그 성능을 확인하십시오. 나는이 데이터가 처음에 강력하게 군집되어 있거나 0으로 팽창되었다는 것을 분명히 보여줄 수 있다고 생각하고 그에 대한 좋은 생물학적 이유를 제공하며 나중에 ZINB를 꺼내는 것이 훨씬 낫습니다. 하나의 유사 이항 / 혼합 모델과 비교하고 더 나은 결과를 제공하기 때문에 내가 사용해야하는 것입니다. 지금은 제로 팽창 모델에 대해 할 수 없다고 생각합니다. 나는 quasibinomial (전체 식물에 pesudoreplicaiton을 제거하기 위해)과 위의 데이터에 대한 혼합 모델을 사용하여 치료를 비교하고 내 주요 실험 질문에 대답했습니다. 동일한 일을하는 것 같습니다. ZINB의 오늘 밤 놀면서 그 성능을 확인하십시오. 나는이 데이터가 처음에 강력하게 군집되어 있거나 0으로 팽창되었다는 것을 분명히 보여줄 수 있다고 생각하고 그에 대한 좋은 생물학적 이유를 제공하며 나중에 ZINB를 꺼내는 것이 훨씬 낫습니다. 하나의 유사 이항 / 혼합 모델과 비교하고 더 나은 결과를 제공하기 때문에 내가 사용해야하는 것입니다. 나는 quasibinomial (전체 식물에 pesudoreplicaiton을 제거하기 위해)과 위의 데이터에 대한 혼합 모델을 사용하여 치료를 비교하고 내 주요 실험 질문에 대답했습니다. 동일한 일을하는 것 같습니다. ZINB의 오늘 밤 놀면서 그 성능을 확인하십시오. 나는이 데이터가 처음에 강력하게 군집되어 있거나 0으로 팽창되었다는 것을 분명히 보여줄 수 있다고 생각하고 그에 대한 좋은 생물학적 이유를 제공하며 나중에 ZINB를 꺼내는 것이 훨씬 낫습니다. 하나의 유사 이항 / 혼합 모델과 비교하고 더 나은 결과를 제공하기 때문에 내가 사용해야하는 것입니다. 나는 quasibinomial (전체 식물에 pesudoreplicaiton을 제거하기 위해)과 위의 데이터에 대한 혼합 모델을 사용하여 치료를 비교하고 내 주요 실험 질문에 대답했습니다. 동일한 일을하는 것 같습니다. ZINB의 오늘 밤 놀면서 그 성능을 확인하십시오. 나는이 데이터가 처음에 강력하게 군집되어 있거나 0으로 팽창되었다는 것을 분명히 보여줄 수 있다고 생각하고 그에 대한 좋은 생물학적 이유를 제공하며 나중에 ZINB를 꺼내는 것이 훨씬 낫습니다. 하나의 유사 이항 / 혼합 모델과 비교하고 더 나은 결과를 제공하기 때문에 내가 사용해야하는 것입니다.

그러나 기본 질문에서 너무 산만하게하고 싶지 않습니다. 무작위 분포에서 예상 한 것보다 데이터가 실제로 0으로 팽창했는지 어떻게 알 수 있습니까? 제 경우에는 그에 대한 해답이 저에게 정말로 흥미로운 것입니다. 모델 정당화에 대한 가능한 이점은 보너스입니다.

당신의 모든 시간과 도움에 다시 한번 감사드립니다!

건배, BWGIA


왜 제로 팽창 이항 모형을 적합하지 않습니까?
atiretoo-복원 모니카

"부분 자기 화"가설은 "수집기"가설에 배타적입니까? 그렇다면 두 번째 모형은 확률이 p이고 크기가 4 인 이항 모형 일뿐입니다.
atiretoo-복원 모니카

답변:


5

이것은 나에게 비교적 간단한 (비선형) 혼합 모델처럼 보입니다. 식물에 중첩 된 클러스터에 시드 포드가 중첩되어 있으며 각 단계에서 임의의 효과가있는 이항 모형을 적합 할 수 있습니다.

    library(lme4)
    binre <- lmer( pollinated ~ 1 + (1|plant) + (1|cluster), data = my.data, family = binomial)

공변량이있는 경우 꽃이 자생하는 경우 식물 자체의 생존력에 자연 변화로 인해 약간의 영향이 나타날 수 있습니다. 그러나 반응의 대부분의 변동성이 군집 변동에 의해 좌우된다면, 식물에서 선택된 군집만을 방문 할 수있는 곤충에 의한 수분의 증거가 더 강할 것입니다. 이상적으로는 가우스보다는 랜덤 효과의 비모수 적 분포를 원할 것입니다. 곤충 방문이없는 점 질량 0, 양수 값의 점 질량-이것은 본질적으로 Michael Chernick이 생각한 혼합 모델입니다. GLLAMM Stata 패키지 와 함께 사용할 수 있습니다 .R에서 불가능한 경우 놀랍습니다.

아마도 깨끗한 실험을 위해 식물을 내부에 또는 최소한 곤충이 접근 할 수없는 곳에두고 수분이 얼마나 많은 씨앗이 있는지 확인하고 싶을 것입니다. 아마 당신의 모든 질문에 더 방법 론적으로 엄격한 방법으로 대답 할 것입니다.


나는 이것을 시도 할 것이고, 나는 그것이 내 자신의 질문에 대답하는 데 도움이 될 것이라고 생각하지만 그것이 어떻게 다른 사람들을 납득 시킬지는 확신하지 못한다. 당신은 두 번째 부분을 발견했습니다.이 데이터가 미래의보다 직접적인 실험에 어떻게 도움이되는지 생각하려고합니다.
BWGIA

1

이것이 각각의 개별 곤충에 대한 혼합물 분포라고 생각합니다. 확률 p로 곤충은 확률 1-p로 착륙하고 착륙하여 0 ~ 4 개의 씨앗을 분배합니다. 그러나 곤충이 식물에 착륙하는지 여부에 대한 정보가 없으면 0을 얻는 두 가지 방법을 구별 할 수 없습니다. 따라서 p를 0의 확률로 설정하면 다항 분포 (p1, p2, p3, p4) 여기서, pi는 곤충 수분이 주어 졌을 때 i 종자의 확률 p1 + p2 + p3 + p4 = 1을 조건으로한다. 이 모형에는 5 개의 미지수 p, p1, p2, p3, p4가 있으며 각 i에 대해 0이 0입니다. 충분한 데이터가 있으면 제한된 최대 우도 접근법을 사용하여 이러한 모수를 추정 할 수 있어야합니다.


나는 동의하지만 문제는 그 모델에 적합하지 않고 두 가지 다른 생물학적 가설 하에서 예측 된 분포를 생성하는 것이다. 아마도 답은 자체 가설과 일치하는 ZIB 및 "일부 다른 모델"을 맞추고이를 비교하는 것입니다.
atiretoo-복원 monica

@atiretoo 모형은 가정 된 분포와 비교할 수있는 수분 된 종자 수에 대한 추정 분포를 제공하지 않습니까?
Michael R. Chernick

합의-두 가설에 적합한 모델이있는 경우
atiretoo-복원 모니카

1

이것은 질문의 마지막 부분에 대한 답변이며, 수분 조절 자 가설에 대해 원하는 데이터를 빠르게 생성하는 방법입니다.

n = 16
max = 4
p1 = 0.1
p2 = 0.9
Y1 = rbinom(10000*n,1,p1)
Y2 = matrix(Y1*rbinom(10000*n,4,p2),ncol=16)

rzibinom()VGAM 패키지 에서도 사용할 수 있습니다 . 나는 당신이 무엇을하고 싶은지 잘 모르겠습니다. 추정해야하는 2 개의 자유 매개 변수 p1 및 p2가 있습니다. 팽창 된 이항 모형을 사용하여 데이터에서 추정하지 않는 이유는 무엇입니까?

ZIB 모델에 적합한 VGAM 패키지를 살펴보십시오. 실제로, VGAM 함수에서 ZIB에 대한 예상 분포를 얻을 dzibinom()수 있습니다. 방문 및 수분 매개 변수를 알고있는 경우 관찰 된 분포를 비교하는 데 사용할 수 있습니다. 다시 한번, ZIB 모델에 꼭 맞아야합니다.

부분 자체 가설이 곤충 수분에 배타적이라면 예상 분포는 단순히 이항식이며 이항식 계열 glm 또는 임의의 효과로 식물 id를 가진 glmm으로 모수를 추정 할 수 있습니다. 그러나 그들이 부분적으로 자생하고 곤충 수분을받을 수 있다면, 두 개의 이항 분포의 혼합이 필요합니다. 이 경우 MCMC를 사용하여 모델에 맞게 OpenBUGS 또는 JAGS를 사용하여 조사합니다.

데이터에 두 모델이 적합하면 AIC 또는 BIC 또는 선택한 다른 메트릭을 사용하여 모델이 더 적합한 모델을 비교합니다.


그 atiretoo에 감사하지만, 그 코드를 실행하면 임의의 수의 시드와 임의의 분포가 생성되는 것 같습니다. 나는 씨앗의 덩어리가 고정되기를 원한다고 생각하고 있었는데 (19 개의 씨앗, 아래 참조), 정확한 분포에 주어진 분포가 얼마나 가능성이 있는지를
보아라

죄송합니다. 게시물을 너무 빨리 쳤으며 질문에 정보를 추가했을 때 "위 참조"를 의미했습니다. 모델을 비교하기 위해 AIC를 사용하는 것에 대한 귀하의 의견에 흥미가 있습니다. 분포가 다른 모델 (동일한 반응 변수 포함)에서이를 수행 할 수 있습니까? AIC 비교가 모형에 항을 추가 / 삭제할 때만 동일한 분포 군을 지정한 경우에만 유효하다고 생각 했습니까?
BWGIA

아니, 그것은 예를 들어 뒤로 선택에 비해 AIC의 주요 장점입니다. 데이터가 동일하면 중첩되지 않은 경우에도 서로 다른 모델간에 AIC를 비교할 수 있습니다. 소프트웨어가 상수를 남기지 않고 가능성을 계산한다는 점에주의해야하지만 단일 함수 내에서 중첩되지 않은 모델을 쉽게 비교할 수 있습니다.
atiretoo-복원 모니카
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.