이항 데이터에 대한 분산 분석


32

실험 데이터 세트를 분석하고 있습니다. 데이터는 치료 유형의 쌍 벡터와 이항 결과로 구성됩니다.

Treatment    Outcome
A            1
B            0
C            0
D            1
A            0
...

결과 열에서 1은 성공을 나타내고 0은 실패를 나타냅니다. 치료법이 결과에 크게 다른지를 알아 내고 싶습니다. 각 실험에 대해 4 번의 처리가 여러 번 반복되었습니다 (각 처리 당 2000).

내 질문은, 분산 분석을 사용하여 이진 결과를 분석 할 수 있습니까? 또는 이항 데이터를 확인하기 위해 카이 제곱 검정을 사용해야합니까? 카이-제곱은 비율이 균등하게 분할 될 것이라고 가정하는 것처럼 보이지만 그렇지 않습니다. 또 다른 아이디어는 각 치료에 대한 성공과 실패 비율을 사용하여 데이터를 요약 한 다음 비율 테스트를 사용하는 것입니다.

이러한 종류의 이항 성공 / 실패 실험에 적합한 테스트 권장 사항을 듣고 싶습니다.

답변:


18

ANOVA는 아니오, 정규 분포 분포 결과 변수를 가정합니다 (다른 것들 중에서도). 고려해야 할 "구식"변형이 있지만 로지스틱 회귀 분석을 선호합니다 (귀하의 경우처럼 독립 변수가 하나만있을 때 카이 제곱과 동일 함). 카이 제곱 검정보다 로지스틱 회귀 분석을 사용하면 전체 검정 (유형 3)에서 유의 한 결과를 발견 할 경우 선형 대비를 사용하여 특정 수준의 처리를 비교할 수 있다는 장점이 있습니다. 예를 들어 A 대 B, B 대 C 등

명확성을 위해 추가 된 업데이트 :

데이터를 가져 와서 ( Allison의 doc 문서 세트 후 ) 변수 cits를 다음과 같이 사용하면 이것이 내 요점입니다.

postdocData$citsBin <- ifelse(postdocData$cits>2, 3, postdocData$cits)
postdocData$citsBin <- as.factor(postdocData$citsBin)
ordered(postdocData$citsBin, levels=c("0", "1", "2", "3"))
contrasts(postdocData$citsBin) <- contr.treatment(4, base=4) # set 4th level as reference
contrasts(postdocData$citsBin)
     #   1 2 3
     # 0 1 0 0
     # 1 0 1 0
     # 2 0 0 1
     # 3 0 0 0

# fit the univariate logistic regression model
model.1 <- glm(pdoc~citsBin, data=postdocData, family=binomial(link="logit"))

library(car) # John Fox package
car::Anova(model.1, test="LR", type="III") # type 3 analysis (SAS verbiage)
     # Response: pdoc
     #          LR Chisq Df Pr(>Chisq)
     # citsBin   1.7977  3     0.6154

chisq.test(table(postdocData$citsBin, postdocData$pdoc)) 
     # X-squared = 1.7957, df = 3, p-value = 0.6159

# then can test differences in levels, such as: contrast cits=0 minus cits=1 = 0
# Ho: Beta_1 - Beta_2 = 0
cVec <- c(0,1,-1,0)
car::linearHypothesis(model.1, cVec, verbose=TRUE) 

1
@ user2040. "유형 3"테스트를 어떻게 수행 할 지 모르겠습니다. SAS와 관련이 있습니까? (내 SAS 지식은 매우 제한적입니다). 제안한대로 2 개의 더미 변수를 사용하여 로지스틱 회귀를 수행했을 것입니다. 또한 로지스틱 회귀 분석을 수행하는 경우 올바로 이해한다는 점을 감안할 때 일부 또는 모든 계수가 0인지 테스트는 이탈 (또는 우도 비율)에 의해 수행되고 무조건 Chi-Sq입니다 (필수 df = 1 일 필요는 없음)
suncoolsu

1
@suncoolsu : 그렇습니다. 실제로 말하면 같은 결론을 얻어야합니다. "동등"이라고 말해서는 안됩니다 (빅 데이터로 작업하므로 결과는 동일합니다). 명확히하기 위해 답변에 코드를 추가했습니다.
B_Miner

8

Xkknkkkp^k=Xk/nk

g(p)=arcsinp

그러나 일부 현대의 저자는 아크 사인 변환에 상당히 회의적입니다 (예 : http://www.mun.ca/biology/dschneider/b7932/B7932Final10Dec2010.pdf 참조). 이 저자는 아크 사인으로 인해 문제가 발생할 수 있습니다. 가설 검정에만 관심이 있다면 괜찮습니다. 보다 현대적인 접근법은 로지스틱 회귀를 사용할 수 있습니다.


4
(+1) ... 모든 그룹의 번호가 같으면 관찰.
Scortchi-Monica Monica 복원

1
또는 관측치 수에 따라 가중치를 사용할 수 있습니다.
kjetil b halvorsen 10

3

Chi-Sq 테스트에 대한 의견과 다른 점이 있습니다. 데이터가 이항이 아닌 경우에도 적용 가능합니다. 그것은 mle의 점근 적 정상 성을 기반으로합니다 (대부분의 경우).

다음과 같이 로지스틱 회귀 분석을 수행합니다.

logπ^1π^=β0+β1×D1+β2×D2

어디에

D1D2D1=D2=0A,D1=1,D2=0B,D1=1D2=1C

Ho:β0=β1=β2=0

관계가있는 경우 분산 분석이 동일합니까?

Ho:β0=0

테스트가 A에 어떤 영향을 미치고 있습니까?

Ho:β1β0=0

테스트가 B에 어떤 영향을 미치고 있습니까?

Ho:β2(β0+β12)=0

테스트가 C에 어떤 영향을 미치고 있습니까?

이제 여러분이 관심있는 것을 찾기 위해 더 많은 대조를 할 수 있습니다. 이것은 여전히 ​​카이-제곱 테스트이지만 다른 자유도 (각각 3, 1, 1, 1)입니다.


나는 여전히 대조에 대해 생각할 필요가있다. 시간이 갈 때마다 수정하겠습니다. 그것에 대해 죄송합니다
suncoolsu

-3

나는 이항 의존 변수를 분석하기 위해 ANOVA를 사용해서는 안된다고 생각합니다. 많은 사람들이 이항 반응 변수의 평균을 비교하기 위해 이것을 사용하지만 (0 1) 이것은 정규성 및 등분 산 가정을 심각하게 위반하기 때문에 사용해서는 안됩니다. 카이-제곱 검정 또는 로지스틱 회귀는 이러한 상황에 가장 적합합니다.


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.